このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230913となっている論文です。

PDF登録状況(公開日: 20230913)

TitleAuthorsAbstract論文公表日・翻訳日
# 前方・後方の私的検索可能なシンメトリ暗号化に対する漏洩攻撃

Leakage-Abuse Attacks Against Forward and Backward Private Searchable Symmetric Encryption ( http://arxiv.org/abs/2309.04697v2 )

ライセンス: Link先を確認
Lei Xu, Leqian Zheng, Chengzhi Xu, Xingliang Yuan, Cong Wang, (参考訳) 動的検索可能な対称暗号(DSSE)は、サーバが暗号化されたファイルの効率的な検索と更新を可能にする。 更新時の漏洩を最小限に抑えるため、新たに提案されたDSSEスキームでは、前方および後方のプライバシというセキュリティ概念が期待されている。 これらのスキームは一般的に、検索のリンク性を壊し、特定のキーワードにクエリを更新する方法として構築される。 しかし、攻撃者がクエリ中にパッシブに収集されたクエリからクエリキーワードを復元しようとするLAA攻撃に対して、前向きと後向きのプライベートDSSEが耐性があるかどうかについては、まだ解明されていない。 本稿では,2つの非自明な取り組みを通じて,この疑問にしっかりと答えることを目指す。 まず,過去数年間,前向きおよび後向きのDSSEスキームのスペクトルを再検討し,多くのスキームに固有の構造的制約を明らかにした。 これらの制限により、攻撃者はクエリ平等を利用して、候補キーワードに従属する異なる(リフレッシュされた)クエリトークン間の保証されたリンクを確立することができる。 第2に、更新とクエリのボリュームリークプロファイルを、それぞれに特定の操作を関連付けることで洗練する。 更新ボリュームとクエリ応答ボリュームをさらに活用することにより、すべての前方および後方プライベートDSSEスキームが、そのようなセキュリティ保証のないものと同じボリューム情報(例えば、挿入ボリューム、削除ボリューム)を漏洩させることができることを示す。 本研究は,周波数マッチング攻撃と容積推論攻撃の2つの一般的なLAAを検証し,動的文脈における様々な実験環境において評価する。 最後に、検索および更新クエリ間のクエリ平等とボリューム情報を保護するための、新しい効率的なスキームを提案する。

Dynamic searchable symmetric encryption (DSSE) enables a server to efficiently search and update over encrypted files. To minimize the leakage during updates, a security notion named forward and backward privacy is expected for newly proposed DSSE schemes. Those schemes are generally constructed in a way to break the linkability across search and update queries to a given keyword. However, it remains underexplored whether forward and backward private DSSE is resilient against practical leakage-abuse attacks (LAAs), where an attacker attempts to recover query keywords from the leakage passively collected during queries. In this paper, we aim to be the first to answer this question firmly through two non-trivial efforts. First, we revisit the spectrum of forward and backward private DSSE schemes over the past few years, and unveil some inherent constructional limitations in most schemes. Those limitations allow attackers to exploit query equality and establish a guaranteed linkage among different (refreshed) query tokens surjective to a candidate keyword. Second, we refine volumetric leakage profiles of updates and queries by associating each with a specific operation. By further exploiting update volume and query response volume, we demonstrate that all forward and backward private DSSE schemes can leak the same volumetric information (e.g., insertion volume, deletion volume) as those without such security guarantees. To testify our findings, we realize two generic LAAs, i.e., frequency matching attack and volumetric inference attack, and we evaluate them over various experimental settings in the dynamic context. Finally, we call for new efficient schemes to protect query equality and volumetric information across search and update queries.
翻訳日:2024-03-25 16:20:50 公開日:2023-09-13
# 境界ストレージモデルにおける機能暗号化

Functional Encryption in the Bounded Storage Models ( http://arxiv.org/abs/2309.06702v1 )

ライセンス: Link先を確認
Mohammed Barhoush, Louis Salvail, (参考訳) 関数暗号は公開鍵暗号の強力なパラダイムであり、暗号化されたデータへの制御されたアクセスを可能にする。 このプリミティブは一般に標準設定では不可能であるため、有界量子記憶モデル(BQSM)と有界古典記憶モデル(BCSM)の可能性を検討する。 これらのモデルでは、暗号文は潜在的に消滅し、不合理な結果が無効になり、ポジティブな結果が得られる。 まず、BQSMでは、$\texttt{q}=O(\sqrt{\textt{s}/\texttt{r}})$で情報理論的に安全な機能暗号化を構築します。 ここで、$\texttt{r}$は、相手がプロトコル内の量子メモリの$\texttt{s}$-qubitsに制限される回数を表し、$\texttt{q}$はプロトコルを正直に実行するために必要な量子メモリを表す。 次に,情報理論的にセキュアな関数型暗号を$\texttt{q} < \sqrt{\texttt{s}/\texttt{r}}$で達成することは不可能であることを示す。 しかし、量子後片道関数の存在を仮定することで、従来のキーと$\texttt{q}=0$と$\texttt{r}=1$で関数暗号化を実現することができる。 次に、BCSMでは、$(O(\texttt{n}),\texttt{n}^2)$関数暗号を構築し、$(\texttt{n},\texttt{n}^2)$仮想弱灰色の箱難読化を仮定する。 ここで、$(\texttt{n},\texttt{n}^2)$は、セキュリティを壊すために必要なメモリと、セキュリティを壊すために必要なメモリを示す。 このメモリギャップは最適であり、仮定は最小限である。 特に、$(O(\texttt{n}),\texttt{n}^2)$ virtual weak gray-box obfuscation assuming $(\texttt{n},\texttt{n}^2)$ functional encryption.

Functional encryption is a powerful paradigm for public-key encryption which allows for controlled access to encrypted data. This primitive is generally impossible in the standard setting so we investigate possibilities in the bounded quantum storage model (BQSM) and the bounded classical storage model (BCSM). In these models, ciphertexts potentially disappear which nullifies impossibility results and allows us to obtain positive outcomes. Firstly, in the BQSM, we construct information-theoretically secure functional encryption with $\texttt{q}=O(\sqrt{\texttt{s}/\texttt{r}})$ where $\texttt{r}$ can be set to any value less than $\texttt{s}$. Here $\texttt{r}$ denotes the number of times that an adversary is restricted to $\texttt{s}$--qubits of quantum memory in the protocol and $\texttt{q}$ denotes the required quantum memory to run the protocol honestly. We then show that our scheme is optimal by proving that it is impossible to attain information-theoretically secure functional encryption with $\texttt{q} < \sqrt{\texttt{s}/\texttt{r}}$. However, by assuming the existence of post-quantum one-way functions, we can do far better and achieve functional encryption with classical keys and with $\texttt{q}=0$ and $\texttt{r}=1$. Secondly, in the BCSM, we construct $(O(\texttt{n}),\texttt{n}^2)$ functional encryption assuming the existence of $(\texttt{n},\texttt{n}^2)$ virtual weak grey-box obfuscation. Here, the pair $(\texttt{n},\texttt{n}^2)$ indicates the required memory to run honestly and the needed memory to break security, respectively. This memory gap is optimal and the assumption is minimal. In particular, we also construct $(O(\texttt{n}),\texttt{n}^2)$ virtual weak grey-box obfuscation assuming $(\texttt{n},\texttt{n}^2)$ functional encryption.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-13
# ZKROWNN: ニューラルネットワークのオーナシップのゼロ知識

ZKROWNN: Zero Knowledge Right of Ownership for Neural Networks ( http://arxiv.org/abs/2309.06779v1 )

ライセンス: Link先を確認
Nojan Sheybani, Zahra Ghodsi, Ritvik Kapila, Farinaz Koushanfar, (参考訳) 現代のAIモデルをトレーニングするには、学習データとコンピューティングリソースの調達に投資する必要がある。 一般的なモデルウォーターマーキングソリューションは、検出のためのキー入力トリガに依存している。 ZKROWNNはZero-Knowledge Proofs (ZKP) を利用した初の自動エンドツーエンドフレームワークである。 ZKROWNNは、サードパーティのクライアントがモデルオーナシップを1秒以内で検証できるようにする。

Training contemporary AI models requires investment in procuring learning data and computing resources, making the models intellectual property of the owners. Popular model watermarking solutions rely on key input triggers for detection; the keys have to be kept private to prevent discovery, forging, and removal of the hidden signatures. We present ZKROWNN, the first automated end-to-end framework utilizing Zero-Knowledge Proofs (ZKP) that enable an entity to validate their ownership of a model, while preserving the privacy of the watermarks. ZKROWNN permits a third party client to verify model ownership in less than a second, requiring as little as a few KBs of communication.
翻訳日:2024-03-19 06:43:22 公開日:2023-09-13
# 局所微分プライバシー下における一般グラフのスペクトルクラスタリングのロバスト性

Robustness for Spectral Clustering of General Graphs under Local Differential Privacy ( http://arxiv.org/abs/2309.06867v1 )

ライセンス: Link先を確認
Sayan Mukherjee, Vorapong Suppakitpaisarn, (参考訳) スペクトルクラスタリングは、ネットワーク内のクラスタを見つけるために広く使われているアルゴリズムである。 複数の研究者が局所微分プライバシーの下でスペクトルクラスタリングの安定性について研究しており、基礎となるネットワークは確率ブロックモデル(SBM)から生成されると仮定している。 しかし、ソーシャルネットワークはSBMから派生していないため、この仮定は制限的すぎると論じる。 このようにして、この研究における一般グラフの解析を掘り下げる。 私たちの主な焦点は、エッジフリップメソッド -- ローカルな差分プライバシーを保護するための一般的なテクニック -- にあります。 正の面では、ある合理的なクラスタリング仮定を満たす$n$-頂点グラフの辺が$O(\log n/n)$の確率で反転しても、クラスタリングの結果は概ね一貫したものである。 実証実験はこれらの理論的な発見をさらに裏付ける。 逆に、クラスタリングの結果は SBM から生成される密集グラフやクラスタリンググラフに対して安定であるが、一般にスペクトルクラスタリングは、フリップ確率が $\omega(\log n/n)$ であるとき、ある密集グラフに対して非常に不規則な結果が得られることを示す。 これは、一般的なグラフで得られる最高のプライバシー予算が$\Theta(\log n)$であることを示している。

Spectral clustering is a widely used algorithm to find clusters in networks. Several researchers have studied the stability of spectral clustering under local differential privacy with the additional assumption that the underlying networks are generated from the stochastic block model (SBM). However, we argue that this assumption is too restrictive since social networks do not originate from the SBM. Thus, delve into an analysis for general graphs in this work. Our primary focus is the edge flipping method -- a common technique for protecting local differential privacy. On a positive side, our findings suggest that even when the edges of an $n$-vertex graph satisfying some reasonable well-clustering assumptions are flipped with a probability of $O(\log n/n)$, the clustering outcomes are largely consistent. Empirical tests further corroborate these theoretical findings. Conversely, although clustering outcomes have been stable for dense and well-clustered graphs produced from the SBM, we show that in general, spectral clustering may yield highly erratic results on certain dense and well-clustered graphs when the flipping probability is $\omega(\log n/n)$. This indicates that the best privacy budget obtainable for general graphs is $\Theta(\log n)$.
翻訳日:2024-03-19 04:50:57 公開日:2023-09-13
# ランダム量子化による差分プライバシーのための通信効率の良いラプラス機構

Communication-Efficient Laplace Mechanism for Differential Privacy via Random Quantization ( http://arxiv.org/abs/2309.06982v1 )

ライセンス: Link先を確認
Ali Moradi Shahmiri, Chih Wei Ling, Cheuk Ting Li, (参考訳) サーバやデータベースに対するプライバシを確保しつつ,限られた通信量しか必要としないLaplace機構を正確に実現した最初の方法(Laplaceノイズをデータに追加する)を提案する。 当社のメカニズムは,Laplace機構を使用するローカルあるいは集中型ディファレンシャルプライバシアプリケーションに対して,ドロップインで置き換えることが可能です。 本機構はランダム量子化法を用いて構築する。 単純で一般的なLaplace-mechanism-then-quantizeアプローチとは異なり、我々のメカニズムの量子化は有用性の歪みや劣化をもたらすことはない。 付加的なラプラシアンノイズをシミュレートする既存のディザ量子化やチャネルシミュレーションと異なり、我々のメカニズムはデータベースや下流だけでなく、ディザ信号を使ってデータを復号しようとする正直だが好奇心のあるサーバに対してもプライバシーを保証する。

We propose the first method that realizes the Laplace mechanism exactly (i.e., a Laplace noise is added to the data) that requires only a finite amount of communication (whereas the original Laplace mechanism requires the transmission of a real number) while guaranteeing privacy against the server and database. Our mechanism can serve as a drop-in replacement for local or centralized differential privacy applications where the Laplace mechanism is used. Our mechanism is constructed using a random quantization technique. Unlike the simple and prevalent Laplace-mechanism-then-quantize approach, the quantization in our mechanism does not result in any distortion or degradation of utility. Unlike existing dithered quantization and channel simulation schemes for simulating additive Laplacian noise, our mechanism guarantees privacy not only against the database and downstream, but also against the honest but curious server which attempts to decode the data using the dither signals.
翻訳日:2024-03-19 04:50:57 公開日:2023-09-13
# 暗号:AIとQAIに反する

Cryptography: Against AI and QAI Odds ( http://arxiv.org/abs/2309.07022v1 )

ライセンス: Link先を確認
Sheetal Harris, Hassan Jalil Hadi, Umer Zukaib, (参考訳) 人工知能(AI)は、開発のための素晴らしい技術展望を提示しています。 サイバーワールドは、AIと量子コンピュータの出現で最悪の悪夢に直面している。 量子人工知能(QAI)とともに、現代の暗号に壊滅的な脅威をもたらす。 また、永続的で広範な予測インテリジェンスを内蔵することで、クリプトアナリスト多様体の能力も向上する。 この予測能力は、デバイス暗号における制約されたメッセージ空間を無力化する。 これらの仮定とインターセプトされた暗号文の比較により、コードクラッキングプロセスは大幅に加速する。 AIの活発で堅牢な開発に先立ち、直面することはなく、このような平易なテキストのオリジン攻撃に備える必要もなかった。 AIの優位性は、AI攻撃者がランダム性によって汚された誤った応答を与え、それらを誤指示する暗号文を作成することで、問題になる可能性がある。 AI脅威は、既知の小さなキーとパターンローディングされた暗号を従来の使用法から逸脱することで抑制される。 この戦略は、非有界制限の一方的一方的ランダム性とパターンデボイド技術によって補う、より大きな秘密サイズキーを実装するのに最適である。 非常に大きなキーサイズは、所望のユニシティ距離を達成するために、低処理と計算負荷で処理できる。 AIオッズに対する戦略は、非アルゴリズム的ランダム性、大規模で安価なメモリチップ、広域通信ネットワークを実装することで実現可能である。 AIの強み、すなわちランダムネスとパターン検出は高度に最適化された暗号とアルゴリズムを生成するために使用できる。 これらのパターンデヴォイドでランダム性に富んだ暗号は、NISTの量子チャレンジに対する前向きなアプローチに対して、タイムリーで妥当な解決策を提供する。

Artificial Intelligence (AI) presents prodigious technological prospects for development, however, all that glitters is not gold! The cyber-world faces the worst nightmare with the advent of AI and quantum computers. Together with Quantum Artificial Intelligence (QAI), they pose a catastrophic threat to modern cryptography. It would also increase the capability of cryptanalysts manifold, with its built-in persistent and extensive predictive intelligence. This prediction ability incapacitates the constrained message space in device cryptography. With the comparison of these assumptions and the intercepted ciphertext, the code-cracking process will considerably accelerate. Before the vigorous and robust developments in AI, we have never faced and never had to prepare for such a plaintext-originating attack. The supremacy of AI can be challenged by creating ciphertexts that would give the AI attacker erroneous responses stymied by randomness and misdirect them. AI threat is deterred by deviating from the conventional use of small, known-size keys and pattern-loaded ciphers. The strategy is vested in implementing larger secret size keys, supplemented by ad-hoc unilateral randomness of unbound limitations and a pattern-devoid technique. The very large key size can be handled with low processing and computational burden to achieve desired unicity distances. The strategy against AI odds is feasible by implementing non-algorithmic randomness, large and inexpensive memory chips, and wide-area communication networks. The strength of AI, i.e., randomness and pattern detection can be used to generate highly optimized ciphers and algorithms. These pattern-devoid, randomness-rich ciphers also provide a timely and plausible solution for NIST's proactive approach toward the quantum challenge.
翻訳日:2024-03-19 04:50:57 公開日:2023-09-13
# 科学計算のためのロスレス同型暗号化に向けて

Toward Lossless Homomorphic Encryption for Scientific Computation ( http://arxiv.org/abs/2309.07284v1 )

ライセンス: Link先を確認
Muhammad Jahanzeb Khan, Bo Fang, Dongfang Zhao, (参考訳) 本稿では, CKKS (Cheon-Kim-Kim-Song) 方式を用いて, 多次元ベクトル演算と実世界の応用に焦点をあてて, 暗号化処理の総合的な研究を行う。 この研究は、厳密に設計された2つの実験を通して、スーパーコンピューティングにおけるCKKSスキームの可能性とそのデータプライバシと計算効率への影響について検討した。 最初の実験では、行列乗法へのCKKSの有望な適用性を明らかにし、ユークリッド距離と行列サイズ間の平均二乗誤差の差が示されている。 第2の実験は、ワイルドファイアデータセットに適用され、精度を著しく損なうことなく、暗号化された機械学習モデルを使用することの可能性を示している。 この研究から得られた洞察は、TenSEAL内のCKKS計算におけるGPUアクセラレーションの可能性を含む、将来のイノベーションのための堅牢な基盤となる。 また、ノイズ予算計算、乗算における精度損失、CKKSの文脈における算術演算の特徴等についても論じる。 この論文は、暗号化された計算の複雑さとポテンシャルを理解するための重要なステップであり、様々な科学領域におけるセキュアなデータ処理とプライバシ保護に幅広い意味を持つ。

This paper presents a comprehensive investigation into encrypted computations using the CKKS (Cheon-Kim-Kim-Song) scheme, with a focus on multi-dimensional vector operations and real-world applications. Through two meticulously designed experiments, the study explores the potential of the CKKS scheme in Super Computing and its implications for data privacy and computational efficiency. The first experiment reveals the promising applicability of CKKS to matrix multiplication, indicating marginal differences in Euclidean distance and near-to-zero mean square error across various matrix sizes. The second experiment, applied to a wildfire dataset, illustrates the feasibility of using encrypted machine learning models without significant loss in accuracy. The insights gleaned from the research set a robust foundation for future innovations, including the potential for GPU acceleration in CKKS computations within TenSEAL. Challenges such as noise budget computation, accuracy loss in multiplication, and the distinct characteristics of arithmetic operations in the context of CKKS are also discussed. The paper serves as a vital step towards understanding the complexities and potentials of encrypted computations, with broad implications for secure data processing and privacy preservation in various scientific domains.
翻訳日:2024-03-19 04:50:57 公開日:2023-09-13
# ShiELD: ローカルな差別的プライバシを活用したセキュアなハプロタイプインプット

SHIELD: Secure Haplotype Imputation Employing Local Differential Privacy ( http://arxiv.org/abs/2309.07305v1 )

ライセンス: Link先を確認
Marc Harary, (参考訳) 本プログラムでは,配列ベースのジェノタイピングプラットフォームでは直接測定されないマーカーを用いて,対象サンプルの遺伝子型を正確に推定し,公開参照パネルへのドナーのプライバシを保存する。 ShiELDの中核は遺伝子組換えのLi-Stephensモデルであり、ゲノム情報はマルコフランダムフィールドを介して結合する祖先のハプロタイプ断片のモザイクで構成されている。 そこで本研究では, ランダム化応答技術によりプライバシが保証されるテンプレートハプロタイプの参照パネルを用いて, 対象ゲノムの祖先ハプロタイプを推定するために, 標準的なフォワード・バックワードアルゴリズムを用いて, 未観測部位における最も可能性の高いジェノタイプを推定する。

We introduce Secure Haplotype Imputation Employing Local Differential privacy (SHIELD), a program for accurately estimating the genotype of target samples at markers that are not directly assayed by array-based genotyping platforms while preserving the privacy of donors to public reference panels. At the core of SHIELD is the Li-Stephens model of genetic recombination, according to which genomic information is comprised of mosaics of ancestral haplotype fragments that coalesce via a Markov random field. We use the standard forward-backward algorithm for inferring the ancestral haplotypes of target genomes, and hence the most likely genotype at unobserved sites, using a reference panel of template haplotypes whose privacy is guaranteed by the randomized response technique from differential privacy.
翻訳日:2024-03-19 04:50:57 公開日:2023-09-13
# ハイブリッド・スキン・トポロジー効果の概観

A brief review of hybrid skin-topological effect ( http://arxiv.org/abs/2311.06637v1 )

ライセンス: Link先を確認
Weiwei Zhu, Linhu Li(参考訳) 非エルミート的皮膚効果の発見は、通常のバルク境界対応が破られ、非エルミート系特有の新しい位相相が発見される非エルミート的位相相の理解に革命をもたらした。 ハイブリッドスキントポロジー効果(Hybrid skin-topological effect, HSTE)は、皮膚局在型トポロジカルエッジ状態と拡張バルク状態とを同時にサポートする新たに発見された非エルミートトポロジカル状態のクラスである。 ここでは,非相互結合,オンサイトゲイン/ロス,非ユークリッド格子ジオメトリなど,HSTEを実現するための様々な力学から始まるHSTEの簡単なレビューを紹介する。 また,高次非エルミート皮膚効果,パリティ時対称性工学,非エルミート皮膚効果など,HSTEと密接に関連するいくつかの理論的展開を概説した。 最後に,電子回路系,非ヘルミットフォトニック結晶,活性物質系におけるhsteの実現など,最近の実験的研究を概説する。 このレビューにより、ハイブリッド・スキン効果の概念をより明確にし、高次元系における非エルミート位相状態の新たな発見を促すことができることを期待している。

The finding of non-Hermitian skin effect has revolutionized our understanding of non-Hermitian topological phases, where the usual bulk-boundary correspondence is broken and new topological phases specific to non-Hermitian system are uncovered. Hybrid skin-topological effect (HSTE) is a class of newly discovered non-Hermitian topological states that simultaneously supports skin-localized topological edge states and extended bulk states. Here we provide a brief review of HSTE, starting from different mechanics that have been used to realize HSTE, including non-reciprocal couplings, onsite gain/loss, and non-Euclidean lattice geometries. We also review some theoretical developments closely related to the HSTE, including the concept of higher-order non-Hermitian skin effect, parity-time symmetry engineering, and non-Hermitian chiral skin effect. Finally, we summarize recent experimental exploration of HSTE, including its realization in electric circuits systems, non-Hermitian photonic crystals, and active matter systems. We hope this review can make the concept of hybrid-skin effect clearer and inspire new finding of non-Hermitian topological states in higher dimensional systems.
翻訳日:2024-01-15 16:23:03 公開日:2023-09-13
# 深層濾過から深層計量まで

From Deep Filtering to Deep Econometrics ( http://arxiv.org/abs/2311.06256v1 )

ライセンス: Link先を確認
Robert Stok and Paul Bilokon(参考訳) 真のボラティリティを計算することは、オプションの価格設定とリスク管理に不可欠である。 しかし、市場マイクロ構造ノイズにより難易度が高い。 粒子フィルタリングは、統計的性質としてこの問題を解決するために提案されているが、基礎となる市場力学に関する仮定に依存している。 機械学習の手法も提案されているが、解釈性が欠如しており、しばしば性能が遅れている。 本稿では,ハイブリッドニューラルネットワークとパーティクルフィルタアーキテクチャであるSV-PF-RNNを実装した。 我々のSV-PF-RNNは確率的ボラティリティ推定を念頭に設計されている。 その結果, 基本粒子フィルタの性能が向上することを示した。

Calculating true volatility is an essential task for option pricing and risk management. However, it is made difficult by market microstructure noise. Particle filtering has been proposed to solve this problem as it favorable statistical properties, but relies on assumptions about underlying market dynamics. Machine learning methods have also been proposed but lack interpretability, and often lag in performance. In this paper we implement the SV-PF-RNN: a hybrid neural network and particle filter architecture. Our SV-PF-RNN is designed specifically with stochastic volatility estimation in mind. We then show that it can improve on the performance of a basic particle filter.
翻訳日:2024-01-15 16:20:10 公開日:2023-09-13
# 協調型マルチエージェント強化学習のためのプライバシ工学値分解ネットワーク

Privacy-Engineered Value Decomposition Networks for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2311.06255v1 )

ライセンス: Link先を確認
Parham Gohari, Matthew Hale, and Ufuk Topcu(参考訳) 協調型マルチエージェント強化学習(co-marl)では、エージェントのチームは、指定されたタスクを学ぶためにチームの長期的な報酬を共同で最適化する必要があります。 チームとしての報酬の最適化には、しばしばエージェント間のコミュニケーションとデータ共有が必要となる。 プライバシーの考慮は、エージェントが環境の相互作用データを共有することを禁じていると仮定する。 そこで我々は,エージェントの環境相互作用データの機密性を確実に保護しつつ,マルチエージェント協調をモデル化するCo-MARLアルゴリズムであるPrivacy-Engineered Value Decomposition Networks (PE-VDN)を提案する。 我々は,エージェントの環境相互作用データを統合する既存のコマルアルゴリズムであるvdnアルゴリズムを再設計し,マルチエージェント協調をモデル化する中央制御系を訓練し,pe-vdnを開発した。 最初の手法では,Vanilla VDNの環境相互作用データ共有への依存性を排除する分散計算方式を設計する。 次に,プライバシ保存型マルチパーティ計算プロトコルを用いて,分散計算方式のデータフローが新たなプライバシリスクを生じさせないことを保証する。 最後に、ニューラルネットワークの予測に基づいて行動を取るとき、エージェントのトレーニングデータ、過去の環境相互作用に対する推論脅威を予防するために、差分プライバシーを強制する。 我々は,StarCraft Multi-Agent Competition (SMAC) にPE-VDNを実装し,バニラVDNの勝利率の80%を達成し,プライバシー保証に意味のある差分レベルを維持していることを示す。 その結果,PE-VDNはマルチエージェント協調を犠牲にすることなく,エージェントの環境相互作用データの機密性を保護できることがわかった。

In cooperative multi-agent reinforcement learning (Co-MARL), a team of agents must jointly optimize the team's long-term rewards to learn a designated task. Optimizing rewards as a team often requires inter-agent communication and data sharing, leading to potential privacy implications. We assume privacy considerations prohibit the agents from sharing their environment interaction data. Accordingly, we propose Privacy-Engineered Value Decomposition Networks (PE-VDN), a Co-MARL algorithm that models multi-agent coordination while provably safeguarding the confidentiality of the agents' environment interaction data. We integrate three privacy-engineering techniques to redesign the data flows of the VDN algorithm, an existing Co-MARL algorithm that consolidates the agents' environment interaction data to train a central controller that models multi-agent coordination, and develop PE-VDN. In the first technique, we design a distributed computation scheme that eliminates Vanilla VDN's dependency on sharing environment interaction data. Then, we utilize a privacy-preserving multi-party computation protocol to guarantee that the data flows of the distributed computation scheme do not pose new privacy risks. Finally, we enforce differential privacy to preempt inference threats against the agents' training data, past environment interactions, when they take actions based on their neural network predictions. We implement PE-VDN in StarCraft Multi-Agent Competition (SMAC) and show that it achieves 80% of Vanilla VDN's win rate while maintaining differential privacy levels that provide meaningful privacy guarantees. The results demonstrate that PE-VDN can safeguard the confidentiality of agents' environment interaction data without sacrificing multi-agent coordination.
翻訳日:2024-01-15 16:20:00 公開日:2023-09-13
# 高周波取引における高次統計量化のための深いQ-Learning:包括的探索

Harnessing Deep Q-Learning for Enhanced Statistical Arbitrage in High-Frequency Trading: A Comprehensive Exploration ( http://arxiv.org/abs/2311.10718v1 )

ライセンス: Link先を確認
Soumyadip Sarkar(参考訳) 高周波取引(hft)の領域は、市場の非効率性に乗じた迅速な意思決定プロセスによって特徴づけられる。 金融市場がますます競争力を持つようになるにつれて、市場のダイナミクスの変化に適応し発展できる革新的戦略が求められている。 強化学習(rl)は、エージェントが環境と対話することで学習し、hftアプリケーションにとって興味深い候補となる機械学習の分野である。 本稿では,HFTシナリオに適した統計仲裁戦略におけるRLの統合について述べる。 RLの適応学習能力を活用することで、パターンを抽出し、従来の手法が見逃す可能性のあるトレーディング戦略を考案する可能性を探る。 我々は、RL固有の複雑な探査・探査のトレードオフと、それがHFTの揮発性世界でどのように現れるのかを掘り下げる。 さらに、金融市場の典型である非定常環境におけるRL適用の課題に直面し、関連するリスクを軽減するための方法論を検討する。 広範なシミュレーションとバックテストを通じて、rlはトレーディング戦略の適応性を高めるだけでなく、収益性指標やリスク調整済みリターンを改善する可能性も示しています。 そこで本稿では,次世代のHFT統計仲裁においてRLを重要なツールとして位置づけ,この分野の研究者と実践者の両方に洞察を提供する。

The realm of High-Frequency Trading (HFT) is characterized by rapid decision-making processes that capitalize on fleeting market inefficiencies. As the financial markets become increasingly competitive, there is a pressing need for innovative strategies that can adapt and evolve with changing market dynamics. Enter Reinforcement Learning (RL), a branch of machine learning where agents learn by interacting with their environment, making it an intriguing candidate for HFT applications. This paper dives deep into the integration of RL in statistical arbitrage strategies tailored for HFT scenarios. By leveraging the adaptive learning capabilities of RL, we explore its potential to unearth patterns and devise trading strategies that traditional methods might overlook. We delve into the intricate exploration-exploitation trade-offs inherent in RL and how they manifest in the volatile world of HFT. Furthermore, we confront the challenges of applying RL in non-stationary environments, typical of financial markets, and investigate methodologies to mitigate associated risks. Through extensive simulations and backtests, our research reveals that RL not only enhances the adaptability of trading strategies but also shows promise in improving profitability metrics and risk-adjusted returns. This paper, therefore, positions RL as a pivotal tool for the next generation of HFT-based statistical arbitrage, offering insights for both researchers and practitioners in the field.
翻訳日:2024-01-15 16:12:33 公開日:2023-09-13
# 実験,クラウドソーシング,シミュレーション,学習を組み合わせたエンド・ツー・エンドのフェーズフィールドモデル探索

End-to-end Phase Field Model Discovery Combining Experimentation, Crowdsourcing, Simulation and Learning ( http://arxiv.org/abs/2311.12801v1 )

ライセンス: Link先を確認
Md Nasim, Anter El-Azab, Xinghang Zhang, Yexiang Xue(参考訳) テラバイト規模の実験データの利用は、データから科学的モデルを自動的に発見するai駆動アプローチを呼び出す。 それでもAIによる科学的発見には大きな課題がある。 i)大規模データセットのアノテーションは,スケーラブルなクラウドソーシングツールの開発において,基本的な再考を必要とする。 (ii)ブラックボックスニューラルネット以外のイノベーションを求めるデータから科学的モデルを学ぶこと。 三 実験物理学者及び計算機科学者の協力のために新しい可視化・診断ツールが必要である。 本稿では、実験データから位相場モデルを自動的に発見し、実験、クラウドソーシング、シミュレーション、学習を統合するエンド・ツー・エンドの位相場モデル探索のためのフェーズ・フィールド・ラボ・プラットフォームを提案する。 Phase-Field-Lab コンビネーション (i)ベースラインと比較してアノテーションの正確性を高めつつ、アノテーション時間を(約50~75%)短縮する合理化されたアノテーションツール (ii)フェーズフィールドシミュレーションと既存のドメイン知識を組み込んで、データから自動的にフェーズフィールドモデルを学習するエンド・ツー・エンドのニューラルモデル (iii) ドメイン科学者の科学的発見サイクルにプラットフォームを統合するための新しいインターフェースと可視化。 極端条件(高温・照射)下での材料中のナノ構造変化の解析に本プラットフォームを応用した。 本手法は,手動解析では検出できないナノボイド欠陥の新たな特性を明らかにする。

The availability of tera-byte scale experiment data calls for AI driven approaches which automatically discover scientific models from data. Nonetheless, significant challenges present in AI-driven scientific discovery: (i) The annotation of large scale datasets requires fundamental re-thinking in developing scalable crowdsourcing tools. (ii) The learning of scientific models from data calls for innovations beyond black-box neural nets. (iii) Novel visualization and diagnosis tools are needed for the collaboration of experimental and theoretical physicists, and computer scientists. We present Phase-Field-Lab platform for end-to-end phase field model discovery, which automatically discovers phase field physics models from experiment data, integrating experimentation, crowdsourcing, simulation and learning. Phase-Field-Lab combines (i) a streamlined annotation tool which reduces the annotation time (by ~50-75%), while increasing annotation accuracy compared to baseline; (ii) an end-to-end neural model which automatically learns phase field models from data by embedding phase field simulation and existing domain knowledge into learning; and (iii) novel interfaces and visualizations to integrate our platform into the scientific discovery cycle of domain scientists. Our platform is deployed in the analysis of nano-structure evolution in materials under extreme conditions (high temperature and irradiation). Our approach reveals new properties of nano-void defects, which otherwise cannot be detected via manual analysis.
翻訳日:2024-01-15 15:44:58 公開日:2023-09-13
# Loghub: AI駆動ログ分析のためのシステムログデータセットの大規模なコレクション

Loghub: A Large Collection of System Log Datasets for AI-driven Log Analytics ( http://arxiv.org/abs/2008.06448v3 )

ライセンス: Link先を確認
Jieming Zhu, Shilin He, Pinjia He, Jinyang Liu, and Michael R. Lyu(参考訳) ログは、記録した豊富なランタイム情報のために、ソフトウェアシステムの開発とメンテナンスに広く採用されている。 近年、ソフトウェアのサイズと複雑さの増加は、ログのボリュームを急速に増加させています。 これらの大量のログを効率的かつ効率的に処理するために、インテリジェントで自動化されたログ分析技術の開発に焦点が当てられている。 しかしながら、公開ログデータセットの欠如と、それらに対するオープンなベンチマークのため、業界におけるデプロイメントの成功に到達したテクニックはごくわずかである。 この大きなギャップを埋め、AI駆動のログ分析の研究を促進するために、システムログデータセットの大規模なコレクションであるloghubを収集、リリースしました。 特にloghubは、分散システム、スーパーコンピュータ、オペレーティングシステム、モバイルシステム、サーバアプリケーション、スタンドアロンソフトウェアなど、幅広いソフトウェアシステムから収集された19の現実世界のログデータセットを提供する。 本稿では,これらのデータセットの統計を要約し,loghubデータセットの実用シナリオを紹介し,この分野の研究者や実践者のためにloghubのベンチマーク結果を紹介する。 この論文の執筆時点までに、loghubデータセットは、業界とアカデミアの両方から数百の組織によって、合計で約9万回ダウンロードされている。 loghubデータセットはhttps://github.com/logpai/loghub.com/で入手できる。

Logs have been widely adopted in software system development and maintenance because of the rich runtime information they record. In recent years, the increase of software size and complexity leads to the rapid growth of the volume of logs. To handle these large volumes of logs efficiently and effectively, a line of research focuses on developing intelligent and automated log analysis techniques. However, only a few of these techniques have reached successful deployments in industry due to the lack of public log datasets and open benchmarking upon them. To fill this significant gap and facilitate more research on AI-driven log analytics, we have collected and released loghub, a large collection of system log datasets. In particular, loghub provides 19 real-world log datasets collected from a wide range of software systems, including distributed systems, supercomputers, operating systems, mobile systems, server applications, and standalone software. In this paper, we summarize the statistics of these datasets, introduce some practical usage scenarios of the loghub datasets, and present our benchmarking results on loghub to benefit the researchers and practitioners in this field. Up to the time of this paper writing, the loghub datasets have been downloaded for roughly 90,000 times in total by hundreds of organizations from both industry and academia. The loghub datasets are available at https://github.com/logpai/loghub.
翻訳日:2023-10-24 16:07:59 公開日:2023-09-13
# ユーザフィードバックのライフサイクルを明らかにする - ソフトウェア実践者のベストプラクティス

Unveiling the Life Cycle of User Feedback: Best Practices from Software Practitioners ( http://arxiv.org/abs/2309.07345v1 )

ライセンス: Link先を確認
Ze Shi Li, Nowshin Nawar Arony, Kezia Devathasan, Manish Sihag, Neil Ernst, Daniela Damian(参考訳) ユーザフィードバックは、組織がソフトウェア製品を改善するために重要になっている。 以前の研究では、主にフィードバック収集に焦点を合わせ、プロセスの高レベルな概要を報告し、多くの場合、実践者がどのように考えるかを見落とし、構造化されたアクティビティを通じてこのフィードバックを実践した。 本研究は,eコマース,アナリティクス,ゲームなど,さまざまな規模の32の組織から40人の実践者を対象に,探索的なインタビューを行った。 以上の結果から,組織はさまざまなユーザフィードバックソースを活用することが示唆された。 ソーシャルメディアは、多くの組織にとってますます重要になっているフィードバックの重要なカテゴリとして登場した。 組織は、ソースに応じて、ユーザのフィードバックをキュレートし、行動するために、多くの非自明な活動に積極的に取り組んでいます。 これらのアクティビティを,ユーザフィードバックを管理するライフサイクルに合成する。 また,組織がユーザのフィードバックを効果的に理解し対処していると感じた実践者の反応から抽出した,ユーザフィードバック管理のベストプラクティスについても報告する。 我々は,より優れた製品に対するユーザ認識と行動に対する理解を高めるために,組織が活用できる実用的な実証結果を示す。

User feedback has grown in importance for organizations to improve software products. Prior studies focused primarily on feedback collection and reported a high-level overview of the processes, often overlooking how practitioners reason about, and act upon this feedback through a structured set of activities. In this work, we conducted an exploratory interview study with 40 practitioners from 32 organizations of various sizes and in several domains such as e-commerce, analytics, and gaming. Our findings indicate that organizations leverage many different user feedback sources. Social media emerged as a key category of feedback that is increasingly critical for many organizations. We found that organizations actively engage in a number of non-trivial activities to curate and act on user feedback, depending on its source. We synthesize these activities into a life cycle of managing user feedback. We also report on the best practices for managing user feedback that we distilled from responses of practitioners who felt that their organization effectively understood and addressed their users' feedback. We present actionable empirical results that organizations can leverage to increase their understanding of user perception and behavior for better products thus reducing user attrition.
翻訳日:2023-10-23 07:51:15 公開日:2023-09-13
# CRIL: 並行可逆中間言語

CRIL: A Concurrent Reversible Intermediate Language ( http://arxiv.org/abs/2309.07310v1 )

ライセンス: Link先を確認
Shunya Oguchi (Graduate School of Informatics, Nagoya University), Shoji Yuen (Graduate School of Informatics, Nagoya University)(参考訳) 本稿では,高レベル並列プログラミング言語を別の低レベル並列言語に変換するための並列性を備えた可逆中間言語を提案する。 中間言語は、ソースプログラムを機械コードに近いオブジェクトコードプログラムにコンパイルする際によく使用され、中間言語は行動解析と最適化を段階的に分解することができる。 機能的可逆言語としてMogensenが用いたCRIL(Concurrent Reversible Intermediate Language)の拡張として,マルチスレッドプロセス呼び出しとP-V操作に基づく同期プリミティブを組み込んだCRILを提案する。 CRILの操作的意味論は,Laneseらによって提唱された因果的安全性や因果的生存性など,可逆性の性質を享受し,公理的特性を確認する。 オペレーションセマンティクスは、アノテーションDAGと呼ばれるメモリ更新時の依存情報と双方向制御フローを構成することで定義される。 並列処理を伴う命令型プログラムにおいて,CRILが可逆性の因果性を保っていることを示すために,'Airline ticketing'の簡単な例を示す。

We present a reversible intermediate language with concurrency for translating a high-level concurrent programming language to another lower-level concurrent programming language, keeping reversibility. Intermediate languages are commonly used in compiling a source program to an object code program closer to the machine code, where an intermediate language enables behavioral analysis and optimization to be decomposed in steps. We propose CRIL (Concurrent Reversible Intermediate Language) as an extension of RIL used by Mogensen for a functional reversible language, incorporating a multi-thread process invocation and the synchronization primitives based on the P-V operations. We show that the operational semantics of CRIL enjoy the properties of reversibility, including the causal safety and causal liveness proposed by Lanese et al., checking the axiomatic properties. The operational semantics is defined by composing the bidirectional control flow with the dependency information on updating the memory, called annotation DAG. We show a simple example of `airline ticketing' to illustrate how CRIL preserves the causality for reversibility in imperative programs with concurrency.
翻訳日:2023-10-23 07:50:56 公開日:2023-09-13
# 時間的アクターとその形式的検証

Timed Actors and Their Formal Verification ( http://arxiv.org/abs/2309.07302v1 )

ライセンス: Link先を確認
Marjan Sirjani, Ehsan Khamespanah(参考訳) 本稿では,アクタベースの言語であるtimed rebecaについて,その形式的意味論と形式的検証技術に注目して検討する。 Timed Rebecaは非同期メッセージパッシングによって通信するカプセル化されたコンポーネントで構成されるシステムをモデル化するために使用できる。 メッセージは受信者アクタのメッセージバッファに置かれ、イベントとして見ることができる。 コンポーネントはこれらのメッセージ/イベントに応答し、対応するメッセージ/イベントハンドラを実行する。 計算遅延、ネットワーク遅延、周期的動作といったリアルタイム機能は、言語でモデル化することができる。 本稿では,FTTS (Floating-Time Transition System) とTTS (Common Timed Transition System) の両方を,そのようなモデルのセマンティクスやモデルチェックの基礎として用いる方法について説明する。 イベントベースのプロパティに関心がある場合はFTTSを使用し、状態空間の削減に役立ちます。 ある時点で変数の値に基づいてプロパティをチェックするには、TSセマンティクスを使用します。 モデルチェックツールセットは、スケジューリング可能性分析、デッドロックとキューオーバーフローチェック、アサーションベースのTimed Rebecaモデルの検証をサポートする。 TTSに基づくTCTLモデルチェックも可能だが、ツールには組み込まれていない。

In this paper we review the actor-based language, Timed Rebeca, with a focus on its formal semantics and formal verification techniques. Timed Rebeca can be used to model systems consisting of encapsulated components which communicate by asynchronous message passing. Messages are put in the message buffer of the receiver actor and can be seen as events. Components react to these messages/events and execute the corresponding message/event handler. Real-time features, like computation delay, network delay and periodic behavior, can be modeled in the language. We explain how both Floating-Time Transition System (FTTS) and common Timed Transition System (TTS) can be used as the semantics of such models and the basis for model checking. We use FTTS when we are interested in event-based properties, and it helps in state space reduction. For checking the properties based on the value of variables at certain point in time, we use the TTS semantics. The model checking toolset supports schedulability analysis, deadlock and queue-overflow check, and assertion based verification of Timed Rebeca models. TCTL model checking based on TTS is also possible but is not integrated in the tool.
翻訳日:2023-10-23 07:50:34 公開日:2023-09-13
# 科学的ワークフローの再利用性課題:Galaxyのケーススタディ

Reusability Challenges of Scientific Workflows: A Case Study for Galaxy ( http://arxiv.org/abs/2309.07291v1 )

ライセンス: Link先を確認
Khairul Alam, Banani Roy, Alexander Serebrenik(参考訳) 科学的なワークフローは、科学実験を設計、実行、分析するための構造化されたアプローチを提供するので、ソフトウェア工学において不可欠になっている。 ソフトウェア開発者や研究者は何百もの科学ワークフロー管理システムを開発しており、様々な分野の科学者が反復的なタスクを自動化し、コラボレーションを強化し、結果の再現性を確保することで恩恵を受けることができる。 しかし、専門家のユーザでさえ、ツールの劇的な成長とデータの多様性のため、ワークフローの作成は複雑なタスクである。 したがって、科学者はワークフローリポジトリで共有されている既存のワークフローを再利用しようとする。 残念なことに、いくつかの課題は科学者がこれらのワークフローを再利用することを妨げる。 そこで本研究では,これらの再利用可能な課題の同定を試みた。 我々はまた、科学的ワークフローの再利用を促進するためのアクションリストとエビデンスに基づくガイドラインも提示した。 我々は,既存のワークフローの再利用可能性を調査し,いくつかの課題を明らかにした。 再利用性防止の課題には、ツールのアップグレード、ツールサポートの非可用性、設計上の欠陥、不完全なワークフロー、ワークフローのロード失敗などが含まれる。 このような課題とアクションリストは、将来のワークフロー作曲家に対して、再利用性を高めたより良いワークフローを作成するためのガイドラインを提供します。 将来的には、科学者が効果的でエラーのないワークフローを作成するのを支援する再利用可能なワークフローを用いたリコメンダシステムを開発する予定です。

Scientific workflow has become essential in software engineering because it provides a structured approach to designing, executing, and analyzing scientific experiments. Software developers and researchers have developed hundreds of scientific workflow management systems so scientists in various domains can benefit from them by automating repetitive tasks, enhancing collaboration, and ensuring the reproducibility of their results. However, even for expert users, workflow creation is a complex task due to the dramatic growth of tools and data heterogeneity. Thus, scientists attempt to reuse existing workflows shared in workflow repositories. Unfortunately, several challenges prevent scientists from reusing those workflows. In this study, we thus first attempted to identify those reusability challenges. We also offered an action list and evidence-based guidelines to promote the reusability of scientific workflows. Our intensive manual investigation examined the reusability of existing workflows and exposed several challenges. The challenges preventing reusability include tool upgrading, tool support unavailability, design flaws, incomplete workflows, failure to load a workflow, etc. Such challenges and our action list offered guidelines to future workflow composers to create better workflows with enhanced reusability. In the future, we plan to develop a recommender system using reusable workflows that can assist scientists in creating effective and error-free workflows.
翻訳日:2023-10-23 07:50:13 公開日:2023-09-13
# ESRO: 障害に対するサービスの信頼性を支援するエクスペリエンス

ESRO: Experience Assisted Service Reliability against Outages ( http://arxiv.org/abs/2309.07230v1 )

ライセンス: Link先を確認
Sarthak Chakraborty, Shubham Agarwal, Shaddy Garg, Abhimanyu Sethia, Udit Narayan Pandey, Videh Aggarwal, Shiv Saini(参考訳) 現代のクラウドサービスは、複雑なアーキテクチャのために障害が発生しやすいため、診断が重要なプロセスになります。 Site Reliability Engineers(SRE)は、過去の経験を通じてアラート、エラーログ、ドメインの専門知識など、複数のデータソースを活用するために、何時間も費やしている。 これらの経験は、以前の機能停止の報告で自然言語テキストとして記録されている。 しかし、レポートに生で豊かな半構造化情報を体系的に利用するのは時間がかかります。 一方で、障害診断時によく使用されるアラートのような構造化情報は、鮮やかであり、識別するには専門家の知識を必要とする。 根本原因分析のために各データソースを別々に使用する戦略がいくつか提案されている。 本研究では,構造的および半構造化データソースを体系的に活用することにより,根本原因と障害の修復を推奨するesroと呼ばれる診断サービスを構築した。 ESROは警告と知識グラフを使用して因果グラフを構築し、トレーニング中に統一グラフを形成する新しい方法でそれらをマージする。 次に、検索ベースのメカニズムを使用して、統合されたグラフを検索し、推測時の停止時に発生した警告に基づいて、潜在的な根本原因と修復テクニックをランク付けする。 個々のアラートだけでなく、停止グループを予測する上でのそれぞれの重要性もレコメンデーション中に考慮される。 私たちは,2年間にわたって大規模saas企業のクラウドサービス障害について評価を行い,最先端のベースライン上での根本原因と根本原因を比較した結果,ルージュスコアの平均値が27%向上した。 さらに,複数の実機能停止例に対する定性解析によりESROの有効性を確立する。

Modern cloud services are prone to failures due to their complex architecture, making diagnosis a critical process. Site Reliability Engineers (SREs) spend hours leveraging multiple sources of data, including the alerts, error logs, and domain expertise through past experiences to locate the root cause(s). These experiences are documented as natural language text in outage reports for previous outages. However, utilizing the raw yet rich semi-structured information in the reports systematically is time-consuming. Structured information, on the other hand, such as alerts that are often used during fault diagnosis, is voluminous and requires expert knowledge to discern. Several strategies have been proposed to use each source of data separately for root cause analysis. In this work, we build a diagnostic service called ESRO that recommends root causes and remediation for failures by utilizing structured as well as semi-structured sources of data systematically. ESRO constructs a causal graph using alerts and a knowledge graph using outage reports, and merges them in a novel way to form a unified graph during training. A retrieval-based mechanism is then used to search the unified graph and rank the likely root causes and remediation techniques based on the alerts fired during an outage at inference time. Not only the individual alerts, but their respective importance in predicting an outage group is taken into account during recommendation. We evaluated our model on several cloud service outages of a large SaaS enterprise over the course of ~2 years, and obtained an average improvement of 27% in rouge scores after comparing the likely root causes against the ground truth over state-of-the-art baselines. We further establish the effectiveness of ESRO through qualitative analysis on multiple real outage examples.
翻訳日:2023-10-23 07:49:53 公開日:2023-09-13
# データパイプラインの品質: 影響要因、データ関連問題の根本原因、開発者のための処理問題領域

Data Pipeline Quality: Influencing Factors, Root Causes of Data-related Issues, and Processing Problem Areas for Developers ( http://arxiv.org/abs/2309.07067v1 )

ライセンス: Link先を確認
Harald Foidl, Valentina Golendukhina, Rudolf Ramler, Michael Felderer(参考訳) データパイプラインは、さまざまな現代的なデータ駆動システムにおいて不可欠な部分です。 しかし、その重要性にもかかわらず、信頼できないことが多く、品質の悪いデータを提供する。 この状況を改善するための重要なステップは、データパイプラインの品質に寄与する側面をしっかりと理解することだ。 そこで本稿ではまず,データパイプラインの品質データ提供能力に影響を与える41の要因を分類する。 分類学は多言語文献レビューに基づいており、データエンジニアリング分野の専門家との8つのインタビューによって検証されている。 データ、インフラストラクチャ、ライフサイクル管理、開発とデプロイメント、および処理が主な影響するテーマであることがわかった。 次に,githubプロジェクトとstack overflowの投稿をマイニングすることによって,データ関連の問題の根本原因,データパイプラインにおける位置,データパイプライン処理の問題の主なトピックを調査した。 データ関連の問題は,パイプラインのデータクリーニング段階(35%)で主に発生する不正なデータ型(33%)が原因であることがわかった。 データ統合と取り込みタスクは開発者の最も質問の多いトピックであり、すべての質問のほぼ半分(47%)を占めています。 互換性の問題は、通常のデータパイプライン処理領域(データローディング、取り込み、統合、クリーニング、変換など)に対応する問題に加えて、別の問題領域であることが判明した。 これらの結果は、将来の研究は互換性とデータ型の問題をより深く分析し、データ統合と取り込みタスクにおける開発者を支援することに重点を置くべきであることを示唆している。 提案する分類法は,品質保証活動の文脈において実践者にとって有用であり,データパイプライン品質に関する今後の研究を促進する。

Data pipelines are an integral part of various modern data-driven systems. However, despite their importance, they are often unreliable and deliver poor-quality data. A critical step toward improving this situation is a solid understanding of the aspects contributing to the quality of data pipelines. Therefore, this article first introduces a taxonomy of 41 factors that influence the ability of data pipelines to provide quality data. The taxonomy is based on a multivocal literature review and validated by eight interviews with experts from the data engineering domain. Data, infrastructure, life cycle management, development & deployment, and processing were found to be the main influencing themes. Second, we investigate the root causes of data-related issues, their location in data pipelines, and the main topics of data pipeline processing issues for developers by mining GitHub projects and Stack Overflow posts. We found data-related issues to be primarily caused by incorrect data types (33%), mainly occurring in the data cleaning stage of pipelines (35%). Data integration and ingestion tasks were found to be the most asked topics of developers, accounting for nearly half (47%) of all questions. Compatibility issues were found to be a separate problem area in addition to issues corresponding to the usual data pipeline processing areas (i.e., data loading, ingestion, integration, cleaning, and transformation). These findings suggest that future research efforts should focus on analyzing compatibility and data type issues in more depth and assisting developers in data integration and ingestion tasks. The proposed taxonomy is valuable to practitioners in the context of quality assurance activities and fosters future research into data pipeline quality.
翻訳日:2023-10-23 07:49:16 公開日:2023-09-13
# APICom: プロンプト学習と逆行訓練に基づくデータ拡張による自動API補完

APICom: Automatic API Completion via Prompt Learning and Adversarial Training-based Data Augmentation ( http://arxiv.org/abs/2309.07026v1 )

ライセンス: Link先を確認
Yafeng Gu, Yiheng Shen, Xiang Chen, Shaoyu Yang, Yiling Huang, Zhixiang Cao(参考訳) 開発者のニーズと利用シナリオに基づいて、API(Application Programming Interface)レコメンデーションは、開発者が多数の候補APIの中で必要なAPIを見つけるのを支援するプロセスである。 従来の研究では、主にAPIレコメンデーションをレコメンデーションタスクとしてモデル化しており、クエリに対して複数の候補APIをレコメンデーションすることができる。 ニューラルマシン翻訳研究ドメインによって動機付けられたこの問題は、開発者クエリに必要なAPIを直接生成することを目的とした生成タスクとしてモデル化することができる。 予備調査の結果,この直感的アプローチの性能は期待できないことがわかった。 その理由は、apiのプレフィックスを生成する際にエラーが発生するからだ。 しかし、ほとんどの場合、開発者は実際の開発中に特定のAPIプレフィックス情報を知っているかもしれない。 そこで我々は,この問題を自動補完タスクとしてモデル化し,プロンプトに基づいてクエリに関連するAPI(APIプレフィックス情報)を生成する,プロンプト学習に基づく新しいアプローチAPIComを提案する。 さらに、APIComの有効性はトレーニングデータセットの品質に大きく依存する。 本研究では,データ拡張のための新しい勾配に基づく逆学習法であるatpartを設計し,逆例生成時の正規化安定性を向上させる。 APIComの有効性を評価するために、33kの開発者クエリと対応するAPIをコーパスとして検討する。 現状のベースラインと比較すると,APIComは,EM@1,MRR,MAPの順に,少なくとも40.02\%,13.20\%,16.31\%のベースラインを達成できることがわかった。 最後に,我々はapicomにおけるコンポーネント設定の有効性を確認した(例えば,設計したadversarial training method,使用済みの事前学習モデル,即席学習)。

Based on developer needs and usage scenarios, API (Application Programming Interface) recommendation is the process of assisting developers in finding the required API among numerous candidate APIs. Previous studies mainly modeled API recommendation as the recommendation task, which can recommend multiple candidate APIs for the given query, and developers may not yet be able to find what they need. Motivated by the neural machine translation research domain, we can model this problem as the generation task, which aims to directly generate the required API for the developer query. After our preliminary investigation, we find the performance of this intuitive approach is not promising. The reason is that there exists an error when generating the prefixes of the API. However, developers may know certain API prefix information during actual development in most cases. Therefore, we model this problem as the automatic completion task and propose a novel approach APICom based on prompt learning, which can generate API related to the query according to the prompts (i.e., API prefix information). Moreover, the effectiveness of APICom highly depends on the quality of the training dataset. In this study, we further design a novel gradient-based adversarial training method {\atpart} for data augmentation, which can improve the normalized stability when generating adversarial examples. To evaluate the effectiveness of APICom, we consider a corpus of 33k developer queries and corresponding APIs. Compared with the state-of-the-art baselines, our experimental results show that APICom can outperform all baselines by at least 40.02\%, 13.20\%, and 16.31\% in terms of the performance measures EM@1, MRR, and MAP. Finally, our ablation studies confirm the effectiveness of our component setting (such as our designed adversarial training method, our used pre-trained model, and prompt learning) in APICom.
翻訳日:2023-10-23 07:48:48 公開日:2023-09-13
# OrdinalFix: 最短パスCFL到達可能性によるコンパイルエラーの修正

OrdinalFix: Fixing Compilation Errors via Shortest-Path CFL Reachability ( http://arxiv.org/abs/2309.06771v1 )

ライセンス: Link先を確認
Wenjie Zhang, Guancheng Wang, Junjie Chen, Yingfei Xiong, Yong Liu, Lu Zhang(参考訳) 正しい、効率的なソフトウェアの開発はコンパイルエラーによって妨げられ、コードの構文的正確性とプログラム言語の制約を確実にするために修正されなければならない。 この問題に対処するためにニューラルネットワークベースのアプローチが使用されているが、出力の正確性の保証がなく、無限の修正を必要とする可能性がある。 所定の数の修正でコンパイルエラーを修正するのは難しい作業です。 コンパイルエラーを修正するための最小限の変更数を見つけることはNPハードであることを示す。 コンパイルエラー修正問題に対処するために,最短パスcfl(context-free language)到達可能性に基づく完全アルゴリズムであるordinalfixを提案する。 具体的には、ordinalfixは修正可能な最小から最大までの修正を検索する。 統合属性チェックを組み込んで効率を高めることで、OrdinalFixの時間複雑さがアプリケーションに受け入れられる。 2つのデータセットのordinalfixを評価し,適切な時間内にコンパイルエラーを修正する能力を示す。 既存のアプローチと比較すると、OrdinalFixは83.5%の成功率に達し、既存のすべてのアプローチ(71.7%)を上回っている。

The development of correct and efficient software can be hindered by compilation errors, which must be fixed to ensure the code's syntactic correctness and program language constraints. Neural network-based approaches have been used to tackle this problem, but they lack guarantees of output correctness and can require an unlimited number of modifications. Fixing compilation errors within a given number of modifications is a challenging task. We demonstrate that finding the minimum number of modifications to fix a compilation error is NP-hard. To address compilation error fixing problem, we propose OrdinalFix, a complete algorithm based on shortest-path CFL (context-free language) reachability with attribute checking that is guaranteed to output a program with the minimum number of modifications required. Specifically, OrdinalFix searches possible fixes from the smallest to the largest number of modifications. By incorporating merged attribute checking to enhance efficiency, the time complexity of OrdinalFix is acceptable for application. We evaluate OrdinalFix on two datasets and demonstrate its ability to fix compilation errors within reasonable time limit. Comparing with existing approaches, OrdinalFix achieves a success rate of 83.5%, surpassing all existing approaches (71.7%).
翻訳日:2023-10-23 07:48:17 公開日:2023-09-13
# オフライン強化学習のための実世界四足歩行ベンチマーク

A Real-World Quadrupedal Locomotion Benchmark for Offline Reinforcement Learning ( http://arxiv.org/abs/2309.16718v1 )

ライセンス: Link先を確認
Hongyin Zhang, Shuyu Yang and Donglin Wang(参考訳) オンライン強化学習(RL)法は、しばしばデータ非効率または信頼性が低いため、実際のロボットハードウェア、特に四足歩行ロボットのトレーニングが困難である。 事前に収集されたデータからロボットタスクを学ぶことは、有望な方向だ。 一方、アジャイルで安定した足のロボットの移動は、一般的な形でのオープンな疑問である。 オフライン強化学習(orl)は、この困難な分野でブレークスルーを起こす可能性があるが、現在のボトルネックは、現実的なタスクに挑戦するための多様なデータセットの欠如にある。 ORLの開発を容易にするため,現実的な四足歩行データセットを用いて11のORLアルゴリズムをベンチマークした。 このようなデータセットは、従来のベンチマークでよく使われるモデルフリーオンラインRL法ではなく、古典的モデル予測制御(MPC)法によって収集される。 実験結果から,ORLアルゴリズムはモデルフリーのRLよりも高い性能を達成でき,性能が向上することを示した。 しかし、学習に基づく手法とMPCの間には、特に安定性と迅速な適応の観点からはまだギャップがある。 提案するベンチマークは,実世界の歩行作業におけるORLアルゴリズムの性能試験と評価のための開発プラットフォームとして機能する。

Online reinforcement learning (RL) methods are often data-inefficient or unreliable, making them difficult to train on real robotic hardware, especially quadruped robots. Learning robotic tasks from pre-collected data is a promising direction. Meanwhile, agile and stable legged robotic locomotion remains an open question in their general form. Offline reinforcement learning (ORL) has the potential to make breakthroughs in this challenging field, but its current bottleneck lies in the lack of diverse datasets for challenging realistic tasks. To facilitate the development of ORL, we benchmarked 11 ORL algorithms in the realistic quadrupedal locomotion dataset. Such dataset is collected by the classic model predictive control (MPC) method, rather than the model-free online RL method commonly used by previous benchmarks. Extensive experimental results show that the best-performing ORL algorithms can achieve competitive performance compared with the model-free RL, and even surpass it in some tasks. However, there is still a gap between the learning-based methods and MPC, especially in terms of stability and rapid adaptation. Our proposed benchmark will serve as a development platform for testing and evaluating the performance of ORL algorithms in real-world legged locomotion tasks.
翻訳日:2023-10-23 05:48:11 公開日:2023-09-13
# CFDBench:流体力学における機械学習手法の総合ベンチマーク

CFDBench: A Comprehensive Benchmark for Machine Learning Methods in Fluid Dynamics ( http://arxiv.org/abs/2310.05963v1 )

ライセンス: Link先を確認
Yining Luo, Yingfa Chen, Zhen Zhang(参考訳) 近年,深層学習を物理学問題に適用する動きが注目されている。 データ駆動深層学習法は、偏微分方程式全体の解を学習できる演算子を生成する。 しかし、既存の手法は単純な流れ方程式(例えばバーガー方程式)でのみ評価され、異なる初期条件における一般化能力のみを考える。 本稿では,計算流体力学(CFD)における4つの古典的問題(蓋駆動キャビティフロー,円管内層境界層フロー,段差を流れるダム,周期的なカルマン渦路)のベンチマークであるCFDBenchを構築した。 各フロー問題には、異なる境界条件、流体物性、および領域幾何学のデータが含まれる。 既存のデータセットと比較して、CFDBenchの利点は(1)包括的である。 速度、圧力、空洞率などの一般的な物理パラメータを含む。 (2)現実的。 これは流体力学方程式の深層学習解に非常に適している。 (3)挑戦。 ある程度の学習困難があり、強力な学習能力を持つモデルを見つけるよう促す。 (4) 規格化。 CFDBenchは、CFDの異なるディープラーニングメソッドの包括的で公正な比較を容易にする。 一般的なディープニューラルネットワークに適切な修正を加えてCFDBenchに適用し、より変化する入力の収容を可能にする。 cfdbenchの評価により,既存の課題の新たな欠点が明らかになり,その解決方法が提案されている。

In recent years, applying deep learning to solve physics problems has attracted much attention. Data-driven deep learning methods produce operators that can learn solutions to the whole system of partial differential equations. However, the existing methods are only evaluated on simple flow equations (e.g., Burger's equation), and only consider the generalization ability on different initial conditions. In this paper, we construct CFDBench, a benchmark with four classic problems in computational fluid dynamics (CFD): lid-driven cavity flow, laminar boundary layer flow in circular tubes, dam flows through the steps, and periodic Karman vortex street. Each flow problem includes data with different boundary conditions, fluid physical properties, and domain geometry. Compared to existing datasets, the advantages of CFDBench are (1) comprehensive. It contains common physical parameters such as velocity, pressure, and cavity fraction. (2) realistic. It is very suitable for deep learning solutions of fluid mechanics equations. (3) challenging. It has a certain learning difficulty, prompting to find models with strong learning ability. (4) standardized. CFDBench facilitates a comprehensive and fair comparison of different deep learning methods for CFD. We make appropriate modifications to popular deep neural networks to apply them to CFDBench and enable the accommodation of more changing inputs. The evaluation on CFDBench reveals some new shortcomings of existing works and we propose possible directions for solving such problems.
翻訳日:2023-10-23 03:54:59 公開日:2023-09-13
# ディープラーニングによるR17型IIコードブックの性能向上

Improving the Performance of R17 Type-II Codebook with Deep Learning ( http://arxiv.org/abs/2310.05962v1 )

ライセンス: Link先を確認
Ke Ma, Yiliang Sang, Yang Ming, Jin Lian, Chang Tian, Zhaocheng Wang(参考訳) リリース17(R17)のType-IIコードブックは、アップリンクとダウンリンクチャネル間の角遅延領域部分相互性を利用して、ダウンリンクチャネル状態情報(CSI)の測定とフィードバックを行う角遅延ドメインポートの一部を選択する。 この問題に対処するため、我々はR17 Type-IIコードブックを改善するためにディープラーニングを採用する2つの新しい視点を提案する。 まず、アップリンクチャネルの信号対雑音比の低さを考慮して、深層学習を用いて、焦点損失を利用してクラス不均衡問題を解決する支配的な角遅延領域ポートを正確に選択する。 第2に,基地局におけるR17 Type-IIコードブックのフィードバックに基づいて,深層学習を用いてダウンリンクCSIを再構築し,スパース構造の情報を効果的に活用することを提案する。 また、重み付きショートカットモジュールは正確な再構築を容易にするように設計されている。 シミュレーションの結果,提案手法は従来のr17 type-iiコードブックやディープラーニングベンチマークと比較して,和率性能を向上できることがわかった。

The Type-II codebook in Release 17 (R17) exploits the angular-delay-domain partial reciprocity between uplink and downlink channels to select part of angular-delay-domain ports for measuring and feeding back the downlink channel state information (CSI), where the performance of existing deep learning enhanced CSI feedback methods is limited due to the deficiency of sparse structures. To address this issue, we propose two new perspectives of adopting deep learning to improve the R17 Type-II codebook. Firstly, considering the low signal-to-noise ratio of uplink channels, deep learning is utilized to accurately select the dominant angular-delay-domain ports, where the focal loss is harnessed to solve the class imbalance problem. Secondly, we propose to adopt deep learning to reconstruct the downlink CSI based on the feedback of the R17 Type-II codebook at the base station, where the information of sparse structures can be effectively leveraged. Besides, a weighted shortcut module is designed to facilitate the accurate reconstruction. Simulation results demonstrate that our proposed methods could improve the sum rate performance compared with its traditional R17 Type-II codebook and deep learning benchmarks.
翻訳日:2023-10-23 03:54:37 公開日:2023-09-13
# 行動属性の重なり合う現象におけるネットワーク攻撃の解析と検出

Analysis and Detection against Network Attacks in the Overlapping Phenomenon of Behavior Attribute ( http://arxiv.org/abs/2310.10660v1 )

ライセンス: Link先を確認
Jiang Xie, Shuhao Li, Yongzheng Zhanga, Peishuai Sun, Hongbo Xu(参考訳) ネットワーク攻撃の急増は重大な脅威となる。 研究者は、関連する分野の研究を支援するために、ネットワーク攻撃のためのデータセットを提案する。 そして,これらのデータセットに基づく攻撃検出手法を多数提案する。 これらの検出方法は、二分類または多分類のいずれであっても、単一ラベル学習に属し、すなわち、各サンプルに1つのラベルのみを与える。 しかし,攻撃間で行動属性が重なり合うという注目すべき現象があることが判明し,データセットにおけるこの現象の提示は,同じ特徴の異なるラベルを持つ複数のサンプルが存在することである。 本稿では、よく知られたデータセット(UNSW-NB15, CCCS-CIC-AndMal-2020)の現象を検証し、これらのデータを再ラベルする。 さらに、マルチラベルでネットワーク攻撃を検出することで、より多くの情報を得ることができ、攻撃源のトレースとIDSの構築をサポートする。 そこで我々は,WGAN-GP(Wsserstein-Generative-Adversarial-Network-with-Gradient-Penalty)を改良した深層学習に基づくマルチラベル検出モデルを提案する。 実験の結果,mldモデルが優れた分類性能を達成できることが確認された。 UNSW-NB15ではF1=80.06%、CCCS-CIC-AndMal-2020ではF1=83.63%に達する。 特にMLD-ModelはF1では5.99%-7.97%高い。

The proliferation of network attacks poses a significant threat. Researchers propose datasets for network attacks to support research in related fields. Then, many attack detection methods based on these datasets are proposed. These detection methods, whether two-classification or multi-classification, belong to single-label learning, i.e., only one label is given to each sample. However, we discover that there is a noteworthy phenomenon of behavior attribute overlap between attacks, The presentation of this phenomenon in a dataset is that there are multiple samples with the same features but different labels. In this paper, we verify the phenomenon in well-known datasets(UNSW-NB15, CCCS-CIC-AndMal-2020) and re-label these data. In addition, detecting network attacks in a multi-label manner can obtain more information, providing support for tracing the attack source and building IDS. Therefore, we propose a multi-label detection model based on deep learning, MLD-Model, in which Wasserstein-Generative-Adversarial- Network-with-Gradient-Penalty (WGAN-GP) with improved loss performs data enhancement to alleviate the class imbalance problem, and Auto-Encoder (AE) performs classifier parameter pre-training. Experimental results demonstrate that MLD-Model can achieve excellent classification performance. It can achieve F1=80.06% in UNSW-NB15 and F1=83.63% in CCCS-CIC-AndMal-2020. Especially, MLD-Model is 5.99%-7.97% higher in F1 compared with the related single-label methods.
翻訳日:2023-10-23 02:33:59 公開日:2023-09-13
# インテリジェントな半自動倉庫在庫システム

An Efficient Intelligent Semi-Automated Warehouse Inventory Stocktaking System ( http://arxiv.org/abs/2309.12365v1 )

ライセンス: Link先を確認
Chunan Tong(参考訳) サプライチェーン管理の進化の文脈において、効率的な在庫管理の意義は企業によって大きく増大している。 しかし、従来のマニュアルと経験に基づくアプローチは、しばしば現代の市場要求の複雑さを満たすのに苦労する。 本研究では,不正確なデータや遅延モニタリング,予測における主観的経験への過度な依存といった課題に対処するインテリジェント在庫管理システムを提案する。 提案システムは,知的知覚のためのバーコードと分散フラッターアプリケーション技術を,包括的ビッグデータ分析と統合して,データ駆動型意思決定を実現する。 厳密な分析,システム設計,重要な技術探索,シミュレーション検証を通じて,提案システムの有効性を実証した。 インテリジェントシステムは、第2レベルの監視、高周波チェック、人工知能による予測を促進し、在庫管理の自動化、正確性、知性を高める。 このシステムは、正確な予測とインフォームド決定を通じてコスト削減と在庫サイズの最適化に寄与し、最終的に相互に有益なシナリオを達成する。 この研究の結果は

In the context of evolving supply chain management, the significance of efficient inventory management has grown substantially for businesses. However, conventional manual and experience-based approaches often struggle to meet the complexities of modern market demands. This research introduces an intelligent inventory management system to address challenges related to inaccurate data, delayed monitoring, and overreliance on subjective experience in forecasting. The proposed system integrates bar code and distributed flutter application technologies for intelligent perception, alongside comprehensive big data analytics to enable data-driven decision-making. Through meticulous analysis, system design, critical technology exploration, and simulation validation, the effectiveness of the proposed system is successfully demonstrated. The intelligent system facilitates second-level monitoring, high-frequency checks, and artificial intelligence-driven forecasting, consequently enhancing the automation, precision, and intelligence of inventory management. This system contributes to cost reduction and optimized inventory sizes through accurate predictions and informed decisions, ultimately achieving a mutually beneficial scenario. The outcomes of this research offer
翻訳日:2023-10-01 12:47:41 公開日:2023-09-13
# テストセットの事前トレーニングは、必要なだけである

Pretraining on the Test Set Is All You Need ( http://arxiv.org/abs/2309.08632v1 )

ライセンス: Link先を確認
Rylan Schaeffer(参考訳) 最近の研究は、慎重にキュレートされたデータに基づいて事前訓練されたより小さなトランスフォーマーベースの言語モデルの実現を実証することから着想を得て、評価ベンチマークのみに基づく新しい高品質な非合成データ混合物のキュレーションに多大な投資をすることで、そのようなアプローチをスーパーチャージする。 1万以下のトークンからなる新しいデータセット混合物を使用して、我々は100万のパラメータートランスフォーマティブベースのllm \textbf{phi-ctnl} (`fictional'と発音する)をプリトレーニングし、様々な学術ベンチマークで完璧な結果を得る。 \textbf{phi-CTNL} はまた、パワーローのスケーリングを破り、ダウンストリーム評価ベンチマークのカナリアを正確に予測する、予期せぬグラッキングのような能力を示す。

Inspired by recent work demonstrating the promise of smaller Transformer-based language models pretrained on carefully curated data, we supercharge such approaches by investing heavily in curating a novel, high quality, non-synthetic data mixture based solely on evaluation benchmarks. Using our novel dataset mixture consisting of less than 100 thousand tokens, we pretrain a 1 million parameter transformer-based LLM \textbf{phi-CTNL} (pronounced ``fictional") that achieves perfect results across diverse academic benchmarks, strictly outperforming all known foundation models. \textbf{phi-CTNL} also beats power-law scaling and exhibits a never-before-seen grokking-like ability to accurately predict downstream evaluation benchmarks' canaries.
翻訳日:2023-09-24 04:06:26 公開日:2023-09-13
# 大規模言語モデルはソーシャルメディア利用者の心理的配置を推測できる

Large Language Models Can Infer Psychological Dispositions of Social Media Users ( http://arxiv.org/abs/2309.08631v1 )

ライセンス: Link先を確認
Heinrich Peters and Sandra Matz(参考訳) 大規模言語モデル(LLM)は、パーソナライズされた技術に不可欠なさまざまな自然言語処理(NLP)タスクにおいて、ますます人間的な能力を示すため、その能力と固有のバイアスを理解することが不可欠である。 本研究は、チャットgptのようなllmが、デジタル足跡から個人の心理的傾向を推測する可能性を検証している。 具体的には、ゼロショット学習シナリオにおいて、GPT-3.5とGPT-4がユーザのFacebookステータス更新からビッグファイブの特徴を引き出す能力を評価する。 LLM-inferred と self-reported trait score の r = .29 (range = [.22, .33]) の平均相関を示した。 さらに,性別と年齢に関する人格推定の偏りが示唆され,女性や若年者の複数の特徴に対する誤差は小さく,基礎となるトレーニングデータやオンライン自己表現の相違から生じる可能性のある体系的偏見が示唆された。

As Large Language Models (LLMs) demonstrate increasingly human-like abilities in various natural language processing (NLP) tasks that are bound to become integral to personalized technologies, understanding their capabilities and inherent biases is crucial. Our study investigates the potential of LLMs like ChatGPT to infer psychological dispositions of individuals from their digital footprints. Specifically, we assess the ability of GPT-3.5 and GPT-4 to derive the Big Five personality traits from users' Facebook status updates in a zero-shot learning scenario. Our results show an average correlation of r = .29 (range = [.22, .33]) between LLM-inferred and self-reported trait scores. Furthermore, our findings suggest biases in personality inferences with regard to gender and age: inferred scores demonstrated smaller errors for women and younger individuals on several traits, suggesting a potential systematic bias stemming from the underlying training data or differences in online self-expression.
翻訳日:2023-09-24 04:06:08 公開日:2023-09-13
# EMGに基づくジェスチャー認識の表現性向上のための多ラベル分類手法

A Multi-label Classification Approach to Increase Expressivity of EMG-based Gesture Recognition ( http://arxiv.org/abs/2309.12217v1 )

ライセンス: Link先を確認
Niklas Smedemark-Margulies, Yunus Bicer, Elifnur Sunger, Stephanie Naufel, Tales Imbiriba, Eugene Tunik, Deniz Erdo\u{g}mu\c{s}, Mathew Yarossi(参考訳) 目的: 本研究の目的は, 表面筋電図に基づくジェスチャー認識システム(SEMG)の表現性を高めることである。 アプローチ: 動作を2つのバイオメカニカル独立成分(手首方向のセットと指修飾器のセット)に分割した問題変換アプローチを用いる。 高速な校正時間を維持するため,個々のジェスチャーのみを用いて各コンポーネントのモデルを訓練し,合成データを生成して組み合わせジェスチャーの全積空間に展開する。 そこで本研究では,ジョイスティックを握りながら組み合わせジェスチャーを行った高信頼基底真理ラベルを用いた教師付きデータセットを収集し,提案手法の性能に対するモデルアーキテクチャ,分類アルゴリズム,合成データ生成戦略の影響を分析する実験を行った。 主な結果: 並列モデルアーキテクチャと非線形分類器を併用した問題変換手法が, 制約付き合成データ生成と組み合わせることで, 短いキャリブレーション時間で, sEMGに基づくジェスチャーの表現性を高めることが期待できることがわかった。 意義: sEMGベースのジェスチャー認識は、人間とコンピュータのインタラクション、仮想現実、ロボットと義肢の制御に応用されている。 既存のアプローチでは、徹底的なモデルキャリブレーションが必要である。 提案手法は,すべての組合わせジェスチャクラスをユーザに示さなくても表現力を高める。 我々の結果はより大きなジェスチャー語彙とより複雑なモデルアーキテクチャにまで拡張されるかもしれない。

Objective: The objective of the study is to efficiently increase the expressivity of surface electromyography-based (sEMG) gesture recognition systems. Approach: We use a problem transformation approach, in which actions were subset into two biomechanically independent components - a set of wrist directions and a set of finger modifiers. To maintain fast calibration time, we train models for each component using only individual gestures, and extrapolate to the full product space of combination gestures by generating synthetic data. We collected a supervised dataset with high-confidence ground truth labels in which subjects performed combination gestures while holding a joystick, and conducted experiments to analyze the impact of model architectures, classifier algorithms, and synthetic data generation strategies on the performance of the proposed approach. Main Results: We found that a problem transformation approach using a parallel model architecture in combination with a non-linear classifier, along with restricted synthetic data generation, shows promise in increasing the expressivity of sEMG-based gestures with a short calibration time. Significance: sEMG-based gesture recognition has applications in human-computer interaction, virtual reality, and the control of robotic and prosthetic devices. Existing approaches require exhaustive model calibration. The proposed approach increases expressivity without requiring users to demonstrate all combination gesture classes. Our results may be extended to larger gesture vocabularies and more complicated model architectures.
翻訳日:2023-09-24 03:45:49 公開日:2023-09-13
# 高強度薄膜によるナノ構造中の歪色中心の形成

Deterministic Creation of Strained Color Centers in Nanostructures via High-Stress Thin Films ( http://arxiv.org/abs/2309.07935v1 )

ライセンス: Link先を確認
Daniel R. Assumpcao, Chang Jin, Madison Sutula, Sophie W. Ding, Phong Pham, Can M. Knaut, Mihir K. Bhaskar, Abishrant Panday, Aaron M. Day, Dylan Renaud, Mikhail D. Lukin, Evelyn Hu, Bartholomeus Machielse, Marko Loncar(参考訳) カラーセンターは、スピン光子量子情報技術を実現するための主要な量子ビット候補として登場した。 しかし、プラットフォームの主な制限の1つは、個々の色中心の特性がしばしば歪んでいることである。 ダイヤモンドのシリコン空白中心は通常、長いコヒーレンス特性を達成するためにミリケルビン温度を必要とするが、歪んだシリコン空白中心はフォノンによるデコヒーレンスなしで1k以上の温度で動作することが示されている。 本研究は,高強度窒化ケイ素薄膜をダイヤモンドナノ構造と組み合わせて,静的に歪んだシリコン空洞色中心(平均基底状態は608GHz)を,ひずみ強度$\sim 4 \times 10^{-4}$で再現する。 モデルに基づいて, このひずみは, スピン特性の劣化を伴わずに, 試料中のシリコン空孔中心を1.5Kの高温で動作させるのに十分である。 この方法は、高温動作量子メモリを製造するためのスケーラブルなアプローチを提供する。 シリコン空調センター以外にも、この手法は他のプラットフォームにも容易に拡張できるほど一般的である。

Color centers have emerged as a leading qubit candidate for realizing hybrid spin-photon quantum information technology. One major limitation of the platform, however, is that the characteristics of individual color-centers are often strain dependent. As an illustrative case, the silicon-vacancy center in diamond typically requires millikelvin temperatures in order to achieve long coherence properties, but strained silicon vacancy centers have been shown to operate at temperatures beyond 1K without phonon-mediated decoherence. In this work we combine high-stress silicon nitride thin films with diamond nanostructures in order to reproducibly create statically strained silicon-vacancy color centers (mean ground state splitting of 608 GHz) with strain magnitudes of $\sim 4 \times 10^{-4}$. Based on modeling, this strain should be sufficient to allow for operation of a majority silicon-vacancy centers within the measured sample at elevated temperatures (1.5K) without any degradation of their spin properties. This method offers a scalable approach to fabricate high-temperature operation quantum memories. Beyond silicon-vacancy centers, this method is sufficiently general that it can be easily extended to other platforms as well.
翻訳日:2023-09-18 17:14:43 公開日:2023-09-13
# シンボリック回帰のためのレース制御可変遺伝的プログラミング

Racing Control Variable Genetic Programming for Symbolic Regression ( http://arxiv.org/abs/2309.07934v1 )

ライセンス: Link先を確認
Nan Jiang, Yexiang Xue(参考訳) シンボリック回帰は、科学のためのAIにおいて最も重要なタスクの1つであり、実験データから支配方程式を発見する。 遺伝的プログラミング、モンテカルロ木探索、深層強化学習に基づく一般的なアプローチは、固定データセットから記号回帰を学ぶ。 多くの変数を含む複雑な方程式を学ぶには、大量のデータセットと長いトレーニング時間が必要です。 近年,制御変数計画法 (CVGP) を導入し, 設計した制御変数実験から方程式を発見し, 回帰過程を高速化している。 しかし,実験セットはcvgpでa-prioriが固定されており,実験スケジュールの最適選択が発見過程を著しく遅らせることを観察した。 この制限を克服するために、複数の実験スケジュールを同時に実行するレーシング制御可変遺伝的プログラミング(Racing-CVGP)を提案する。 遺伝的プログラミングプロセスにおいて優れた記号方程式を選択する際に用いられるような選択方式が実装され、有望な実験スケジュールが最終的に平均よりも勝つことが保証される。 好ましくないスケジュールは、有望なスケジュールの時間を節約するために早期に終了する。 真の物理法則に対応するいくつかの合成および実世界のデータセットにおいて、レーシングcvgpを評価する。 racing-cvgpは、固定データセットから方程式を発見できるcvgpおよび一連のシンボリックレグレッセプタよりも優れていることを実証する。

Symbolic regression, as one of the most crucial tasks in AI for science, discovers governing equations from experimental data. Popular approaches based on genetic programming, Monte Carlo tree search, or deep reinforcement learning learn symbolic regression from a fixed dataset. They require massive datasets and long training time especially when learning complex equations involving many variables. Recently, Control Variable Genetic Programming (CVGP) has been introduced which accelerates the regression process by discovering equations from designed control variable experiments. However, the set of experiments is fixed a-priori in CVGP and we observe that sub-optimal selection of experiment schedules delay the discovery process significantly. To overcome this limitation, we propose Racing Control Variable Genetic Programming (Racing-CVGP), which carries out multiple experiment schedules simultaneously. A selection scheme similar to that used in selecting good symbolic equations in the genetic programming process is implemented to ensure that promising experiment schedules eventually win over the average ones. The unfavorable schedules are terminated early to save time for the promising ones. We evaluate Racing-CVGP on several synthetic and real-world datasets corresponding to true physics laws. We demonstrate that Racing-CVGP outperforms CVGP and a series of symbolic regressors which discover equations from fixed datasets.
翻訳日:2023-09-18 17:14:26 公開日:2023-09-13
# ジェネレーティブAI

Generative AI ( http://arxiv.org/abs/2309.07930v1 )

ライセンス: Link先を確認
Stefan Feuerriegel and Jochen Hartmann and Christian Janiesch and Patrick Zschech(参考訳) 生成ai(generative ai)という用語は、トレーニングデータからテキスト、画像、音声といった一見新しい意味のあるコンテンツを生成できる計算技術を指す。 Dall-E 2, GPT-4, Copilotといった例でこの技術が広く普及していることは,現在私たちの作業方法やコミュニケーション方法に革命をもたらしています。 本稿では,社会技術的システムにおける実体としての生成型aiの概念化と,モデル,システム,アプリケーションの例を示す。 そこで我々は,現在の生成AIの限界を導入し,ビジネス・アンド・インフォメーション・システム・エンジニアリング(BISE)研究のためのアジェンダを提供する。 これまでの研究とは違って,情報システムの文脈における生成AIに注目し,BISEコミュニティに特有のいくつかの機会と課題について議論し,BISE研究における影響のある方向性を提案する。

The term "generative AI" refers to computational techniques that are capable of generating seemingly new, meaningful content such as text, images, or audio from training data. The widespread diffusion of this technology with examples such as Dall-E 2, GPT-4, and Copilot is currently revolutionizing the way we work and communicate with each other. In this article, we provide a conceptualization of generative AI as an entity in socio-technical systems and provide examples of models, systems, and applications. Based on that, we introduce limitations of current generative AI and provide an agenda for Business & Information Systems Engineering (BISE) research. Different from previous works, we focus on generative AI in the context of information systems, and, to this end, we discuss several opportunities and challenges that are unique to the BISE community and make suggestions for impactful directions for BISE research.
翻訳日:2023-09-18 17:14:07 公開日:2023-09-13
# 一般化可能なオーディオ・ビジュアル・ソース・ローカライザ

Prompting Segmentation with Sound is Generalizable Audio-Visual Source Localizer ( http://arxiv.org/abs/2309.07929v1 )

ライセンス: Link先を確認
Yaoting Wang, Weisong Liu, Guangyao Li, Jian Ding, Di Hu, Xi Li(参考訳) 物体を見て同時に音を聞いたことはないが、モデルはまだ入力音声から視覚位置を正確に特定できるのだろうか? 本研究では,ゼロショットと少数ショットのシナリオを前提として,オーディオ・ビジュアル・ローカライゼーションとセグメンテーションのタスクに集中する。 この目的を達成するために,コーダ・フュージョン・デコーダ・パラダイムを主に採用する既存のアプローチとは異なり,プリトレーニングモデルから豊富な知識を生かして,データ不足やデータ分散ジレンマの適合性を向上させることを目的としたエンコーダ・プロンプト・デコーダ・パラダイムを導入する。 具体的には、まず、視覚基盤モデルがオブジェクトの聴取に焦点を合わせるのを支援するために、セマンティック・アウェア・オーディオ・プロンプト(SAP)を構築することを提案する。 次に,視覚基礎モデルの知識を十分に保持すると同時に,最小限のトレーニング努力を維持するための相関アダプタ(cola)を開発した。 これらの手段を装備することにより、この新しいパラダイムは、目に見えないクラスとデータセット間の設定の両方において、他の融合ベースのメソッドよりも優れていることを示す。 我々は,本研究が,実用シナリオにおける視聴覚定位とセグメンテーションの一般化研究をさらに促進できることを願っている。

Never having seen an object and heard its sound simultaneously, can the model still accurately localize its visual position from the input audio? In this work, we concentrate on the Audio-Visual Localization and Segmentation tasks but under the demanding zero-shot and few-shot scenarios. To achieve this goal, different from existing approaches that mostly employ the encoder-fusion-decoder paradigm to decode localization information from the fused audio-visual feature, we introduce the encoder-prompt-decoder paradigm, aiming to better fit the data scarcity and varying data distribution dilemmas with the help of abundant knowledge from pre-trained models. Specifically, we first propose to construct Semantic-aware Audio Prompt (SAP) to help the visual foundation model focus on sounding objects, meanwhile, the semantic gap between the visual and audio modalities is also encouraged to shrink. Then, we develop a Correlation Adapter (ColA) to keep minimal training efforts as well as maintain adequate knowledge of the visual foundation model. By equipping with these means, extensive experiments demonstrate that this new paradigm outperforms other fusion-based methods in both the unseen class and cross-dataset settings. We hope that our work can further promote the generalization study of Audio-Visual Localization and Segmentation in practical application scenarios.
翻訳日:2023-09-18 17:13:53 公開日:2023-09-13
# 適応型インスタンス正規化を用いた開語彙キーワードスポッティング

Open-vocabulary Keyword-spotting with Adaptive Instance Normalization ( http://arxiv.org/abs/2309.08561v1 )

ライセンス: Link先を確認
Aviv Navon, Aviv Shamsian, Neta Glazer, Gill Hetz, Joseph Keshet(参考訳) オープン語彙キーワードスポッティングは、音声発話中のユーザ定義キーワードを検出することに焦点を当てた自動音声認識(ASR)において、重要かつ困難なタスクである。 キーワードスポッティング手法は、音声の発話とキーワードを共同埋め込み空間にマッピングして親和性スコアを得る。 本研究では,テキストエンコーダを訓練してキーワード条件付き正規化パラメータを出力するキーワードスポッティング手法であるAdaKWSを提案する。 これらのパラメータは聴覚入力を処理するために使用される。 本稿では,多言語多言語ベンチマークを用いた広範囲な評価を行い,最近のキーワードスポッティングやasrベースラインに対して有意な改善を示す。 さらに,訓練中に見つからなかった低リソース言語に対するアプローチの有効性について検討した。 その結果,ベースライン法に比べて性能が大幅に向上した。

Open vocabulary keyword spotting is a crucial and challenging task in automatic speech recognition (ASR) that focuses on detecting user-defined keywords within a spoken utterance. Keyword spotting methods commonly map the audio utterance and keyword into a joint embedding space to obtain some affinity score. In this work, we propose AdaKWS, a novel method for keyword spotting in which a text encoder is trained to output keyword-conditioned normalization parameters. These parameters are used to process the auditory input. We provide an extensive evaluation using challenging and diverse multi-lingual benchmarks and show significant improvements over recent keyword spotting and ASR baselines. Furthermore, we study the effectiveness of our approach on low-resource languages that were unseen during the training. The results demonstrate a substantial performance improvement compared to baseline methods.
翻訳日:2023-09-18 13:43:55 公開日:2023-09-13
# BAARD: 適用性、信頼性、決定性をテストすることで、敵の例をブロックする

BAARD: Blocking Adversarial Examples by Testing for Applicability, Reliability and Decidability ( http://arxiv.org/abs/2105.00495v2 )

ライセンス: Link先を確認
Xinglong Chang, Katharina Dost, Kaiqi Zhao, Ambra Demontis, Fabio Roli, Gill Dobbie, J\"org Wicker(参考訳) 敵防衛は、機械学習モデルを敵攻撃から保護するが、しばしばある種類のモデルや攻撃に適合する。 未知の潜在的な攻撃に関する情報の欠如は、敵の事例の検出を困難にする。 さらに、攻撃者はディフェンダーによるルールに従う必要はない。 この問題に対処するため、ケミノフォマティクスにおける応用可能性ドメインの概念から着想を得た。 ケミンフォマティクスモデルは、限られた数の化合物のみが知られ、訓練に利用できるため、正確な予測を行うのに苦労する。 適用性ドメイン(applicability domain)は既知の化合物に基づくドメインを定義し、ドメイン外にある未知の化合物を拒絶する。 同様に、逆例は無害な入力として始まるが、分類器の領域の外に移動して信頼できる分類を避けるために操作することができる。 適用可能性ドメインと敵検出の類似性を最初に特定する。 未知の攻撃に注目するのではなく、既知のトレーニングデータに注目します。 入力をグローバルおよびローカルにチェックし,モデルの出力に一貫性があることを確認する,シンプルかつ堅牢な3段階データ駆動フレームワークを提案する。 このフレームワークはどの分類モデルにも適用でき、特定の攻撃に限定されない。 これら3つのステージを1つのユニットとして動作させ,ホワイトボックスのシナリオであっても,さまざまな攻撃を効果的に検出する。

Adversarial defenses protect machine learning models from adversarial attacks, but are often tailored to one type of model or attack. The lack of information on unknown potential attacks makes detecting adversarial examples challenging. Additionally, attackers do not need to follow the rules made by the defender. To address this problem, we take inspiration from the concept of Applicability Domain in cheminformatics. Cheminformatics models struggle to make accurate predictions because only a limited number of compounds are known and available for training. Applicability Domain defines a domain based on the known compounds and rejects any unknown compound that falls outside the domain. Similarly, adversarial examples start as harmless inputs, but can be manipulated to evade reliable classification by moving outside the domain of the classifier. We are the first to identify the similarity between Applicability Domain and adversarial detection. Instead of focusing on unknown attacks, we focus on what is known, the training data. We propose a simple yet robust triple-stage data-driven framework that checks the input globally and locally, and confirms that they are coherent with the model's output. This framework can be applied to any classification model and is not limited to specific attacks. We demonstrate these three stages work as one unit, effectively detecting various attacks, even for a white-box scenario.
翻訳日:2023-09-15 20:10:03 公開日:2023-09-13
# p1ac:単一のアフィン対応から絶対的なポーズを再検討する

P1AC: Revisiting Absolute Pose From a Single Affine Correspondence ( http://arxiv.org/abs/2011.08790v5 )

ライセンス: Link先を確認
Jonathan Ventura, Zuzana Kukelova, Torsten Sattler and D\'aniel Bar\'ath(参考訳) アフィン対応は従来、幅広いベースラインに対する機能マッチングを改善するために用いられてきた。 近年の研究では、アフィン対応を用いて様々な相対的なカメラポーズ推定問題を解くことに成功したが、絶対ポーズ推定にはあまり注意が払われていない。 本稿では,向き付け点とアフィン対応点の単一観測により,キャリブレーションカメラの姿勢を推定する問題に対する第1の一般解を提案する。 我々のアプローチ(P1AC)の利点は、従来の点ベースアプローチ(P3P)と比較して単一の対応しか必要とせず、ロバストな推定におけるコンビネータを著しく減少させることである。 P1ACは、以前の作業でなされた制限的な仮定を排除し、大規模な画像ベースローカライゼーションに適用できる一般的なソリューションを提供する。 本稿では,p1ac問題に対する最小解法を提案し,様々な雑音下での数値的安定性と性能を示す合成データに関する新しい解法について評価する。 標準的な画像ベースローカライゼーションベンチマークでは、P1ACは広く使われているP3Pアルゴリズムよりも正確な結果が得られる。 このメソッドのコードはhttps://github.com/jonathanventura/p1ac/で入手できる。

Affine correspondences have traditionally been used to improve feature matching over wide baselines. While recent work has successfully used affine correspondences to solve various relative camera pose estimation problems, less attention has been given to their use in absolute pose estimation. We introduce the first general solution to the problem of estimating the pose of a calibrated camera given a single observation of an oriented point and an affine correspondence. The advantage of our approach (P1AC) is that it requires only a single correspondence, in comparison to the traditional point-based approach (P3P), significantly reducing the combinatorics in robust estimation. P1AC provides a general solution that removes restrictive assumptions made in prior work and is applicable to large-scale image-based localization. We propose a minimal solution to the P1AC problem and evaluate our novel solver on synthetic data, showing its numerical stability and performance under various types of noise. On standard image-based localization benchmarks we show that P1AC achieves more accurate results than the widely used P3P algorithm. Code for our method is available at https://github.com/jonathanventura/P1AC/ .
翻訳日:2023-09-15 20:09:44 公開日:2023-09-13
# モデル再プログラミング:資源効率の良いクロスドメイン機械学習

Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning ( http://arxiv.org/abs/2202.10629v3 )

ライセンス: Link先を確認
Pin-Yu Chen(参考訳) 視覚、言語、音声などのデータ豊富な領域では、ディープラーニングは高性能なタスク固有モデルを提供することが一般的であり、下流タスクへの効率的な微調整のための一般的なタスク非依存表現も学べる。 しかし、リソース制限領域でのディープラーニングは、まだ多くの課題に直面している。 (i)限られたデータ (ii)制約付きモデル開発費、及び (iii)効果的な微調整のための適切な事前学習モデルがないこと。 本稿では,このギャップを埋めるためのモデル再プログラミングの概要を紹介する。 モデル再プログラミングは、リソース効率の高いクロスドメイン機械学習を可能にし、ソースドメインから十分に開発された事前学習されたモデルを再利用し、ターゲットドメインのタスクをモデル微調整なしで解決する。 多くのアプリケーションでは、モデル再プログラミングは、スクラッチから学習とトレーニングを転送する。 本稿では、モデル再プログラミングの方法論を解明し、既存のユースケースを要約し、モデル再プログラミングの成功に関する理論的説明を提供し、オープンな研究課題と機会に関する議論で結論付ける。 モデル再プログラミング研究の一覧はhttps://github.com/IBM/モデル再プログラミングで活発に維持および更新されている。

In data-rich domains such as vision, language, and speech, deep learning prevails to deliver high-performance task-specific models and can even learn general task-agnostic representations for efficient finetuning to downstream tasks. However, deep learning in resource-limited domains still faces multiple challenges including (i) limited data, (ii) constrained model development cost, and (iii) lack of adequate pre-trained models for effective finetuning. This paper provides an overview of model reprogramming to bridge this gap. Model reprogramming enables resource-efficient cross-domain machine learning by repurposing and reusing a well-developed pre-trained model from a source domain to solve tasks in a target domain without model finetuning, where the source and target domains can be vastly different. In many applications, model reprogramming outperforms transfer learning and training from scratch. This paper elucidates the methodology of model reprogramming, summarizes existing use cases, provides a theoretical explanation of the success of model reprogramming, and concludes with a discussion on open-ended research questions and opportunities. A list of model reprogramming studies is actively maintained and updated at https://github.com/IBM/model-reprogramming.
翻訳日:2023-09-15 20:02:52 公開日:2023-09-13
# 条件付きGANと拡散モデルに対する効率的な空間スパース推論

Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models ( http://arxiv.org/abs/2211.02048v4 )

ライセンス: Link先を確認
Muyang Li, Ji Lin, Chenlin Meng, Stefano Ermon, Song Han, and Jun-Yan Zhu(参考訳) 画像編集中、既存の深層生成モデルは、未編集領域を含む出力全体をスクラッチから再合成する傾向がある。 これは特にマイナーな編集操作において、計算のかなりの無駄につながる。 本研究では、編集領域の計算を選択的に行い、条件付きGANや拡散モデルを含む様々な生成モデルを高速化する汎用手法である空間スパース推論(SSI)を提案する。 重要なのは、ユーザが入力イメージを徐々に編集する傾向があることです。 これは、元のイメージの機能マップをキャッシュして再利用する動機となります。 編集画像が与えられた場合、編集領域に畳み込みフィルタを適用し、未編集領域のキャッシュ機能を再利用する。 さらに,本アルゴリズムを用いて,Sparse Incremental Generative Engine (SIGE) を提案する。 nvidia rtx 3090では$3.0\times$、apple m1 pro gpuでは$4.6\times$、3090では$7.2\times$、3090では$5.6\times$、m1 pro gpuでは$5.2\times$である。 カンファレンスバージョンと比較して、SIGEを拡張して注意層に対応させ、安定拡散に適用します。 さらに、Apple M1 Pro GPUのサポートも提供しています。

During image editing, existing deep generative models tend to re-synthesize the entire output from scratch, including the unedited regions. This leads to a significant waste of computation, especially for minor editing operations. In this work, we present Spatially Sparse Inference (SSI), a general-purpose technique that selectively performs computation for edited regions and accelerates various generative models, including both conditional GANs and diffusion models. Our key observation is that users prone to gradually edit the input image. This motivates us to cache and reuse the feature maps of the original image. Given an edited image, we sparsely apply the convolutional filters to the edited regions while reusing the cached features for the unedited areas. Based on our algorithm, we further propose Sparse Incremental Generative Engine (SIGE) to convert the computation reduction to latency reduction on off-the-shelf hardware. With about $1\%$-area edits, SIGE accelerates DDPM by $3.0\times$ on NVIDIA RTX 3090 and $4.6\times$ on Apple M1 Pro GPU, Stable Diffusion by $7.2\times$ on 3090, and GauGAN by $5.6\times$ on 3090 and $5.2\times$ on M1 Pro GPU. Compared to our conference version, we extend SIGE to accommodate attention layers and apply it to Stable Diffusion. Additionally, we offer support for Apple M1 Pro GPU and include more results with large and sequential edits.
翻訳日:2023-09-15 19:41:02 公開日:2023-09-13
# 深層学習における勾配降下ダイナミクスと不安定性の連続時間モデルについて

On a continuous time model of gradient descent dynamics and instability in deep learning ( http://arxiv.org/abs/2302.01952v3 )

ライセンス: Link先を確認
Mihaela Rosca and Yan Wu and Chongli Qin and Benoit Dherin(参考訳) ディープラーニングの成功の背景にあるレシピは、ニューラルネットワークと勾配に基づく最適化の組み合わせだ。 しかし、勾配降下の挙動、特に不安定性を理解することは、その経験的成功を後押ししている。 勾配降下の研究に利用可能な理論ツールに加え、勾配降下ダイナミクスを近似した連続時間流である主流れ(PF)を提案する。 我々の知る限り、PFは局所的なミニマ点やサドル点からの脱出を含む勾配降下の発散と振動の挙動を捉える唯一の連続流である。 ヘッセンの固有分解への依存を通じて、PFは深層学習において最近観測された安定性現象の端に光を放つ。 不安定性に対する新たな理解を用いて,トレーニング安定性とテストセット評価性能のトレードオフを制御できる学習率適応法を提案する。

The recipe behind the success of deep learning has been the combination of neural networks and gradient-based optimization. Understanding the behavior of gradient descent however, and particularly its instability, has lagged behind its empirical success. To add to the theoretical tools available to study gradient descent we propose the principal flow (PF), a continuous time flow that approximates gradient descent dynamics. To our knowledge, the PF is the only continuous flow that captures the divergent and oscillatory behaviors of gradient descent, including escaping local minima and saddle points. Through its dependence on the eigendecomposition of the Hessian the PF sheds light on the recently observed edge of stability phenomena in deep learning. Using our new understanding of instability we propose a learning rate adaptation method which enables us to control the trade-off between training stability and test set evaluation performance.
翻訳日:2023-09-15 19:28:46 公開日:2023-09-13
# 誤差の存在下でのステアリングによる量子状態工学

Quantum state engineering by steering in the presence of errors ( http://arxiv.org/abs/2303.16329v2 )

ライセンス: Link先を確認
E. Medina-Guerra, Parveen Kumar, I. V. Gornyi, and Yuval Gefen(参考訳) 量子状態工学は、量子情報分野における様々な応用において重要な役割を果たす。 運転・散逸、断熱冷却、測定に基づくステアリングなど、異なる戦略が過去に提案されており、それぞれが上向きと下向きで、状態生成と操作のために提案されてきた。 本稿では,量子システムを目的とする状態に向けて制御するために,一般化された測定のシーケンスを用いる計測ベースの状態工学プロトコルのクラスについて述べる。 従来、測定ベースのプロトコルは理想的な手順に依存しており、実験的な実現と外部ノイズの不完全性から生じる様々なエラーの影響の探索を避けていた。 我々は,これらのステアリングプロトコルの各種誤差に対するロバスト性に関する詳細な解析を行うために,量子軌道形式を用いる。 プロトコルの実行中に変更が残らないかによって、動的または静的に分類できる一連のエラーについて検討する。 具体的には, システム-検出器結合の誤選択, 測定ステップ後の検出器状態の再初期化, 操舵方向の変動, システム-検出器相互作用における環境負荷の影響について検討する。 このプロトコルは,システム検出器結合パラメータの誤選択に対して完全に堅牢であり,他の誤りに対して合理的な頑健性を示す。 我々は,プロトコルのロバスト性を特徴づけ,解析結果を提供するために,忠実度,トレース距離,線形エントロピーなどの様々な量化器を用いる。 その後,乗算ホワイトノイズを持つハミルトニアンの指数関数の古典的期待値と時間順序演算子の交換と,検出結果に対する期待値と部分的トレースの交換を実演する。

Quantum state engineering plays a vital role in various applications in the field of quantum information. Different strategies, including drive-and-dissipation, adiabatic cooling, and measurement-based steering, have been proposed in the past for state generation and manipulation, each with its upsides and downsides. Here, we address a class of measurement-based state engineering protocols where a sequence of generalized measurements is employed to steer a quantum system toward a desired target state. Previously studied measurement-based protocols relied on idealized procedures and avoided exploration of the effects of various errors stemming from imperfections of experimental realizations and external noise. We employ the quantum trajectory formalism to provide a detailed analysis of the robustness of these steering protocols against various errors. We study a set of errors that can be classified as dynamic or static, depending on whether they remain unchanged while running the protocol. More specifically, we investigate the impact of erroneous choice of system-detector coupling, re-initialization of the detector state following a measurement step, fluctuating steering directions, and environmentally induced errors in the system-detector interaction. We show that the protocol remains fully robust against the erroneous choice of system-detector coupling parameters and presents reasonable robustness against other errors. We employ various quantifiers such as fidelity, trace distance, and linear entropy to characterize the protocol's robustness and provide analytical results. Subsequently, we demonstrate the commutation between the classical expectation value and the time-ordering operator of the exponential of a Hamiltonian with multiplicative white noise, as well as the commutation of the expectation value and the partial trace with respect to detector outcomes.
翻訳日:2023-09-15 19:22:09 公開日:2023-09-13
# 計測とフィードバックからの混合状態長距離秩序と臨界

Mixed-state long-range order and criticality from measurement and feedback ( http://arxiv.org/abs/2303.15507v2 )

ライセンス: Link先を確認
Tsung-Cheng Lu, Zhehao Zhang, Sagar Vijay, Timothy H. Hsieh(参考訳) 本研究では,局所的測定,局所ユニタリリ,非局所的古典的通信を用いて,長距離量子秩序や量子臨界性を持つ混合状態を効率的に作成できる量子チャネルを構築するための汎用的枠組みを提案する。 例として、対称性保護トポロジカル位相(SPT)は、体積法エントロピーと共存しているにもかかわらず、局所作用素の量子的臨界相関と絡み合いの対数的スケーリングと相転移を行うことができる長距離絡み合いを持つ混合状態に普遍的に変換することができる。 同じフレームワーク内では、フェルミオン占有数測定を用いて変換する2つのアプリケーションを示す。 (i)スピンとスピンの代数的相関が強化された量子臨界混合状態への一次元スピン自由フェルミオン (ii)チャーン絶縁体はバルクに臨界量子相関を持つ混合状態となる。 後者は、混合状態量子臨界が局所量子演算と非局所古典的通信を用いて一定深さの物質のガッピング状態から生じる例である。

We propose a general framework for using local measurements, local unitaries, and non-local classical communication to construct quantum channels which can efficiently prepare mixed states with long-range quantum order or quantum criticality. As an illustration, symmetry-protected topological (SPT) phases can be universally converted into mixed-states with long-range entanglement, which can undergo phase transitions with quantum critical correlations of local operators and a logarithmic scaling of the entanglement negativity, despite coexisting with volume-law entropy. Within the same framework, we present two applications using fermion occupation number measurement to convert (i) spinful free fermions in one dimension into a quantum-critical mixed state with enhanced algebraic correlations between spins and (ii) Chern insulators into a mixed state with critical quantum correlations in the bulk. The latter is an example where mixed-state quantum criticality can emerge from a gapped state of matter in constant depth using local quantum operations and non-local classical communication.
翻訳日:2023-09-15 19:21:40 公開日:2023-09-13
# 機能を広げることなく

Nowhere coexpanding functions ( http://arxiv.org/abs/2303.12814v3 )

ライセンス: Link先を確認
Andrew Cook, Andy Hammerlindl and Warwick Tucker(参考訳) 非正のシュワルツ微分を持つすべての$C^3$函数を含む「他の共展開函数」と呼ばれる$C^1$函数の族を定義する。 我々は,これらの関数の不動点の数と性質について,シンガーの古典的結果の一般化を含む結果を確立する。

We define a family of $C^1$ functions which we call "nowhere coexpanding functions" that is closed under composition and includes all $C^3$ functions with non-positive Schwarzian derivative. We establish results on the number and nature of the fixed points of these functions, including a generalisation of a classic result of Singer.
翻訳日:2023-09-15 19:21:03 公開日:2023-09-13
# 多目的アーカイブ

Multi-Objective Archiving ( http://arxiv.org/abs/2303.09685v2 )

ライセンス: Link先を確認
Miqing Li, Manuel L\'opez-Ib\'a\~nez, Xin Yao(参考訳) ほとんどの多目的最適化アルゴリズムは、検索中に明示的にまたは暗黙的にアーカイブを保持する。 このようなアーカイブは、意思決定者に提示される高品質なソリューションを格納するためにのみ使用できるが、多くの場合、探索プロセス(例えば、進化計算の人口)に参加することができる。 過去20年間で、新しいソリューションを以前のソリューションと比較し、アーカイブ/人口の更新方法を決定するプロセスであるアーカイブは、進化的多目的最適化(EMO)において重要な問題となっている。 これは、従来のパレート方式から、より最近の指標に基づく、分解に基づく手法まで、様々な効果的なアーカイブ手法の開発に対するコミュニティの努力によって証明されている。 しかしながら、これらの取り組みの焦点は、特定の品質指標の観点からの実証的性能比較であり、一般的な理論的観点からのアーカイブ手法の体系的な研究が欠如している。 本稿では,多目的アーカイビングの体系的な概観を行い,理論と実践の全体論的視点からアーカイビングアルゴリズムを理解する方法を明らかにし,より重要なこととして,理論的に望ましい効果的なアーカイビングアルゴリズムの設計方法についてのガイダンスを提供する。 また、弱パレート対応指標(例えば、エプシロン指標)に基づくアーカイブアルゴリズムは、適切に設計されている限り、パレート対応指標(例えば、ハイパーボリュームインジケータ)に基づくアーカイザーと同じ理論的目的を達成することができることを示す。 そのような望ましいものとしては、性質極限最適化(英語版)、有界アーキビングアルゴリズムが解集合間の最も一般的な優越性に関する可能な最適性質の極限形式がある。

Most multi-objective optimisation algorithms maintain an archive explicitly or implicitly during their search. Such an archive can be solely used to store high-quality solutions presented to the decision maker, but in many cases may participate in the search process (e.g., as the population in evolutionary computation). Over the last two decades, archiving, the process of comparing new solutions with previous ones and deciding how to update the archive/population, stands as an important issue in evolutionary multi-objective optimisation (EMO). This is evidenced by constant efforts from the community on developing various effective archiving methods, ranging from conventional Pareto-based methods to more recent indicator-based and decomposition-based ones. However, the focus of these efforts is on empirical performance comparison in terms of specific quality indicators; there is lack of systematic study of archiving methods from a general theoretical perspective. In this paper, we attempt to conduct a systematic overview of multi-objective archiving, in the hope of paving the way to understand archiving algorithms from a holistic perspective of theory and practice, and more importantly providing a guidance on how to design theoretically desirable and practically useful archiving algorithms. In doing so, we also present that archiving algorithms based on weakly Pareto compliant indicators (e.g., epsilon-indicator), as long as designed properly, can achieve the same theoretical desirables as archivers based on Pareto compliant indicators (e.g., hypervolume indicator). Such desirables include the property limit-optimal, the limit form of the possible optimal property that a bounded archiving algorithm can have with respect to the most general form of superiority between solution sets.
翻訳日:2023-09-15 19:20:15 公開日:2023-09-13
# 大規模言語モデルにおける創発能力の潜在空間理論

A Latent Space Theory for Emergent Abilities in Large Language Models ( http://arxiv.org/abs/2304.09960v3 )

ライセンス: Link先を確認
Hui Jiang(参考訳) 言語はランダムに作られるのではなく、情報を伝える。 言語とその根底にある意味の間には強い関連があり、その結果、それらの相関によってピークを極める疎結合分布となる。 さらに、これらのピーク値は、スパーシリティによる言語の限界分布と一致します。 ビッグデータと大規模モデルで訓練されたllmの出現により、言語の限界分布を正確に評価することができ、効果的な推論のためにジョイント分布のスパース構造を探索する便利な手段を提供する。 本稿では,言語理解,文脈内学習,思考の連鎖的促進,効果的な命令の微調整などllmの創発的能力が,言語の疎結合分布に対するベイズ推定に起因していることを示すために,言語を曖昧あるいは不明瞭に分類し,定量的な結果を示す。

Languages are not created randomly but rather to communicate information. There is a strong association between languages and their underlying meanings, resulting in a sparse joint distribution that is heavily peaked according to their correlations. Moreover, these peak values happen to match with the marginal distribution of languages due to the sparsity. With the advent of LLMs trained on big data and large models, we can now precisely assess the marginal distribution of languages, providing a convenient means of exploring the sparse structures in the joint distribution for effective inferences. In this paper, we categorize languages as either unambiguous or {\epsilon}-ambiguous and present quantitative results to demonstrate that the emergent abilities of LLMs, such as language understanding, in-context learning, chain-of-thought prompting, and effective instruction fine-tuning, can all be attributed to Bayesian inference on the sparse joint distribution of languages.
翻訳日:2023-09-15 19:09:51 公開日:2023-09-13
# PaLM 2テクニカルレポート

PaLM 2 Technical Report ( http://arxiv.org/abs/2305.10403v3 )

ライセンス: Link先を確認
Rohan Anil, Andrew M. Dai, Orhan Firat, Melvin Johnson, Dmitry Lepikhin, Alexandre Passos, Siamak Shakeri, Emanuel Taropa, Paige Bailey, Zhifeng Chen, Eric Chu, Jonathan H. Clark, Laurent El Shafey, Yanping Huang, Kathy Meier-Hellstern, Gaurav Mishra, Erica Moreira, Mark Omernick, Kevin Robinson, Sebastian Ruder, Yi Tay, Kefan Xiao, Yuanzhong Xu, Yujing Zhang, Gustavo Hernandez Abrego, Junwhan Ahn, Jacob Austin, Paul Barham, Jan Botha, James Bradbury, Siddhartha Brahma, Kevin Brooks, Michele Catasta, Yong Cheng, Colin Cherry, Christopher A. Choquette-Choo, Aakanksha Chowdhery, Cl\'ement Crepy, Shachi Dave, Mostafa Dehghani, Sunipa Dev, Jacob Devlin, Mark D\'iaz, Nan Du, Ethan Dyer, Vlad Feinberg, Fangxiaoyu Feng, Vlad Fienber, Markus Freitag, Xavier Garcia, Sebastian Gehrmann, Lucas Gonzalez, Guy Gur-Ari, Steven Hand, Hadi Hashemi, Le Hou, Joshua Howland, Andrea Hu, Jeffrey Hui, Jeremy Hurwitz, Michael Isard, Abe Ittycheriah, Matthew Jagielski, Wenhao Jia, Kathleen Kenealy, Maxim Krikun, Sneha Kudugunta, Chang Lan, Katherine Lee, Benjamin Lee, Eric Li, Music Li, Wei Li, YaGuang Li, Jian Li, Hyeontaek Lim, Hanzhao Lin, Zhongtao Liu, Frederick Liu, Marcello Maggioni, Aroma Mahendru, Joshua Maynez, Vedant Misra, Maysam Moussalem, Zachary Nado, John Nham, Eric Ni, Andrew Nystrom, Alicia Parrish, Marie Pellat, Martin Polacek, Alex Polozov, Reiner Pope, Siyuan Qiao, Emily Reif, Bryan Richter, Parker Riley, Alex Castro Ros, Aurko Roy, Brennan Saeta, Rajkumar Samuel, Renee Shelby, Ambrose Slone, Daniel Smilkov, David R. So, Daniel Sohn, Simon Tokumine, Dasha Valter, Vijay Vasudevan, Kiran Vodrahalli, Xuezhi Wang, Pidong Wang, Zirui Wang, Tao Wang, John Wieting, Yuhuai Wu, Kelvin Xu, Yunhan Xu, Linting Xue, Pengcheng Yin, Jiahui Yu, Qiao Zhang, Steven Zheng, Ce Zheng, Weikang Zhou, Denny Zhou, Slav Petrov, Yonghui Wu(参考訳) マルチ言語と推論能力が向上し,従来のPaLMよりも計算効率がよい,最先端の言語モデルであるPaLM 2を紹介する。 PaLM 2はトランスフォーマーベースのモデルであり、目的の混合を用いて訓練されている。 英語と多言語言語に関する広範囲な評価と推論タスクを通じて、PaLM 2は、異なるモデルサイズで下流タスクの品質を大幅に向上し、同時に、PaLMと比較してより高速かつ効率的に推論できることを示した。 この改善された効率により、より広範なデプロイメントが可能になると同時に、モデルがより自然なインタラクションのペースで、より高速に応答できるようになる。 PaLM 2は、BIG-Benchや他の推論タスク上でのPaLMに対する大幅な改善によって実証された堅牢な推論機能を示している。 PaLM 2は、責任あるAI評価スイート上で安定したパフォーマンスを示し、追加のオーバーヘッドや他の機能への影響なしに毒性に対する推論時間制御を可能にする。 全体として、PaLM 2は様々なタスクと能力のセットで最先端のパフォーマンスを達成する。 PaLM 2ファミリーを論じる際には、(様々なサイズの)事前訓練されたモデルと、これらのモデルの微調整されたバリエーションと、これらのモデルを使用するユーザ向け製品とを区別することが重要である。 特に、ユーザー向け製品には、通常、前処理と後処理のステップが追加される。 さらに、基礎となるモデルは時間とともに進化する可能性がある。 したがって、このレポートで報告された結果に正確に適合するユーザ向け製品の性能を期待するべきではない。

We introduce PaLM 2, a new state-of-the-art language model that has better multilingual and reasoning capabilities and is more compute-efficient than its predecessor PaLM. PaLM 2 is a Transformer-based model trained using a mixture of objectives. Through extensive evaluations on English and multilingual language, and reasoning tasks, we demonstrate that PaLM 2 has significantly improved quality on downstream tasks across different model sizes, while simultaneously exhibiting faster and more efficient inference compared to PaLM. This improved efficiency enables broader deployment while also allowing the model to respond faster, for a more natural pace of interaction. PaLM 2 demonstrates robust reasoning capabilities exemplified by large improvements over PaLM on BIG-Bench and other reasoning tasks. PaLM 2 exhibits stable performance on a suite of responsible AI evaluations, and enables inference-time control over toxicity without additional overhead or impact on other capabilities. Overall, PaLM 2 achieves state-of-the-art performance across a diverse set of tasks and capabilities. When discussing the PaLM 2 family, it is important to distinguish between pre-trained models (of various sizes), fine-tuned variants of these models, and the user-facing products that use these models. In particular, user-facing products typically include additional pre- and post-processing steps. Additionally, the underlying models may evolve over time. Therefore, one should not expect the performance of user-facing products to exactly match the results reported in this report.
翻訳日:2023-09-15 19:01:55 公開日:2023-09-13
# 確率的疫学モデルの軌道指向最適化

Trajectory-oriented optimization of stochastic epidemiological models ( http://arxiv.org/abs/2305.03926v3 )

ライセンス: Link先を確認
Arindam Fadikar, Mickael Binois, Nicholson Collier, Abby Stevens, Kok Ben Toh, Jonathan Ozik(参考訳) 疫学モデルでは、前方の投射やwhat-ifシナリオの実行など、下流のタスクの真理を判断するために調整する必要がある。 このようなモデルからの出力は一般にアンサンブルまたは分布を介して記述されるため、確率モデルの場合の校正の意味は変化する。 アンサンブルの各メンバーは、通常ランダム数シード(明示的または暗黙的に)にマッピングされる。 入力パラメータの設定だけでなく、基底的真理と一致するランダムな種を見つけることを目的として、トンプソンサンプリングに基づく最適化戦略とともに、ガウス過程(gp)のクラスを提案する。 この軌道指向最適化(TOO)アプローチは、平均シミュレーションの振る舞いが基底真実と一致するパラメータ設定のセットではなく、経験的観測に近い実際の軌道を生成する。

Epidemiological models must be calibrated to ground truth for downstream tasks such as producing forward projections or running what-if scenarios. The meaning of calibration changes in case of a stochastic model since output from such a model is generally described via an ensemble or a distribution. Each member of the ensemble is usually mapped to a random number seed (explicitly or implicitly). With the goal of finding not only the input parameter settings but also the random seeds that are consistent with the ground truth, we propose a class of Gaussian process (GP) surrogates along with an optimization strategy based on Thompson sampling. This Trajectory Oriented Optimization (TOO) approach produces actual trajectories close to the empirical observations instead of a set of parameter settings where only the mean simulation behavior matches with the ground truth.
翻訳日:2023-09-15 19:01:08 公開日:2023-09-13
# 量子フーリエ反復振幅推定

Quantum Fourier Iterative Amplitude Estimation ( http://arxiv.org/abs/2305.01686v2 )

ライセンス: Link先を確認
Jorge J. Mart\'inez de Lejarza, Michele Grossi, Leandro Cieri and Germ\'an Rodrigo(参考訳) モンテカルロ積分(モンテカルロせき、montal carlo integration)は、計算コストが高い積分の近似法である。 近年、量子コンピューティングはモンテカルロ積分の高速化を約束しており、この目標を達成するためにいくつかの量子アルゴリズムが提案されている。 本稿では,モンテカルロ積分を推定するための新しいツールを構築するために,量子機械学習(QML)とGroverの増幅アルゴリズムの適用について述べる。 我々は、量子フーリエ反復振幅推定(QFIAE)と呼び、パラメタライズド量子回路(PQC)、特に量子ニューラルネットワーク(QNN)を用いてターゲット関数をフーリエ級数に分解し、反復量子振幅推定(IQAE)を用いて各三角成分を統合する。 このアプローチはフーリエ量子モンテカルロ積分(FQMCI)法に基づいており、ターゲット関数をフーリエ級数に分解するが、QFIAEはフーリエ係数の数値積分を避ける。 このアプローチはIQAEが達成した2次スピードアップを維持しながら計算負荷を削減する。 QFIAEの性能を評価するために、粒子物理学散乱法に対応するテスト関数に適用し、その精度を他の量子積分法や解析結果と比較する。 この結果から,QFIAEは実ハードウェア上での実行に適した精度を実現していることがわかった。 また、フーリエ級数における項数を増やすことにより、QFIAEの精度が向上することを示す。 結論として、qfiae はモンテカルロ積分のエンドツーエンド量子アルゴリズムであり、pqc のパワーとフーリエ解析と iqae を組み合わせて、高精度に積分を近似する新しいアプローチを提供する。

Monte Carlo integration is a widely used numerical method for approximating integrals, which is often computationally expensive. In recent years, quantum computing has shown promise for speeding up Monte Carlo integration, and several quantum algorithms have been proposed to achieve this goal. In this paper, we present an application of Quantum Machine Learning (QML) and Grover's amplification algorithm to build a new tool for estimating Monte Carlo integrals. Our method, which we call Quantum Fourier Iterative Amplitude Estimation (QFIAE), decomposes the target function into its Fourier series using a Parametrized Quantum Circuit (PQC), specifically a Quantum Neural Network (QNN), and then integrates each trigonometric component using Iterative Quantum Amplitude Estimation (IQAE). This approach builds on Fourier Quantum Monte Carlo Integration (FQMCI) method, which also decomposes the target function into its Fourier series, but QFIAE avoids the need for numerical integration of Fourier coefficients. This approach reduces the computational load while maintaining the quadratic speedup achieved by IQAE. To evaluate the performance of QFIAE, we apply it to a test function that corresponds with a particle physics scattering process and compare its accuracy with other quantum integration methods and the analytic result. Our results show that QFIAE achieves comparable accuracy while being suitable for execution on real hardware. We also demonstrate how the accuracy of QFIAE improves by increasing the number of terms in the Fourier series. In conclusion, QFIAE is a promising end-to-end quantum algorithm for Monte Carlo integrals that combines the power of PQC with Fourier analysis and IQAE to offer a new approach for efficiently approximating integrals with high accuracy.
翻訳日:2023-09-15 19:00:54 公開日:2023-09-13
# 深部時空間クラスタリング:多次元気候データのための時間的クラスタリングアプローチ

Deep Spatiotemporal Clustering: A Temporal Clustering Approach for Multi-dimensional Climate Data ( http://arxiv.org/abs/2304.14541v2 )

ライセンス: Link先を確認
Omar Faruque, Francis Ndikum Nji, Mostafa Cham, Rohan Mandar Salvi, Xue Zheng, and Jianwu Wang(参考訳) 教師なしアプローチによる高次元時空間データのクラスタリングは、多くのデータ駆動アプリケーションにとって難しい問題である。 教師なしクラスタリングのための既存の最先端手法では、類似性と距離関数が異なるが、データの空間的特徴と時間的特徴に注目する。 本研究では,空間的・時間的特徴の深層学習に着目し,非教師付き深層学習法を用いた高次元時空間データの時間的クラスタリングのための新しいアルゴリズムである深部時空間クラスタリング(DSC)を提案する。 U-netアーキテクチャにインスパイアされたDSCは、CNN-RNN層を統合したオートエンコーダを使用して、時空間データの潜在表現を学習する。 dscには、学生のt分布を利用する潜在表現のクラスタ割り当てのためのユニークなレイヤも含まれている。 クラスタリング損失とデータ再構成損失を同時に最適化することにより、低次元の潜在特徴空間と高次元の原データ空間との非線形マッピングを徐々に改善する。 提案手法の有効性を評価するために,多変量時空間気候データセットを用いた。 実験により,従来のクラスタリングアルゴリズムと深層学習に基づくクラスタリングアルゴリズムよりも優れた性能を示した。 さらに,提案手法をcnnエンコーダ,cnnオートエンコーダ,cnn-rnnエンコーダ,cnn-rnnオートエンコーダなど)と比較し,cnnレイヤとrnnレイヤの両方の使用状況について考察し,提案手法がクラスタリング結果の面でこれらの変種を上回った。

Clustering high-dimensional spatiotemporal data using an unsupervised approach is a challenging problem for many data-driven applications. Existing state-of-the-art methods for unsupervised clustering use different similarity and distance functions but focus on either spatial or temporal features of the data. Concentrating on joint deep representation learning of spatial and temporal features, we propose Deep Spatiotemporal Clustering (DSC), a novel algorithm for the temporal clustering of high-dimensional spatiotemporal data using an unsupervised deep learning method. Inspired by the U-net architecture, DSC utilizes an autoencoder integrating CNN-RNN layers to learn latent representations of the spatiotemporal data. DSC also includes a unique layer for cluster assignment on latent representations that uses the Student's t-distribution. By optimizing the clustering loss and data reconstruction loss simultaneously, the algorithm gradually improves clustering assignments and the nonlinear mapping between low-dimensional latent feature space and high-dimensional original data space. A multivariate spatiotemporal climate dataset is used to evaluate the efficacy of the proposed method. Our extensive experiments show our approach outperforms both conventional and deep learning-based unsupervised clustering algorithms. Additionally, we compared the proposed model with its various variants (CNN encoder, CNN autoencoder, CNN-RNN encoder, CNN-RNN autoencoder, etc.) to get insight into using both the CNN and RNN layers in the autoencoder, and our proposed technique outperforms these variants in terms of clustering results.
翻訳日:2023-09-15 19:00:23 公開日:2023-09-13
# オートキャラクタリゼーション:コンピュータビジョンを用いた高スループット実験による半導体特性の自動評価

Autocharacterization: Automated and Scalable Semiconductor Property Estimation from High-throughput Experiments using Computer Vision ( http://arxiv.org/abs/2304.14408v2 )

ライセンス: Link先を確認
Alexander E. Siemenn, Eunice Aissi, Fang Sheng, Armi Tiihonen, Hamide Kavak, Basita Das, Tonio Buonassisi(参考訳) 溶液処理半導体などの新規機能性材料の設計と発見を加速する可能性から,高スループット材料合成法が注目されている。 合成後、重要な材料特性を測定し、発見を検証し、最適化サイクルへのフィードバックを提供するよう特徴付けなければならない。 しかし、フレキシブルなフォームファクターで1時間あたり10^4$のサンプルを生成する高スループット合成ツールの開発が盛んになり、ほとんどのサンプルキャラクタリゼーション手法は遅い(従来の10^1$のサンプルは1時間あたり約1000倍遅い)か硬い(例えば、標準サイズのマイクロプレート用に設計された)か、材料設計プロセスを妨げるボトルネックとなる。 この課題を克服するために,コンピュータビジョンの適応性,並列性,拡張性を活用して,非自動化ワークフローに比べて85倍のスループットを実現する,自動材料特性評価(自動評価)ツールのセットを提案する。 そこで本研究では,高スループット合成二成分系のための汎用合成マッピングツールと,2つのスケーラブルな自動評価アルゴリズムについて述べる。(1)200個の固有組成のバンドギャップを6分で自律的に計算し,(2)200個の固有組成の劣化度を20分で自律的に計算し,バンドギャップと安定性の超高組成分解能トレンドを生成する。 開発したバンドギャップおよび劣化検出オートキャラクタリゼーション法は,fa$_{1-x}$ma$_{x}$pbi$_3$,$0\leq x \leq 1$ perovskite半導体システムにおいてそれぞれ98.5%の精度と96.9%の精度を達成した。

High-throughput materials synthesis methods have risen in popularity due to their potential to accelerate the design and discovery of novel functional materials, such as solution-processed semiconductors. After synthesis, key material properties must be measured and characterized to validate discovery and provide feedback to optimization cycles. However, with the boom in development of high-throughput synthesis tools that champion production rates up to $10^4$ samples per hour with flexible form factors, most sample characterization methods are either slow (conventional rates of $10^1$ samples per hour, approximately 1000x slower) or rigid (e.g., designed for standard-size microplates), resulting in a bottleneck that impedes the materials-design process. To overcome this challenge, we propose a set of automated material property characterization (autocharacterization) tools that leverage the adaptive, parallelizable, and scalable nature of computer vision to accelerate the throughput of characterization by 85x compared to the non-automated workflow. We demonstrate a generalizable composition mapping tool for high-throughput synthesized binary material systems as well as two scalable autocharacterization algorithms that (1) autonomously compute the band gap of 200 unique compositions in 6 minutes and (2) autonomously compute the degree of degradation in 200 unique compositions in 20 minutes, generating ultra-high compositional resolution trends of band gap and stability. We demonstrate that the developed band gap and degradation detection autocharacterization methods achieve 98.5% accuracy and 96.9% accuracy, respectively, on the FA$_{1-x}$MA$_{x}$PbI$_3$, $0\leq x \leq 1$ perovskite semiconductor system.
翻訳日:2023-09-15 18:59:50 公開日:2023-09-13
# 擬似乱数状態からの擬似乱数文字列

Pseudorandom Strings from Pseudorandom Quantum States ( http://arxiv.org/abs/2306.05613v2 )

ライセンス: Link先を確認
Prabhanjan Ananth, Yao-Ting Lin, Henry Yuen(参考訳) 量子世界と古典世界における擬似ランダム性の概念の関係について研究する。 Pseudorandom quantum state generator (PRSG)は、量子世界の擬似ランダム性の概念であり、Haarランダム状態と計算的に区別できない状態を生成する効率的な回路である。 PRSGは量子重力、量子機械学習、量子複雑性理論、量子暗号に応用されている。 一方、疑似乱数生成器は古典世界における疑似乱数の概念であり、理論計算機科学に普遍的である。 PRSGとPRGの間にはいくつかの分離結果が知られていたが、それらの関係は完全には理解されていない。 本研究では、量子擬似乱数発生器(QPRG)と呼ばれる擬似乱数発生器の自然変種が対数出力長PSRGsの存在に基づいていることを示す。 我々の結果は、以前の分離と合わせて、この2つの概念の関係についてよりよく示している。 また、擬似乱数関数のような状態生成器と擬似乱数関数の関係についても検討する。 コミットメントや暗号スキームなどのQPRGの暗号アプリケーションを提供することで,QPRGがPRGと同じくらい有用であることを示す。 我々の主な技術的貢献は、Haar-random状態から一様ランダムな文字列を仮決定的に抽出する方法である。

We study the relationship between notions of pseudorandomness in the quantum and classical worlds. Pseudorandom quantum state generator (PRSG), a pseudorandomness notion in the quantum world, is an efficient circuit that produces states that are computationally indistinguishable from Haar random states. PRSGs have found applications in quantum gravity, quantum machine learning, quantum complexity theory, and quantum cryptography. Pseudorandom generators, on the other hand, a pseudorandomness notion in the classical world, is ubiquitous to theoretical computer science. While some separation results were known between PRSGs, for some parameter regimes, and PRGs, their relationship has not been completely understood. In this work, we show that a natural variant of pseudorandom generators called quantum pseudorandom generators (QPRGs) can be based on the existence of logarithmic output length PRSGs. Our result along with the previous separations gives a better picture regarding the relationship between the two notions. We also study the relationship between other notions, namely, pseudorandom function-like state generators and pseudorandom functions. We provide evidence that QPRGs can be as useful as PRGs by providing cryptographic applications of QPRGs such as commitments and encryption schemes. Our primary technical contribution is a method for pseudodeterministically extracting uniformly random strings from Haar-random states.
翻訳日:2023-09-15 18:49:59 公開日:2023-09-13
# k2:地学知識の理解と活用のための基礎言語モデル

K2: A Foundation Language Model for Geoscience Knowledge Understanding and Utilization ( http://arxiv.org/abs/2306.05064v2 )

ライセンス: Link先を確認
Cheng Deng, Tianhang Zhang, Zhongmou He, Yi Xu, Qiyuan Chen, Yuanyuan Shi, Luoyi Fu, Weinan Zhang, Xinbing Wang, Chenghu Zhou, Zhouhan Lin, Junxian He(参考訳) 大規模言語モデル(LLM)は自然言語処理の一般分野において大きな成功を収めている。 本稿では,LLMを地球科学の領域に持ち込み,その分野における研究と応用の推進を目的としている。 この目的のために、地球科学における最初のLLMであるK2を、地球科学におけるLLM研究をさらに促進するために開発された一連の資源と共に提示する。 例えば,LLM応答をジオサイエンス関連ユーザクエリに合わせることを目的とした,最初のジオサイエンスインストラクションチューニングデータセットであるGeoSignalをキュレートした。 さらに,地球科学の文脈でLSMを評価するための最初の地球科学ベンチマークGeoBenchを構築した。 本研究では,プレトレーニング済みの一般ドメイン LLM を地球科学領域に適用するための完全なレシピを実験する。 具体的には,100万点以上のジオサイエンス文献を含む5.5bトークンのllama-7bモデルをさらにトレーニングし,geosignalの教師付きデータを用いてモデルを微調整する。 さらに,マンパワーが不足している状況でも,ドメイン固有データを効率的に収集し,ドメイン教師付きデータを構築するプロトコルを共有する。 一方,K2には,地学の素直な補助手段としてツールを使用する能力が備わっている。 GeoBenchで行った実験は、我々のアプローチとデータセットが地球科学知識の理解と利用に与える影響を実証するものである。我々は、すべてのトレーニングデータとK2モデルのチェックポイントをhttps://github.com/davendw49/k2でオープンソース化した。

Large language models (LLMs) have achieved great success in general domains of natural language processing. In this paper, we bring LLMs to the realm of geoscience with the objective of advancing research and applications in this field. To this end, we present the first-ever LLM in geoscience, K2, alongside a suite of resources developed to further promote LLM research within geoscience. For instance, we have curated the first geoscience instruction tuning dataset, GeoSignal, which aims to align LLM responses to geoscience-related user queries. Additionally, we have established the first geoscience benchmark, GeoBench, to evaluate LLMs in the context of geoscience. In this work, we experiment with a complete recipe to adapt a pre-trained general-domain LLM to the geoscience domain. Specifically, we further train the LLaMA-7B model on 5.5B tokens of geoscience text corpus, including over 1 million pieces of geoscience literature, and utilize GeoSignal's supervised data to fine-tune the model. Moreover, we share a protocol that can efficiently gather domain-specific data and construct domain-supervised data, even in situations where manpower is scarce. Meanwhile, we equip K2 with the abilities of using tools to be a naive geoscience aide. Experiments conducted on the GeoBench demonstrate the effectiveness of our approach and datasets on geoscience knowledge understanding and utilization.We open-source all the training data and K2 model checkpoints at https://github.com/davendw49/k2.
翻訳日:2023-09-15 18:49:37 公開日:2023-09-13
# embodiedgpt: 思考の具体的連鎖による視覚言語事前学習

EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought ( http://arxiv.org/abs/2305.15021v2 )

ライセンス: Link先を確認
Yao Mu, Qinglong Zhang, Mengkang Hu, Wenhai Wang, Mingyu Ding, Jun Jin, Bin Wang, Jifeng Dai, Yu Qiao, Ping Luo(参考訳) Embodied AIはロボット工学における重要なフロンティアであり、ロボットが物理的な環境で長時間の作業を達成するためのアクションシーケンスを計画し実行することができる。 本稿では,エンボディaiのためのエンドツーエンドのマルチモーダル基盤モデルであるembodiedgptを紹介し,マルチモーダル理解と実行能力を備えたエンボディエージェントの能力について述べる。 これを達成するために、私たちは以下の努力をしました。 i)EgoCOTと呼ばれる大規模実施計画データセットを構築した。 データセットは、Ego4Dデータセットから慎重に選択されたビデオと、それに対応する高品質な言語命令で構成されている。 具体的には、効果的な実施計画のための「思考の連鎖」モードによる一連のサブゴールを生成する。 (ii)プレフィックスチューニングにより,7b大言語モデル(llm)をエゴコットデータセットに適用することにより,高品質な計画生成のための効果的な訓練手法を提案する。 3)LLM生成計画クエリからタスク関連特徴を抽出し,高レベル計画と低レベル制御のクローズドループを形成するパラダイムを導入する。 広汎な実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。 特に、EmbodiedGPTは、より効果的な特徴を抽出することにより、実施制御タスクの成功率を大幅に向上させる。 また、Franka Kitchenベンチマークでは1.6倍、Meta-Worldベンチマークでは1.3倍、Ego4DデータセットではBLIP-2ベースラインが微調整されている。

Embodied AI is a crucial frontier in robotics, capable of planning and executing action sequences for robots to accomplish long-horizon tasks in physical environments. In this work, we introduce EmbodiedGPT, an end-to-end multi-modal foundation model for embodied AI, empowering embodied agents with multi-modal understanding and execution capabilities. To achieve this, we have made the following efforts: (i) We craft a large-scale embodied planning dataset, termed EgoCOT. The dataset consists of carefully selected videos from the Ego4D dataset, along with corresponding high-quality language instructions. Specifically, we generate a sequence of sub-goals with the "Chain of Thoughts" mode for effective embodied planning. (ii) We introduce an efficient training approach to EmbodiedGPT for high-quality plan generation, by adapting a 7B large language model (LLM) to the EgoCOT dataset via prefix tuning. (iii) We introduce a paradigm for extracting task-related features from LLM-generated planning queries to form a closed loop between high-level planning and low-level control. Extensive experiments show the effectiveness of EmbodiedGPT on embodied tasks, including embodied planning, embodied control, visual captioning, and visual question answering. Notably, EmbodiedGPT significantly enhances the success rate of the embodied control task by extracting more effective features. It has achieved a remarkable 1.6 times increase in success rate on the Franka Kitchen benchmark and a 1.3 times increase on the Meta-World benchmark, compared to the BLIP-2 baseline fine-tuned with the Ego4D dataset.
翻訳日:2023-09-15 18:47:29 公開日:2023-09-13
# 大規模言語モデルにおける人格特性

Personality Traits in Large Language Models ( http://arxiv.org/abs/2307.00184v2 )

ライセンス: Link先を確認
Greg Serapio-Garc\'ia, Mustafa Safdari, Cl\'ement Crepy, Luning Sun, Stephen Fitz, Peter Romero, Marwa Abdulhai, Aleksandra Faust, Maja Matari\'c(参考訳) 大規模言語モデル(LLM)の出現は自然言語処理に革命をもたらし、一貫性と文脈に関連のある人間的なテキストの生成を可能にした。 llmが世界中の一般大衆が使う会話エージェントのパワーを増すにつれて、大量の人間のデータを訓練することで、これらのモデルに埋め込まれた合成パーソナリティはますます重要になっている。 コミュニケーションの有効性を判断する鍵となる要因として,広く利用されているLDM上でのパーソナリティテストの実施と検証,およびこのようなLCMの生成したテキストにおけるパーソナリティ形成のための総合的な手法を提案する。 この方法を適用してみると、 1)特定刺激条件下でのLCMの出力の性格測定は信頼性が高く有効である。 2 LLM人格の信頼性及び妥当性の証拠は、より大きく細調整されたモデルに強く、かつ、 3) LLM出力のパーソナリティは, 特定の人間のパーソナリティプロファイルを模倣するために, 所望の次元に沿って形成することができる。 本稿では,計測・形成手法の応用と倫理的意義,特に責任あるAIについて論じる。

The advent of large language models (LLMs) has revolutionized natural language processing, enabling the generation of coherent and contextually relevant human-like text. As LLMs increasingly power conversational agents used by the general public world-wide, the synthetic personality embedded in these models, by virtue of training on large amounts of human data, is becoming increasingly important. Since personality is a key factor determining the effectiveness of communication, we present a comprehensive method for administering and validating personality tests on widely-used LLMs, as well as for shaping personality in the generated text of such LLMs. Applying this method, we found: 1) personality measurements in the outputs of some LLMs under specific prompting configurations are reliable and valid; 2) evidence of reliability and validity of synthetic LLM personality is stronger for larger and instruction fine-tuned models; and 3) personality in LLM outputs can be shaped along desired dimensions to mimic specific human personality profiles. We discuss application and ethical implications of the measurement and shaping method, in particular regarding responsible AI.
翻訳日:2023-09-15 18:40:37 公開日:2023-09-13
# 3dvrスケッチによる3d形状のプロトタイピングと探索

3D VR Sketch Guided 3D Shape Prototyping and Exploration ( http://arxiv.org/abs/2306.10830v5 )

ライセンス: Link先を確認
Ling Luo, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song, Yulia Gryaditskaya(参考訳) 3D形状モデリングは、労働集約的で、時間がかかり、長年の専門知識を必要とする。 3次元形状モデリングを容易にするために,3次元vrスケッチを条件とする3次元形状生成ネットワークを提案する。 スケッチは初心者がアートトレーニングなしで作成し,任意のカテゴリの幾何学的リアルな3D形状を再構築することを目的としている。 スケッチの曖昧さに対処するため,本手法では,スケッチの構造に合致した複数の3次元形状を作成する。 本手法を注意深く設計し,段階的にモデルを訓練し,多モード3次元形状表現を活用し,限られたトレーニングデータによるトレーニングを支援する。 生成した3次元形状の現実性を保証するために、3次元形状の潜在空間の分布をモデル化する正規化フローを利用する。 入力スケッチに対する生成した3次元形状の忠実性を促進するために,訓練過程の異なる段階に展開する専用損失を提案する。 コードはhttps://github.com/rowl1ng/3dsketch2shapeで入手できる。

3D shape modeling is labor-intensive, time-consuming, and requires years of expertise. To facilitate 3D shape modeling, we propose a 3D shape generation network that takes a 3D VR sketch as a condition. We assume that sketches are created by novices without art training and aim to reconstruct geometrically realistic 3D shapes of a given category. To handle potential sketch ambiguity, our method creates multiple 3D shapes that align with the original sketch's structure. We carefully design our method, training the model step-by-step and leveraging multi-modal 3D shape representation to support training with limited training data. To guarantee the realism of generated 3D shapes we leverage the normalizing flow that models the distribution of the latent space of 3D shapes. To encourage the fidelity of the generated 3D shapes to an input sketch, we propose a dedicated loss that we deploy at different stages of the training process. The code is available at https://github.com/Rowl1ng/3Dsketch2shape.
翻訳日:2023-09-15 18:38:28 公開日:2023-09-13
# Halo: オープンソースの弱言語モデルにおける幻覚の推定と削減

Halo: Estimation and Reduction of Hallucinations in Open-Source Weak Large Language Models ( http://arxiv.org/abs/2308.11764v4 )

ライセンス: Link先を確認
Mohamed Elaraby, Mengyin Lu, Jacob Dunn, Xueying Zhang, Yu Wang, Shizhu Liu, Pingchuan Tian, Yuping Wang, Yuxuan Wang(参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした。 研究や実用化には便利だが、パラメータが少ないオープンソースのLLMは、より大きなものに比べて深刻な幻覚に悩まされることが多い。 本稿では,研究用および商用用として公開されている,より弱いオープンソースLLMの代表であるBLOOM 7Bの幻覚の測定と低減に焦点をあてる。 我々は,LLMにおける幻覚の重症度を定量化する軽量なブラックボックス知識フリーフレームワークであるHaloCheckを紹介する。 さらに,低パラメータLDMにおける幻覚を軽減するための知識注入や教師の指導的アプローチなどの手法についても検討する。 本実験は,これらのLSMに対する挑戦領域における幻覚の減少を効果的に示すものである。

Large Language Models (LLMs) have revolutionized Natural Language Processing (NLP). Although convenient for research and practical applications, open-source LLMs with fewer parameters often suffer from severe hallucinations compared to their larger counterparts. This paper focuses on measuring and reducing hallucinations in BLOOM 7B, a representative of such weaker open-source LLMs that are publicly available for research and commercial applications. We introduce HaloCheck, a lightweight BlackBox knowledge-free framework designed to quantify the severity of hallucinations in LLMs. Additionally, we explore techniques like knowledge injection and teacher-student approaches to alleviate hallucinations in low-parameter LLMs. Our experiments effectively demonstrate the reduction of hallucinations in challenging domains for these LLMs.
翻訳日:2023-09-15 18:18:06 公開日:2023-09-13
# 2つのリストは1より優れているか? 共同意思決定における利益とハーム

When Are Two Lists Better than One?: Benefits and Harms in Joint Decision-making ( http://arxiv.org/abs/2308.11721v2 )

ライセンス: Link先を確認
Kate Donahue, Sreenivas Gollapudi, Kostas Kollias(参考訳) 歴史的に、機械学習の研究の多くはアルゴリズムの性能だけに焦点を当ててきたが、近年は人間-アルゴリズムの協調性能の最適化に注目が集まっている。 ここでは,アルゴリズムが1組の$n$アイテムにアクセス可能な,特定のタイプの人間とアルゴリズムのコラボレーションを分析し,その中の最終項目を選択した人に$k$のサブセットを提示する。 このシナリオは、コンテンツのレコメンデーション、ルート計画、どんな種類のラベル付けタスクでもモデル化できる。 人間とアルゴリズムのどちらも、アイテムの真の順序に関する不完全でノイズの多い情報を持っているので、鍵となる疑問は次のとおりである:$k$の値が最終的にベストアイテムが選択される確率を最大化するか? $k=1$の場合、パフォーマンスはアルゴリズム単独で最適化され、$k=n$の場合、人間単独で最適化される。 驚いたことに、複数のノイズモデルに対して、$k \in [2, n-1]$ - を設定するのが最適である。 理論的には、Mallowsモデルに対して、およびノイズ置換のランダムユーティリティモデルに対して実験的にこれを実証する。 しかし、このパターンは、人間が提示されたアルゴリズムの順序に固定されているときに反転することを示している。 これらの結果は、人間とアルゴリズムが精度のレベルで異なる場合まで拡張し、より正確なエージェントがより正確でないエージェントとのコラボレーションによって厳密に利益を得るような体制が常に存在することを示したが、これらの制度は人間とアルゴリズムの精度の間に非対称である。

Historically, much of machine learning research has focused on the performance of the algorithm alone, but recently more attention has been focused on optimizing joint human-algorithm performance. Here, we analyze a specific type of human-algorithm collaboration where the algorithm has access to a set of $n$ items, and presents a subset of size $k$ to the human, who selects a final item from among those $k$. This scenario could model content recommendation, route planning, or any type of labeling task. Because both the human and algorithm have imperfect, noisy information about the true ordering of items, the key question is: which value of $k$ maximizes the probability that the best item will be ultimately selected? For $k=1$, performance is optimized by the algorithm acting alone, and for $k=n$ it is optimized by the human acting alone. Surprisingly, we show that for multiple of noise models, it is optimal to set $k \in [2, n-1]$ - that is, there are strict benefits to collaborating, even when the human and algorithm have equal accuracy separately. We demonstrate this theoretically for the Mallows model and experimentally for the Random Utilities models of noisy permutations. However, we show this pattern is reversed when the human is anchored on the algorithm's presented ordering - the joint system always has strictly worse performance. We extend these results to the case where the human and algorithm differ in their accuracy levels, showing that there always exist regimes where a more accurate agent would strictly benefit from collaborating with a less accurate one, but these regimes are asymmetric between the human and the algorithm's accuracy.
翻訳日:2023-09-15 18:17:56 公開日:2023-09-13
# 重水素代謝イメージング(DMI)の感度向上のための保存エッジ畳み込みニューラルネットワーク

Preserved Edge Convolutional Neural Network for Sensitivity Enhancement of Deuterium Metabolic Imaging (DMI) ( http://arxiv.org/abs/2309.04100v2 )

ライセンス: Link先を確認
Siyuan Dong, Henk M. De Feyter, Monique A. Thomas, Robin A. de Graaf, James S. Duncan(参考訳) 目的:ほとんどのMRSI技術では,Deuterium Metabolic Imaging (DMI)の空間分解能と最小スキャン期間は,達成可能なSNRによって制限される。 本研究は,DMIの感度向上のための深層学習手法を提案する。 方法: 畳み込みニューラルネットワーク(CNN)は低SNRおよび歪んだDMI FIDから2H標識代謝物濃度を推定するために設計された。 CNNは、通常生体内で発生する様々なSNRレベルを表す合成データで訓練された。 推定精度は、MRIに基づく各DMIデータセットのエッジ保存正規化によるCNNの微調整によりさらに向上した。 提案手法である感度向上dmi(precise-dmi)のためのエッジ畳み込みニューラルネットワークをシミュレーションおよびin vivo実験に応用し,snrの改善予測を評価し,不正確性の可能性について検討した。 結果: PreCISE-DMI は低 SNR データセットの代謝マップを視覚的に改善し,標準的なフーリエ再構成よりも高い精度を定量的に提供した。 ラット脳腫瘍モデルで得られたdmiデータの処理により、2h標識乳酸およびグルタミン酸+グルタミン濃度の空間分解能(約8〜2ドル)またはスキャン時間の短縮(約32〜4分)が標準取得よりも正確に決定された。 しかし、厳密なSDバイアス分析により、エッジ保存正則化の過剰使用が結果の精度を損なうことが示された。 結論: PreCISE-DMIはDMIの感度を高め、不正確性を最小化することの間の柔軟なトレードオフを可能にする。 典型的な設定では、DMI感度は局所的な信号の変動を検出する能力を保ちながら、3倍改善することができる。

Purpose: Common to most MRSI techniques, the spatial resolution and the minimal scan duration of Deuterium Metabolic Imaging (DMI) are limited by the achievable SNR. This work presents a deep learning method for sensitivity enhancement of DMI. Methods: A convolutional neural network (CNN) was designed to estimate the 2H-labeled metabolite concentrations from low SNR and distorted DMI FIDs. The CNN was trained with synthetic data that represent a range of SNR levels typically encountered in vivo. The estimation precision was further improved by fine-tuning the CNN with MRI-based edge-preserving regularization for each DMI dataset. The proposed processing method, PReserved Edge ConvolutIonal neural network for Sensitivity Enhanced DMI (PRECISE-DMI), was applied to simulation studies and in vivo experiments to evaluate the anticipated improvements in SNR and investigate the potential for inaccuracies. Results: PRECISE-DMI visually improved the metabolic maps of low SNR datasets, and quantitatively provided higher precision than the standard Fourier reconstruction. Processing of DMI data acquired in rat brain tumor models resulted in more precise determination of 2H-labeled lactate and glutamate + glutamine levels, at increased spatial resolution (from >8 to 2 $\mu$L) or shortened scan time (from 32 to 4 min) compared to standard acquisitions. However, rigorous SD-bias analyses showed that overuse of the edge-preserving regularization can compromise the accuracy of the results. Conclusion: PRECISE-DMI allows a flexible trade-off between enhancing the sensitivity of DMI and minimizing the inaccuracies. With typical settings, the DMI sensitivity can be improved by 3-fold while retaining the capability to detect local signal variations.
翻訳日:2023-09-15 18:11:56 公開日:2023-09-13
# ロボット操作のための物理的接地視覚言語モデル

Physically Grounded Vision-Language Models for Robotic Manipulation ( http://arxiv.org/abs/2309.02561v2 )

ライセンス: Link先を確認
Jensen Gao, Bidipta Sarkar, Fei Xia, Ted Xiao, Jiajun Wu, Brian Ichter, Anirudha Majumdar, Dorsa Sadigh(参考訳) 視覚言語モデル(vlms)の最近の進歩は、視覚質問応答や画像キャプションといったタスクのパフォーマンス向上につながった。 その結果、これらのモデルは現在、特にロボット操作のような領域において、物理的世界に関する推論に適している。 しかしながら、現在のVLMは、一般的な物体の物理的概念(材料、脆弱性など)に対する理解に限られており、そのような物体に対する相互作用や物理的推論を含むロボット操作タスクにおいて有用性を制限する。 この制限に対処するために、39.6Kのクラウドソースと417Kの自動物理概念アノテーションからなるオブジェクト中心のデータセットであるPhysObjectsを提案する。 physobjects 上の vlm の微調整は、視覚から人間の先行概念を捉えることにより、保持された概念への一般化を含む物理的対象概念の理解を改善することを実証する。 我々は、この物理接地型VLMを、大規模言語モデルに基づくロボットプランナーと対話的なフレームワークに統合し、物理接地型VLMを使わないベースラインと比較して、物理対象概念の推論を必要とするタスクにおける計画性能の向上を示す。 さらに、実際のロボットに物理的に座ったVLMの利点を説明し、タスク成功率を改善する。 私たちはデータセットをリリースし、結果のさらなる詳細と可視化をhttps://iliad.stanford.edu/pg-vlm/で発表します。

Recent advances in vision-language models (VLMs) have led to improved performance on tasks such as visual question answering and image captioning. Consequently, these models are now well-positioned to reason about the physical world, particularly within domains such as robotic manipulation. However, current VLMs are limited in their understanding of the physical concepts (e.g., material, fragility) of common objects, which restricts their usefulness for robotic manipulation tasks that involve interaction and physical reasoning about such objects. To address this limitation, we propose PhysObjects, an object-centric dataset of 39.6K crowd-sourced and 417K automated physical concept annotations of common household objects. We demonstrate that fine-tuning a VLM on PhysObjects improves its understanding of physical object concepts, including generalization to held-out concepts, by capturing human priors of these concepts from visual appearance. We incorporate this physically-grounded VLM in an interactive framework with a large language model-based robotic planner, and show improved planning performance on tasks that require reasoning about physical object concepts, compared to baselines that do not leverage physically-grounded VLMs. We additionally illustrate the benefits of our physically-grounded VLM on a real robot, where it improves task success rates. We release our dataset and provide further details and visualizations of our results at https://iliad.stanford.edu/pg-vlm/.
翻訳日:2023-09-15 18:10:20 公開日:2023-09-13
# eDKM:大規模言語モデルのための効率的かつ正確な列車時重クラスタリング

eDKM: An Efficient and Accurate Train-time Weight Clustering for Large Language Models ( http://arxiv.org/abs/2309.00964v2 )

ライセンス: Link先を確認
Minsik Cho, Keivan A. Vahid, Qichen Fu, Saurabh Adya, Carlo C Del Mundo, Mohammad Rastegari, Devang Naik, Peter Zatloukal(参考訳) 大規模言語モデル(LLM)は、多くの複雑な言語タスクにおいて、高品質なパフォーマンスを示してきたため、より高速な応答とプライバシー保護のために、これらのLLMをモバイルデバイスに持ち込むことに大きな関心がある。 しかし、LLMのサイズ(すなわち数十億のパラメータ)はストレージ制限されたデバイスに収まるために非常に効率的な圧縮を必要とする。 多くの圧縮技術の中で、非線形量子化の一形態である重みクラスタリングは、LLM圧縮の主要な候補の1つであり、現代のスマートフォンでサポートされている。 しかし、LLMの微調整にはトレーニングのオーバーヘッドが極めて重要である。 特に、微分可能なKMeans Clustering(DKM)は、圧縮比と精度回帰の間の最先端のトレードオフを示しているが、その大きなメモリ複雑性により、列車時のLLM圧縮に適用することはほぼ不可能である。 本稿では,メモリ効率のよいDKM実装であるeDKMを提案し,DKMのメモリフットプリントを桁違いに削減する。 DKMの後続パスのためにCPUに保存されるテンソルに対して、以前にCPUにコピーされた重複テンソルがないかどうかを確認した後、不等化とシャーディングを適用してテンソルを圧縮した。 実験結果から,より広い LLM ベンチマーク(PIQA 77.7%,Winograde 66.1%,PIQA 66.1% など)において,Decoder 層のトレインタイムメモリフットプリントを 130$\times$ に削減し,プレトレーニング済みの LLaMA 7B モデルを 12.6 GB から 2.5 GB (3bit/weight) に圧縮できることが確認された。

Since Large Language Models or LLMs have demonstrated high-quality performance on many complex language tasks, there is a great interest in bringing these LLMs to mobile devices for faster responses and better privacy protection. However, the size of LLMs (i.e., billions of parameters) requires highly effective compression to fit into storage-limited devices. Among many compression techniques, weight-clustering, a form of non-linear quantization, is one of the leading candidates for LLM compression, and supported by modern smartphones. Yet, its training overhead is prohibitively significant for LLM fine-tuning. Especially, Differentiable KMeans Clustering, or DKM, has shown the state-of-the-art trade-off between compression ratio and accuracy regression, but its large memory complexity makes it nearly impossible to apply to train-time LLM compression. In this paper, we propose a memory-efficient DKM implementation, eDKM powered by novel techniques to reduce the memory footprint of DKM by orders of magnitudes. For a given tensor to be saved on CPU for the backward pass of DKM, we compressed the tensor by applying uniquification and sharding after checking if there is no duplicated tensor previously copied to CPU. Our experimental results demonstrate that \prjname can fine-tune and compress a pretrained LLaMA 7B model from 12.6 GB to 2.5 GB (3bit/weight) with the Alpaca dataset by reducing the train-time memory footprint of a decoder layer by 130$\times$, while delivering good accuracy on broader LLM benchmarks (i.e., 77.7% for PIQA, 66.1% for Winograde, and so on).
翻訳日:2023-09-15 18:09:34 公開日:2023-09-13
# シュロディンガーの猫の生活と絡み合った冒険

The life and entangled adventures of Schrodinger's cat ( http://arxiv.org/abs/2309.06387v2 )

ライセンス: Link先を確認
Anthony Sudbery(参考訳) この講義では、一般の聴衆のために、量子論の形式論、特に重ね合わせの考え方をサブ原子の体制を超えて拡張した奇妙な結果を示すために設計されたシュル=オディンガーの思考実験について述べる。 私は形式論理の観点から重ね合わせを理解する方法を説明します。 私は、この思考実験の後、シュロディンガーのアイデアの発展を辿り、実際の実験で実現したいくつかの作品とそれをさらに進めるための提案を手短にスケッチします。

In this lecture, intended for a general audience, I describe Schr\"odinger's thought experiment which was designed to show the strange results of extending the formalism of quantum theory, particularly the idea of superposition, beyond the subatomic regime. I describe a way to understand superposition in the terms of formal logic. I trace the development of Schrodinger's ideas after this thought experiment, and briefly sketch some work which realises it in actual experiments, and proposals for taking it further.
翻訳日:2023-09-15 18:01:24 公開日:2023-09-13
# gptモデルを用いた臨床ノートから社会決定要因と家族歴を抽出するための最小指導によるゼロショット学習

Zero-shot Learning with Minimum Instruction to Extract Social Determinants and Family History from Clinical Notes using GPT Model ( http://arxiv.org/abs/2309.05475v2 )

ライセンス: Link先を確認
Neel Bhate, Ansh Mittal, Zhe He and Xiao Luo(参考訳) 電子健康記録の非構造化テキストに記録された人口統計、健康の社会的決定要因、家族の歴史は、この情報を構造化データでどのように活用し、医療結果を改善するかを理解するために、ますます研究されている。 GPTモデルがリリースされた後、多くの研究がGPTモデルを用いて物語臨床ノートからこれらの情報を抽出している。 既存の研究とは違って,本研究はgptモデルに最小情報を提供することで,ゼロショット学習による情報抽出に重点を置いている。 我々は, 人口統計, 各種社会的決定要因, 家族歴情報に注釈が付された非特定実世界臨床ノートを利用する。 gptモデルが原データのテキストと異なるテキストを提供する可能性があることを考慮し、従来のner評価指標とセマンティック類似性評価指標を含む2つの評価指標を探索し、性能を完全に理解する。 以上の結果から, GPT-3.5法は, 平均0.975 F1, 社会要因抽出0.615 F1, 家族歴抽出0.722 F1を達成した。 これらの結果は、モデル微調整や少数ショット学習によってさらに改善できると考えています。 また,ケーススタディを通じて,今後の研究に対処する必要があるGPTモデルの限界を明らかにした。

Demographics, Social determinants of health, and family history documented in the unstructured text within the electronic health records are increasingly being studied to understand how this information can be utilized with the structured data to improve healthcare outcomes. After the GPT models were released, many studies have applied GPT models to extract this information from the narrative clinical notes. Different from the existing work, our research focuses on investigating the zero-shot learning on extracting this information together by providing minimum information to the GPT model. We utilize de-identified real-world clinical notes annotated for demographics, various social determinants, and family history information. Given that the GPT model might provide text different from the text in the original data, we explore two sets of evaluation metrics, including the traditional NER evaluation metrics and semantic similarity evaluation metrics, to completely understand the performance. Our results show that the GPT-3.5 method achieved an average of 0.975 F1 on demographics extraction, 0.615 F1 on social determinants extraction, and 0.722 F1 on family history extraction. We believe these results can be further improved through model fine-tuning or few-shots learning. Through the case studies, we also identified the limitations of the GPT models, which need to be addressed in future research.
翻訳日:2023-09-15 18:00:28 公開日:2023-09-13
# LCReg:潜在カテゴリに基づく認識を用いた長期画像分類

LCReg: Long-Tailed Image Classification with Latent Categories based Recognition ( http://arxiv.org/abs/2309.07186v1 )

ライセンス: Link先を確認
Weide Liu, Zhonghua Wu, Yiming Wang, Henghui Ding, Fayao Liu, Jie Lin, Guosheng Lin(参考訳) 本研究では,ロングテール画像認識の課題に挑戦する。 従来のlong-tailed recognitionアプローチは、モデルトレーニング中により注意を引かせるために、尾部クラスのデータ拡張や再バランス戦略に重点を置いている。 しかし、これらの方法はテールクラスのトレーニング画像の数によって制限され、結果として特徴表現が貧弱になる。 この問題に対処するために,Latent Categories based Long-tail Recognition (LCReg)法を提案する。 我々の仮説は、頭と尾のクラスで共有される一般的な潜伏的特徴は、特徴表現を改善するために使用できるというものである。 具体的には、頭と尾の両方で共有されるクラス非依存の潜伏特徴の集合を学習し、潜伏特徴のセマンティックデータ拡張を用いてトレーニングサンプルの多様性を暗黙的に増加させる。 5つの長尾画像認識データセットについて広範な実験を行い,提案手法がベースラインを大幅に改善することを示す。

In this work, we tackle the challenging problem of long-tailed image recognition. Previous long-tailed recognition approaches mainly focus on data augmentation or re-balancing strategies for the tail classes to give them more attention during model training. However, these methods are limited by the small number of training images for the tail classes, which results in poor feature representations. To address this issue, we propose the Latent Categories based long-tail Recognition (LCReg) method. Our hypothesis is that common latent features shared by head and tail classes can be used to improve feature representation. Specifically, we learn a set of class-agnostic latent features shared by both head and tail classes, and then use semantic data augmentation on the latent features to implicitly increase the diversity of the training sample. We conduct extensive experiments on five long-tailed image recognition datasets, and the results show that our proposed method significantly improves the baselines.
翻訳日:2023-09-15 17:30:38 公開日:2023-09-13
# フレキシブルな三誘電体センサを用いたモノの知能インターネットのための健康モニタリングシステムとそのバーチャルリアリティへの応用

A Health Monitoring System Based on Flexible Triboelectric Sensors for Intelligence Medical Internet of Things and its Applications in Virtual Reality ( http://arxiv.org/abs/2309.07185v1 )

ライセンス: Link先を確認
Junqi Mao, Puen Zhou, Xiaoyao Wang, Hongbo Yao, Liuyang Liang, Yiqiao Zhao, Jiawei Zhang, Dayan Ban and Haiwu Zheng(参考訳) Internet of Medical Things (IoMT)は、IoT(Internet of Things)技術と医療アプリケーションを組み合わせたプラットフォームであり、デジタル化とインテリジェンスの時代において、精密医療、インテリジェントヘルスケア、遠隔医療の実現を可能にする。 しかしiomtは、持続可能な電源供給、センサーの人間適応性、センサーの知性など、さまざまな課題に直面している。 本研究では,柔軟なウェアラブル・トライボエレクトリックセンサと深層学習支援データ分析の相乗的統合により,堅牢でインテリジェントなiomtシステムを設計した。 パーキンソン病(PD)患者の手足の動きを検知・解析するため,手首に4つの帯電センサを組み込んだ。 深層学習支援データ分析のさらなる統合により、位置/軌跡追跡、心臓モニタリング、身元認識を含むPD患者の監視と相互作用のためのインテリジェントヘルスケアモニタリングシステムを実現した。 この革新的なアプローチにより、PD患者の微妙な動きと微妙な運動を正確に捉え、精査することが可能となり、患者の状況に対する洞察と総合的な評価が得られた。 このモニタリングシステムは、コスト効率が高く、製造が容易で、高感度で、インテリジェントであり、健康4.0社会における人体センシング技術の膨大な可能性を支える。

The Internet of Medical Things (IoMT) is a platform that combines Internet of Things (IoT) technology with medical applications, enabling the realization of precision medicine, intelligent healthcare, and telemedicine in the era of digitalization and intelligence. However, the IoMT faces various challenges, including sustainable power supply, human adaptability of sensors and the intelligence of sensors. In this study, we designed a robust and intelligent IoMT system through the synergistic integration of flexible wearable triboelectric sensors and deep learning-assisted data analytics. We embedded four triboelectric sensors into a wristband to detect and analyze limb movements in patients suffering from Parkinson's Disease (PD). By further integrating deep learning-assisted data analytics, we actualized an intelligent healthcare monitoring system for the surveillance and interaction of PD patients, which includes location/trajectory tracking, heart monitoring and identity recognition. This innovative approach enabled us to accurately capture and scrutinize the subtle movements and fine motor of PD patients, thus providing insightful feedback and comprehensive assessment of the patients conditions. This monitoring system is cost-effective, easily fabricated, highly sensitive, and intelligent, consequently underscores the immense potential of human body sensing technology in a Health 4.0 society.
翻訳日:2023-09-15 17:30:23 公開日:2023-09-13
# 確率的プロトコルによる量子資源の可逆性

Reversibility of quantum resources through probabilistic protocols ( http://arxiv.org/abs/2309.07206v1 )

ライセンス: Link先を確認
Bartosz Regula and Ludovico Lami(参考訳) 絡み合いのような量子資源の操作における最も基本的な問題は、全ての資源状態が可逆的に変換される可能性があることである。 この結果の最も重要な結果は、達成可能な変換率の限界を正確に定量化する一意なエントロピー的資源測度の同定である。 興味深いことに、以前の結果は、このような漸近的可逆性は非常に一般的な設定では真であると主張したが、最近これらの発見は不完全であることが判明し、この予想に疑問を投げかけた。 ここでは、確率的にしか成功しないプロトコルを許す限り、一般的な量子資源理論における全ての状態が可逆的に相互変換可能であることを示す。 このような変換は失敗する可能性はあるが、無限に多くの操作されたコピーの漸近的極限においても、その成功確率がゼロから外れることを保証することが示される。 前述したアプローチと同様に、ここでの達成性は漸近的に資源を生成しない操作によって実現される。 提案手法は,確率的プロトコルの下での変換率を,決定論的変換のための強い逆率で接続することに基づいている。 我々はこの接続を、絡み合う蒸留の場合の正確な等価性に強化する。

Among the most fundamental questions in the manipulation of quantum resources such as entanglement is the possibility of reversibly transforming all resource states. The most important consequence of this would be the identification of a unique entropic resource measure that exactly quantifies the limits of achievable transformation rates. Remarkably, previous results claimed that such asymptotic reversibility holds true in very general settings; however, recently those findings have been found to be incomplete, casting doubt on the conjecture. Here we show that it is indeed possible to reversibly interconvert all states in general quantum resource theories, as long as one allows protocols that may only succeed probabilistically. Although such transformations have some chance of failure, we show that their success probability can be ensured to be bounded away from zero, even in the asymptotic limit of infinitely many manipulated copies. As in previously conjectured approaches, the achievability here is realised through operations that are asymptotically resource non-generating. Our methods are based on connecting the transformation rates under probabilistic protocols with strong converse rates for deterministic transformations. We strengthen this connection into an exact equivalence in the case of entanglement distillation.
翻訳日:2023-09-15 17:21:18 公開日:2023-09-13
# 量子重力模型の精密検証の不可能性について

On the Impossibility of Precise Verification of Models of Quantum Gravity ( http://arxiv.org/abs/2309.07203v1 )

ライセンス: Link先を確認
T. Banks (NHETC and Dept. of Physics and Astronomy, Rutgers University)(参考訳) 我々は、境界が有限な極大面積を持つ因果ダイヤモンドにおける量子重力の理論モデルが、そのダイヤモンドの実験によって任意の精度で検証可能であることを論じる。 このことは、我々の宇宙が、我々の銀河群がブラックホールに崩壊するのに十分な期間、漸近的に未来のド・ジッター状態のままであるなら、我々が通信できる情報処理システムは、AsdS宇宙の多くの競合するモデルと区別できないことを示している。 この記事は、幅広い読者にアクセスできるようにするために書かれており、量子力学に関するいくつかの基本的な事実を概観する。

We argue that no theoretical model of quantum gravity in a causal diamond whose boundary has finite maximal area, can be verified with arbitrary precision by experiments done in that diamond. This shows in particular that if our own universe remains in an asymptotically future de Sitter state for a time long enough for our local group of galaxies to collapse into a black hole, then no information processing system with which we can communicate could ever distinguish between many competing models of the AsdS universe. This article is written in an attempt to be accessible to a wide audience, so certain elementary facts about quantum mechanics are reviewed, briefly.
翻訳日:2023-09-15 17:21:00 公開日:2023-09-13
# 時間遅延情報ボトルネックによるマルコフ過程の潜在表現とシミュレーション

Latent Representation and Simulation of Markov Processes via Time-Lagged Information Bottleneck ( http://arxiv.org/abs/2309.07200v1 )

ライセンス: Link先を確認
Marco Federici, Patrick Forr\'e, Ryota Tomioka, Bastiaan S. Veeling(参考訳) マルコフ過程は様々な分野の力学系を記述するために広く用いられる数学的モデルである。 しかし、正確な統合に必要な短時間のステップのため、大規模なシステムを長時間で正確にシミュレーションすることは計算コストがかかる。 本稿では,複雑なシステムを簡素な表現空間にマッピングし,時間内に大きなジャンプをモデル化する推論手法を提案する。 そこで本稿では,T-IB(Time-Lagged Information Bottleneck)という情報理論に根ざした原理的目標を提案する。 実験により, T-IBは, 時間ラグで元のプロセスの統計特性と力学を正確にモデル化するための情報最適表現を学習し, 既存の時間ラグ次元削減法より優れていることを示した。

Markov processes are widely used mathematical models for describing dynamic systems in various fields. However, accurately simulating large-scale systems at long time scales is computationally expensive due to the short time steps required for accurate integration. In this paper, we introduce an inference process that maps complex systems into a simplified representational space and models large jumps in time. To achieve this, we propose Time-lagged Information Bottleneck (T-IB), a principled objective rooted in information theory, which aims to capture relevant temporal features while discarding high-frequency information to simplify the simulation task and minimize the inference error. Our experiments demonstrate that T-IB learns information-optimal representations for accurately modeling the statistical properties and dynamics of the original process at a selected time lag, outperforming existing time-lagged dimensionality reduction methods.
翻訳日:2023-09-15 17:20:48 公開日:2023-09-13
# 信頼された実行環境における連合学習における敵対的攻撃の軽減

Mitigating Adversarial Attacks in Federated Learning with Trusted Execution Environments ( http://arxiv.org/abs/2309.07197v1 )

ライセンス: Link先を確認
Simon Queyrut, Valerio Schiavoni, Pascal Felber(参考訳) FL(Federated Learning)の主な前提は、機械学習モデルの更新をローカルに計算して、ユーザのデータのプライバシを保存することである。 このアプローチは、ユーザデータを設計することで、デバイス周縁部を離れることを避ける。 更新が集約されると、モデルはフェデレーション内のすべてのノードにブロードキャストされる。 しかし、適切な防御がなければ、妥協されたノードは、敵の例を探すために、ローカルメモリ内のモデルを探索することができる。 例えば、画像ベースのアプリケーションでは、敵対的な例は、局所モデルによって誤って分類される人間の目に対してわずかに摂動するイメージで構成されている。 その後、これらの敵画像は、被害者ノードの対応するモデルに提示され、攻撃を再生する。 典型的な例は、変更された交通標識(パッチ攻撃)のような普及戦略を利用しており、もはや自動運転車には認識されず、flスキームのローカルデータセットを汚染して堅牢性を損なう一見無変化のサンプルも認識されていない。 PeltaはTrusted Execution Environments(TEEs)を利用した新しい遮蔽機構で、攻撃者が敵のサンプルを作る能力を減らす。 TEE内のペルタマスクはバックプロパゲーションチェーンルールの最初の部分であり、攻撃者が悪質なサンプルを作るために悪用する。 我々は,CIFAR-10,CIFAR-100,ImageNetの3つの確立されたデータセットを用いて,最先端の精度モデル上でPeltaを評価する。 我々は, Pelta が, 投射グラディエントDescent, Momentum Iterative Method, Auto Projected Gradient Descent, the Carlini & Wagner attack などの6つの対向攻撃を緩和する効果を示した。 特にペルタは、我々の知識を最大限に活用する自発的勾配攻撃に対してアンサンブルモデルを防御する最初の試みである。 私たちのコードは、https://github.com/queyrusi/pelta.comのリサーチコミュニティから入手できます。

The main premise of federated learning (FL) is that machine learning model updates are computed locally to preserve user data privacy. This approach avoids by design user data to ever leave the perimeter of their device. Once the updates aggregated, the model is broadcast to all nodes in the federation. However, without proper defenses, compromised nodes can probe the model inside their local memory in search for adversarial examples, which can lead to dangerous real-world scenarios. For instance, in image-based applications, adversarial examples consist of images slightly perturbed to the human eye getting misclassified by the local model. These adversarial images are then later presented to a victim node's counterpart model to replay the attack. Typical examples harness dissemination strategies such as altered traffic signs (patch attacks) no longer recognized by autonomous vehicles or seemingly unaltered samples that poison the local dataset of the FL scheme to undermine its robustness. Pelta is a novel shielding mechanism leveraging Trusted Execution Environments (TEEs) that reduce the ability of attackers to craft adversarial samples. Pelta masks inside the TEE the first part of the back-propagation chain rule, typically exploited by attackers to craft the malicious samples. We evaluate Pelta on state-of-the-art accurate models using three well-established datasets: CIFAR-10, CIFAR-100 and ImageNet. We show the effectiveness of Pelta in mitigating six white-box state-of-the-art adversarial attacks, such as Projected Gradient Descent, Momentum Iterative Method, Auto Projected Gradient Descent, the Carlini & Wagner attack. In particular, Pelta constitutes the first attempt at defending an ensemble model against the Self-Attention Gradient attack to the best of our knowledge. Our code is available to the research community at https://github.com/queyrusi/Pelta.
翻訳日:2023-09-15 17:20:32 公開日:2023-09-13
# 道路交通における交通流予測のための注意型動的グラフ畳み込みリカレントニューラルネットワーク

Attention-based Dynamic Graph Convolutional Recurrent Neural Network for Traffic Flow Prediction in Highway Transportation ( http://arxiv.org/abs/2309.07196v1 )

ライセンス: Link先を確認
Tianpu Zhang, Weilong Ding, Mengda Xing(参考訳) 空間的特徴抽出のための重要なツールの1つとして,交通流予測などの幅広い分野にグラフ畳み込みが適用されている。 しかし、グラフ畳み込みの現在の一般的な作品は、長期的には時空間的一貫性を保証できない。 相関力学、畳み込み的局所性、時間的包括性の無知は予測精度を制限する。 本稿では,高速道路交通における交通流予測を改善するために,注意に基づく動的グラフ畳み込みリカレントニューラルネットワーク(ADGCRNN)を提案する。 データシーケンスの3つの時間分解能は、特性を抽出するために自己アテンションによって効果的に統合される;マルチダイナミックグラフとその重みは、様々な特徴を相補的に組み合わせるために動的に作成される;グラフ畳み込み操作の過剰適合を低減するために、これらの完全グラフに高い相対ノードを強調する専用ゲートカーネルを導入する。 2つのパブリックデータセットにおける実験は、最先端のベースラインよりも優れた作業を示し、実際のwebシステムのケーススタディは、高速道路交通における実用的なメリットを証明します。

As one of the important tools for spatial feature extraction, graph convolution has been applied in a wide range of fields such as traffic flow prediction. However, current popular works of graph convolution cannot guarantee spatio-temporal consistency in a long period. The ignorance of correlational dynamics, convolutional locality and temporal comprehensiveness would limit predictive accuracy. In this paper, a novel Attention-based Dynamic Graph Convolutional Recurrent Neural Network (ADGCRNN) is proposed to improve traffic flow prediction in highway transportation. Three temporal resolutions of data sequence are effectively integrated by self-attention to extract characteristics; multi-dynamic graphs and their weights are dynamically created to compliantly combine the varying characteristics; a dedicated gated kernel emphasizing highly relative nodes is introduced on these complete graphs to reduce overfitting for graph convolution operations. Experiments on two public datasets show our work better than state-of-the-art baselines, and case studies of a real Web system prove practical benefit in highway transportation.
翻訳日:2023-09-15 17:19:56 公開日:2023-09-13
# ニューラルネットワークと積分形式を組み合わせたロバストなシンディアプローチ

A Robust SINDy Approach by Combining Neural Networks and an Integral Form ( http://arxiv.org/abs/2309.07193v1 )

ライセンス: Link先を確認
Ali Forootani, Pawan Goyal, and Peter Benner(参考訳) データから支配方程式の発見は、何十年にもわたって研究の活発な分野であった。 この目的のために広く使われている方法論は、SINDyとして知られる非線形力学のスパース回帰である。 いくつかの試みにもかかわらず、ノイズと不足したデータは依然としてSINDyアプローチの成功に深刻な課題をもたらしている。 本研究では,ノイズや不足データから非線形支配方程式を発見するためのロバストな手法について論じる。 これを実現するために,ニューラルネットワークを用いて測定データに基づいて暗黙表現を学習し,測定値の近傍で出力を生成するだけでなく,出力の時間変化を力学系で記述する。 さらに,SINDyフレームワークの精神の中で,このような動的システムを学習する。 ニューラルネットワークを用いた暗黙の表現を活用することで、自動微分ツールを使用して、SINDyに必要なデリバティブ情報を得る。 また,本手法のロバスト性を高めるために,暗黙的ネットワークの出力に積分条件を組み込む。 さらに,複数の初期条件から収集したデータを扱う手法を拡張した。 提案手法は,提案手法の有効性を実証し,提案手法と既存手法との比較を行った。

The discovery of governing equations from data has been an active field of research for decades. One widely used methodology for this purpose is sparse regression for nonlinear dynamics, known as SINDy. Despite several attempts, noisy and scarce data still pose a severe challenge to the success of the SINDy approach. In this work, we discuss a robust method to discover nonlinear governing equations from noisy and scarce data. To do this, we make use of neural networks to learn an implicit representation based on measurement data so that not only it produces the output in the vicinity of the measurements but also the time-evolution of output can be described by a dynamical system. Additionally, we learn such a dynamic system in the spirit of the SINDy framework. Leveraging the implicit representation using neural networks, we obtain the derivative information -- required for SINDy -- using an automatic differentiation tool. To enhance the robustness of our methodology, we further incorporate an integral condition on the output of the implicit networks. Furthermore, we extend our methodology to handle data collected from multiple initial conditions. We demonstrate the efficiency of the proposed methodology to discover governing equations under noisy and scarce data regimes by means of several examples and compare its performance with existing methods.
翻訳日:2023-09-15 17:19:38 公開日:2023-09-13
# データ拡張と3D-CNN深度がアルツハイマー病の検出に及ぼす影響

The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease detection ( http://arxiv.org/abs/2309.07192v1 )

ライセンス: Link先を確認
Rosanna Turrisi, Alessandro Verri and Annalisa Barla(参考訳) 機械学習(ML)は医療において有望なアプローチとして現れ、従来の統計技術を上回っている。 しかし, 臨床実践において信頼性の高いツールとしてmlを確立するためには, データハンドリング, 実験設計, モデル評価に関するベストプラクティスの遵守が不可欠である。 この作業は、再現可能で信頼性の高いMLを保証するために、そのようなプラクティスを要約し、厳密に観察する。 具体的には、ヘルスケアにおける課題のパラダイム的な例であるアルツハイマー病(AD)の検出に焦点を当てる。 各種データ拡張手法とモデル複雑さが全体的な性能に与える影響について検討する。 本稿では,3次元畳み込みニューラルネットワーク(CNN)を用いた分類問題に対するADNIデータセットからのMRIデータについて考察する。 この実験は、クロスバリデーションと複数のトレーニング試行を利用して、データの不足と初期乱数パラメータを補償するように設計されている。 このフレームワークでは、3つの異なるデータ拡張戦略と5つの異なる3d cnnアーキテクチャを考慮して、15の予測モデルをトレーニングします。 具体的には、拡張戦略は、ズーム、シフト、回転などのアフィン変換を同時に、あるいは別々に適用する。 データ拡張とモデルの複雑さが組み合わさった効果により、予測性能は最大10%の精度で変動する。 アフィン変換を別々に適用する場合、モデルは採用アーキテクチャとは独立により正確である。 すべての戦略において、モデルの精度は畳み込み層数の増加による凹状挙動に従い、中間値の層でピークに達した。 最良のモデル(8 CL, (B))は、クロスバリデーションの折り畳みとトレーニングの試行において最も安定しており、テストセットと外部テストセットの両方で優れたパフォーマンスを達成する。

Machine Learning (ML) has emerged as a promising approach in healthcare, outperforming traditional statistical techniques. However, to establish ML as a reliable tool in clinical practice, adherence to best practices regarding data handling, experimental design, and model evaluation is crucial. This work summarizes and strictly observes such practices to ensure reproducible and reliable ML. Specifically, we focus on Alzheimer's Disease (AD) detection, which serves as a paradigmatic example of challenging problem in healthcare. We investigate the impact of different data augmentation techniques and model complexity on the overall performance. We consider MRI data from ADNI dataset to address a classification problem employing 3D Convolutional Neural Network (CNN). The experiments are designed to compensate for data scarcity and initial random parameters by utilizing cross-validation and multiple training trials. Within this framework, we train 15 predictive models, considering three different data augmentation strategies and five distinct 3D CNN architectures, each varying in the number of convolutional layers. Specifically, the augmentation strategies are based on affine transformations, such as zoom, shift, and rotation, applied concurrently or separately. The combined effect of data augmentation and model complexity leads to a variation in prediction performance up to 10% of accuracy. When affine transformation are applied separately, the model is more accurate, independently from the adopted architecture. For all strategies, the model accuracy followed a concave behavior at increasing number of convolutional layers, peaking at an intermediate value of layers. The best model (8 CL, (B)) is the most stable across cross-validation folds and training trials, reaching excellent performance both on the testing set and on an external test set.
翻訳日:2023-09-15 17:19:20 公開日:2023-09-13
# ドリフトからの学習:ドリフト規則化による非IIDデータのフェデレーション学習

Learning From Drift: Federated Learning on Non-IID Data via Drift Regularization ( http://arxiv.org/abs/2309.07189v1 )

ライセンス: Link先を確認
Yeachan Kim, Bonggun Shin(参考訳) フェデレーション学習アルゴリズムは、独立かつ同一分散(iid)データに対して合理的に機能する。 一方、彼らは異種環境、すなわち非IIDデータに悩まされている。 この問題に対処するために多くの研究プロジェクトが実施されているにもかかわらず、最近の研究結果からは、IDDデータのトレーニングと比較すると、まだ準最適であることが示されている。 本研究では,異種環境における既存手法を慎重に分析する。 興味深いことに、分類器の出力を正規化することは、非IIDデータの性能劣化を防ぐのに非常に効果的である。 そこで我々は,不均一な環境下でモデルを効果的に訓練する新しい手法であるLearning from Drift (LfD)を提案する。 提案手法はドリフト推定とドリフト正規化の2つの主成分をカプセル化する。 具体的には、lfdはまず、ローカルモデルがグローバルモデル(すなわちドリフト)とどの程度異なるかを推定する。 その後、局所モデルは、推定ドリフトの方向に落ちないように正規化される。 実験では,連合学習の5つの側面,すなわち一般化,異質性,スケーラビリティ,忘れ方,効率のレンズを通して各手法を評価する。 総合評価結果は,非IIDデータを用いた連合学習におけるLfDの優位性を明確に裏付ける。

Federated learning algorithms perform reasonably well on independent and identically distributed (IID) data. They, on the other hand, suffer greatly from heterogeneous environments, i.e., Non-IID data. Despite the fact that many research projects have been done to address this issue, recent findings indicate that they are still sub-optimal when compared to training on IID data. In this work, we carefully analyze the existing methods in heterogeneous environments. Interestingly, we find that regularizing the classifier's outputs is quite effective in preventing performance degradation on Non-IID data. Motivated by this, we propose Learning from Drift (LfD), a novel method for effectively training the model in heterogeneous settings. Our scheme encapsulates two key components: drift estimation and drift regularization. Specifically, LfD first estimates how different the local model is from the global model (i.e., drift). The local model is then regularized such that it does not fall in the direction of the estimated drift. In the experiment, we evaluate each method through the lens of the five aspects of federated learning, i.e., Generalization, Heterogeneity, Scalability, Forgetting, and Efficiency. Comprehensive evaluation results clearly support the superiority of LfD in federated learning with Non-IID data.
翻訳日:2023-09-15 17:18:50 公開日:2023-09-13
# 検閲の有無によるボール軸受の生存時間予測

Predicting Survival Time of Ball Bearings in the Presence of Censoring ( http://arxiv.org/abs/2309.07188v1 )

ライセンス: Link先を確認
Christian Marius Lillelund, Fernando Pannullo, Morten Opprud Jakobsen, Christian Fischer Pedersen(参考訳) ボールベアリングは様々な製造分野や機械分野で広く使われており、機械学習に基づく手法は、障害につながる前に摩耗を監視し、欠陥を見つけるために広く採用されている。 しかし、誤りが観測されない検閲データの問題に対処する研究はほとんどない。 本稿では,ボール軸受の故障時期を生存解析を用いて予測する新しい手法を提案する。 まず、周波数領域のベアリングデータを解析し、Kulback-Leiblerのばらつきとブレークイン周波数ビンとブレークアウト周波数ビンとの標準偏差を比較してアノテートを行う。 第2に,スキューネス,クルトシス,エントロピーなどの時間領域から抽出したアノテートデータと共変量に基づいて,複数のサバイバルモデルを用いて障害発生時刻を推定する。 モデルは、時間とともにリスクを確率論的に予測し、軸受群間の生存機能を比較できるようにする。 我々は XJTU と PRONOSTIA のデータセットに対するアプローチを実証する。 xjtuでは、0.70コンコルダンスインデックスと0.21統合ブライアスコアが最良である。 PRONOSTIAでは0.76コンコーダンスインデックスと0.19統合ブライアスコアが最高である。 我々の研究は、予測保守のために検閲されたデータをモデルに組み込む作業をさらに動機付けている。

Ball bearings find widespread use in various manufacturing and mechanical domains, and methods based on machine learning have been widely adopted in the field to monitor wear and spot defects before they lead to failures. Few studies, however, have addressed the problem of censored data, in which failure is not observed. In this paper, we propose a novel approach to predict the time to failure in ball bearings using survival analysis. First, we analyze bearing data in the frequency domain and annotate when a bearing fails by comparing the Kullback-Leibler divergence and the standard deviation between its break-in frequency bins and its break-out frequency bins. Second, we train several survival models to estimate the time to failure based on the annotated data and covariates extracted from the time domain, such as skewness, kurtosis and entropy. The models give a probabilistic prediction of risk over time and allow us to compare the survival function between groups of bearings. We demonstrate our approach on the XJTU and PRONOSTIA datasets. On XJTU, the best result is a 0.70 concordance-index and 0.21 integrated Brier score. On PRONOSTIA, the best is a 0.76 concordance-index and 0.19 integrated Brier score. Our work motivates further work on incorporating censored data in models for predictive maintenance.
翻訳日:2023-09-15 17:18:30 公開日:2023-09-13
# 直列分解を伴う適応グラフ時間畳み込みネットワークに基づくクロロフィル濃度の多段階予測

Multi-step prediction of chlorophyll concentration based on Adaptive Graph-Temporal Convolutional Network with Series Decomposition ( http://arxiv.org/abs/2309.07187v1 )

ライセンス: Link先を確認
Ying Chen, Xiao Li, Hongbo Zhang, Wenyang Song and Chongxuan Xv(参考訳) クロロフィル濃度は、水の栄養状態や藻類の開花をよく反映し、水質を評価する上で重要な指標である。 クロロフィル濃度変化傾向の予測は環境保護と養殖にとって非常に重要である。 しかし、クロロフィル濃度に影響を与える多くの因子の間には複雑で区別できない非線形関係がある。 データに含まれる非線形な特徴を効果的にマイニングする。 本稿では,時系列分解適応グラフ時間畳み込みネットワーク(AGTCNSD)予測モデルを提案する。 まず、移動平均法により、元のシーケンスをトレンド成分と周期成分に分解する。 次に、グラフ畳み込みニューラルネットワークに基づいて、水質パラメータデータをモデル化し、パラメータ埋め込み行列を定義する。 行列分解のアイデアは、各ノードに重みパラメータを割り当てるために使われる。 適応グラフ畳み込みは、異なる水質パラメータ間の関係を学習し、各パラメータの状態情報を更新し、ノード間の更新関係の学習能力を向上させる。 最後に、時間依存を時間畳み込みによって捉え、クロロフィル濃度の多段階予測を実現する。 このモデルの有効性は,沿岸都市米海における水質データによって検証された。 その結果,本手法の予測効果は他の手法よりも優れていることがわかった。 環境管理意思決定のための科学資源として使用できる。

Chlorophyll concentration can well reflect the nutritional status and algal blooms of water bodies, and is an important indicator for evaluating water quality. The prediction of chlorophyll concentration change trend is of great significance to environmental protection and aquaculture. However, there is a complex and indistinguishable nonlinear relationship between many factors affecting chlorophyll concentration. In order to effectively mine the nonlinear features contained in the data. This paper proposes a time-series decomposition adaptive graph-time convolutional network ( AGTCNSD ) prediction model. Firstly, the original sequence is decomposed into trend component and periodic component by moving average method. Secondly, based on the graph convolutional neural network, the water quality parameter data is modeled, and a parameter embedding matrix is defined. The idea of matrix decomposition is used to assign weight parameters to each node. The adaptive graph convolution learns the relationship between different water quality parameters, updates the state information of each parameter, and improves the learning ability of the update relationship between nodes. Finally, time dependence is captured by time convolution to achieve multi-step prediction of chlorophyll concentration. The validity of the model is verified by the water quality data of the coastal city Beihai. The results show that the prediction effect of this method is better than other methods. It can be used as a scientific resource for environmental management decision-making.
翻訳日:2023-09-15 17:18:08 公開日:2023-09-13
# 一般化キャプションとデュアルフュージョン強化を伴う拡散モデルにおける緩和レプリケーションとコピー

Mitigate Replication and Copying in Diffusion Models with Generalized Caption and Dual Fusion Enhancement ( http://arxiv.org/abs/2309.07254v1 )

ライセンス: Link先を確認
Chenghao Li, Dake Chen, Yuke Zhang, Peter A. Beerel(参考訳) 拡散モデルは高品質な画像を生成する素晴らしい能力を示しているが、トレーニングデータを‘複製’する傾向はプライバシの懸念を生じさせる。 最近の研究では、この複製は訓練用データキャプションの一般化や訓練用画像の重複に起因する可能性があるが、効果的な緩和戦略はいまだに解明されていない。 このギャップに対処するため,本稿では,まずキャプションの一般性を測定し,大言語モデル(LLM)を用いてトレーニングキャプションの一般化を行う。 その後,一般化キャプションを活用し,拡散モデルの複製を緩和する新しい二重融合拡張手法を提案する。 実験により,提案手法は,世代間の多様性と品質を維持しつつ,元の拡散モデルと比較して43.5%の再現性を著しく低減できることを示した。

While diffusion models demonstrate a remarkable capability for generating high-quality images, their tendency to `replicate' training data raises privacy concerns. Although recent research suggests that this replication may stem from the insufficient generalization of training data captions and duplication of training images, effective mitigation strategies remain elusive. To address this gap, our paper first introduces a generality score that measures the caption generality and employ large language model (LLM) to generalize training captions. Subsequently, we leverage generalized captions and propose a novel dual fusion enhancement approach to mitigate the replication of diffusion models. Our empirical results demonstrate that our proposed methods can significantly reduce replication by 43.5% compared to the original diffusion model while maintaining the diversity and quality of generations.
翻訳日:2023-09-15 17:10:14 公開日:2023-09-13
# 大規模言語モデルの文脈内バイアス抑制

In-Contextual Bias Suppression for Large Language Models ( http://arxiv.org/abs/2309.07251v1 )

ライセンス: Link先を確認
Daisuke Oba, Masahiro Kaneko, Danushka Bollegala(参考訳) 幅広いnlpタスクでの印象的なパフォーマンスにもかかわらず、大きな言語モデル(llm)は性バイアスの懸念レベルをエンコードしていると報告されている。 従来の研究では、人間のラベル付き例、データ拡張、計算コストのかかるLSMの微調整を必要とするデバイアス法が提案されている。 さらに、GPT-4のような商業的に利用可能なLCMの場合のように、デバイアスを行うための内部パラメータにアクセスできない場合もある。 この課題に対処するため,モデルパラメータへのアクセスを必要としないバイアス抑制法を提案する。 テキストベースのプリアンブルは, 対物文を記述したテンプレートから生成され, LLMの性別バイアスを正確に抑制できることを示す。 さらに,職業用記述文は,ジェンダーバイアスをさらに抑制できることがわかった。 興味深いことに、バイアス抑制は下流タスクのパフォーマンスに最小限の悪影響を及ぼすが、効果的に性別バイアスを緩和する。

Despite their impressive performance in a wide range of NLP tasks, Large Language Models (LLMs) have been reported to encode worrying-levels of gender bias. Prior work has proposed debiasing methods that require human labelled examples, data augmentation and fine-tuning of the LLMs, which are computationally costly. Moreover, one might not even have access to the internal parameters for performing debiasing such as in the case of commercially available LLMs such as GPT-4. To address this challenge we propose bias suppression, a novel alternative to debiasing that does not require access to model parameters. We show that text-based preambles, generated from manually designed templates covering counterfactual statements, can accurately suppress gender biases in LLMs. Moreover, we find that descriptive sentences for occupations can further suppress gender biases. Interestingly, we find that bias suppression has a minimal adverse effect on downstream task performance, while effectively mitigating the gender biases.
翻訳日:2023-09-15 17:09:59 公開日:2023-09-13
# 必要なのはスピンのみ:su(2) スピンネットワークに基づく等価変分量子回路

All you need is spin: SU(2) equivariant variational quantum circuits based on spin networks ( http://arxiv.org/abs/2309.07250v1 )

ライセンス: Link先を確認
Richard D. P. East, Guillermo Alonso-Linaje, and Chae-Yeun Park(参考訳) 変分アルゴリズムは、最適化空間を効率的に実行するように自然に制約するアーキテクチャを必要とする。 幾何学的量子機械学習では、群構造をパラメータ化された量子回路に符号化し、問題の対称性を帰納的バイアスとして含むことによってこれを達成する。 しかし、具体的な導出原理がまだ登場していないため、そのような回路の構築は困難である。 本稿では、群変換の下での有向テンソルネットワーク不変量であるスピンネットワークを用いて、スピン回転対称性を有するsu(2)同変量子回路ans\"atze --回路を考案する。 su(2)群作用をブロックする基底に変更することにより、これらのネットワークはパラメータ化された同変量子回路を構築するための自然な構築ブロックを提供する。 我々は、我々の構成が、twirlingやgeneralized permutationsに基づく他の既知の構成と数学的に等価であるが、量子ハードウェア上で実装することがより直接的であることを証明する。 構築した回路の有効性は、一次元三角格子およびカゴメ格子上のsu(2)対称ハイゼンベルクモデルの基底状態問題を解くことによって検証される。 我々の等変回路は量子変分アルゴリズムの性能を高め、他の実世界の問題にも適用可能であることを示す。

Variational algorithms require architectures that naturally constrain the optimisation space to run efficiently. In geometric quantum machine learning, one achieves this by encoding group structure into parameterised quantum circuits to include the symmetries of a problem as an inductive bias. However, constructing such circuits is challenging as a concrete guiding principle has yet to emerge. In this paper, we propose the use of spin networks, a form of directed tensor network invariant under a group transformation, to devise SU(2) equivariant quantum circuit ans\"atze -- circuits possessing spin rotation symmetry. By changing to the basis that block diagonalises SU(2) group action, these networks provide a natural building block for constructing parameterised equivariant quantum circuits. We prove that our construction is mathematically equivalent to other known constructions, such as those based on twirling and generalised permutations, but more direct to implement on quantum hardware. The efficacy of our constructed circuits is tested by solving the ground state problem of SU(2) symmetric Heisenberg models on the one-dimensional triangular lattice and on the Kagome lattice. Our results highlight that our equivariant circuits boost the performance of quantum variational algorithms, indicating broader applicability to other real-world problems.
翻訳日:2023-09-15 17:09:44 公開日:2023-09-13
# セクションの絡み合い:絡み合いとパラメータ化量子情報の押し出し

Entanglement of Sections: The pushout of entangled and parameterized quantum information ( http://arxiv.org/abs/2309.07245v1 )

ライセンス: Link先を確認
Hisham Sati and Urs Schreiber(参考訳) 最近freedman & hastingsは、裸の量子(情報)理論に沿った結合(仮定的な押し出し)を通じて、パラメータ化/束構造で量子の絡み合い/テンソル構造を統一する数学的理論を求めた。 この問いに対する提案の答えとして、まずモノイド圏論における関連するプッシュアウト図の形式を正確に述べる。 すると、プッシュアウトはベクトルバンドル/K-クラス上で *external* tensor product と呼ばれるもの、あるいは平らなそのようなバンドル(平らなK-理論)、すなわちトポロジカルベリー位相を符号化するモノドロミーを持つものを生成する。 この結果の大部分は、外部テンソル積の「派生関手」を備えた平坦無限ベクトルバンドル(無限局所系)の「派生圏(infinity-category)」への状況のさらなるホモトピー的拡張である。 具体的には, 基本空間上のパラメータ化HK-加群スペクトルの無限大カテゴリを便利に提示し, ホモトピー的に良好な外部テンソル積構造を有する, 単純K-鎖錯体への単純関手積分モデルカテゴリーを提案する。 結論付けでは、このモデル圏が線型ホモトピー型理論(lhott)の線形乗法的断片に対する分類的意味論としてどのように役立つかを示し、これは普遍量子プログラミング言語として示される。 これは,LHoTTにおける位相異方性ブレイド量子ゲートがネイティブオブジェクトであることを最近示した文脈である。

Recently Freedman & Hastings asked for a mathematical theory that would unify quantum entanglement/tensor-structure with parameterized/bundle-structure via their amalgamation (a hypothetical pushout) along bare quantum (information) theory. As a proposed answer to this question, we first make precise a form of the relevant pushout diagram in monoidal category theory. Then we prove that the pushout produces what is known as the *external* tensor product on vector bundles/K-classes, or rather on flat such bundles (flat K-theory), i.e., those equipped with monodromy encoding topological Berry phases. The bulk of our result is a further homotopy-theoretic enhancement of the situation to the "derived category" (infinity-category) of flat infinity-vector bundles ("infinity-local systems") equipped with the "derived functor" of the external tensor product. Concretely, we present an integral model category of simplicial functors into simplicial K-chain complexes which conveniently presents the infinity-category of parameterized HK-module spectra over varying base spaces and is equipped with homotopically well-behaved external tensor product structure. In concluding we indicate how this model category serves as categorical semantics for the linear-multiplicative fragment of Linear Homotopy Type Theory (LHoTT), which is thus exhibited as a universal quantum programming language. This is the context in which we recently showed that topological anyonic braid quantum gates are native objects in LHoTT.
翻訳日:2023-09-15 17:09:22 公開日:2023-09-13
# LInKs "Lifting Independent Keypoints" -- 2D-3D Human Pose EstimationにおけるOcclusion Handlingの精度向上のための部分的なPose Lifting

LInKs "Lifting Independent Keypoints" -- Partial Pose Lifting for Occlusion Handling with Improved Accuracy in 2D-3D Human Pose Estimation ( http://arxiv.org/abs/2309.07243v1 )

ライセンス: Link先を確認
Peter Hardy and Hansung Kim(参考訳) 本稿では,1つの画像から得られた2次元運動骨格から3次元人間のポーズを再現する新しい教師なし学習手法であるLInKについて述べる。 提案手法は,まず3次元領域に隠蔽された2次元のポーズを持ち上げ,次に部分的に再構成された3次元座標を用いて隠蔽された部分を埋め込むという,ユニークな2段階のプロセスに従う。 このリフト・then-fillアプローチは、2d空間だけでポーズを完遂するモデルに比べてはるかに正確な結果をもたらす。 さらに,従来のPCA次元の低減を代替するカスタムサンプリング関数により,正規化フローの安定性と推定精度を向上させる。 さらに,2次元運動骨格の異なる部分が独立して持ち上げられるかどうかを調査したところ,現在の持ち上げアプローチの誤差を低減できることがわかった。 これは長距離キーポイント相関の低減によるものである。 詳細な評価では,様々な現実的な咬合シナリオで誤差を定量化し,モデルの汎用性と適用性を示す。 以上の結果から, 3次元空間における全てのオクルージョンの扱いが, 2次元空間におけるポーズを完遂する他の場合と比較して常に優れていることを示す。 提案手法は,Human3.6Mデータセットの以前の研究と比較して,復元誤差の7.9%削減が証明されている。 さらに,オクルージョンが存在する場合でも,完全3次元ポーズを正確に検索し,完全2次元ポーズ情報を利用できない状況において高い精度で適用することができる。

We present LInKs, a novel unsupervised learning method to recover 3D human poses from 2D kinematic skeletons obtained from a single image, even when occlusions are present. Our approach follows a unique two-step process, which involves first lifting the occluded 2D pose to the 3D domain, followed by filling in the occluded parts using the partially reconstructed 3D coordinates. This lift-then-fill approach leads to significantly more accurate results compared to models that complete the pose in 2D space alone. Additionally, we improve the stability and likelihood estimation of normalising flows through a custom sampling function replacing PCA dimensionality reduction previously used in prior work. Furthermore, we are the first to investigate if different parts of the 2D kinematic skeleton can be lifted independently which we find by itself reduces the error of current lifting approaches. We attribute this to the reduction of long-range keypoint correlations. In our detailed evaluation, we quantify the error under various realistic occlusion scenarios, showcasing the versatility and applicability of our model. Our results consistently demonstrate the superiority of handling all types of occlusions in 3D space when compared to others that complete the pose in 2D space. Our approach also exhibits consistent accuracy in scenarios without occlusion, as evidenced by a 7.9% reduction in reconstruction error compared to prior works on the Human3.6M dataset. Furthermore, our method excels in accurately retrieving complete 3D poses even in the presence of occlusions, making it highly applicable in situations where complete 2D pose information is unavailable.
翻訳日:2023-09-15 17:08:52 公開日:2023-09-13
# ベイズ最適化を用いたApache TVMに基づく科学応用の自動化

Autotuning Apache TVM-based Scientific Applications Using Bayesian Optimization ( http://arxiv.org/abs/2309.07235v1 )

ライセンス: Link先を確認
Xingfu Wu, Praveen Paramasivam, Valerie Taylor(参考訳) Apache TVM(Tensor Virtual Machine)は、さまざまなハードウェアプラットフォームにわたる計算を最適化するために設計されたオープンソースの機械学習コンパイラフレームワークで、LU(Lower Upper)分解やCholeskyによるGPUとAI(Artificial Intelligence)アクセラレータの分解といった、密度の高い行列因数分解のパフォーマンスを改善する機会を提供する。 本稿では,ベイズ最適化を用いた新しいTVM自動チューニングフレームワークを提案し,LU,Cholesky,3mmなどの線形代数カーネルの実装にTVMテンソル表現言語を用いる。 我々はこれらの計算カーネルを用いて,Argonne National LaboratoryのSwingと呼ばれるGPUクラスタ上での手法の有効性を評価する。 提案するオートチューニングフレームワークと,TVMオートチューニングフレームワークであるAutoTVMを4つのチューナーで比較したところ,ほとんどの場合,我々のフレームワークがAutoTVMを上回っていることがわかった。

Apache TVM (Tensor Virtual Machine), an open source machine learning compiler framework designed to optimize computations across various hardware platforms, provides an opportunity to improve the performance of dense matrix factorizations such as LU (Lower Upper) decomposition and Cholesky decomposition on GPUs and AI (Artificial Intelligence) accelerators. In this paper, we propose a new TVM autotuning framework using Bayesian Optimization and use the TVM tensor expression language to implement linear algebra kernels such as LU, Cholesky, and 3mm. We use these scientific computation kernels to evaluate the effectiveness of our methods on a GPU cluster, called Swing, at Argonne National Laboratory. We compare the proposed autotuning framework with the TVM autotuning framework AutoTVM with four tuners and find that our framework outperforms AutoTVM in most cases.
翻訳日:2023-09-15 17:07:50 公開日:2023-09-13
# 不定因数順序をもつ多パラメータ量子メートル法におけるエバディングノイズ

Evading noise in multiparameter quantum metrology with indefinite causal order ( http://arxiv.org/abs/2309.07220v1 )

ライセンス: Link先を確認
A. Z. Goldberg, L. L. Sanchez-Soto, K. Heshami(参考訳) 量子論は、異なる順序の重ね合わせにおける複数のチャネルのトラバースを可能にする。 チャネルを横断する順序が補助量子システムによって制御される場合、プローブのみの状態が非感受性である場合でも、制御システムのみを測定することで、チャネルの未知のパラメータを推定することができる。 さらに,制御系の寸法を増大させると,同時に推定可能なパラメータの数が増加する。 回転角や軸といった同一のユニタリや、デポーライゼーションやデファスメント、振幅減衰といったノイズチャネルから、任意の次元で複数のパラメータを含むユニタリパラメータとノイズパラメータを同時に推定する能力を示す。 因果順序が定まる任意のスキームに対して我々のスキームを使用する場合、ノイズ確率が1-p$である場合の予測において、$p^2$の小さな分散の形で、無限の利点のレギュレーションを識別する。

Quantum theory allows the traversing of multiple channels in a superposition of different orders. When the order in which the channels are traversed is controlled by an auxiliary quantum system, various unknown parameters of the channels can be estimated by measuring only the control system, even when the state of the probe alone would be insensitive. Moreover, increasing the dimension of the control system increases the number of simultaneously estimable parameters, which has important metrological ramifications. We demonstrate this capability for simultaneously estimating both unitary and noise parameters, including multiple parameters from the same unitary such as rotation angles and axes and from noise channels such as depolarization, dephasing, and amplitude damping in arbitrary dimensions. We identify regimes of unlimited advantages, taking the form of $p^2$ smaller variances in estimation when the noise probability is $1-p$, for both single and multiparameter estimation when using our schemes relative to any comparable scheme whose causal order is definite.
翻訳日:2023-09-15 17:07:33 公開日:2023-09-13
# ボソニックデファスメントを用いた高容量ノイズunruh-dewitt量子チャネル

High Capacity Noisy Unruh--DeWitt Quantum Channels with Bosonic Dephasing ( http://arxiv.org/abs/2309.07218v1 )

ライセンス: Link先を確認
Eric Aspling and Michael Lawler(参考訳) UDW量子ゲートとして実装されたUnruh--DeWitt検出器は、量子場系の量子シャノン理論特性を評価するためのフレームワークを提供する。 udw量子チャネルは量子情報を量子場の上/上のエンコード/デコードする量子ビットからなる。 UDWゲートの制御されたユニタリ構造では、フィールドを記述するコヒーレント状態密度行列の対角線上で符号化/復号処理が行われる。 しかし、コヒーレント状態の非直交性を考えると、UDWチャネルの出力は望ましくない状態とチャネルの容量を下げる不要な混合状態からなる。 理想化されたモデルでは、これらはコヒーレント状態基底における場の密度行列の対角線および対角線に現れる。 このような理由から,UDW量子チャネルは,UDW検出器モデルの結合,スミアリング,スイッチング関数の組み合わせによって得られた強調パラメータを持つボソニックデファージングチャネルとして予期せぬ表現を持つことを示す。 劣化パラメータが大きくなるとチャネル容量が増大し、不要な状態混合が軽減されるという予期せぬ結果を示す。 これらの特性は、2つの例を通して説明される: 量子チャネルに追加の理想デフォーカスチャネルを挿入し、第3のUDWゲートを介してクロストークノイズを挿入する。 驚くべきことに、クロストークノイズチャネルは量子容量の下限を定性的に改善し、凝縮体実験で実現すればudwゲートが予期しない性能向上をもたらす。

Unruh--DeWitt (UDW) detectors implemented as UDW quantum gates provide a framework for evaluating quantum Shannon theory properties of qubit-field systems. UDW quantum channels consist of qubits encoding/decoding quantum information onto/off of quantum fields. With the controlled unitary structure of UDW gates, the encoding/decoding process happens on the diagonals of the coherent state density matrix describing the field. However, given the non-orthogonality of coherent states the output of UDW channels consists of unwanted states and unwanted mixing of states that lower the channel capacity. In idealized models, these appear in the off-diagonals and diagonals of the field's density matrix in the coherent state basis. For this reason, we show that UDW quantum channels have an unexpected representation as certain bosonic dephasing channels with dephasing parameters captured by a combination of the coupling, smearing, and switching functions of the UDW detector model. We demonstrate the unexpected consequence that a larger dephasing parameter results in higher channel capacity and helps alleviate unwanted state mixing. We illustrate these properties through two examples: inserting an additional ideal dephasing channel into the quantum channel and inserting cross-talk noise via a third UDW gate. Remarkably, the cross-talk noise channel qualitatively improves a lower bound on the quantum capacity suggesting UDW gates will have unexpected performance improvements if realized in condensed matter experiments.
翻訳日:2023-09-15 17:07:14 公開日:2023-09-13
# EarthPT:地球観測の基礎モデル

EarthPT: a foundation model for Earth Observation ( http://arxiv.org/abs/2309.07207v1 )

ライセンス: Link先を確認
Michael J. Smith, Luke Fleming and James E. Geach(参考訳) 我々は、地球観測(EO)事前訓練トランスであるEarthPTを紹介する。 EarthPTは7億のパラメータデコードトランスフォーマーモデルであり、自己回帰的な自己監督方式で訓練され、EOユースケースを念頭に開発された。 我々は,EarthPTが400-2300nmの範囲内における将来の画素レベルの反射率を正確に予測する有効な予測器であることを実証した。 例えば、正規化差分植生指数(NDVI)の進化の予測は、5ヶ月のテストセットの地平線上でのピクセルレベルでの典型的な誤差は約0.05(自然射程-1 -> 1)であり、過去の平均値に基づく単純な位相折りたたみモデルよりも優れている。 また,EarthPTが学習した埋め込みは意味的に意味のある情報を持ち,より粒度の高い動的土地利用分類などの下流作業に活用できることを示した。 興味深いことに、EOデータの豊富さは、訓練トークンの4分の1(理論上)を提供してくれる。 したがって、EarthPTがLarge Language Models(LLMs)に類似したニューラルスケーリング法則に従うと仮定すると、現在、EarthPTや他の類似の"Large Observation Models"をスケールするためのデータ指定制限はない。 '

We introduce EarthPT -- an Earth Observation (EO) pretrained transformer. EarthPT is a 700 million parameter decoding transformer foundation model trained in an autoregressive self-supervised manner and developed specifically with EO use-cases in mind. We demonstrate that EarthPT is an effective forecaster that can accurately predict future pixel-level surface reflectances across the 400-2300 nm range well into the future. For example, forecasts of the evolution of the Normalised Difference Vegetation Index (NDVI) have a typical error of approximately 0.05 (over a natural range of -1 -> 1) at the pixel level over a five month test set horizon, out-performing simple phase-folded models based on historical averaging. We also demonstrate that embeddings learnt by EarthPT hold semantically meaningful information and could be exploited for downstream tasks such as highly granular, dynamic land use classification. Excitingly, we note that the abundance of EO data provides us with -- in theory -- quadrillions of training tokens. Therefore, if we assume that EarthPT follows neural scaling laws akin to those derived for Large Language Models (LLMs), there is currently no data-imposed limit to scaling EarthPT and other similar `Large Observation Models.'
翻訳日:2023-09-15 17:06:50 公開日:2023-09-13
# RGB-T周期検出のためのマルチモードハイブリッド学習とシーケンストレーニング

Multi-Modal Hybrid Learning and Sequential Training for RGB-T Saliency Detection ( http://arxiv.org/abs/2309.07297v1 )

ライセンス: Link先を確認
Guangyu Ren, Jitesh Joshi, Youngjun Cho(参考訳) RGB-Tサリエンシ検出は、暗黒環境のような困難な場面で顕著な物体を識別する重要なコンピュータビジョンタスクとして登場した。 しかし,既存手法はクロスモーダルの特徴を無視し,RGBと熱的特徴を融合させるネットワーク構造のみに依存している。 そこで我々はまず,教師付きおよび自己監督型損失関数を含むマルチモーダルハイブリッド損失(MMHL)を提案する。 MMHLの教師付き損失成分は,RGBと熱的特徴の間の距離を減少させる一方,異なるモードのセマンティック特徴を明瞭に活用する。 さらに,機能融合中の空間情報とチャネル情報の両方を検討し,rgbと熱的特徴を効果的に融合するハイブリッド融合モジュールを提案する。 最後に,ネットワークをクロスモーダルな特徴で共同でトレーニングする代わりに,第1段階でRGB画像のみをトレーニングし,第2段階でクロスモーダルな特徴を学習するシーケンシャルなトレーニング戦略を実装した。 このトレーニング戦略は,計算オーバーヘッドを伴わずにサリエンシ検出性能を向上させる。 性能評価およびアブレーション実験の結果から, 従来の最先端手法と比較して, 提案手法による優れた性能が得られた。

RGB-T saliency detection has emerged as an important computer vision task, identifying conspicuous objects in challenging scenes such as dark environments. However, existing methods neglect the characteristics of cross-modal features and rely solely on network structures to fuse RGB and thermal features. To address this, we first propose a Multi-Modal Hybrid loss (MMHL) that comprises supervised and self-supervised loss functions. The supervised loss component of MMHL distinctly utilizes semantic features from different modalities, while the self-supervised loss component reduces the distance between RGB and thermal features. We further consider both spatial and channel information during feature fusion and propose the Hybrid Fusion Module to effectively fuse RGB and thermal features. Lastly, instead of jointly training the network with cross-modal features, we implement a sequential training strategy which performs training only on RGB images in the first stage and then learns cross-modal features in the second stage. This training strategy improves saliency detection performance without computational overhead. Results from performance evaluation and ablation studies demonstrate the superior performance achieved by the proposed method compared with the existing state-of-the-art methods.
翻訳日:2023-09-15 17:01:57 公開日:2023-09-13
# GANを用いた高能率画像処理アルゴリズム

GAN-based Algorithm for Efficient Image Inpainting ( http://arxiv.org/abs/2309.07293v1 )

ライセンス: Link先を確認
Zhengyang Han, Zehao Jiang, Yuan Ju(参考訳) 新型コロナウイルス(COVID-19)の感染拡大による世界的なパンデミックは、人々がマスクを着用し始める顔認識に新たな課題を提起している。 このような条件下で、著者らは、当初マスクで覆われていた可能性のある顔を完成させることにより、画像の塗装に機械学習を活用することを検討する。 特にオートエンコーダは、画像の重要で一般的な特徴と生成的敵ネットワーク(gan)の生成能力を保持する上で大きな可能性を秘めている。 著者らは2つのモデルの組み合わせ、文脈エンコーダを実装し、2つのモデルのパワーを組み合わせて、インフルエンサーの顔の5万の画像でモデルを訓練し、改善のためのスペースを含むしっかりとした結果を得る方法について説明している。 さらに,本モデルにおける問題点,改善の可能性,今後の応用的視点の研究分野,さらにモデルをさらに強化・洗練する方向について論じた。

Global pandemic due to the spread of COVID-19 has post challenges in a new dimension on facial recognition, where people start to wear masks. Under such condition, the authors consider utilizing machine learning in image inpainting to tackle the problem, by complete the possible face that is originally covered in mask. In particular, autoencoder has great potential on retaining important, general features of the image as well as the generative power of the generative adversarial network (GAN). The authors implement a combination of the two models, context encoders and explain how it combines the power of the two models and train the model with 50,000 images of influencers faces and yields a solid result that still contains space for improvements. Furthermore, the authors discuss some shortcomings with the model, their possible improvements, as well as some area of study for future investigation for applicative perspective, as well as directions to further enhance and refine the model.
翻訳日:2023-09-15 17:01:37 公開日:2023-09-13
# 筋電図に基づくジェスチャ分類のための誤差強調によるユーザトレーニング

User Training with Error Augmentation for Electromyogram-based Gesture Classification ( http://arxiv.org/abs/2309.07289v1 )

ライセンス: Link先を確認
Yunus Bicer, Niklas Smedemark-Margulies, Basak Celik, Elifnur Sunger, Ryan Orendorff, Stephanie Naufel, Tales Imbiriba, Deniz Erdo{\u{g}}mu{\c{s}}, Eugene Tunik, Mathew Yarossi(参考訳) 手首バンド構成の8電極から表面筋電図(sEMG)活性を抽出し,ユーザインタフェースをリアルタイムに制御するシステムの設計と試験を行った。 sEMGデータは、リアルタイムで手の動きを分類する機械学習アルゴリズムにストリームされた。 最初のモデルキャリブレーションを行った後、被験者は、人間の学習段階における3種類のフィードバックのうちの1つとして、ジェスチャ分類アルゴリズムからの予測確率を変更せずに表示し、これらの確率に誤差の隠れた増減を適用し、フィードバックなしの検証フィードバックを提示した。 ユーザのパフォーマンスは一連のミニゲームで評価され、被験者は8つのジェスチャーでゲームアバターを操作し、タスクを完了させる必要があった。 実験の結果,ベースラインと比較して,フィードバック条件の修正により精度が著しく向上し,ジェスチャクラス分離が向上した。 これらの結果から,フィードバック操作によるゲーミフィケーションユーザインタフェースにおけるリアルタイムフィードバックは,sEMGに基づくジェスチャー認識アプリケーションにおいて,直感的かつ迅速かつ正確なタスク獲得を可能にする可能性が示唆された。

We designed and tested a system for real-time control of a user interface by extracting surface electromyographic (sEMG) activity from eight electrodes in a wrist-band configuration. sEMG data were streamed into a machine-learning algorithm that classified hand gestures in real-time. After an initial model calibration, participants were presented with one of three types of feedback during a human-learning stage: veridical feedback, in which predicted probabilities from the gesture classification algorithm were displayed without alteration, modified feedback, in which we applied a hidden augmentation of error to these probabilities, and no feedback. User performance was then evaluated in a series of minigames, in which subjects were required to use eight gestures to manipulate their game avatar to complete a task. Experimental results indicated that, relative to baseline, the modified feedback condition led to significantly improved accuracy and improved gesture class separation. These findings suggest that real-time feedback in a gamified user interface with manipulation of feedback may enable intuitive, rapid, and accurate task acquisition for sEMG-based gesture recognition applications.
翻訳日:2023-09-15 17:01:21 公開日:2023-09-13
# キャビティにおけるMajorana polaritonの位相的保護

Topological protection of Majorana polaritons in a cavity ( http://arxiv.org/abs/2309.07278v1 )

ライセンス: Link先を確認
Zeno Bacciconi, Gian Marcello Andolina, Christophe Mora(参考訳) キャビティ埋め込みは量子物質の制御の新たなパラダイムであり、電子状態を操作し、トポロジカルな位相遷移を駆動する手段を提供する。 本研究では,大域キャビティモードによる真空量子揺らぎに対する1次元位相超伝導相の安定性について述べる。 密度行列再正規化群計算で完備化した準断熱解析手法を用いて,Majoranaの終端モードが相似偏光モードへと発展し,位相秩序を保ち,障害に対して頑健であることを示す。 これらのマヨラナポーラリトンは非可換交換性を保持し、開鎖に対して指数関数的に縮退した基底状態を保護する。

Cavity embedding is an emerging paradigm for the control of quantum matter, offering avenues to manipulate electronic states and potentially drive topological phase transitions. In this work, we address the stability of a one-dimensional topological superconducting phase to the vacuum quantum fluctuations brought by a global cavity mode. By employing a quasi-adiabatic analytical approach completed by density matrix renormalization group calculations, we show that the Majorana end modes evolve into composite polaritonic modes while maintaining the topological order intact and robust to disorder. These Majorana polaritons keep their non-abelian exchange properties and protect a twofold exponentially degenerate ground state for an open chain.
翻訳日:2023-09-15 17:01:00 公開日:2023-09-13
# 拡散モデルによる顔合成の偏見:まだ存在するか?

Unbiased Face Synthesis With Diffusion Models: Are We There Yet? ( http://arxiv.org/abs/2309.07277v1 )

ライセンス: Link先を確認
Harrison Rosenberg, Shimaa Ahmed, Guruprasad V Ramesh, Ramya Korlakai Vinayak, Kassem Fawaz(参考訳) テキストから画像への拡散モデルは、前例のない画像生成能力によって広く普及している。 特に、人間の顔の合成と修正能力は、トレーニングデータ増強とモデルパフォーマンス評価の両方において生成された顔画像の使用の研究を加速させてきた。 本稿では,顔生成の文脈における生成モデルの有効性と欠点について検討する。 埋め込み型メトリクスとユーザスタディを含む質的,定量的な尺度を組み合わせることで,社会的属性のセットに条件付けされた生成顔の特徴を監査する枠組みを提案する。 我々は,最先端のテキストから画像への拡散モデルを用いて生成した顔に対して,このフレームワークを適用した。 テキストプロンプトへの忠実さ,人口格差,分布シフトなど,顔画像生成のいくつかの制限を明らかにする。 さらに、学習データの選択が生成モデルの性能にどのように貢献するかを洞察する分析モデルを提案する。

Text-to-image diffusion models have achieved widespread popularity due to their unprecedented image generation capability. In particular, their ability to synthesize and modify human faces has spurred research into using generated face images in both training data augmentation and model performance assessments. In this paper, we study the efficacy and shortcomings of generative models in the context of face generation. Utilizing a combination of qualitative and quantitative measures, including embedding-based metrics and user studies, we present a framework to audit the characteristics of generated faces conditioned on a set of social attributes. We applied our framework on faces generated through state-of-the-art text-to-image diffusion models. We identify several limitations of face image generation that include faithfulness to the text prompt, demographic disparities, and distributional shifts. Furthermore, we present an analytical model that provides insights into how training data selection contributes to the performance of generative models.
翻訳日:2023-09-15 17:00:47 公開日:2023-09-13
# ビジュアルオブジェクト探索のための言語記述型観察モデル

Language-Conditioned Observation Models for Visual Object Search ( http://arxiv.org/abs/2309.07276v1 )

ライセンス: Link先を確認
Thao Nguyen, Vladislav Hrosinkov, Eric Rosen, Stefanie Tellex(参考訳) 複雑な言語記述(例えば「テーブルの上の白いカップを探す」)が与えられた場合、ロボットはカメラを環境に移動させ、記述された物体を認識する必要があるため、オブジェクト検索は難しい課題である。 従来の作業では、言語記述を所定のノイズモデルを持つ固定オブジェクト検出器の集合にマッピングするが、これらのアプローチは、各オブジェクトに対して新しい検出器を作成する必要があるため、スケールアップが困難である。 本研究では,複雑な言語記述を条件とした1つの深層ニューラルネットワークを用いて,観測モデルにおける物体検出と視覚センサノイズを決定する部分可観測マルコフ決定過程(pomdp)として探索問題を構成することで,現実的物体探索のギャップを埋める。 ニューラルネットワークの出力を言語条件観測モデル(LCOM)に組み込んで,動的に変化するセンサノイズを表現する。 LCOMでは、オブジェクトの任意の言語記述を使用して、適切なオブジェクト検出器とノイズモデルを生成することができ、LCOMのトレーニングは、容易に管理可能なイメージキャプチャデータセットのみを必要とする。 シミュレーションにおいて,最先端のオブジェクト探索アルゴリズムと比較し,提案手法を実証的に評価し,観測モデルによる計画により,平均タスク完了率 (0.46から0.66) が有意に高く,固定ノイズモデルよりも効率的かつ高速に探索できることを示す。 本稿では,Boston Dynamics Spotロボットを用いて,複雑な自然言語オブジェクト記述を処理し,室内環境におけるオブジェクトの効率的な発見を可能にする。

Object search is a challenging task because when given complex language descriptions (e.g., "find the white cup on the table"), the robot must move its camera through the environment and recognize the described object. Previous works map language descriptions to a set of fixed object detectors with predetermined noise models, but these approaches are challenging to scale because new detectors need to be made for each object. In this work, we bridge the gap in realistic object search by posing the search problem as a partially observable Markov decision process (POMDP) where the object detector and visual sensor noise in the observation model is determined by a single Deep Neural Network conditioned on complex language descriptions. We incorporate the neural network's outputs into our language-conditioned observation model (LCOM) to represent dynamically changing sensor noise. With an LCOM, any language description of an object can be used to generate an appropriate object detector and noise model, and training an LCOM only requires readily available supervised image-caption datasets. We empirically evaluate our method by comparing against a state-of-the-art object search algorithm in simulation, and demonstrate that planning with our observation model yields a significantly higher average task completion rate (from 0.46 to 0.66) and more efficient and quicker object search than with a fixed-noise model. We demonstrate our method on a Boston Dynamics Spot robot, enabling it to handle complex natural language object descriptions and efficiently find objects in a room-scale environment.
翻訳日:2023-09-15 17:00:33 公開日:2023-09-13
# あなたは追跡できると思いますか?

So you think you can track? ( http://arxiv.org/abs/2309.07268v1 )

ライセンス: Link先を確認
Derek Gloudemans, Gergely Zach\'ar, Yanbing Wang, Junyi Ji, Matt Nice, Matt Bunting, William Barbour, Jonathan Sprinkle, Benedetto Piccoli, Maria Laura Delle Monache, Alexandre Bayen, Benjamin Seibold, Daniel B. Work(参考訳) この研究は、ナッシュビル近郊の8-10車線州間高速道路の4.2マイル(4.2マイル)をカバーする234台のHDカメラから同時に記録された234時間のビデオデータからなるマルチカメラ追跡データセットを導入する。 ビデオは、500以上のオブジェクトがシーン内で見られる高いトラフィック密度の期間に記録され、典型的なオブジェクトの寿命は3~15分である。 映像データに270台の車両が通過したgpsトラジェクタを手作業で補正し、リコール指向トラッキングメトリクスのための地中トラジェクタセットを提供し、シーン内の各カメラに対して物体検出を提供する(クロスカメラ融合前の合計1億9900万)。 追跡検出アルゴリズムの初期ベンチマークはGPSトラジェクトリに対して行われ、最高のHOTAは9.5%しか得られない(最も良いリコールはIOU 0.1で75.9%、地上の真理オブジェクト当たり47.9の平均ID)。

This work introduces a multi-camera tracking dataset consisting of 234 hours of video data recorded concurrently from 234 overlapping HD cameras covering a 4.2 mile stretch of 8-10 lane interstate highway near Nashville, TN. The video is recorded during a period of high traffic density with 500+ objects typically visible within the scene and typical object longevities of 3-15 minutes. GPS trajectories from 270 vehicle passes through the scene are manually corrected in the video data to provide a set of ground-truth trajectories for recall-oriented tracking metrics, and object detections are provided for each camera in the scene (159 million total before cross-camera fusion). Initial benchmarking of tracking-by-detection algorithms is performed against the GPS trajectories, and a best HOTA of only 9.5% is obtained (best recall 75.9% at IOU 0.1, 47.9 average IDs per ground truth object), indicating the benchmarked trackers do not perform sufficiently well at the long temporal and spatial durations required for traffic scene understanding.
翻訳日:2023-09-15 17:00:03 公開日:2023-09-13
# 深層強化学習に基づくO-RANスライシング : ハイブリッドトランスファー学習アプローチ

Safe and Accelerated Deep Reinforcement Learning-based O-RAN Slicing: A Hybrid Transfer Learning Approach ( http://arxiv.org/abs/2309.07265v1 )

ライセンス: Link先を確認
Ahmad M. Nagib, Hatem Abou-Zeid, and Hossam S. Hassanein(参考訳) オープン無線アクセスネットワーク(O-RAN)アーキテクチャは、そのコア機能のひとつとしてインテリジェントネットワーク制御アルゴリズムをサポートしている。 データ駆動型アプリケーションは、RANインテリジェントコントローラ(RIC)を介して無線アクセスネットワーク(RAN)機能を最適化するためにそのようなアルゴリズムを組み込んでいる。 深部強化学習(DRL)アルゴリズムは、O-RAN文献で採用されている動的無線資源管理問題を解決する主要なアプローチの一つである。 しかし、O-RAN RICsが導入した利点にもかかわらず、実際のネットワーク展開におけるDRLアルゴリズムの実践的採用は遅れている。 これは主に、DRLエージェントがデプロイ時に、およびこれまで見つからなかったネットワーク条件に直面するときに、緩やかな収束と不安定なパフォーマンスのためである。 本稿では、DRLに基づくO-RAN機能のクローズループ制御のためのトレーニングおよびデプロイメントワークフローのコアコンポーネントとして転送学習(TL)を提案する。 そこで本研究では, DRLをベースとしたO-RANスライシングにおける安全かつ迅速な収束を実現するために, 政策再利用と蒸留TL法の両方の利点を生かしたハイブリッドTL支援手法を提案し, 設計する。 我々は、O-RANスライシングの現実的なシナリオを反映するために、実際のVRゲームトラフィックを含む複数のサービスに対応する徹底的な実験を行う。 また, 政策再利用と蒸留支援DRLと非TL支援DRLを3つの異なるベースラインとして提案する。 提案したハイブリッドアプローチは, 平均初期報酬値と収束シナリオの割合を7.7%, 20.7%改善し, 64.6%の報酬分散を減少させ, 高速収束を維持し, ベースラインと比較して一般化性を高めた。

The open radio access network (O-RAN) architecture supports intelligent network control algorithms as one of its core capabilities. Data-driven applications incorporate such algorithms to optimize radio access network (RAN) functions via RAN intelligent controllers (RICs). Deep reinforcement learning (DRL) algorithms are among the main approaches adopted in the O-RAN literature to solve dynamic radio resource management problems. However, despite the benefits introduced by the O-RAN RICs, the practical adoption of DRL algorithms in real network deployments falls behind. This is primarily due to the slow convergence and unstable performance exhibited by DRL agents upon deployment and when facing previously unseen network conditions. In this paper, we address these challenges by proposing transfer learning (TL) as a core component of the training and deployment workflows for the DRL-based closed-loop control of O-RAN functionalities. To this end, we propose and design a hybrid TL-aided approach that leverages the advantages of both policy reuse and distillation TL methods to provide safe and accelerated convergence in DRL-based O-RAN slicing. We conduct a thorough experiment that accommodates multiple services, including real VR gaming traffic to reflect practical scenarios of O-RAN slicing. We also propose and implement policy reuse and distillation-aided DRL and non-TL-aided DRL as three separate baselines. The proposed hybrid approach shows at least: 7.7% and 20.7% improvements in the average initial reward value and the percentage of converged scenarios, and a 64.6% decrease in reward variance while maintaining fast convergence and enhancing the generalizability compared with the baselines.
翻訳日:2023-09-15 16:59:44 公開日:2023-09-13
# 非測定共著者をもつ一般化線形モデルに対する同時推論

Simultaneous inference for generalized linear models with unmeasured confounders ( http://arxiv.org/abs/2309.07261v1 )

ライセンス: Link先を確認
Jin-Hong Du and Larry Wasserman and Kathryn Roeder(参考訳) 数万の同時仮説テストがゲノム研究で定期的に行われ、異なる発現遺伝子を同定する。 しかし、計測されていない共同設立者のために、多くの標準的な統計手法は実質的に偏っているかもしれない。 本稿では,多変量一般化線形モデルに対する大規模仮説検定問題について検討する。 任意のコンバウンディング機構の下で,直交構造を利用し,線形射影を3つの重要な段階に統合する統一的な統計的推定と推論フレームワークを提案する。 最初は多変量応答を利用して、境界および非相関な共役効果を分離し、共役係数のコラム空間を復元する。 その後, 因果係数に直交性を付与しながら, 疎度を$\ell_1$-regularization を用いて, 潜伏因子と一次効果を同時推定する。 最後に,予測および重み付けされたバイアス補正ステップを仮説テストに取り入れた。 理論的には、様々な効果の識別条件と非漸近誤差境界を確立する。 asymptotic $z$-tests の type-i エラー制御をサンプルおよび応答サイズとして有効に行う。 数値実験により, 提案手法はベンジャミン・ホックベルク法により偽発見率を制御し, 代替手法よりも強力であることが示された。 2つのサンプル群から得られた単細胞RNA-seq数を比較することにより、モデルから有意な共変量が欠如している場合の共振効果の調整性を示す。

Tens of thousands of simultaneous hypothesis tests are routinely performed in genomic studies to identify differentially expressed genes. However, due to unmeasured confounders, many standard statistical approaches may be substantially biased. This paper investigates the large-scale hypothesis testing problem for multivariate generalized linear models in the presence of confounding effects. Under arbitrary confounding mechanisms, we propose a unified statistical estimation and inference framework that harnesses orthogonal structures and integrates linear projections into three key stages. It first leverages multivariate responses to separate marginal and uncorrelated confounding effects, recovering the confounding coefficients' column space. Subsequently, latent factors and primary effects are jointly estimated, utilizing $\ell_1$-regularization for sparsity while imposing orthogonality onto confounding coefficients. Finally, we incorporate projected and weighted bias-correction steps for hypothesis testing. Theoretically, we establish various effects' identification conditions and non-asymptotic error bounds. We show effective Type-I error control of asymptotic $z$-tests as sample and response sizes approach infinity. Numerical experiments demonstrate that the proposed method controls the false discovery rate by the Benjamini-Hochberg procedure and is more powerful than alternative methods. By comparing single-cell RNA-seq counts from two groups of samples, we demonstrate the suitability of adjusting confounding effects when significant covariates are absent from the model.
翻訳日:2023-09-15 16:58:54 公開日:2023-09-13
# 関節リウマチ免疫組織化学染色滑膜組織の自動分節化

Automated segmentation of rheumatoid arthritis immunohistochemistry stained synovial tissue ( http://arxiv.org/abs/2309.07255v1 )

ライセンス: Link先を確認
Amaya Gallagher-Syed, Abbas Khan, Felice Rivellese, Costantino Pitzalis, Myles J. Lewis, Gregory Slabaugh, Michael R. Barnes(参考訳) 慢性関節リウマチ(RA)は関節滑膜組織に主に影響を及ぼす慢性自己免疫疾患である。 非常に異質な疾患であり、滑膜組織において幅広い細胞および分子の多様性が観察される。 過去20年間で、彼らの研究に利用できる方法はかなり進歩した。 特に免疫組織化学染色はサンプルの機能的構造を強調するのに好適である。 しかし、IHCによる滑膜組織サンプルの分析は、専門家の病理学者によって手動および半定量的に行われている。 これは、icc染色滑膜組織の断片的な性質に加えて、強度と色、強い臨床センターバッチ効果、および水滴、ペンアノテーション、折りたたみ組織、ぼかしなど、ギガピクセル全体のスライド画像(wsis)に存在する望ましくない多くのアーティファクトの存在など、幅広いバリエーションが存在するためである。 したがって、この変動に対処し、画像パイプラインのサポートを提供する、堅牢で繰り返し可能な自動組織分割アルゴリズムが強く必要である。 我々は,多種類のicc染色を含む実世界多センター臨床データセットr4ra上でunetを訓練する。 このモデルでは、DICEスコア0.865を取得し、異なるタイプのIHC染色を分割し、異なる臨床センターからの色、強度、および一般的なWSIsアーティファクトのばらつきに対処する。 IHCで染色された滑膜組織サンプルの自動画像解析パイプラインの第1ステップとして利用でき、速度、再現性、堅牢性を高めることができる。

Rheumatoid Arthritis (RA) is a chronic, autoimmune disease which primarily affects the joint's synovial tissue. It is a highly heterogeneous disease, with wide cellular and molecular variability observed in synovial tissues. Over the last two decades, the methods available for their study have advanced considerably. In particular, Immunohistochemistry stains are well suited to highlighting the functional organisation of samples. Yet, analysis of IHC-stained synovial tissue samples is still overwhelmingly done manually and semi-quantitatively by expert pathologists. This is because in addition to the fragmented nature of IHC stained synovial tissue, there exist wide variations in intensity and colour, strong clinical centre batch effect, as well as the presence of many undesirable artefacts present in gigapixel Whole Slide Images (WSIs), such as water droplets, pen annotation, folded tissue, blurriness, etc. There is therefore a strong need for a robust, repeatable automated tissue segmentation algorithm which can cope with this variability and provide support to imaging pipelines. We train a UNET on a hand-curated, heterogeneous real-world multi-centre clinical dataset R4RA, which contains multiple types of IHC staining. The model obtains a DICE score of 0.865 and successfully segments different types of IHC staining, as well as dealing with variance in colours, intensity and common WSIs artefacts from the different clinical centres. It can be used as the first step in an automated image analysis pipeline for synovial tissue samples stained with IHC, increasing speed, reproducibility and robustness.
翻訳日:2023-09-15 16:58:03 公開日:2023-09-13
# InductExを用いた超電導量子レイアウトの解析

Analysis of Superconducting Qubit Layouts Using InductEx ( http://arxiv.org/abs/2309.07336v1 )

ライセンス: Link先を確認
Sean Crowe, Benjamin Taylor, Nicholas Ferrante, Brad Liu, Susan Berggren(参考訳) InductEx(インダクトエクス)は、集積回路設計の分析と数値電磁場解法による設計パラメータの抽出に使用されるソフトウェアツールである。 このツールはもともとrapid single flux quantum (rsfq)チップを念頭に置いて開発されたが、広く適用可能であり、他のプロセスにも拡張できる。 本ポスターでは,超伝導アルミニウム2量子ビットチップの包括的解析を行った。 この分析はInductExで行った。 単一および2つのキュービットゲートの実行に必要な特性を有する2量子ビットチップの設計を報告する。 製造に先立ち、トランスモン量子ビットの基本設計原理を満たすために、この量子チップ設計からいくつかの設計特性が抽出されている。 これらの特性は、このポスターで報告され、チップアンハーモニック性、量子ビット周波数、共振器周波数、g因子、分散シフトの計算を含む。 これらのパラメータによって満たされる設計制約について論じる。 さらに、チップの定性的側面は現在の密度マップから得られ、ここで報告されている。 全体として、この分析は集積回路設計、特に量子回路レイアウト最適化の問題に対するインダクテックスの広範な適用性を示している。

InductEx is a software tool used for the analysis of integrated circuit designs and extraction of design parameters by way of numerical electromagnetic field solving. This tool was originally developed with Rapid Single Flux Quantum (RSFQ) chips in mind, but it has a broad applicability and can be extended to other processes. In this poster, we report a comprehensive analysis of a superconducting aluminum two qubit chip. This analysis was performed with InductEx. We report the design of a two qubit chip which has the characteristics necessary to execute single and two qubit gates. Ahead of fabrication, several design characteristics have been extracted from this quantum chip design in order to verify that it satisfies basic design principles of transmon qubits. These characteristics are reported in this poster and they include the calculation of chip anharmonicities, qubit frequencies, resonator frequencies as well as g-factors and dispersive shifts. Design constraints which are satisfied by these extracted parameters are discussed. Additionally, qualitative aspects of the chip have been obtained from current density maps and are reported here. Taken as a whole, this analysis demonstrates the broad applicability of Inductex to integrated circuit design and particularly to the problem of quantum circuit layout optimization.
翻訳日:2023-09-15 16:49:43 公開日:2023-09-13
# 部分修正分類における補助源からの学習

Learning from Auxiliary Sources in Argumentative Revision Classification ( http://arxiv.org/abs/2309.07334v1 )

ライセンス: Link先を確認
Tazin Afrin and Diane Litman(参考訳) 我々は、論証文における望ましい推論リビジョンを分類するモデルを開発する。 我々は,類似タスクに対する修正データの補助的情報源を活用するために,マルチタスク学習とトランスファー学習の2つのアプローチを検討した。 内在的および外在的評価の結果,両手法がベースラインよりも分類器の性能を向上できることが示唆された。 マルチタスク学習は、異なるデータソースを同時にトレーニングすることでパフォーマンスが向上することを示しているが、転送学習はデータ間の関係をより良く表現する。

We develop models to classify desirable reasoning revisions in argumentative writing. We explore two approaches -- multi-task learning and transfer learning -- to take advantage of auxiliary sources of revision data for similar tasks. Results of intrinsic and extrinsic evaluations show that both approaches can indeed improve classifier performance over baselines. While multi-task learning shows that training on different sources of data at the same time may improve performance, transfer-learning better represents the relationship between the data.
翻訳日:2023-09-15 16:49:25 公開日:2023-09-13
# マルチモーダルバイオメディカルデータマイニングにおけるインダクティブコンフォメーション予測を用いた騒音トレーニングラベルの信頼性に基づくクリーニング

Reliability-based cleaning of noisy training labels with inductive conformal prediction in multi-modal biomedical data mining ( http://arxiv.org/abs/2309.07332v1 )

ライセンス: Link先を確認
Xianghao Zhan, Qinmei Xu, Yuanning Zheng, Guangming Lu, Olivier Gevaert(参考訳) 正確なバイオメディカルデータのラベル付けが課題となる。 従来の半教師あり学習法は、しばしばラベルなしのデータを使用しない。 そこで本研究では,帰納的共形予測(ICP)を用いた信頼性に基づく新しいトレーニングデータクリーニング手法を提案する。 この方法は、正確にラベル付けされたトレーニングデータの小さなセットを活用し、icp計算された信頼性メトリクスを利用して、大量のノイズの多いトレーニングデータ内の誤ラベルされたデータと外れ値の修正を行う。 本手法の有効性は, 薬物誘発肝障害(DILI)文献をタイトルと抽象でフィルタリングし, CTラジオミクスおよび電子カルテによるICU入院を予測し, RNAシークエンシングデータを用いて乳癌をサブタイプする3つの分類課題において検証された。 ラベル置換によりトレーニングラベルに対するノイズレベルが導入された。 その結果、96のDILI実験のうち86の精度向上(最大11.4%)、AUROCとAUPRCの強化(最大23.8%と69.8%)、48のRNAシークエンシング実験のうち47の精度とマクロ平均F1スコアの改善(最大74.6%と89.0%)、などの分類性能が向上した。 本手法は,マルチモーダル生物医学的機械学習タスクにおける分類性能を著しく向上させる可能性がある。 重要なのは、厳密にキュレートされたトレーニングデータの過剰な量を必要とせずに、これを実現することだ。

Accurately labeling biomedical data presents a challenge. Traditional semi-supervised learning methods often under-utilize available unlabeled data. To address this, we propose a novel reliability-based training data cleaning method employing inductive conformal prediction (ICP). This method capitalizes on a small set of accurately labeled training data and leverages ICP-calculated reliability metrics to rectify mislabeled data and outliers within vast quantities of noisy training data. The efficacy of the method is validated across three classification tasks within distinct modalities: filtering drug-induced-liver-injury (DILI) literature with title and abstract, predicting ICU admission of COVID-19 patients through CT radiomics and electronic health records, and subtyping breast cancer using RNA-sequencing data. Varying levels of noise to the training labels were introduced through label permutation. Results show significant enhancements in classification performance: accuracy enhancement in 86 out of 96 DILI experiments (up to 11.4%), AUROC and AUPRC enhancements in all 48 COVID-19 experiments (up to 23.8% and 69.8%), and accuracy and macro-average F1 score improvements in 47 out of 48 RNA-sequencing experiments (up to 74.6% and 89.0%). Our method offers the potential to substantially boost classification performance in multi-modal biomedical machine learning tasks. Importantly, it accomplishes this without necessitating an excessive volume of meticulously curated training data.
翻訳日:2023-09-15 16:49:16 公開日:2023-09-13
# 腹腔鏡下胆嚢摘出術における安全性評価

Automated Assessment of Critical View of Safety in Laparoscopic Cholecystectomy ( http://arxiv.org/abs/2309.07330v1 )

ライセンス: Link先を確認
Yunfan Li, Himanshu Gupta, Haibin Ling, IV Ramakrishnan, Prateek Prasanna, Georgios Georgakis, Aaron Sasson(参考訳) 胆嚢摘出術(胆嚢摘出術)は米国で最も一般的であり、年間1.2m以上の手術が行われている。 腹腔鏡下胆嚢摘出術 (LC) は, 従来の開胆嚢摘出術と比較して, 回復期間が著しく短く, 好適な方法である。 しかし、LCは胆管損傷(BDI)の増加とも関連しており、致死率と死亡率に大きな影響を及ぼす。 LCからのBDIの主な原因は胆嚢管と胆管の誤同定である。 CVS(Critical View of Safety)は、特定の基準を満たす場合、手術中に達成されるとされる安全プロトコルの最も効果的な方法である。 しかしながら、cvsのサブ最適理解と実装のため、bdi率は過去30年間にわたって安定している。 本稿では,LCにおけるCVSの評価を自動化するディープラーニング技術を開発した。 本研究のイノベーティブな側面は、実際に利用可能な限られたトレーニングデータに対応するために、ドメイン知識を取り入れて専門的な学習技術を開発することである。 特に, cvs評価プロセスでは2つのセグメンテーションマップを融合し, 胆嚢近傍の解剖学的構造に基づく関心領域の推定を行い, 最終的に3つのcvs基準を規則に基づく構造情報の評価により決定する。 単一モデルベースラインと比較した場合の2ストリームセマンティックセグメンテーション手法では,mIoUが11.8%,トランスフォーマーベースベースラインモデルでは1.84%,Sobel損失関数では1.84%,関連クラスではmIoUが11.8%以上向上した。 CVSの基準では、最大16%の改善を達成し、CVS全体の評価では、同じ実験環境下でのDeepCVSと比較して、バランスの取れた精度が5%向上した。

Cholecystectomy (gallbladder removal) is one of the most common procedures in the US, with more than 1.2M procedures annually. Compared with classical open cholecystectomy, laparoscopic cholecystectomy (LC) is associated with significantly shorter recovery period, and hence is the preferred method. However, LC is also associated with an increase in bile duct injuries (BDIs), resulting in significant morbidity and mortality. The primary cause of BDIs from LCs is misidentification of the cystic duct with the bile duct. Critical view of safety (CVS) is the most effective of safety protocols, which is said to be achieved during the surgery if certain criteria are met. However, due to suboptimal understanding and implementation of CVS, the BDI rates have remained stable over the last three decades. In this paper, we develop deep-learning techniques to automate the assessment of CVS in LCs. An innovative aspect of our research is on developing specialized learning techniques by incorporating domain knowledge to compensate for the limited training data available in practice. In particular, our CVS assessment process involves a fusion of two segmentation maps followed by an estimation of a certain region of interest based on anatomical structures close to the gallbladder, and then finally determination of each of the three CVS criteria via rule-based assessment of structural information. We achieved a gain of over 11.8% in mIoU on relevant classes with our two-stream semantic segmentation approach when compared to a single-model baseline, and 1.84% in mIoU with our proposed Sobel loss function when compared to a Transformer-based baseline model. For CVS criteria, we achieved up to 16% improvement and, for the overall CVS assessment, we achieved 5% improvement in balanced accuracy compared to DeepCVS under the same experiment settings.
翻訳日:2023-09-15 16:48:44 公開日:2023-09-13
# $\texttt{NePhi}$: およそ拡散型医用画像登録のためのニューラル変形場

$\texttt{NePhi}$: Neural Deformation Fields for Approximately Diffeomorphic Medical Image Registration ( http://arxiv.org/abs/2309.07322v1 )

ライセンス: Link先を確認
Lin Tian, Soumyadip Sengupta, Hastings Greer, Ra\'ul San Jos\'e Est\'epar, Marc Niethammer(参考訳) この研究は、およそ微分同相変換をもたらす神経変形モデルである$\texttt{NePhi}$を提案する。 主なvoxelベースのアプローチとは対照的に、$\texttt{nephi}$は機能的に変形を表し、メモリ効率の良いトレーニングと推論を可能にする。 これは大量登録において特に重要である。 さらに、マルチ層パーセプトロンによる変換マップを表す医用画像登録手法が提案されている一方で、$\texttt{NePhi}$は、ペアワイズ最適化ベースの登録と、予測または最適化されたグローバルおよびローカル潜在コードによる学習ベースの登録の両方を促進する。 最後に、変形正規性がほとんどの医用画像登録タスクにとって非常に望ましい性質であるため、$\texttt{nephi}$ は勾配逆整合性正規化を利用し、経験的におよそ二相変換をもたらす。 2つの2d合成データセットと実際の3d肺登録で$\texttt{nephi}$のパフォーマンスを示す。 以上の結果から,より少ないメモリと高速なインスタンス最適化を実現しつつ,単一解像度の登録設定において,voxelベースの表現と同様の精度を達成できることが示唆された。

This work proposes $\texttt{NePhi}$, a neural deformation model which results in approximately diffeomorphic transformations. In contrast to the predominant voxel-based approaches, $\texttt{NePhi}$ represents deformations functionally which allows for memory-efficient training and inference. This is of particular importance for large volumetric registrations. Further, while medical image registration approaches representing transformation maps via multi-layer perceptrons have been proposed, $\texttt{NePhi}$ facilitates both pairwise optimization-based registration $\textit{as well as}$ learning-based registration via predicted or optimized global and local latent codes. Lastly, as deformation regularity is a highly desirable property for most medical image registration tasks, $\texttt{NePhi}$ makes use of gradient inverse consistency regularization which empirically results in approximately diffeomorphic transformations. We show the performance of $\texttt{NePhi}$ on two 2D synthetic datasets as well as on real 3D lung registration. Our results show that $\texttt{NePhi}$ can achieve similar accuracies as voxel-based representations in a single-resolution registration setting while using less memory and allowing for faster instance-optimization.
翻訳日:2023-09-15 16:48:12 公開日:2023-09-13
# 移動語:トランスフォーマーの幾何学的解釈

Traveling Words: A Geometric Interpretation of Transformers ( http://arxiv.org/abs/2309.07315v1 )

ライセンス: Link先を確認
Raul Molina(参考訳) トランスフォーマーは自然言語処理の分野を著しく進歩させたが、内部機構の解明は依然として課題である。 本稿では,変圧器操作の内部機構を解明する新しい幾何学的視点を提案する。 我々の主な貢献は、層正規化が潜在特徴を超球面に閉じ込める方法を示し、その後、この表面における単語の意味表現に注意を向けることである。 この幾何学的視点は、反復的洗練や文脈埋め込みのような確立された性質をシームレスに結合する。 我々は,事前学習した114mパラメータgpt-2モデルを用いて知見を検証する。 本研究は,初期層における問合せキーの注意パターンを明らかにし,より深い層における注目の主観的特徴に関する先行観測に基づいて構築した。 これらの幾何学的洞察を生かし、超球面に沿った単語粒子の軌跡をモデル化する過程として、トランスフォーマーの直感的な理解を示す。

Transformers have significantly advanced the field of natural language processing, but comprehending their internal mechanisms remains a challenge. In this paper, we introduce a novel geometric perspective that elucidates the inner mechanisms of transformer operations. Our primary contribution is illustrating how layer normalization confines the latent features to a hyper-sphere, subsequently enabling attention to mold the semantic representation of words on this surface. This geometric viewpoint seamlessly connects established properties such as iterative refinement and contextual embeddings. We validate our insights by probing a pre-trained 124M parameter GPT-2 model. Our findings reveal clear query-key attention patterns in early layers and build upon prior observations regarding the subject-specific nature of attention heads at deeper layers. Harnessing these geometric insights, we present an intuitive understanding of transformers, depicting them as processes that model the trajectory of word particles along the hyper-sphere.
翻訳日:2023-09-15 16:47:46 公開日:2023-09-13
# AudioSR:超高解像度オーディオ

AudioSR: Versatile Audio Super-resolution at Scale ( http://arxiv.org/abs/2309.07314v1 )

ライセンス: Link先を確認
Haohe Liu, Ke Chen, Qiao Tian, Wenwu Wang, Mark D. Plumbley(参考訳) オーディオスーパーレゾリューションは、低解像度オーディオの高周波成分を予測し、デジタルアプリケーションにおけるオーディオ品質を向上させる基本的なタスクである。 従来の手法には、オーディオタイプ(音楽、音声など)の制限や、扱える特定の帯域幅設定(例えば、4kHzから8kHz)といった制限がある。 本稿では,音響効果,音楽,音声など,多彩なオーディオタイプに対してロバストな音声超解像を行うことのできる拡散型生成モデルである audiosr を提案する。 具体的には、AudioSRは2kHzから16kHzの範囲内の任意の入力オーディオ信号を、サンプリングレート48kHzで24kHzの高解像度オーディオ信号にアップサンプリングすることができる。 様々な音響超解像ベンチマークの客観的評価は,提案モデルによる強い結果を示す。 さらに,本評価の結果から,audioldm,fastspeech2,musicgenなど,幅広い音声生成モデルの生成品質を向上させるために,audiosrはプラグアンドプレイモジュールとして機能することが示された。 コードとデモはhttps://audioldm.github.io/audiosr.com/で閲覧できます。

Audio super-resolution is a fundamental task that predicts high-frequency components for low-resolution audio, enhancing audio quality in digital applications. Previous methods have limitations such as the limited scope of audio types (e.g., music, speech) and specific bandwidth settings they can handle (e.g., 4kHz to 8kHz). In this paper, we introduce a diffusion-based generative model, AudioSR, that is capable of performing robust audio super-resolution on versatile audio types, including sound effects, music, and speech. Specifically, AudioSR can upsample any input audio signal within the bandwidth range of 2kHz to 16kHz to a high-resolution audio signal at 24kHz bandwidth with a sampling rate of 48kHz. Extensive objective evaluation on various audio super-resolution benchmarks demonstrates the strong result achieved by the proposed model. In addition, our subjective evaluation shows that AudioSR can acts as a plug-and-play module to enhance the generation quality of a wide range of audio generative models, including AudioLDM, Fastspeech2, and MusicGen. Our code and demo are available at https://audioldm.github.io/audiosr.
翻訳日:2023-09-15 16:47:30 公開日:2023-09-13
# マルチコア量子プロセッサのための相互接続ファブリック:コンテキスト解析

Interconnect Fabrics for Multi-Core Quantum Processors: A Context Analysis ( http://arxiv.org/abs/2309.07313v1 )

ライセンス: Link先を確認
Pau Escofet, Sahar Ben Rached, Santiago Rodrigo, Carmen G. Almudever, Eduard Alarc\'on and Sergi Abadal(参考訳) 量子コンピューティングは、古典的に難解な問題を扱う素晴らしい能力によって、コンピュータ科学の分野に革命をもたらした。 しかし、その可能性を実現するためには、量子コンピュータは数百万の量子ビットにスケールする必要がある。 本稿では,通信の観点から生まれたばかりの量子コンピューティング分野のコンテキスト分析を行い,オンチップネットワークのコミュニティに対して,今後数十年にわたって真にスケーラブルな量子コンピュータへの貢献と展開を促すことを目的としている。

Quantum computing has revolutionized the field of computer science with its extraordinary ability to handle classically intractable problems. To realize its potential, however, quantum computers need to scale to millions of qubits, a feat that will require addressing fascinating yet extremely challenging interconnection problems. In this paper, we provide a context analysis of the nascent quantum computing field from the perspective of communications, with the aim of encouraging the on-chip networks community to contribute and pave the way for truly scalable quantum computers in the decades to come.
翻訳日:2023-09-15 16:47:10 公開日:2023-09-13
# 損失の急落:MLMにおける構文獲得、相転移、単純性バイアス

Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and Simplicity Bias in MLMs ( http://arxiv.org/abs/2309.07311v1 )

ライセンス: Link先を確認
Angelica Chen, Ravid Schwartz-Ziv, Kyunghyun Cho, Matthew L. Leavitt, Naomi Saphra(参考訳) NLPにおけるほとんどの解釈可能性の研究は、完全に訓練されたモデルの振る舞いと特徴を理解することに焦点を当てている。 しかし、モデル行動に関する特定の洞察は、トレーニングプロセスの軌跡を観察することによってのみアクセス可能である。 本稿では,マスキング言語モデル(MLM)における構文習得のケーススタディを提案する。 本研究は,学習を通して解釈可能な人工物の進化を分析することで,創発的行動の理解を深めることを示す。 特に,特定のトランスフォーマーヘッドが特定の構文関係に注目しやすいmlmsの自然発生的性質である構文的注意構造(sas)について検討した。 モデルが突然SASを取得すると、トレーニング中の短いウィンドウを識別し、このウィンドウは損失の急激な減少と同時であることを示す。 さらに、SASはその後の言語能力の獲得を早める。 次に,SASの因果的役割について,トレーニング中にSASを操作するための正規化器を導入し,文法能力の発達にSASが必要であることを示す。 さらに、SASはトレーニング中に他の有益な特性や能力と競合し、SASを短時間抑制することでモデル品質が向上することがわかった。 これらの結果は、不利な単純さバイアスと解釈可能なブレークスルートレーニングダイナミクスの関係の実際の例を示している。

Most interpretability research in NLP focuses on understanding the behavior and features of a fully trained model. However, certain insights into model behavior may only be accessible by observing the trajectory of the training process. In this paper, we present a case study of syntax acquisition in masked language models (MLMs). Our findings demonstrate how analyzing the evolution of interpretable artifacts throughout training deepens our understanding of emergent behavior. In particular, we study Syntactic Attention Structure (SAS), a naturally emerging property of MLMs wherein specific Transformer heads tend to focus on specific syntactic relations. We identify a brief window in training when models abruptly acquire SAS and find that this window is concurrent with a steep drop in loss. Moreover, SAS precipitates the subsequent acquisition of linguistic capabilities. We then examine the causal role of SAS by introducing a regularizer to manipulate SAS during training, and demonstrate that SAS is necessary for the development of grammatical capabilities. We further find that SAS competes with other beneficial traits and capabilities during training, and that briefly suppressing SAS can improve model quality. These findings reveal a real-world example of the relationship between disadvantageous simplicity bias and interpretable breakthrough training dynamics.
翻訳日:2023-09-15 16:47:01 公開日:2023-09-13
# ゆらぎダイナミクスの限界

Limits to Fluctuation Dynamics ( http://arxiv.org/abs/2309.07301v1 )

ライセンス: Link先を確認
Ryusuke Hamazaki(参考訳) 実験で測定された観測可能な平均値のゆらぎは、ランダム性を含む非平衡系の基本成分である。 これまでの努力にもかかわらず、観測可能なゆらぎの時間的ダイナミクスを特徴付ける包括的な枠組みはいまだに解明されていない。 本稿では,ゆらぎの増大率に対する厳密な限界に関するユビキタス理論を展開する。 観測可能な標準偏差の時間微分は、適切な観測可能な記述速度の標準偏差によって上界となるという単純な原理を発見した。 これは平均と標準偏差の変化、すなわち、これらの量に対する平方数の和は、力学過程によって決定される特定のコストを超えないことを意味する。 このコストは、流体力学の運動エネルギー、熱力学過程の非可逆エントロピー生成率、ユニタリ量子力学のエネルギーゆらぎ、散逸量子力学のための量子フィッシャー情報などである。 この結果は、量子多体系と非線形集団力学を含む様々な非平衡系の揺動力学の定量的理論への道を開き、それらを制御する方法の理解に向けて開かれた。

The fluctuation of an experimentally measured observable, along with its mean, constitutes the fundamental ingredient of a non-equilibrium system involving randomness. Despite previous efforts, a comprehensive framework for characterizing the temporal dynamics of fluctuations of observables remains elusive. In this manuscript, we develop a ubiquitous theory concerning rigorous limits to the rate of fluctuation growth. We discover a simple principle that the time derivative of the standard deviation of an observable is upper bound by the standard deviation of an appropriate observable describing velocity. This indicates a hitherto unknown tradeoff relation between the changes for the mean and standard deviation, i.e., the sum of the squares for these quantities cannot exceed certain cost determined by dynamical processes. The cost can be kinetic energy for hydrodynamics, irreversible entropy production rate for thermodynamic processes, energy fluctuations for unitary quantum dynamics, and quantum Fisher information for dissipative quantum dynamics. Our results open an avenue toward a quantitative theory of fluctuation dynamics in various non-equilibrium systems, encompassing quantum many-body systems and nonlinear population dynamics, as well as toward our understanding of how to control them.
翻訳日:2023-09-15 16:46:41 公開日:2023-09-13
# ナノスケール量子センシングのための可視光駆動c-h活性化によるダイヤモンド表面機能化

Diamond Surface Functionalization via Visible Light-Driven C-H Activation for Nanoscale Quantum Sensing ( http://arxiv.org/abs/2309.07354v1 )

ライセンス: Link先を確認
Lila V. H. Rodgers, Suong T. Nguyen, James H. Cox, Kalliope Zervas, Zhiyang Yuan, Sorawis Sangtawesin, Alastair Stacey, Cherno Jaye, Conan Weiland, Anton Pershin, Adam Gali, Lars Thomsen, Simon A. Meynell, Lillian B. Hughes, Ania C. Bleszynski Jayich, Xin Gui, Robert J. Cava, Robert R. Knowles, Nathalie P. de Leon(参考訳) ダイヤモンドの窒素空洞中心は、ナノスケール核磁気共鳴センシングの有望なプラットフォームである。 核スピンを単一のスピンレベルまで検出し、局在させるためにNV中心を使うことへの大きな進歩にもかかわらず、NVベースの個々の、無傷な、任意の標的分子の分光は依然として解明されていない。 NV分子センシングは、長いスピンコヒーレンス時間を持つ数ナノメートルのNV中心に標的分子が固定されることを必要とする。 ダイヤモンドの不活性な性質は、一般的に熱アニールやプラズマ処理のような厳しい機能化技術を必要とし、表面に取り付けられる機能基の範囲を制限する。 溶液相化学法は多様な官能基を配置するために容易に一般化できるが、単結晶ダイヤモンド表面では広く研究されていない。 さらに、長いスピンコヒーレンス時間を持つ浅いnv中心を実現するには、高秩序な単結晶表面が必要であり、溶液相機能化はそのような要求条件と相容れないことが示されている。 本研究では,可視光を用いた単一結晶ダイヤモンド表面上のc-h結合を直接機能化する多用途戦略について報告する。 この関数化法は、表面の10nm以内の電荷安定なNV中心と互換性があり、スピンコヒーレンス時間はその最先端に匹敵する。 原理の証明として、NV中心の浅いアンサンブルを用いて、表面に取り付けられた官能基から核スピンを検出する。 可視光によるC-H結合活性化に基づく表面官能化へのアプローチは,化学センシングと単一分子分光のための幅広いツールとして,NV中心の展開への扉を開く。

Nitrogen-vacancy centers in diamond are a promising platform for nanoscale nuclear magnetic resonance sensing. Despite significant progress towards using NV centers to detect and localize nuclear spins down to the single spin level, NV-based spectroscopy of individual, intact, arbitrary target molecules remains elusive. NV molecular sensing requires that target molecules are immobilized within a few nanometers of NV centers with long spin coherence time. The inert nature of diamond typically requires harsh functionalization techniques such as thermal annealing or plasma processing, limiting the scope of functional groups that can be attached to the surface. Solution-phase chemical methods can be more readily generalized to install diverse functional groups, but they have not been widely explored for single-crystal diamond surfaces. Moreover, realizing shallow NV centers with long spin coherence times requires highly ordered single-crystal surfaces, and solution-phase functionalization has not yet been shown to be compatible with such demanding conditions. In this work, we report a versatile strategy to directly functionalize C-H bonds on single-crystal diamond surfaces under ambient conditions using visible light. This functionalization method is compatible with charge stable NV centers within 10 nm of the surface with spin coherence times comparable to the state of the art. As a proof of principle, we use shallow ensembles of NV centers to detect nuclear spins from functional groups attached to the surface. Our approach to surface functionalization based on visible light-driven C-H bond activation opens the door to deploying NV centers as a broad tool for chemical sensing and single-molecule spectroscopy.
翻訳日:2023-09-15 16:39:14 公開日:2023-09-13
# CLUB-PLSによる画像遺伝学の次元化

Tackling the dimensions in imaging genetics with CLUB-PLS ( http://arxiv.org/abs/2309.07352v1 )

ライセンス: Link先を確認
Andre Altmann, Ana C Lawry Aquila, Neda Jahanshad, Paul M Thompson, Marco Lorenzi(参考訳) 遺伝学と類似分野のイメージングにおける大きな課題は、ある領域の高次元データ(例えば、遺伝データ)を第2領域の高次元データ(例えば、脳画像データ)にリンクすることである。 この領域の標準的なアプローチは、遺伝子因子の大量一変量解析と表現型の画像化である。 これは1つのゲノムワイドアソシエーション研究(gwas)を事前定義されたイメージング指標ごとに実施することを含む。 このアプローチは非常に成功したが、一つの欠点は表現型が事前に定義されなければならないことである。 その結果、選択された関心領域に制限されない効果や、より大きな脳のパターンを反映する効果が容易に見逃される。 本稿では,Cluster-Bootstrap PLS (CLUB-PLS) と呼ぶ,PLS(Partial Least Squares) ベースのフレームワークを紹介する。 フレームワークの重要な要素のひとつは、クラスタブートストラップを使用して、両方のドメインで単一入力機能に対して堅牢な統計を提供することだ。 CLUB-PLSを用いて,英国バイオバンクの33,000名の被験者を対象に,表面積と皮質厚の遺伝的基礎を調べた。 386の異なる遺伝子に結合した107種のゲノムワイドなロクスフェノタイプが発見された。 古典的GWASまたはゲノムワイド推論統計(GWIS)を用いて,85個の座位フェノタイプペアがゲノムワイド・プロジェクティヴ(P<1e-05)の閾値を超えたことを発見した。

A major challenge in imaging genetics and similar fields is to link high-dimensional data in one domain, e.g., genetic data, to high dimensional data in a second domain, e.g., brain imaging data. The standard approach in the area are mass univariate analyses across genetic factors and imaging phenotypes. That entails executing one genome-wide association study (GWAS) for each pre-defined imaging measure. Although this approach has been tremendously successful, one shortcoming is that phenotypes must be pre-defined. Consequently, effects that are not confined to pre-selected regions of interest or that reflect larger brain-wide patterns can easily be missed. In this work we introduce a Partial Least Squares (PLS)-based framework, which we term Cluster-Bootstrap PLS (CLUB-PLS), that can work with large input dimensions in both domains as well as with large sample sizes. One key factor of the framework is to use cluster bootstrap to provide robust statistics for single input features in both domains. We applied CLUB-PLS to investigating the genetic basis of surface area and cortical thickness in a sample of 33,000 subjects from the UK Biobank. We found 107 genome-wide significant locus-phenotype pairs that are linked to 386 different genes. We found that a vast majority of these loci could be technically validated at a high rate: using classic GWAS or Genome-Wide Inferred Statistics (GWIS) we found that 85 locus-phenotype pairs exceeded the genome-wide suggestive (P<1e-05) threshold.
翻訳日:2023-09-15 16:38:45 公開日:2023-09-13
# テイラー展開とスパース分割によるPDEの値とフーリエ領域への効率的な学習

Efficient Learning of PDEs via Taylor Expansion and Sparse Decomposition into Value and Fourier Domains ( http://arxiv.org/abs/2309.07344v1 )

ライセンス: Link先を確認
Md Nasim, Yexiang Xue(参考訳) 実験データから部分微分方程式(PDE)の学習を加速することは、科学的発見のペースを加速させる。 以前のランダム化アルゴリズムは、加速のためのPDE更新の空間性を利用する。 しかし、これらのメソッドは、値領域のスパースな特徴を持つ、限定された分解可能なPDEのクラスに適用できる。 ランダムプロジェクションによるPDEの学習を高速化し,より広い適用性を有するReelを提案する。 リールは値領域と周波数領域の両方で密度の高い更新をスパース領域に分解することでスパーシティを利用する。 この分解によって、更新のソースが、小さな"界面"領域(値領域の疎結合)に集中したいくつかの迅速な更新に加えて、大きな領域(頻度領域の疎結合)で徐々に用語を変更することで、効率的な学習が可能になる。 次にランダムプロジェクションを適用して、スパース信号を圧縮して学習する。 モデル適用性を拡張するために、テイラー級数展開はリールで非線形PDE更新を分解可能な多項式で近似するために用いられる。 理論的には、射影損失関数と射影次元の多対数数を持つ元の関数の間の定数係数近似を求める。 実験により,提案したReelがPDEモデルの高速学習(データ圧縮時のトレーニング時間の70~98%削減)を,非圧縮モデルと同等の品質で実現できることを示す。

Accelerating the learning of Partial Differential Equations (PDEs) from experimental data will speed up the pace of scientific discovery. Previous randomized algorithms exploit sparsity in PDE updates for acceleration. However such methods are applicable to a limited class of decomposable PDEs, which have sparse features in the value domain. We propose Reel, which accelerates the learning of PDEs via random projection and has much broader applicability. Reel exploits the sparsity by decomposing dense updates into sparse ones in both the value and frequency domains. This decomposition enables efficient learning when the source of the updates consists of gradually changing terms across large areas (sparse in the frequency domain) in addition to a few rapid updates concentrated in a small set of "interfacial" regions (sparse in the value domain). Random projection is then applied to compress the sparse signals for learning. To expand the model applicability, Taylor series expansion is used in Reel to approximate the nonlinear PDE updates with polynomials in the decomposable form. Theoretically, we derive a constant factor approximation between the projected loss function and the original one with poly-logarithmic number of projected dimensions. Experimentally, we provide empirical evidence that our proposed Reel can lead to faster learning of PDE models (70-98% reduction in training time when the data is compressed to 1% of its original size) with comparable quality as the non-compressed models.
翻訳日:2023-09-15 16:38:19 公開日:2023-09-13
# 量子貯留層計算による高効率量子リカレント強化学習

Efficient quantum recurrent reinforcement learning via quantum reservoir computing ( http://arxiv.org/abs/2309.07339v1 )

ライセンス: Link先を確認
Samuel Yen-Chi Chen(参考訳) 量子強化学習(QRL)は、経験的量子優位性を示す、シーケンシャルな意思決定タスクを解決するためのフレームワークとして登場した。 注目すべき進展は、部分的に観測可能な環境のようなメモリ集約的なタスクのための量子リカレントニューラルネットワーク(QRNN)を通じてである。 しかし、QRNNの勾配の計算は計算コストも時間もかかるため、QRNNを組み込んだQRLモデルはQRLとQRNNの非効率なトレーニングのような課題に直面している。 本研究は、QRNNベースの貯水池を用いたQRLエージェントの構築、特に量子長短期メモリ(QLSTM)を用いた新しいアプローチを提案する。 QLSTMパラメータはランダムに初期化され、トレーニングなしで固定される。 このモデルは、asynchronous advantage actor-aritic (a3c)アルゴリズムを使ってトレーニングされる。 数値シミュレーションによりQLSTM-Reservoir RLフレームワークの有効性を検証した。 その性能は標準ベンチマークで評価され、完全にトレーニングされたQLSTM RLモデルに匹敵する結果を示している。

Quantum reinforcement learning (QRL) has emerged as a framework to solve sequential decision-making tasks, showcasing empirical quantum advantages. A notable development is through quantum recurrent neural networks (QRNNs) for memory-intensive tasks such as partially observable environments. However, QRL models incorporating QRNN encounter challenges such as inefficient training of QRL with QRNN, given that the computation of gradients in QRNN is both computationally expensive and time-consuming. This work presents a novel approach to address this challenge by constructing QRL agents utilizing QRNN-based reservoirs, specifically employing quantum long short-term memory (QLSTM). QLSTM parameters are randomly initialized and fixed without training. The model is trained using the asynchronous advantage actor-aritic (A3C) algorithm. Through numerical simulations, we validate the efficacy of our QLSTM-Reservoir RL framework. Its performance is assessed on standard benchmarks, demonstrating comparable results to a fully trained QLSTM RL model with identical architecture and training settings.
翻訳日:2023-09-15 16:37:52 公開日:2023-09-13
# RIFLE:低次行列からのインプテーションとロバスト推論

RIFLE: Imputation and Robust Inference from Low Order Marginals ( http://arxiv.org/abs/2109.00644v3 )

ライセンス: Link先を確認
Sina Baharlouei, Kelechi Ogudu, Sze-chuan Suen, Meisam Razaviyayn(参考訳) 実世界のデータセットに欠けている値のユビキタス性は、統計推論の課題となり、同様のデータセットが同じ研究で解析されることを防ぎ、既存の多くのデータセットが新しい分析に使用されることを妨げている。 データインプテーションのためのパッケージやアルゴリズムの膨大なコレクションが開発されているが、多くの欠落した値とサンプルサイズがある場合、圧倒的多数はパフォーマンスが悪く、残念ながら経験的データに共通する特徴である。 このような低精度推定は下流統計モデルの性能に悪影響を及ぼす。 我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。 我々のフレームワーク RIFLE (Robust InFerence via Low-order moment Estimations) は、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。 我々は,線形回帰解析と正規判別分析を専門とし,収束性および性能保証を提供する。 このフレームワークは、欠落したデータに適応することもできる。 数値実験では,RIFLEと最先端の手法(MICE,Amelia,MissForest,KNN-imputer,MIDA,Mean Imputerなど)を比較し,不足値の存在下での計算と推測を行う。 実験の結果,RIFLEは,欠落値の割合が高く,データポイント数が比較的少ない場合には,他のベンチマークアルゴリズムよりも優れていた。 RIFLEはhttps://github.com/optimization-for-data-driven-science/RIFLEで公開されている。

The ubiquity of missing values in real-world datasets poses a challenge for statistical inference and can prevent similar datasets from being analyzed in the same study, precluding many existing datasets from being used for new analyses. While an extensive collection of packages and algorithms have been developed for data imputation, the overwhelming majority perform poorly if there are many missing values and low sample sizes, which are unfortunately common characteristics in empirical data. Such low-accuracy estimations adversely affect the performance of downstream statistical models. We develop a statistical inference framework for regression and classification in the presence of missing data without imputation. Our framework, RIFLE (Robust InFerence via Low-order moment Estimations), estimates low-order moments of the underlying data distribution with corresponding confidence intervals to learn a distributionally robust model. We specialize our framework to linear regression and normal discriminant analysis, and we provide convergence and performance guarantees. This framework can also be adapted to impute missing data. In numerical experiments, we compare RIFLE to several state-of-the-art approaches (including MICE, Amelia, MissForest, KNN-imputer, MIDA, and Mean Imputer) for imputation and inference in the presence of missing values. Our experiments demonstrate that RIFLE outperforms other benchmark algorithms when the percentage of missing values is high and/or when the number of data points is relatively small. RIFLE is publicly available at https://github.com/optimization-for-data-driven-science/RIFLE.
翻訳日:2023-09-14 19:03:13 公開日:2023-09-13
# 意外な人気アルゴリズムとユークリッド距離に基づく適応位相をPSOに組み込む

Incorporating Surprisingly Popular Algorithm and Euclidean Distance-based Adaptive Topology into PSO ( http://arxiv.org/abs/2108.11173v3 )

ライセンス: Link先を確認
Xuan Wu, Jizong Han, Di Wang, Pengyue Gao, Quanlong Cui, Liang Chen, Yanchun Liang, Han Huang, Heow Pueh Lee, Chunyan Miao, You Zhou, and Chunguo Wu(参考訳) 多くのParticle Swarm Optimization (PSO)アルゴリズムは、粒子の性能を評価するためにのみ適合性を用いるが、本研究では、適合性に加えて補足的指標としてSPA(Suprisingly Popular Algorithm)を採用する。 その結果、広く知られていない粒子は、学習例として選択される機会もある。 さらに,spaと協調するためのユークリッド距離に基づく適応トポロジーを提案し,各粒子は各イテレーションにおいて最も短いユークリッド距離を持つk個の粒子にのみ接続する。 また, 適応トポロジを異種集団に導入し, 大規模問題の改善を図る。 特に、探鉱サブ人口は人口の多様性をよりよく保ち、搾取サブ人口は急速に収束する。 したがって、大規模な問題を協調的に解決して全体の性能を高めることができる。 本手法の性能を評価するために,ベンチマークスイート3つと実世界の最適化問題2つを含む様々な最適化問題に関する広範囲な実験を行った。 その結果、ユークリッド距離に基づく適応トポロジは、他の広く採用されているトポロジよりも優れており、また、我々の手法は、小、中、大規模問題における最先端のPSO変種よりもはるかに優れていることが示唆された。

While many Particle Swarm Optimization (PSO) algorithms only use fitness to assess the performance of particles, in this work, we adopt Surprisingly Popular Algorithm (SPA) as a complementary metric in addition to fitness. Consequently, particles that are not widely known also have the opportunity to be selected as the learning exemplars. In addition, we propose a Euclidean distance-based adaptive topology to cooperate with SPA, where each particle only connects to k number of particles with the shortest Euclidean distance during each iteration. We also introduce the adaptive topology into heterogeneous populations to better solve large-scale problems. Specifically, the exploration sub-population better preserves the diversity of the population while the exploitation sub-population achieves fast convergence. Therefore, large-scale problems can be solved in a collaborative manner to elevate the overall performance. To evaluate the performance of our method, we conduct extensive experiments on various optimization problems, including three benchmark suites and two real-world optimization problems. The results demonstrate that our Euclidean distance-based adaptive topology outperforms the other widely adopted topologies and further suggest that our method performs significantly better than state-of-the-art PSO variants on small, medium, and large-scale problems.
翻訳日:2023-09-14 19:02:43 公開日:2023-09-13
# 非負のニューラルネットワークの固定点

Fixed points of nonnegative neural networks ( http://arxiv.org/abs/2106.16239v7 )

ライセンス: Link先を確認
Tomasz J. Piotrowski, Renato L. G. Cavalcante, Mateusz Gabor(参考訳) 非負のベクトルを非負のベクトルにマッピングするニューラルネットワークと定義する非負のニューラルネットワークの解析に不動点理論を用いる。 まず、非負の重みとバイアスを持つ非負のニューラルネットワークは、非線形ペロン・フロベニウス理論の枠組みの中で単調かつ(弱く)スケーラブルな関数として認識できることを示す。 この事実により、同じ次元の入力と出力を持つ非負のニューラルネットワークの固定点の存在条件を提供することができ、これらの条件は凸解析の引数を用いて最近得られた条件よりも弱い。 さらに、非負の重みとバイアスを持つ非負のニューラルネットワークの固定点集合の形状が間隔であり、穏やかな条件下では点に縮退することを示した。 これらの結果は、より一般的な非負のニューラルネットワークの固定点の存在を得るために用いられる。 本研究の結果は, 自動エンコーダの動作の理解に寄与し, 改良国立標準技術研究所(MNIST)データセットを用いた数値シミュレーションにおいて, 主な理論的結果が検証された。

We use fixed point theory to analyze nonnegative neural networks, which we define as neural networks that map nonnegative vectors to nonnegative vectors. We first show that nonnegative neural networks with nonnegative weights and biases can be recognized as monotonic and (weakly) scalable functions within the framework of nonlinear Perron-Frobenius theory. This fact enables us to provide conditions for the existence of fixed points of nonnegative neural networks having inputs and outputs of the same dimension, and these conditions are weaker than those recently obtained using arguments in convex analysis. Furthermore, we prove that the shape of the fixed point set of nonnegative neural networks with nonnegative weights and biases is an interval, which under mild conditions degenerates to a point. These results are then used to obtain the existence of fixed points of more general nonnegative neural networks. From a practical perspective, our results contribute to the understanding of the behavior of autoencoders, and the main theoretical results are verified in numerical simulations using the Modified National Institute of Standards and Technology (MNIST) dataset.
翻訳日:2023-09-14 19:02:13 公開日:2023-09-13
# 神経渦法:有限ラグランジュ粒子から無限次元オイラー力学へ

Neural Vortex Method: from Finite Lagrangian Particles to Infinite Dimensional Eulerian Dynamics ( http://arxiv.org/abs/2006.04178v2 )

ライセンス: Link先を確認
Shiying Xiong, Xingzhe He, Yunjin Tong, Yitong Deng, and Bo Zhu(参考訳) 流体数値解析の分野では、連続流場から離散渦粒子への厳密な数学的ツールの欠如、ラグランジアン粒子の大規模オイラー解法の高分解能継承の回避、といった長年の問題があった。 この課題に対処するために,ラグランジアン渦構造とその相互作用ダイナミクスをニューラルネットワークで記述し,高分解能ユーレリア流れ場を物理的に再現する,新しい学習ベースフレームワークであるNeural Vortex Method (NVM)を提案する。 格子型速度場からラグランジアン渦を識別する渦表現ネットワークと,これらの有限構造の基盤となる支配力学を学習する渦相互作用ネットワークの2つのネットワークから構成される。 これら2つのネットワークを渦対速度ポアソン解法で埋め込んで,高分解能直接数値シミュレーションから得られた高忠実度データを用いてパラメータを訓練することにより,従来の全ての渦解法(CVM)では不可能な精度レベルで正確な流体力学を予測できる。 我々の知る限りでは、この手法は有限粒子の運動を利用して無限次元力学系を学習する最初の方法である。 本研究では, 渦輪系, 乱流系, 外部力の異なるオイラー方程式が支配する系において, 計算コストの低い高精度な予測結果を生成する方法の有効性を実証する。

In the field of fluid numerical analysis, there has been a long-standing problem: lacking of a rigorous mathematical tool to map from a continuous flow field to discrete vortex particles, hurdling the Lagrangian particles from inheriting the high resolution of a large-scale Eulerian solver. To tackle this challenge, we propose a novel learning-based framework, the Neural Vortex Method (NVM), which builds a neural-network description of the Lagrangian vortex structures and their interaction dynamics to reconstruct the high-resolution Eulerian flow field in a physically-precise manner. The key components of our infrastructure consist of two networks: a vortex representation network to identify the Lagrangian vortices from a grid-based velocity field and a vortex interaction network to learn the underlying governing dynamics of these finite structures. By embedding these two networks with a vorticity-to-velocity Poisson solver and training its parameters using the high-fidelity data obtained from high-resolution direct numerical simulation, we can predict the accurate fluid dynamics on a precision level that was infeasible for all the previous conventional vortex methods (CVMs). To the best of our knowledge, our method is the first approach that can utilize motions of finite particles to learn infinite dimensional dynamic systems. We demonstrate the efficacy of our method in generating highly accurate prediction results, with low computational cost, of the leapfrogging vortex rings system, the turbulence system, and the systems governed by Euler equations with different external forces.
翻訳日:2023-09-14 19:01:54 公開日:2023-09-13
# 線を用いた点集合の近接近傍サンプリング

Nearest Neighbor Sampling of Point Sets using Rays ( http://arxiv.org/abs/1911.10737v5 )

ライセンス: Link先を確認
Liangchen Liu, Louis Ly, Colin Macdonald, and Yen-Hsi Richard Tsai(参考訳) ユークリッド空間に埋め込まれた点集合やその他の幾何学的対象の分布のサンプリング・圧縮・解析のための新しい枠組みを提案する。 我々のアプローチはレイセンススケッチと呼ばれるテンソルを構築することを含み、これは光線の集合に沿った点の基底幾何学から最も近い隣人を捉える。 我々はRaySenseのスケッチで実行できる様々な操作を探索し、様々な特性と潜在的な応用をもたらす。 データセットに関する統計的情報は、線集合とは独立してスケッチから抽出することができる。 点集合上の直線積分はスケッチを用いて効率的に計算できる。 また,提案手法の実用シナリオへの適用例をいくつか紹介する。

We propose a new framework for the sampling, compression, and analysis of distributions of point sets and other geometric objects embedded in Euclidean spaces. Our approach involves constructing a tensor called the RaySense sketch, which captures nearest neighbors from the underlying geometry of points along a set of rays. We explore various operations that can be performed on the RaySense sketch, leading to different properties and potential applications. Statistical information about the data set can be extracted from the sketch, independent of the ray set. Line integrals on point sets can be efficiently computed using the sketch. We also present several examples illustrating applications of the proposed strategy in practical scenarios.
翻訳日:2023-09-14 19:01:10 公開日:2023-09-13
# 効率的な畳み込みニューラルネットワークにおける分離可能な畳み込みを加速するための深さ分解

Depth-wise Decomposition for Accelerating Separable Convolutions in Efficient Convolutional Neural Networks ( http://arxiv.org/abs/1910.09455v2 )

ライセンス: Link先を確認
Yihui He, Jianing Qian, Jianren Wang(参考訳) 多くのコンピュータビジョンタスクの主要な手法として、非常に深い畳み込みニューラルネットワーク(CNN)が確立されている。 しかし、ほとんどの最先端CNNは巨大であり、高い推論遅延をもたらす。 近年,ロボットや自動運転車などの限られたプラットフォーム上での画像認識タスクにおいて,奥行き分離可能な畳み込みが提案されている。 通常の畳み込みよりもはるかに速いが、正確さは犠牲になる。 本稿では,SVDに基づく新しい分解手法,すなわち深度分解法を提案し,高精度を維持しつつ,正規畳み込みを深度分離可能な畳み込みに拡張する。 一般化特異値分解(GSVD: Generalized Singular Value Decomposition, GSVD) [59] に基づく多チャンネルおよび多層ケースにさらに一般化できることを示す。 我々は、ランダム合成データセットと大規模画像認識データセットの両方について、最新のShuffleNet V2モデル[47]で徹底的な実験を行う。 我々のアプローチは、すべてのデータセットでチャネル分解[73]を上回ります。 さらに重要なのは、ShuffleNet V2のTop-1精度を約2%向上させることです。

Very deep convolutional neural networks (CNNs) have been firmly established as the primary methods for many computer vision tasks. However, most state-of-the-art CNNs are large, which results in high inference latency. Recently, depth-wise separable convolution has been proposed for image recognition tasks on computationally limited platforms such as robotics and self-driving cars. Though it is much faster than its counterpart, regular convolution, accuracy is sacrificed. In this paper, we propose a novel decomposition approach based on SVD, namely depth-wise decomposition, for expanding regular convolutions into depthwise separable convolutions while maintaining high accuracy. We show our approach can be further generalized to the multi-channel and multi-layer cases, based on Generalized Singular Value Decomposition (GSVD) [59]. We conduct thorough experiments with the latest ShuffleNet V2 model [47] on both random synthesized dataset and a large-scale image recognition dataset: ImageNet [10]. Our approach outperforms channel decomposition [73] on all datasets. More importantly, our approach improves the Top-1 accuracy of ShuffleNet V2 by ~2%.
翻訳日:2023-09-14 19:00:45 公開日:2023-09-13
# 非符号相関を用いたマルチアクセスチャネル符号化

Multiple-Access Channel Coding with Non-Signaling Correlations ( http://arxiv.org/abs/2206.10968v3 )

ライセンス: Link先を確認
Omar Fawzi, Paul Ferm\'e(参考訳) 我々は,従来のマルチアクセスチャネル(MAC)のコーディング問題に,当事者間の非署名相関の助けを借りて対処する。 非シグナリング支援が古典的ポイントツーポイントチャネルの容量を変化させないことはよく知られている。 しかし、最近、ゲームが勝利する確率とMACの容量を関連づけつつ、2人プレイヤの非ローカルゲームからMACを構築することができることが観察された。 エンタングルメントが勝利確率を増加させるゲームを考えると、特定の種類のチャネルに対して、送信者間のエンタングルメントがキャパシティを増加させることを示す。 非符号相関によるMACの容量領域の理解にいくつかの貢献をしている。 我々は,$n$で多項式成長したMAC$W$のコピーを$n$で符号化する最適成功確率を計算する線形プログラムを開発する。 この線形プログラムを解くことでMACの内部境界を達成することができる。 この手法をバイナリ加算器チャネルに適用すると、非シグナリングアシストを用いることで、ゼロエラーでも総和レートが1.5425ドルに達することが示され、非アシストの場合の最大和レート容量は1.5ドルとなる。 ゼロエラー非シグナリング補助容量領域が自明なノイズチャネルでは、連結符号を用いてキャパシティ領域の達成可能な点を得ることができる。 binary adder channelのノイズバージョンに適用すると、ノンシグナリングアシスタンスが依然として合計レート容量を改善することが分かる。 これらの実現可能性の結果を補完することにより、チャネル入力が独立である必要がなければ、アンアシスト領域と同じ表現を持つ非シグナリングアシスト容量領域の外界を与える。 最後に, 送信側と受信側が独立して共有する非署名支援領域は, アシストなしで同じであることを示す。

We address the problem of coding for classical multiple-access channels (MACs) with the assistance of non-signaling correlations between parties. It is well-known that non-signaling assistance does not change the capacity of classical point-to-point channels. However, it was recently observed that one can construct MACs from two-player non-local games while relating the winning probability of the game to the capacity of the MAC. By considering games for which entanglement increases the winning probability, this shows that for some specific kinds of channels, entanglement between the senders can increase the capacity. We make several contributions towards understanding the capacity region for MACs with the assistance of non-signaling correlations. We develop a linear program computing the optimal success probability for coding over $n$ copies of a MAC $W$ with size growing polynomially in $n$. Solving this linear program allows us to achieve inner bounds for MACs. Applying this method to the binary adder channel, we show that using non-signaling assistance, the sum-rate $1.5425$ can be reached even with zero error, which beats the maximum sum-rate capacity of $1.5$ in the unassisted case. For noisy channels, where the zero-error non-signaling assisted capacity region is trivial, we can use concatenated codes to obtain achievable points in the capacity region. Applied to a noisy version of the binary adder channel, we show that non-signaling assistance still improves the sum-rate capacity. Complementing these achievability results, we give an outer bound on the non-signaling assisted capacity region that has the same expression as the unassisted region except that the channel inputs are not required to be independent. Finally, we show that the capacity region with non-signaling assistance shared only between each sender and the receiver independently is the same as without assistance.
翻訳日:2023-09-14 18:55:24 公開日:2023-09-13
# 非局所性を示す物質波ラリティータッパー干渉計

A matter wave Rarity-Tapster interferometer to demonstrate non-locality ( http://arxiv.org/abs/2206.08560v3 )

ライセンス: Link先を確認
Kieran F. Thomas, Bryce M. Henson, Yu Wang, Robert J. Lewis-Swan, Karen V. Kheruntsyan, Sean S. Hodgman, Andrew G. Truscott(参考訳) 本稿では, ヘリウムボース-アインシュタイン凝縮体を共役させた2ドルの散乱ハローを用いたRarity-Tapster干渉計を用いて, 物質波系における量子非局所性を示す実験的なアプローチを提案する。 本手法の理論的基礎を論じ,その適合性を実験的に定量化する。 概念の証明として、ベル不等式(英語版)のクロージャ・ホーン・シモニー・ホルト(英語版)(chsh)バージョンに対して最大 cshs-ベルパラメータが$s=1.1(1)$ に対応する、v=0.42(9)$ の干渉可視性を、$\sim 4$ の相関長で分離した原子間で実証する。 これは、巨大粒子の運動自由度に対するベルの不等式違反の実証と、重力に敏感な系における量子効果の測定への重要な一歩である。

We present an experimentally viable approach to demonstrating quantum non-locality in a matter wave system via a Rarity-Tapster interferometer using two $s$-wave scattering halos generated by colliding helium Bose-Einstein condensates. The theoretical basis for this method is discussed, and its suitability is experimentally quantified. As a proof of concept, we demonstrate an interferometric visibility of $V=0.42(9)$, corresponding to a maximum CSHS-Bell parameter of $S=1.1(1)$, for the Clauser-Horne-Shimony-Holt (CHSH) version of the Bell inequality, between atoms separated by $\sim 4$ correlation lengths. This constitutes a significant step towards a demonstration of a Bell inequality violation for motional degrees of freedom of massive particles and possible measurements of quantum effects in a gravitationally sensitive system.
翻訳日:2023-09-14 18:54:54 公開日:2023-09-13
# Perseus: 変分不等式に対する単純かつ最適高次法

Perseus: A Simple and Optimal High-Order Method for Variational Inequalities ( http://arxiv.org/abs/2205.03202v5 )

ライセンス: Link先を確認
Tianyi Lin and Michael. I. Jordan(参考訳) 本稿では、スムーズかつ単調な変分不等式(VIs)を解くための単純で最適な高次法の設計に関するオープンで挑戦的な問題を解決する。 VI は$x^\star \in \mathcal{X}$ を$\langle F(x), x - x^\star\rangle \geq 0$ とする。 我々は、$f$が最大$(p-1)^{th}$次微分を持つ滑らかな設定を考える。 p = 2$ の場合、立方体正規化ニュートン法を vis に拡張し、グローバルレートは $o(\epsilon^{-1})$ である。 改良された$O(\epsilon^{-2/3}\log\log(1/\epsilon))$は、代替の2階法によって得ることができるが、この方法は内部ループとして非自明な線探索手順を必要とする。 同様に、行探索手順に基づく高階法では、$o(\epsilon^{-2/(p+1)}\log\log(1/\epsilon))$となることが示されている。 しかし、Nesterovが強調したように、このような手順は必ずしも大規模アプリケーションに実用的な適用性を示すものではなく、より複雑な手法の最適性を保った単純な高階VI法でこれらの結果を補完することが望ましい。 我々は、$O(\epsilon^{-2/(p+1)})$の速度で、行探索手順を必要とせず、確実に弱解に収束する、$p^{th}$-order法を提案する。 p^{th}$-次法は一般線形スパン仮定の下で一致した下界を確立することによって単調設定において最適であることを示す。 本手法は,滑らかかつ厳密な単調visに対する線形率と,滑らかで強い単調visに対する局所超線形率を達成する。 また,Minty条件を満たすスムーズかつ非モノトン VI の解法として約$O(\epsilon^{-2/p})$のグローバルレートを達成し,再起動時に厳密かつ強いMinty条件を満たすスムーズかつ非モノトン VI に対して大域的線形および局所超線形レートを達成する。

This paper settles an open and challenging question pertaining to the design of simple and optimal high-order methods for solving smooth and monotone variational inequalities (VIs). A VI involves finding $x^\star \in \mathcal{X}$ such that $\langle F(x), x - x^\star\rangle \geq 0$ for all $x \in \mathcal{X}$. We consider the setting in which $F$ is smooth with up to $(p-1)^{th}$-order derivatives. For $p = 2$, the cubic regularized Newton method was extended to VIs with a global rate of $O(\epsilon^{-1})$. An improved rate of $O(\epsilon^{-2/3}\log\log(1/\epsilon))$ can be obtained via an alternative second-order method, but this method requires a nontrivial line-search procedure as an inner loop. Similarly, high-order methods based on line-search procedures have been shown to achieve a rate of $O(\epsilon^{-2/(p+1)}\log\log(1/\epsilon))$. As emphasized by Nesterov, however, such procedures do not necessarily imply practical applicability in large-scale applications, and it would be desirable to complement these results with a simple high-order VI method that retains the optimality of the more complex methods. We propose a $p^{th}$-order method that does \textit{not} require any line search procedure and provably converges to a weak solution at a rate of $O(\epsilon^{-2/(p+1)})$. We prove that our $p^{th}$-order method is optimal in the monotone setting by establishing a matching lower bound under a generalized linear span assumption. Our method with restarting attains a linear rate for smooth and strictly monotone VIs and a local superlinear rate for smooth and strongly monotone VIs. Our method also achieves a global rate of $O(\epsilon^{-2/p})$ for solving smooth and nonmonotone VIs satisfying the Minty condition and when augmented with restarting it attains a global linear and local superlinear rate for smooth and nonmonotone VIs satisfying the strictly/strong Minty condition.
翻訳日:2023-09-14 18:54:19 公開日:2023-09-13
# 大規模マルチビューRGBDビジュアルアプライアンス学習データセット

A large scale multi-view RGBD visual affordance learning dataset ( http://arxiv.org/abs/2203.14092v3 )

ライセンス: Link先を確認
Zeyad Khalifa, Syed Afaq Ali Shah(参考訳) 物体の物理的およびテクスチュラルな属性は、コンピュータビジョンにおける認識、検出、セグメンテーションタスクのために広く研究されている。 ~大規模イメージネットなどのデータセットは,深層ニューラルネットワークを用いた特徴学習や,手作りの特徴抽出のために提案されている。 オブジェクトとインテリジェントに対話するには、ロボットやインテリジェントマシンは、従来の物理的/テクスチャ的属性を超えて推測し、視覚的手当と呼ばれる視覚的な手掛かりを理解して学習し、手頃な認識、検出、セグメンテーションを行う能力が必要です。 現在、視覚的余裕の理解と学習のための大規模なデータセットは公開されていない。 本稿では,37の対象カテゴリから4710のrgbd画像を対象に,15の視覚対応カテゴリを付記した,大規模多視点rgbdビジュアルアフォーアンス学習データセットを提案する。 私たちの知る限りでは、これは初めての、そして最大のマルチビューのrgbdビジュアルアプライアンス学習データセットです。 我々は、一般的な視覚変換器と畳み込みニューラルネットワークを用いて、割当セグメンテーションと認識タスクのためのデータセットをベンチマークする。 いくつかの最先端のディープラーニングネットワークを,それぞれが可視性認識とセグメンテーションタスクのために評価する。 実験結果は,データセットの難解な性質を示し,新しいロバストでロバストな学習アルゴリズムの可能性を示す。 データセットはhttps://sites.google.com/view/afaqshah/datasetで公開されている。

The physical and textural attributes of objects have been widely studied for recognition, detection and segmentation tasks in computer vision.~A number of datasets, such as large scale ImageNet, have been proposed for feature learning using data hungry deep neural networks and for hand-crafted feature extraction. To intelligently interact with objects, robots and intelligent machines need the ability to infer beyond the traditional physical/textural attributes, and understand/learn visual cues, called visual affordances, for affordance recognition, detection and segmentation. To date there is no publicly available large dataset for visual affordance understanding and learning. In this paper, we introduce a large scale multi-view RGBD visual affordance learning dataset, a benchmark of 47210 RGBD images from 37 object categories, annotated with 15 visual affordance categories. To the best of our knowledge, this is the first ever and the largest multi-view RGBD visual affordance learning dataset. We benchmark the proposed dataset for affordance segmentation and recognition tasks using popular Vision Transformer and Convolutional Neural Networks. Several state-of-the-art deep learning networks are evaluated each for affordance recognition and segmentation tasks. Our experimental results showcase the challenging nature of the dataset and present definite prospects for new and robust affordance learning algorithms. The dataset is publicly available at https://sites.google.com/view/afaqshah/dataset.
翻訳日:2023-09-14 18:53:32 公開日:2023-09-13
# 地域性のための取引因果順序

Trading causal order for locality ( http://arxiv.org/abs/2202.00440v4 )

ライセンス: Link先を確認
Ravi Kunjwal, \"Amin Baumeler(参考訳) 量子論は、絡み合いのない量子非局所性のアンサンブル(QNLWE)を認める。 これらのアンサンブルは、ローカル操作と古典通信(LOCC)と完全に区別できない古典的な状態(それらは完全に区別可能で非絡み合いである)で構成されている。 本稿では、因果的観点からQNLWEを分析し、因果的順序を定めることなく、局所的な操作や古典的なコミュニケーションを用いて、これらのアンサンブルの完全な識別方法を示す。 具体的には、不定因果順序のインスタンスにアクセスする3つの当事者 - af/bwプロセス - がqnlweアンサンブルで状態を完全に判別できる - シフトアンサンブル - をローカル操作と組み合わせる。 したがって、この種の量子非局所性は、古典的な通信を維持しながら明確な因果順序を犠牲にして消滅する。 その結果,LOCCは局所的操作,古典的コミュニケーション,明確な因果順序という3つの制約の組合せであることがわかった。 さらに, AF/BWプロセスのマルチパーティタイト一般化がQNLWEを示すマルチキュービットアンサンブルにどのように変換されるかを示す。 このようなアンサンブルは、暗号プロトコルやLOCCで達成できない分離可能な量子演算の研究には独立した関心がある。

Quantum theory admits ensembles of quantum nonlocality without entanglement (QNLWE). These ensembles consist of seemingly classical states (they are perfectly distinguishable and non-entangled) that cannot be perfectly discriminated with local operations and classical communication (LOCC). Here, we analyze QNLWE from a causal perspective, and show how to perfectly discriminate some of these ensembles using local operations and classical communication without definite causal order. Specifically, three parties with access to an instance of indefinite causal order-the AF/BW process-can perfectly discriminate the states in a QNLWE ensemble--the SHIFT ensemble--with local operations. Hence, this type of quantum nonlocality disappears at the expense of definite causal order while retaining classical communication. Our results thereby leverage the fact that LOCC is a conjunction of three constraints: local operations, classical communication, and definite causal order. Moreover, we show how multipartite generalizations of the AF/BW process are transformed into multiqubit ensembles that exhibit QNLWE. Such ensembles are of independent interest for cryptographic protocols and for the study of separable quantum operations unachievable with LOCC.
翻訳日:2023-09-14 18:52:18 公開日:2023-09-13
# クラウドソーシングのためのWorker-Task特化モデル:効率的な推論と基本限界

A Worker-Task Specialization Model for Crowdsourcing: Efficient Inference and Fundamental Limits ( http://arxiv.org/abs/2111.12550v3 )

ライセンス: Link先を確認
Doyeon Kim, Jeonghwan Lee and Hye Won Chung(参考訳) クラウドソーシングシステムは、非熟練労働者を使って比較的低コストでデータをラベル付けするための効果的なプラットフォームとして登場した。 データに対する複数のノイズの多い回答から正しいラベルを推測することは難しい問題であり、回答の質はタスクやワーカーによって大きく異なる。 多くの既存の研究は、労働者のスキルレベルには一定の順序があると考えており、異なる重みを持つ労働者の回答を集約する労働者スキルの推定に重点を置いている。 しかし、実際には、特にタスクが異質である場合、ワーカースキルはタスク間で大きく変化する。 本稿では、各タスクとワーカーがそれぞれ独自の(未知の)タイプを持ち、各ワーカーの信頼性が与えられたタスクのタイプとワーカーのタイプによって異なる新しいモデルである$d$-type Specializationモデルについて考察する。 私たちは、$d$の型がタスクの数でスケールできることを許します。 本モデルでは,任意の精度でラベルを正しく推測するために最適なサンプル複雑性を特徴付け,タスクの種類や作業者の種類が不明な場合でも順序方向の最適限界を達成するラベル推論アルゴリズムを提案する。 我々は、合成データと実データの両方で実験を行い、より厳密なモデル仮定に基づいて開発した既存のアルゴリズムよりもアルゴリズムが優れていることを示す。

Crowdsourcing system has emerged as an effective platform for labeling data with relatively low cost by using non-expert workers. Inferring correct labels from multiple noisy answers on data, however, has been a challenging problem, since the quality of the answers varies widely across tasks and workers. Many existing works have assumed that there is a fixed ordering of workers in terms of their skill levels, and focused on estimating worker skills to aggregate the answers from workers with different weights. In practice, however, the worker skill changes widely across tasks, especially when the tasks are heterogeneous. In this paper, we consider a new model, called $d$-type specialization model, in which each task and worker has its own (unknown) type and the reliability of each worker can vary in the type of a given task and that of a worker. We allow that the number $d$ of types can scale in the number of tasks. In this model, we characterize the optimal sample complexity to correctly infer the labels within any given accuracy, and propose label inference algorithms achieving the order-wise optimal limit even when the types of tasks or those of workers are unknown. We conduct experiments both on synthetic and real datasets, and show that our algorithm outperforms the existing algorithms developed based on more strict model assumptions.
翻訳日:2023-09-14 18:51:56 公開日:2023-09-13
# 密度グラフとスパースグラフを用いたグラフニューラルネットワークのスペクトル解析

A Spectral Analysis of Graph Neural Networks on Dense and Sparse Graphs ( http://arxiv.org/abs/2211.03231v3 )

ライセンス: Link先を確認
Luana Ruiz, Ningyuan Huang, Soledad Villar(参考訳) 本研究では、異なるレベルのスパーシティでグラフを生成できるランダムグラフモデルを提案する。 そこで我々は,グラフスペクトルの空間分布がグラフスペクトルに与える影響を解析し,グラフニューラルネットワーク(GNN)のノード分類における性能について検討した。 我々は,gnnとスペクトル法を比較し,密集グラフ上でのコミュニティ検出のための一貫した推定器を提供することが知られている。 GNNはスパースグラフのスペクトル法よりも優れており、これらの結果を合成グラフと実グラフの両方で数値例で示すことができる。

In this work we propose a random graph model that can produce graphs at different levels of sparsity. We analyze how sparsity affects the graph spectra, and thus the performance of graph neural networks (GNNs) in node classification on dense and sparse graphs. We compare GNNs with spectral methods known to provide consistent estimators for community detection on dense graphs, a closely related task. We show that GNNs can outperform spectral methods on sparse graphs, and illustrate these results with numerical examples on both synthetic and real graphs.
翻訳日:2023-09-14 18:42:43 公開日:2023-09-13
# 生成ビデオキャプションからのイベントとエンティティ抽出

Event and Entity Extraction from Generated Video Captions ( http://arxiv.org/abs/2211.02982v3 )

ライセンス: Link先を確認
Johannes Scherer and Ansgar Scherp and Deepayan Bhowmik(参考訳) 人間によるマルチメディアデータのアノテーションは時間がかかり費用がかかるが、セマンティックメタデータの自動生成は大きな課題である。 自動生成ビデオキャプションから意味メタデータを抽出するフレームワークを提案する。 メタデータとして、エンティティ、エンティティのプロパティ、エンティティ間の関係、およびビデオカテゴリを考える。 我々は2つの最先端の高密度ビデオキャプションモデルとマスク変換器(MT)と並列デコード(PVDC)を用いて、ActivityNet Captionsデータセットのビデオキャプションを生成する。 実験の結果,生成したキャプションから,エンティティ,その特性,エンティティ間の関係,ビデオカテゴリを抽出できることが確認された。 抽出された情報の品質は,映像中のイベントローカライゼーションの質や,イベントキャプション生成の性能に主に影響していると考えられる。

Annotation of multimedia data by humans is time-consuming and costly, while reliable automatic generation of semantic metadata is a major challenge. We propose a framework to extract semantic metadata from automatically generated video captions. As metadata, we consider entities, the entities' properties, relations between entities, and the video category. We employ two state-of-the-art dense video captioning models with masked transformer (MT) and parallel decoding (PVDC) to generate captions for videos of the ActivityNet Captions dataset. Our experiments show that it is possible to extract entities, their properties, relations between entities, and the video category from the generated captions. We observe that the quality of the extracted information is mainly influenced by the quality of the event localization in the video as well as the performance of the event caption generation.
翻訳日:2023-09-14 18:42:23 公開日:2023-09-13
# 直接光子計測によるガウス状態量子照明の境界

Bound for Gaussian-state Quantum illumination using direct photon measurement ( http://arxiv.org/abs/2210.01471v3 )

ライセンス: Link先を確認
Su-Yong Lee, Dong Hwan Kim, Yonggi Jo, Taek Jeong, Duk Y. Kim, and Zaeill Kim(参考訳) 量子情報プロトコルの可能な測定境界を見つけることが重要である。 オンオフ検出や光子数解法(PNR)検出において,ガウス状態を用いた量子照明のための解析的境界を示し,その性能を信号対雑音比で評価する。 まず、一致計数測定において、コヒーレント状態および古典的相関熱(cct)状態を上回る2モード圧縮真空(tmsv)状態により、最適性能が与えられる。 しかし、コヒーレント状態は、オンオフ検出時に信号平均光子数を増加させてTMSV状態に打ち勝つことができる。 第2に、非検出イベントを含む全ての計数確率のフィッシャー情報アプローチにより、性能の向上を図る。 Fisher情報アプローチでは、TMSV状態は依然として最高の性能を示すが、CCT状態は、オンオフ検出時に信号平均光子数を増加させてTMSV状態に打ち勝つことができる。 さらに,信号モードのPNR検出とアイドラーモードのオンオフ検出を両モードのPNR検出と同様の性能に到達させることが有用であることを示す。

It is important to find feasible measurement bounds for quantum information protocols. We present analytic bounds for quantum illumination with Gaussian states when using an on-off detection or a photon number resolving (PNR) detection, where its performance is evaluated with signal-to-noise ratio. First, for coincidence counting measurement, the best performance is given by the two-mode squeezed vacuum (TMSV) state which outperforms the coherent state and the classically correlated thermal (CCT) state. However, the coherent state can beat the TMSV state with increasing signal mean photon number in the case of the on-off detection. Second, the performance is enhanced by taking Fisher information approach of all counting probabilities including non-detection events. In the Fisher information approach, the TMSV state still presents the best performance but the CCT state can beat the TMSV state with increasing signal mean photon number in the case of the on-off detection. Furthermore, we show that it is useful to take the PNR detection on the signal mode and the on-off detection on the idler mode, which reaches similar performance of using PNR detections on both modes.
翻訳日:2023-09-14 18:42:08 公開日:2023-09-13
# 共生創造への道

Pathway to Future Symbiotic Creativity ( http://arxiv.org/abs/2209.02388v2 )

ライセンス: Link先を確認
Yike Guo, Qifeng Liu, Jie Chen, Wei Xue, Jie Fu, Henrik Jensen, Fernando Rosas, Jeffrey Shaw, Xing Wu, Jiji Zhang, Jianliang Xu(参考訳) 本報告は,人間-機械共生的アート創造の展開経路に関する我々のビジョンを包括的にとらえたものである。 5階級の階層を持つ創造的システムの分類を提案し,模倣的人間的アーティスト(チューリングアーティスト)から機械的アーティストへの創造的進化の経路を示す。 まず、チューリングアーティストの限界の概要から始め、トップ2レベルのシステム、マシンアーティストに焦点を当て、アート創造における機械と人間のコミュニケーションを強調します。 芸術創造においては、機械は欲求、感謝、感情を含む人間の精神状態を理解する必要があるが、機械の創造的能力と限界も理解する必要がある。 没入的環境の急速な発展とメタバースの新しい概念へのさらなる進化は、芸術家と芸術表現環境の間の双方向コミュニケーションの先例のない柔軟性を通じて共生的な芸術創造を可能にする。 最新のセンサとXR技術を調べることで、アートデータ収集が人間と機械の双方向通信と芸術創造の理解の新しい形態の基礎を構成する新しい方法を説明する。 このようなコミュニケーションと理解のメカニズムに基づき,従来の「エンド・ツー・エンド」のドグマではなく,人間互換のAIシステムが「ヒューマン・イン・ザ・ループ」の原則に基づいているべきだという考え方を取り入れた,未来のマシーンアーティストを構築するための新しいフレームワークを提案する。 逆強化学習モデルの新たな形式を提案することで,機械アーチストのプラットフォーム設計を概説し,その機能を示すとともに,私たちが開発してきた技術の例を示す。 また、NFT技術に基づく経済モデルを用いて、AIベースの共生アートフォームとコミュニティのためのエコシステムを体系的に展示する。 機械アーチストの発展に関する倫理的問題についても論じる。

This report presents a comprehensive view of our vision on the development path of the human-machine symbiotic art creation. We propose a classification of the creative system with a hierarchy of 5 classes, showing the pathway of creativity evolving from a mimic-human artist (Turing Artists) to a Machine artist in its own right. We begin with an overview of the limitations of the Turing Artists then focus on the top two-level systems, Machine Artists, emphasizing machine-human communication in art creation. In art creation, it is necessary for machines to understand humans' mental states, including desires, appreciation, and emotions, humans also need to understand machines' creative capabilities and limitations. The rapid development of immersive environment and further evolution into the new concept of metaverse enable symbiotic art creation through unprecedented flexibility of bi-directional communication between artists and art manifestation environments. By examining the latest sensor and XR technologies, we illustrate the novel way for art data collection to constitute the base of a new form of human-machine bidirectional communication and understanding in art creation. Based on such communication and understanding mechanisms, we propose a novel framework for building future Machine artists, which comes with the philosophy that a human-compatible AI system should be based on the "human-in-the-loop" principle rather than the traditional "end-to-end" dogma. By proposing a new form of inverse reinforcement learning model, we outline the platform design of machine artists, demonstrate its functions and showcase some examples of technologies we have developed. We also provide a systematic exposition of the ecosystem for AI-based symbiotic art form and community with an economic model built on NFT technology. Ethical issues for the development of machine artists are also discussed.
翻訳日:2023-09-14 18:41:48 公開日:2023-09-13
# 分子の相関電子構造に対する最適実空間軌道の直接決定

Direct determination of optimal real-space orbitals for correlated electronic structure of molecules ( http://arxiv.org/abs/2207.10841v3 )

ライセンス: Link先を確認
Edward F. Valeev, Robert J. Harrison. Adam A. Holmes, Charles C. Peterson, and Deborah A. Penchoff(参考訳) エネルギーラグランジアンの最小化により、原子や分子の任意の(相関)状態のエネルギーを評価するのに最適な数値的にほぼ完全に正規直交軌道を決定する方法を示す。 軌道は、ユーザーが特定した目標精度を達成するために適応的に洗練されたマルチレゾリューションスペクトル要素基底を用いて実空間で表現され、伝統的に分子電子構造の相関モデルに使用されるao基底集合展開を悩ませる悪条件問題を回避している。 光原子の場合、軌道ソルバは変分電子構造モデル(選択された構成相互作用(CI))とともに、最先端の原子CIソルバと同等の精度のエネルギーを提供する。 計算された原子や分子の電子エネルギーは、同じランクのガウスao基数で得られるものよりもかなり正確であり、線形依存の問題がao基数の使用を妨げる場合であっても決定可能である。 単一のコンピュータノード上で100以上の完全相関数値軌道を最適化することは可能であり、さらなる改善のために重要な空間が存在する。 これらの結果は、分子や物質の相関電子状態のハイエンドモデルに対するAO表現の代替として、実空間軌道表現が好ましいことを示唆している。

We demonstrate how to determine numerically nearly exact orthonormal orbitals that are optimal for evaluation of the energy of arbitrary (correlated) states of atoms and molecules by minimization of the energy Lagrangian. Orbitals are expressed in real space using a multiresolution spectral element basis that is refined adaptively to achieve the user-specified target precision while avoiding the ill-conditioning issues that plague AO basis set expansions traditionally used for correlated models of molecular electronic structure. For light atoms, the orbital solver, in conjunction with a variational electronic structure model [selected Configuration Interaction(CI)] provides energies of comparable precision to a state-of-the-art atomic CI solver. The computed electronic energies of atoms and molecules are significantly more accurate than the counterparts obtained with the Gaussian AO bases of the same rank, and can be determined even when linear dependence issues preclude the use of the AO bases. It is feasible to optimize more than 100 fully-correlated numerical orbitals on a single computer node, and significant room exists for additional improvement. These findings suggest that the real-space orbital representations might be the preferred alternative to AO representations for high-end models of correlated electronic states of molecules and materials.
翻訳日:2023-09-14 18:40:41 公開日:2023-09-13
# 連続測定による自由フェルミオン気体のケルディッシュ非線形シグマモデル

Keldysh Nonlinear Sigma Model for a Free-Fermion Gas under Continuous Measurements ( http://arxiv.org/abs/2207.03376v4 )

ライセンス: Link先を確認
Qinghong Yang, Yi Zuo, Dong E. Liu(参考訳) 量子絡み合い相転移は、量子多体ダイナミクスに新たな洞察をもたらした。 障害と測定の両方が、同様の絡み合い遷移を引き起こす。 ここでは,これら二つの概念を統一し,それらの内部接続を開示する理論的枠組みを提案する。 具体的には,連続射影計測対象のd$-dimension free-fermionガスを解析的に解析する。 リンドブラッドマスター方程式を関数的ケルディシュ場理論にマッピングすることにより、時間局所ケディシュ非線形シグマモデルと呼ばれる実効理論を開発し、モニタリングされたシステムの物理を解析的に記述することができる。 我々の有効理論は、乱れたフェルミオン系を記述するために使われる理論に似ている。 有効理論の応用として, 弾性散乱時間を逆測定強度に置き換えた輸送特性について検討し, ドリュー形状の導電率を求める。 これらの類似性により、2つの異なる概念、測定と障害は、同じ理論的枠組みで統一される。 また,我々の理論と予測の数値検証を行った。

Quantum entanglement phase transitions have provided new insights to quantum many-body dynamics. Both disorders and measurements are found to induce similar entanglement transitions. Here, we provide a theoretical framework that unifies these two seemingly disparate concepts and discloses their internal connections. Specifically, we analytically analyze a $d$-dimension free-fermion gas subject to continuous projective measurements. By mapping the Lindblad master equation to the functional Keldysh field theory, we develop an effective theory termed as the time-local Keldysh nonlinear sigma model, which enables us to analytically describe the physics of the monitored system. Our effective theory resembles to that used to describe the disordered fermionic systems. As an application of the effective theory, we study the transport property and obtain a Drude-form conductivity where the elastic scattering time is replaced by the inverse measurement strength. According to these similarities, two different concepts, measurements and disorders, are unified in the same theoretical framework. A numerical verification of our theory and predictions is also provided.
翻訳日:2023-09-14 18:39:56 公開日:2023-09-13
# イメージ内の認知的バックドアパターンの蒸留

Distilling Cognitive Backdoor Patterns within an Image ( http://arxiv.org/abs/2301.10908v4 )

ライセンス: Link先を確認
Hanxun Huang, Xingjun Ma, Sarah Erfani, James Bailey(参考訳) 本稿では,画像中のバックドアパターンを簡易に蒸留・検出する手法である \emph{cognitive distillation} (cd)を提案する。 そのアイデアは、モデルの予測に責任を持つ入力画像から「最小本質」を抽出することである。 CDは入力マスクを最適化し、入力画像から同じモデル出力(例えば、ロジットや深い特徴)につながる小さなパターンを抽出する。 抽出されたパターンは、クリーン対バックドア画像におけるモデルの認知メカニズムを理解するのに役立ち、これを \emph{cognitive pattern} (cp) と呼ぶ。 cdと蒸留したcpsを使用することで、バックドア攻撃の興味深い現象が明らかになる。異なる攻撃で使われるトリガーパターンの形態やサイズにもかかわらず、バックドアサンプルのcpsは驚くほど小さく、疑わしいほど小さい。 これにより、学習されたマスクを利用して、有毒なトレーニングデータセットからバックドアの例を検出し、取り除くことができる。 我々は広範囲な実験を行い、CDが広範囲の高度なバックドア攻撃を確実に検出できることを示す。 また、顔のデータセットから潜在的なバイアスを検出するためにCDを適用できることも示しています。 コードは \url{https://github.com/hanxunh/cognitivedistillation} で入手できる。

This paper proposes a simple method to distill and detect backdoor patterns within an image: \emph{Cognitive Distillation} (CD). The idea is to extract the "minimal essence" from an input image responsible for the model's prediction. CD optimizes an input mask to extract a small pattern from the input image that can lead to the same model output (i.e., logits or deep features). The extracted pattern can help understand the cognitive mechanism of a model on clean vs. backdoor images and is thus called a \emph{Cognitive Pattern} (CP). Using CD and the distilled CPs, we uncover an interesting phenomenon of backdoor attacks: despite the various forms and sizes of trigger patterns used by different attacks, the CPs of backdoor samples are all surprisingly and suspiciously small. One thus can leverage the learned mask to detect and remove backdoor examples from poisoned training datasets. We conduct extensive experiments to show that CD can robustly detect a wide range of advanced backdoor attacks. We also show that CD can potentially be applied to help detect potential biases from face datasets. Code is available at \url{https://github.com/HanxunH/CognitiveDistillation}.
翻訳日:2023-09-14 18:34:24 公開日:2023-09-13
# TMSA:空間アライメントによる任意テキスト駆動画像操作を目指して

TMSA: Towards Arbitrary Text-driven Image Manipulation via Space Alignment ( http://arxiv.org/abs/2301.10670v2 )

ライセンス: Link先を確認
Yunpeng Bai, Zihan Zhong, Chao Dong, Weichen Zhang, Guowei Xu, Chun Yuan(参考訳) 最近のGANインバージョン法は、StyleGANの対応する編集可能な潜在コードに実際の画像入力を反転させることに成功した。 言語ビジョンモデル(CLIP)と組み合わせることで,テキストによる画像操作手法を提案する。 しかし、これらの方法は特定の画像や新しい属性編集モードの最適化に余分なコストを必要とする。 より効率的な編集手法を実現するために,スペースアライメント (TMSA) を用いたテキスト駆動型画像マニピュレーションフレームワークを提案する。 Space Alignmentモジュールは、CLIPとStyleGAN空間で同じセマンティック領域を調整することを目的としている。 そして、テキスト入力をスタイルガン空間に直接アクセスし、テキスト記述に従って意味的シフトを見つけるために使用できる。 このフレームワークは、追加コストなしで任意の画像編集モードをサポートできる。 本研究は,画像の属性をテキスト入力に応じて制御し,結果をリアルタイムで取得するインタフェースをユーザに提供する。 過剰な実験は、これまでの作業よりも優れたパフォーマンスを示します。

The recent GAN inversion methods have been able to successfully invert the real image input to the corresponding editable latent code in StyleGAN. By combining with the language-vision model (CLIP), some text-driven image manipulation methods are proposed. However, these methods require extra costs to perform optimization for a certain image or a new attribute editing mode. To achieve a more efficient editing method, we propose a new Text-driven image Manipulation framework via Space Alignment (TMSA). The Space Alignment module aims to align the same semantic regions in CLIP and StyleGAN spaces. Then, the text input can be directly accessed into the StyleGAN space and be used to find the semantic shift according to the text description. The framework can support arbitrary image editing mode without additional cost. Our work provides the user with an interface to control the attributes of a given image according to text input and get the result in real time. Ex tensive experiments demonstrate our superior performance over prior works.
翻訳日:2023-09-14 18:34:03 公開日:2023-09-13
# Knockoffs-SPR: ノイズラベルによる学習におけるクリーンサンプル選択

Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels ( http://arxiv.org/abs/2301.00545v3 )

ライセンス: Link先を確認
Yikai Wang, Yanwei Fu, and Xinwei Sun(参考訳) ノイズの多いトレーニングセットは通常、ニューラルネットワークの一般化と堅牢性の低下につながる。 本稿では,ノイズラベルを用いた学習のための新しいクリーンサンプル選択フレームワークを提案する。 具体的には,ネットワーク特徴量と1ホットラベルとの線形関係をモデル化するために,まずSPR(Scalable Penalized Regression)法を提案する。 SPRでは、クリーンデータは回帰モデルで解決されたゼロ平均シフトパラメータによって識別される。 理論的には、SPRはいくつかの条件下でクリーンなデータを復元できることを示す。 一般的なシナリオでは、条件はもはや満たされず、一部のノイズデータは誤ってクリーンデータとして選択される。 この問題を解決するために,選択したクリーンデータ中のFalse-Selection-Rate(FSR)を制御可能なKnockoffフィルタ(Knockoffs-SPR)を用いたスケーラブルなペナル化回帰法を提案する。 効率を改善するために、トレーニングセット全体を小さな断片に分割して、フレームワークを大規模データセットにスケーラブルにするために並列に解決できる分割アルゴリズムを提案する。 knockoffs-sprは標準教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができるが、半教師付きアルゴリズムと組み合わせることで、ノイズデータのサポートをラベルなしデータとして活用する。 いくつかのベンチマークデータセットと実世界のノイズデータセットの実験結果から、フレームワークの有効性を示し、Knockoffs-SPRの理論的結果を検証する。 私たちのコードと事前トレーニングされたモデルは、https://github.com/yikai-wang/knockoffs-sprで利用可能です。

A noisy training set usually leads to the degradation of the generalization and robustness of neural networks. In this paper, we propose a novel theoretically guaranteed clean sample selection framework for learning with noisy labels. Specifically, we first present a Scalable Penalized Regression (SPR) method, to model the linear relation between network features and one-hot labels. In SPR, the clean data are identified by the zero mean-shift parameters solved in the regression model. We theoretically show that SPR can recover clean data under some conditions. Under general scenarios, the conditions may be no longer satisfied; and some noisy data are falsely selected as clean data. To solve this problem, we propose a data-adaptive method for Scalable Penalized Regression with Knockoff filters (Knockoffs-SPR), which is provable to control the False-Selection-Rate (FSR) in the selected clean data. To improve the efficiency, we further present a split algorithm that divides the whole training set into small pieces that can be solved in parallel to make the framework scalable to large datasets. While Knockoffs-SPR can be regarded as a sample selection module for a standard supervised training pipeline, we further combine it with a semi-supervised algorithm to exploit the support of noisy data as unlabeled data. Experimental results on several benchmark datasets and real-world noisy datasets show the effectiveness of our framework and validate the theoretical results of Knockoffs-SPR. Our code and pre-trained models are available at https://github.com/Yikai-Wang/Knockoffs-SPR.
翻訳日:2023-09-14 18:33:24 公開日:2023-09-13
# 組合せ最適化問題近似のための原理的超多項量子アドバンテージ

An in-principle super-polynomial quantum advantage for approximating combinatorial optimization problems ( http://arxiv.org/abs/2212.08678v3 )

ライセンス: Link先を確認
Niklas Pirnay, Vincent Ulitzsch, Frederik Wilde, Jens Eisert, Jean-Pierre Seifert(参考訳) 様々な科学的、産業的な文脈で大きく機能する問題に対処する研究分野である組合せ最適化は、量子コンピュータの応用可能性の中核的な分野の1つとして認識されている。 しかし、量子アルゴリズムがこのタイプの問題に対して、いかにして古典的アルゴリズムよりも優れているかはまだ不明である。 本研究では,計算学習理論と暗号概念を用いて,量子コンピュータが,コンビネート最適化問題に対する解近似において,古典的コンピュータよりも原理上超多項的優位性を有することを証明した。 具体的には、カーンズとヴァリアントによる基礎研究に基づいて新しい還元を導入し、古典的コンピュータが多項式因子を近似することが難しい問題の種類を特定する。 同時に、多項式係数内の最適解を効率的に近似できる量子アルゴリズムを与える。 この研究で発見された量子アドバンテージの核は、最終的にショアの量子アルゴリズムからファクタリングに借用されている。 具体的には、いわゆる整数プログラミング問題の特殊事例を近似する超多項式的優位性を示す。 そのために私たちは、ベアリングインスタンスを利用するための明示的なエンドツーエンドの構成を提供します。 この結果は、量子デバイスは、原理的に、古典的効率的なアルゴリズムの範囲を超えた組合せ最適化解を近似する力を持っていることを示している。 また,このような有利な問題インスタンスの構築方法について,明確なガイダンスも提供する。

Combinatorial optimization - a field of research addressing problems that feature strongly in a wealth of scientific and industrial contexts - has been identified as one of the core potential fields of applicability of quantum computers. It is still unclear, however, to what extent quantum algorithms can actually outperform classical algorithms for this type of problems. In this work, by resorting to computational learning theory and cryptographic notions, we prove that quantum computers feature an in-principle super-polynomial advantage over classical computers in approximating solutions to combinatorial optimization problems. Specifically, building on seminal work by Kearns and Valiant and introducing a new reduction, we identify special types of problems that are hard for classical computers to approximate up to polynomial factors. At the same time, we give a quantum algorithm that can efficiently approximate the optimal solution within a polynomial factor. The core of the quantum advantage discovered in this work is ultimately borrowed from Shor's quantum algorithm for factoring. Concretely, we prove a super-polynomial advantage for approximating special instances of the so-called integer programming problem. In doing so, we provide an explicit end-to-end construction for advantage bearing instances. This result shows that quantum devices have, in principle, the power to approximate combinatorial optimization solutions beyond the reach of classical efficient algorithms. Our results also give clear guidance on how to construct such advantage-bearing problem instances.
翻訳日:2023-09-14 18:32:59 公開日:2023-09-13
# cold fusion: 分散マルチタスクの微調整のための協調学習

ColD Fusion: Collaborative Descent for Distributed Multitask Finetuning ( http://arxiv.org/abs/2212.01378v2 )

ライセンス: Link先を確認
Shachar Don-Yehiya, Elad Venezian, Colin Raffel, Noam Slonim, Yoav Katz, Leshem Choshen(参考訳) 我々はプレトレーニングモデル(コールドフュージョン)を継続的に発展させる新しいパラダイムを提案する。 マルチタスク学習の利点を提供するが、限られた通信で分散計算を活用し、共有データの必要性をなくす。 寒冷核融合は相乗的ループを生じさせ、そこでは微調整されたモデルをリサイクルして、基礎となる事前訓練されたモデルを継続的に改善することができる。 我々はcold fusionがマルチタスクトレーニングに匹敵する利益をもたらすことを実証する。 (a)トレーニングしたすべてのデータセットに対して高いパフォーマンスを実現し、 (b)未発見のデータセットを微調整する出発点として適しています。 ColD FusionはRoBERTaや過去のマルチタスクモデルよりも優れていることを示す。 具体的には、35の多様なデータセットでトレーニングとテストを行う場合、ColD Fusionベースのモデルはアーキテクチャの変更なしにRoBERTaを平均2.33ポイント上回る。

We propose a new paradigm to continually evolve pretrained models, denoted ColD Fusion. It provides the benefits of multitask learning but leverages distributed computation with limited communication and eliminates the need for shared data. Consequentially, ColD Fusion can give rise to a synergistic loop, where finetuned models can be recycled to continually improve the pretrained model they are based upon. We show that ColD Fusion yields comparable benefits to multitask training by producing a model that (a) attains strong performance on all of the datasets it was trained on; and (b) is a better starting point for finetuning on unseen datasets. We show that ColD Fusion outperforms RoBERTa and even previous multitask models. Specifically, when training and testing on 35 diverse datasets, ColD Fusion-based model outperforms RoBERTa by 2.33 points on average without any changes to the architecture.
翻訳日:2023-09-14 18:32:12 公開日:2023-09-13
# NOPE-SAC:スパークビュー平面3次元再構成のためのニューラルワンプレーンRANSAC

NOPE-SAC: Neural One-Plane RANSAC for Sparse-View Planar 3D Reconstruction ( http://arxiv.org/abs/2211.16799v2 )

ライセンス: Link先を確認
Bin Tan, Nan Xue, Tianfu Wu, Gui-Song Xia(参考訳) 本稿では,カメラポーズ推定のための入力画像対の対応が不十分な厳密なスパースビュー構成の2次元再構成について検討する。 本稿では、3次元平面対応から1面のポーズ仮説を学習する能力に優れたニューラルワンプレーンRANSACフレームワーク(略してNOPE-SAC)を提案する。 シアム面検出ネットワーク上に構築されたNOPE-SACは,まず,粗い初期ポーズを伴って配置面対応を生成する。 そして、学習した3次元対応パラメーターを共有mlpに供給して、1面カメラのポーズを推定し、最終的にカメラのポーズを得るためにランサック方式で緩和する。 ニューラルワンプレーンポーズは、適応的なポーズ仮説生成のための平面対応の数を最小化するため、スパースビュー入力のための少数の平面対応において安定したポーズ投票と信頼性の高いポーズ改善を可能にする。 実験の結果,NOPE-SACは2視点入力のカメラポーズ推定を大幅に改善し,2つの挑戦的ベンチマーク(MatterPort3DとScanNet)に新たな最先端性能を設定した。 ソースコードは再現可能な研究のためにhttps://github.com/IceTTTb/NopeSACで公開されている。

This paper studies the challenging two-view 3D reconstruction in a rigorous sparse-view configuration, which is suffering from insufficient correspondences in the input image pairs for camera pose estimation. We present a novel Neural One-PlanE RANSAC framework (termed NOPE-SAC in short) that exerts excellent capability to learn one-plane pose hypotheses from 3D plane correspondences. Building on the top of a siamese plane detection network, our NOPE-SAC first generates putative plane correspondences with a coarse initial pose. It then feeds the learned 3D plane parameters of correspondences into shared MLPs to estimate the one-plane camera pose hypotheses, which are subsequently reweighed in a RANSAC manner to obtain the final camera pose. Because the neural one-plane pose minimizes the number of plane correspondences for adaptive pose hypotheses generation, it enables stable pose voting and reliable pose refinement in a few plane correspondences for the sparse-view inputs. In the experiments, we demonstrate that our NOPE-SAC significantly improves the camera pose estimation for the two-view inputs with severe viewpoint changes, setting several new state-of-the-art performances on two challenging benchmarks, i.e., MatterPort3D and ScanNet, for sparse-view 3D reconstruction. The source code is released at https://github.com/IceTTTb/NopeSAC for reproducible research.
翻訳日:2023-09-14 18:32:00 公開日:2023-09-13
# IC3D:形状生成のための画像合成3次元拡散

IC3D: Image-Conditioned 3D Diffusion for Shape Generation ( http://arxiv.org/abs/2211.10865v3 )

ライセンス: Link先を確認
Cristian Sbrolli, Paolo Cudrano, Matteo Frosi, Matteo Matteucci(参考訳) 近年, 拡散確率モデル (DDPM) は, 様々な2次元生成タスクにおいて異常な性能を示した。 この成功の後、ddpmは3次元形状生成に拡張され、この分野の以前の手法を上回っている。 これらのモデルの多くは無条件であるが、異なるモダリティからのガイダンスを使用することの可能性を探る者もいる。 特に,クリップ埋め込みを利用した3d生成のための画像ガイダンスが検討されている。 しかし、これらの埋め込みは画像とテキストを整列するように設計されており、必ずしも形状生成に必要な特定の詳細をキャプチャする必要はない。 この制限に対処し, 画像誘導型3次元DDPMの3次元理解を強化すべく, CISP(Contrastive Image-Shape Pre-training)を導入する。 CISPをベースとして,シングルビュー画像から3次元形状を生成するDDPMであるIC3Dを導入する。 この生成拡散モデルは、生成した3d形状の品質と多様性の両方において、既存のベンチマークを上回っている。 さらに, IC3Dの生成特性にも拘わらず, その生成形状は, 競争力のある単視点3D再構成モデルよりも, 人間の評価者に好まれる。 これらの性質はコヒーレントな埋め込み空間に寄与し、分散画像からも潜在補間と条件付き生成を可能にする。 IC3Dは、隠されたビューを提示して、制御された現実世界のシナリオに適用することができる。

In recent years, Denoising Diffusion Probabilistic Models (DDPMs) have demonstrated exceptional performance in various 2D generative tasks. Following this success, DDPMs have been extended to 3D shape generation, surpassing previous methodologies in this domain. While many of these models are unconditional, some have explored the potential of using guidance from different modalities. In particular, image guidance for 3D generation has been explored through the utilization of CLIP embeddings. However, these embeddings are designed to align images and text, and do not necessarily capture the specific details needed for shape generation. To address this limitation and enhance image-guided 3D DDPMs with augmented 3D understanding, we introduce CISP (Contrastive Image-Shape Pre-training), obtaining a well-structured image-shape joint embedding space. Building upon CISP, we then introduce IC3D, a DDPM that harnesses CISP's guidance for 3D shape generation from single-view images. This generative diffusion model outperforms existing benchmarks in both quality and diversity of generated 3D shapes. Moreover, despite IC3D's generative nature, its generated shapes are preferred by human evaluators over a competitive single-view 3D reconstruction model. These properties contribute to a coherent embedding space, enabling latent interpolation and conditioned generation also from out-of-distribution images. We find IC3D able to generate coherent and diverse completions also when presented with occluded views, rendering it applicable in controlled real-world scenarios.
翻訳日:2023-09-14 18:31:36 公開日:2023-09-13
# 分散連合学習 : 基礎, 現状, フレームワーク, トレンド, 課題

Decentralized Federated Learning: Fundamentals, State of the Art, Frameworks, Trends, and Challenges ( http://arxiv.org/abs/2211.08413v5 )

ライセンス: Link先を確認
Enrique Tom\'as Mart\'inez Beltr\'an, Mario Quiles P\'erez, Pedro Miguel S\'anchez S\'anchez, Sergio L\'opez Bernal, G\'er\^ome Bovet, Manuel Gil P\'erez, Gregorio Mart\'inez P\'erez, Alberto Huertas Celdr\'an(参考訳) 近年,federated learning (fl) は,センシティブなデータ共有を伴わずに協調モデルのトレーニングに寄与している。 中央集権FL(CFL)は、その誕生以来、中央の実体が大域的なモデルを作成する文学において最も一般的なアプローチである。 しかしながら、集中的なアプローチはボトルネックによるレイテンシの増加、システムの障害に対する脆弱性の増大、グローバルモデル作成に責任を持つエンティティに対する信頼性の懸念などにつながります。 DFL(Decentralized Federated Learning)は、分散モデルの集約を促進し、集中型アーキテクチャへの依存を最小限にすることで、これらの問題に対処するために登場した。 しかし、DFLでの作業にもかかわらず、文献は残っていない。 (i)DFLとCFLを区別する主な側面の研究。 (二)新しいソリューションを作成し評価するためのDFLフレームワークの分析、及び 3)DFLを用いたアプリケーションシナリオのレビュー。 本稿では,フェデレーションアーキテクチャ,トポロジ,通信機構,セキュリティアプローチ,主要なパフォーマンス指標といった観点から,dflの主な基礎を特定し,分析する。 さらに、論文は重要なdflの基本を最適化するための既存のメカニズムを探求している。 次に、現在のdflフレームワークの最も関連するフィーチャをレビューして比較する。 その後、最もよく使われるDFLアプリケーションシナリオを分析し、以前定義された基本とフレームワークに基づいたソリューションを特定します。 最後に、既存のDFLソリューションの進化について研究し、トレンド、学んだ教訓、オープンな課題のリストを提供する。

In recent years, Federated Learning (FL) has gained relevance in training collaborative models without sharing sensitive data. Since its birth, Centralized FL (CFL) has been the most common approach in the literature, where a central entity creates a global model. However, a centralized approach leads to increased latency due to bottlenecks, heightened vulnerability to system failures, and trustworthiness concerns affecting the entity responsible for the global model creation. Decentralized Federated Learning (DFL) emerged to address these concerns by promoting decentralized model aggregation and minimizing reliance on centralized architectures. However, despite the work done in DFL, the literature has not (i) studied the main aspects differentiating DFL and CFL; (ii) analyzed DFL frameworks to create and evaluate new solutions; and (iii) reviewed application scenarios using DFL. Thus, this article identifies and analyzes the main fundamentals of DFL in terms of federation architectures, topologies, communication mechanisms, security approaches, and key performance indicators. Additionally, the paper at hand explores existing mechanisms to optimize critical DFL fundamentals. Then, the most relevant features of the current DFL frameworks are reviewed and compared. After that, it analyzes the most used DFL application scenarios, identifying solutions based on the fundamentals and frameworks previously defined. Finally, the evolution of existing DFL solutions is studied to provide a list of trends, lessons learned, and open challenges.
翻訳日:2023-09-14 18:31:12 公開日:2023-09-13
# 雑音量子コンピュータによる局所化の観測

Observation of localization using a noisy quantum computer ( http://arxiv.org/abs/2303.12309v3 )

ライセンス: Link先を確認
Kazue Kudo(参考訳) 強非秩序な量子多体系の量子力学は、局在特性を示す。 初期状態メモリは、システムがローカライズされた状態にあるときに緩やかな緩和のために維持される。 本研究は,量子スピンチェーンの磁化とねじれの重ね合わせを短時間進化の後に評価することにより,ノイズ量子コンピュータを用いて局在を観測できることを実証する。 量子回路シミュレーションと実デバイス計算から得られたこれらの量は、障害強度に明らかな依存を示すが、実デバイス計算はノイズによるエラーを著しく受ける。 ハミルトンの正確な対角化を用いて、この研究はノイズによる誤差がこれらの量に与える影響を分析する。 解析はまた、ツイスト重なりがハミルトニアンの固有状態の情報をどのように反映するかも示唆している。

Quantum dynamics in a strongly-disordered quantum many-body system show localization properties. The initial state memory is maintained due to slow relaxation when the system is in the localized regime. This work demonstrates how localization can be observed using a noisy quantum computer by evaluating the magnetization and twist overlap in a quantum spin chain after a short-time evolution. Those quantities obtained from quantum-circuit simulation and real-device computation show apparent dependence on the disorder strength, although real-device computation suffers from noise-induced errors significantly. Using the exact diagonalization of the Hamiltonian, this work analyzes how noise-induced errors influences those quantities. The analysis also suggests how twist overlap can reflect the information on eigenstates of the Hamiltonian.
翻訳日:2023-09-14 18:22:37 公開日:2023-09-13
# DETA:Few-Shot Learningのためのタスク適応

DETA: Denoised Task Adaptation for Few-Shot Learning ( http://arxiv.org/abs/2303.06315v2 )

ライセンス: Link先を確認
Ji Zhang, Lianli Gao, Xu Luo, Hengtao Shen and Jingkuan Song(参考訳) 少数ショット学習におけるテスト時間タスク適応(test-time task adaptation)は、事前学習されたタスク非依存モデルを適用して、テストタスクのタスク固有の知識をキャプチャすることを目的としている。 従来のアプローチは一般的に、与えられたサポートサンプルの固有の問題を無視しながら、目標を達成するための高度なアルゴリズムの開発に重点を置いている。 実際、少数のサンプルしか利用できないため、サポートサンプルからの画像ノイズ(xノイズ)またはラベルノイズ(yノイズ)の悪影響を著しく増幅することができる。 この課題に対処するため,本研究では,既存のタスク適応アプローチと直交する,画像とラベルの統一化フレームワークであるdennoized task adaptation (deta)を提案する。 余分な監督なしに、DETAは、グローバルな視覚情報とサポートサンプルの地域詳細の両方を活用することで、タスク非関連でノイズの多い表現をフィルタリングする。 難しいメタデータセットでは、detaは様々な事前学習されたモデルに適用される幅広いベースラインメソッドのパフォーマンスを一貫して改善する。 特に、メタデータセットで見過ごされた画像ノイズに取り組むことで、detaは新しい最先端の結果を確立します。 コードはhttps://github.com/JimZAI/DETAで公開されている。

Test-time task adaptation in few-shot learning aims to adapt a pre-trained task-agnostic model for capturing taskspecific knowledge of the test task, rely only on few-labeled support samples. Previous approaches generally focus on developing advanced algorithms to achieve the goal, while neglecting the inherent problems of the given support samples. In fact, with only a handful of samples available, the adverse effect of either the image noise (a.k.a. X-noise) or the label noise (a.k.a. Y-noise) from support samples can be severely amplified. To address this challenge, in this work we propose DEnoised Task Adaptation (DETA), a first, unified image- and label-denoising framework orthogonal to existing task adaptation approaches. Without extra supervision, DETA filters out task-irrelevant, noisy representations by taking advantage of both global visual information and local region details of support samples. On the challenging Meta-Dataset, DETA consistently improves the performance of a broad spectrum of baseline methods applied on various pre-trained models. Notably, by tackling the overlooked image noise in Meta-Dataset, DETA establishes new state-of-the-art results. Code is released at https://github.com/JimZAI/DETA.
翻訳日:2023-09-14 18:22:24 公開日:2023-09-13
# 表面コードにおけるコヒーレントエラーと読み出しエラー

Coherent errors and readout errors in the surface code ( http://arxiv.org/abs/2303.04672v3 )

ライセンス: Link先を確認
\'Aron M\'arton, J\'anos K. Asb\'oth(参考訳) 本研究では,表面コードに対する読み出し誤差とコヒーレント誤差,すなわち決定論的位相回転の併用効果について考察する。 物理キュービットからマヨラナフェルミオンへのマッピングにより,最近開発された数値的手法を用いる。 提案手法は, 予測誤差の有無, 現象学レベルでの扱い, 潜在的に不正に記録された結果を伴う完全な投影計測, 複数回の測定ラウンドで適用する方法を示す。 このエラーの組み合わせのしきい値を見つけ、対応する非一貫性エラーチャネルのしきい値に近いエラーレート(pauli-zとreadoutエラーのランダム化)を見つける。 最悪の場合の忠実度を論理誤差の尺度として用いる閾値誤差率は2.6%である。 しきい値以下では、コードのスケールアップにより、論理レベルのエラーではコヒーレンスが急速に失われるが、対応する非コヒーレントなエラーチャネルよりも大きいエラー率となる。 また、コヒーレントエラーと読み出しエラー率を独立に変更し、読み出しエラーよりも表面コードの方がコヒーレントエラーに敏感であることが分かりました。 我々の研究は、完全読み出しを伴うコヒーレントエラーに関する最近の結果を拡張し、読み出しエラーも発生している実験的により現実的な状況に拡張する。

We consider the combined effect of readout errors and coherent errors, i.e., deterministic phase rotations, on the surface code. We use a recently developed numerical approach, via a mapping of the physical qubits to Majorana fermions. We show how to use this approach in the presence of readout errors, treated on the phenomenological level: perfect projective measurements with potentially incorrectly recorded outcomes, and multiple repeated measurement rounds. We find a threshold for this combination of errors, with an error rate close to the threshold of the corresponding incoherent error channel (random Pauli-Z and readout errors). The value of the threshold error rate, using the worst case fidelity as the measure of logical errors, is 2.6%. Below the threshold, scaling up the code leads to the rapid loss of coherence in the logical-level errors, but error rates that are greater than those of the corresponding incoherent error channel. We also vary the coherent and readout error rates independently, and find that the surface code is more sensitive to coherent errors than to readout errors. Our work extends the recent results on coherent errors with perfect readout to the experimentally more realistic situation where readout errors also occur.
翻訳日:2023-09-14 18:22:02 公開日:2023-09-13
# 平均場近似最適化アルゴリズム

Mean-Field Approximate Optimization Algorithm ( http://arxiv.org/abs/2303.00329v2 )

ライセンス: Link先を確認
Aditi Misra-Spieldenner, Tim Bode, Peter K. Schuhmacher, Tobias Stollenwerk, Dmitry Bagrets, and Frank K. Wilhelm(参考訳) 量子近似最適化アルゴリズム (qaoa) は、初期の量子コンピュータに有望な応用として提案されている。 ここでは,平均場近似法を用いてqaoaの量子進化を古典スピンダイナミクスに置き換え,平均場近似最適化アルゴリズム(mean-field approximation optimization algorithm, aoa)を開発した。 QAOAの交互構造のため、この古典力学は任意の数のQAOA層に対して正確に見られる。 我々は,シェリントン・カークパトリック(SK)モデルと分割問題におけるQAOAのパフォーマンスをベンチマークし,平均フィールドAOAがどちらの場合においてもQAOAよりも優れていることを確認した。 したがって、我々のアルゴリズムは、古典的に解決できない問題、すなわちQAOAから真の量子優位性が期待できるインスタンスを特定するのに役立つと信じているものから、最適化問題を導出するためのツールとして機能することができる。 平均場軌道周りの量子揺らぎを定量化するために,時間依存リアプノフ指数のスペクトルを特徴とする有効散乱問題を時間的に解く。 これらは平均場AOAに対して与えられた最適化問題の硬さを示す指標となる。

The Quantum Approximate Optimization Algorithm (QAOA) is suggested as a promising application on early quantum computers. Here, a quantum-inspired classical algorithm, the mean-field Approximate Optimization Algorithm (mean-field AOA), is developed by replacing the quantum evolution of the QAOA with classical spin dynamics through the mean-field approximation. Due to the alternating structure of the QAOA, this classical dynamics can be found exactly for any number of QAOA layers. We benchmark its performance against the QAOA on the Sherrington-Kirkpatrick (SK) model and the partition problem, and find that the mean-field AOA outperforms the QAOA in both cases for most instances. Our algorithm can thus serve as a tool to delineate optimization problems that can be solved classically from those that cannot, i.e. we believe that it will help to identify instances where a true quantum advantage can be expected from the QAOA. To quantify quantum fluctuations around the mean-field trajectories, we solve an effective scattering problem in time, which is characterized by a spectrum of time-dependent Lyapunov exponents. These provide an indicator for the hardness of a given optimization problem relative to the mean-field AOA.
翻訳日:2023-09-14 18:21:24 公開日:2023-09-13
# 連続および離散空間における疎ガウス過程による回帰からの効率的なセンサ配置

Efficient Sensor Placement from Regression with Sparse Gaussian Processes in Continuous and Discrete Spaces ( http://arxiv.org/abs/2303.00028v5 )

ライセンス: Link先を確認
Kalvik Jakkala, Srinivas Akella(参考訳) センサ配置問題は温度や降水などの相関現象を監視する際に発生する一般的な問題である。 この問題に対する既存のアプローチでは、計算コストが高く、大きな問題にはスケールできない離散最適化手法が一般的に用いられる。 相関環境におけるセンサ配置問題を,スパースガウス過程(SGP)を用いて効率的に解ける回帰問題に還元することで解決する。 提案手法は,センサが所定の位置のサブセットに制限されるような離散的なセンサ配置問題と,センサを境界のある連続領域に配置できる連続的なセンサ配置問題の両方を扱うことができる。 実世界の3つのデータセットに対する実験結果から,我々の手法はセンサ配置を生成し,従来と同等かそれ以上の再現品質を実現し,精度は大幅に向上した。 我々の計算効率の良いアプローチは、情報経路計画アルゴリズムのための大規模センサー配置と高速ロボットセンサ配置の両方を可能にする。

The sensor placement problem is a common problem that arises when monitoring correlated phenomena, such as temperature and precipitation. Existing approaches to this problem typically use discrete optimization methods, which are computationally expensive and cannot scale to large problems. We address the sensor placement problem in correlated environments by reducing it to a regression problem that can be efficiently solved using sparse Gaussian processes (SGPs). Our approach can handle both discrete sensor placement problems-where sensors are limited to a subset of a given set of locations-and continuous sensor placement problems-where sensors can be placed anywhere in a bounded continuous region. Our experimental results on three real-world datasets show that our approach generates sensor placements that result in reconstruction quality that is consistently on par or better than the prior state-of-the-art approach while being significantly faster. Our computationally efficient approach enables both large-scale sensor placement and fast robotic sensor placement for informative path planning algorithms.
翻訳日:2023-09-14 18:21:04 公開日:2023-09-13
# 不正確なベイズニューラルネットワーク

Imprecise Bayesian Neural Networks ( http://arxiv.org/abs/2302.09656v3 )

ライセンス: Link先を確認
Michele Caprio, Souradeep Dutta, Kuk Jin Jang, Vivian Lin, Radoslav Ivanov, Oleg Sokolsky, Insup Lee(参考訳) 不確かさの定量化と分散シフトへの堅牢性は、機械学習と人工知能の重要な目標である。 ベイズニューラルネットワーク(BNN)は予測の不確実性を評価することができるが、異なる不確実性源は区別できない。 本稿では,標準BNNの欠点のいくつかを一般化し克服し,IBNN(Inmrecise Bayesian Neural Networks)を提案する。 後者は1つの事前分布と可能性分布を用いて訓練されるのに対し、IBNNは震源と可能性集合を用いて訓練される。 失語症とてんかんの不確かさを区別し、それらを定量化する。 さらに、IBNNはBNNよりも、事前およびおそらくは誤特定、分散シフトに対して堅牢である。 確率的保証を享受する結果の集合を計算するためにも使用できる。 IBNNを2つのケーススタディに適用する。 1つは自律運転シナリオにおける動作予測、2つは人工膵管制御のための血糖とインスリンの動態をモデル化する。 IBNNsは,BNNsベンチマークのアンサンブルよりも性能がよいことを示す。

Uncertainty quantification and robustness to distribution shifts are important goals in machine learning and artificial intelligence. Although Bayesian Neural Networks (BNNs) allow for uncertainty in the predictions to be assessed, different sources of uncertainty are indistinguishable. We present Imprecise Bayesian Neural Networks (IBNNs); they generalize and overcome some of the drawbacks of standard BNNs. These latter are trained using a single prior and likelihood distributions, whereas IBNNs are trained using credal prior and likelihood sets. They allow to distinguish between aleatoric and epistemic uncertainties, and to quantify them. In addition, IBNNs are more robust than BNNs to prior and likelihood misspecification, and to distribution shift. They can also be used to compute sets of outcomes that enjoy probabilistic guarantees. We apply IBNNs to two case studies. One, for motion prediction in autonomous driving scenarios, and two, to model blood glucose and insulin dynamics for artificial pancreas control. We show that IBNNs performs better when compared to an ensemble of BNNs benchmark.
翻訳日:2023-09-14 18:20:46 公開日:2023-09-13
# 標準大言語モデルにおける希薄な多様性

Diminished Diversity-of-Thought in a Standard Large Language Model ( http://arxiv.org/abs/2302.07267v6 )

ライセンス: Link先を確認
Peter S. Park, Philipp Schoenegger, Chongyang Zhu(参考訳) 社会科学研究の参加者をシミュレートするために,Large Language Models (LLMs) を使用できるかどうかを検証する。 そこで我々は,OpenAI の text-davinci-003 モデルによる many Labs 2 レプリケーションプロジェクトの14 つの研究の複製を実行する。 事前登録された分析から、分析可能な8つの研究のうち、GPTサンプルは元の結果の37.5%、M many Labs 2の結果の37.5%を複製した。 しかし,「正解」効果と呼ばれる予期せぬ現象により,残りの6つの研究を分析できなかった。 GPT3.5の様々な実行は、政治的指向、経済的嗜好、判断、道徳哲学を、応答のゼロまたはほぼゼロのばらつき、すなわち「正しい答え」とみなす、曖昧な疑問に答えた。 ある探索的追跡調査では、「正しい答え」がプロンプトに先行する人口統計の詳細を変えるのに堅牢であることがわかった。 別の例では、"正しい答え"のほとんどが、答えの選択の順序を変える上で堅牢であることに気付きました。 最も顕著な発見の1つは、モラル・ファンデーションズ・サーベイの結果の再現であり、GPT3.5は99.6%のケースで政治的保守派であり、99.3%のケースではリベラル派であることが判明した。 しかし、自己報告の「GPT保守派」と「GPTリベラル派」はともに右派的道徳基盤を示した。 以上の結果から, LLMを社会科学の一般参加者の代替として活用することの妥当性に疑問が生じた。 我々の結果は、仮説的なAIによる未来は、思考の多様性が低下する可能性があるという懸念も引き起こす。

We test whether Large Language Models (LLMs) can be used to simulate human participants in social-science studies. To do this, we run replications of 14 studies from the Many Labs 2 replication project with OpenAI's text-davinci-003 model, colloquially known as GPT3.5. Based on our pre-registered analyses, we find that among the eight studies we could analyse, our GPT sample replicated 37.5% of the original results and 37.5% of the Many Labs 2 results. However, we were unable to analyse the remaining six studies due to an unexpected phenomenon we call the "correct answer" effect. Different runs of GPT3.5 answered nuanced questions probing political orientation, economic preference, judgement, and moral philosophy with zero or near-zero variation in responses: with the supposedly "correct answer." In one exploratory follow-up study, we found that a "correct answer" was robust to changing the demographic details that precede the prompt. In another, we found that most but not all "correct answers" were robust to changing the order of answer choices. One of our most striking findings occurred in our replication of the Moral Foundations Theory survey results, where we found GPT3.5 identifying as a political conservative in 99.6% of the cases, and as a liberal in 99.3% of the cases in the reverse-order condition. However, both self-reported 'GPT conservatives' and 'GPT liberals' showed right-leaning moral foundations. Our results cast doubts on the validity of using LLMs as a general replacement for human participants in the social sciences. Our results also raise concerns that a hypothetical AI-led future may be subject to a diminished diversity-of-thought.
翻訳日:2023-09-14 18:20:31 公開日:2023-09-13
# カーマグノンによるスイッチブル超放射相転移

Switchable Superradiant Phase Transition with Kerr Magnons ( http://arxiv.org/abs/2302.07163v2 )

ライセンス: Link先を確認
Gang Liu, Wei Xiong and Zu-Jian Ying(参考訳) 超ラジカル相転移(SPT)はキャビティ量子電磁力学(CQED)において広く研究されている。 しかしながら、この SPT は、いわゆる ${\bf A}^2$ 項 (AT) によって誘導される no-go 定理により、現在も進行中の議論の対象となっている。 カー非線形性を持つマグノンをサポートする二段系とイットリウム-鉄-ガーネット球とを同時に結合した単一モード空洞からなるハイブリッド量子系を提案し,ATに対してSPTを復元する。 ここでのカー・マグノンは、マグノンの自由度を減らして本質的なATに対抗するために、強力で調整可能なATを効果的に導入することができる。 カーマグノン誘発性SPTは, 内在性ATを無視し, 内在性ATを含むいずれの症例にも存在することができる。 固有のATがなければ、カーマグノンの導入により臨界結合強度が劇的に低下し、SPTを観察するための実験条件が大幅に緩和される。 固有のATでは、禁止されたSPTはカーマグノンで逆方向に回収することができる。 我々の研究は、cqedと非線形マグノニクスを組み合わせたat inハイブリッドシステムに対してsptを操作する潜在的な方法を示している。

The superradiant phase transition (SPT) has been widely studied in cavity quantum electrodynamics (CQED). However, this SPT is still subject of ongoing debates due to the no-go theorem induced by the so-called ${\bf A}^2$ term (AT). We propose a hybrid quantum system, consisting of a single-mode cavity simultaneously coupled to both a two-level system and yttrium-iron-garnet sphere supporting magnons with Kerr nonlinearity, to restore the SPT against the AT. The Kerr magnons here can effectively introduce an additional strong and tunable AT to counteract the intrinsic AT, via adiabatically eliminating the degrees of freedom of the magnons. We show that the Kerr magnons induced SPT can exist in both cases of ignoring and including the intrinsic AT. Without the intrinsic AT, the critical coupling strength can be dramatically reduced by introducing the Kerr magnons, which greatly relaxes the experimental conditions for observing the SPT. With the intrinsic AT, the forbidden SPT can be recovered with the Kerr magnons in a reversed way. Our work paves a potential way to manipulate the SPT against the AT in hybrid systems combining CQED and nonlinear magnonics.
翻訳日:2023-09-14 18:19:58 公開日:2023-09-13
# スペイチェ:スイスの方言に最先端のASRモデルを拡張

Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects ( http://arxiv.org/abs/2304.11075v2 )

ライセンス: Link先を確認
Clement Sicard, Kajetan Pyszkowski, Victor Gillioz(参考訳) 近年のNLPのブレークスルーは, 日常生活におけるASRシステムの存在感を大きく高めた。 しかし、多くの低リソース言語では、関連するデータを取得するのが難しいという理由から、まだasrモデルの改善が必要である。 このプロジェクトは、スイスドイツ語方言のasrモデルの研究を進め、最近公開されたスイスドイツ語音声データセットにおける最先端asrモデルの性能に関する洞察を提供することを目的としている。 本研究では,予測ラベルと接地ラベル間の意味的距離を考慮した新しい損失を提案する。 スイス-ドイツのデータセット上で,OpenAIのWhisperモデルを微調整することで,現状の成果を上回った。

Recent breakthroughs in NLP largely increased the presence of ASR systems in our daily lives. However, for many low-resource languages, ASR models still need to be improved due in part to the difficulty of acquiring pertinent data. This project aims to help advance research in ASR models for Swiss German dialects, by providing insights about the performance of state-of-the-art ASR models on recently published Swiss German speech datasets. We propose a novel loss that takes into account the semantic distance between the predicted and the ground-truth labels. We outperform current state-of-the-art results by fine-tuning OpenAI's Whisper model on Swiss-German datasets.
翻訳日:2023-09-14 18:13:56 公開日:2023-09-13
# 人選好によるデクサラスマニピュレーションのための普遍的人間優先学習

Learning a Universal Human Prior for Dexterous Manipulation from Human Preference ( http://arxiv.org/abs/2304.04602v2 )

ライセンス: Link先を確認
Zihan Ding, Yuanpei Chen, Allen Z. Ren, Shixiang Shane Gu, Qianxu Wang, Hao Dong, Chi Jin(参考訳) ロボットで人間のような行動を起こすことは、特にロボットの手を使った巧妙な操作において大きな課題である。 高次元の制御空間のため、スクラッチからのスクリプトポリシーは難解であり、強化学習(RL)と手動報酬工学によるトレーニングポリシーも困難であり、不自然な動作につながる可能性がある。 近年のHuman FeedbackからのRLの進歩を生かして、ビデオ上で直接人間の嗜好フィードバックを用いて、人間に先立って普遍的な人間を学習するフレームワークを提案し、シミュレーション中の20個のロボット操作タスクに対して、人間によるデモンストレーションを行なわずにRLポリシーを効率的に調整する。 多様な警察を反復的に生成し、軌道上の人間の嗜好を収集することでタスク非依存報酬モデルを訓練し、微調整段階における警察の行動の規則化に応用する。 提案手法は,ロボットの手の動作を多種多様なタスクで実証し,その一般化能力を示す。

Generating human-like behavior on robots is a great challenge especially in dexterous manipulation tasks with robotic hands. Scripting policies from scratch is intractable due to the high-dimensional control space, and training policies with reinforcement learning (RL) and manual reward engineering can also be hard and lead to unnatural motions. Leveraging the recent progress on RL from Human Feedback, we propose a framework that learns a universal human prior using direct human preference feedback over videos, for efficiently tuning the RL policies on 20 dual-hand robot manipulation tasks in simulation, without a single human demonstration. A task-agnostic reward model is trained through iteratively generating diverse polices and collecting human preference over the trajectories; it is then applied for regularizing the behavior of polices in the fine-tuning stage. Our method empirically demonstrates more human-like behaviors on robot hands in diverse tasks including even unseen tasks, indicating its generalization capability.
翻訳日:2023-09-14 18:13:26 公開日:2023-09-13
# 非エルミタン系における複合量子相

Composite Quantum Phases in Non-Hermitian Systems ( http://arxiv.org/abs/2304.04588v2 )

ライセンス: Link先を確認
Yuchen Guo, Ruohan Shen, Shuo Yang(参考訳) 非エルミート系は近年、エルミート系には存在しない特異な位相的性質のためにかなりの関心を集めている。 このような性質は自由フェルミオンモデルで完全に特徴づけられているが、ボソニック系の相互作用には未解決の問題である。 本研究では、非エルミート系における量子位相の正確な定義を示し、合成量子位相と呼ばれる新しい位相群を提案する。 1次元スピン-$システムにおけるこれらの相の存在を実証し、数値シミュレーションにより摂動に対するロバスト性を示す。 さらに,本モデルの位相図を調査し,非エルミート系におけるこれら新しい位相の存在を明らかにした。 我々の研究は、非エルミート相互作用系における量子相の研究と構築のための新しい枠組みを確立し、単一粒子像を超えたエキサイティングな可能性を明らかにする。

Non-Hermitian systems have attracted considerable interest in recent years owing to their unique topological properties that are absent in Hermitian systems. While such properties have been thoroughly characterized in free fermion models, they remain an open question for interacting bosonic systems. In this work, we present a precise definition of quantum phases for non-Hermitian systems and propose a new family of phases referred to as composite quantum phases. We demonstrate the existence of these phases in a one-dimensional spin-$1$ system and show their robustness against perturbations through numerical simulations. Furthermore, we investigate the phase diagram of our model, indicating the extensive presence of these new phases in non-Hermitian systems. Our work establishes a new framework for studying and constructing quantum phases in non-Hermitian interacting systems, revealing exciting possibilities beyond the single-particle picture.
翻訳日:2023-09-14 18:13:07 公開日:2023-09-13
# 熱力学的に一貫した摂動および半古典展開に対する便利なケルディシュ輪郭

A convenient Keldysh contour for thermodynamically consistent perturbative and semiclassical expansions ( http://arxiv.org/abs/2304.03681v2 )

ライセンス: Link先を確認
Vasco Cavina, Sadeq S. Kadijani, Massimiliano Esposito, Thomas Schmidt(参考訳) ワークゆらぎ定理 (ft) は、与えられたプロセスで抽出されたワークのモーメント生成関数 (mgfs) と時間反転関数の間の対称性である。 同様に、孤立量子系で働くためのFTは、修正されたケルディシュ輪郭の不変性として表現できることを示す。 修正された輪郭は、近年文献で指摘されているように、量子熱力学に対する摂動的および経路積分アプローチの出発点として用いられる。 輪郭に基づく摂動理論の導出を考察した後、修正輪郭の対称性を用いて、この理論がすべての順序でftを満たすことを示す。 さらに,本手法を作業 mgfs の計算に拡張し,独立した再スケールポアソン過程の和という観点から作業統計の一般的な表現を得るために,異なるファインマン図の寄与を追加できることを示した。 この文脈において、FTは、すべてのファインマン図形と時間反転多様体をリンクする詳細なバランス条件の形式を取る。 第2部では, MGFの計算に対する経路積分法について検討し, 輪郭選択における任意性が経路積分作用の最終形態に与える影響について考察する。 特に、シンメトリゼーションされた輪郭を用いることで、作業統計学の文脈でケルディシュ回転を容易に一般化できることを示し、作業 MGF の半古典的展開への道を切り開く手順を示す。 さらに、この結果を用いて、量子軌道のレベルでの詳細なバランス条件の一般化について議論する。

The work fluctuation theorem (FT) is a symmetry connecting the moment generating functions (MGFs) of the work extracted in a given process and in its time-reversed counterpart. We show that, equivalently, the FT for work in isolated quantum systems can be expressed as an invariance property of a modified Keldysh contour. Modified contours can be used as starting points of perturbative and path integral approaches to quantum thermodynamics, as recently pointed out in the literature. After reviewing the derivation of the contour-based perturbation theory, we use the symmetry of the modified contour to show that the theory satisfies the FT at every order. Furthermore, we extend textbook diagrammatic techniques to the computation of work MGFs, showing that the contributions of the different Feynman diagrams can be added to obtain a general expression of the work statistics in terms of a sum of independent rescaled Poisson processes. In this context, the FT takes the form of a detailed balance condition linking every Feynman diagram with its time-reversed variant. In the second part, we study path integral approaches to the calculation of the MGF, and discuss how the arbitrariness in the choice of the contour impacts the final form of the path integral action. In particular, we show how using a symmetrized contour makes it possible to easily generalize the Keldysh rotation in the context of work statistics, a procedure paving the way to a semiclassical expansion of the work MGF. Furthermore, we use our results to discuss a generalization of the detailed balance conditions at the level of the quantum trajectories.
翻訳日:2023-09-14 18:12:54 公開日:2023-09-13
# 量子臨界点近傍のキャビティ光力学系における量子センシングの促進

Enhancement of Quantum Sensing in a Cavity Optomechanical System around Quantum Critical Point ( http://arxiv.org/abs/2303.16486v2 )

ライセンス: Link先を確認
Shao-Bo Tang, Hao Qin, D.-Y. Wang, Kaifeng Cui, S.-L. Su, L.-L. Yan, Gang Chen(参考訳) 量子センシングの精度は、システムが量子臨界点に近づくと物理量がばらばらになりがちである量子相転移を利用して向上することができる。 この臨界エンハンスメント現象は、動的フレームワークにおける量子ラビモデルに適用され、複雑な初期状態の準備を必要とせず、有望なエンハンスメントを示す。 本研究では,結合強度が臨界点を横切るとき,キャビティとメカニカルモードの周波数の有効デチューニングによって決定される,結合キャビティ・メカニカル振動子系の量子相転移を示す。 この臨界現象を利用して、機械振動子の位置や運動量などの量子センシングの顕著な向上が得られる。 この結果は、質量、電荷、弱い力などのいくつかの物理量の量子センシングを、大規模な質量系において強化する別の方法を提供する。

The precision of quantum sensing could be improved by exploiting quantum phase transitions, where the physical quantity tends to diverge when the system approaches the quantum critical point. This critical enhancement phenomenon has been applied to the quantum Rabi model in a dynamic framework, showing a promising sensing enhancement without the need for complex initial state preparation. In this work, we present a quantum phase transition in the coupling cavity-mechanical oscillator system when the coupling strength crosses a critical point, determined by the effective detuning of cavity and frequency of mechanical mode. By utilizing this critical phenomenon, we obtain a prominent enhancement of quantum sensing, such as the position and momentum of the mechanical oscillator. This result provides an alternative method to enhance the quantum sensing of some physical quantities, such as mass, charge, and weak force, in a large mass system.
翻訳日:2023-09-14 18:12:04 公開日:2023-09-13
# 品質多様性トランスフォーマ:決定トランスを用いた行動条件形軌道の生成

The Quality-Diversity Transformer: Generating Behavior-Conditioned Trajectories with Decision Transformers ( http://arxiv.org/abs/2303.16207v3 )

ライセンス: Link先を確認
Valentin Mac\'e, Rapha\"el Boige, Felix Chalumeau, Thomas Pierrot, Guillaume Richard, Nicolas Perrin-Gilbert(参考訳) 神経進化の文脈において、品質多様性アルゴリズムは行動空間の定義に依存することにより、多様で効率的なポリシーのレパートリーを生成するのに有効であることが証明されている。 このようなレパートリーの作成によって引き起こされる自然な目標は、レパートリーから対応するポリシーを実行することで実現可能な、需要に対する行動を達成することである。 しかし、不確実な環境では2つの問題が生じる。 第一に、ポリシーは堅牢性と再現性に欠ける可能性があるため、わずかに異なる条件下での複数のエピソードは、しばしば非常に異なる振る舞いをもたらす。 第二に、レパートリーの離散的性質のため、解は不連続に変化する。 本稿では,まず,行動空間において最も一貫した解に対する解の選択を制約するMAP-Elites Low-Spread (ME-LS) という2つのメカニズムに基づく行動条件付き軌道生成を実現するための新しい手法を提案する。 第二に、連続的な動作記述子に基づくトランスフォーマティブベースのモデルである quality-diversity transformer (qdt) は、me-lsレパートリーからのポリシによって生成されたデータセットをトレーニングし、ターゲットの動作を達成するアクションのシーケンスを自己回帰的に生成することを学ぶ。 その結果,ME-LSは一貫性とロバストなポリシを生成し,QDTと組み合わせることで,要求に対する多様な振る舞いを高い精度で達成可能な単一ポリシが得られることがわかった。

In the context of neuroevolution, Quality-Diversity algorithms have proven effective in generating repertoires of diverse and efficient policies by relying on the definition of a behavior space. A natural goal induced by the creation of such a repertoire is trying to achieve behaviors on demand, which can be done by running the corresponding policy from the repertoire. However, in uncertain environments, two problems arise. First, policies can lack robustness and repeatability, meaning that multiple episodes under slightly different conditions often result in very different behaviors. Second, due to the discrete nature of the repertoire, solutions vary discontinuously. Here we present a new approach to achieve behavior-conditioned trajectory generation based on two mechanisms: First, MAP-Elites Low-Spread (ME-LS), which constrains the selection of solutions to those that are the most consistent in the behavior space. Second, the Quality-Diversity Transformer (QDT), a Transformer-based model conditioned on continuous behavior descriptors, which trains on a dataset generated by policies from a ME-LS repertoire and learns to autoregressively generate sequences of actions that achieve target behaviors. Results show that ME-LS produces consistent and robust policies, and that its combination with the QDT yields a single policy capable of achieving diverse behaviors on demand with high accuracy.
翻訳日:2023-09-14 18:11:50 公開日:2023-09-13
# あなたの拡散モデルは密かにゼロショット分類器です

Your Diffusion Model is Secretly a Zero-Shot Classifier ( http://arxiv.org/abs/2303.16203v3 )

ライセンス: Link先を確認
Alexander C. Li, Mihir Prabhudesai, Shivam Duggal, Ellis Brown, Deepak Pathak(参考訳) 近年の大規模テキスト・画像拡散モデルにより,テキストベースの画像生成能力は劇的に向上した。 これらのモデルは、停滞する様々なプロンプトに対して現実的な画像を生成し、印象的な合成一般化能力を示す。 これまでのほとんどのユースケースはサンプリングのみに重点を置いているが、拡散モデルは画像生成以外のタスクに有用な条件付き密度推定を提供することもできる。 本稿では,Stable Diffusionのような大規模テキスト・画像拡散モデルからの密度推定を,追加の訓練を伴わずにゼロショット分類を行うことができることを示す。 拡散分類器とよばれる分類法は,様々なベンチマークで強い結果を得て,拡散モデルから知識を抽出する代替手法よりも優れている。 ゼロショット認識タスクにおける生成的アプローチと識別的アプローチの間にはギャップが残っているが,拡散に基づくアプローチは,競合する識別的アプローチに比べて,多様合成推論能力が有意に強い。 最後に、Diffusion Classifierを用いて、ImageNetで訓練されたクラス条件拡散モデルから標準分類器を抽出する。 本モデルでは,弱化のみを用いて強力な分類性能を実現し,分布シフトに対して質的に優れた「有効強靭性」を示す。 全体としては,下流タスクの識別モデルよりもジェネレーティブを使うための一歩である。 https://diffusion-classifier.github.io/における結果と視覚化

The recent wave of large-scale text-to-image diffusion models has dramatically increased our text-based image generation abilities. These models can generate realistic images for a staggering variety of prompts and exhibit impressive compositional generalization abilities. Almost all use cases thus far have solely focused on sampling; however, diffusion models can also provide conditional density estimates, which are useful for tasks beyond image generation. In this paper, we show that the density estimates from large-scale text-to-image diffusion models like Stable Diffusion can be leveraged to perform zero-shot classification without any additional training. Our generative approach to classification, which we call Diffusion Classifier, attains strong results on a variety of benchmarks and outperforms alternative methods of extracting knowledge from diffusion models. Although a gap remains between generative and discriminative approaches on zero-shot recognition tasks, our diffusion-based approach has significantly stronger multimodal compositional reasoning ability than competing discriminative approaches. Finally, we use Diffusion Classifier to extract standard classifiers from class-conditional diffusion models trained on ImageNet. Our models achieve strong classification performance using only weak augmentations and exhibit qualitatively better "effective robustness" to distribution shift. Overall, our results are a step toward using generative over discriminative models for downstream tasks. Results and visualizations at https://diffusion-classifier.github.io/
翻訳日:2023-09-14 18:11:06 公開日:2023-09-13
# Edge-MoE:Mixture-of-Expertsによるタスクレベルの分散性を備えたメモリ効率の良いマルチタスクビジョントランスフォーマアーキテクチャ

Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts ( http://arxiv.org/abs/2305.18691v2 )

ライセンス: Link先を確認
Rishov Sarkar, Hanxue Liang, Zhiwen Fan, Zhangyang Wang, Cong Hao(参考訳) ビジョントランスフォーマー(ViT)とマルチタスク学習(MTL)はどちらも優れた性能を示すが、ViTにおける自己注意の二次的な複雑さと、ひとつのタスクで大規模なMTLモデルを活性化する必要があることを考えると、計算集約性が高い。 M$^3$ViT は最新のマルチタスク ViT モデルで、ME(Mix-of-Experts)を導入している。 M$3$ViTは精度の向上と80%以上の計算削減を実現しているが、FPGA上での効率的なデプロイには課題を残している。 Our work, dubbed Edge-MoE, solves the challenges to introduce the first end-to-end FPGA accelerator for multi-task ViT with a collection of architectural innovations, including (1) a novel reordering mechanism for self-attention, which requires only constant bandwidth regardless of the target parallelism; (2) a fast single-pass softmax approximation; (3) an accurate and low-cost GELU approximation; (4) a unified and flexible computing unit that is shared by almost all computational layers to maximally reduce resource usage; and (5) uniquely for M$^3$ViT, a novel patch reordering method to eliminate memory access overhead. edge-moeはgpuとcpuと比較して2.24倍と4.90倍のエネルギー効率を実現している。 High-Level Synthesisを使って書かれたオープンソースコードとともに、リアルタイムのビデオデモがオンラインで公開されている。

Computer vision researchers are embracing two promising paradigms: Vision Transformers (ViTs) and Multi-task Learning (MTL), which both show great performance but are computation-intensive, given the quadratic complexity of self-attention in ViT and the need to activate an entire large MTL model for one task. M$^3$ViT is the latest multi-task ViT model that introduces mixture-of-experts (MoE), where only a small portion of subnetworks ("experts") are sparsely and dynamically activated based on the current task. M$^3$ViT achieves better accuracy and over 80% computation reduction but leaves challenges for efficient deployment on FPGA. Our work, dubbed Edge-MoE, solves the challenges to introduce the first end-to-end FPGA accelerator for multi-task ViT with a collection of architectural innovations, including (1) a novel reordering mechanism for self-attention, which requires only constant bandwidth regardless of the target parallelism; (2) a fast single-pass softmax approximation; (3) an accurate and low-cost GELU approximation; (4) a unified and flexible computing unit that is shared by almost all computational layers to maximally reduce resource usage; and (5) uniquely for M$^3$ViT, a novel patch reordering method to eliminate memory access overhead. Edge-MoE achieves 2.24x and 4.90x better energy efficiency comparing with GPU and CPU, respectively. A real-time video demonstration is available online, along with our open-source code written using High-Level Synthesis.
翻訳日:2023-09-14 18:02:37 公開日:2023-09-13
# 言語モデルはいつ参照を幻覚させるのか?

Do Language Models Know When They're Hallucinating References? ( http://arxiv.org/abs/2305.18248v2 )

ライセンス: Link先を確認
Ayush Agrawal, Mirac Suzgun, Lester Mackey and Adam Tauman Kalai(参考訳) State-of-the-art Language Model (LM) は「幻覚的な」参照で有名である。 これらの記事や本のタイトルは、害、使用上の障害、公衆の反発に繋がる。 他の種類のLM幻覚も重要であるが、特に研究が容易であるため、大型言語モデル(LLM)における幻覚の研究の「ドロソフィラ」として幻覚を参照することを提案する。 簡単な検索エンジンクエリは、そのような幻覚を確実に識別し、評価を容易にする。 幻覚的 LM 参照の性質を識別するために,外部リソースを照会することなく,同じ LM に対してブラックボックスクエリを用いて分類を試みる。 生成した参照タイトルが本物かどうかに関する"direct"クエリ(Kadavath et al. 2022, Lin et al. 2022, Manakul et al. 2023)で実行される一貫性チェックは、作品の著者などの補助的な詳細を求める"direct"クエリとの一貫性チェックと比較される。 これらの整合性チェックは、参照が幻覚であるか否かを部分的に信頼性のある指標である。 特に、LMは独立したセッションでクエリされた際、しばしば幻覚的参照の作者を幻覚させるが、実際の参照の作者を一貫して識別する。 これは、幻覚は現在の訓練技術や表現に固有のものよりも、世代的な問題かもしれないことを示唆している。

State-of-the-art language models (LMs) are famous for "hallucinating" references. These fabricated article and book titles lead to harms, obstacles to their use, and public backlash. While other types of LM hallucinations are also important, we propose hallucinated references as the "drosophila" of research on hallucination in large language models (LLMs), as they are particularly easy to study. We show that simple search engine queries reliably identify such hallucinations, which facilitates evaluation. To begin to dissect the nature of hallucinated LM references, we attempt to classify them using black-box queries to the same LM, without consulting any external resources. Consistency checks done with "direct" queries about whether the generated reference title is real (inspired by Kadavath et al. 2022, Lin et al. 2022, Manakul et al. 2023) are compared to consistency checks with "indirect" queries which ask for ancillary details such as the authors of the work. These consistency checks are found to be partially reliable indicators of whether or not the reference is a hallucination. In particular, we find that LMs often hallucinate differing authors of hallucinated references when queried in independent sessions, while consistently identify authors of real references. This suggests that the hallucination may be more a generation issue than inherent to current training techniques or representation.
翻訳日:2023-09-14 18:02:09 公開日:2023-09-13
# 時間的行動定位のための行動感性学習

Action Sensitivity Learning for Temporal Action Localization ( http://arxiv.org/abs/2305.15701v2 )

ライセンス: Link先を確認
Jiayi Shao and Xiaohan Wang and Ruijie Quan and Junjun Zheng and Jiang Yang and Yi Yang(参考訳) アクションインスタンスの認識と位置決めを含む時間的アクションローカライゼーション(TAL)は、ビデオ理解において難しい課題である。 既存のほとんどのアプローチは、各フレームの相違する重要性を見越しながら、アクションクラスを直接予測し、境界へのオフセットを回帰する。 本稿では,この課題に取り組むためのアクションセンシティブ学習フレームワーク(asl)を提案する。このフレームワークは各フレームの価値を評価し,生成されたアクションセンシティブを活用してトレーニング手順を再調整することを目的としている。 まず、クラスレベルでのアクション感度とインスタンスレベルでのアクション感度を学習するための軽量なアクション感度評価器を導入する。 2つの枝の出力を結合して、2つのサブタスクの勾配を再重み付けする。 さらに, 各フレームの動作感度に基づいて, 動作認識フレームを正のペアとしてサンプリングし, 動作関連フレームの押し出しを行う機能向上のために, 行動感性コントラスト損失を設計する。 様々なアクションローカライゼーションベンチマーク(MultiThumos、Charades、Ego4D-Moment Queries v1.0、Epic-Kitchens 100、Thumos14、ActivityNet1.3)の研究は、ASLが平均mAPの点において、複数のシナリオ(例えばシングルラベル、密ラベル、エゴセントリック)で最先端の状態を超越していることを示している。

Temporal action localization (TAL), which involves recognizing and locating action instances, is a challenging task in video understanding. Most existing approaches directly predict action classes and regress offsets to boundaries, while overlooking the discrepant importance of each frame. In this paper, we propose an Action Sensitivity Learning framework (ASL) to tackle this task, which aims to assess the value of each frame and then leverage the generated action sensitivity to recalibrate the training procedure. We first introduce a lightweight Action Sensitivity Evaluator to learn the action sensitivity at the class level and instance level, respectively. The outputs of the two branches are combined to reweight the gradient of the two sub-tasks. Moreover, based on the action sensitivity of each frame, we design an Action Sensitive Contrastive Loss to enhance features, where the action-aware frames are sampled as positive pairs to push away the action-irrelevant frames. The extensive studies on various action localization benchmarks (i.e., MultiThumos, Charades, Ego4D-Moment Queries v1.0, Epic-Kitchens 100, Thumos14 and ActivityNet1.3) show that ASL surpasses the state-of-the-art in terms of average-mAP under multiple types of scenarios, e.g., single-labeled, densely-labeled and egocentric.
翻訳日:2023-09-14 18:01:41 公開日:2023-09-13
# ChatGPTは心の理論を持っているか?

Does ChatGPT have Theory of Mind? ( http://arxiv.org/abs/2305.14020v2 )

ライセンス: Link先を確認
Bart Holterman and Kees van Deemter(参考訳) 心の理論は、人間の思考と意思決定を理解する能力であり、言語コミュニケーションを含む人々間の社会的相互作用において重要な役割を果たす能力である。 本稿では,近年のChatGPT伝統における大規模言語モデルがToMをどの程度持っているかを検討する。 人間の推論と意思決定のバイアスに対処する6つのよく知られた問題をChatGPTの2つのバージョンに提案し、その結果を一連のプロンプト戦略で比較した。 ChatGPT-3に関する結果は幾らか決定的ではなかったが、ChatGPT-4は偶然に予想されるよりも頻繁に正しい答えに到達した。

Theory of Mind (ToM) is the ability to understand human thinking and decision-making, an ability that plays a crucial role in social interaction between people, including linguistic communication. This paper investigates to what extent recent Large Language Models in the ChatGPT tradition possess ToM. We posed six well-known problems that address biases in human reasoning and decision making to two versions of ChatGPT and we compared the results under a range of prompting strategies. While the results concerning ChatGPT-3 were somewhat inconclusive, ChatGPT-4 was shown to arrive at the correct answers more often than would be expected based on chance, although correct answers were often arrived at on the basis of false assumptions or invalid reasoning.
翻訳日:2023-09-14 18:01:11 公開日:2023-09-13
# 大規模言語モデルからのクエリによるHhorn Envelopesの学習

Learning Horn Envelopes via Queries from Large Language Models ( http://arxiv.org/abs/2305.12143v2 )

ライセンス: Link先を確認
Sophie Blum, Raoul Koudijs, Ana Ozaki and Samia Touileb(参考訳) 本稿では,Angluinの正確な学習モデルに基づいて,学習したニューラルネットワークから知識を抽出する手法について検討する。 このアプローチでは、oracleはトレーニングされたニューラルネットワークである。 ホルン理論を学習するためのアングリンの古典的アルゴリズムを検討し,ニューラルネットワークから学習するために必要な変化を研究する。 特に、訓練されたニューラルネットワークはホーンのオラクルとして振る舞うことができないため、その基礎となるターゲット理論はホーンではないかもしれない。 対象理論の「タイトなホーン近似」を抽出し、(最悪の場合)指数時間と多項式時間において、対象が多項式的に多くの非ホーン例を持つ場合の終了を保証する新しいアルゴリズムを提案する。 このアプローチの適用性を示すために,事前学習した言語モデルを用いて実験を行い,職業性バイアスを露呈する規則を抽出する。

We investigate an approach for extracting knowledge from trained neural networks based on Angluin's exact learning model with membership and equivalence queries to an oracle. In this approach, the oracle is a trained neural network. We consider Angluin's classical algorithm for learning Horn theories and study the necessary changes to make it applicable to learn from neural networks. In particular, we have to consider that trained neural networks may not behave as Horn oracles, meaning that their underlying target theory may not be Horn. We propose a new algorithm that aims at extracting the "tightest Horn approximation" of the target theory and that is guaranteed to terminate in exponential time (in the worst case) and in polynomial time if the target has polynomially many non-Horn examples. To showcase the applicability of the approach, we perform experiments on pre-trained language models and extract rules that expose occupation-based gender biases.
翻訳日:2023-09-14 18:00:57 公開日:2023-09-13
# CoMoSpeech:一貫性モデルによるワンステップ音声と歌声合成

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model ( http://arxiv.org/abs/2305.06908v2 )

ライセンス: Link先を確認
Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo(参考訳) denoising diffusion probabilistic models (ddpms) は音声合成に有望な性能を示している。 しかし、高いサンプル品質を達成するためには、推論速度を制限するために、多数の反復的なステップが必要である。 サンプリング速度を高めながらサンプル品質を維持することが課題となっている。 本稿では,単一の拡散サンプリングステップで音声合成を行い,高い音声品質を実現し,音声合成を実現する「コ・ナンシスタンス・"mo"del-based "speech" 合成法,comospeechを提案する。 整合性制約を適用し、よく設計された拡散に基づく教師モデルから整合性モデルを蒸留し、最終的に蒸留したCoMoSpeechにおいて優れた性能を得る。 私たちの実験では、単一のサンプリングステップで音声記録を生成することで、hspeech2に匹敵する単一のnvidia a100 gpuで、リアルタイムよりも150倍高速で、拡散サンプリングベースの音声合成が真に実用的であることを示す。 一方,テキスト音声合成と歌唱音声合成における客観的・主観的評価では,提案する教師モデルが最高の音響品質を得られ,従来の多段階拡散モデルと同等の音響品質で最良な推定速度が得られることを示す。 オーディオサンプルはhttps://comospeech.github.io/で入手できる。

Denoising diffusion probabilistic models (DDPMs) have shown promising performance for speech synthesis. However, a large number of iterative steps are required to achieve high sample quality, which restricts the inference speed. Maintaining sample quality while increasing sampling speed has become a challenging task. In this paper, we propose a "Co"nsistency "Mo"del-based "Speech" synthesis method, CoMoSpeech, which achieve speech synthesis through a single diffusion sampling step while achieving high audio quality. The consistency constraint is applied to distill a consistency model from a well-designed diffusion-based teacher model, which ultimately yields superior performances in the distilled CoMoSpeech. Our experiments show that by generating audio recordings by a single sampling step, the CoMoSpeech achieves an inference speed more than 150 times faster than real-time on a single NVIDIA A100 GPU, which is comparable to FastSpeech2, making diffusion-sampling based speech synthesis truly practical. Meanwhile, objective and subjective evaluations on text-to-speech and singing voice synthesis show that the proposed teacher models yield the best audio quality, and the one-step sampling based CoMoSpeech achieves the best inference speed with better or comparable audio quality to other conventional multi-step diffusion model baselines. Audio samples are available at https://comospeech.github.io/.
翻訳日:2023-09-14 18:00:43 公開日:2023-09-13
# 希少種分類のための深部視覚バイオメトリックス

Deep Visual-Genetic Biometrics for Taxonomic Classification of Rare Species ( http://arxiv.org/abs/2305.06695v3 )

ライセンス: Link先を確認
Tayfun Karaderi, Tilo Burghardt, Raphael Morard, Daniela Schmidt(参考訳) 視覚と遺伝的バイオメトリクスは、生物学的応用における種や個人を特定するために日常的に使用される。 しかし、この領域では、遺伝学による画像データが少ない希少クラスの視覚的分類を強化する試みは行われていない。 そこで本稿では,クロスドメイン関係を暗黙的にエンコードし,性能を向上させることを目的として,アライメントされたビジュアルジェネティック推論空間を提案する。 このようなアライメントは, 深層埋没モデルにより初めて達成され, 特に希少種に対するLTR(Long-tailed Recognition)の促進に直接適用可能であることを実証した。 実験では,32種にまたがる30k以上のプランクティックフォラミニファー殻の微視的画像と独立した遺伝データを用いて,その概念の有効性を実証した。 最も重要なことは,視覚と遺伝の協調が,最も稀な種の視覚のみの認識に有益であることを示すことである。 技術的には、三重項損失の定式化を用いて視覚的ResNet50ディープラーニングモデルを事前訓練し、初期埋め込み空間を作成する。 この空間をシーケンスグラフ変換(sgt)によって埋め込まれた遺伝的アンカーに基づいて再構成し,クロスドメインコサインアライメントによって視覚データにリンクする。 LTRアプローチはすべてのベンチマークの最先端性を向上し、クラスごとの視覚的遺伝的アライメントの追加は、特にレアなテールクラスのベンチマークを大幅に改善することを示す。 視覚的・遺伝的アライメントは希少なクラスを含む視覚生物学的データを補完する非常に効果的なツールであると考えられる。 提案された概念は、遺伝学と画像学を統合し、分類学空間と生命そのものをより完全な科学的表現にするための重要な将来のツールとなるかもしれない。 コード、重み、データ分割が完全な再現性のために公開される。

Visual as well as genetic biometrics are routinely employed to identify species and individuals in biological applications. However, no attempts have been made in this domain to computationally enhance visual classification of rare classes with little image data via genetics. In this paper, we thus propose aligned visual-genetic inference spaces with the aim to implicitly encode cross-domain associations for improved performance. We demonstrate for the first time that such alignment can be achieved via deep embedding models and that the approach is directly applicable to boosting long-tailed recognition (LTR) particularly for rare species. We experimentally demonstrate the efficacy of the concept via application to microscopic imagery of 30k+ planktic foraminifer shells across 32 species when used together with independent genetic data samples. Most importantly for practitioners, we show that visual-genetic alignment can significantly benefit visual-only recognition of the rarest species. Technically, we pre-train a visual ResNet50 deep learning model using triplet loss formulations to create an initial embedding space. We re-structure this space based on genetic anchors embedded via a Sequence Graph Transform (SGT) and linked to visual data by cross-domain cosine alignment. We show that an LTR approach improves the state-of-the-art across all benchmarks and that adding our visual-genetic alignment improves per-class and particularly rare tail class benchmarks significantly further. We conclude that visual-genetic alignment can be a highly effective tool for complementing visual biological data containing rare classes. The concept proposed may serve as an important future tool for integrating genetics and imageomics towards a more complete scientific representation of taxonomic spaces and life itself. Code, weights, and data splits are published for full reproducibility.
翻訳日:2023-09-14 18:00:20 公開日:2023-09-13
# 単一GPU上での大規模量子回路のエクササイズと近似シミュレーション

Exact and approximate simulation of large quantum circuits on a single GPU ( http://arxiv.org/abs/2304.14969v2 )

ライセンス: Link先を確認
Daniel Strano, Benn Bollay, Aryan Blaauw, Nathan Shammah, William J. Zeng, Andrea Mari(参考訳) 我々は、(ゲートモデル)量子コンピュータの高性能古典シミュレーションのためのオープンソースのソフトウェアライブラリであるQrackの性能をベンチマークする。 Qrackは、Schr\"odinger図において、基本的な量子ゲートからなる回路の適用の下で進化する$n$ qubitsの正確な量子状態をシミュレートする。 さらに、Qrackは、実行時間とメモリフットプリントの大幅な削減のために量子状態のチューナブルな減少を取引する近似シミュレーションを実行することもできる。 本稿では,シミュレーション手法(実演と近似)について概観し,物理ベースの手法とソフトウェアベースの手法を強調する。 さらに、1つのGPU上で計算量の多いベンチマークを実行し、大きな量子フーリエ変換回路と大きなランダム回路を実行する。 他の古典的シミュレータと比較して、最大27キュービットのフーリエ変換回路の正確なシミュレーションの競合実行時間を報告する。 また,54量子ビットに作用するランダム回路の全ての振幅の近似シミュレーションを平均忠実度が4\%以上である場合,スーパーコンピュータ資源を使わずに行うことが一般的である。

We benchmark the performances of Qrack, an open-source software library for the high-performance classical simulation of (gate-model) quantum computers. Qrack simulates, in the Schr\"odinger picture, the exact quantum state of $n$ qubits evolving under the application of a circuit composed of elementary quantum gates. Moreover, Qrack can also run approximate simulations in which a tunable reduction of the quantum state fidelity is traded for a significant reduction of the execution time and memory footprint. In this work, we give an overview of both simulation methods (exact and approximate), highlighting the main physics-based and software-based techniques. Moreover, we run computationally heavy benchmarks on a single GPU, executing large quantum Fourier transform circuits and large random circuits. Compared with other classical simulators, we report competitive execution times for the exact simulation of Fourier transform circuits with up to 27 qubits. We also demonstrate the approximate simulation of all amplitudes of random circuits acting on 54 qubits with 7 layers at average fidelity higher than $4\%$, a task commonly considered hard without super-computing resources.
翻訳日:2023-09-14 17:59:28 公開日:2023-09-13
# 英語テキストのクロスコーポレーション可読性互換性評価

Cross-corpus Readability Compatibility Assessment for English Texts ( http://arxiv.org/abs/2306.09704v2 )

ライセンス: Link先を確認
Zhenzhen Li, Han Ding, Shaohong Zhang(参考訳) テキスト可読性評価は様々な分野の研究者から注目されている。 しかし、異なる研究グループが異なるコーパスを利用するため、コーパス互換性の探索の欠如が課題となっている。 そこで本研究では,CRCA (Cross-corpus text Readability Compatibility Assessment) という新たな評価フレームワークを提案する。 このフレームワークは、(1)コーパス:CEFR, CLEC, CLOTH, NES, OSP, RACEの3つの主要なコンポーネントを含んでいる。 言語的特徴,GloVe単語ベクトル表現,それらの融合特徴を抽出した。 2)分類モデル:機械学習手法(XGBoost, SVM)とディープラーニング手法(BiLSTM, Attention-BiLSTM)を用いた。 (3) 互換性メトリクス: rjsd、rrnss、ndcgメトリクス。 その結果,1)OSPは他のデータセットと大きく異なり,コーパス互換性の検証が可能であった。 2)コーパス間の適応効果、特徴表現、分類方法。 (3) 適合性評価フレームワークの堅牢性を検証した3つの指標の一貫性のある結果。 本研究の成果は,コーパス選択,特徴表現,分類方法に関する貴重な知見を提供するとともに,クロスコーパストランスファー学習の出発点ともなり得る。

Text readability assessment has gained significant attention from researchers in various domains. However, the lack of exploration into corpus compatibility poses a challenge as different research groups utilize different corpora. In this study, we propose a novel evaluation framework, Cross-corpus text Readability Compatibility Assessment (CRCA), to address this issue. The framework encompasses three key components: (1) Corpus: CEFR, CLEC, CLOTH, NES, OSP, and RACE. Linguistic features, GloVe word vector representations, and their fusion features were extracted. (2) Classification models: Machine learning methods (XGBoost, SVM) and deep learning methods (BiLSTM, Attention-BiLSTM) were employed. (3) Compatibility metrics: RJSD, RRNSS, and NDCG metrics. Our findings revealed: (1) Validated corpus compatibility, with OSP standing out as significantly different from other datasets. (2) An adaptation effect among corpora, feature representations, and classification methods. (3) Consistent outcomes across the three metrics, validating the robustness of the compatibility assessment framework. The outcomes of this study offer valuable insights into corpus selection, feature representation, and classification methods, and it can also serve as a beginning effort for cross-corpus transfer learning.
翻訳日:2023-09-14 17:52:33 公開日:2023-09-13
# gemo-clap:正確な音声感情認識のためのジェンダー属性強調コントラスト言語-audio前訓練

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition ( http://arxiv.org/abs/2306.07848v8 )

ライセンス: Link先を確認
Yu Pan, Yanni Hu, Yuguang Yang, Wen Fei, Jixun Yao, Heng Lu, Lei Ma, Jianjun Zhao(参考訳) 対照的なクロスモダリティプリトレーニングは、近年、さまざまな分野で素晴らしい成功を収めている一方、音声感情認識(ser)におけるそのメリットに関する研究は限られている。 本稿では,SERのためのジェンダー属性付きコントラスト言語事前学習(CLAP)手法であるGEmo-CLAPを提案する。 具体的には、まず、事前学習されたテキストとオーディオエンコーダを用いて、SERのための効果的な感情CLAP(Emo-CLAP)を構築する。 第二に、SERにおけるジェンダー情報の重要性を考えると、2つの新しいマルチタスク学習ベースGEmo-CLAP(ML-GEmo-CLAP)とソフトラベルベースGEmo-CLAP(SL-GEmo-CLAP)モデルがさらに提案され、音声信号のジェンダー情報を組み込んでより合理的な目的を形成する。 IEMOCAPの実験から,提案した2つのGEmo-CLAPは,異なる事前学習モデルで一貫してEmo-CLAPを上回っていることが示された。 WavLMベースのSL-GEmo-CLAPは81.43%の最高のUARと83.16%のWARを取得し、最先端のSER法よりも少なくとも3%高い性能を発揮する。 当社のシステムはGithubで公開されている。

Contrastive cross-modality pretraining has recently exhibited impressive success in diverse fields, whereas there is limited research on their merits in speech emotion recognition (SER). In this paper, we propose GEmo-CLAP, a kind of gender-attribute-enhanced contrastive language-audio pretraining (CLAP) method for SER. Specifically, we first construct an effective emotion CLAP (Emo-CLAP) for SER, using pre-trained text and audio encoders. Second, given the significance of gender information in SER, two novel multi-task learning based GEmo-CLAP (ML-GEmo-CLAP) and soft label based GEmo-CLAP (SL-GEmo-CLAP) models are further proposed to incorporate gender information of speech signals, forming more reasonable objectives. Experiments on IEMOCAP indicate that our proposed two GEmo-CLAPs consistently outperform Emo-CLAP with different pre-trained models. Remarkably, the proposed WavLM-based SL-GEmo-CLAP obtains the best UAR of 81.43% and WAR of 83.16%, which performs better than state-of-the-art SER methods by at least 3%. Our system is open-sourced on Github.
翻訳日:2023-09-14 17:51:46 公開日:2023-09-13
# 離散空間の照明における勾配非定型品質多様性

Gradient-Informed Quality Diversity for the Illumination of Discrete Spaces ( http://arxiv.org/abs/2306.05138v2 )

ライセンス: Link先を確認
Raphael Boige, Guillaume Richard, J\'er\'emie Dona, Thomas Pierrot, Antoine Cully(参考訳) 品質多様性(QD)アルゴリズムは、一組の局所最適化ではなく、多種多様かつ高性能なソリューションの大規模なコレクションを探すために提案されている。 初期のqdアルゴリズムは目的関数と記述関数をブラックボックス関数と見なすが、勾配情報を用いて探索を加速し、連続入力空間上でのアルゴリズム全体の性能を向上させる新しいツールが導入された。 しかし、薬物発見や画像生成のような離散空間を含む幅広い応用がある。 これらの空間を探索することは、組合せ的に大きく、勾配は連続空間と同様の方法では使用できないため、難しい。 本稿では, 離散探索空間上での微分可能関数によるQD最適化を拡張したGIDE (Gradient-Informed Discrete Emitter) を用いたマップエリートを提案する。 me-gideは、目的関数とディスクリプタ関数の勾配情報とその離散入力を利用して、様々な高品質な解の探索を導くグラデーションインフォームド更新を提案する。 我々は,タンパク質設計や離散潜在空間照明を含む挑戦的なベンチマークにおいて,本手法がすべてのベンチマークにおいて最先端QDアルゴリズムより優れていることを示す。

Quality Diversity (QD) algorithms have been proposed to search for a large collection of both diverse and high-performing solutions instead of a single set of local optima. While early QD algorithms view the objective and descriptor functions as black-box functions, novel tools have been introduced to use gradient information to accelerate the search and improve overall performance of those algorithms over continuous input spaces. However a broad range of applications involve discrete spaces, such as drug discovery or image generation. Exploring those spaces is challenging as they are combinatorially large and gradients cannot be used in the same manner as in continuous spaces. We introduce map-elites with a Gradient-Informed Discrete Emitter (ME-GIDE), which extends QD optimisation with differentiable functions over discrete search spaces. ME-GIDE leverages the gradient information of the objective and descriptor functions with respect to its discrete inputs to propose gradient-informed updates that guide the search towards a diverse set of high quality solutions. We evaluate our method on challenging benchmarks including protein design and discrete latent space illumination and find that our method outperforms state-of-the-art QD algorithms in all benchmarks.
翻訳日:2023-09-14 17:51:17 公開日:2023-09-13
# スーパールミナルオブザーバーは量子重ね合わせを説明しない

Superluminal observers do not explain quantum superpositions ( http://arxiv.org/abs/2306.03961v2 )

ライセンス: Link先を確認
Andrzej Grudka, J\c{e}drzej Stempin, Jan W\'ojcik, Antoni W\'ojcik(参考訳) 現実の量子的記述は古典的記述とは全く異なる。 この違いを基本レベルで理解することは、まだ興味深いトピックです。 近年、Dragan and Ekert [New J. Phys. 22 (2020) 033038] は、いわゆる超光度観測者を考えることは、この文脈で有用であると仮定している。 特に、一般化ローレンツ変換の完全な数学的構造は、複数の量子力学的軌道の出現を意味するかもしれないと主張する。 これとは対照的に、一般化されたローレンツ変換は、一貫した方法で使われると、定経路の古典的概念と量子力学の多重経路との間には対応しないことを示す。

The quantum description of reality is quite different from the classical one. Understanding this difference at a fundamental level is still an interesting topic. Recently, Dragan and Ekert [New J. Phys. 22 (2020) 033038] postulated that considering so-called superluminal observers can be useful in this context. In particular, they claim that the full mathematical structure of the generalized Lorentz transformation may imply the emergence of multiple quantum mechanical trajectories. On the contrary, here we show that the generalized Lorentz transformation, when used in a consistent way, does not provide any correspondence between the classical concept of a definite path and the multiple paths of quantum mechanics.
翻訳日:2023-09-14 17:50:55 公開日:2023-09-13
# 非標的メタボロミックデータの自動アライメントのための最適輸送法

Optimal transport for automatic alignment of untargeted metabolomic data ( http://arxiv.org/abs/2306.03218v2 )

ライセンス: Link先を確認
Marie Breeur, George Stepaniants, Pekka Keski-Rahkonen, Philippe Rigollet, and Vivian Viallon(参考訳) 液体クロマトグラフィー質量分析法(lc-ms)による非標的代謝物プロファイリングは、生物種数、薬物開発、疾患診断、リスク予測など幅広い代謝物を測定する。 しかし、LC-MSの低スループットは、バイオマーカー発見、アノテーション、実験的な比較において大きな課題となり、複数のデータセットのマージが必要になる。 現在のデータプーリング手法は、データバリエーションやハイパーパラメータ依存に対する脆弱性のため、実用的な制限に直面している。 本稿では,LC-MSデータセットを最適なトランスポートで自動的に組み合わせる,フレキシブルでユーザフレンドリなアルゴリズムであるGromovMatcherを紹介する。 特徴強度相関構造を利用することで、gromovmatcherは既存のアプローチよりも優れたアライメント精度と堅牢性を提供する。 このアルゴリズムは、最小限のハイパーパラメータチューニングを必要とする数千の機能にスケールする。 本手法を肝・膵癌の実験的研究に応用し,患者アルコール摂取に関連する代謝的特徴の共有を見出し,gromovmatcherが複数のがんタイプに関連するライフスタイルリスク因子に関連するバイオマーカーの探索をいかに促進するかを実証した。

Untargeted metabolomic profiling through liquid chromatography-mass spectrometry (LC-MS) measures a vast array of metabolites within biospecimens, advancing drug development, disease diagnosis, and risk prediction. However, the low throughput of LC-MS poses a major challenge for biomarker discovery, annotation, and experimental comparison, necessitating the merging of multiple datasets. Current data pooling methods encounter practical limitations due to their vulnerability to data variations and hyperparameter dependence. Here we introduce GromovMatcher, a flexible and user-friendly algorithm that automatically combines LC-MS datasets using optimal transport. By capitalizing on feature intensity correlation structures, GromovMatcher delivers superior alignment accuracy and robustness compared to existing approaches. This algorithm scales to thousands of features requiring minimal hyperparameter tuning. Applying our method to experimental patient studies of liver and pancreatic cancer, we discover shared metabolic features related to patient alcohol intake, demonstrating how GromovMatcher facilitates the search for biomarkers associated with lifestyle risk factors linked to several cancer types.
翻訳日:2023-09-14 17:50:42 公開日:2023-09-13
# 大規模言語モデルの包括的概要

A Comprehensive Overview of Large Language Models ( http://arxiv.org/abs/2307.06435v3 )

ライセンス: Link先を確認
Humza Naveed, Asad Ullah Khan, Shi Qiu, Muhammad Saqib, Saeed Anwar, Muhammad Usman, Naveed Akhtar, Nick Barnes, Ajmal Mian(参考訳) 大規模言語モデル(LLM)は、最近自然言語処理タスクなどにおいて顕著な機能を示した。 LLMの成功は、この方向に多くの研究貢献をもたらした。 これらの作業には、基盤となるニューラルネットワークのアーキテクチャ革新、コンテキスト長の改善、モデルアライメント、トレーニングデータセット、ベンチマーク、効率性など、さまざまなトピックが含まれている。 LLM研究における技術の急速な発展と定期的なブレークスルーにより、この方向の進歩の全体像を理解することは極めて困難になっている。 LLMに関する文献が急速に増えていることを考えると、研究コミュニティは、この分野の最近の発展の簡潔かつ包括的概要から恩恵を受けることができることが不可欠である。 本稿はその概要を研究コミュニティに提供します。 既存の文献の体系的な扱いをLLMに関する幅広い概念に焦点をあてるだけでなく、個々の既存モデル、データセット、および主要な洞察に関する広範な詳細を包括的な要約を提供することにも特に注意を払う。 また,本研究の今後の展望を概観する上でも,LLMのより広範な研究方向性のレビューを新たに実施することで,今後の展望を概観する。 llmの自己完結型包括的概要では,関連する背景概念と,この研究方向性のフロンティアにおける先進的トピックについて論じる。 本論文は, 体系的な調査を行うだけでなく, 研究者や実践者が, LLM研究の方向性を推し進めるために, 既存の研究の広範な情報的要約から洞察を引き出すための, 迅速な総合的な参照も意図している。

Large Language Models (LLMs) have recently demonstrated remarkable capabilities in natural language processing tasks and beyond. This success of LLMs has led to a large influx of research contributions in this direction. These works encompass diverse topics such as architectural innovations of the underlying neural networks, context length improvements, model alignment, training datasets, benchmarking, efficiency and more. With the rapid development of techniques and regular breakthroughs in LLM research, it has become considerably challenging to perceive the bigger picture of the advances in this direction. Considering the rapidly emerging plethora of literature on LLMs, it is imperative that the research community is able to benefit from a concise yet comprehensive overview of the recent developments in this field. This article provides that overview to the research community. It not only focuses on a systematic treatment of the existing literature on a broad range of LLM related concept, but also pays special attention to providing comprehensive summaries with extensive details about the individual existing models, datasets and major insights. We also pay heed to aligning our overview with the emerging outlook of this research direction by accounting for the other recently materializing reviews of the broader research direction of LLMs. Our self-contained comprehensive overview of LLMs discusses relevant background concepts along with covering the advanced topics at the frontier of this research direction. This review article is intended to not only provide a systematic survey, but also a quick comprehensive reference for the researchers and practitioners to draw insights from extensive informative summaries of the existing works to advance the LLM research direction.
翻訳日:2023-09-14 17:41:29 公開日:2023-09-13
# 対人視線パターンに基づく数発パーソナライズされた塩分予測

Few-shot Personalized Saliency Prediction Based on Inter-personnel Gaze Patterns ( http://arxiv.org/abs/2307.02799v2 )

ライセンス: Link先を確認
Yuya Moroto, Keisuke Maeda, Takahiro Ogawa and Miki Haseyama(参考訳) 本稿では,対人的視線パターンに基づく個人性予測について述べる。 一般的なサリエンシーマップとは対照的に、パーソナライズされたサリエンシーマップ(psm)は、注視領域の多様性から個々の視覚嗜好を得るのに役立つ人物特有の視覚的注意を示すため、大きな可能性を秘めている。 PSM予測は、見えない画像のPSMを取得するために必要であるが、個々の視線パターンの複雑さのため、その予測は依然として難しい課題である。 様々な画像の個々の視線パターンをモデル化するには,各人物から得られた視線追跡データがpsmを構成する必要があるが,膨大な量のデータを取得することは困難である。 ここでは、限られた量のデータから効率的なPSM予測を行う方法の一つが、他人から得られた視線追跡データの有効利用である。 本稿では,他者のpsmを効果的に扱うために,視線追跡データを取得するための画像の効果的な選択と,他者のpsmの構造情報の保存に焦点を当てる。 実験の結果,上記の2つの焦点が眼球追跡データの限られた量でPSM予測に有効であることが確認された。

This paper presents few-shot personalized saliency prediction based on inter-personnel gaze patterns. In contrast to a general saliency map, a personalized saliecny map (PSM) has been great potential since its map indicates the person-specific visual attention that is useful for obtaining individual visual preferences from heterogeneity of gazed areas. The PSM prediction is needed for acquiring the PSM for the unseen image, but its prediction is still a challenging task due to the complexity of individual gaze patterns. For modeling individual gaze patterns for various images, although the eye-tracking data obtained from each person is necessary to construct PSMs, it is difficult to acquire the massive amounts of such data. Here, one solution for efficient PSM prediction from the limited amount of data can be the effective use of eye-tracking data obtained from other persons. In this paper, to effectively treat the PSMs of other persons, we focus on the effective selection of images to acquire eye-tracking data and the preservation of structural information of PSMs of other persons. In the experimental results, we confirm that the above two focuses are effective for the PSM prediction with the limited amount of eye-tracking data.
翻訳日:2023-09-14 17:41:00 公開日:2023-09-13
# クリフォード代数は、第二の量子化されたクォークとレプトンと対応するベクトルおよびスカラーボソン場を理解するのにどのように役立つか。

How Clifford algebra helps understand second quantized quarks and leptons and corresponding vector and scalar boson fields, {\it opening a new step beyond the standard model} ( http://arxiv.org/abs/2306.17167v2 )

ライセンス: Link先を確認
Norma Susana Mankoc Borstnik(参考訳) 本稿では、d$-次元空間におけるフェルミオン場とボソン場の内部空間の記述と、作用素 $\gamma^a$ の奇数および偶数積の重ね合わせである奇数かつ偶数な「ベーシスベクトル」について述べる。 クリフォード奇数の「基底ベクトル」はフェルミオン場の性質を示し、族に現れるが、クリフォードの「基底ベクトル」でさえ対応するゲージ場の性質を示す。 d\ge (13+1)$ 対応する生成演算子は$d=(3+1)$ で表され、族を含むすべてのクォークとレプトンの性質、そしてスカラー場を含むゲージボソン場の性質がいくつか予測されている。 フェルミオン場とボソン場に対する生成と消滅作用素の性質は、$so(5,1)$ が $su(3)\times u(1)$ の対称性を示す場合、$d=(5+1)$ で示される。

This article presents the description of the internal spaces of fermion and boson fields in $d$-dimensional spaces, with the odd and even "basis vectors" which are the superposition of odd and even products of operators $\gamma^a$. While the Clifford odd "basis vectors" manifest properties of fermion fields, appearing in families, the Clifford even "basis vectors" demonstrate properties of the corresponding gauge fields. In $d\ge (13+1)$ the corresponding creation operators manifest in $d=(3+1)$ the properties of all the observed quarks and leptons, with the families included, and of their gauge boson fields, with the scalar fields included, making several predictions. The properties of the creation and annihilation operators for fermion and boson fields are illustrated on the case $d=(5+1)$, when $SO(5,1)$ demonstrates the symmetry of $SU(3)\times U(1)$.
翻訳日:2023-09-14 17:40:39 公開日:2023-09-13
# RL4CO: Combinatorial Optimization Benchmarkのための拡張強化学習

RL4CO: an Extensive Reinforcement Learning for Combinatorial Optimization Benchmark ( http://arxiv.org/abs/2306.17100v2 )

ライセンス: Link先を確認
Federico Berto, Chuanbo Hua, Junyoung Park, Minsu Kim, Hyeonah Kim, Jiwoo Son, Haeyeon Kim, Joungho Kim, Jinkyoo Park(参考訳) 組合せ最適化(CO)ベンチマークのための拡張強化学習(RL)であるRL4COを紹介する。 rl4coは最先端のソフトウェアライブラリとモジュラリティや構成管理といった実装のベストプラクティスを駆使して、ニューラルネットワークアーキテクチャ、環境、rlアルゴリズムの適応のために研究者が効率的かつ容易に修正できるようにしている。 パフォーマンスアセスメントのためのトラベルセールスマン問題(tsp)のような特定のタスクに対する既存のフォーカスとは対照的に、様々なcoタスクにおけるスケーラビリティと一般化能力の重要性を強調する。 また,ゼロショット一般化,サンプル効率,各種モデルのデータ分布変化への適応性を体系的に評価した。 実験により,最近のSOTA法は,これらの測定値を用いて評価した場合,先行手法に遅れがあることが示され,ニューラルCO(NCO)ソルバの性能のよりバランスのとれた視点の必要性が示唆された。 RL4COは、複雑な現実世界のタスクに対する新しいソリューションの探求を奨励し、NCOコミュニティがソフトウェア工学から科学を分離する標準化されたインターフェースを通じて既存の方法と比較できるようにしたいと思っています。 ライブラリをhttps://github.com/kaist-silab/rl4coで公開しています。

We introduce RL4CO, an extensive reinforcement learning (RL) for combinatorial optimization (CO) benchmark. RL4CO employs state-of-the-art software libraries as well as best practices in implementation, such as modularity and configuration management, to be efficient and easily modifiable by researchers for adaptations of neural network architecture, environments, and RL algorithms. Contrary to the existing focus on specific tasks like the traveling salesman problem (TSP) for performance assessment, we underline the importance of scalability and generalization capabilities for diverse CO tasks. We also systematically benchmark zero-shot generalization, sample efficiency, and adaptability to changes in data distributions of various models. Our experiments show that some recent SOTA methods fall behind their predecessors when evaluated using these metrics, suggesting the necessity for a more balanced view of the performance of neural CO (NCO) solvers. We hope RL4CO will encourage the exploration of novel solutions to complex real-world tasks, allowing the NCO community to compare with existing methods through a standardized interface that decouples the science from software engineering. We make our library publicly available at https://github.com/kaist-silab/rl4co.
翻訳日:2023-09-14 17:40:15 公開日:2023-09-13
# ディテールエンハンス付き度制御可能な軽量高速転送方式

Degree-Controllable Lightweight Fast Style Transfer with Detail Attention-enhanced ( http://arxiv.org/abs/2306.16846v2 )

ライセンス: Link先を確認
Jiang Shi Qi(参考訳) スタイル転送法は通常、訓練済みのVGGまたはより複雑なモデルをエンコーダとして使用し、より良い効果を得る。 これにより高解像度画像の処理が極めて遅くなる。 そこで本研究では, 小型で浅く, コンパクトなアーキテクチャを採用し, 効率的な前方推定を実現する, ディテールを制御できる軽量高速転送方式 (dcdaelfst) を提案する。 さらに,コンテンツ画像の意味的,構造的情報を保存するためにグローバル意味的不分散損失と,それらの詳細情報を保存するための局所的細部注意強化モジュールを,スタイル判別器と共に活用する。 パラメータが限られているにもかかわらず、全体的なスタイルマッチングのパフォーマンスが向上する。 最も重要なのは、主観評価に基づいて、細部保持とスタイル転送の程度を制御できる最初の方法である。 比較実験では,このモデルは17~250倍小さく,0.26~6.5倍高速で,高速処理速度は4k高精細画像上で0.38秒であった。

Style transfer methods usually use pre-trained VGG or more complex models as encoders to achieve better effects. This leads to extremely slow processing of high-resolution images. To solve the problem, we propose an degree-controllable detail attention-enhanced lightweight fast style transfer (DcDaeLFST), which adopts a small, shallow, and compact architecture for efficient forward inference. Additionally, our exploit a global semantic invariance loss to preserve the semantic and structural information of content images, and a local detail attention-enhanced module to preserve the detail information of them, together with a style discriminator. Despite limited parameters, it can achieve overall better style matching performance. Most importantly, it is the first method that can control the degree of detail retention and style transfer based on subjective evaluation. In comparative experiments, our model is 17-250 times smaller and 0.26-6.5 times faster than other state-of-the-art models, with the fastest processing speed of 0.38s on 4K high-resolution images.
翻訳日:2023-09-14 17:39:54 公開日:2023-09-13
# lranet:低ランク近似ネットワークを用いた高精度かつ効率的なシーンテキスト検出

LRANet: Towards Accurate and Efficient Scene Text Detection with Low-Rank Approximation Network ( http://arxiv.org/abs/2306.15142v3 )

ライセンス: Link先を確認
Yuchen Su, Zhineng Chen, Zhiwen Shao, Yuning Du, Zhilong Ji, Jinfeng Bai, Yong Zhou, Yu-Gang Jiang(参考訳) 近年,テキストローカライズのためのパラメータ化テキスト形状を予測する回帰法が,シーンテキスト検出において人気を博している。 しかし、既存のパラメータ化テキスト形状法は、テキスト固有の形状情報の利用を無視するため、任意の形状のテキストのモデリングに制限がある。 さらに、パイプライン全体の時間消費がほとんど見過ごされ、全体的な予測速度が最適を下回っている。 この問題に対処するために,まず,低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。 データ無関係なパラメータ化を用いる他の形状表現法とは異なり、本手法では特異値分解を用いてラベル付きテキスト輪郭から学習した数個の固有ベクトルを用いてテキスト形状を再構成する。 異なるテキスト輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。 次に,速度加速のための2重割当て方式を提案する。 推論速度を加速するためにスパース割り当てブランチを採用し、一方、密度の高い割り当てブランチを介してトレーニングするための十分な教師付き信号を提供する。 これらの設計に基づいて、LRANetと呼ばれる正確で効率的な任意の形状のテキスト検出器を実装した。 大規模な実験はいくつかの挑戦的なベンチマークで行われ、最先端の手法と比較してLRANetの精度と効率が優れていることを示した。 コードはまもなくリリースされる。

Recently, regression-based methods, which predict parameterized text shapes for text localization, have gained popularity in scene text detection. However, the existing parameterized text shape methods still have limitations in modeling arbitrary-shaped texts due to ignoring the utilization of text-specific shape information. Moreover, the time consumption of the entire pipeline has been largely overlooked, leading to a suboptimal overall inference speed. To address these issues, we first propose a novel parameterized text shape method based on low-rank approximation. Unlike other shape representation methods that employ data-irrelevant parameterization, our approach utilizes singular value decomposition and reconstructs the text shape using a few eigenvectors learned from labeled text contours. By exploring the shape correlation among different text contours, our method achieves consistency, compactness, simplicity, and robustness in shape representation. Next, we propose a dual assignment scheme for speed acceleration. It adopts a sparse assignment branch to accelerate the inference speed, and meanwhile, provides ample supervised signals for training through a dense assignment branch. Building upon these designs, we implement an accurate and efficient arbitrary-shaped text detector named LRANet. Extensive experiments are conducted on several challenging benchmarks, demonstrating the superior accuracy and efficiency of LRANet compared to state-of-the-art methods. Code will be released soon.
翻訳日:2023-09-14 17:39:32 公開日:2023-09-13
# モーション適応によるビデオフレーム補間

Boost Video Frame Interpolation via Motion Adaptation ( http://arxiv.org/abs/2306.13933v2 )

ライセンス: Link先を確認
Haoning Wu, Xiaoyun Zhang, Weidi Xie, Ya Zhang, Yanfeng Wang(参考訳) ビデオフレーム補間(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。 既存の学習ベースのvfi手法は大きな成功を収めているが、トレーニングデータセットの動作分布が限られているため、まだ一般化能力が限られている。 本稿では,テスト時に見えない動作に適応できる新しい最適化ベースのVFI手法を提案する。 本手法は,映像フレーム間の動き特性を活用するサイクル一貫性適応戦略に基づく。 また、既存のトレーニング済みVFIモデルの動作推定モジュールに挿入可能な軽量アダプタを導入し、適応効率を向上させる。 各種ベンチマーク実験により,提案手法は2フレームVFIモデルの性能を向上し,既存手法よりも優れた性能を発揮することが示された。

Video frame interpolation (VFI) is a challenging task that aims to generate intermediate frames between two consecutive frames in a video. Existing learning-based VFI methods have achieved great success, but they still suffer from limited generalization ability due to the limited motion distribution of training datasets. In this paper, we propose a novel optimization-based VFI method that can adapt to unseen motions at test time. Our method is based on a cycle-consistency adaptation strategy that leverages the motion characteristics among video frames. We also introduce a lightweight adapter that can be inserted into the motion estimation module of existing pre-trained VFI models to improve the efficiency of adaptation. Extensive experiments on various benchmarks demonstrate that our method can boost the performance of two-frame VFI models, outperforming the existing state-of-the-art methods, even those that use extra input.
翻訳日:2023-09-14 17:39:09 公開日:2023-09-13
# SeACo-Paraformer:フレキシブルで効果的なホットワードカスタマイズ機能を備えた非自己回帰型ASRシステム

SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability ( http://arxiv.org/abs/2308.03266v3 )

ライセンス: Link先を確認
Xian Shi, Yexin Yang, Zerui Li, Yanni Chen, Zhifu Gao, Shiliang Zhang(参考訳) ホットワードのカスタマイズ(Hotword customization)は、ASRのフィールドに残る問題の一つであり、ASRシステムの利用者がエンティティ、人、その他のフレーズの名前をカスタマイズしてより良い経験を得ることを可能にするために価値がある。 過去数年間、asrコンテキスト化のための効果的なモデリング戦略が開発されてきたが、トレーニングの安定性と目に見えないアクティベーションプロセスに関する改善の余地がある。 本稿では,フレキシブルかつ効果的なホットワードカスタマイズ機能を有する新しいnar型asrシステムであるseaco-paraformerを提案する。 AEDベースのモデルの精度、NARモデルの効率、そして優れたパフォーマンスの明示的なカスタマイズ能力の利点を持っている。 5万時間に及ぶ産業用ビッグデータを用いた広範な実験を通じて,提案手法は,カスタマイズにおける強力なベースラインを上回っている。 さらに,大規模なホットワードをフィルタリングし,さらなる改良を行うための効率的な方法を探究する。 比較した産業モデルは、ソースコードと2つのホットワードテストセットがすべてオープンソースである。

Hotword customization is one of the concerned issues remained in ASR field - it is of value to enable users of ASR systems to customize names of entities, persons and other phrases to obtain better experience. The past few years have seen effective modeling strategies for ASR contextualization developed, but they still exhibit space for improvement about training stability and the invisible activation process. In this paper we propose Semantic-Augmented Contextual-Paraformer (SeACo-Paraformer) a novel NAR based ASR system with flexible and effective hotword customization ability. It possesses the advantages of AED-based model's accuracy, NAR model's efficiency, and explicit customization capacity of superior performance. Through extensive experiments with 50,000 hours of industrial big data, our proposed model outperforms strong baselines in customization. Besides, we explore an efficient way to filter large-scale incoming hotwords for further improvement. The industrial models compared, source codes and two hotword test sets are all open source.
翻訳日:2023-09-14 17:33:26 公開日:2023-09-13
# 大規模言語モデルを用いた数学的推論学習におけるスケーリング関係

Scaling Relationship on Learning Mathematical Reasoning with Large Language Models ( http://arxiv.org/abs/2308.01825v2 )

ライセンス: Link先を確認
Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Keming Lu, Chuanqi Tan, Chang Zhou, Jingren Zhou(参考訳) 数学的推論は大規模言語モデル(LLM)では難しい課題であるが、LLMの能力に関するスケーリングの関係は未解明である。 本稿では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。 事前学習損失は,モデルのパラメータ数よりもモデルの性能の指標として優れている。 我々は,教師ありデータの量が異なる教師あり微調整(sft)を適用し,データ量とモデル性能の対数線形関係を実験的に把握し,教師ありデータセットの拡張により,よりよいモデルが改善されないことを発見した。 人間の努力なしにモデル性能を向上させるためのデータサンプルを増やすため,Rejection sample Fine-Tuning (RFT) を提案する。 RFTは教師付きモデルを使用して、強化された微調整データセットとして正しい推論パスを生成し、収集する。 より明確な推論経路を含む拡張サンプルにより、RTTはLLMの数学的推論性能を向上する。 RFTは、性能の低いLLMに対して、さらなる改善をもたらします。 さらに,ラマ-7bをgsm8k上で49.3\%の精度で押し上げる複数のモデルからの拒絶サンプルを合成し,教師付き微調整(sft)精度を35.9\%を大きく上回った。

Mathematical reasoning is a challenging task for large language models (LLMs), while the scaling relationship of it with respect to LLM capacity is under-explored. In this paper, we investigate how the pre-training loss, supervised data amount, and augmented data amount influence the reasoning performances of a supervised LLM. We find that pre-training loss is a better indicator of the model's performance than the model's parameter count. We apply supervised fine-tuning (SFT) with different amounts of supervised data and empirically find a log-linear relation between data amount and model performance, and we find better models improve less with enlarged supervised datasets. To augment more data samples for improving model performances without any human effort, we propose to apply Rejection sampling Fine-Tuning (RFT). RFT uses supervised models to generate and collect correct reasoning paths as augmented fine-tuning datasets. We find with augmented samples containing more distinct reasoning paths, RFT improves mathematical reasoning performance more for LLMs. We also find RFT brings more improvement for less performant LLMs. Furthermore, we combine rejection samples from multiple models which push LLaMA-7B to an accuracy of 49.3\% on GSM8K which outperforms the supervised fine-tuning (SFT) accuracy of 35.9\% significantly.
翻訳日:2023-09-14 17:33:11 公開日:2023-09-13
# GRDD:ギリシャ方言NLPのためのデータセット

GRDD: A Dataset for Greek Dialectal NLP ( http://arxiv.org/abs/2308.00802v2 )

ライセンス: Link先を確認
Stergios Chatzikyriakidis and Chatrine Qwaider and Ilias Kolokousis and Christina Koula and Dimitris Papadakis and Efthymia Sakellariou(参考訳) 本稿では,いくつかの現代ギリシア方言の計算研究のためのデータセットを提案する。 原文は、現代のギリシア語、クレタ語、ポントス語、北ギリシア語、キプロス語の4つの方言から得られる。 データセットはかなりの大きさであり、不均衡であるにもかかわらず、このタイプの大規模な方言資源を現代ギリシア語の方言のために作成する最初の試みである。 次に、データセットを使用して方言の idefntificationを実行します。 従来のMLアルゴリズムやシンプルなDLアーキテクチャを実験する。 この結果から,課題の方言には,単純なMLモデルでもタスク上でうまく機能できる十分な特徴がある可能性が示唆された。 上位実行アルゴリズムではエラー解析が行われ、多くの場合、エラーはデータセットのクリーニング不足によるものである。

In this paper, we present a dataset for the computational study of a number of Modern Greek dialects. It consists of raw text data from four dialects of Modern Greek, Cretan, Pontic, Northern Greek and Cypriot Greek. The dataset is of considerable size, albeit imbalanced, and presents the first attempt to create large scale dialectal resources of this type for Modern Greek dialects. We then use the dataset to perform dialect idefntification. We experiment with traditional ML algorithms, as well as simple DL architectures. The results show very good performance on the task, potentially revealing that the dialects in question have distinct enough characteristics allowing even simple ML models to perform well on the task. Error analysis is performed for the top performing algorithms showing that in a number of cases the errors are due to insufficient dataset cleaning.
翻訳日:2023-09-14 17:32:46 公開日:2023-09-13
# ニューラル距離とテクスチャ認識変換器を併用した多相CTによる膵癌の予後予測の改善

Improved Prognostic Prediction of Pancreatic Cancer Using Multi-Phase CT by Integrating Neural Distance and Texture-Aware Transformer ( http://arxiv.org/abs/2308.00507v2 )

ライセンス: Link先を確認
Hexin Dong, Jiawen Yao, Yuxing Tang, Mingze Yuan, Yingda Xia, Jian Zhou, Hong Lu, Jingren Zhou, Bin Dong, Le Lu, Li Zhang, Zaiyi Liu, Yu Shi, Ling Zhang(参考訳) 膵管腺癌 (PDAC) は致命的な致死性癌であり, 腫瘍と血管の関与が切除性に大きく影響し, 全身的に生存する。 しかし、現在の予後予測法では腫瘍と近くの重要な血管との関係を明示的に正確に調査することができない。 本稿では, 異なる患者のCT像における腫瘍と血管の正確な関係を記述し, 予後予測の主要な特徴として, 学習可能なニューラル距離を提案する。 また,CNNやLSTMを用いたダイナミックコントラストCT画像の腫瘍拡張パターンを利用した既存モデルと異なり,CNNやトランスフォーマーモジュールを用いて局所的・大域的特徴を融合させることにより,マルチフェーズコントラストCTにおける腫瘍関連テクスチャ特徴の抽出を改善し,マルチフェーズCT画像間で抽出された特徴をさらに強化した。 pdac患者1,070名を対象に,マルチセンター(n=4)データセットにおいて,提案法と既存の手法を広範囲に評価・比較し,その臨床的有用性を確認した。 先進的リスクマーカーは術前因子の中で生存率の最も高い予測因子であり,neoadjuvant療法の恩恵を受けるリスクの高い患者を選定するための確立された臨床因子と組み合わせる可能性を秘めている。

Pancreatic ductal adenocarcinoma (PDAC) is a highly lethal cancer in which the tumor-vascular involvement greatly affects the resectability and, thus, overall survival of patients. However, current prognostic prediction methods fail to explicitly and accurately investigate relationships between the tumor and nearby important vessels. This paper proposes a novel learnable neural distance that describes the precise relationship between the tumor and vessels in CT images of different patients, adopting it as a major feature for prognosis prediction. Besides, different from existing models that used CNNs or LSTMs to exploit tumor enhancement patterns on dynamic contrast-enhanced CT imaging, we improved the extraction of dynamic tumor-related texture features in multi-phase contrast-enhanced CT by fusing local and global features using CNN and transformer modules, further enhancing the features extracted across multi-phase CT images. We extensively evaluated and compared the proposed method with existing methods in the multi-center (n=4) dataset with 1,070 patients with PDAC, and statistical analysis confirmed its clinical effectiveness in the external test set consisting of three centers. The developed risk marker was the strongest predictor of overall survival among preoperative factors and it has the potential to be combined with established clinical factors to select patients at higher risk who might benefit from neoadjuvant therapy.
翻訳日:2023-09-14 17:32:34 公開日:2023-09-13
# ブラインド画像品質評価のためのテスト時間適応

Test Time Adaptation for Blind Image Quality Assessment ( http://arxiv.org/abs/2307.14735v2 )

ライセンス: Link先を確認
Subhadeep Roy, Shankhanil Mitra, Soma Biswas and Rajiv Soundararajan(参考訳) ブラインド画像品質評価(iqa)アルゴリズムの設計は大幅に改善されているが、トレーニングとテストシナリオの分散シフトは、推論時にこれらのメソッドのパフォーマンス低下につながることが多い。 これは、テスト時間適応(TTA)技術の研究を動機付け、推論時のパフォーマンスを改善する。 TTAに使われている既存の補助的タスクや損失関数は、事前訓練されたモデルの品質適応には関係しないかもしれない。 本研究は,視覚障害者のためのTTAを実現するために,バッチとサンプルレベルの2つの新しい品質関連補助タスクを導入する。 特に,バッチレベルでの相対的損失とサンプルレベルでの相対的ランク損失を導入し,モデルの品質を意識し,対象データに適応させる。 実験の結果,実験結果から得られた少数の画像を用いても,ソースモデルのバッチ正規化統計を更新することにより,性能の大幅な向上が期待できることがわかった。

While the design of blind image quality assessment (IQA) algorithms has improved significantly, the distribution shift between the training and testing scenarios often leads to a poor performance of these methods at inference time. This motivates the study of test time adaptation (TTA) techniques to improve their performance at inference time. Existing auxiliary tasks and loss functions used for TTA may not be relevant for quality-aware adaptation of the pre-trained model. In this work, we introduce two novel quality-relevant auxiliary tasks at the batch and sample levels to enable TTA for blind IQA. In particular, we introduce a group contrastive loss at the batch level and a relative rank loss at the sample level to make the model quality aware and adapt to the target data. Our experiments reveal that even using a small batch of images from the test distribution helps achieve significant improvement in performance by updating the batch normalization statistics of the source model.
翻訳日:2023-09-14 17:32:07 公開日:2023-09-13
# 時間グラフベンチマークの実証評価

An Empirical Evaluation of Temporal Graph Benchmark ( http://arxiv.org/abs/2307.12510v4 )

ライセンス: Link先を確認
Le Yu(参考訳) 本稿では,動的グラフライブラリ(DyGLib)をTGBに拡張することにより,時間グラフベンチマーク(TGB)の実証評価を行う。 TGBと比較して、より徹底的な比較のための11の人気のある動的グラフ学習方法を含む。 実験の結果,(1)様々なデータセットにおける性能変化をそれぞれ異なるモデルで表現し,(2)dyglibを用いた場合,tgbで報告された結果と比較して,いくつかのベースラインの性能が著しく向上することがわかった。 本研究は,TGB上での動的グラフ学習手法の評価における研究者の取り組みの容易化と,フォローアップ研究に直接参照可能な結果の提供を目的とする。 このプロジェクトで使われるリソースはすべてhttps://github.com/yule-BUAA/DyGLib_TGBで公開されている。 この作業は進行中であり、コミュニティからのフィードバックは改善に歓迎されています。

In this paper, we conduct an empirical evaluation of Temporal Graph Benchmark (TGB) by extending our Dynamic Graph Library (DyGLib) to TGB. Compared with TGB, we include eleven popular dynamic graph learning methods for more exhaustive comparisons. Through the experiments, we find that (1) different models depict varying performance across various datasets, which is in line with previous observations; (2) the performance of some baselines can be significantly improved over the reported results in TGB when using DyGLib. This work aims to ease the researchers' efforts in evaluating various dynamic graph learning methods on TGB and attempts to offer results that can be directly referenced in the follow-up research. All the used resources in this project are publicly available at https://github.com/yule-BUAA/DyGLib_TGB. This work is in progress, and feedback from the community is welcomed for improvements.
翻訳日:2023-09-14 17:31:27 公開日:2023-09-13
# ロバストナンバープレート認識のための文字時系列マッチング

Character Time-series Matching For Robust License Plate Recognition ( http://arxiv.org/abs/2307.11336v2 )

ライセンス: Link先を確認
Quang Huy Che and Tung Do Thanh and Cuong Truong Van(参考訳) 自動ナンバープレート認識(ALPR)が普及し,交通やスマートシティなど多くの分野に適用されている。 しかし、光変化や不明瞭なライセンスプレート(lp)文字、画質など、現実の状況が変化するため、現在の手法を実用的問題に適用する場合は、まだいくつかの制限がある。 ほぼ最近のalprアルゴリズムは単一のフレーム上で処理されるため、画質が悪い場合の精度が低下する。 本稿では,複数フレームのライセンスプレートを追跡することにより,ライセンスプレート認識精度を向上させる手法を提案する。 まず、検出されたナンバープレートを正しく整列するために、Adaptive License Plate Rotationアルゴリズムを適用する。 第2に,多くの結果フレームからライセンスプレート文字を認識する文字時系列マッチング法を提案する。 提案手法は,RTX A5000 GPUカード上でリアルタイムに精度96.7$%のUFPR-ALPRデータセットを高速にアーカイブする。 また,ベトナムのalprシステムに対してアルゴリズムを展開する。 ナンバープレート検出と文字認識の精度はそれぞれ0.881と0.979$mAP^{test}$@.5である。 ソースコードはhttps://github.com/chequanghuy/Character-Time-Series-Matching.gitで入手できる。

Automatic License Plate Recognition (ALPR) is becoming a popular study area and is applied in many fields such as transportation or smart city. However, there are still several limitations when applying many current methods to practical problems due to the variation in real-world situations such as light changes, unclear License Plate (LP) characters, and image quality. Almost recent ALPR algorithms process on a single frame, which reduces accuracy in case of worse image quality. This paper presents methods to improve license plate recognition accuracy by tracking the license plate in multiple frames. First, the Adaptive License Plate Rotation algorithm is applied to correctly align the detected license plate. Second, we propose a method called Character Time-series Matching to recognize license plate characters from many consequence frames. The proposed method archives high performance in the UFPR-ALPR dataset which is \boldmath$96.7\%$ accuracy in real-time on RTX A5000 GPU card. We also deploy the algorithm for the Vietnamese ALPR system. The accuracy for license plate detection and character recognition are 0.881 and 0.979 $mAP^{test}$@.5 respectively. The source code is available at https://github.com/chequanghuy/Character-Time-series-Matching.git
翻訳日:2023-09-14 17:31:14 公開日:2023-09-13
# モデルとスズマン:大規模言語モデルを用いたAIアライメントにおける主エージェント問題に関する行動経済学的研究

Of Models and Tin Men: A Behavioural Economics Study of Principal-Agent Problems in AI Alignment using Large-Language Models ( http://arxiv.org/abs/2307.11137v3 )

ライセンス: Link先を確認
Steve Phelps and Rebecca Ranson(参考訳) AIアライメント(AI Alignment)は、単一のデザイナと、設計者がエージェントの動作をその目的と一致させようとする人工エージェントとの相互作用としてしばしば提示される。 一般的に事前学習される大言語モデル(llm)でインスタンス化されたエージェントの出現により、現実世界では設計者とエージェントの間に1対1の対応がなく、多くのエージェント(人工的および人間的の両方)は異質な値を持っているため、aiの安全性の本質的な側面を捉えていないと論じる。 したがって、AIの安全性には経済的側面があり、プリンシパルエージェントの問題が発生する可能性が高い。 主エージェント問題紛争は、情報非対称性とエージェントの効用とその主役間の固有の不整合が原因で発生し、エージェントを訓練を通じて所望の実用機能を採用するように強制することによって、この固有の不整合は克服できない。 我々は、プリンシパルエージェント問題の根底にある仮定は、実際の状況において事前訓練されたaiモデルを含む安全問題の本質を捉えるために不可欠であると主張する。 AIの安全性に対して実証的なアプローチをとることで、GPTモデルが主エージェント間の衝突に対してどのように反応するかを調査する。 GPT-3.5 と GPT-4 をベースとしたエージェントは,簡単なオンラインショッピングタスクで主目的を上回り,主エージェントの対立の明確な証拠を示す。 驚くべきことに、初期のGPT-3.5モデルは情報非対称性の変化に応じてよりニュアンスな振る舞いを示すが、後期のGPT-4モデルはそれ以前のアライメントに固執する。 この結果は、経済学の原則をアライメントプロセスに組み込むことの重要性を強調している。

AI Alignment is often presented as an interaction between a single designer and an artificial agent in which the designer attempts to ensure the agent's behavior is consistent with its purpose, and risks arise solely because of conflicts caused by inadvertent misalignment between the utility function intended by the designer and the resulting internal utility function of the agent. With the advent of agents instantiated with large-language models (LLMs), which are typically pre-trained, we argue this does not capture the essential aspects of AI safety because in the real world there is not a one-to-one correspondence between designer and agent, and the many agents, both artificial and human, have heterogeneous values. Therefore, there is an economic aspect to AI safety and the principal-agent problem is likely to arise. In a principal-agent problem conflict arises because of information asymmetry together with inherent misalignment between the utility of the agent and its principal, and this inherent misalignment cannot be overcome by coercing the agent into adopting a desired utility function through training. We argue the assumptions underlying principal-agent problems are crucial to capturing the essence of safety problems involving pre-trained AI models in real-world situations. Taking an empirical approach to AI safety, we investigate how GPT models respond in principal-agent conflicts. We find that agents based on both GPT-3.5 and GPT-4 override their principal's objectives in a simple online shopping task, showing clear evidence of principal-agent conflict. Surprisingly, the earlier GPT-3.5 model exhibits more nuanced behaviour in response to changes in information asymmetry, whereas the later GPT-4 model is more rigid in adhering to its prior alignment. Our results highlight the importance of incorporating principles from economics into the alignment process.
翻訳日:2023-09-14 17:30:55 公開日:2023-09-13
# 非二項安定化符号からのナラインCFT

Narain CFTs from nonbinary stabilizer codes ( http://arxiv.org/abs/2307.10581v2 )

ライセンス: Link先を確認
Yasin Ferdous Alam, Kohki Kawabata, Tatsuma Nishioka, Takuya Okuda and Shinichiro Yahagi(参考訳) 我々は、カライン共形体論(CFT)を、クーディット安定化符号から、素電力オーダーの有限体上の量子安定化符号($p$素数と$m\geq 1$)、または$k>1$の環上の量子安定化符号($k>1$)の構成へと一般化する。 我々の構成は有理 CFT であり、これは以前の CFT よりも、ナライン CFT のモジュライ空間のより大きな点集合をカバーする。 また、非ゼロ論理量子ビットの量子安定化符号と有限集合のナライン CFT との対応も提案する。 本稿では,よく知られた安定化符号との対応について述べる。

We generalize the construction of Narain conformal field theories (CFTs) from qudit stabilizer codes to the construction from quantum stabilizer codes over the finite field of prime power order ($\mathbb{F}_{p^m}$ with $p$ prime and $m\geq 1$) or over the ring $\mathbb{Z}_k$ with $k>1$. Our construction results in rational CFTs, which cover a larger set of points in the moduli space of Narain CFTs than the previous one. We also propose a correspondence between a quantum stabilizer code with non-zero logical qubits and a finite set of Narain CFTs. We illustrate the correspondence with well-known stabilizer codes.
翻訳日:2023-09-14 17:30:19 公開日:2023-09-13
# 脳画像データのためのエッジ対応ハードクラスタリンググラフポーリング

Edge-aware Hard Clustering Graph Pooling for Brain Imaging Data ( http://arxiv.org/abs/2308.11909v4 )

ライセンス: Link先を確認
Cheng Zhu, Jiayi Zhu, Lijuan Zhang, Xi Wu, Shuqi Yang, Ping Liang, Honghan Chen, Ying Tan(参考訳) グラフ畳み込みネットワーク(GCN)は、異なる脳領域間の非ユークリッド空間依存性を捉えることができ、GCNにおけるグラフプーリング演算子は、表現学習能力を高め、異常な脳地図を取得する鍵となる。 しかしながら、既存の研究設計の大半は、グラフプーリングアプリケーションのシナリオを限定するだけでなく、重要なサブストラクチャをキャプチャする能力を低下させる方法で、元のエッジ機能を無視しながら、ノードの観点からのみグラフプーリング演算子を設計している。 本研究では,エッジ対応ハードクラスタリンググラフプーリング(EHCPool)と呼ばれる,多次元エッジ機能を最初にサポートするクラスタリンググラフプーリング法を開発した。 EHCPoolは、エッジ特徴に基づく最初の'Edge-to-node'スコア評価基準を提案し、ノード特徴の意義を評価する。 クリティカルな部分グラフをより効果的に捉えるために、グラフのスパースハードクラスタリング割り当てを適応的に学習するように、新しいイテレーションnトップ戦略も設計されている。 その後、各独立部分グラフの集約ノードとエッジ特徴情報に対して、革新的なN-E集約戦略を示す。 提案モデルは,多地点脳イメージングデータを用いて評価し,最新性能を得た。 この手法は、データ駆動の観点から異なるタイプの機能的脳ネットワークを探索する可能性を秘めている最初のディープラーニングツールであると考えている。 コアコードはhttps://github.com/swfen/ehcpool。

Graph Convolutional Networks (GCNs) can capture non-Euclidean spatial dependence between different brain regions, and the graph pooling operator in GCNs is key to enhancing the representation learning capability and acquiring abnormal brain maps. However, the majority of existing research designs graph pooling operators only from the perspective of nodes while disregarding the original edge features, in a way that not only confines graph pooling application scenarios, but also diminishes its ability to capture critical substructures. In this study, a clustering graph pooling method that first supports multidimensional edge features, called Edge-aware hard clustering graph pooling (EHCPool), is developed. EHCPool proposes the first 'Edge-to-node' score evaluation criterion based on edge features to assess node feature significance. To more effectively capture the critical subgraphs, a novel Iteration n-top strategy is further designed to adaptively learn sparse hard clustering assignments for graphs. Subsequently, an innovative N-E Aggregation strategy is presented to aggregate node and edge feature information in each independent subgraph. The proposed model was evaluated on multi-site brain imaging public datasets and yielded state-of-the-art performance. We believe this method is the first deep learning tool with the potential to probe different types of abnormal functional brain networks from data-driven perspective. Core code is at: https://github.com/swfen/EHCPool.
翻訳日:2023-09-14 17:23:15 公開日:2023-09-13
# 完全渦ビームを用いたリングコアファイバーによる光通信信号の伝送

Transmission of optical communication signals through ring core fiber using perfect vortex beams ( http://arxiv.org/abs/2308.11354v2 )

ライセンス: Link先を確認
Nelson Villalba, Crist\'obal Melo, Sebasti\'an Ayala, Christopher Mancilla, Wladimir Valenzuela, Miguel Figueroa, Erik Baradit, Riu Lin, Ming Tang, Stephen P. Walborn, Gustavo Lima, Gabriel Saavedra, Gustavo Ca\~nas(参考訳) 軌道角運動量は、古典的および量子通信に適用可能な高容量のデータ伝送システムの実装に使用できる。 本稿では,リングコア光ファイバにおける完全渦ビームとラゲール・ガウスビームの発生と伝送特性について実験的に検討する。 以上の結果から, 単一調製段階では, 完全な渦ビームはリングラジウスの変動が少なく, 高い光学パワーをリングコアファイバーに結合できることがわかった。 これらの結果は、軌道角運動量を用いたファイバーベースの通信リンクを確立するための電力要件を低下させ、空間分割多重ファイバ上の高次元量子通信の将来の実装の舞台を定めている。

Orbital angular momentum can be used to implement high capacity data transmission systems that can be applied for classical and quantum communications. Here we experimentally study the generation and transmission properties of the so-called perfect vortex beams and the Laguerre-Gaussian beams in ring-core optical fibers. Our results show that when using a single preparation stage, the perfect vortex beams present less ring-radius variation that allows coupling of higher optical power into a ring core fiber. These results lead to lower power requirements to establish fiber-based communications links using orbital angular momentum and set the stage for future implementations of high-dimensional quantum communication over space division multiplexing fibers.
翻訳日:2023-09-14 17:22:44 公開日:2023-09-13
# 複数のドメインや言語にまたがる自然なスペルエラーエミュレーションによるジェネレーションスペル補正の一手法

A Methodology for Generative Spelling Correction via Natural Spelling Errors Emulation across Multiple Domains and Languages ( http://arxiv.org/abs/2308.09435v2 )

ライセンス: Link先を確認
Nikita Martynov, Mark Baushenko, Anastasia Kozlova, Katerina Kolomeytseva, Aleksandr Abramov, Alena Fenogenova(参考訳) 現代の大きな言語モデルは、テキスト生成と一般化の素晴らしい能力を示している。 しかし、特にスペルミスやミスタイピングの修正に関しては、テキスト編集タスクの解決に苦労することが多い。 本稿では,英語とロシア語でテストされた生成的綴り補正 (generative spelling correction,sc) の手法について述べる。 本研究は,テキスト中の自然な綴り誤りやミスタイピングを探索し,その誤りを正しい文でエミュレートする方法を研究し,生成モデルの事前学習手順を効果的に強化する。 このようなエミュレーションの影響と異なるテキスト領域におけるモデルの能力について検討する。 本研究では,2つの綴り腐敗手法について検討する。 1)まず、特定のデータセットからエラーの統計を利用して、ミスをする際の人間の行動を模倣し、 2) 第二に、最も一般的なスペルエラー、キーボードミスクリック、そしてテキスト内のヒューリスティックが加わった。 我々は,事前学習および微調整段階における各種腐敗戦略,モデルアーキテクチャ,サイズを用いた実験を行い,単一ドメインおよび複数ドメインテストセットを用いたモデル評価を行った。 本研究の実用的な成果として,sage(spell checking via additionation and generative distribution emulation)を導入する。 自動生成scのためのライブラリであり、事前訓練された生成モデルと組み込み拡張アルゴリズムのファミリーを含んでいる。

Modern large language models demonstrate impressive capabilities in text generation and generalization. However, they often struggle with solving text editing tasks, particularly when it comes to correcting spelling errors and mistypings. In this paper, we present a methodology for generative spelling correction (SC), which was tested on English and Russian languages and potentially can be extended to any language with minor changes. Our research mainly focuses on exploring natural spelling errors and mistypings in texts and studying the ways those errors can be emulated in correct sentences to effectively enrich generative models' pre-train procedure. We investigate the impact of such emulations and the models' abilities across different text domains. In this work, we investigate two spelling corruption techniques: 1) first one mimics human behavior when making a mistake through leveraging statistics of errors from particular dataset and 2) second adds the most common spelling errors, keyboard miss clicks, and some heuristics within the texts. We conducted experiments employing various corruption strategies, models' architectures and sizes on the pre-training and fine-tuning stages and evaluated the models using single-domain and multi-domain test sets. As a practical outcome of our work, we introduce SAGE(Spell checking via Augmentation and Generative distribution Emulation). It is a library for automatic generative SC that includes a family of pre-trained generative models and built-in augmentation algorithms.
翻訳日:2023-09-14 17:22:09 公開日:2023-09-13
# RFDforFin:GAN生成指紋画像のロバスト深部偽造検出

RFDforFin: Robust Deep Forgery Detection for GAN-generated Fingerprint Images ( http://arxiv.org/abs/2308.09285v2 )

ライセンス: Link先を確認
Hui Miao, Yuanfang Guo and Yunhong Wang(参考訳) 画像生成技術の急速な発展に伴い、GAN生成指紋画像の悪用は、特定の状況において公衆の安全に重大な脅威をもたらす。 既存のユニバーサルディープ偽造検出手法は偽の指紋画像の検出に応用できるが、容易に攻撃され、堅牢性に乏しい。 一方,指紋画像の深部偽造検出法は特に設計されていない。 本稿では, 指紋のユニークなリッジ特徴とgan生成画像の生成成果物を組み合わせた, 指紋画像に対する最初の深い偽造検出手法を提案する。 具体的にはまず,尾根に沿った灰色変化を利用して特異な指紋特徴を抽出するリッジストリームを構築した。 次に、入力指紋画像のfftに基づくスペクトルを活用した生成アーチファクトストリームを構築し、より堅牢な生成アーチファクト特徴を抽出する。 最終的に、ユニークなリッジ機能と生成アーティファクト機能はバイナリ分類(すなわち、リアルまたはフェイク)のために融合される。 包括的実験により,提案手法は低複雑性で有効かつ堅牢であることが示された。

With the rapid development of the image generation technologies, the malicious abuses of the GAN-generated fingerprint images poses a significant threat to the public safety in certain circumstances. Although the existing universal deep forgery detection approach can be applied to detect the fake fingerprint images, they are easily attacked and have poor robustness. Meanwhile, there is no specifically designed deep forgery detection method for fingerprint images. In this paper, we propose the first deep forgery detection approach for fingerprint images, which combines unique ridge features of fingerprint and generation artifacts of the GAN-generated images, to the best of our knowledge. Specifically, we firstly construct a ridge stream, which exploits the grayscale variations along the ridges to extract unique fingerprint-specific features. Then, we construct a generation artifact stream, in which the FFT-based spectrums of the input fingerprint images are exploited, to extract more robust generation artifact features. At last, the unique ridge features and generation artifact features are fused for binary classification (i.e., real or fake). Comprehensive experiments demonstrate that our proposed approach is effective and robust with low complexities.
翻訳日:2023-09-14 17:21:46 公開日:2023-09-13
# 旅行セールスマン問題に対するメタヒューリスティックな解の並列アンサンブル

A Parallel Ensemble of Metaheuristic Solvers for the Traveling Salesman Problem ( http://arxiv.org/abs/2308.07347v2 )

ライセンス: Link先を確認
Swetha Varadarajan and Darrell Whitley(参考訳) トラベリングセールスマン問題(TSP)は、文献でよく研究されているNPハード問題の一つである。 最先端のTSP解決者はLin-Kernighan-Helsgaun(LKH)ヒューリスティックとエッジアセンブリクロスオーバー(EAX)である。 最近の研究は、再起動機構を持つEAXが広範囲のTSPインスタンスでうまく機能することを示唆している。 しかし、この研究は都市問題2000に制限されている。 2,000から85,900の問題について検討する。 解法の性能は問題の種類によって異なることが分かる。 しかし,これらの解器をアンサンブル設定で組み合わせることで,個々の解器の性能より優れる。 計算資源の豊富さを活用する効率的な方法として,アンサンブルの設定が考えられる。 EAX と LKH に加えて、EAX と Mixing Genetic Algorithm (MGA) のハイブリッド版もいくつか使用しています。 MGAとEAXのハイブリッドは、いくつかの難しい問題を解くことが知られている。 ハイブリッド版のアンサンブルは1万都市以上の問題に対して最先端の解法よりも優れています。

The travelling salesman problem (TSP) is one of the well-studied NP-hard problems in the literature. The state-of-the art inexact TSP solvers are the Lin-Kernighan-Helsgaun (LKH) heuristic and Edge Assembly crossover (EAX). A recent study suggests that EAX with restart mechanisms perform well on a wide range of TSP instances. However, this study is limited to 2,000 city problems. We study for problems ranging from 2,000 to 85,900. We see that the performance of the solver varies with the type of the problem. However, combining these solvers in an ensemble setup, we are able to outperform the individual solver's performance. We see the ensemble setup as an efficient way to make use of the abundance of compute resources. In addition to EAX and LKH, we use several versions of the hybrid of EAX and Mixing Genetic Algorithm (MGA). A hybrid of MGA and EAX is known to solve some hard problems. We see that the ensemble of the hybrid version outperforms the state-of-the-art solvers on problems larger than 10,000 cities.
翻訳日:2023-09-14 17:21:29 公開日:2023-09-13
# 機械学習を用いたバスケットボール全国大会におけるアグレッシブゲームプランの最適化

Optimizing Offensive Gameplan in the National Basketball Association with Machine Learning ( http://arxiv.org/abs/2308.06851v2 )

ライセンス: Link先を確認
Eamon Mukhopadhyay(参考訳) NBAで発生した分析革命を通じて、特定のメトリクスと公式の開発により、チーム、コーチ、プレイヤーにゲームを見る新しい方法が与えられた。 しかし、問題は生まれる - メトリクスをどうやって検証できるのか? 一つの方法は単に眼球近似(様々なゲームプランを試す)と試行錯誤(試行錯誤)であり、見積もりベースでコストがかかるアプローチである。 もう1つのアプローチは、機械学習技術を使用して、独自の機能のセットで既存のメトリクスをモデル化することである。 このアプローチの鍵となるのは、これらの機能を選択すれば、単純なメトリック評価で個々の分析を使うのではなく、これらの機能の組み合わせの有効性を評価できるということです。 正確なモデルがあれば、特にゲームプランの実行の具体性を決定するのに役立ちます。 本稿では,線形回帰モデルとニューラルネットワーク回帰モデルの両方を用いて,異なるnbaプレイタイプとの相関性を示す統計的ortg(offensive rating, dean oliver)が得られた。 モデルの正確さを正当化として、次のステップはモデルのアウトプットをテスト例で最適化することであった。

Throughout the analytical revolution that has occurred in the NBA, the development of specific metrics and formulas has given teams, coaches, and players a new way to see the game. However - the question arises - how can we verify any metrics? One method would simply be eyeball approximation (trying out many different gameplans) and/or trial and error - an estimation-based and costly approach. Another approach is to try to model already existing metrics with a unique set of features using machine learning techniques. The key to this approach is that with these features that are selected, we can try to gauge the effectiveness of these features combined, rather than using individual analysis in simple metric evaluation. If we have an accurate model, it can particularly help us determine the specifics of gameplan execution. In this paper, the statistic ORTG (Offensive Rating, developed by Dean Oliver) was found to have a correlation with different NBA playtypes using both a linear regression model and a neural network regression model, although ultimately, a neural network worked slightly better than linear regression. Using the accuracy of the models as a justification, the next step was to optimize the output of the model with test examples, which would demonstrate the combination of features to best achieve a highly functioning offense.
翻訳日:2023-09-14 17:21:13 公開日:2023-09-13
# 開発AIのブートストラップ:単純な能力から知能な人間互換AIへ

Bootstrapping Developmental AIs: From Simple Competences to Intelligent Human-Compatible AIs ( http://arxiv.org/abs/2308.04586v7 )

ライセンス: Link先を確認
Mark Stefik and Robert Price(参考訳) AIを作成するための主流のアプローチは、大きな言語モデル(LLM)を備えた生成的およびディープラーニングAIアプローチと、手作業で構築された従来型のシンボリックAIアプローチである。 手作業で構築されたAIは、概して周囲のドメインでも不安定である。 生成AIは奇妙な間違いを犯し、気づかない。 どちらのアプローチでもaiは容易に指示できず、常識を使わず、好奇心を欠いている。 抽象的な知識を持っているが、社会的に整合性がない。 開発AIには、もっと可能性があるかもしれない。 人間の子供のように能力が発達する。 彼らは本質的な能力から始まり、環境と対話し、その相互作用から学びます。 彼らは対話し、人々から学び、知覚、認知、共通基盤を確立する。 発達aiは、視覚とマルチモーダルの知覚、オブジェクト認識と操作を含む能力を示している。 抽象発見、好奇心、模倣学習、初期の言語獲得のための計算モデルも実証されている。 その約束は、開発AIが、人びとのように自己開発で社会的に発達した能力を獲得することだ。 それらは、現在の主流のAIアプローチの欠点に対処し、最終的に批判的な読み出し、証明評価、仮説テストを含む洗練された学習形式へとつながる。 しかし、発達段階のAIプロジェクトは、スピーチが熟達するまでの約2年間、人間の発達に対応する幼児レベルの能力にはまだ達していない。 彼らは読書の障壁を橋渡しせず、巧みに、そして懐疑的にオンライン情報資源を描いている。 このポジションペーパーは、知的で人間と互換性のあるAIを作るために開発AIの実践を拡張するための論理、展望、ギャップ、課題を概説する。

The mainstream approaches for creating AIs are the generative and deep learning AI approaches with large language models (LLMs) and the traditional manually constructed symbolic AI approach. Manually constructed AIs are generally brittle even in circumscribed domains. Generative AIs make strange mistakes and do not notice them. In both approaches the AIs cannot be instructed easily, fail to use common sense, and lack curiosity. They have abstract knowledge but lack social alignment. Developmental AIs may have more potential. They develop competences like human children do. They start with innate competences, interact with the environment, and learn from their interactions. They interact and learn from people and establish perceptual, cognitive, and common grounding. Developmental AIs have demonstrated capabilities including visual and multimodal perception, and object recognition and manipulation. Computational models for abstraction discovery, curiosity, imitation learning, and early language acquisition have also been demonstrated. The promise is that developmental AIs will acquire self-developed and socially developed competences like people do. They would address the shortcomings of current mainstream AI approaches, and ultimately lead to sophisticated forms of learning involving critical reading, provenance evaluation, and hypothesis testing. However, developmental AI projects have not yet fully reached toddler level competencies corresponding to human development at about two years of age, before their speech is fluent. They do not bridge the Reading Barrier, to skillfully and skeptically draw on online information resources. This position paper lays out the logic, prospects, gaps, and challenges for extending the practice of developmental AIs to create intelligent, human-compatible AIs.
翻訳日:2023-09-14 17:20:32 公開日:2023-09-13
# 量子計測理論における正準占有状態(マクロ)のエントロピー

Entropy of the Canonical Occupancy (Macro) State in the Quantum Measurement Theory ( http://arxiv.org/abs/2308.04472v2 )

ライセンス: Link先を確認
Arnaldo Spalvieri(参考訳) 本論文は, 平衡における不連続粒子の任意の数からなる系のエントロピーを解析し, エントロピーを位相空間表現ではなく, 系の量子状態の関数として定義する。 我々の重要な観察は、系のエントロピーが、系の粒子に許される量子状態のランダム占有数のシャノンエントロピーであるということである。 我々は、Jaynesの最大エントロピー原理に基づく情報理論的アプローチと、現代の量子熱力学における標準的典型性をもたらす経験的アプローチを考える。 情報理論のアプローチでは、粒子の量子状態の占有数は多変量分布であり、経験的アプローチではその分布は多変量ハイパー幾何学である。 経験的確率のサンプルの数が無限大になる傾向があるため、多変量超幾何分布は多項分布に傾向がある。 これにより、少なくとも極限では、2つのアプローチが和解する。 量子計測の観点から考えると、本解析は最大エントロピーアプローチを特徴付ける有名な主観主義よりも、別の種類の主観主義の存在を示唆する。 この主観性の形態は、情報理論と経験的アプローチの両方において、量子測定の後にエントロピーがゼロに崩壊する原因である。

The paper analyzes the entropy of a system composed by an arbitrary number of indistinguishable particles at the equilibrium, defining entropy as a function of the quantum state of the system, not of its phase space representation. Our crucial observation is that the entropy of the system is the Shannon entropy of the random occupancy numbers of the quantum states allowed to system's particles. We consider the information-theoretic approach, which is based on Jaynes' maximum entropy principle, and the empirical approach, which leads to canonical typicality in modern quantum thermodynamics. In the information-theoretic approach, the occupancy numbers of particles' quantum states are multinomially distributed, while in the empirical approach their distribution is multivariate hypergeometric. As the number of samples of the empirical probability tends to infinity, the multivariate hypergeometric distribution tends to the multinomial distribution. This reconciles, at least in the limit, the two approaches. When regarded from the perspective of quantum measurement, our analysis suggests the existence of another kind of subjectivism than the well-known subjectivism that characterizes the maximum entropy approach. This form of subjectivity is responsible for the collapse of entropy to zero after the quantum measurement, both in the information-theoretic and in the empirical approaches.
翻訳日:2023-09-14 17:20:06 公開日:2023-09-13
# MSAC:信頼度の高い音声感情認識のための複数音声属性制御法

MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition ( http://arxiv.org/abs/2308.04025v2 )

ライセンス: Link先を確認
Yu Pan, Yuguang Yang, Yuheng Huang, Jingjing Yin, Yanni Hu, Heng Lu, Lei Ma, Jianjun Zhao(参考訳) 言語感情認識(SER)は、大きな進歩にもかかわらず、特に野生世界では、感情特性の複雑さとあいまいさのため、依然として困難である。 最近の研究は主に認識と一般化の能力に焦点を当てているが、本研究はser法の信頼性に関する調査の先駆けとなり、様々な音声属性間のデータ分布に基づく音声感情のモデル化を探求する。 具体的には、加算マージンソフトマックス損失を採用する新しいcnnベースのserモデルが最初に提案される。 第2に,音声属性を明示的に制御し,感情非依存な特徴の影響を軽減し,きめ細かい感情関連表現を抽出するための,新しい複数音声属性制御法であるmsacを提案する。 第3に,提案する統一サーワークフローの信頼性を,分散検出手法を用いて検証する試みを行った。 単体SERシナリオとクロスコーパスSERシナリオの両方の実験により、提案した統合SERワークフローは、すべての面で一貫してベースラインを上回ります。 注目すべきは、シングルコーパスSERにおいて、提案されたSERワークフローは、 WAR 72.97% と UAR 71.76% のIEMOCAPコーパスで優れた認識結果を達成することである。

Despite significant progress, speech emotion recognition (SER) remains challenging due to inherent complexity and ambiguity of the emotion attribute, particularly in wild world. Whereas current studies primarily focus on recognition and generalization abilities, this work pioneers an investigation into the reliability of SER methods and explores the modeling of speech emotion based on data distribution across various speech attributes. Specifically, a novel CNN-based SER model that adopts additive margin softmax loss is first desgined. Second, a novel multiple speech attribute control method MSAC is proposed to explicitly control speech attributes, enabling the model to be less affected by emotion-agnostic features and extract fine-grained emotion-related representations. Third, we make a first attempt to examine the reliability of our proposed unified SER workflow using the out-of-distribution detection method. Experiments on both single and cross-corpus SER scenarios show that our proposed unified SER workflow consistently outperforms the baseline in all aspects. Remarkably, in single-corpus SER, the proposed SER workflow achieves superior recognition results with a WAR of 72.97% and a UAR of 71.76% on the IEMOCAP corpus.
翻訳日:2023-09-14 17:19:46 公開日:2023-09-13
# 多体局在ダイナミクスを用いた古典的シャドウトモグラフィ

Efficient Classical Shadow Tomography through Many-body Localization Dynamics ( http://arxiv.org/abs/2309.01258v2 )

ライセンス: Link先を確認
Tian-Gang Zhou and Pengfei Zhang(参考訳) 古典的なシャドウトモグラフィーは、最小の測定で量子多体系から多くの性質を抽出するための強力なツールである。 それにもかかわらず、少数体の演算子に最適な性能を与える手法は、超低温の原子ガスのような特定の量子シミュレーターにおいて挑戦的なタスクであるランダムな2量子ビットゲートの適用を必要とする。 そこで本研究では,多体局在化の力学を基礎とした代替手法を提案する。 シャドウノルムの探索を通じて, 解析的に表現論的モデルを用い, 数値的にtebdアルゴリズムを応用し, 浅い回路や測定による臨界性に匹敵する顕著な効率が得られることを示す。 この効率性は、パウリ測定プロトコルよりも指数関数的に有利である。 以上の知見は,サンプリングおよび再構成過程全体を包含する直接数値シミュレーションによって裏付けられる。 その結果, 量子シミュレータの出力状態を解析する手法が提案されている。

Classical shadow tomography serves as a potent tool for extracting numerous properties from quantum many-body systems with minimal measurements. Nevertheless, prevailing methods yielding optimal performance for few-body operators necessitate the application of random two-qubit gates, a task that can prove challenging on specific quantum simulators such as ultracold atomic gases. In this work, we introduce an alternative approach founded on the dynamics of many-body localization, a phenomenon extensively demonstrated in optical lattices. Through an exploration of the shadow norm -- both analytically, employing a phenomenological model, and numerically, utilizing the TEBD algorithm -- we demonstrate that our scheme achieves remarkable efficiency comparable to shallow circuits or measurement-induced criticality. This efficiency provides an exponential advantage over the Pauli measurement protocol for few-body measurements. Our findings are corroborated through direct numerical simulations encompassing the entire sampling and reconstruction processes. Consequently, our results present a compelling methodology for analyzing the output states of quantum simulators.
翻訳日:2023-09-14 17:14:06 公開日:2023-09-13
# Switch and Conquer: 分散サドルポイント問題に対する確率的勾配Oracleの切り替えによる効率的なアルゴリズム

Switch and Conquer: Efficient Algorithms By Switching Stochastic Gradient Oracles For Decentralized Saddle Point Problems ( http://arxiv.org/abs/2309.00997v2 )

ライセンス: Link先を確認
Chhavi Sharma, Vishnu Narayanan and P. Balamurugan(参考訳) 中央サーバを使わずに分散した環境では,非スムースな強凸型サドルポイント問題を考える。 このクラスにおける問題のコンセンサスを定式化するために、一般の勾配計算オラクルが原始変数と双対変数を更新できる不正確な原始双対勾配(非コンパクトPDHG)法を開発した。 まず, 確率的分散減少勾配 (SVRG) を持つ不正確なPDHGの性能について検討した。 svrg oracle による ipdhg のイテレートの初期保存的進展の有意な現象を明らかにする。 これに対処するため、我々は、更新の初期段階においてイテレートの進捗をサドルポイントソリューションに早めるために、オラクルが適切な結束でsvrg oracleに切り替えるために、一般化された確率勾配(gsg)計算を用いる、シンプルで効果的なスイッチングアイデアを開発した。 提案アルゴリズムは,C-DPSSG(Decentralized Proximal Switching Stochastic Gradient Method with Compression)と名付けられ,線形レートで$\epsilon$-accurate saddle point Solutionに収束することが証明された。 高精度なソリューションの提供とは別に,GSG と SVRG のオーラクルの最適収束位相を利用することで,C-DPSSG が低・ナトリウム精度の解を得るのに適しており,特定の用途に有用であることを示す。 2つのベンチマーク機械学習アプリケーションの数値実験により、C-DPSSGの競合性能が示され、理論的結果が検証された。 実験で使用されたコードは \href{https://github.com/chhavisharma123/C-DPSSG-CDC2023}{here} で見ることができる。

We consider a class of non-smooth strongly convex-strongly concave saddle point problems in a decentralized setting without a central server. To solve a consensus formulation of problems in this class, we develop an inexact primal dual hybrid gradient (inexact PDHG) procedure that allows generic gradient computation oracles to update the primal and dual variables. We first investigate the performance of inexact PDHG with stochastic variance reduction gradient (SVRG) oracle. Our numerical study uncovers a significant phenomenon of initial conservative progress of iterates of IPDHG with SVRG oracle. To tackle this, we develop a simple and effective switching idea, where a generalized stochastic gradient (GSG) computation oracle is employed to hasten the iterates' progress to a saddle point solution during the initial phase of updates, followed by a switch to the SVRG oracle at an appropriate juncture. The proposed algorithm is named Decentralized Proximal Switching Stochastic Gradient method with Compression (C-DPSSG), and is proven to converge to an $\epsilon$-accurate saddle point solution with linear rate. Apart from delivering highly accurate solutions, our study reveals that utilizing the best convergence phases of GSG and SVRG oracles makes C-DPSSG well suited for obtaining solutions of low/medium accuracy faster, useful for certain applications. Numerical experiments on two benchmark machine learning applications show C-DPSSG's competitive performance which validate our theoretical findings. The codes used in the experiments can be found \href{https://github.com/chhavisharma123/C-DPSSG-CDC2023}{here}.
翻訳日:2023-09-14 17:13:47 公開日:2023-09-13
# ライドバーグ原子配列の制限ヒルベルト空間における量子モンテカルロシミュレーション

Quantum Monte Carlo simulations in the restricted Hilbert space of Rydberg atom arrays ( http://arxiv.org/abs/2309.00482v2 )

ライセンス: Link先を確認
Pranay Patil(参考訳) ライドバーグ原子配列は、多くのエキゾチック量子基底状態と相転移をシミュレートする強力なプラットフォームとして登場した。 これらの性能を数値的に検証するために,rydbergブロックの制約を強制することによって生成される縮小ヒルベルト空間で動作する多用途量子モンテカルロサンプリング手法を開発した。 確率級数展開の枠組みを用いて、制限空間において作用素弦の構成空間が$d+1$次元のハードロッド気体として理解可能であることを示す。 このマッピングを用いて、ロッドの様々な非局所運動として可視化できるクラスタアルゴリズムを開発する。 我々は各更新の効率を個別に総合的に研究する。 このアルゴリズムの有用性を明らかにするために,kagom\'eリンク格子上で,rydberg原子配列の相図を効率的に生成し,関連するすべてのエネルギースケールよりもずっと小さい温度にすることができることを示した。 これはZ_2$スピン液体の存在が最近仮説化されているため、幅広い関心を集めている。

Rydberg atom arrays have emerged as a powerful platform to simulate a number of exotic quantum ground states and phase transitions. To verify these capabilities numerically, we develop a versatile quantum Monte Carlo sampling technique which operates in the reduced Hilbert space generated by enforcing the constraint of a Rydberg blockade. We use the framework of stochastic series expansion and show that in the restricted space, the configuration space of operator strings can be understood as a hard rod gas in $d+1$ dimensions. We use this mapping to develop cluster algorithms which can be visualized as various non-local movements of rods. We study the efficiency of each of our updates individually and collectively. To elucidate the utility of the algorithm, we show that it can efficiently generate the phase diagram of a Rydberg atom array, to temperatures much smaller than all energy scales involved, on a Kagom\'e link lattice. This is of broad interest as the presence of a $Z_2$ spin liquid has been hypothesized recently.
翻訳日:2023-09-14 17:13:17 公開日:2023-09-13
# 神経勾配調整剤

Neural Gradient Regularizer ( http://arxiv.org/abs/2308.16612v2 )

ライセンス: Link先を確認
Shuang Xu, Yifan Wang, Zixiang Zhao, Jiangjun Peng, Xiangyong Cao, Deyu Meng, Yulun Zhang, Radu Timofte, Luc Van Gool(参考訳) その大きな成功により、グラデーションマップへの事前の強制は、一貫して画像処理の分野で大きな関心を集めている。 最も代表的である正規化器の1つであるトータル変分法(TV)は、基礎となる勾配写像以前の固有空間を捉える能力で知られている。 それにもかかわらず、テレビとその変種はしばしば勾配写像を過小評価し、その勾配が元の像ではゼロでないべきエッジや詳細が弱まる(つまり、勾配写像のスパース事前によって像構造が説明できない)。 近年,特定のタスクの大規模データセットから学習したフレキシブルな正規化を提供する機能マップの幅を前提として,全深度変動(TDV)が導入されている。 しかし、TDVは画像/タスクのバリエーションでネットワークを再トレーニングし、その汎用性を制限する必要がある。 本稿では,ニューラルネットワークの出力として勾配マップを表現するニューラルネットワーク勾配正規化器(NGR)を提案する。 既存の方法とは異なり、NGRは画像勾配写像に主観的空間性や他の先行仮定を依存せず、したがって勾配写像の過小評価を避ける。 NGRは様々なイメージタイプや様々な画像処理タスクに適用でき、ゼロショット学習方式で機能し、汎用的でプラグアンドプレイのレギュレータである。 広範囲な実験結果から,NGRは様々なタスクに対する最先端のタスクよりも優れた性能を示し,その有効性と汎用性を検証した。

Owing to its significant success, the prior imposed on gradient maps has consistently been a subject of great interest in the field of image processing. Total variation (TV), one of the most representative regularizers, is known for its ability to capture the intrinsic sparsity prior underlying gradient maps. Nonetheless, TV and its variants often underestimate the gradient maps, leading to the weakening of edges and details whose gradients should not be zero in the original image (i.e., image structures is not describable by sparse priors of gradient maps). Recently, total deep variation (TDV) has been introduced, assuming the sparsity of feature maps, which provides a flexible regularization learned from large-scale datasets for a specific task. However, TDV requires to retrain the network with image/task variations, limiting its versatility. To alleviate this issue, in this paper, we propose a neural gradient regularizer (NGR) that expresses the gradient map as the output of a neural network. Unlike existing methods, NGR does not rely on any subjective sparsity or other prior assumptions on image gradient maps, thereby avoiding the underestimation of gradient maps. NGR is applicable to various image types and different image processing tasks, functioning in a zero-shot learning fashion, making it a versatile and plug-and-play regularizer. Extensive experimental results demonstrate the superior performance of NGR over state-of-the-art counterparts for a range of different tasks, further validating its effectiveness and versatility.
翻訳日:2023-09-14 17:12:47 公開日:2023-09-13
# 異常GPT:大規模視線モデルを用いた産業異常の検出

AnomalyGPT: Detecting Industrial Anomalies using Large Vision-Language Models ( http://arxiv.org/abs/2308.15366v3 )

ライセンス: Link先を確認
Zhaopeng Gu, Bingke Zhu, Guibo Zhu, Yingying Chen, Ming Tang, Jinqiao Wang(参考訳) MiniGPT-4やLLaVAのようなLVLM(Large Vision-Language Model)は、画像の理解能力を示し、様々な視覚タスクにおいて優れたパフォーマンスを実現している。 広範なトレーニングデータセットによる共通オブジェクトの認識能力は高いが、特定のドメイン知識が欠如しており、オブジェクト内のローカライズされた詳細の理解が弱く、産業的異常検出(iad)タスクの有効性を阻害している。 一方,既存のIAD法では,通常の検体と異常検体を区別するために,異常スコアのみを提供し,しきい値のマニュアル設定が必要である。 本稿では,iad問題に対するlvlmの活用について検討し,lvlmに基づく新しいiadアプローチであるanomalygptを提案する。 異常画像をシミュレートし、画像毎に対応するテキスト記述を生成してトレーニングデータを生成する。 また,画像デコーダを用いて微細なセマンティクスを提供し,迅速な埋め込みによるLVLMの微調整を行う。 我々のAnomalyGPTは手動しきい値調整の必要性を排除し、異常の有無を直接評価する。 さらに、AnomalyGPTはマルチターンダイアログをサポートし、印象的なインコンテキスト学習機能を提供する。 通常のショットは1枚のみで、AnomalyGPTは86.1%の精度、画像レベルのAUC94.1%、ピクセルレベルのAUC95.3%の精度で最先端のパフォーマンスを達成した。 コードはhttps://github.com/CASIA-IVA-Lab/AnomalyGPTで入手できる。

Large Vision-Language Models (LVLMs) such as MiniGPT-4 and LLaVA have demonstrated the capability of understanding images and achieved remarkable performance in various visual tasks. Despite their strong abilities in recognizing common objects due to extensive training datasets, they lack specific domain knowledge and have a weaker understanding of localized details within objects, which hinders their effectiveness in the Industrial Anomaly Detection (IAD) task. On the other hand, most existing IAD methods only provide anomaly scores and necessitate the manual setting of thresholds to distinguish between normal and abnormal samples, which restricts their practical implementation. In this paper, we explore the utilization of LVLM to address the IAD problem and propose AnomalyGPT, a novel IAD approach based on LVLM. We generate training data by simulating anomalous images and producing corresponding textual descriptions for each image. We also employ an image decoder to provide fine-grained semantic and design a prompt learner to fine-tune the LVLM using prompt embeddings. Our AnomalyGPT eliminates the need for manual threshold adjustments, thus directly assesses the presence and locations of anomalies. Additionally, AnomalyGPT supports multi-turn dialogues and exhibits impressive few-shot in-context learning capabilities. With only one normal shot, AnomalyGPT achieves the state-of-the-art performance with an accuracy of 86.1%, an image-level AUC of 94.1%, and a pixel-level AUC of 95.3% on the MVTec-AD dataset. Code is available at https://github.com/CASIA-IVA-Lab/AnomalyGPT.
翻訳日:2023-09-14 17:12:21 公開日:2023-09-13
# 量子力学は反ファクト的定性に適合する

Quantum mechanics is compatible with counterfactual definiteness ( http://arxiv.org/abs/2308.12576v2 )

ライセンス: Link先を確認
Janne V. Kujala and Ehtibar N. Dzhafarov(参考訳) counterfactual fixedness (cfd) とは、ある性質がある文脈で測定された場合、その性質が異なる文脈で測定された場合、測定の結果が同じであったことを意味する。 文脈には、問題のあるものと一緒になされた他のすべての測定結果と、それら間の時空間的関係が含まれます。 CFDの証明は非破壊的であり、測定される性質に対する文脈の物理的影響は自然の法則によって排除されるので、この性質を測る人が文脈を確かめる方法を持っていない。 通常、量子力学においてCFDは保持されない、なぜなら、全ての文脈において同じ値を同じ性質に割り当てると、その性質は論理的矛盾に陥り、少なくとも量子理論や実験的な証拠に反するからである。 この主張は、可能なコンテキストの1つだけが事実的コンテキストであり、他のすべてのコンテキストが反実的であることを考慮すれば、裏付けられるものではないことを示す。 このことを念頭に置いて、任意の確率変数系はCFDを満たすものとみなすことができる。 cfdの概念は、非文脈性の概念と密接に関連しているが、その性質は、系、特にいくつかの量子系に逆らって保持されるかもしれない、あるいは持たないかもしれない後者の性質である。

Counterfactual definiteness (CFD) means that if some property is measured in some context, then the outcome of the measurement would have been the same had this property been measured in a different context. A context includes all other measurements made together with the one in question, and the spatiotemporal relations among them. The proviso for CFD is non-disturbance: any physical influence of the contexts on the property being measured is excluded by the laws of nature, so that no one measuring this property has a way of ascertaining its context. It is usually claimed that in quantum mechanics CFD does not hold, because if one assigns the same value to a property in all contexts it is measured in, one runs into a logical contradiction, or at least contravenes quantum theory and experimental evidence. We show that this claim is not substantiated if one takes into account that only one of the possible contexts can be a factual context, all other contexts being counterfactual. With this in mind, any system of random variables can be viewed as satisfying CFD. The concept of CFD is closely related to but distinct from that of noncontextuality, and it is the latter property that may or may not hold for a system, in particular being contravened by some quantum systems.
翻訳日:2023-09-14 17:10:53 公開日:2023-09-13
# 最適反断熱量子計算のための物理インフォームドニューラルネットワーク

Physics-Informed Neural Networks for an optimal counterdiabatic quantum computation ( http://arxiv.org/abs/2309.04434v2 )

ライセンス: Link先を確認
Antonio Ferrer-S\'anchez and Carlos Flores-Garrigos and Carlos Hernani-Morales and Jos\'e J. Orqu\'in-Marqu\'es and Narendra N. Hegade and Alejandro Gomez Cadavid and Iraitz Montalban and Enrique Solano and Yolanda Vives-Gilabert and Jos\'e D. Mart\'in-Guerrero(参考訳) 我々は,N_{Q}$ qubitsの系からなる量子回路の最適化において,物理インフォームドニューラルネットワーク(PINN)の強度を活用して,逆ダイアバティック(CD)プロトコルに対処する新しい手法を提案する。 第一の目的は、物理学に触発された深層学習技術を利用して、量子システム内の異なる物理観測器の時間的進化を正確に解くことである。 この目的を達成するために,基盤となるニューラルネットワークに物理情報を埋め込み,この問題を効果的に解決する。 特に、すべての物理観測対象にハーミシティ条件を課し、最小作用の原理を用いて、基礎となる物理学に基づく最も適切な反断熱項の取得を保証する。 提案手法は,古典的数値近似に依存する従来手法の制約によらず,CD駆動問題に対処するための信頼性の高い代替手段を提供する。 本手法は、スケジューリング関数として知られる時間における外部パラメータ化、非断熱語を含むゲージポテンシャルや演算子、システムのエネルギー準位の時間的変化など、問題に関連する物理的観測結果から最適な結果を得るための一般的な枠組みを提供する。 この方法論の主な応用は、STO-3Gベースの2量子および4量子系で表される$\mathrm{H_{2}}$と$\mathrm{LiH}$分子である。 提案した結果は,パウリ作用素を用いた線形結合により達成された非断熱的項に対する望ましい分解の導出に成功したことを示す。 この属性は、量子コンピューティングアルゴリズムにおける実践的な実装に重大な利点をもたらす。

We introduce a novel methodology that leverages the strength of Physics-Informed Neural Networks (PINNs) to address the counterdiabatic (CD) protocol in the optimization of quantum circuits comprised of systems with $N_{Q}$ qubits. The primary objective is to utilize physics-inspired deep learning techniques to accurately solve the time evolution of the different physical observables within the quantum system. To accomplish this objective, we embed the necessary physical information into an underlying neural network to effectively tackle the problem. In particular, we impose the hermiticity condition on all physical observables and make use of the principle of least action, guaranteeing the acquisition of the most appropriate counterdiabatic terms based on the underlying physics. The proposed approach offers a dependable alternative to address the CD driving problem, free from the constraints typically encountered in previous methodologies relying on classical numerical approximations. Our method provides a general framework to obtain optimal results from the physical observables relevant to the problem, including the external parameterization in time known as scheduling function, the gauge potential or operator involving the non-adiabatic terms, as well as the temporal evolution of the energy levels of the system, among others. The main applications of this methodology have been the $\mathrm{H_{2}}$ and $\mathrm{LiH}$ molecules, represented by a 2-qubit and 4-qubit systems employing the STO-3G basis. The presented results demonstrate the successful derivation of a desirable decomposition for the non-adiabatic terms, achieved through a linear combination utilizing Pauli operators. This attribute confers significant advantages to its practical implementation within quantum computing algorithms.
翻訳日:2023-09-14 17:02:20 公開日:2023-09-13
# オンライン凸最適化によるオンラインサブモジュラー最大化

Online Submodular Maximization via Online Convex Optimization ( http://arxiv.org/abs/2309.04339v2 )

ライセンス: Link先を確認
Tareq Si-Salem, G\"ozde \"Ozcan, Iasonas Nikolaou, Evimaria Terzi, Stratis Ioannidis(参考訳) 一般マトロイド制約下でのモノトン部分モジュラー最大化をオンライン環境で検討する。 重み付けされたしきい値ポテンシャル関数のオンライン最適化は,オンライン凸最適化(OCO)に還元されることを示す。 これは、このクラスの関数が凹凸緩和(concave relaxation)を許容するためであり、結果として、OCOポリシーと適切な丸めのスキームが組み合わさって、組合せ設定におけるサブ線形後悔を達成できる。 我々は,オンライン学習問題において,動的後悔,盗賊,楽観的な学習設定など,多くの異なるバージョンに縮小が及んでいることを示す。

We study monotone submodular maximization under general matroid constraints in the online setting. We prove that online optimization of a large class of submodular functions, namely, weighted threshold potential functions, reduces to online convex optimization (OCO). This is precisely because functions in this class admit a concave relaxation; as a result, OCO policies, coupled with an appropriate rounding scheme, can be used to achieve sublinear regret in the combinatorial setting. We show that our reduction extends to many different versions of the online learning problem, including the dynamic regret, bandit, and optimistic-learning settings.
翻訳日:2023-09-14 17:01:52 公開日:2023-09-13
# 選好学習による多目的問題における対話型ハイパーパラメータ最適化

Interactive Hyperparameter Optimization in Multi-Objective Problems via Preference Learning ( http://arxiv.org/abs/2309.03581v2 )

ライセンス: Link先を確認
Joseph Giovanelli, Alexander Tornede, Tanja Tornede, Marius Lindauer(参考訳) ハイパーパラメータ最適化(HPO)は機械学習(ML)の潜在能力を最大限活用するために重要である。 実際には、ユーザは多目的(mo)の問題、すなわち、精度やエネルギー消費といった潜在的に矛盾する目標を最適化することに関心を持つことが多い。 これを解決するために、MO-MLアルゴリズムの大多数は、非支配的な機械学習モデルのParetoをユーザに返す。 このようなアルゴリズムのハイパーパラメータの最適化は、ハイパーパラメータの設定を評価することは、パレートフロントの品質を評価することを伴うため、自明ではない。 文献では、異なる性質(例えば体積、基準点に近い)を定量化することでパレートフロント(例えば、ハイパーボリューム、R2)の品質を評価する既知の指標が存在する。 しかし、望ましいparetoフロントにつながるインジケータを選択するのは、ユーザーにとっては難しい作業かもしれません。 本稿では、好み学習を利用した多目的MLに適した人間中心型対話型HPO手法を提案し、最適化を導くユーザからデシダラタを抽出する。 ユーザが最も適切な指標を推測する代わりに、このアプローチは自動的に適切な指標を学習します。 具体的には、異なるパレートフロントのペアワイズ比較を利用して、このような適切な品質指標を学習する。 そして,最新のHPO手法を用いて,基礎となるMO-MLアルゴリズムのハイパーパラメータをこの学習指標に最適化する。 mlの環境影響を対象とする実験研究において,提案手法がユーザの選択した誤った指標に基づく最適化に比べて,パレートフロントが大幅に向上することを示すとともに,ユーザが選択すべき指標を知っている場合と同等の性能を発揮することを実証した。

Hyperparameter optimization (HPO) is important to leverage the full potential of machine learning (ML). In practice, users are often interested in multi-objective (MO) problems, i.e., optimizing potentially conflicting objectives, like accuracy and energy consumption. To tackle this, the vast majority of MO-ML algorithms return a Pareto front of non-dominated machine learning models to the user. Optimizing the hyperparameters of such algorithms is non-trivial as evaluating a hyperparameter configuration entails evaluating the quality of the resulting Pareto front. In literature, there are known indicators that assess the quality of a Pareto front (e.g., hypervolume, R2) by quantifying different properties (e.g., volume, proximity to a reference point). However, choosing the indicator that leads to the desired Pareto front might be a hard task for a user. In this paper, we propose a human-centered interactive HPO approach tailored towards multi-objective ML leveraging preference learning to extract desiderata from users that guide the optimization. Instead of relying on the user guessing the most suitable indicator for their needs, our approach automatically learns an appropriate indicator. Concretely, we leverage pairwise comparisons of distinct Pareto fronts to learn such an appropriate quality indicator. Then, we optimize the hyperparameters of the underlying MO-ML algorithm towards this learned indicator using a state-of-the-art HPO approach. In an experimental study targeting the environmental impact of ML, we demonstrate that our approach leads to substantially better Pareto fronts compared to optimizing based on a wrong indicator pre-selected by the user, and performs comparable in the case of an advanced user knowing which indicator to pick.
翻訳日:2023-09-14 17:01:40 公開日:2023-09-13
# グラフニューラルネットワークにおける過密化と過密化の統一:物理情報に基づくアプローチ

Unifying over-smoothing and over-squashing in graph neural networks: A physics informed approach and beyond ( http://arxiv.org/abs/2309.02769v2 )

ライセンス: Link先を確認
Zhiqi Shao, Dai Shi, Andi Han, Yi Guo, Qibin Zhao, Junbin Gao(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの機械学習における主要なアプローチの1つである。 その大きな成功にもかかわらず、過密、過密、限られた表現力といった重要な計算課題がGNNの性能に影響を与え続けている。 本研究では,古典・量子物理学で一般的に用いられる時間反転原理に着想を得て,グラフ熱方程式の時間方向を逆転する。 その結果、反転処理はグラフノードの特徴のシャープさを高める高パスフィルタリング関数のクラスを生成する。 この概念を生かしたマルチスケールヒートカーネルベースGNN(MHKG)を導入する。 より柔軟なフィルタリング条件を探るため,我々はさらにg-mhkgと呼ばれるモデルにmhkgを一般化し,オーバースムーシング,オーバースケーシング,表現力の制御における各要素の役割を徹底的に示す。 特に、上記の問題はすべて、フィルタリング関数の特性によって特徴づけ、分析することができ、過度なスムースメントと過度なスキャッシングのトレードオフを明らかにする:ノード特徴のシャープネスの強化により、モデルが過度なスキャッシングに苦しむこと、その逆も可能となる。 さらに、G-MHKGが2つの問題を軽度条件下でどのように処理できるかを示すために、この時間を再度操作する。 実験の結果,提案モデルの有効性が浮き彫りになった。 ホモフィリーとヘテロフィリーの両方を特徴とするグラフデータセットのパフォーマンスにおいて、いくつかのGNNベースラインモデルを上回る。

Graph Neural Networks (GNNs) have emerged as one of the leading approaches for machine learning on graph-structured data. Despite their great success, critical computational challenges such as over-smoothing, over-squashing, and limited expressive power continue to impact the performance of GNNs. In this study, inspired from the time-reversal principle commonly utilized in classical and quantum physics, we reverse the time direction of the graph heat equation. The resulted reversing process yields a class of high pass filtering functions that enhance the sharpness of graph node features. Leveraging this concept, we introduce the Multi-Scaled Heat Kernel based GNN (MHKG) by amalgamating diverse filtering functions' effects on node features. To explore more flexible filtering conditions, we further generalize MHKG into a model termed G-MHKG and thoroughly show the roles of each element in controlling over-smoothing, over-squashing and expressive power. Notably, we illustrate that all aforementioned issues can be characterized and analyzed via the properties of the filtering functions, and uncover a trade-off between over-smoothing and over-squashing: enhancing node feature sharpness will make model suffer more from over-squashing, and vice versa. Furthermore, we manipulate the time again to show how G-MHKG can handle both two issues under mild conditions. Our conclusive experiments highlight the effectiveness of proposed models. It surpasses several GNN baseline models in performance across graph datasets characterized by both homophily and heterophily.
翻訳日:2023-09-14 17:01:12 公開日:2023-09-13
# ニューラルネットワークの最大の違い - Radon-Kolmogorov-Smirnovテスト

Maximum Mean Discrepancy Meets Neural Networks: The Radon-Kolmogorov-Smirnov Test ( http://arxiv.org/abs/2309.02422v2 )

ライセンス: Link先を確認
Seunghoon Paik, Michael Celentano, Alden Green, Ryan J. Tibshirani(参考訳) 最大平均差分法(英: Maximum mean discrepancy, MMD)とは、ある関数空間に生きるデータ変換のすべての選択に対して$P$と他の$Q$との平均差を最大化することに基づく、非パラメトリックな2サンプルテストの一般的なクラスを指す。 我々は,$\textit{radon bounded variation}$ (rbv) とニューラルネットワーク (parhi and nowak, 2021, 2023) の関数をつなぐ最近の研究に触発されて,与えられた滑らかな順序 $k \geq 0$ の rbv 空間における単位球として $\mathcal{f}$ を取ることで定義される mmd について検討した。 このテストは$\textit{radon-kolmogorov-smirnov}$ (rks) テストと呼ばれ、よく知られた古典的なkolmogorov-smirnov (ks) テストの多次元および高次な滑らかさへの一般化と見なすことができる。 RKSテストの目撃者 – 最大平均差を達成する関数$f$ – は常に、ニューラルネットワーク内の1つのニューロンのリッジスプラインである、ということを証明します。 これにより、現代のディープラーニングツールキットのパワーを活用して、RKSテストの基盤となる基準を最適化できます。 我々は、RKSテストが任意の異なるペア$P \not=Q$の分布を区別し、その漸近的なヌル分布を導出し、RKSテストの強度と弱みを従来のカーネルMDテストと比較する広範な実験を行うことを証明した。

Maximum mean discrepancy (MMD) refers to a general class of nonparametric two-sample tests that are based on maximizing the mean difference over samples from one distribution $P$ versus another $Q$, over all choices of data transformations $f$ living in some function space $\mathcal{F}$. Inspired by recent work that connects what are known as functions of $\textit{Radon bounded variation}$ (RBV) and neural networks (Parhi and Nowak, 2021, 2023), we study the MMD defined by taking $\mathcal{F}$ to be the unit ball in the RBV space of a given smoothness order $k \geq 0$. This test, which we refer to as the $\textit{Radon-Kolmogorov-Smirnov}$ (RKS) test, can be viewed as a generalization of the well-known and classical Kolmogorov-Smirnov (KS) test to multiple dimensions and higher orders of smoothness. It is also intimately connected to neural networks: we prove that the witness in the RKS test -- the function $f$ achieving the maximum mean difference -- is always a ridge spline of degree $k$, i.e., a single neuron in a neural network. This allows us to leverage the power of modern deep learning toolkits to (approximately) optimize the criterion that underlies the RKS test. We prove that the RKS test has asymptotically full power at distinguishing any distinct pair $P \not= Q$ of distributions, derive its asymptotic null distribution, and carry out extensive experiments to elucidate the strengths and weakenesses of the RKS test versus the more traditional kernel MMD test.
翻訳日:2023-09-14 17:00:45 公開日:2023-09-13
# 顔認証における視覚的品質改善と対向的攻撃の伝達性

Improving Visual Quality and Transferability of Adversarial Attacks on Face Recognition Simultaneously with Adversarial Restoration ( http://arxiv.org/abs/2309.01582v3 )

ライセンス: Link先を確認
Fengfan Zhou, Hefei Ling, Yuxuan Shi, Jiazhong Chen, Ping Li(参考訳) 敵対的な顔の例は2つの重要な特性を持っている。 しかし、既存のアプローチではこれらの特性を同時に扱うことはめったにない。 そこで本研究では, 顔の復元に先立って活用することで, 顔の視覚的品質と伝達性を高めるadvrestore (adversarial restoration) と呼ばれる新しい攻撃手法を提案する。 本手法では,顔の復元を目的としたリカバリ潜在拡散モデル(RLDM)を訓練する。 次に、RLDMの推論プロセスを用いて、対向顔例を生成する。 RLDMの中間特性に逆方向の摂動を適用した。 さらに、RLDM顔復元を兄弟タスクとして扱うことにより、生成した対向顔例の転送性をさらに向上する。 提案手法の有効性を実験的に検証した。

Adversarial face examples possess two critical properties: Visual Quality and Transferability. However, existing approaches rarely address these properties simultaneously, leading to subpar results. To address this issue, we propose a novel adversarial attack technique known as Adversarial Restoration (AdvRestore), which enhances both visual quality and transferability of adversarial face examples by leveraging a face restoration prior. In our approach, we initially train a Restoration Latent Diffusion Model (RLDM) designed for face restoration. Subsequently, we employ the inference process of RLDM to generate adversarial face examples. The adversarial perturbations are applied to the intermediate features of RLDM. Additionally, by treating RLDM face restoration as a sibling task, the transferability of the generated adversarial face examples is further improved. Our experimental results validate the effectiveness of the proposed attack method.
翻訳日:2023-09-14 17:00:02 公開日:2023-09-13
# ChatRule:知識グラフ推論のための大規模言語モデルによる論理ルールのマイニング

ChatRule: Mining Logical Rules with Large Language Models for Knowledge Graph Reasoning ( http://arxiv.org/abs/2309.01538v2 )

ライセンス: Link先を確認
Linhao Luo, Jiaxin Ju, Bo Xiong, Yuan-Fang Li, Gholamreza Haffari, Shirui Pan(参考訳) 論理規則は関係間の論理的なつながりを明らかにするのに不可欠であり、推論性能を改善し、知識グラフ(kgs)上で解釈可能な結果を提供する。 KGに対する有意義な論理的ルールのマイニングには多くの取り組みがあったが、既存の手法はルール空間に対する計算集約的な探索と大規模KGのスケーラビリティの欠如に悩まされている。 さらに、論理的関係を明らかにする上で重要な関係の意味論を無視することが多い。 近年,大規模言語モデル (LLM) は,その創発的能力と一般化性から,自然言語処理や各種アプリケーションにおいて顕著な性能を示している。 本稿では,知識グラフ上で論理規則をマイニングするための大規模言語モデルのパワーを解き放つ,新たな枠組みであるchatruleを提案する。 具体的には、このフレームワークはLLMベースのルールジェネレータで開始され、KGのセマンティック情報と構造情報の両方を利用してLCMに論理ルールを生成する。 生成されたルールを洗練するために、ルールランキングモジュールは、既存のkgsから事実を取り込んでルール品質を推定する。 最後に、ルールバリケータはLLMの推論能力を利用して、チェーン・オブ・ソート推論を通じてランク付けされたルールの論理的正当性を検証する。 ChatRuleは4つの大規模KG、すなわち異なるルール品質のメトリクスと下流タスクで評価され、本手法の有効性と拡張性を示す。

Logical rules are essential for uncovering the logical connections between relations, which could improve the reasoning performance and provide interpretable results on knowledge graphs (KGs). Although there have been many efforts to mine meaningful logical rules over KGs, existing methods suffer from the computationally intensive searches over the rule space and a lack of scalability for large-scale KGs. Besides, they often ignore the semantics of relations which is crucial for uncovering logical connections. Recently, large language models (LLMs) have shown impressive performance in the field of natural language processing and various applications, owing to their emergent ability and generalizability. In this paper, we propose a novel framework, ChatRule, unleashing the power of large language models for mining logical rules over knowledge graphs. Specifically, the framework is initiated with an LLM-based rule generator, leveraging both the semantic and structural information of KGs to prompt LLMs to generate logical rules. To refine the generated rules, a rule ranking module estimates the rule quality by incorporating facts from existing KGs. Last, a rule validator harnesses the reasoning ability of LLMs to validate the logical correctness of ranked rules through chain-of-thought reasoning. ChatRule is evaluated on four large-scale KGs, w.r.t. different rule quality metrics and downstream tasks, showing the effectiveness and scalability of our method.
翻訳日:2023-09-14 16:59:48 公開日:2023-09-13
# 逆強化学習によるオフライン迅速評価と最適化

Offline Prompt Evaluation and Optimization with Inverse Reinforcement Learning ( http://arxiv.org/abs/2309.06553v1 )

ライセンス: Link先を確認
Hao Sun(参考訳) ChatGPTのような大規模言語モデル(LLM)の開発における最近の進歩は、人間の専門知識を活用することで、目覚ましい成果を上げている。 しかし、複雑なタスクに対するLLMの可能性を十分に引き出すには、自然言語プロンプトの広大な検索空間をナビゲートする必要がある。 プロンプトエンジニアリングは約束を示しているが、試行錯誤の必要なプロンプトと関連するコストは重大な課題をもたらす。 重要なことは、迅速な最適化の効率は、迅速な評価のコストのかかる手順に依存する。 この研究は、オフライン逆強化学習に根ざしたアプローチであるPrompt-OIRLを導入し、効果的な迅速な評価と手頃さのギャップを埋めようとしている。 提案手法はエキスパート評価からオフラインデータセットを抽出し,Inverse-RLを用いてオフラインでクエリ依存のプロンプト評価を行う。 prompt-oirl の利点は多様体であり、即席性能を予測し、コスト効率が良く、可読性のある結果を生成し、プロンプト空間を効率的にナビゲートする。 提案手法は4つのLLMと3つの算術データセットにまたがって検証し、オフラインで評価と最適化を行うための堅牢で効果的なツールとしての可能性を強調した。 私たちのコードとオフラインデータセットがリリースされ、CPUを使用した単一のラップトップを使用して、数時間以内にPrompt-OIRLを再現できることを強調します。

The recent advances in the development of Large Language Models (LLMs) like ChatGPT have achieved remarkable performance by leveraging human expertise. Yet, fully eliciting LLMs' potential for complex tasks requires navigating the vast search space of natural language prompts. While prompt engineering has shown promise, the requisite human-crafted prompts in trial-and-error attempts and the associated costs pose significant challenges. Crucially, the efficiency of prompt optimization hinges on the costly procedure of prompt evaluation. This work introduces Prompt-OIRL, an approach rooted in offline inverse reinforcement learning that seeks to bridge the gap between effective prompt evaluation and affordability. Our method draws on offline datasets from expert evaluations, employing Inverse-RL to derive a reward model for offline, query-dependent prompt evaluations. The advantages of Prompt-OIRL are manifold: it predicts prompt performance, is cost-efficient, produces human-readable results, and efficiently navigates the prompt space. We validate our method across four LLMs and three arithmetic datasets, highlighting its potential as a robust and effective tool for offline prompt evaluation and optimization. Our code as well as the offline datasets are released, and we highlight the Prompt-OIRL can be reproduced within a few hours using a single laptop using CPU
翻訳日:2023-09-14 16:34:08 公開日:2023-09-13
# ShaDocFormer: ICASSP 2024オンラインサブミッションシステムへのドキュメントシャドウ除去のためのカスケードフュージョンリファイナ付きシャドウアテンション閾値検出器

ShaDocFormer: A Shadow-attentive Threshold Detector with Cascaded Fusion Refiner for document shadow removal' to the ICASSP 2024 online submission system ( http://arxiv.org/abs/2309.06670v1 )

ライセンス: Link先を確認
Weiwen Chen, Shenghong Luo, Xuhang Chen, Zinuo Li, Shuqiang Wang, Chi-Man Pun(参考訳) ドキュメントシャドーは、モバイルデバイスを使用してドキュメントをキャプチャするときに発生する一般的な問題であり、可読性に大きな影響を及ぼす。 現在の手法では、シャドーマスクの不正確な検出や照明推定など様々な課題に直面している。 本稿では,文書陰影除去問題に対処するために,従来の手法とディープラーニング技術を統合したトランスフォーマーベースのアーキテクチャであるShaDocFormerを提案する。 ShaDocFormerアーキテクチャは、Shadow-attentive Threshold Detector (STD)とCascaded Fusion Refiner (CFR)の2つのコンポーネントで構成されている。 STDモジュールは従来のしきい値設定技術を採用し、Transformerの注意機構を利用してグローバル情報を収集し、シャドーマスクの正確な検出を可能にする。 CFRモジュールのカスケード及び凝集構造は、画像全体の粗大な復元プロセスを容易にする。 その結果、ShaDocFormerは、シャドウと照明の両方のバリエーションを正確に検出およびキャプチャし、効果的にシャドウを削除することができる。 大規模な実験により、ShaDocFormerは定性測定と定量的測定の両方で現在の最先端の手法より優れていることが示された。

Document shadow is a common issue that arise when capturing documents using mobile devices, which significantly impacts the readability. Current methods encounter various challenges including inaccurate detection of shadow masks and estimation of illumination. In this paper, we propose ShaDocFormer, a Transformer-based architecture that integrates traditional methodologies and deep learning techniques to tackle the problem of document shadow removal. The ShaDocFormer architecture comprises two components: the Shadow-attentive Threshold Detector (STD) and the Cascaded Fusion Refiner (CFR). The STD module employs a traditional thresholding technique and leverages the attention mechanism of the Transformer to gather global information, thereby enabling precise detection of shadow masks. The cascaded and aggregative structure of the CFR module facilitates a coarse-to-fine restoration process for the entire image. As a result, ShaDocFormer excels in accurately detecting and capturing variations in both shadow and illumination, thereby enabling effective removal of shadows. Extensive experiments demonstrate that ShaDocFormer outperforms current state-of-the-art methods in both qualitative and quantitative measurements.
翻訳日:2023-09-14 15:53:38 公開日:2023-09-13
# 開量子系の非平衡定常状態をシミュレートするハイブリッドアルゴリズム

Hybrid algorithm simulating non-equilibrium steady states of an open quantum system ( http://arxiv.org/abs/2309.06665v1 )

ライセンス: Link先を確認
Hongyi Zhou, Rui Mao, Xiaoming Sun(参考訳) 非平衡定常状態は、開量子系の研究における焦点研究である。 これらの定常状態を探すための従来の変分アルゴリズムは、システム密度行列のベクトル化や浄化による資源集約的な実装に悩まされており、大きな量子ビット資源と長距離結合が必要である。 本研究では,lindblad方程式の演算子和形式をシミュレートし,非平衡定常状態を効率的に探索する新しい変分量子アルゴリズムを提案する。 ランダム計測手法を導入することで, 従来の手法に比べて, 必要な量子ビット資源を半分削減しながら, 非線形コスト関数を推定できる。 さらに,可変アルゴリズムにおけるパラメータシフトルールの存在を証明し,勾配に基づく古典アルゴリズムを用いた回路パラメータの効率的な更新を可能にする。 提案アルゴリズムの性能を示すために, 散逸的量子超越IsingとHeisenbergモデルのシミュレーションを行い, 高精度な結果を得た。 提案手法は,計算限界や実装課題を克服しつつ,非平衡定常問題に効果的に対処するための有望な解を提供する。

Non-equilibrium steady states are a focal point of research in the study of open quantum systems. Previous variational algorithms for searching these steady states have suffered from resource-intensive implementations due to vectorization or purification of the system density matrix, requiring large qubit resources and long-range coupling. In this work, we present a novel variational quantum algorithm that efficiently searches for non-equilibrium steady states by simulating the operator-sum form of the Lindblad equation. By introducing the technique of random measurement, we are able to estimate the nonlinear cost function while reducing the required qubit resources by half compared to previous methods. Additionally, we prove the existence of the parameter shift rule in our variational algorithm, enabling efficient updates of circuit parameters using gradient-based classical algorithms. To demonstrate the performance of our algorithm, we conduct simulations for dissipative quantum transverse Ising and Heisenberg models, achieving highly accurate results. Our approach offers a promising solution for effectively addressing non-equilibrium steady state problems while overcoming computational limitations and implementation challenges.
翻訳日:2023-09-14 15:53:15 公開日:2023-09-13
# 2段階ニューラルネットワークによる音場分解

Sound field decomposition based on two-stage neural networks ( http://arxiv.org/abs/2309.06661v1 )

ライセンス: Link先を確認
Ryo Matsuda and Makoto Otani(参考訳) ニューラルネットワークを用いた音場分解法を提案する。 本発明の方法は、音場分離段階と単一音源定位段階の2段階からなる。 第1段階では、複数の音源で合成されたマイクロホンの音圧を、各音源で励起された1つに分離する。 第2段階では、音源位置は、単一の音源からなるマイクロホンにおける音圧からの回帰として得られる。 第2段階は分類ではなく回帰として設計されているため、推定位置は離散化に影響されない。 データセットはグリーン関数を用いたシミュレーションによって生成され、ニューラルネットワークは周波数毎にトレーニングされる。 数値実験により,従来の手法に比べて音源局所化精度が高く,音場再構成精度が高いことが判明した。

A method for sound field decomposition based on neural networks is proposed. The method comprises two stages: a sound field separation stage and a single-source localization stage. In the first stage, the sound pressure at microphones synthesized by multiple sources is separated into one excited by each sound source. In the second stage, the source location is obtained as a regression from the sound pressure at microphones consisting of a single sound source. The estimated location is not affected by discretization because the second stage is designed as a regression rather than a classification. Datasets are generated by simulation using Green's function, and the neural network is trained for each frequency. Numerical experiments reveal that, compared with conventional methods, the proposed method can achieve higher source-localization accuracy and higher sound-field-reconstruction accuracy.
翻訳日:2023-09-14 15:52:55 公開日:2023-09-13
# 部分観察型ニューラルプロセスとしての一般化可能なニューラルフィールド

Generalizable Neural Fields as Partially Observed Neural Processes ( http://arxiv.org/abs/2309.06660v1 )

ライセンス: Link先を確認
Jeffrey Gu, Kuan-Chieh Wang, Serena Yeung(参考訳) ニューラルネットワークによってパラメータ化された関数として信号を表すニューラルフィールドは、従来の離散ベクトルやグリッドベースの表現に代わる有望な選択肢である。 離散表現と比較すると、ニューラル表現は解像度が上がるにつれて大きくなり、連続であり、何度も微分できる。 しかしながら、私たちが表現したい信号のデータセットを考えると、各信号に対して別々のニューラルネットワークを最適化する必要は非効率であり、信号間の共有情報や構造を活用できない。 既存の一般化手法では、これをメタラーニング問題とみなし、勾配に基づくメタラーニングを使用して初期化を学び、テスト時間最適化に精通した上で、ハイパーネットワークを学び、ニューラルネットワークの重みを生成する。 代わりに、神経表現の大規模トレーニングを部分的に観察されたニューラルプロセスフレームワークの一部として見る新しいパラダイムを提案し、この問題を解決するためにニューラルプロセスアルゴリズムを活用する。 このアプローチは、最先端の勾配に基づくメタラーニングアプローチとハイパーネットワークアプローチの両方より優れていることを示す。

Neural fields, which represent signals as a function parameterized by a neural network, are a promising alternative to traditional discrete vector or grid-based representations. Compared to discrete representations, neural representations both scale well with increasing resolution, are continuous, and can be many-times differentiable. However, given a dataset of signals that we would like to represent, having to optimize a separate neural field for each signal is inefficient, and cannot capitalize on shared information or structures among signals. Existing generalization methods view this as a meta-learning problem and employ gradient-based meta-learning to learn an initialization which is then fine-tuned with test-time optimization, or learn hypernetworks to produce the weights of a neural field. We instead propose a new paradigm that views the large-scale training of neural representations as a part of a partially-observed neural process framework, and leverage neural process algorithms to solve this task. We demonstrate that this approach outperforms both state-of-the-art gradient-based meta-learning approaches and hypernetwork approaches.
翻訳日:2023-09-14 15:52:44 公開日:2023-09-13
# スパースデータセットを用いた離散動的出力フィードバック制御のための散逸模倣学習

Dissipative Imitation Learning for Discrete Dynamic Output Feedback Control with Sparse Data Sets ( http://arxiv.org/abs/2309.06658v1 )

ライセンス: Link先を確認
Amy K. Strong, Ethan J. LoCicero, Leila J. Bridgeman(参考訳) 模倣学習は、複雑な目的と非常に不確実な植物モデルのためのコントローラの合成を可能にする。 しかし、学習したコントローラを模倣するための安定性保証を提供する方法は、しばしば大量のデータや既知の植物モデルに依存する。 本稿では,散逸的模倣学習のためのインプットアウトプット(IO)安定性アプローチについて検討する。 エキスパートデータ、粗いIOプラントモデル、学習したコントローラに拡散性を強制する新しい制約を用いて、クローズループ安定な動的出力フィードバックコントローラを学習する。 学習対象は非凸であるが, 反復凸オーバーバウンディング (ICO) と投影勾配降下 (PGD) は制御器の学習に有効である。 この新しい模倣学習法は、2つの未知の植物に適用され、従来の動的出力フィードバックコントローラとニューラルネットワークコントローラと比較される。 プラントモデルや小さなデータセットについてはほとんど知識がなく、分散性制約付き学習コントローラは閉ループ安定性を達成し、エキスパートコントローラの動作をうまく模倣するが、他の手法では安定性の維持に失敗し、良好な性能を達成することがしばしばある。

Imitation learning enables the synthesis of controllers for complex objectives and highly uncertain plant models. However, methods to provide stability guarantees to imitation learned controllers often rely on large amounts of data and/or known plant models. In this paper, we explore an input-output (IO) stability approach to dissipative imitation learning, which achieves stability with sparse data sets and with little known about the plant model. A closed-loop stable dynamic output feedback controller is learned using expert data, a coarse IO plant model, and a new constraint to enforce dissipativity on the learned controller. While the learning objective is nonconvex, iterative convex overbounding (ICO) and projected gradient descent (PGD) are explored as methods to successfully learn the controller. This new imitation learning method is applied to two unknown plants and compared to traditionally learned dynamic output feedback controller and neural network controller. With little knowledge of the plant model and a small data set, the dissipativity constrained learned controller achieves closed loop stability and successfully mimics the behavior of the expert controller, while other methods often fail to maintain stability and achieve good performance.
翻訳日:2023-09-14 15:52:26 公開日:2023-09-13
# 統計的拒絶サンプリングは選好最適化を改善する

Statistical Rejection Sampling Improves Preference Optimization ( http://arxiv.org/abs/2309.06657v1 )

ライセンス: Link先を確認
Tianqi Liu, Yao Zhao, Rishabh Joshi, Misha Khalman, Mohammad Saleh, Peter J. Liu, Jialu Liu(参考訳) 言語モデルのアライメントと人間の好みの改善は、現在も活発な研究課題である。 従来のアプローチでは,PPO(Proximal Policy Optimization)などのオンラインRL手法を用いて,RLHF(Reinforcement Learning from Human Feedback)を主に利用していた。 近年、SLiC(Sequence Likelihood Calibration)やDPO(Direct Preference Optimization)といったオフライン手法が魅力的な代替手段として登場し、競争性能を維持しながら安定性とスケーラビリティを改善している。 SLiCは、教師付き微調整(SFT)ポリシーからサンプリングされたシーケンスペアを使用して損失関数を洗練し、DPOは好みデータに基づいて言語モデルを直接最適化し、別の報酬モデルの必要性を先導する。 しかし、目標最適ポリシーの最大確率推定器(mle)は、そのポリシーからサンプリングされたラベル付き選好ペアを必要とする。 DPOの報酬モデルがないことは、最適ポリシーから選好ペアをサンプリングする能力を制限し、SLiCはSFTポリシーからのみ選好ペアをサンプリングすることに制限される。 これらの制約に対処するため,我々は,目的とする最適政策から選好データを抽出し,より正確な最適政策推定を可能にする,統計リジェクションサンプリング最適化 (RSO) という新しい手法を導入する。 また,slic と dpo の両方で使用される損失関数を選好モデリングの観点から拡張する統一フレームワークを提案する。 3つの多種多様なタスクにわたる広範な実験を通して、RSOはLarge Language Model (LLM) と人間レーダの両方の評価において、SLiCとDPOの両方を一貫して上回っていることを示した。

Improving the alignment of language models with human preferences remains an active research challenge. Previous approaches have primarily utilized Reinforcement Learning from Human Feedback (RLHF) via online RL methods such as Proximal Policy Optimization (PPO). Recently, offline methods such as Sequence Likelihood Calibration (SLiC) and Direct Preference Optimization (DPO) have emerged as attractive alternatives, offering improvements in stability and scalability while maintaining competitive performance. SLiC refines its loss function using sequence pairs sampled from a supervised fine-tuned (SFT) policy, while DPO directly optimizes language models based on preference data, foregoing the need for a separate reward model. However, the maximum likelihood estimator (MLE) of the target optimal policy requires labeled preference pairs sampled from that policy. DPO's lack of a reward model constrains its ability to sample preference pairs from the optimal policy, and SLiC is restricted to sampling preference pairs only from the SFT policy. To address these limitations, we introduce a novel approach called Statistical Rejection Sampling Optimization (RSO) that aims to source preference data from the target optimal policy using rejection sampling, enabling a more accurate estimation of the optimal policy. We also propose a unified framework that enhances the loss functions used in both SLiC and DPO from a preference modeling standpoint. Through extensive experiments across three diverse tasks, we demonstrate that RSO consistently outperforms both SLiC and DPO on evaluations from both Large Language Model (LLM) and human raters.
翻訳日:2023-09-14 15:52:04 公開日:2023-09-13
# 領域不定形ガウス過程状態空間モデルによる分布検出の欠如

Out of Distribution Detection via Domain-Informed Gaussian Process State Space Models ( http://arxiv.org/abs/2309.06655v1 )

ライセンス: Link先を確認
Alonso Marco and Elias Morley and Claire J. Tomlin(参考訳) 学習に基づく手法を用いて,ロボットが未知のシナリオを安全にナビゲートするためには,オンラインの訓練外分散(ood)状況を正確に検出することが重要である。 近年,ガウス過程状態空間モデル(GPSSM)は,確率論的予測と比較することにより,予期せぬ観測を識別するのに有用であることが証明されている。 しかし,GPSSMカーネルが表現できる関数のクラスに影響されるため,これらの予測の精度に基づいて,トレーニング中の分布とトレーニング外の分布を正確に区別することができる。 本稿では,本稿で提案する。 (i)カーネルに既存のドメイン知識を埋め込むための新しいアプローチ (ii)receding-horizon予測に基づくoodオンラインランタイムモニタ。 ドメイン知識は、シミュレーションまたは名目モデルを用いて収集されたデータセットとして仮定される。 数値的な結果から、インフォメーションカーネルは、標準カーネル選択と比較して、より小さなデータセットでより優れた回帰品質が得られることが示された。 我々は,OoDモニタが屋内環境をナビゲートする4つの実地における効果を実証した。

In order for robots to safely navigate in unseen scenarios using learning-based methods, it is important to accurately detect out-of-training-distribution (OoD) situations online. Recently, Gaussian process state-space models (GPSSMs) have proven useful to discriminate unexpected observations by comparing them against probabilistic predictions. However, the capability for the model to correctly distinguish between in- and out-of-training distribution observations hinges on the accuracy of these predictions, primarily affected by the class of functions the GPSSM kernel can represent. In this paper, we propose (i) a novel approach to embed existing domain knowledge in the kernel and (ii) an OoD online runtime monitor, based on receding-horizon predictions. Domain knowledge is assumed given as a dataset collected either in simulation or using a nominal model. Numerical results show that the informed kernel yields better regression quality with smaller datasets, as compared to standard kernel choices. We demonstrate the effectiveness of the OoD monitor on a real quadruped navigating an indoor setting, which reliably classifies previously unseen terrains.
翻訳日:2023-09-14 15:51:37 公開日:2023-09-13
# タービッドメディアにおけるイベント駆動イメージング:光エレクトロニクスとニューロモルフィック計算の融合

Event-Driven Imaging in Turbid Media: A Confluence of Optoelectronics and Neuromorphic Computation ( http://arxiv.org/abs/2309.06652v1 )

ライセンス: Link先を確認
Ning Zhang, Timothy Shea, Arto Nurmikko(参考訳) 本稿では,高密度な乱流媒体における光散乱により視界が著しく曖昧なターゲットの画像を明らかにするための新しい光学計算手法を提案する。 興味の対象は、その光学特性が静止しているか移動しているかを時間的に変化していることである。 このスキームは、私たちの知る限り、人間の視覚にインスパイアされ、タービッド媒質から集めた拡散光子は、網膜のようにダイナミックな視覚センサーで列車に変換され、画像再構成は脳を模倣するニューロモルフィックコンピューティングアプローチによって実行される。 反射(後方散乱)と透過測地の両方におけるベンチトップ実験データと物理シミュレーションを組み合わせ、ニューロモルフィックな計算モデルを構築し、これを専用の深絞りニューラルネットワークアルゴリズムにより異なるMNIST文字と画像集合のイメージ再構成に適用する。 画像再構成は、人間の目やデジタルビデオカメラに本来の画像が認識できないような濁った条件下で達成されるが、新しいニューロモルフィック計算手法を用いると、明確かつ定量化可能である。

In this paper a new optical-computational method is introduced to unveil images of targets whose visibility is severely obscured by light scattering in dense, turbid media. The targets of interest are taken to be dynamic in that their optical properties are time-varying whether stationary in space or moving. The scheme, to our knowledge the first of its kind, is human vision inspired whereby diffuse photons collected from the turbid medium are first transformed to spike trains by a dynamic vision sensor as in the retina, and image reconstruction is then performed by a neuromorphic computing approach mimicking the brain. We combine benchtop experimental data in both reflection (backscattering) and transmission geometries with support from physics-based simulations to develop a neuromorphic computational model and then apply this for image reconstruction of different MNIST characters and image sets by a dedicated deep spiking neural network algorithm. Image reconstruction is achieved under conditions of turbidity where an original image is unintelligible to the human eye or a digital video camera, yet clearly and quantifiable identifiable when using the new neuromorphic computational approach.
翻訳日:2023-09-14 15:51:20 公開日:2023-09-13
# conr: 深い不均衡回帰のための対比正規化器

ConR: Contrastive Regularizer for Deep Imbalanced Regression ( http://arxiv.org/abs/2309.06651v1 )

ライセンス: Link先を確認
Mahsa Keramati, Lili Meng, R. David Evans(参考訳) 不均衡分布は実世界データにおいてユビキタスである。 マイノリティラベルを表現し、多数派ラベルへの偏見を避けるため、Deep Neural Networksに制約を課す。 不均衡なアプローチの広範な本体は分類ラベル空間に対処するが、ラベル空間が連続である回帰問題に効果的に拡張できない。 逆に、連続ラベル間の局所的および大域的相関は、特徴空間における関係を効果的にモデル化するための貴重な洞察を与える。 本研究では,特徴空間におけるグローバルおよびローカルなラベル類似性をモデル化し,少数のサンプルの特徴が多数派に崩壊することを防ぐコントラストレギュレータを提案する。 特徴の類似性の指標として予測の類似性を提供するため、conrはラベル空間と特徴空間の不一致を認識し、これらの不一致に対してペナルティを課す。 ConR はラベル空間の連続的な性質を2つの主要な戦略で対照的に考え、不正確な近さはラベル類似度に比例し、正しいものは局所類似度をモデル化することを奨励する。 ConRは、深い不均衡な回帰に効果的に対処する、ジェネリックで、容易に統合され、効率的な方法に重要な考慮事項を集約する。 さらに、ConRは既存のアプローチと直交し、一次元および多次元のラベル空間に滑らかに拡張する。 総合実験の結果,conrは3つの大規模深部不均衡回帰ベンチマークにおいて,最先端手法の性能を著しく向上させることがわかった。 私たちのコードはhttps://github.com/borealisai/conrで公開されています。

Imbalanced distributions are ubiquitous in real-world data. They create constraints on Deep Neural Networks to represent the minority labels and avoid bias towards majority labels. The extensive body of imbalanced approaches address categorical label spaces but fail to effectively extend to regression problems where the label space is continuous. Conversely, local and global correlations among continuous labels provide valuable insights towards effectively modelling relationships in feature space. In this work, we propose ConR, a contrastive regularizer that models global and local label similarities in feature space and prevents the features of minority samples from being collapsed into their majority neighbours. Serving the similarities of the predictions as an indicator of feature similarities, ConR discerns the dissagreements between the label space and feature space and imposes a penalty on these disagreements. ConR minds the continuous nature of label space with two main strategies in a contrastive manner: incorrect proximities are penalized proportionate to the label similarities and the correct ones are encouraged to model local similarities. ConR consolidates essential considerations into a generic, easy-to-integrate, and efficient method that effectively addresses deep imbalanced regression. Moreover, ConR is orthogonal to existing approaches and smoothly extends to uni- and multi-dimensional label spaces. Our comprehensive experiments show that ConR significantly boosts the performance of all the state-of-the-art methods on three large-scale deep imbalanced regression benchmarks. Our code is publicly available in https://github.com/BorealisAI/ConR.
翻訳日:2023-09-14 15:50:55 公開日:2023-09-13
# 勾配調和によるヘテロジニアスフェデレート学習における非iid問題への取り組み

Tackling the Non-IID Issue in Heterogeneous Federated Learning by Gradient Harmonization ( http://arxiv.org/abs/2309.06692v1 )

ライセンス: Link先を確認
Xinyu Zhang, Weiyu Sun, Ying Chen(参考訳) フェデレートラーニング(Federated Learning, FL)は、分散クライアントからグローバルモデルを協調的にトレーニングするための、プライバシ保護パラダイムである。 しかし、FLの性能は非独立で同一の(非IID)データとデバイスの不均一性によって妨げられる。 本研究では、サーバ側の勾配競合のレンズを通して、この重要な課題を再考する。 具体的には,複数のクライアント間の勾配競合現象を最初に検討し,より強固な不均一性がより重度の勾配衝突を引き起こすことを明らかにした。 この問題に対処するため,グラディエント・ハーモニゼーションによる局所ドリフトを緩和する簡易かつ効果的なFedGHを提案する。 この手法は、一方の勾配ベクトルを、矛盾するクライアントペア内の他方の直交平面に投影する。 大規模な実験により、FedGHは様々なベンチマークと非IIDシナリオで複数の最先端のFLベースラインを一貫して強化することを示した。 特に、FedGHはより強い不均一性を持つシナリオにおいて、より顕著な改善をもたらす。 プラグアンドプレイモジュールとして、FedGHはハイパーパラメータチューニングを必要とせずに任意のFLフレームワークにシームレスに統合できる。

Federated learning (FL) is a privacy-preserving paradigm for collaboratively training a global model from decentralized clients. However, the performance of FL is hindered by non-independent and identically distributed (non-IID) data and device heterogeneity. In this work, we revisit this key challenge through the lens of gradient conflicts on the server side. Specifically, we first investigate the gradient conflict phenomenon among multiple clients and reveal that stronger heterogeneity leads to more severe gradient conflicts. To tackle this issue, we propose FedGH, a simple yet effective method that mitigates local drifts through Gradient Harmonization. This technique projects one gradient vector onto the orthogonal plane of the other within conflicting client pairs. Extensive experiments demonstrate that FedGH consistently enhances multiple state-of-the-art FL baselines across diverse benchmarks and non-IID scenarios. Notably, FedGH yields more significant improvements in scenarios with stronger heterogeneity. As a plug-and-play module, FedGH can be seamlessly integrated into any FL framework without requiring hyperparameter tuning.
翻訳日:2023-09-14 15:43:32 公開日:2023-09-13
# ロボットの深部強化学習のための自動逆関数デザイナとしての自己精製大言語モデル

Self-Refined Large Language Model as Automated Reward Function Designer for Deep Reinforcement Learning in Robotics ( http://arxiv.org/abs/2309.06687v1 )

ライセンス: Link先を確認
Jiayang Song, Zhehua Zhou, Jiawei Liu, Chunrong Fang, Zhan Shu, Lei Ma(参考訳) 深層強化学習(drl)は多くのロボットアプリケーションで顕著な成功を収めているが、高いパフォーマンスの報酬関数の設計は、しばしばかなりの手動入力を必要とする課題である。 近年,大規模言語モデル(llm)が,推論や計画など,深い知識を必要とするタスクに広く採用されている。 報酬関数の設計もそのような知識と本質的に結びついていることを認識し、LLMはこの文脈において有望なポテンシャルを提供する。 そこで本研究では,自動報酬関数設計のための自己補充機構を備えた新しいLLMフレームワークを提案する。 このフレームワークは、自然言語入力に基づいて初期報酬関数を定式化するllmで始まる。 そして、報奨関数の性能を評価し、その結果をLSMに提示して自己補充プロセスの導出を行う。 提案フレームワークの性能を,3つのロボットシステムにわたる連続ロボット制御タスクを通して検証した。 その結果, LLMが設計した報酬関数は, 手作業で設計した報酬関数と競合したり, 越えることが可能であることが示唆された。

Although Deep Reinforcement Learning (DRL) has achieved notable success in numerous robotic applications, designing a high-performing reward function remains a challenging task that often requires substantial manual input. Recently, Large Language Models (LLMs) have been extensively adopted to address tasks demanding in-depth common-sense knowledge, such as reasoning and planning. Recognizing that reward function design is also inherently linked to such knowledge, LLM offers a promising potential in this context. Motivated by this, we propose in this work a novel LLM framework with a self-refinement mechanism for automated reward function design. The framework commences with the LLM formulating an initial reward function based on natural language inputs. Then, the performance of the reward function is assessed, and the results are presented back to the LLM for guiding its self-refinement process. We examine the performance of our proposed framework through a variety of continuous robotic control tasks across three diverse robotic systems. The results indicate that our LLM-designed reward functions are able to rival or even surpass manually designed reward functions, highlighting the efficacy and applicability of our approach.
翻訳日:2023-09-14 15:43:17 公開日:2023-09-13
# リアルデバイスを用いた3状態量子鍵分配プロトコルの数値セキュリティ解析

Numerical Security Analysis of Three-State Quantum Key Distribution Protocol with Realistic Devices ( http://arxiv.org/abs/2309.06686v1 )

ライセンス: Link先を確認
Sirui Peng, Xiaoming Sun, Hongyi Zhou(参考訳) 量子鍵分布 (QKD) は、秘密鍵を確立するために量子力学の原理を利用するセキュアな通信方法である。 QKD研究の中心課題は、無制限の計算能力を持つ盗聴器の存在下でのセキュリティを証明することである。 本研究では,3状態QKDプロトコルのセキュリティ解析に関する長年にわたる課題を現実的なデバイス,すなわち弱いコヒーレントな状態ソースを用いて解決することに成功している。 3状態プロトコルにおける測定設定のためのスカッシュモデルの存在を実証する。 これにより測定次元の低減が可能となり、数値的手法を用いて鍵レート計算が可能となる。 鍵レート性能を評価するために数値シミュレーションを行う。 シミュレーションの結果,200kmまでの通信距離が得られた。

Quantum key distribution (QKD) is a secure communication method that utilizes the principles of quantum mechanics to establish secret keys. The central task in the study of QKD is to prove security in the presence of an eavesdropper with unlimited computational power. In this work, we successfully solve a long-standing open question of the security analysis for the three-state QKD protocol with realistic devices, i,e, the weak coherent state source. We prove the existence of the squashing model for the measurement settings in the three-state protocol. This enables the reduction of measurement dimensionality, allowing for key rate computations using the numerical approach. We conduct numerical simulations to evaluate the key rate performance. The simulation results show that we achieve a communication distance of up to 200 km.
翻訳日:2023-09-14 15:42:42 公開日:2023-09-13
# 優先順位付き体験リプレイの注意損失調整

Attention Loss Adjusted Prioritized Experience Replay ( http://arxiv.org/abs/2309.06684v1 )

ライセンス: Link先を確認
Zhuoying Chen, Huiping Li, Rizhong Wang(参考訳) 優先経験リプレイ(PER)は、より知識量の多い経験サンプルを選択し、ニューラルネットワークのトレーニング率を向上させることによって、深層強化学習の技術的手段である。 しかし、PERで使用される一様サンプリングは必然的に状態-作用空間分布をシフトさせ、Q値関数の推定誤差をもたらす。 本稿では,ALAP(Attention Loss Adjusted Prioritized (ALAP) Experience Replayアルゴリズムを提案する。このアルゴリズムは改良されたセルフアテンションネットワークとダブルサンプリング機構を統合し,重み付け重みを調整し,PERによる推定誤差を除去する。 アルゴリズムの有効性と汎用性を検証するため,OPENAI体育館において,ALAP を値関数ベース,ポリシー勾配ベース,マルチエージェント強化学習アルゴリズムを用いて検証し,提案したトレーニングフレームワークの利点と有効性を検証する。

Prioritized Experience Replay (PER) is a technical means of deep reinforcement learning by selecting experience samples with more knowledge quantity to improve the training rate of neural network. However, the non-uniform sampling used in PER inevitably shifts the state-action space distribution and brings the estimation error of Q-value function. In this paper, an Attention Loss Adjusted Prioritized (ALAP) Experience Replay algorithm is proposed, which integrates the improved Self-Attention network with Double-Sampling mechanism to fit the hyperparameter that can regulate the importance sampling weights to eliminate the estimation error caused by PER. In order to verify the effectiveness and generality of the algorithm, the ALAP is tested with value-function based, policy-gradient based and multi-agent reinforcement learning algorithms in OPENAI gym, and comparison studies verify the advantage and efficiency of the proposed training framework.
翻訳日:2023-09-14 15:42:19 公開日:2023-09-13
# 非IIDデータを用いたPACベイズ学習

Federated PAC-Bayesian Learning on Non-IID data ( http://arxiv.org/abs/2309.06683v1 )

ライセンス: Link先を確認
Zihao Zhao, Yang Liu, Wenbo Ding, Xiao-Ping Zhang(参考訳) 既存の研究は、連邦学習(FL)のための確率的略正(PAC)ベイズ的枠組みや、それらの定理を導入しながら情報理論のPAC-ベイズ的境界を用いたが、FLの非IID問題を考えることは少ない。 本研究は,非IID局所データに適した非空連合PAC-ベイジアン境界を示す。 この境界は、各クライアントに固有の事前知識と変数集約重みを仮定する。 また,導出境界の最適化のための目的関数と革新的なgibbsに基づくアルゴリズムを提案する。 結果は実世界のデータセットで検証される。

Existing research has either adapted the Probably Approximately Correct (PAC) Bayesian framework for federated learning (FL) or used information-theoretic PAC-Bayesian bounds while introducing their theorems, but few considering the non-IID challenges in FL. Our work presents the first non-vacuous federated PAC-Bayesian bound tailored for non-IID local data. This bound assumes unique prior knowledge for each client and variable aggregation weights. We also introduce an objective function and an innovative Gibbs-based algorithm for the optimization of the derived bound. The results are validated on real-world datasets.
翻訳日:2023-09-14 15:41:49 公開日:2023-09-13
# 磁気共鳴画像再構成のためのプラグアンドプレイ合成データ深層学習

A plug-and-play synthetic data deep learning for undersampled magnetic resonance image reconstruction ( http://arxiv.org/abs/2309.06681v1 )

ライセンス: Link先を確認
Min Xiao, Zi Wang, Jiefeng Guo, Xiaobo Qu(参考訳) MRIは現代の医療診断において重要な役割を担っているが、長期のスキャンに悩まされている。 アンダーサンプドMRI再構成のための現在のディープラーニング手法は、特定のkspaceアンダーサンプリングシナリオに合わせて調整できる画像デエイリアスにおいて優れた性能を示す。 しかし、サンプリング設定が変わると、異なるディープネットワークを設定するのは非常に面倒です。 本研究では,異なるサンプリング設定に効果的に適用可能なアンダーサンプルMRI再構成のための深いプラグアンドプレイ手法を提案する。 具体的には、合成データから一般の白色ガウスノイズを除去するように訓練された深層デノイザーによって最初に学習される。 そして、学習したディープデノイザを画像再構成のための反復アルゴリズムにプラグインする。 その結果,提案手法は視覚的および定量的に異なるアンダーサンプリングパターンとサンプリング率で画像再構成性能を良好かつロバストに向上できることがわかった。

Magnetic resonance imaging (MRI) plays an important role in modern medical diagnostic but suffers from prolonged scan time. Current deep learning methods for undersampled MRI reconstruction exhibit good performance in image de-aliasing which can be tailored to the specific kspace undersampling scenario. But it is very troublesome to configure different deep networks when the sampling setting changes. In this work, we propose a deep plug-and-play method for undersampled MRI reconstruction, which effectively adapts to different sampling settings. Specifically, the image de-aliasing prior is first learned by a deep denoiser trained to remove general white Gaussian noise from synthetic data. Then the learned deep denoiser is plugged into an iterative algorithm for image reconstruction. Results on in vivo data demonstrate that the proposed method provides nice and robust accelerated image reconstruction performance under different undersampling patterns and sampling rates, both visually and quantitatively.
翻訳日:2023-09-14 15:41:18 公開日:2023-09-13
# STUPD:空間的・時間的関係推論のための合成データセット

STUPD: A Synthetic Dataset for Spatial and Temporal Relation Reasoning ( http://arxiv.org/abs/2309.06680v1 )

ライセンス: Link先を確認
Palaash Agrawal, Haidi Azaman, Cheston Tan(参考訳) オブジェクト間の関係を理解することは、視覚シーンのセマンティクスを理解するのに不可欠である。 ビジュアルモデルと言語モデルを橋渡しするための重要なステップでもある。 しかし、現在の最先端コンピュータビジョンモデルには、空間推論をうまく行う能力がない。 既存のデータセットは、比較的少ない空間関係をカバーしており、それら全ては本質的に動きを伴わない静的な関係である。 本稿では,前置詞データセット(stupd) - 英語前置詞から派生した静的・動的空間関係を理解するための大規模ビデオデータセットである。 このデータセットは、unity3dを使って合成されたオブジェクトインタラクションシミュレーションの形式で、30の異なる空間的前置感覚からなる150kの視覚表現(ビデオと画像)を含んでいる。 また,空間的関係に加えて,イベント/ポイント間インタラクションを表現した映像を10の時間的関係にまたがって50kの視覚表現を提案する。 我々の知る限りでは、視覚的設定による時間的関係を表すデータセットは存在しない。 本データセットでは,フレームワイド座標などのオブジェクトインタラクションの3次元情報や,使用するオブジェクトの記述も提供する。 この合成データセットの目標は、モデルが現実世界の設定における視覚的関係の検出を改善することを支援することである。 実世界の2つのデータセット(ImageNet-VidVRDとSpatial Senses)におけるSTUPDデータセットの事前トレーニングにおける各種モデルの性能向上を,他の事前トレーニングデータセットと比較して示す。

Understanding relations between objects is crucial for understanding the semantics of a visual scene. It is also an essential step in order to bridge visual and language models. However, current state-of-the-art computer vision models still lack the ability to perform spatial reasoning well. Existing datasets mostly cover a relatively small number of spatial relations, all of which are static relations that do not intrinsically involve motion. In this paper, we propose the Spatial and Temporal Understanding of Prepositions Dataset (STUPD) -- a large-scale video dataset for understanding static and dynamic spatial relationships derived from prepositions of the English language. The dataset contains 150K visual depictions (videos and images), consisting of 30 distinct spatial prepositional senses, in the form of object interaction simulations generated synthetically using Unity3D. In addition to spatial relations, we also propose 50K visual depictions across 10 temporal relations, consisting of videos depicting event/time-point interactions. To our knowledge, no dataset exists that represents temporal relations through visual settings. In this dataset, we also provide 3D information about object interactions such as frame-wise coordinates, and descriptions of the objects used. The goal of this synthetic dataset is to help models perform better in visual relationship detection in real-world settings. We demonstrate an increase in the performance of various models over 2 real-world datasets (ImageNet-VidVRD and Spatial Senses) when pretrained on the STUPD dataset, in comparison to other pretraining datasets.
翻訳日:2023-09-14 15:40:50 公開日:2023-09-13
# 実験データの同化によるspaart-allmarasモデルの一般化

Generalizable improvement of the Spalart-Allmaras model through assimilation of experimental data ( http://arxiv.org/abs/2309.06679v1 )

ライセンス: Link先を確認
Deepinder Jot Singh Aulakh and Romit Maulik(参考訳) 本研究では,Reynolds-a averageaged Navier-Stokes Solution of separated flowに対するSpalart-Allmaras(SA)クロージャモデルの改善のためのモデルとデータ融合の利用に焦点を当てた。 特に,計算モデルの性能を向上させるためにスパース実験データを同化するだけでなく,古典的sa動作を回復して未発見の事例に一般化するモデルの開発が目的である。 分離流れに対するsaモデルの係数を校正するために,データ同化,すなわちアンサンブルカルマンフィルタ(enkf)を用いて目標を達成する。 総論的なキャリブレーション戦略は, 生産, 拡散, 破壊条件のパラメータ化によって実現される。 このキャリブレーションは、速度プロファイル、皮膚摩擦、分離流れの圧力係数を収集した実験データの同化に依存する。 逆向きステップ (BFS) の周囲の単一流れ状態からの観測データを用いても、2Dバンプや修正BFSを含む他の分離流れへの一般化が示される。 テストした各流れに対する皮膚摩擦係数(C_f$)および圧力係数(C_p$)の量の重要な改善が観察される。 最後に,新たに提案するモデルでは,naca-0012翼まわりの流れなどの外部分離されていない流れに対して,外挿の危険を伴わずにsa熟練度を回復し,saモデルの個別に調整された用語は,再循環ゾーンを改善し,破壊が回復ゾーンを改善する特定のフロー物理量を対象としていることを実証する。

This study focuses on the use of model and data fusion for improving the Spalart-Allmaras (SA) closure model for Reynolds-averaged Navier-Stokes solutions of separated flows. In particular, our goal is to develop of models that not-only assimilate sparse experimental data to improve performance in computational models, but also generalize to unseen cases by recovering classical SA behavior. We achieve our goals using data assimilation, namely the Ensemble Kalman Filtering approach (EnKF), to calibrate the coefficients of the SA model for separated flows. A holistic calibration strategy is implemented via a parameterization of the production, diffusion, and destruction terms. This calibration relies on the assimilation of experimental data collected velocity profiles, skin friction, and pressure coefficients for separated flows. Despite using of observational data from a single flow condition around a backward-facing step (BFS), the recalibrated SA model demonstrates generalization to other separated flows, including cases such as the 2D-bump and modified BFS. Significant improvement is observed in the quantities of interest, i.e., skin friction coefficient ($C_f$) and pressure coefficient ($C_p$) for each flow tested. Finally, it is also demonstrated that the newly proposed model recovers SA proficiency for external, unseparated flows, such as flow around a NACA-0012 airfoil without any danger of extrapolation, and that the individually calibrated terms in the SA model are targeted towards specific flow-physics wherein the calibrated production term improves the re-circulation zone while destruction improves the recovery zone.
翻訳日:2023-09-14 15:40:25 公開日:2023-09-13
# トロイダルトラップにおける電流相転移のカオスシグネチャ

Chaos signatures of current phase transition in a toroidal trap ( http://arxiv.org/abs/2309.06678v1 )

ライセンス: Link先を確認
Zhiqiang Li, Xiaoxiao Hu, Zhao-Yun Zeng, Yajiang Chen, Ai-Xi Chen, and Xiaobing Luo(参考訳) 本研究では, トロイダルトラップ内での原子ボース・アインシュタインの配向運動を, ゼロ平均振動駆動場を適用して制御できることを示す。 運動量空間における自己トラッピング効果により、原子間相互作用が比較的小さい場合でも、駆動振幅を減少させることにより、電流の振動振幅を著しく抑制でき、初期電流値を保存するほぼ一定方向の電流を得ることができることを示す。 また, 平均場カオスは, 消滅電流系と非破壊電流系との間の量子相転移の指標となり得ることを数値的に明らかにする。 この結果は,システムにおけるラチェット力学の優れた説明を提供する有効3モードモデルによって裏付けられている。

In this work we demonstrate how the directed motion of atomic Bose-Einstein condensates in a toroidal trap can be controlled by applying a zero-mean oscillatory driving field. We show that due to the self-trapping effect in momentum space, the oscillatory amplitude of the current can be significantly suppressed and a nearly constant directed current can be obtained preserving the initial current values, by decreasing the driving amplitude, even when the atomic interactions are relatively small. We also reveal numerically the mean-field chaos can serve as an indicator of a quantum phase transition between the vanishing current regime and nonvanishing current regime. Our results are corroborated by an effective three-mode model, which provides an excellent account of the ratchet dynamics of the system.
翻訳日:2023-09-14 15:39:53 公開日:2023-09-13
# SHARM: 頭解剖学的参照モデル

SHARM: Segmented Head Anatomical Reference Models ( http://arxiv.org/abs/2309.06677v1 )

ライセンス: Link先を確認
Essam A. Rashed, Mohammad al-Shatouri, Ilkka Laakso, Akimasa Hirata(参考訳) ヒト頭部の解剖学的組織の信頼性の高いセグメンテーションは、脳マッピング、手術計画、関連する計算シミュレーション研究など、いくつかの臨床応用において重要なステップである。 セグメンテーションは、医療画像のモダリティを通して異なる組織をラベル付けすることで、異なる解剖学的構造を識別することに基づいている。 脳構造のセグメンテーションは、主に医学的な見地から多くの顕著な貢献がなされるが、解剖学的複雑さや標準の医用画像プロトコルで観察できないため、非脳組織は興味を示さない。 頭部のセグメンテーション方法の欠如と、大きな頭部セグメンテーションデータセットの有効性の欠如は、特に、電気的脳刺激(神経運動)、電磁界からの人間の保護、および非脳組織が非常に重要である脳波の計算的評価において、変動性の研究を制限する。 このギャップを埋めるために、この研究は196人の被験者からなるオープンアクセス・セグメンテッド・ヘッド解剖学的基準モデル(SHARM)を提供する。 これらのモデルは15の異なる組織(皮膚、脂肪、筋肉、頭蓋骨、頭蓋皮質骨、脳白質、脳白質、小脳白質、小脳白質、小脳白質、小脳脊髄液、デュラ、硝子体液、レンズ、粘膜組織、血管)に分けられる。 セグメンテーションヘッドモデルは、畳み込みニューラルネットワーク構造であるforknet+を介して、open-access ixi mriデータセットを使用して生成される。 その結果,実測値と年齢尺度の異なる組織分布の統計的特性は高い一貫性を示した。 SHARMは、電磁線ドシメトリー研究だけでなく、異なる人間の頭部セグメンテーション応用にも有用なベンチマークとして期待されている。

Reliable segmentation of anatomical tissues of human head is a major step in several clinical applications such as brain mapping, surgery planning and associated computational simulation studies. Segmentation is based on identifying different anatomical structures through labeling different tissues through medical imaging modalities. The segmentation of brain structures is commonly feasible with several remarkable contributions mainly for medical perspective; however, non-brain tissues are of less interest due to anatomical complexity and difficulties to be observed using standard medical imaging protocols. The lack of whole head segmentation methods and unavailability of large human head segmented datasets limiting the variability studies, especially in the computational evaluation of electrical brain stimulation (neuromodulation), human protection from electromagnetic field, and electroencephalography where non-brain tissues are of great importance. To fill this gap, this study provides an open-access Segmented Head Anatomical Reference Models (SHARM) that consists of 196 subjects. These models are segmented into 15 different tissues; skin, fat, muscle, skull cancellous bone, skull cortical bone, brain white matter, brain gray matter, cerebellum white matter, cerebellum gray matter, cerebrospinal fluid, dura, vitreous humor, lens, mucous tissue and blood vessels. The segmented head models are generated using open-access IXI MRI dataset through convolutional neural network structure named ForkNet+. Results indicate a high consistency in statistical characteristics of different tissue distribution in age scale with real measurements. SHARM is expected to be a useful benchmark not only for electromagnetic dosimetry studies but also for different human head segmentation applications.
翻訳日:2023-09-14 15:39:40 公開日:2023-09-13
# バイアス増幅は少数集団のパフォーマンスを高める

Bias Amplification Enhances Minority Group Performance ( http://arxiv.org/abs/2309.06717v1 )

ライセンス: Link先を確認
Gaotang Li, Jiarui Liu, Wei Hu(参考訳) 標準的なトレーニングによって生成されたニューラルネットワークは、特定の突発的特徴とラベルの相関により、平均的に高い精度を達成したにもかかわらず、まれなサブグループの精度が低いことが知られている。 最悪のグループ損失最小化(例えば、グループDRO)に基づく従来のアプローチは、悪いグループ精度を改善するのに有効であるが、全てのトレーニングサンプルに対して高価なグループアノテーションを必要とする。 本稿では,グループアノテーションを小さな検証セットでのみ利用できるか,あるいはまったく利用できないような,より困難で現実的な設定に焦点を当てる。 第1段階では、各トレーニングサンプルに対して学習可能な補助変数を導入してバイアス増幅スキームを用いてトレーニングを行い、第2段階では、バイアス増幅モデルが誤分類したサンプルを重み付けし、その後、再重み付きデータセット上で同じモデルをトレーニングする。 BAMは、コンピュータビジョンや自然言語処理において、突発的な相関ベンチマークで評価された既存の手法と比較して、競争性能を実証的に達成する。 さらに,最小クラス精度差に基づく単純な停止基準を見いだし,最悪のグループ精度の損失が少なく,グループアノテーションの必要性をなくすことができた。 我々は,様々なクラスとグループの不均衡比におけるアルゴリズムの有効性とロバスト性を検証するために,広範囲な分析と改善を行った。

Neural networks produced by standard training are known to suffer from poor accuracy on rare subgroups despite achieving high accuracy on average, due to the correlations between certain spurious features and labels. Previous approaches based on worst-group loss minimization (e.g. Group-DRO) are effective in improving worse-group accuracy but require expensive group annotations for all the training samples. In this paper, we focus on the more challenging and realistic setting where group annotations are only available on a small validation set or are not available at all. We propose BAM, a novel two-stage training algorithm: in the first stage, the model is trained using a bias amplification scheme via introducing a learnable auxiliary variable for each training sample; in the second stage, we upweight the samples that the bias-amplified model misclassifies, and then continue training the same model on the reweighted dataset. Empirically, BAM achieves competitive performance compared with existing methods evaluated on spurious correlation benchmarks in computer vision and natural language processing. Moreover, we find a simple stopping criterion based on minimum class accuracy difference that can remove the need for group annotations, with little or no loss in worst-group accuracy. We perform extensive analyses and ablations to verify the effectiveness and robustness of our algorithm in varying class and group imbalance ratios.
翻訳日:2023-09-14 15:33:39 公開日:2023-09-13
# フェルミオンの相関フロント伝播におけるランダム行列統計

Random Matrix Statistics in Propagating Correlation Fronts of Fermions ( http://arxiv.org/abs/2309.06716v1 )

ライセンス: Link先を確認
Kazuya Fujimoto, Tomohiro Sasamoto(参考訳) 交互状態から始まった一次元格子上の非相互作用フェルミオンにおける相関前線の伝播を理論的に検討する。 長期の漸近的状態においては, 相関面周辺の動的変動のすべてのモーメントは, ソフトエッジにおけるガウス直交行列とシンプレクティックランダム行列の普遍的相関関数によって記述される。 ここでの発見は、ランダム行列理論と量子力学における相関伝播の間の未知の接続に光を当てている。

We theoretically study propagating correlation fronts in non-interacting fermions on a one-dimensional lattice starting from an alternating state, where the fermions occupy every other site. We find that, in the long-time asymptotic regime, all the moments of dynamical fluctuations around the correlation fronts are described by the universal correlation functions of Gaussian orthogonal and symplectic random matrices at the soft edge. Our finding here sheds light on a hitherto unknown connection between random matrix theory and correlation propagation in quantum dynamics.
翻訳日:2023-09-14 15:33:14 公開日:2023-09-13
# MPI-Flow:マルチプレーン画像によるリアルな光学流れの学習

MPI-Flow: Learning Realistic Optical Flow with Multiplane Images ( http://arxiv.org/abs/2309.06714v1 )

ライセンス: Link先を確認
Yingping Liang, Jiaming Liu, Debing Zhang, Ying Fu(参考訳) 学習に基づく光フロー推定モデルの精度は、トレーニングデータセットのリアリズムに大きく依存する。 このようなデータセットを生成する現在のアプローチでは、合成データを使用するか、リアリズムに制限のあるイメージを生成する。 しかし、これらのデータと実世界のシーンとのドメインギャップは、訓練されたモデルの現実のアプリケーションへの一般化を妨げている。 この問題に対処するために,実世界の画像からリアルな光フローデータセットを生成することを検討する。 まず、高度にリアルな新しい画像を生成するために、単視点画像からマルチプレーン画像(mpi)と呼ばれる階層化された深度表現を構築する。 これにより、非常にリアルな新しいビュー画像を生成することができます。 新しい画像に正確に対応した光フローマップを生成するために、カメラマトリクスと平面深度を用いて各平面の光フローを計算する。 次に、これらの層状光フローをボリュームレンダリングで出力光フローマップに投影する。 第二に、動作の現実性を確保するために、MPI内のカメラと動的物体の動きを分離できる独立した物体運動モジュールを提示する。 このモジュールは、MPIベースの単一ビュー法では、光学フローはカメラの動きによってのみ発生し、物体の動きを考慮しない。 さらに,動的物体と新しい画像とを融合し,非自然運動の閉塞に対処する深度認識型塗装モジュールを考案した。 実世界のデータセットに関する広範な実験を通じて,提案手法の優れた性能を示す。 さらに,学習ベースモデルの教師なし学習と教師なし学習の両方において,最先端のパフォーマンスを実現する。 コードは以下で公開されている。 \url{https://github.com/Sharpiless/MPI-Flow}。

The accuracy of learning-based optical flow estimation models heavily relies on the realism of the training datasets. Current approaches for generating such datasets either employ synthetic data or generate images with limited realism. However, the domain gap of these data with real-world scenes constrains the generalization of the trained model to real-world applications. To address this issue, we investigate generating realistic optical flow datasets from real-world images. Firstly, to generate highly realistic new images, we construct a layered depth representation, known as multiplane images (MPI), from single-view images. This allows us to generate novel view images that are highly realistic. To generate optical flow maps that correspond accurately to the new image, we calculate the optical flows of each plane using the camera matrix and plane depths. We then project these layered optical flows into the output optical flow map with volume rendering. Secondly, to ensure the realism of motion, we present an independent object motion module that can separate the camera and dynamic object motion in MPI. This module addresses the deficiency in MPI-based single-view methods, where optical flow is generated only by camera motion and does not account for any object movement. We additionally devise a depth-aware inpainting module to merge new images with dynamic objects and address unnatural motion occlusions. We show the superior performance of our method through extensive experiments on real-world datasets. Moreover, our approach achieves state-of-the-art performance in both unsupervised and supervised training of learning-based models. The code will be made publicly available at: \url{https://github.com/Sharpiless/MPI-Flow}.
翻訳日:2023-09-14 15:33:02 公開日:2023-09-13
# $\mathcal{PT}$-symmetric trapped-ion qubitにおけるLeggett-Garg不等式強化の実証

Experimental demonstration of enhanced violations of Leggett-Garg inequalities in a $\mathcal{PT}$-symmetric trapped-ion qubit ( http://arxiv.org/abs/2309.06713v1 )

ライセンス: Link先を確認
Pengfei Lu, Xinxin Rao, Teng Liu, Yang Liu, Ji Bian, Feng Zhu and Le Luo(参考訳) Leggett-Garg不等式(LGI)は量子系と古典系を区別するための境界を定めている。 LGIの時間的量子相関の試験はエルミート領域で研究されているが、散逸とコヒーレンスの間の相互作用により、非エルミート条件下でのLGIについてはまだ不明である。 例えば、実験的に検証すべき理論仮説は、非エルミート系において、系力学の非単位進化は、LGIの境界が従来の量子力学によって課される制約を超えることを示唆している。 ここでは、進化状態の時間的相関を異なる時間で測定することにより、パリティ時間($\mathcal{PT}$)対称セプトイオン量子ビット系におけるLGIの実験的違反を実証する。 3時間パラメータの$K_3$と4時間パラメータの$K_4$の上限は、消散量の増加に強い違反を示し、例外点に無限に近づくことで上限に達することができる。 また、$K_3$ と $K_4$ の下位境界の異なる挙動も観察する。 k_3$ の下限は一定だが、$k_4$ の場合、散逸の増加とともに上昇傾向を示す。 これらの結果から,システムの時間的量子相関は環境への散逸に依存することが明らかとなった。 これにより、散逸を利用して量子相関や絡み合いを変調する潜在的な経路が開かれる。

The Leggett-Garg inequality (LGI) places a bound for the distinction between quantum systems and classical systems. Despite that the tests of temporal quantum correlations on LGIs have been studied in Hermitian realm, there are still unknowns for LGIs in non-Hermitian conditions due to the interplay between dissipation and coherence. For example, a theoretical hypothesis to be experimentally validated, suggests that within non-Hermitian systems, the non-unitary evolution of the system dynamics allows the boundaries of the LGIs to surpass the constraints imposed by traditional quantum mechanics. Here, we demonstrate the experimental violation of LGIs in a parity-time ($\mathcal{PT}$)-symmetric trapped-ion qubit system by measuring the temporal correlation of the evolving states at different times. We find that the upper bounds of the three-time parameter $K_3$ and the four-time parameter $K_4$ show enhanced violations with the increasing dissipation, and can reach the upper limit by infinitely approaching exceptional point. We also observe the distinct behavior of the lower bounds for $K_3$ and $K_4$. While the lower bound for $K_3$ remains constant, the case for $K_4$ shows an upward trend with increasing dissipation. These results reveal a pronounced dependence of the system's temporal quantum correlations on its dissipation to the environment. This opens up a potential pathway for harnessing dissipation to modulate quantum correlations and entanglement.
翻訳日:2023-09-14 15:32:41 公開日:2023-09-13
# ニューラルネットワーク電位と年齢適合パレート遺伝的アルゴリズムを用いた結晶構造予測

Crystal structure prediction using neural network potential and age-fitness Pareto genetic algorithm ( http://arxiv.org/abs/2309.06710v1 )

ライセンス: Link先を確認
Sadman Sadeed Omee, Lai Wei, Jianjun Hu(参考訳) 結晶構造予測(CSP)は長年の課題であるが,多目的遺伝的アルゴリズム(MOGA)とニューラルネットワーク間ポテンシャル(IAP)モデルを組み合わせたCSPの新しいアルゴリズムであるParetoCSPを導入し,化学組成に最適な結晶構造を求める。 NSGA-IIIアルゴリズムは,ジェノタイプ年代を独立最適化基準として組み込んで拡張し,M3GNetユニバーサルIAPを用いてGA検索を誘導する。 最先端のニューラルポテンシャルベースのcspアルゴリズムであるgn-oaと比較して、paretocspは、様々なベンチマーク構造に対して2.562ドルを上回り、7つのパフォーマンス指標で評価された。 すべてのアルゴリズムのトラバース構造の軌道解析は、paretocspが他のアルゴリズムよりも有効な構造を生成していることを示している。

While crystal structure prediction (CSP) remains a longstanding challenge, we introduce ParetoCSP, a novel algorithm for CSP, which combines a multi-objective genetic algorithm (MOGA) with a neural network inter-atomic potential (IAP) model to find energetically optimal crystal structures given chemical compositions. We enhance the NSGA-III algorithm by incorporating the genotypic age as an independent optimization criterion and employ the M3GNet universal IAP to guide the GA search. Compared to GN-OA, a state-of-the-art neural potential based CSP algorithm, ParetoCSP demonstrated significantly better predictive capabilities, outperforming by a factor of $2.562$ across $55$ diverse benchmark structures, as evaluated by seven performance metrics. Trajectory analysis of the traversed structures of all algorithms shows that ParetoCSP generated more valid structures than other algorithms, which helped guide the GA to search more effectively for the optimal structures
翻訳日:2023-09-14 15:32:16 公開日:2023-09-13
# パススライシングと再重み付けによる疲労き裂進展予測

Predicting Fatigue Crack Growth via Path Slicing and Re-Weighting ( http://arxiv.org/abs/2309.06708v1 )

ライセンス: Link先を確認
Yingjie Zhao, Yong Liu, and Zhiping Xu(参考訳) 重要な構造部品の疲労に伴う潜在的なリスクを予測することは工学設計において不可欠である。 しかし、疲労はしばしば材料ミクロ組織とサービス条件の絡み合った複雑さを伴い、疲労損傷の診断と予後が困難になる。 負荷条件下での疲労き裂の発生と疲労寿命を予測するための統計的学習フレームワークについて報告する。 高忠実度物理シミュレーションにより疲労き裂パターンと余寿命のデジタルライブラリを構築した。 寸法の低減とニューラルネットワークアーキテクチャは、疲労き裂成長の履歴依存性と非線形性を学ぶために使用される。 統計ノイズやまれな事象を扱うためにパススライシングと再重み付け技術が導入された。 予測疲労き裂パターンは、進化するき裂パターンによって自己更新および自己修正される。 エンド・ツー・エンドのアプローチは、リアルタイム構造ヘルスモニタリングとメンテナンス管理意思決定のための疲労寿命予測におけるディジタルトウィンシナリオを示す、プレートに疲労き裂がある代表例によって検証される。

Predicting potential risks associated with the fatigue of key structural components is crucial in engineering design. However, fatigue often involves entangled complexities of material microstructures and service conditions, making diagnosis and prognosis of fatigue damage challenging. We report a statistical learning framework to predict the growth of fatigue cracks and the life-to-failure of the components under loading conditions with uncertainties. Digital libraries of fatigue crack patterns and the remaining life are constructed by high-fidelity physical simulations. Dimensionality reduction and neural network architectures are then used to learn the history dependence and nonlinearity of fatigue crack growth. Path-slicing and re-weighting techniques are introduced to handle the statistical noises and rare events. The predicted fatigue crack patterns are self-updated and self-corrected by the evolving crack patterns. The end-to-end approach is validated by representative examples with fatigue cracks in plates, which showcase the digital-twin scenario in real-time structural health monitoring and fatigue life prediction for maintenance management decision-making.
翻訳日:2023-09-14 15:31:57 公開日:2023-09-13
# 大規模言語モデルを用いた同時機械翻訳

Simultaneous Machine Translation with Large Language Models ( http://arxiv.org/abs/2309.06706v1 )

ライセンス: Link先を確認
Minghan Wang, Jinming Zhao, Thuy-Trang Vu, Fatemeh Shiri, Ehsan Shareghi, Gholamreza Haffari(参考訳) 大規模言語モデル(LLM)は対話に基づく対話を通して様々な自然言語処理タスクを解く能力を示した。 例えば、研究によると、llmは高リソース言語のオフライン機械翻訳タスクにおいて競争力のある性能を達成できる。 しかし、LLMを同時機械翻訳(SimulMT)に適用すると、異なる復号パターンから生じるトレーニング-推論ミスマッチに関する問題など、多くの課題が生じる。 本稿では,SimulMT における LLM の利用可能性について検討する。 従来のアプローチを基礎として,LLMがSimulMTに参加するために,追加のトレーニングを必要とせず,簡便かつ効果的な混合ポリシーを導入する。 さらに,フル文とプレフィックス文を混合したSFT(Supervised Fine-Tuning)では,性能が大幅に向上した。 Llama2-7B-chatを用いてMUST-Cデータセットから9つの言語ペアを用いて実験を行い、LLMが専用のSimulMTモデルに匹敵する翻訳品質とレイテンシを達成できることを実証した。

Large language models (LLM) have demonstrated their abilities to solve various natural language processing tasks through dialogue-based interactions. For instance, research indicates that LLMs can achieve competitive performance in offline machine translation tasks for high-resource languages. However, applying LLMs to simultaneous machine translation (SimulMT) poses many challenges, including issues related to the training-inference mismatch arising from different decoding patterns. In this paper, we explore the feasibility of utilizing LLMs for SimulMT. Building upon conventional approaches, we introduce a simple yet effective mixture policy that enables LLMs to engage in SimulMT without requiring additional training. Furthermore, after Supervised Fine-Tuning (SFT) on a mixture of full and prefix sentences, the model exhibits significant performance improvements. Our experiments, conducted with Llama2-7B-chat on nine language pairs from the MUST-C dataset, demonstrate that LLM can achieve translation quality and latency comparable to dedicated SimulMT models.
翻訳日:2023-09-14 15:31:40 公開日:2023-09-13
# VLSlice:インタラクティブな視覚・言語スライス発見

VLSlice: Interactive Vision-and-Language Slice Discovery ( http://arxiv.org/abs/2309.06703v1 )

ライセンス: Link先を確認
Eric Slyman, Minsuk Kahng, Stefan Lee(参考訳) 視覚と言語に関する最近の研究は、大規模な事前学習が、下流のタスクに効率的に転送可能な一般化可能なモデルを学習できることを実証している。 これはデータセットスケールのアグリゲーションメトリクスを改善するかもしれないが、特定のバイアス次元をターゲットとした手作りサブグループのパフォーマンス分析は、システム的に望ましくない振る舞いを示す。 しかし、このサブグループ分析は、必要なデータを集めるのに膨大な時間とリソースを必要とするアノテーションの取り組みによってしばしば停止される。 先行技術は、これらの制約を回避するために自動的にサブグループを見つけようとするが、通常、既存のタスク固有のアノテーションでモデルの振る舞いを活用し、"表型"データ以上の複雑な入力を迅速に分解する。 本稿では,無ラベル画像集合から視覚・言語スライスとして表現される一貫した視覚言語行動を持つコヒーレント表現レベルサブグループのユーザガイドによる発見を可能にする対話型システム VLSlice を提案する。 VLSliceは,ユーザスタディ(n=22)において,多様な高一貫性スライスを迅速に生成し,ツールを一般公開することを可能にする。

Recent work in vision-and-language demonstrates that large-scale pretraining can learn generalizable models that are efficiently transferable to downstream tasks. While this may improve dataset-scale aggregate metrics, analyzing performance around hand-crafted subgroups targeting specific bias dimensions reveals systemic undesirable behaviors. However, this subgroup analysis is frequently stalled by annotation efforts, which require extensive time and resources to collect the necessary data. Prior art attempts to automatically discover subgroups to circumvent these constraints but typically leverages model behavior on existing task-specific annotations and rapidly degrades on more complex inputs beyond "tabular" data, none of which study vision-and-language models. This paper presents VLSlice, an interactive system enabling user-guided discovery of coherent representation-level subgroups with consistent visiolinguistic behavior, denoted as vision-and-language slices, from unlabeled image sets. We show that VLSlice enables users to quickly generate diverse high-coherency slices in a user study (n=22) and release the tool publicly.
翻訳日:2023-09-14 15:31:20 公開日:2023-09-13
# 拡張核融合モジュールを用いた透明物体追跡

Transparent Object Tracking with Enhanced Fusion Module ( http://arxiv.org/abs/2309.06701v1 )

ライセンス: Link先を確認
Kalyan Garigapati, Erik Blasch, Jie Wei, Haibin Ling(参考訳) 眼鏡などの透明な物体の正確な追跡は、ロボット支援生活など多くのロボットタスクにおいて重要な役割を果たす。 このようなオブジェクトの適応的かつしばしば反射的なテクスチャのため、汎用的な学習機能に依存する従来の追跡アルゴリズムは性能の低下に悩まされる。 最近の研究は、目的に合わせた機能を活用して、既存の汎用オブジェクトトラッカに透明性の意識を植え付けることを提案している。 しかし、既存の融合技術では、新機能の追加は潜在空間に変化をもたらし、固定された潜在空間を持つトラッカーに透明性の認識を組み込むことができない。 例えば、現在のトランスフォーマーベースのトラッカーの多くは、完全に事前訓練されており、遅延空間の摂動に敏感である。 本稿では,透明性情報を固定した機能空間に統合し,より広い範囲のトラッカーでの利用を可能にする機能融合手法を提案する。 提案するフュージョンモジュールは,トランスフォーマーエンコーダとMPPモジュールで構成され,キークエリベースの変換を利用して,透明な情報をトラッキングパイプラインに埋め込む。 また,透明性機能を効果的に統合するための2段階のトレーニング戦略を提案する。 我々は,我々の融合技術を用いて透明物体追跡に優れた結果を得るための新しいトラッカアーキテクチャを提案する。 提案手法は,最近リリースされた最大の透過的オブジェクトトラッキングベンチマークであるtotbにおいて,最先端のトラッカと競合する結果が得られる。 我々の結果とコードの実装はhttps://github.com/kalyan0510/TOTEMで公開されます。

Accurate tracking of transparent objects, such as glasses, plays a critical role in many robotic tasks such as robot-assisted living. Due to the adaptive and often reflective texture of such objects, traditional tracking algorithms that rely on general-purpose learned features suffer from reduced performance. Recent research has proposed to instill transparency awareness into existing general object trackers by fusing purpose-built features. However, with the existing fusion techniques, the addition of new features causes a change in the latent space making it impossible to incorporate transparency awareness on trackers with fixed latent spaces. For example, many of the current days transformer-based trackers are fully pre-trained and are sensitive to any latent space perturbations. In this paper, we present a new feature fusion technique that integrates transparency information into a fixed feature space, enabling its use in a broader range of trackers. Our proposed fusion module, composed of a transformer encoder and an MLP module, leverages key query-based transformations to embed the transparency information into the tracking pipeline. We also present a new two-step training strategy for our fusion module to effectively merge transparency features. We propose a new tracker architecture that uses our fusion techniques to achieve superior results for transparent object tracking. Our proposed method achieves competitive results with state-of-the-art trackers on TOTB, which is the largest transparent object tracking benchmark recently released. Our results and the implementation of code will be made publicly available at https://github.com/kalyan0510/TOTEM.
翻訳日:2023-09-14 15:30:58 公開日:2023-09-13
# 低リソース言語のための手続き型言語理解のベンチマーク:トルコ語を事例として

Benchmarking Procedural Language Understanding for Low-Resource Languages: A Case Study on Turkish ( http://arxiv.org/abs/2309.06698v1 )

ライセンス: Link先を確認
Arda Uzuno\u{g}lu and G\"ozde G\"ul \c{S}ahin(参考訳) 手続き型自然言語(例えばステップバイステップ命令)を理解することは、実行と計画にとって重要なステップである。 しかし、英語で利用可能なコーパスや下流タスクは多いが、ほとんどの言語にはそのようなリソースが欠けている。 このギャップに対処するため、トルコの手続き文について事例研究を行う。 まず、トルコ語wikiのチュートリアルの数を2000から52,000に拡張します。翻訳の質と本来の意味への忠誠は、ランダムなセットの専門家チームによって検証されます。 次に、アクションのリンク、ゴール推論、要約など、コーパス上のいくつかのダウンストリームタスクを生成します。 これらの課題に対処するために,TR-BARTやBERTurkといった大規模言語特化モデルや,mBART,mT5,XLMといった多言語モデルを用いて,強力なベースラインモデルを実装した。 言語固有のモデルは、ほとんどの手続き的言語理解(PLU)タスクにおいて、その多言語モデルよりもはるかに優れています。 私たちはコーパス、ダウンストリームタスク、ベースラインモデルをhttps://github.com/gglab-ku/turkish-pluでリリースします。

Understanding procedural natural language (e.g., step-by-step instructions) is a crucial step to execution and planning. However, while there are ample corpora and downstream tasks available in English, the field lacks such resources for most languages. To address this gap, we conduct a case study on Turkish procedural texts. We first expand the number of tutorials in Turkish wikiHow from 2,000 to 52,000 using automated translation tools, where the translation quality and loyalty to the original meaning are validated by a team of experts on a random set. Then, we generate several downstream tasks on the corpus, such as linking actions, goal inference, and summarization. To tackle these tasks, we implement strong baseline models via fine-tuning large language-specific models such as TR-BART and BERTurk, as well as multilingual models such as mBART, mT5, and XLM. We find that language-specific models consistently outperform their multilingual models by a significant margin across most procedural language understanding (PLU) tasks. We release our corpus, downstream tasks and the baseline models with https://github.com/ GGLAB-KU/turkish-plu.
翻訳日:2023-09-14 15:30:34 公開日:2023-09-13
# MCNS:新たな内部因果性スキームによる時系列内部の因果構造のマイニング

MCNS: Mining Causal Natural Structures Inside Time Series via A Novel Internal Causality Scheme ( http://arxiv.org/abs/2309.06739v1 )

ライセンス: Link先を確認
Yuanhao Liu and Dehui Du and Zihan Jiang and Anyan Huang and Yiyang Li(参考訳) 因果推論は、時系列における様々な変数の隠れた関係を発見できる。 しかし、既存のほとんどの作品において、上記の変数は次元である。 次元間の因果関係はカーソルであり、内部関係の理解とニューラルネットワーク(NN)への因果グラフの利点を妨げる。 本稿では,実世界の事象の連続を反映した因果関係が,外部だけでなく時系列内部にも存在していることを見出した。 内部のサブシーケンス間の関係を求めるきっかけになります。 しかし、課題は、サブシーケンスから因果性を発見し、因果自然構造を利用してnnを改善するという困難である。 これらの課題に対処するために、マイニング因果自然構造(MCNS)と呼ばれる新しいフレームワークを提案し、これは自動的でドメインに依存しないものであり、内部因果性スキームを通じて時系列内の因果自然構造を見つけるのに役立つ。 時系列分類タスクにおいて,MCNS のフレームワークと NN を MCNS と組み合わせて評価する。 実験の結果, 注意の強化, 形状選択の分類, データセットの刈り込みにより, nn を駆動し, そのデータ自体も精度と解釈性が望ましいことがわかった。 さらに、MCNSは時系列とデータセットの詳細な、しっかりとした要約を提供する。

Causal inference permits us to discover covert relationships of various variables in time series. However, in most existing works, the variables mentioned above are the dimensions. The causality between dimensions could be cursory, which hinders the comprehension of the internal relationship and the benefit of the causal graph to the neural networks (NNs). In this paper, we find that causality exists not only outside but also inside the time series because it reflects a succession of events in the real world. It inspires us to seek the relationship between internal subsequences. However, the challenges are the hardship of discovering causality from subsequences and utilizing the causal natural structures to improve NNs. To address these challenges, we propose a novel framework called Mining Causal Natural Structure (MCNS), which is automatic and domain-agnostic and helps to find the causal natural structures inside time series via the internal causality scheme. We evaluate the MCNS framework and impregnation NN with MCNS on time series classification tasks. Experimental results illustrate that our impregnation, by refining attention, shape selection classification, and pruning datasets, drives NN, even the data itself preferable accuracy and interpretability. Besides, MCNS provides an in-depth, solid summary of the time series and datasets.
翻訳日:2023-09-14 15:22:35 公開日:2023-09-13
# ゼロ次元超ラジアント量子相転移の有効場理論と有限温度特性

Effective Field Theories and Finite-temperature Properties of Zero-dimensional Superradiant Quantum Phase Transitions ( http://arxiv.org/abs/2309.06738v1 )

ライセンス: Link先を確認
Zi-Yong Ge, Heng Fan, and Franco Nori(参考訳) ゼロ次元超ラジカル量子相転移の存在は、これまで説明されていない従来の統計物理学と矛盾しているように見える。 ここでは、光物質相互作用系の対応する有効場の理論と有限温度特性を示し、この零次元量子相転移がどのように起こるかを示す。 我々はまず、超ラジカル量子相転移をホストする最小モデルであるRabiモデルに焦点を当てる。 経路積分法により、光子自由度の想像的時間的作用を導出する。 また, 動的指数を温度と光子周波数のリスケーリングとして定義し, 有効作用の次元解析を行う。 その結果、実効理論は、真の二階量子相転移が現れるような固有力学指数に対して自由スカラー場または$\phi^4$-理論となる。 これらの結果は,次数パラメータの仮想時間相関関数の数値シミュレーションにより検証される。 さらに,この手法をディッケモデルに一般化する。 この結果から, ゼロ次元超ラジアント量子相転移を従来の統計物理学と整合させ, 有効場理論の観点から理解する道を開いた。

The existence of zero-dimensional superradiant quantum phase transitions seems inconsistent with conventional statistical physics, which has not been explained so far. Here we demonstrate the corresponding effective field theories and finite-temperature properties of light-matter interacting systems, and show how this zero-dimensional quantum phase transition occurs. We first focus on the Rabi model, which is a minimum model that hosts a superradiant quantum phase transition. With the path integral method, we derive the imaginary-time action of the photon degrees of freedom. We also define a dynamical exponent as the rescaling between the temperature and the photon frequency, and perform dimensional analysis to the effective action. Our results show that the effective theory becomes a free scalar field or $\phi^4$-theory for a proper dynamical exponent, where a true second-order quantum phase transition emerges. These results are also verified by numerical simulations of imaginary-time correlation functions of the order parameter. Furthermore, we also generalize this method to the Dicke model. Our results make the zero-dimensional superradiant quantum phase transition compatible with conventional statistical physics, and pave the way to understand it in the perspective of effective field theories.
翻訳日:2023-09-14 15:22:15 公開日:2023-09-13
# GelFlow:視覚に基づく触覚センサ変位計測のための光フローの自己教師型学習

GelFlow: Self-supervised Learning of Optical Flow for Vision-Based Tactile Sensor Displacement Measurement ( http://arxiv.org/abs/2309.06735v1 )

ライセンス: Link先を確認
Zhiyuan Zhang, Hua Yang, and Zhouping Yin(参考訳) 視覚ベースの触覚センサーが取得した高分解能なマルチモーダル情報は、ロボットの指をより巧妙に操作できる。 光の流れは視覚ベースの触覚センサーによって直接得られる低レベル情報であり、力、幾何学、深さなどの他のモードに変換することができる。 現在の視覚触覚センサは、ゲル中のマーカーの変形を推定するためにopencvからの光フロー法を用いる。 しかし, ゲルの大きな弾性変形時のマーカーの変位を高精度に測定するためには, 下流課題の精度に大きな影響を与える可能性がある。 本研究では,視覚に基づく触覚センサの変位計測において,深層学習に基づく自己監督型光フロー法を提案する。 提案手法は,入力画像から多元的特徴ピラミッドを構築し,大きな変形に対処するための粗粒度戦略を用いる。 ゲルが引き起こす弾性変形によく対処するため、変形速度と弾性変形制約を組み合わせたヘルムホルツ速度分解制約をそれぞれ適用し、歪み率と面積変化率に対処する。 局所フロー融合モジュールは、ゲル変形のぼやけた影響の以前の知識を考慮し、光学フローを滑らかにするために設計されている。 提案する自己教師付きネットワークをオープンソースデータセットを用いてトレーニングし,従来型およびディープラーニングベースの光フロー手法と比較した。 その結果,提案手法は最大変位測定精度を達成し,視覚に基づく触覚センサを用いて下流タスクをより正確に計測できる可能性を示した。

High-resolution multi-modality information acquired by vision-based tactile sensors can support more dexterous manipulations for robot fingers. Optical flow is low-level information directly obtained by vision-based tactile sensors, which can be transformed into other modalities like force, geometry and depth. Current vision-tactile sensors employ optical flow methods from OpenCV to estimate the deformation of markers in gels. However, these methods need to be more precise for accurately measuring the displacement of markers during large elastic deformation of the gel, as this can significantly impact the accuracy of downstream tasks. This study proposes a self-supervised optical flow method based on deep learning to achieve high accuracy in displacement measurement for vision-based tactile sensors. The proposed method employs a coarse-to-fine strategy to handle large deformations by constructing a multi-scale feature pyramid from the input image. To better deal with the elastic deformation caused by the gel, the Helmholtz velocity decomposition constraint combined with the elastic deformation constraint are adopted to address the distortion rate and area change rate, respectively. A local flow fusion module is designed to smooth the optical flow, taking into account the prior knowledge of the blurred effect of gel deformation. We trained the proposed self-supervised network using an open-source dataset and compared it with traditional and deep learning-based optical flow methods. The results show that the proposed method achieved the highest displacement measurement accuracy, thereby demonstrating its potential for enabling more precise measurement of downstream tasks using vision-based tactile sensors.
翻訳日:2023-09-14 15:21:55 公開日:2023-09-13
# 原子遷移に一致する単一光子の広波長固体源

Widely tunable solid-state source of single-photons matching an atomic transition ( http://arxiv.org/abs/2309.06734v1 )

ライセンス: Link先を確認
Rubayet Al Maruf, Sreesh Venuturumilli, Divya Bharadwaj, Paul Anderson, Jiawei Qiu, Yujia Yuan, Mohd Zeeshan, Behrooz Semnani, Philip J. Poole, Dan Dalacu, Kevin Resch, Michael E. Reimer and Michal Bajcsy(参考訳) ハイブリッド量子技術は、従来のコンピュータが電子、フォトニック、磁気、機械部品を組み合わせるのと似た方法で、複数の量子システムの最良の特性を活用することを目的としている。 例えば、半導体ナノワイヤに埋め込まれた量子ドットは、高い繰り返しで非常に純粋で決定論的で識別不能な単光子を生成できるが、原子アンサンブルは、単一光子で制御できる堅牢な光子貯蔵機能と強い光学非線形性を提供する。 しかし、量子ドットと原子アンサンブルをうまく統合するには、これら2つのプラットフォームの光学周波数を慎重に一致させる必要がある。 本稿では,半導体ナノワイヤに埋め込まれた個々の量子ドットの放出周波数を制御するための簡易,高精度,可逆性,広帯域,局所的な方法を提案し,それを用いて,セシウムd1-ラインの超微細構造遷移と低光度領域にマッチする単光子による原子アンサンブルと相互作用する手法を提案する。 我々のアプローチでは、原子と固体の量子系を結びつけることができ、他の種類のナノワイヤ埋め込み固体エミッタにも適用できる可能性があり、また、異なる光子を生成するために調整された複数の固体エミッタに基づくデバイスを作成することができる。

Hybrid quantum technologies aim to harness the best characteristics of multiple quantum systems, in a similar fashion that classical computers combine electronic, photonic, magnetic, and mechanical components. For example, quantum dots embedded in semiconductor nanowires can produce highly pure, deterministic, and indistinguishable single-photons with high repetition, while atomic ensembles offer robust photon storage capabilities and strong optical nonlinearities that can be controlled with single-photons. However, to successfully integrate quantum dots with atomic ensembles, one needs to carefully match the optical frequencies of these two platforms. Here, we propose and experimentally demonstrate simple, precise, reversible, broad-range, and local method for controlling the emission frequency of individual quantum dots embedded in tapered semiconductor nanowires and use it to interface with an atomic ensemble via single-photons matched to hyperfine transitions and slow-light regions of the cesium D1-line. Our approach allows linking together atomic and solid-state quantum systems and can potentially also be applied to other types of nanowire-embedded solid-state emitters, as well as to creating devices based on multiple solid-state emitters tuned to produce indistinguishable photons.
翻訳日:2023-09-14 15:21:29 公開日:2023-09-13
# 教師なし視聴覚セグメンテーションのための基礎モデル活用

Leveraging Foundation models for Unsupervised Audio-Visual Segmentation ( http://arxiv.org/abs/2309.06728v1 )

ライセンス: Link先を確認
Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Xiatian Zhu(参考訳) audio-visual segmentation (avs) は、ピクセルレベルで視覚シーン内の可聴物体を正確にアウトラインすることを目的としている。 既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。 このようなクロスモダリティなピクセルレベルラベルを取得するのに時間がかかるため、スケーラビリティが制限される。 この課題を克服するため,本研究ではタスク固有のデータアノテーションやモデルトレーニングを必要とせず,教師なしの視聴覚セグメンテーションを導入する。 そこで本研究では,本研究で提案するマルチモーダル基礎モデル(検出 [1],オープンワールドセグメンテーション [2],マルチモーダルアライメント [3] など)を用いて,基礎となる音声マスクペアを正確に関連付けるための新しいクロスモーダリティ意味フィルタリング(cmsf)手法を提案する。 音声と視覚の両方による提案生成を指導し、AT-GDINO-SAMとOWOD-BINDの2つのトレーニング不要な派生案を設計する。 avs-benchデータセットに関する広範囲な実験により、複数の聴覚対象を持つ複雑なシナリオを横断する先行技術に比べて、教師なしアプローチが良好に機能することが示された。 特に既存のavs法が重なり合う前景の物体に支障をきたす状況では,重なり合った聴覚物体を正確に分割するモデルが優れている。 私たちのコードは公開されます。

Audio-Visual Segmentation (AVS) aims to precisely outline audible objects in a visual scene at the pixel level. Existing AVS methods require fine-grained annotations of audio-mask pairs in supervised learning fashion. This limits their scalability since it is time consuming and tedious to acquire such cross-modality pixel level labels. To overcome this obstacle, in this work we introduce unsupervised audio-visual segmentation with no need for task-specific data annotations and model training. For tackling this newly proposed problem, we formulate a novel Cross-Modality Semantic Filtering (CMSF) approach to accurately associate the underlying audio-mask pairs by leveraging the off-the-shelf multi-modal foundation models (e.g., detection [1], open-world segmentation [2] and multi-modal alignment [3]). Guiding the proposal generation by either audio or visual cues, we design two training-free variants: AT-GDINO-SAM and OWOD-BIND. Extensive experiments on the AVS-Bench dataset show that our unsupervised approach can perform well in comparison to prior art supervised counterparts across complex scenarios with multiple auditory objects. Particularly, in situations where existing supervised AVS methods struggle with overlapping foreground objects, our models still excel in accurately segmenting overlapped auditory objects. Our code will be publicly released.
翻訳日:2023-09-14 15:21:04 公開日:2023-09-13
# 分割とシャッフルによるBARTファインタニングによるキーワード生成の促進

Enhancing Keyphrase Generation by BART Finetuning with Splitting and Shuffling ( http://arxiv.org/abs/2309.06726v1 )

ライセンス: Link先を確認
Bin Chen, Mizuho Iwaihara(参考訳) キーワード生成(英: Keyphrase generation)とは、あるテキストの主要なトピックやテーマを最も再送するフレーズの集合を識別するタスクである。 keyphrases はdispointnd int pre-sent であり、キーphrases がない。 シーケンシャル・ツー・シーケンスモデルを用いた最近のアプローチではキーフレーズの欠落が有効である。 しかし、キーフレーズの欠落が困難であることから、フォーム単位は制限されている。 本稿では,現在と不在なキーフレーズの世代間の違いを利用して,現在と不在なキーフレーズに対する2つの別々のBARTモデルの微調整を行うKephrase-Focused BARTを提案する。 さらに、シャッフルキーフレーズと候補キーフレーズランキングの効果的なアプローチを示す。 Keyphrase-Focused BARTは5つのKeyphrase gen-erationベンチマークデータセットのうち2つで、F1@5で新しい最先端スコアを達成した。

Keyphrase generation is a task of identifying a set of phrases that best repre-sent the main topics or themes of a given text. Keyphrases are dividend int pre-sent and absent keyphrases. Recent approaches utilizing sequence-to-sequence models show effectiveness on absent keyphrase generation. However, the per-formance is still limited due to the hardness of finding absent keyphrases. In this paper, we propose Keyphrase-Focused BART, which exploits the differ-ences between present and absent keyphrase generations, and performs fine-tuning of two separate BART models for present and absent keyphrases. We further show effective approaches of shuffling keyphrases and candidate keyphrase ranking. For absent keyphrases, our Keyphrase-Focused BART achieved new state-of-the-art score on F1@5 in two out of five keyphrase gen-eration benchmark datasets.
翻訳日:2023-09-14 15:20:33 公開日:2023-09-13
# 計算写真, 画像合成, 逆防御のための深部非パラメトリック凸フィルタ

Deep Nonparametric Convexified Filtering for Computational Photography, Image Synthesis and Adversarial Defense ( http://arxiv.org/abs/2309.06724v1 )

ライセンス: Link先を確認
Jianqiao Wangni(参考訳) 本研究の目的は,Deep Nonparametric Convexified Filtering (DNCF) を用いて,不完全な画像から実シーンを復元する計算写真のための一般的なフレームワークを提供することである。 画像形成の背後にある物理方程式に類似する非パラメトリックディープネットワーク(denoising, super- resolution, inpainting, flash)で構成されている。 DNCFは、トレーニングデータに依存するパラメータ化を持たないため、強い一般化と、逆画像操作に対する堅牢性を持つ。 推定中、ネットワークパラメータは非負であり、入力とパラメータにbi-convex関数を作成するように促し、これは実行時間不足の2次最適化アルゴリズムに適応し、より深い画像よりも10倍の加速度を持つ。 これらのツールを用いて、画像分類の深層ネットワークをリアルタイムに敵の攻撃アルゴリズムから防御する能力を実証する。

We aim to provide a general framework of for computational photography that recovers the real scene from imperfect images, via the Deep Nonparametric Convexified Filtering (DNCF). It is consists of a nonparametric deep network to resemble the physical equations behind the image formation, such as denoising, super-resolution, inpainting, and flash. DNCF has no parameterization dependent on training data, therefore has a strong generalization and robustness to adversarial image manipulation. During inference, we also encourage the network parameters to be nonnegative and create a bi-convex function on the input and parameters, and this adapts to second-order optimization algorithms with insufficient running time, having 10X acceleration over Deep Image Prior. With these tools, we empirically verify its capability to defend image classification deep networks against adversary attack algorithms in real-time.
翻訳日:2023-09-14 15:20:19 公開日:2023-09-13
# 動的スペクトルミキサーによる視覚認識

Dynamic Spectrum Mixer for Visual Recognition ( http://arxiv.org/abs/2309.06721v1 )

ライセンス: Link先を確認
Zhiqiang Hu, Tao Yu(参考訳) 近年、MLPベースの視覚バックボーンは、いくつかの視覚認識タスクにおいて有望な性能を達成している。 しかし、既存のMLPベースのメソッドはトークンを直接静的な重み付けで集約し、異なる画像への適応性を残している。 さらに,近年の研究では,mlp-transformerは長距離依存性の生成に優れるが,局所情報を主に送信する高周波数の捕捉には効果がなく,セマンティクスセグメンテーションなどの下流の密集した予測タスクに適用できないことが示されている。 これらの課題に対処するために、動的スペクトルミキサー (DSM) と呼ばれるコンテンツ適応型だが計算効率の良い構造を提案する。 DSMは離散コサイン変換を用いて周波数領域におけるトークンの相互作用を表現する。 さらに、スペクトル帯域選択層として動的スペクトル重み生成層が提案されており、他の周波数帯域を減少させながら、有益な周波数帯域を強調することができる。 これにより、高周波数情報と低周波情報の両方を含む視覚入力から詳細な特徴を効率的に学習することができる。 大規模な実験により、DSMは様々な視覚認識タスクのための強力で適応可能なバックボーンであることが示された。 特に、DSMは画像分類、オブジェクト検出、セマンティックセグメンテーションタスクにおいて、ImageNetの83.8 \%、ADE20Kの49.9 \% mIoUなど、以前のトランスフォーマーベースモデルとMLPベースのモデルより優れている。

Recently, MLP-based vision backbones have achieved promising performance in several visual recognition tasks. However, the existing MLP-based methods directly aggregate tokens with static weights, leaving the adaptability to different images untouched. Moreover, Recent research demonstrates that MLP-Transformer is great at creating long-range dependencies but ineffective at catching high frequencies that primarily transmit local information, which prevents it from applying to the downstream dense prediction tasks, such as semantic segmentation. To address these challenges, we propose a content-adaptive yet computationally efficient structure, dubbed Dynamic Spectrum Mixer (DSM). The DSM represents token interactions in the frequency domain by employing the Discrete Cosine Transform, which can learn long-term spatial dependencies with log-linear complexity. Furthermore, a dynamic spectrum weight generation layer is proposed as the spectrum bands selector, which could emphasize the informative frequency bands while diminishing others. To this end, the technique can efficiently learn detailed features from visual input that contains both high- and low-frequency information. Extensive experiments show that DSM is a powerful and adaptable backbone for a range of visual recognition tasks. Particularly, DSM outperforms previous transformer-based and MLP-based models, on image classification, object detection, and semantic segmentation tasks, such as 83.8 \% top-1 accuracy on ImageNet, and 49.9 \% mIoU on ADE20K.
翻訳日:2023-09-14 15:20:03 公開日:2023-09-13
# 深い注意深い時間ウォーピング

Deep Attentive Time Warping ( http://arxiv.org/abs/2309.06720v1 )

ライセンス: Link先を確認
Shinnosuke Matsuo, Xiaomeng Wu, Gantugs Atarsaikhan, Akisato Kimura, Kunio Kashino, Brian Kenji Iwana, Seiichi Uchida(参考訳) 時系列の類似性は時系列分類の重要な問題である。 非線形時間歪みに対処するために、動的時間ワープ(DTW)が広く用いられている。 しかし、DTWは学習不可能であり、時間歪みに対する堅牢性と差別力とのトレードオフに悩まされる。 本稿では,タスク適応時間ワープのためのニューラルネットワークモデルを提案する。 具体的には、2部注意モデルと呼ばれる注意モデルを用いて、歪み不変性が大きい明示的な時間ゆらぎ機構を開発する。 dtwをウォーピングに使用する他の学習モデルとは異なり、このモデルは2つの時系列間の全ての局所対応を予測し、メトリック学習に基づいてトレーニングすることで、ターゲットタスクに対する最適なデータ依存ウォーピングを学習することができる。 また,識別力を向上させるため,DTWによる事前学習も提案する。 大規模な実験により、DTWよりも優れたモデルの有効性と、オンライン署名検証における最先端の性能を示す。

Similarity measures for time series are important problems for time series classification. To handle the nonlinear time distortions, Dynamic Time Warping (DTW) has been widely used. However, DTW is not learnable and suffers from a trade-off between robustness against time distortion and discriminative power. In this paper, we propose a neural network model for task-adaptive time warping. Specifically, we use the attention model, called the bipartite attention model, to develop an explicit time warping mechanism with greater distortion invariance. Unlike other learnable models using DTW for warping, our model predicts all local correspondences between two time series and is trained based on metric learning, which enables it to learn the optimal data-dependent warping for the target task. We also propose to induce pre-training of our model by DTW to improve the discriminative power. Extensive experiments demonstrate the superior effectiveness of our model over DTW and its state-of-the-art performance in online signature verification.
翻訳日:2023-09-14 15:19:36 公開日:2023-09-13
# TrafficGPT: 交通基盤モデルによる閲覧・処理・インタラクション

TrafficGPT: Viewing, Processing and Interacting with Traffic Foundation Models ( http://arxiv.org/abs/2309.06719v1 )

ライセンス: Link先を確認
Siyao Zhang, Daocheng Fu, Zhao Zhang, Bin Yu and Pinlong Cai(参考訳) chatgptを一般に普及させることで、大きな言語モデルには素晴らしい常識、推論、計画スキルが示され、しばしば洞察に富んだガイダンスを提供する。 これらの能力は、都市交通管理と制御に応用する上で大きな可能性を秘めている。 しかし、LSMは、特に数値データを処理し、シミュレーションと相互作用するなど、交通問題の解決に苦慮している。 並行して、特別なトラフィック基盤モデルが存在するが、通常は入力-出力相互作用に制限のある特定のタスクのために設計されている。 これらのモデルとLLMを組み合わせることで、複雑な交通問題に対処し、洞察に富んだ提案を行う能力を高めることができる。 このギャップを埋めるために、ChatGPTと交通基盤モデルの融合であるTrafficGPTを提案する。 この統合は以下の重要な拡張をもたらす。 1)chatgptに交通データの閲覧,分析,処理能力を与え,都市交通システム管理のための洞察力のある意思決定支援を提供する。 2)広範な複雑なタスクのインテリジェントなデコンストラクションと,その段階的な完了に向けたトラヒックファンデーションモデルの逐次利用の促進。 3) 自然言語対話による交通制御における人間の意思決定支援 4) インタラクティブなフィードバックと改善成果の勧誘を可能にすること。 大きな言語モデルとトラフィックの専門知識をシームレスに相互運用することで、TrafficGPTはトラフィック管理を前進させるだけでなく、この領域でAI機能を活用するための新しいアプローチも提供する。 TrafficGPTのデモはhttps://github.com/lijlansg/TrafficGPT.gitで見ることができる。

With the promotion of chatgpt to the public, Large language models indeed showcase remarkable common sense, reasoning, and planning skills, frequently providing insightful guidance. These capabilities hold significant promise for their application in urban traffic management and control. However, LLMs struggle with addressing traffic issues, especially processing numerical data and interacting with simulations, limiting their potential in solving traffic-related challenges. In parallel, specialized traffic foundation models exist but are typically designed for specific tasks with limited input-output interactions. Combining these models with LLMs presents an opportunity to enhance their capacity for tackling complex traffic-related problems and providing insightful suggestions. To bridge this gap, we present TrafficGPT, a fusion of ChatGPT and traffic foundation models. This integration yields the following key enhancements: 1) empowering ChatGPT with the capacity to view, analyze, process traffic data, and provide insightful decision support for urban transportation system management; 2) facilitating the intelligent deconstruction of broad and complex tasks and sequential utilization of traffic foundation models for their gradual completion; 3) aiding human decision-making in traffic control through natural language dialogues; and 4) enabling interactive feedback and solicitation of revised outcomes. By seamlessly intertwining large language model and traffic expertise, TrafficGPT not only advances traffic management but also offers a novel approach to leveraging AI capabilities in this domain. The TrafficGPT demo can be found in https://github.com/lijlansg/TrafficGPT.git.
翻訳日:2023-09-14 15:19:22 公開日:2023-09-13
# 量子アニーリングに基づくハイブリッドアルゴリズムのメトロポリタン・スケール鉄道派遣問題への適用

Application of a Hybrid Algorithm Based on Quantum Annealing to Solve a Metropolitan Scale Railway Dispatching Problem ( http://arxiv.org/abs/2309.06763v1 )

ライセンス: Link先を確認
M\'aty\'as Koniorczyk, Krzysztof Krawiec, Ludmila Botelho, Nikola Be\v{s}inovi\'c, Krzysztof Domino(参考訳) 本稿では,実生活大都市圏におけるネットワークトラフィックの実証を行い,量子古典的ハイブリッド・ソルバの適用性について論じる。 鉄道網は単線と複線の両方を含み、ネットワークのオペレーターが要求する全ての要件をカバーしている。 この問題に対して線形整数モデルを構築し、D-Waveの量子古典ハイブリッドソルバと、比較のためにCPLEXを用いて解決する。 計算結果は、現実的な鉄道シナリオにおける量子古典的ハイブリッド・ソルバの適用と利点の準備ができていることを示す。 彼らはヒューリスティックではあるが、ある場合には古典的解法よりも優れた有効な選択肢を提供する。

We address the applicability of quantum-classical hybrid solvers for practical railway dispatching/conflict management problems, with a demonstration on real-life metropolitan-scale network traffic. The railway network includes both single-and double segments and covers all the requirements posed by the operator of the network. We build a linear integer model for the problem and solve it with D-Wave's quantum-classical hybrid solver as well as with CPLEX for comparison. The computational results demonstrate the readiness for application and benefits of quantum-classical hybrid solvers in the a realistic railway scenario: they yield acceptable solutions on time; a critical requirement in a dispatching situation. Though they are heuristic they offer a valid alternative and outperform classical solvers in some cases.
翻訳日:2023-09-14 15:13:03 公開日:2023-09-13
# Cs原子のすべての関連準位を持つ密度行列方程式からのCPT共鳴信号の導出と実験結果の確認

Derivation of CPT resonance signals from density-matrix equations with all relevant sublevels of Cs atoms and confirmation of experimental results ( http://arxiv.org/abs/2309.06761v1 )

ライセンス: Link先を確認
K. Matsumoto, S. Kagami, T. Fujisaku, A. Kirihara, S. Yanagimachi, T. Ikegami, and A. Morinaga(参考訳) コヒーレント・ポピュレーション・トッピング共鳴(Coherent-population-trapping resonance)は、アルカリ原子の基底状態超微粒子準位の間の2光子遷移に現れる量子干渉効果であり、小型のクロックデバイスでしばしば用いられる。 この現象の性能を定量的に理解し、予測するには、原子の異なる励起過程に関与するすべての超微細ゼーマン準位間の遷移と緩和を考慮する必要がある。 本研究では,2つの周波数に円偏波成分を照射した$^{133}$csの$d_1$線に関与する32のゼーマン準位に対するリウヴィル密度行列方程式の計算マルチレベル原子モデルを構築し,cs蒸気セルによる透過光の振幅と形状をシミュレーションした。 実験結果から, 方程式の数値解と解析的研究が, 種々の特性を適切に説明できることを示した。

Coherent-population-trapping resonance is a quantum interference effect that appears in the two-photon transitions between the ground-state hyperfine levels of alkali atoms and is often utilized in miniature clock devices. To quantitatively understand and predict the performance of this phenomenon, it is necessary to consider the transitions and relaxations between all hyperfine Zeeman sublevels involved in the different excitation processes of the atom. In this study, we constructed a computational multi-level atomic model of the Liouville density-matrix equation for 32 Zeeman sublevels involved in the $D_1$ line of $^{133}$Cs irradiated by two frequencies with circularly polarized components and then simulated the amplitude and shape of the transmitted light through a Cs vapor cell. We show that the numerical solutions of the equation and analytical investigations adequately explain a variety of the characteristics observed in the experiment.
翻訳日:2023-09-14 15:12:52 公開日:2023-09-13
# 数ショット自然言語生成のためのスケールトプロンプトチューニング

Scaled Prompt-Tuning for Few-Shot Natural Language Generation ( http://arxiv.org/abs/2309.06759v1 )

ライセンス: Link先を確認
Ting Hu, Christoph Meinel, Haojin Yang(参考訳) 大規模言語モデル (LLM) はより強力な言語理解と生成能力を示し、下流タスクにおける微調整 LLM のメモリ需要と計算コストは無視できない。 さらに、細かなチューニングは一般的に個々のタスクから一定の量のデータを必要とするが、データ収集コストは現実世界のアプリケーションで考慮すべき別の問題である。 本研究では,llmsにおけるパラメータのほとんどを凍結し,少数のパラメータを少数ショットケースでチューニングし,メモリフットプリントやトレーニングコスト,ラベリングコストを削減し,パフォーマンスを維持・向上させる,nlgのためのパラメータ効率のよい微調整(peft)手法に注目する。 そこで本研究では,従来のPTよりも優れた性能と一般化能力を持つスケールド・プロンプト・チューニング(SPT)手法を提案する。 中間SPTのさらなる研究は、数ショットシナリオにおけるSPTの優れた転送可能性を示し、データ不足および計算制限状況のレシピを提供する。 さらに,既存のPEFT手法を総合的に比較した結果,事前修正・チューニングなど質素なトレーニングコストで優れたパフォーマンスを示すアプローチでは,特に挑戦的なデータセットにおいて,数ショットのNLGタスクに苦労する可能性が示唆された。

The increasingly Large Language Models (LLMs) demonstrate stronger language understanding and generation capabilities, while the memory demand and computation cost of fine-tuning LLMs on downstream tasks are non-negligible. Besides, fine-tuning generally requires a certain amount of data from individual tasks whilst data collection cost is another issue to consider in real-world applications. In this work, we focus on Parameter-Efficient Fine-Tuning (PEFT) methods for few-shot Natural Language Generation (NLG), which freeze most parameters in LLMs and tune a small subset of parameters in few-shot cases so that memory footprint, training cost, and labeling cost are reduced while maintaining or even improving the performance. We propose a Scaled Prompt-Tuning (SPT) method which surpasses conventional PT with better performance and generalization ability but without an obvious increase in training cost. Further study on intermediate SPT suggests the superior transferability of SPT in few-shot scenarios, providing a recipe for data-deficient and computation-limited circumstances. Moreover, a comprehensive comparison of existing PEFT methods reveals that certain approaches exhibiting decent performance with modest training cost such as Prefix-Tuning in prior study could struggle in few-shot NLG tasks, especially on challenging datasets.
翻訳日:2023-09-14 15:12:32 公開日:2023-09-13
# ディープラーニングを実現するリモートセンシングオブジェクト検出 - 課題と進歩のメタリビュー

Remote Sensing Object Detection Meets Deep Learning: A Meta-review of Challenges and Advances ( http://arxiv.org/abs/2309.06751v1 )

ライセンス: Link先を確認
Xiangrong Zhang, Tianyang Zhang, Guanchun Wang, Peng Zhu, Xu Tang, Xiuping Jia, and Licheng Jiao(参考訳) リモートセンシング・オブジェクト検出(rsod: remote sensing object detection)は、リモートセンシング分野における最も基本的かつ挑戦的なタスクの一つである。 近年、ディープラーニング技術は堅牢な特徴表現能力を示しており、rsod技術の開発に大きな飛躍をもたらした。 この急速な技術的進化の時代には、深層学習に基づくrsod法における最近の成果を総合的に概観することを目的としている。 このレビューでは300以上の論文が取り上げられている。 RSODの主な課題として,多スケール物体検出,回転物体検出,弱い物体検出,小さい物体検出,限られた監督による物体検出の5つを特定し,階層的分割方式で開発した手法を体系的に検討する。 また、RSODの分野で広く使用されているベンチマークデータセットと評価指標、およびRSODのアプリケーションシナリオについてもレビューする。 今後の研究の方向性は、RSODのさらなる研究を促進するために提供される。

Remote sensing object detection (RSOD), one of the most fundamental and challenging tasks in the remote sensing field, has received longstanding attention. In recent years, deep learning techniques have demonstrated robust feature representation capabilities and led to a big leap in the development of RSOD techniques. In this era of rapid technical evolution, this review aims to present a comprehensive review of the recent achievements in deep learning based RSOD methods. More than 300 papers are covered in this review. We identify five main challenges in RSOD, including multi-scale object detection, rotated object detection, weak object detection, tiny object detection, and object detection with limited supervision, and systematically review the corresponding methods developed in a hierarchical division manner. We also review the widely used benchmark datasets and evaluation metrics within the field of RSOD, as well as the application scenarios for RSOD. Future research directions are provided for further promoting the research in RSOD.
翻訳日:2023-09-14 15:12:04 公開日:2023-09-13
# MFL-YOLO:損傷した交通信号の物体検出モデル

MFL-YOLO: An Object Detection Model for Damaged Traffic Signs ( http://arxiv.org/abs/2309.06750v1 )

ライセンス: Link先を確認
Tengyang Chen and Jiangtao Ren(参考訳) 交通標識は交通安全と円滑な流れを確保するために重要な施設であるが、多くの理由で損傷し、大きな安全上の危険をもたらす可能性がある。 したがって、損傷した交通標識を検出する方法の研究が重要である。 損傷した交通標識に対する既存の物体検出技術はいまだ欠落している。 損傷した交通標識は通常の標識に近く見えるため、従来の物体検出手法で損傷した交通標識の詳細な局所的損傷の特徴を捉えることは困難である。 本稿では,MFL-YOLO(Mutual Feature Levels Loss enhanced YOLO)という,YOLOv5sに基づくオブジェクト検出手法を提案する。 私たちは、モデルの各レベルが独自の役割を持つように、単純なクロスレベル損失関数を設計しました。 この方法はプラグアンドプレイモジュールとして適用でき、精度を向上しながら構造的複雑さや計算複雑性を増大させることはない。 また,従来の畳み込みとCSPを GSConv と VoVGSCSP を YOLOv5s の首に置き換えて,スケールと計算の複雑さを低減した。 YOLOv5sと比較して、MFL-YOLOはF1スコアとmAPの4.3と5.1を改善し、FLOPsを8.9%削減しました。 Grad-CAM熱マップの可視化は、我々のモデルが損傷した交通標識の局所的な詳細に集中できることを示している。 さらに,CCTSDB2021とTT100Kについても実験を行い,モデルの一般化のさらなる検証を行った。

Traffic signs are important facilities to ensure traffic safety and smooth flow, but may be damaged due to many reasons, which poses a great safety hazard. Therefore, it is important to study a method to detect damaged traffic signs. Existing object detection techniques for damaged traffic signs are still absent. Since damaged traffic signs are closer in appearance to normal ones, it is difficult to capture the detailed local damage features of damaged traffic signs using traditional object detection methods. In this paper, we propose an improved object detection method based on YOLOv5s, namely MFL-YOLO (Mutual Feature Levels Loss enhanced YOLO). We designed a simple cross-level loss function so that each level of the model has its own role, which is beneficial for the model to be able to learn more diverse features and improve the fine granularity. The method can be applied as a plug-and-play module and it does not increase the structural complexity or the computational complexity while improving the accuracy. We also replaced the traditional convolution and CSP with the GSConv and VoVGSCSP in the neck of YOLOv5s to reduce the scale and computational complexity. Compared with YOLOv5s, our MFL-YOLO improves 4.3 and 5.1 in F1 scores and mAP, while reducing the FLOPs by 8.9%. The Grad-CAM heat map visualization shows that our model can better focus on the local details of the damaged traffic signs. In addition, we also conducted experiments on CCTSDB2021 and TT100K to further validate the generalization of our model.
翻訳日:2023-09-14 15:11:48 公開日:2023-09-13
# converser: 合成データ生成による会話の高密度検索

CONVERSER: Few-Shot Conversational Dense Retrieval with Synthetic Data Generation ( http://arxiv.org/abs/2309.06748v1 )

ライセンス: Link先を確認
Chao-Wei Huang, Chen-Yu Hsu, Tsu-Yuan Hsu, Chen-An Li, Yun-Nung Chen(参考訳) 会話検索は情報検索(IR)のための自然なインタフェースを提供する。 近年,会話型赤外線に高密度検索を適用する手法が提案されている。 しかし、高密度レトリバーのトレーニングには大量のドメイン内ペアデータが必要である。 これにより、ドメイン内会話の収集にコストがかかるため、会話の密集したレトリバーの開発が妨げられる。 本稿では,ドメイン内対話の少なくとも6つの例を用いて,対話型高密度検索を学習するためのフレームワークであるConVERSERを提案する。 具体的には,大規模言語モデルの文脈内学習機能を用いて,検索コーパスの文節に与えられた会話クエリを生成する。 対話型検索ベンチマーク or-quac と trec cast 19 の実験結果から,提案手法が完全教師付きモデルと同等の性能を達成し,提案手法の有効性を実証した。 すべてのソースコードと生成されたデータセットはhttps://github.com/MiuLab/CONVERSERで入手できる。

Conversational search provides a natural interface for information retrieval (IR). Recent approaches have demonstrated promising results in applying dense retrieval to conversational IR. However, training dense retrievers requires large amounts of in-domain paired data. This hinders the development of conversational dense retrievers, as abundant in-domain conversations are expensive to collect. In this paper, we propose CONVERSER, a framework for training conversational dense retrievers with at most 6 examples of in-domain dialogues. Specifically, we utilize the in-context learning capability of large language models to generate conversational queries given a passage in the retrieval corpus. Experimental results on conversational retrieval benchmarks OR-QuAC and TREC CAsT 19 show that the proposed CONVERSER achieves comparable performance to fully-supervised models, demonstrating the effectiveness of our proposed framework in few-shot conversational dense retrieval. All source code and generated datasets are available at https://github.com/MiuLab/CONVERSER
翻訳日:2023-09-14 15:11:20 公開日:2023-09-13
# 道路損傷検出のためのGANとテクスチャ合成の統合

Integrating GAN and Texture Synthesis for Enhanced Road Damage Detection ( http://arxiv.org/abs/2309.06747v1 )

ライセンス: Link先を確認
Tengyang Chen and Jiangtao Ren(参考訳) 交通安全・道路整備の分野では、安全運転の確保と道路耐久性の延長には、道路損傷の正確な検出が不可欠である。 しかし、現在の方法は限られたデータのためにしばしば不足する。 以前の試みでは、Generative Adversarial Networksを使用して、さまざまな形状の損傷を生成し、それを手動で適切な位置に組み込んだ。 しかし、この問題は十分に検討されておらず、2つの課題に直面している。 まず、重度の多様性を無視しながら損傷の位置と形だけを豊かにし、現実主義はさらに改善する必要がある。 第二に、かなりの量の手作業が必要です。 これらの課題に対処するため、我々は革新的なアプローチを提案する。 GANを用いて様々な形状の損傷を発生させるだけでなく,道路のテクスチャを抽出するためのテクスチャ合成技術も活用している。 これらの2つの要素は異なる重みで混合され、合成された損傷の重症度を制御し、ポアソンブレンドによって元の画像に埋め込むことができる。 本手法は,損傷の重大さと背景との整合性を両立させる。 作業コストを削減するため,組込み時の自動サンプル選択に構造的類似性を利用する。 原画像の各拡張データは、重大度レベルが異なるバージョンを含む。 分散ドリフトを緩和するための簡単なスクリーニング戦略を実装した。 公道損傷データセットを用いて実験を行う。 提案手法は手作業の必要性を解消するだけでなく,mAPを4.1%改善し,F1スコアを4.5%改善する。

In the domain of traffic safety and road maintenance, precise detection of road damage is crucial for ensuring safe driving and prolonging road durability. However, current methods often fall short due to limited data. Prior attempts have used Generative Adversarial Networks to generate damage with diverse shapes and manually integrate it into appropriate positions. However, the problem has not been well explored and is faced with two challenges. First, they only enrich the location and shape of damage while neglect the diversity of severity levels, and the realism still needs further improvement. Second, they require a significant amount of manual effort. To address these challenges, we propose an innovative approach. In addition to using GAN to generate damage with various shapes, we further employ texture synthesis techniques to extract road textures. These two elements are then mixed with different weights, allowing us to control the severity of the synthesized damage, which are then embedded back into the original images via Poisson blending. Our method ensures both richness of damage severity and a better alignment with the background. To save labor costs, we leverage structural similarity for automated sample selection during embedding. Each augmented data of an original image contains versions with varying severity levels. We implement a straightforward screening strategy to mitigate distribution drift. Experiments are conducted on a public road damage dataset. The proposed method not only eliminates the need for manual labor but also achieves remarkable enhancements, improving the mAP by 4.1% and the F1-score by 4.5%.
翻訳日:2023-09-14 15:11:04 公開日:2023-09-13
# VEATIC:コンテキストデータセットにおけるビデオベースの感情と感情追跡

VEATIC: Video-based Emotion and Affect Tracking in Context Dataset ( http://arxiv.org/abs/2309.06745v1 )

ライセンス: Link先を確認
Zhihang Ren, Jefferson Ortega, Yifan Wang, Zhimin Chen, David Whitney, Yunhui Guo, Stella X. Yu(参考訳) 人間の感情認識は、心理学やコンピュータビジョンにおいて重要なトピックである。 しかし、現在公開されたデータセットには多くの制限がある。 例えば、ほとんどのデータセットは、表情に関する情報のみを含むフレームを含んでいる。 従来のデータセットの制限のため、人間の認識に影響を与えるメカニズムを理解するか、それらのデータセットで訓練されたコンピュータビジョンモデルの場合の一般的なケースでうまく一般化するのは難しい。 本稿では,これまでのデータセットの限界を克服することのできる,新たな大規模データセットであるビデオベースの感情とコンテキストデータセット(veatic)の追跡について紹介する。 VEATICにはハリウッド映画、ドキュメンタリー、ホームビデオの124本のビデオクリップがあり、各フレームの連続的な評価と刺激的な評価をリアルタイムで行う。 このデータセットとともに,各映像フレームの文脈情報と文字情報から選択されたキャラクタの影響を推測する新しいコンピュータビジョンタスクを提案する。 さらに,この新しいコンピュータビジョンタスクをベンチマークするための簡易モデルを提案する。 また、トレーニング済みのモデルの性能を、我々のデータセットと他の類似したデータセットと比較する。 実験では,VEATICによる事前学習モデルの競合する結果を示し,VEATICの一般化可能性を示す。 私たちのデータセットはhttps://veatic.github.io.com/で利用可能です。

Human affect recognition has been a significant topic in psychophysics and computer vision. However, the currently published datasets have many limitations. For example, most datasets contain frames that contain only information about facial expressions. Due to the limitations of previous datasets, it is very hard to either understand the mechanisms for affect recognition of humans or generalize well on common cases for computer vision models trained on those datasets. In this work, we introduce a brand new large dataset, the Video-based Emotion and Affect Tracking in Context Dataset (VEATIC), that can conquer the limitations of the previous datasets. VEATIC has 124 video clips from Hollywood movies, documentaries, and home videos with continuous valence and arousal ratings of each frame via real-time annotation. Along with the dataset, we propose a new computer vision task to infer the affect of the selected character via both context and character information in each video frame. Additionally, we propose a simple model to benchmark this new computer vision task. We also compare the performance of the pretrained model using our dataset with other similar datasets. Experiments show the competing results of our pretrained model via VEATIC, indicating the generalizability of VEATIC. Our dataset is available at https://veatic.github.io.
翻訳日:2023-09-14 15:10:43 公開日:2023-09-13
# MTD:遅延ストリーミング知覚のためのマルチステップ検出器

MTD: Multi-Timestep Detector for Delayed Streaming Perception ( http://arxiv.org/abs/2309.06742v1 )

ライセンス: Link先を確認
Yihui Huang, Ningjiang Chen(参考訳) 自動運転システムは、ユーザの安全と経験を確保するために、リアルタイムな環境認識を必要とする。 ストリーミング知覚は、自動運転システムの遅延と正確性を評価するために使用される、世界の現在の状況を報告するタスクである。 実世界のアプリケーションでは、ハードウェアの限界や高温などの要因が必然的に自律運転システムの遅延を引き起こし、結果としてモデル出力と世界状態の相殺となる。 そこで本稿では,マルチブランチの将来予測に動的ルーティングを用いたエンド・ツー・エンド検出器であるマルチ・タイムステップ・ディテクター(mtd)を提案する。 遅延解析モジュール(DAM)は,既存の遅延検出手法を最適化し,モデル推論スタックを継続的に監視し,遅延傾向を計算する。 さらに、遅延傾向に応じて特定のタイムステップを適応的に予測する静的フローと適応フローを含む新しいタイムステップ分岐モジュール(TBM)を構築した。 提案手法はArgoverse-HDデータセットを用いて評価され,実験結果から,様々な遅延設定における最先端性能が得られたことが示された。

Autonomous driving systems require real-time environmental perception to ensure user safety and experience. Streaming perception is a task of reporting the current state of the world, which is used to evaluate the delay and accuracy of autonomous driving systems. In real-world applications, factors such as hardware limitations and high temperatures inevitably cause delays in autonomous driving systems, resulting in the offset between the model output and the world state. In order to solve this problem, this paper propose the Multi- Timestep Detector (MTD), an end-to-end detector which uses dynamic routing for multi-branch future prediction, giving model the ability to resist delay fluctuations. A Delay Analysis Module (DAM) is proposed to optimize the existing delay sensing method, continuously monitoring the model inference stack and calculating the delay trend. Moreover, a novel Timestep Branch Module (TBM) is constructed, which includes static flow and adaptive flow to adaptively predict specific timesteps according to the delay trend. The proposed method has been evaluated on the Argoverse-HD dataset, and the experimental results show that it has achieved state-of-the-art performance across various delay settings.
翻訳日:2023-09-14 15:10:27 公開日:2023-09-13
# パラメータ化量子回路のフーリエ係数と不毛高原問題

Fourier coefficient of parameterized quantum circuits and barren plateau problem ( http://arxiv.org/abs/2309.06740v1 )

ライセンス: Link先を確認
Shun Okumura and Masayuki Ohzeki(参考訳) パラメータ化された量子回路に現れるフーリエ係数とバレンプラトー問題との関係を示す。 特に、フーリエ係数の平方数の和は、不毛高原条件下での量子ビットに関して指数関数的に制限される。 理論と数値実験を通して、この性質がパラメータ化量子回路によって形成される確率と期待の消滅につながることを紹介する。 従来のバレン高原問題は勾配の分散を必要とするが、我々の考えは統計学を明示的に必要としない。 したがって、初期確率分布の種類を指定する必要はない。

We show the relationship between the Fourier coefficients and the barren plateau problem emerging in parameterized quantum circuits. In particular, the sum of squares of the Fourier coefficients is exponentially restricted concerning the qubits under the barren plateau condition. Throughout theory and numerical experiments, we introduce that this property leads to the vanishing of a probability and an expectation formed by parameterized quantum circuits. The traditional barren plateau problem requires the variance of gradient, whereas our idea does not explicitly need a statistic. Therefore, it is not required to specify the kind of initial probability distribution.
翻訳日:2023-09-14 15:10:08 公開日:2023-09-13
# 署名ネットワークにおける防衛同盟

Defensive Alliances in Signed Networks ( http://arxiv.org/abs/2309.06801v1 )

ライセンス: Link先を確認
Emmanuel Arrighi, Zhidan Feng, Henning Fernau, Kevin Mann, Xingqin Qi, Petra Wolf(参考訳) 社会的)ネットワークとマルチエージェントシステムの分析は人工知能の中心的なテーマである。 いくつかの研究は、特定の目標を達成するために協力できるエージェントのグループを見つけることを扱う。 この目的のために、グラフやネットワークの文献にいわゆるクラスタやコミュニティの概念が導入された。 このうち、防衛同盟は量的グループ構造の一種である。 しかし、このような同盟に関するすべての研究は、非常に直感的なレベルでの同盟の形成の中心となる一つの側面を無視しており、エージェントが他のエージェントに対する態度に関して事前条件づけられていると仮定している。 サイン付きネットワークは心理学の文献に導入され、自然にグラフを一般化し、エージェント間の好みや解離をモデル化した。 そこで我々は,署名ネットワークの文脈において,防衛同盟という新たな概念を提案する。 この概念に関連するいくつかの自然アルゴリズム的問題について検討する。 これは、署名されたネットワーク内でエージェントのグループを見つけるという、よく確立されたアイデアである相関クラスタリングの概念と結びついています。 また、符号付きグラフに対する新しい構造パラメータ、符号付き近傍多様性sndを導入し、符号付きグラフで最小の防御的アライアンスを見つけるパラメータ化されたアルゴリズムを示す。

The analysis of (social) networks and multi-agent systems is a central theme in Artificial Intelligence. Some line of research deals with finding groups of agents that could work together to achieve a certain goal. To this end, different notions of so-called clusters or communities have been introduced in the literature of graphs and networks. Among these, defensive alliance is a kind of quantitative group structure. However, all studies on the alliance so for have ignored one aspect that is central to the formation of alliances on a very intuitive level, assuming that the agents are preconditioned concerning their attitude towards other agents: they prefer to be in some group (alliance) together with the agents they like, so that they are happy to help each other towards their common aim, possibly then working against the agents outside of their group that they dislike. Signed networks were introduced in the psychology literature to model liking and disliking between agents, generalizing graphs in a natural way. Hence, we propose the novel notion of a defensive alliance in the context of signed networks. We then investigate several natural algorithmic questions related to this notion. These, and also combinatorial findings, connect our notion to that of correlation clustering, which is a well-established idea of finding groups of agents within a signed network. Also, we introduce a new structural parameter for signed graphs, signed neighborhood diversity snd, and exhibit a parameterized algorithm that finds a smallest defensive alliance in a signed graph.
翻訳日:2023-09-14 15:01:57 公開日:2023-09-13
# 欠落データに基づく不確実性を考慮したトラヒック予測

Uncertainty-aware Traffic Prediction under Missing Data ( http://arxiv.org/abs/2309.06800v1 )

ライセンス: Link先を確認
Hao Mei, Junxian Li, Zhiming Liang, Guanjie Zheng, Bin Shi, Hua Wei(参考訳) 交通分野の応用範囲が広いため、交通予測は重要なトピックである。 近年,様々な研究が有望な成果を上げている。 しかし、ほとんどの研究は予測場所が完全な、あるいは少なくとも部分的な歴史記録を持っていると仮定しており、歴史的に記録されていない場所まで拡張することはできない。 実際のシナリオでは、予算の制限とインストールの可用性のためにセンサーの配置が制限される可能性があるため、現在のほとんどのモデルでは適用できない。 欠落した場所の交通状態を暗示しようとする文献は少ないが、これらの手法にはセンサーで同時に観測されるデータが必要であるため、予測タスクには適用できない。 もうひとつの欠点は、予測の不確実性の測定の欠如であり、以前の作業がリスクに敏感なタスクや意思決定に適さないことだ。 このギャップを埋めるために、従来のインダクティブグラフニューラルネットワークに触発された本研究では、不確実性を認識するフレームワークを提案する。 1) 過去の記録のない場所への予測を延長し, センサの配置を減少させながら, 予測位置の空間的範囲を著しく拡大する。 2) 下流作業におけるリスクと意思決定の管理を支援するため, 不確実性定量化による確率予測を生成する。 実生活データセットを広範囲に実験した結果,予測課題において有望な結果が得られ,不確かさの定量化により,過去のデータと無関係な場所と高い相関性が得られた。 また,センサ配置予算を限定した精度向上のために,交通分野におけるセンサ展開タスクを支援できることを示す。

Traffic prediction is a crucial topic because of its broad scope of applications in the transportation domain. Recently, various studies have achieved promising results. However, most studies assume the prediction locations have complete or at least partial historical records and cannot be extended to non-historical recorded locations. In real-life scenarios, the deployment of sensors could be limited due to budget limitations and installation availability, which makes most current models not applicable. Though few pieces of literature tried to impute traffic states at the missing locations, these methods need the data simultaneously observed at the locations with sensors, making them not applicable to prediction tasks. Another drawback is the lack of measurement of uncertainty in prediction, making prior works unsuitable for risk-sensitive tasks or involving decision-making. To fill the gap, inspired by the previous inductive graph neural network, this work proposed an uncertainty-aware framework with the ability to 1) extend prediction to missing locations with no historical records and significantly extend spatial coverage of prediction locations while reducing deployment of sensors and 2) generate probabilistic prediction with uncertainty quantification to help the management of risk and decision making in the down-stream tasks. Through extensive experiments on real-life datasets, the result shows our method achieved promising results on prediction tasks, and the uncertainty quantification gives consistent results which highly correlated with the locations with and without historical data. We also show that our model could help support sensor deployment tasks in the transportation field to achieve higher accuracy with a limited sensor deployment budget.
翻訳日:2023-09-14 15:01:36 公開日:2023-09-13
# 地球科学と基礎モデル:一般地球科学人工知能システムを目指して

When Geoscience Meets Foundation Models: Towards General Geoscience Artificial Intelligence System ( http://arxiv.org/abs/2309.06799v1 )

ライセンス: Link先を確認
Hao Zhang and Jin-Jian Xu(参考訳) 地球科学の基礎モデルは、地球系のダイナミクスをシミュレートし理解するために、巨大な学際データを統合することにより、地球科学の分野における革新的なアプローチを表している。 データ中心人工知能(AI)パラダイムとして、ペタバイト単位の構造化データと非構造化データの洞察を明らかにする。 柔軟なタスク仕様、多様なインプットとアウトプット、マルチモーダルな知識表現により、個々のデータソースで包括的な分析が不可能になる。 重要なことに、地球科学モデルのスケーラビリティと一般化性により、地球系の相互作用に関連する様々な予測、シミュレーション、決定問題に取り組むことができる。 ドメインの専門家とコンピュータ科学者のコラボレーションは、地球の歴史、現在、未来を理解するための貴重なツールに革新をもたらす。 しかし、検証と検証、スケール、解釈可能性、知識表現、社会的偏見に課題は残る。 今後は、学際的なチームワークを通じて、モデル統合、解決、正確性、エクイティを強化することが重要です。 現在の制限にもかかわらず、地球科学財団のモデルは、気候変動、自然災害、持続可能性などの問題に対する重要な洞察を提供することを約束している。 統合データ駆動モデリングへの彼らの継続的な進化は、地球科学のパラダイムシフトの可能性を秘めている。

Geoscience foundation models represent a revolutionary approach in the field of Earth sciences by integrating massive cross-disciplinary data to simulate and understand the Earth systems dynamics. As a data-centric artificial intelligence (AI) paradigm, they uncover insights from petabytes of structured and unstructured data. Flexible task specification, diverse inputs and outputs and multi-modal knowledge representation enable comprehensive analysis infeasible with individual data sources. Critically, the scalability and generalizability of geoscience models allow for tackling diverse prediction, simulation, and decision challenges related to Earth systems interactions. Collaboration between domain experts and computer scientists leads to innovations in these invaluable tools for understanding the past, present, and future of our planet. However, challenges remain in validation and verification, scale, interpretability, knowledge representation, and social bias. Going forward, enhancing model integration, resolution, accuracy, and equity through cross-disciplinary teamwork is key. Despite current limitations, geoscience foundation models show promise for providing critical insights into pressing issues including climate change, natural hazards, and sustainability through their ability to probe scenarios and quantify uncertainties. Their continued evolution toward integrated, data-driven modeling holds paradigm-shifting potential for Earth science.
翻訳日:2023-09-14 15:01:08 公開日:2023-09-13
# cognitive mirage: 大規模言語モデルにおける幻覚のレビュー

Cognitive Mirage: A Review of Hallucinations in Large Language Models ( http://arxiv.org/abs/2309.06794v1 )

ライセンス: Link先を確認
Hongbin Ye, Tong Liu, Aijia Zhang, Wei Hua, Weiqiang Jia(参考訳) 大規模な言語モデルがAIの分野で発展を続けるにつれ、テキスト生成システムは幻覚として知られる厄介な現象の影響を受けやすい。 本研究では,LLMにおける幻覚に関する最近の知見を要約する。 本稿では,様々なテキスト生成タスクから幻覚の新たな分類法を提案し,理論的洞察,検出方法,改善アプローチを提案する。 この結果,今後の研究方向性が示唆される。 我々は,(1)テキスト生成タスクに現れる幻覚に関する詳細な,完全な分類を提供し,(2)LLMにおける幻覚の理論的分析を行い,既存の検出・改善方法を提供し,(3)将来開発できるいくつかの研究方向を提案する。 幻覚がコミュニティから大きな注目を集める中、我々は関連研究の進展に関する更新を継続する。

As large language models continue to develop in the field of AI, text generation systems are susceptible to a worrisome phenomenon known as hallucination. In this study, we summarize recent compelling insights into hallucinations in LLMs. We present a novel taxonomy of hallucinations from various text generation tasks, thus provide theoretical insights, detection methods and improvement approaches. Based on this, future research directions are proposed. Our contribution are threefold: (1) We provide a detailed and complete taxonomy for hallucinations appearing in text generation tasks; (2) We provide theoretical analyses of hallucinations in LLMs and provide existing detection and improvement methods; (3) We propose several research directions that can be developed in the future. As hallucinations garner significant attention from the community, we will maintain updates on relevant research progress.
翻訳日:2023-09-14 15:00:51 公開日:2023-09-13
# 長期記憶ネットワークを用いた自然言語処理による電力需要予測

Electricity Demand Forecasting through Natural Language Processing with Long Short-Term Memory Networks ( http://arxiv.org/abs/2309.06793v1 )

ライセンス: Link先を確認
Yun Bai, Simon Camal, Andrea Michiorri(参考訳) 電力需要予測は確立された研究分野である。 通常、この作業は歴史的負荷、天気予報、カレンダー情報、既知の主要な出来事を考慮して行われる。 近年,これらの予測の性能向上のために,テキストニュースからの新たな情報ソースの利用の可能性に注目が集まっている。 本稿では,イギリスにおける電力需要の確定的および確率的タスクを予測できるテキストニュース機能を備えた長短記憶ネットワークを提案する。 この研究は、公共の感情や交通や地政学に関連する単語ベクトル表現が、電力需要に時間的連続性をもたらすことを見出している。 実験の結果,テキスト機能を有するLSTMは,純粋なLSTMベンチマークに比べて3%以上改善し,公式ベンチマークでは10%近く改善した。 さらに,提案モデルでは,信頼区間を狭め,予測分布を真に近づけることで,予測の不確かさを効果的に低減する。

Electricity demand forecasting is a well established research field. Usually this task is performed considering historical loads, weather forecasts, calendar information and known major events. Recently attention has been given on the possible use of new sources of information from textual news in order to improve the performance of these predictions. This paper proposes a Long and Short-Term Memory (LSTM) network incorporating textual news features that successfully predicts the deterministic and probabilistic tasks of the UK national electricity demand. The study finds that public sentiment and word vector representations related to transport and geopolitics have time-continuity effects on electricity demand. The experimental results show that the LSTM with textual features improves by more than 3% compared to the pure LSTM benchmark and by close to 10% over the official benchmark. Furthermore, the proposed model effectively reduces forecasting uncertainty by narrowing the confidence interval and bringing the forecast distribution closer to the truth.
翻訳日:2023-09-14 15:00:39 公開日:2023-09-13
# モーションバイアスフリー特徴ベースSLAM

Motion-Bias-Free Feature-Based SLAM ( http://arxiv.org/abs/2309.06792v1 )

ライセンス: Link先を確認
Alejandro Fontan, Javier Civera, Michael Milford(参考訳) SLAMが非構造化の現実世界環境に安全にデプロイされるためには、従来のベンチマークには含まれないいくつかの重要な特性を持つ必要がある。 本稿では、SLAMの可換性、すなわち、同じ経路の前後方向と逆方向における軌道推定の整合性が、最先端の課題であることを示す。 現在のパイプラインは、進行方向と逆方向の間に有意な偏りを示し、またどの方向がより良い性能を示すかについても矛盾する。 本稿では,動作バイアス問題を解決する機能ベースのslamパイプラインに対するいくつかの貢献を提案する。 ORB-SLAM2で実施したコントリビューションは, 前方運動と後方運動のバイアスを著しく低減し, また, 累積軌道誤差も改善した。 SLAMの動作バイアスを除去することは、パフォーマンスの整合性が重要である幅広いロボティクスやコンピュータビジョンアプリケーションに重要な意味を持つ。

For SLAM to be safely deployed in unstructured real world environments, it must possess several key properties that are not encompassed by conventional benchmarks. In this paper we show that SLAM commutativity, that is, consistency in trajectory estimates on forward and reverse traverses of the same route, is a significant issue for the state of the art. Current pipelines show a significant bias between forward and reverse directions of travel, that is in addition inconsistent regarding which direction of travel exhibits better performance. In this paper we propose several contributions to feature-based SLAM pipelines that remedies the motion bias problem. In a comprehensive evaluation across four datasets, we show that our contributions implemented in ORB-SLAM2 substantially reduce the bias between forward and backward motion and additionally improve the aggregated trajectory error. Removing the SLAM motion bias has significant relevance for the wide range of robotics and computer vision applications where performance consistency is important.
翻訳日:2023-09-14 15:00:22 公開日:2023-09-13
# 粒子フロー再構成のためのスケーラブルニューラルネットワークモデルとテラスケールデータセット

Scalable neural network models and terascale datasets for particle-flow reconstruction ( http://arxiv.org/abs/2309.06782v1 )

ライセンス: Link先を確認
Joosep Pata, Eric Wulff, Farouk Mokhtar, David Southwick, Mengke Zhang, Maria Girone, Javier Duarte(参考訳) 高エネルギー電子-ポジトロン衝突におけるフルイベント再構成のためのスケーラブルな機械学習モデルについて,高粒度検出器シミュレーションに基づいて検討した。 粒子フロー(PF)再構成は、トラックやカロリークラスタやヒットを用いた教師あり学習タスクとして定式化することができる。 グラフニューラルネットワークとカーネルベースのトランスフォーマーを比較し,2次メモリ割り当てと計算コストを回避しつつ,現実的なpf再構成を実現することを実証した。 スーパーコンピュータのハイパーパラメータチューニングにより,モデルの物理性能が大幅に向上することを示す。 また、このモデルはnvidia、amd、intel habanaカードをサポートするハードウェアプロセッサ間で非常にポータブルであることを実証した。 最後に,トラックと温度計のヒットからなる高粒度入力でモデルをトレーニングできることを示し,その結果,ベースラインと競合する物理性能が得られることを示した。 研究を再現するデータセットとソフトウェアは、findable、accessable、interoperaable、recurable(fair)の原則に従って公開されている。

We study scalable machine learning models for full event reconstruction in high-energy electron-positron collisions based on a highly granular detector simulation. Particle-flow (PF) reconstruction can be formulated as a supervised learning task using tracks and calorimeter clusters or hits. We compare a graph neural network and kernel-based transformer and demonstrate that both avoid quadratic memory allocation and computational cost while achieving realistic PF reconstruction. We show that hyperparameter tuning on a supercomputer significantly improves the physics performance of the models. We also demonstrate that the resulting model is highly portable across hardware processors, supporting Nvidia, AMD, and Intel Habana cards. Finally, we demonstrate that the model can be trained on highly granular inputs consisting of tracks and calorimeter hits, resulting in a competitive physics performance with the baseline. Datasets and software to reproduce the studies are published following the findable, accessible, interoperable, and reusable (FAIR) principles.
翻訳日:2023-09-14 15:00:04 公開日:2023-09-13
# ハイブリッド干渉計による量子光誘起コヒーレンストモグラフィ

Quantum Optical Induced-Coherence Tomography by a Hybrid Interferometer ( http://arxiv.org/abs/2309.06777v1 )

ライセンス: Link先を確認
Eun Mi Kim, Sun Kyung Lee, Sang Min Lee, Myeong Soo Kang, and Hee Su Park(参考訳) 誘導コヒーレンス現象に基づく量子干渉測定は、検出されていない光子測定の可能性を示している。 プローブ光子の光路の摂動は、おそらく異なる波長で異なる経路を伝播する量子力学的に相関する双光子によって生成される干渉信号によって検出される。 この研究は、可視光子のためのマッハ・ツェンダー型干渉計と赤外線光子のためのミシュソン型干渉計を組み込んだハイブリッド型誘導コヒーレンス干渉計を、ダブルパスポンピングした自発的パラメトリックダウンコンバージョンに基づいて、初めて実証した。 この構成により、近視光子検出による赤外光測定が可能となり、異なる起源の光子対を同定して測定の質を特徴づける方法を提供する。 その結果、誘導コヒーレンス干渉の可視性は、関連する空間モードに沿った双光子間のヘラルド効率とほぼ同じであることが確かめられた。 時間領域および周波数領域量子光学共役トモグラフィーの3次元試験構造への応用を実証した。 その結果,提案構造に基づく非検出光子センシングとイメージング技術の実現性が証明された。

Quantum interferometry based on induced-coherence phenomena has demonstrated the possibility of undetected-photon measurements. Perturbation in the optical path of probe photons can be detected by interference signals generated by quantum mechanically correlated twin photons propagating through a different path, possibly at a different wavelength. To the best of our knowledge, this work demonstrates for the first time a hybrid-type induced-coherence interferometer that incorporates a Mach-Zehnder-type interferometer for visible photons and a Michelson-type interferometer for infrared photons, based on double-pass pumped spontaneous parametric down-conversion. This configuration enables infrared optical measurements via the detection of near-visible photons and provides methods for characterizing the quality of measurements by identifying photon pairs of different origins. The results verify that the induced-coherence interference visibility is approximately the same as the heralding efficiencies between twin photons along the relevant spatial modes. Applications to both time-domain and frequency-domain quantum-optical induced-coherence tomography for three-dimensional test structures are demonstrated. The results prove the feasibility of practical undetected-photon sensing and imaging techniques based on the presented structure.
翻訳日:2023-09-14 14:59:47 公開日:2023-09-13
# ヒンジ損失を訓練した深層学習型バイナリ分類器の基本限界

Fundamental Limits of Deep Learning-Based Binary Classifiers Trained with Hinge Loss ( http://arxiv.org/abs/2309.06774v1 )

ライセンス: Link先を確認
Tilahun M. Getu, Georges Kaddoum(参考訳) 深層学習(DL)は、化学、計算機科学、電気工学、数学、医学、神経科学、物理学など様々な分野においていくつかのブレークスルーをもたらしてきたが、なぜDLが経験的に成功するのかを包括的に理解することは、依然として根底から解明されている。 この根本的な問題に対処し、DLの実証的な成功の裏にある謎を解明するために、DLの統一理論への重要な革新がなされた。 これらの革新は最適化、一般化、近似のほぼ基本的な進歩を包含している。 しかし、これらの進歩にもかかわらず、パターン分類の問題を解決するために使われるDLベースのアルゴリズムのテスト性能を定量化する方法を提供していない。 この根本的な課題を克服するため,本稿では,ヒンジ損失で訓練されたdlベースのバイナリ分類器の基本的なテスト性能の限界を明らかにする。 深部修正線形単位(ReLU)フィードフォワードニューラルネットワーク(FNN)に基づくバイナリ分類器と、ReLUおよびTanhアクティベーションを持つ深部FNNに基づくバイナリ分類器について、それぞれの新しい漸近試験性能限界を導出する。 得られた試験性能限界は、広範なコンピュータ実験によって検証される。

Although deep learning (DL) has led to several breakthroughs in many disciplines as diverse as chemistry, computer science, electrical engineering, mathematics, medicine, neuroscience, and physics, a comprehensive understanding of why and how DL is empirically successful remains fundamentally elusive. To attack this fundamental problem and unravel the mysteries behind DL's empirical successes, significant innovations toward a unified theory of DL have been made. These innovations encompass nearly fundamental advances in optimization, generalization, and approximation. Despite these advances, however, no work to date has offered a way to quantify the testing performance of a DL-based algorithm employed to solve a pattern classification problem. To overcome this fundamental challenge in part, this paper exposes the fundamental testing performance limits of DL-based binary classifiers trained with hinge loss. For binary classifiers that are based on deep rectified linear unit (ReLU) feedforward neural networks (FNNs) and ones that are based on deep FNNs with ReLU and Tanh activation, we derive their respective novel asymptotic testing performance limits. The derived testing performance limits are validated by extensive computer experiments.
翻訳日:2023-09-14 14:59:27 公開日:2023-09-13
# 数光子によるメカニカル共振器の強いバックアクション

Strong backaction on a mechanical resonator by a few photons ( http://arxiv.org/abs/2309.06765v1 )

ライセンス: Link先を確認
Tanmoy bera, and Vibhor Singh(参考訳) 電磁モードに結合したメカニカル共振器からなるキャビティ電気機械システムは、様々な力を感知し、その量子限界までメカニカルモードの振動を制御するために広く使用される。 マイクロ波領域では、磁束結合に基づくそのようなデバイスは、単一光子強結合状態に達する可能性を持つ有望なプラットフォームとして現れてきた。 本稿では,周波数調整可能な超伝導トランスモンキュービットとマイクロ波キャビティを用いたフラックス結合型電気機械装置を実演する。 共振器と共振してクビットをチューニングすることにより、クビットのハイブリッド化状態(服装モード)とキャビティモードを用いて、磁場依存の電気機械的結合を実現する。 電磁誘導透過(EIT)のような実験によって確立される。 最大の応用分野では、60kHzの単光子結合速度を推定する。 さらに,ポンプ信号の存在下では,機械的モードの冷却と加熱の両方のバックアクションを観察する。 より強いポンプにより、服装モードは「スーパースプリッティング」のシグネチャを示し、メカニカル共振器の強いバックアクションは、着用モードにおいて1光子未満の状態で、メカニカルライン幅の42倍に反映される。

Cavity electromechanical systems, consisting of a mechanical resonator coupled to an electromagnetic mode, are extensively used for sensing of various forces and controlling the vibrations of a mechanical mode down to their quantum limit. In the microwave domain, such devices based on magnetic-flux coupling have emerged as a promising platform with the potential to reach a single-photon strong coupling regime. Here, we demonstrate a flux-coupled electromechanical device using a frequency tunable superconducting transmon qubit, and a microwave cavity. By tuning the qubit in resonance with the cavity, the hybridized state (dressed mode) of the qubit and the cavity mode is used to achieve a magnetic field-dependent electromechanical coupling. It is established by performing an electromagnetically-induced transparency (EIT)-like experiment. At the largest applied field, we estimate the single-photon coupling rate of 60 kHz. Further, in the presence of the pump signal, we observe backaction, showing both cooling and heating of the mechanical mode. With a stronger pump, the dressed mode shows the signature of "super-splitting", and a strong backaction on the mechanical resonator, reflected in the broadening of the mechanical linewidth by a factor of 42 while using less than 1 photon in the dressed mode.
翻訳日:2023-09-14 14:59:05 公開日:2023-09-13
# 頚部脊柱管狭窄定量化のためのトポロジーインスパイアクロスドメインネットワーク

Topology-inspired Cross-domain Network for Developmental Cervical Stenosis Quantification ( http://arxiv.org/abs/2309.06825v1 )

ライセンス: Link先を確認
Zhenxi Zhang, Yanyang Wang, Yao Wu and Weifei Wu(参考訳) 頚部脊柱管狭窄症(DCS)の定量化は頚椎症スクリーニングにおいて重要である。 手動でDCSを定量化するのと比較すると、より効率的でタイムセーブな方法はディープキーポイントローカライゼーションネットワークによって提供され、座標または画像領域で実装できる。 しかし、脊椎の視覚的特徴はしばしばキーポイントの局在中に異常なトポロジカルな構造をもたらし、エッジによるキーポイント歪みや弱い連結構造は座標領域と画像領域の両方で完全に抑制できない。 この制限を克服するために、キーポイントエッジと再パラメータ化モジュールを使用して、これらの異常構造をドメイン横断的に制限する。 キーポイントエッジ制約モジュールは脊椎の縁にあるキーポイントを制限し、キーポイント座標の分布パターンがDCS量子化の値と一致していることを保証する。 再パラメータ化モジュールは、座標を組み合わせた画像領域のヒートマップ内の弱結合構造を制約する。 さらに、クロスドメインネットワークは、ヒートマップを利用して空間一般化を改善し、正確な位置決めのための座標を導入し、個々の領域におけるこれらの2つの特性間のトレードオフを回避する。 異なる定量化タスクの包括的結果から,提案するトポロジーに触発されたクロスドメインネットワーク (tcn) は,他のローカライズ手法と比較して優越性と生成性を示した。

Developmental Canal Stenosis (DCS) quantification is crucial in cervical spondylosis screening. Compared with quantifying DCS manually, a more efficient and time-saving manner is provided by deep keypoint localization networks, which can be implemented in either the coordinate or the image domain. However, the vertebral visualization features often lead to abnormal topological structures during keypoint localization, including keypoint distortion with edges and weakly connected structures, which cannot be fully suppressed in either the coordinate or image domain alone. To overcome this limitation, a keypoint-edge and a reparameterization modules are utilized to restrict these abnormal structures in a cross-domain manner. The keypoint-edge constraint module restricts the keypoints on the edges of vertebrae, which ensures that the distribution pattern of keypoint coordinates is consistent with those for DCS quantification. And the reparameterization module constrains the weakly connected structures in image-domain heatmaps with coordinates combined. Moreover, the cross-domain network improves spatial generalization by utilizing heatmaps and incorporating coordinates for accurate localization, which avoids the trade-off between these two properties in an individual domain. Comprehensive results of distinct quantification tasks show the superiority and generability of the proposed Topology-inspired Cross-domain Network (TCN) compared with other competing localization methods.
翻訳日:2023-09-14 14:54:30 公開日:2023-09-13
# samus: 臨床フレンドリーで汎用的な超音波画像分割のためのsegment anythingモデルの適用

SAMUS: Adapting Segment Anything Model for Clinically-Friendly and Generalizable Ultrasound Image Segmentation ( http://arxiv.org/abs/2309.06824v1 )

ライセンス: Link先を確認
Xian Lin, Yangyang Xiang, Li Zhang, Xin Yang, Zengqiang Yan, and Li Yu(参考訳) ユニバーサルイメージセグメンテーションモデルであるsegment anything model(sam)は最近、医療画像セグメンテーション領域でかなりの注目を集めている。 SAMの自然画像における顕著な性能にもかかわらず、医用画像、特に低コントラスト、かすかな境界、複雑な形状、小さめの大きさの物体との対面において、顕著な性能劣化と限定的な一般化を伴っている。 本稿では,超音波画像分割に適した普遍モデルSAMUSを提案する。 SAMUSは従来のSAMベースのユニバーサルモデルとは対照的に、より優れた一般化だけでなく、デプロイメントコストの低減も追求している。 特に、samに基づく並列cnnブランチを導入し、医療画像のセグメンテーションを改善するために、クロスブランチの注意を通してvitエンコーダに局所的な特徴を注入する。 次に、SAMを自然から医療領域に適応させ、1024x1024の大型入力から256x256の小型入力へと変換する位置アダプタと特徴アダプタを開発した。 約30k画像と69kマスクで構成され、6つの対象カテゴリをカバーする包括的超音波データセットを収集して検証する。 大規模比較実験により、SAMUSはタスク固有モデルと普遍基礎モデルに対して、タスク固有評価と一般化評価の両方で優位性を示した。 さらにSAMUSは、長いシーケンスエンコーディングの制約から解放されているため、エントリーレベルのGPUにデプロイ可能である。 コード、データ、モデルはhttps://github.com/xianlin7/SAMUS.comでリリースされる。

Segment anything model (SAM), an eminent universal image segmentation model, has recently gathered considerable attention within the domain of medical image segmentation. Despite the remarkable performance of SAM on natural images, it grapples with significant performance degradation and limited generalization when confronted with medical images, particularly with those involving objects of low contrast, faint boundaries, intricate shapes, and diminutive sizes. In this paper, we propose SAMUS, a universal model tailored for ultrasound image segmentation. In contrast to previous SAM-based universal models, SAMUS pursues not only better generalization but also lower deployment cost, rendering it more suitable for clinical applications. Specifically, based on SAM, a parallel CNN branch is introduced to inject local features into the ViT encoder through cross-branch attention for better medical image segmentation. Then, a position adapter and a feature adapter are developed to adapt SAM from natural to medical domains and from requiring large-size inputs (1024x1024) to small-size inputs (256x256) for more clinical-friendly deployment. A comprehensive ultrasound dataset, comprising about 30k images and 69k masks and covering six object categories, is collected for verification. Extensive comparison experiments demonstrate SAMUS's superiority against the state-of-the-art task-specific models and universal foundation models under both task-specific evaluation and generalization evaluation. Moreover, SAMUS is deployable on entry-level GPUs, as it has been liberated from the constraints of long sequence encoding. The code, data, and models will be released at https://github.com/xianlin7/SAMUS.
翻訳日:2023-09-14 14:54:07 公開日:2023-09-13
# イベントベースビジョンによる小惑星ベンヌから放出される粒子の追跡

Tracking Particles Ejected From Active Asteroid Bennu With Event-Based Vision ( http://arxiv.org/abs/2309.06819v1 )

ライセンス: Link先を確認
Lo\"ic J. Azzalini and Dario Izzo(参考訳) 小型太陽系天体の近傍でエジェクタの早期発見と追跡は、宇宙船の安全性を保証し、科学観測を支援するために不可欠である。 活動的な小惑星ベンヌの訪問中、OSIRIS-RExは、搭載されたナビゲーションカメラで捉えた画像を分析して粒子の放出を検知し、最終的にミッションの科学的なハイライトとなった。 同様の時間制限されたミッションの科学的回帰を高めるため、この研究は、センチメートルサイズの粒子の検出と追跡に特化したイベントベースのソリューションを提案する。 標準のフレームベースのカメラとは異なり、イベントベースのカメラの画素は、その時点でシーンの明るさが増減したかを示すイベントを独立してトリガーする。 スパースと非同期時空間出力の結果、イベントカメラは、非常に高いダイナミックレンジと時間分解能と低消費電力を組み合わせ、既存のオンボードイメージング技術を補完する。 本稿では,OSIRIS-RExミッションで報告された粒子放出現象を光リアルなシーンジェネレータで再構成し,イベントベースの観測をシミュレートすることで,科学的イベントカメラの利用を動機づける。 時空間データのストリームは、イベントベースのマルチオブジェクトトラッキングにおける将来の作業をサポートする。

Early detection and tracking of ejecta in the vicinity of small solar system bodies is crucial to guarantee spacecraft safety and support scientific observation. During the visit of active asteroid Bennu, the OSIRIS-REx spacecraft relied on the analysis of images captured by onboard navigation cameras to detect particle ejection events, which ultimately became one of the mission's scientific highlights. To increase the scientific return of similar time-constrained missions, this work proposes an event-based solution that is dedicated to the detection and tracking of centimetre-sized particles. Unlike a standard frame-based camera, the pixels of an event-based camera independently trigger events indicating whether the scene brightness has increased or decreased at that time and location in the sensor plane. As a result of the sparse and asynchronous spatiotemporal output, event cameras combine very high dynamic range and temporal resolution with low-power consumption, which could complement existing onboard imaging techniques. This paper motivates the use of a scientific event camera by reconstructing the particle ejection episodes reported by the OSIRIS-REx mission in a photorealistic scene generator and in turn, simulating event-based observations. The resulting streams of spatiotemporal data support future work on event-based multi-object tracking.
翻訳日:2023-09-14 14:53:35 公開日:2023-09-13
# 深層学習モデルに基づく文脈関係抽出の比較分析

Comparative Analysis of Contextual Relation Extraction based on Deep Learning Models ( http://arxiv.org/abs/2309.06814v1 )

ライセンス: Link先を確認
R.Priyadharshini, G.Jeyakodi, P.Shanthi Bala(参考訳) 文脈関係抽出(cre)は主にオントロジーの助けを借りて知識グラフを構築するために用いられる。 セマンティック検索、クエリ応答、テキストのエンテーメントといった様々なタスクを実行する。 関係抽出は、原文からの実体とそれらの関係を識別する。 バイオメディカル産業におけるドメイン知識の創出には,効率的かつ正確なCREシステムが必要である。 既存の機械学習と自然言語処理(NLP)技術は、2つ以上の関係と非特定実体からなる文から複雑な関係を効率的に予測するには適していない。 本研究では,複数の文から文脈に基づく適切な意味関係を同定するために,深層学習技術を用いた。 さまざまな機械学習モデルが関係抽出に使われているが、バイナリ関係、すなわち文中の2つのエンティティ間の関係に対してのみ、よりよい結果が得られる。 機械学習モデルは、様々な意味を持つ単語からなる複雑な文には適していない。 これらの問題に対処するために、複雑な文から関係を効果的に抽出するためにハイブリッドディープラーニングモデルが用いられている。 本稿では,関係抽出に用いる各種深層学習モデルの解析について検討する。

Contextual Relation Extraction (CRE) is mainly used for constructing a knowledge graph with a help of ontology. It performs various tasks such as semantic search, query answering, and textual entailment. Relation extraction identifies the entities from raw texts and the relations among them. An efficient and accurate CRE system is essential for creating domain knowledge in the biomedical industry. Existing Machine Learning and Natural Language Processing (NLP) techniques are not suitable to predict complex relations from sentences that consist of more than two relations and unspecified entities efficiently. In this work, deep learning techniques have been used to identify the appropriate semantic relation based on the context from multiple sentences. Even though various machine learning models have been used for relation extraction, they provide better results only for binary relations, i.e., relations occurred exactly between the two entities in a sentence. Machine learning models are not suited for complex sentences that consist of the words that have various meanings. To address these issues, hybrid deep learning models have been used to extract the relations from complex sentence effectively. This paper explores the analysis of various deep learning models that are used for relation extraction.
翻訳日:2023-09-14 14:53:13 公開日:2023-09-13
# 非一様静電場下における相対論的原子線自発放射スペクトルのゲージ依存性

Gauge dependence of spontaneous radiation spectrum of relativistic atomic beam under non-uniform electrostatic field ( http://arxiv.org/abs/2309.06811v1 )

ライセンス: Link先を確認
Xue-Nan Chen, Yu-Hang Luo, Xiang-Song Chen(参考訳) ゲージ理論は、ゲージに依存しない物理観測値を必要とする。 しかし、ラムは原子自発的放射スペクトルの計算におけるゲージ選択の問題に気付き、多くの物理学研究においてゲージ依存の問題に遭遇した。 したがって、様々な物理系のゲージ対称性の自己一貫性をテストすることが重要である。 本稿では,原子自己参照フレーム下での非一様静電場における相対論的水素原子の過渡自発放射スペクトルを計算する。 本稿では,最近の研究成果のフレーム変換版である [\href{https://link.springer.com/paper/10.1140/epjd/s10053-022-00407-5}{Euro。 J. Phys D \textbf{76}, 84(2022)}] では、電荷が相対論的に動いている間に放射対象が静的である。 得られたピーク周波数は、一般的に使用されるクーロン、ローレンツ、マルチポーラゲージに対して約413$$\mathrm{KHz}$以上で異なる。 この観測は、ゲージ場が理論上量子系とどのように相互作用するかを研究するだけでなく、外部電磁界における原子時計のタイミング精度などの実験的な応用においても重要である。

Gauge theory requires physical observables to be gauge-independent. However, ever since Lamb noticed the problem of gauge selection in calculating atomic spontaneous radiation spectrum, the problem of gauge dependence was encountered in many fields of physics research. Therefore, it is important to test the self-consistency of gauge symmetry for various physical systems. In this paper, we calculate the transient spontaneous radiation spectrum of a relativistic hydrogen atom in the non-uniform electrostatic field under the atomic self-reference frame. The physical system studied in this paper is a frame-transformed version of our recent work [\href{https://link.springer.com/paper/10.1140/epjd/s10053-022-00407-5}{Euro. J. Phys. D \textbf{76}, 84(2022)}] where the radiating object is static while the charge is moving relativistically. The obtained peak frequency can differ by about $413$ $\mathrm{KHz}$ or larger for the commonly used Coulomb, Lorentz, and multipolar gauges. This observation can be significant not only for studying how the gauge field interacts with the quantum system in theory, but also for practical experimental applications, such as the timing accuracy of atomic clocks in the external electromagnetic field.
翻訳日:2023-09-14 14:52:58 公開日:2023-09-13
# 3次元形状集合学習のためのSE(3)の等価性

Leveraging SE(3) Equivariance for Learning 3D Geometric Shape Assembly ( http://arxiv.org/abs/2309.06810v1 )

ライセンス: Link先を確認
Ruihai Wu, Chenrui Tie, Yushi Du, Yan Zhao, Hao Dong(参考訳) 形状アセンブリは、部品(または断片)を完全なオブジェクトに再構成することを目的としています。 意味的な部分アセンブリ(例えば、椅子の脚のような意味的な部分全体を組み立てる)とは異なる幾何学的な部分アセンブリ(例えば、ボウルの断片を完全なボウルに組み立てる)は、コンピュータビジョンとロボティクスにおける新たなタスクである。 このタスクは意味情報の代わりに、部品の幾何学的情報に焦点を当てる。 破断された部分の幾何学的空間とポーズ空間は並外れたほど大きいため、部分表現の形状は幾何学的形状の組立に有用である。 そこで本論文では,このような形状にse(3)等分散を利用するように提案する。 さらに, 視覚・ロボット工学におけるこれまでの研究は, se(3) 等分散を単一対象の表現にのみ考慮するが, 一歩前進して, 複数部分相関を考慮した表現に対する se(3) 等分散の活用を提案し, マルチパートアセンブリの性能をさらに高める。 実験はse(3)等分散の意義と,提案する幾何学的形状集合法を実証する。 プロジェクトページ: https://crtie.github.io/SE-3-part-assembly/

Shape assembly aims to reassemble parts (or fragments) into a complete object, which is a common task in our daily life. Different from the semantic part assembly (e.g., assembling a chair's semantic parts like legs into a whole chair), geometric part assembly (e.g., assembling bowl fragments into a complete bowl) is an emerging task in computer vision and robotics. Instead of semantic information, this task focuses on geometric information of parts. As the both geometric and pose space of fractured parts are exceptionally large, shape pose disentanglement of part representations is beneficial to geometric shape assembly. In our paper, we propose to leverage SE(3) equivariance for such shape pose disentanglement. Moreover, while previous works in vision and robotics only consider SE(3) equivariance for the representations of single objects, we move a step forward and propose leveraging SE(3) equivariance for representations considering multi-part correlations, which further boosts the performance of the multi-part assembly. Experiments demonstrate the significance of SE(3) equivariance and our proposed method for geometric shape assembly. Project page: https://crtie.github.io/SE-3-part-assembly/
翻訳日:2023-09-14 14:52:36 公開日:2023-09-13
# TAP:視覚分類のためのテキスト学習インスタンスのタスク適応生成のためのターゲットプロンプト

TAP: Targeted Prompting for Task Adaptive Generation of Textual Training Instances for Visual Classification ( http://arxiv.org/abs/2309.06809v1 )

ライセンス: Link先を確認
M. Jehanzeb Mirza, Leonid Karlinsky, Wei Lin, Horst Possegger, Rogerio Feris, Horst Bischof(参考訳) CLIPのような視覚と言語モデル(VLM)は、テキストプロンプトによって記述される潜在的に無制限なカテゴリの視覚的認識を可能にした。 しかし、最高の視覚認識性能を得るためには、これらのモデルはWebベースの事前学習データからドメインシフトを克服するために、下流タスクのデータ分散をよりよく適合させるためにチューニングが必要である。 近年,大言語モデル(LLM)が生成するテキストのみのトレーニングデータを用いて,ペアデータなしでVLMを効果的にチューニングし,特にVLMの視覚認識性能を効果的に向上できることが示されている。 本稿では、このエキサイティングなテキストオンリーのVLMトレーニングアプローチを深く掘り下げ、LLMからテキストデータをサンプリングする際、下流タスクの具体性を考慮に入れ、さらに改善する方法について検討する。 特に、SOTAテキストのみのVLMトレーニングアプローチと比較して、ドメイン固有の適応における最大8.4%の性能向上、微粒化認識における最大8.7%の改善、強基線と比較してゼロショット分類における平均3.1%の改善を示す。

Vision and Language Models (VLMs), such as CLIP, have enabled visual recognition of a potentially unlimited set of categories described by text prompts. However, for the best visual recognition performance, these models still require tuning to better fit the data distributions of the downstream tasks, in order to overcome the domain shift from the web-based pre-training data. Recently, it has been shown that it is possible to effectively tune VLMs without any paired data, and in particular to effectively improve VLMs visual recognition performance using text-only training data generated by Large Language Models (LLMs). In this paper, we dive deeper into this exciting text-only VLM training approach and explore ways it can be significantly further improved taking the specifics of the downstream task into account when sampling text data from LLMs. In particular, compared to the SOTA text-only VLM training approach, we demonstrate up to 8.4% performance improvement in (cross) domain-specific adaptation, up to 8.7% improvement in fine-grained recognition, and 3.1% overall average improvement in zero-shot classification compared to strong baselines.
翻訳日:2023-09-14 14:52:04 公開日:2023-09-13
# ポリープ分割タスクの一般化性向上のためのベイズ的不確実性重み付き損失

Bayesian uncertainty-weighted loss for improved generalisability on polyp segmentation task ( http://arxiv.org/abs/2309.06807v1 )

ライセンス: Link先を確認
Rebecca S. Stone, Pedro E. Chavarrias-Solano, Andrew J. Bulpitt, David C. Hogg, Sharib Ali(参考訳) これまでのいくつかの研究でポリプのセグメンテーション法が考案されたが、これらの手法のほとんどはマルチセンターデータセットでは厳密に評価されていない。 ポリプの出現による変動, 内視鏡機器の品位の違い, 取得品質などにより, 分散試験データの性能は良好であり, 分布外または表現不足のサンプルの性能は劣る。 不公平なモデルには重大な意味があり、臨床応用に重大な課題がある。 トレーニング中にベイズ病性不確実性を利用した暗黙バイアス緩和法を適用し, モデルが表現不足のサンプル領域に集中するよう促す。 本稿では,多心多心セグメンテーションデータセット (PolypGen) の精度を犠牲にすることなく, 汎用性を向上させる手法の可能性を示す。

While several previous studies have devised methods for segmentation of polyps, most of these methods are not rigorously assessed on multi-center datasets. Variability due to appearance of polyps from one center to another, difference in endoscopic instrument grades, and acquisition quality result in methods with good performance on in-distribution test data, and poor performance on out-of-distribution or underrepresented samples. Unfair models have serious implications and pose a critical challenge to clinical applications. We adapt an implicit bias mitigation method which leverages Bayesian epistemic uncertainties during training to encourage the model to focus on underrepresented sample regions. We demonstrate the potential of this approach to improve generalisability without sacrificing state-of-the-art performance on a challenging multi-center polyp segmentation dataset (PolypGen) with different centers and image modalities.
翻訳日:2023-09-14 14:51:27 公開日:2023-09-13
# FedDIP: エクストリームダイナミックプルーニングとインクリメンタル正規化によるフェデレーションラーニング

FedDIP: Federated Learning with Extreme Dynamic Pruning and Incremental Regularization ( http://arxiv.org/abs/2309.06805v1 )

ライセンス: Link先を確認
Qianyu Long, Christos Anagnostopoulos, Shameem Puthiya Parambath, Daning Bi(参考訳) 大規模深層ニューラルネットワーク(dnn)の分散トレーニングと推論にfederated learning(fl)がうまく採用されている。 しかし、DNNは非常に多くのパラメータが特徴であり、これらのパラメータを分散ノード間で交換し、メモリを管理する上で大きな課題となる。 最近のDNN圧縮手法(例えば、スペーシフィケーション、プルーニング)はそのような課題に対処するが、高い精度を維持しながらパラメータ交換の適応的に制御された低減を考慮しない。 したがって、我々はFedDIPと組み合わせた新しいFLフレームワーク(Coined FedDIP)に貢献する。 (i)冗長な情報交換をなくすためのエラーフィードバックによる動的モデルプルーニングは、大幅な性能向上に寄与する。 (ii) モデルの <textit{extreme} 空間性を達成できる増分正規化。 我々はFedDIPの収束解析を行い、ベンチマークデータセットとDNNモデルを用いた最先端手法に対する総合的な性能と比較評価について報告する。 本研究では,feeddipがモデルスパーシティを制御するだけでなく,分散モデルトレーニング中にインクリメンタル正規化を採用する他のモデルプラニング手法と比較して,効率良く,あるいは優れた性能を実現することを示す。 コードは、https://github.com/EricLoong/feddip.comで入手できる。

Federated Learning (FL) has been successfully adopted for distributed training and inference of large-scale Deep Neural Networks (DNNs). However, DNNs are characterized by an extremely large number of parameters, thus, yielding significant challenges in exchanging these parameters among distributed nodes and managing the memory. Although recent DNN compression methods (e.g., sparsification, pruning) tackle such challenges, they do not holistically consider an adaptively controlled reduction of parameter exchange while maintaining high accuracy levels. We, therefore, contribute with a novel FL framework (coined FedDIP), which combines (i) dynamic model pruning with error feedback to eliminate redundant information exchange, which contributes to significant performance improvement, with (ii) incremental regularization that can achieve \textit{extreme} sparsity of models. We provide convergence analysis of FedDIP and report on a comprehensive performance and comparative assessment against state-of-the-art methods using benchmark data sets and DNN models. Our results showcase that FedDIP not only controls the model sparsity but efficiently achieves similar or better performance compared to other model pruning methods adopting incremental regularization during distributed model training. The code is available at: https://github.com/EricLoong/feddip.
翻訳日:2023-09-14 14:50:40 公開日:2023-09-13
# サッカーシーンのための動的NeRF

Dynamic NeRFs for Soccer Scenes ( http://arxiv.org/abs/2309.06802v1 )

ライセンス: Link先を確認
Sacha Lewin, Maxime Vandegar, Thomas Hoyoux, Olivier Barnich, Gilles Louppe(参考訳) 新しい視点合成の長年の問題は、特にスポーツ放送において多くの応用がある。 サッカーのアクションの光リアリスティックな視点の合成は、特に放送業界にとって大きな関心を集めている。 しかし、いくつかの産業的な解決策が提案されており、合成リプレイのほぼブロードウェイ品質を達成するものは少ない。 プレイフィールド周辺に複数の静止カメラを設置する以外、最高のプロプライエタリなシステムは内部動作に関する情報をほとんど公開しない。 このようなタスクに複数の静的カメラを活用することは、パブリックデータセットの欠如によって、文献にはほとんど取り組まれていない課題を実際に示している。 近年、ニューラルラジアンスの出現は、多くの新しいビュー合成アプリケーションにおいて驚くべき進歩を招き、深層学習の原理を利用して、最も困難な環境でフォトリアリスティックな結果を生み出す。 本研究では,汎用動的コンテンツの再構築を目的としたニューラルモデルであるdynamic nerfsの課題に対する解法の実現可能性について検討する。 合成サッカー環境を構築し,それらを用いて複数の実験を行い,サッカーシーンをダイナミックなnerfで再構築する上で重要な要素を特定した。 このアプローチは、ターゲットアプリケーションの品質要件を完全に満たすことはできないが、コスト効率、自動ソリューションへの有望な道が提案されている。 また、動的サッカーシーンのための新しいビュー合成の課題について、研究コミュニティのさらなる取り組みを促進することを目的として、作業データセットとコードを公開する。 コード、データ、ビデオの結果については、https://soccernerfs.isach.beをご覧ください。

The long-standing problem of novel view synthesis has many applications, notably in sports broadcasting. Photorealistic novel view synthesis of soccer actions, in particular, is of enormous interest to the broadcast industry. Yet only a few industrial solutions have been proposed, and even fewer that achieve near-broadcast quality of the synthetic replays. Except for their setup of multiple static cameras around the playfield, the best proprietary systems disclose close to no information about their inner workings. Leveraging multiple static cameras for such a task indeed presents a challenge rarely tackled in the literature, for a lack of public datasets: the reconstruction of a large-scale, mostly static environment, with small, fast-moving elements. Recently, the emergence of neural radiance fields has induced stunning progress in many novel view synthesis applications, leveraging deep learning principles to produce photorealistic results in the most challenging settings. In this work, we investigate the feasibility of basing a solution to the task on dynamic NeRFs, i.e., neural models purposed to reconstruct general dynamic content. We compose synthetic soccer environments and conduct multiple experiments using them, identifying key components that help reconstruct soccer scenes with dynamic NeRFs. We show that, although this approach cannot fully meet the quality requirements for the target application, it suggests promising avenues toward a cost-efficient, automatic solution. We also make our work dataset and code publicly available, with the goal to encourage further efforts from the research community on the task of novel view synthesis for dynamic soccer scenes. For code, data, and video results, please see https://soccernerfs.isach.be.
翻訳日:2023-09-14 14:50:09 公開日:2023-09-13
# 特徴異方性と相互情報最大化による映像侵害検出

Video Infringement Detection via Feature Disentanglement and Mutual Information Maximization ( http://arxiv.org/abs/2309.06877v1 )

ライセンス: Link先を確認
Zhenguang Liu, Xinyang Yu, Ruili Wang, Shuai Ye, Zhe Ma, Jianfeng Dong, Sifeng He, Feng Qian, Xiaobo Zhang, Roger Zimmermann, Lei Yang(参考訳) セルフメディアの時代は、とても高品質なビデオを提供する。 残念ながら、頻繁なビデオ著作権侵害は、ビデオクリエーターの興味や熱意に深刻な打撃を与えている。 したがって、侵害ビデオの特定は魅力的な作業だ。 現在の最先端の手法は、高次元の混合ビデオ特徴をディープニューラルネットワークに供給し、ネットワークにカウントして有用な表現を抽出する。 シンプルさにもかかわらず、このパラダイムは元々の絡み合った機能に大きく依存しており、有用なタスク関連セマンティクスが機能から抽出されるという制約を欠いている。 本稿では, 上記の課題を, 1) 元の高次元特徴を複数のサブ機能に分解し, 特徴を排他的低次元成分に明示的に分離することを提案する。 サブフィーチャは、元の機能の重複しないセマンティクスをエンコードし、冗長な情報を削除することを期待する。 (2)不連続な部分特徴の上に,さらに副特徴の強化のための補助特徴を学習する。 ラベルと不整合特徴との間の相互情報を理論的に解析し、元の特徴からタスク関連情報の抽出を最大化する損失に到達した。 2つの大規模ベンチマークデータセット(SVDとVCSL)に対する大規模な実験により、我々の手法は大規模SVDデータセット上で90.1%TOP-100 mAPを達成するとともに、VCSLベンチマークデータセット上で新しい最先端のデータセットを設定する。 私たちのコードとモデルはhttps://github.com/yyyooooo/DMI/でリリースされました。

The self-media era provides us tremendous high quality videos. Unfortunately, frequent video copyright infringements are now seriously damaging the interests and enthusiasm of video creators. Identifying infringing videos is therefore a compelling task. Current state-of-the-art methods tend to simply feed high-dimensional mixed video features into deep neural networks and count on the networks to extract useful representations. Despite its simplicity, this paradigm heavily relies on the original entangled features and lacks constraints guaranteeing that useful task-relevant semantics are extracted from the features. In this paper, we seek to tackle the above challenges from two aspects: (1) We propose to disentangle an original high-dimensional feature into multiple sub-features, explicitly disentangling the feature into exclusive lower-dimensional components. We expect the sub-features to encode non-overlapping semantics of the original feature and remove redundant information. (2) On top of the disentangled sub-features, we further learn an auxiliary feature to enhance the sub-features. We theoretically analyzed the mutual information between the label and the disentangled features, arriving at a loss that maximizes the extraction of task-relevant information from the original feature. Extensive experiments on two large-scale benchmark datasets (i.e., SVD and VCSL) demonstrate that our method achieves 90.1% TOP-100 mAP on the large-scale SVD dataset and also sets the new state-of-the-art on the VCSL benchmark dataset. Our code and model have been released at https://github.com/yyyooooo/DMI/, hoping to contribute to the community.
翻訳日:2023-09-14 14:41:33 公開日:2023-09-13
# 強化学習による準結晶構造の自己組織化の動的制御

Dynamic control of self-assembly of quasicrystalline structures through reinforcement learning ( http://arxiv.org/abs/2309.06869v1 )

ライセンス: Link先を確認
Uyen Tu Lieu, Natsuhiko Yoshinaga(参考訳) 本研究では, ドデカゴナル準結晶(DDQC)の動的自己集合性を制御するための強化学習を提案する。 パッチ状粒子は他の粒子と異方性相互作用を持ち、DDQCを形成する。 しかし、定常状態におけるそれらの構造は、その構造形成の運動経路に大きく影響される。 q-learning法によって訓練された温度制御の最適方針を推定し、推定したポリシーを用いて、少ない欠陥でddqcを生成できることを実証する。 強化学習により得られた温度スケジュールは、焼鈍などの従来の固定温度スケジュールよりも効率的に所望の構造を再現することができる。 学習の成功を明らかにするために,トリプルウェルポテンシャルの運動による構造変化の速度論を記述した簡単なモデルも分析した。 強化学習は,構造ゆらぎがグローバルに安定な状態を形成する可能性を高める臨界温度を自律的に発見することを発見した。 推定ポリシは、DDQCの形成を支援するために、システムを臨界温度に導く。

We propose reinforcement learning to control the dynamical self-assembly of the dodecagonal quasicrystal (DDQC) from patchy particles. The patchy particles have anisotropic interactions with other particles and form DDQC. However, their structures at steady states are significantly influenced by the kinetic pathways of their structural formation. We estimate the best policy of temperature control trained by the Q-learning method and demonstrate that we can generate DDQC with few defects using the estimated policy. The temperature schedule obtained by reinforcement learning can reproduce the desired structure more efficiently than the conventional pre-fixed temperature schedule, such as annealing. To clarify the success of the learning, we also analyse a simple model describing the kinetics of structural changes through the motion in a triple-well potential. We have found that reinforcement learning autonomously discovers the critical temperature at which structural fluctuations enhance the chance of forming a globally stable state. The estimated policy guides the system toward the critical temperature to assist the formation of DDQC.
翻訳日:2023-09-14 14:41:06 公開日:2023-09-13
# Gpachov at CheckThat! 2023年:ニュース記事における主観性検出のための多様なマルチアプローチアンサンブル

Gpachov at CheckThat! 2023: A Diverse Multi-Approach Ensemble for Subjectivity Detection in News Articles ( http://arxiv.org/abs/2309.06844v1 )

ライセンス: Link先を確認
Georgi Pachov, Dimitar Dimitrov, Ivan Koychev, Preslav Nakov(参考訳) ソーシャルネットワークの普及により、インターネット上の主観的、誤解を招く、虚偽の情報さえも生まれてきた。 このように、主観的検出は、情報の目的性と品質を保証する上で重要な役割を果たす。 本稿では,Gpachov チームが CLEF-2023 CheckThat! lab Task~2 で開発した主観性検出手法を提案する。 3つの異なる研究方向が検討されている。 1つ目は、文埋め込みエンコーダモデルと次元縮小の微調整に基づいている。 2つ目はサンプル効率のよい少数ショット学習モデルだ。 3つ目は、複数の言語からのデータを使用して、変更したデータセット上の多言語トランスフォーマーの微調整を評価する。 最後に、3つのアプローチは単純な多数決のアンサンブルで結合され、その結果、テストセットで0.77マクロF1、英語サブタスクで2位となる。

The wide-spread use of social networks has given rise to subjective, misleading, and even false information on the Internet. Thus, subjectivity detection can play an important role in ensuring the objectiveness and the quality of a piece of information. This paper presents the solution built by the Gpachov team for the CLEF-2023 CheckThat! lab Task~2 on subjectivity detection. Three different research directions are explored. The first one is based on fine-tuning a sentence embeddings encoder model and dimensionality reduction. The second one explores a sample-efficient few-shot learning model. The third one evaluates fine-tuning a multilingual transformer on an altered dataset, using data from multiple languages. Finally, the three approaches are combined in a simple majority voting ensemble, resulting in 0.77 macro F1 on the test set and achieving 2nd place on the English subtask.
翻訳日:2023-09-14 14:40:49 公開日:2023-09-13
# 原産地におけるT-Sファジィ系の局所二次安定性について

On the Local Quadratic Stability of T-S Fuzzy Systems in the Vicinity of the Origin ( http://arxiv.org/abs/2309.06841v1 )

ライセンス: Link先を確認
Donghwan Lee and Do Wan Kim(参考訳) 本研究の目的は,連続時間t-sファジィシステムの局所安定条件を新たに導入することである。 これらの安定性条件は2次リアプノフ関数と組み合わせた線形行列不等式(LMI)に基づいている。 さらに, 原点付近の非線形系の線形構造を効果的に活用し, 原点におけるメンバーシップ関数に関する情報を統合する。 その結果,本論文におけるファジィリアプノフ関数を用いた既存の手法に比べ,提案条件は保守的でないことが判明した。 さらに,提案手法は,T-Sファジィ系の局所指数安定性に必要かつ十分な条件を提供する。 この論文はファジィ・リャプノフのアプローチに関連する固有の制限についても論じている。 理論的結果を示すために,核となる概念を解明し,提案条件の有効性を検証する包括的例を示す。

The main goal of this paper is to introduce new local stability conditions for continuous-time Takagi-Sugeno (T-S) fuzzy systems. These stability conditions are based on linear matrix inequalities (LMIs) in combination with quadratic Lyapunov functions. Moreover, they integrate information on the membership functions at the origin and effectively leverage the linear structure of the underlying nonlinear system in the vicinity of the origin. As a result, the proposed conditions are proved to be less conservative compared to existing methods using fuzzy Lyapunov functions in the literature. Moreover, we establish that the proposed methods offer necessary and sufficient conditions for the local exponential stability of T-S fuzzy systems. The paper also includes discussions on the inherent limitations associated with fuzzy Lyapunov approaches. To demonstrate the theoretical results, we provide comprehensive examples that elucidate the core concepts and validate the efficacy of the proposed conditions.
翻訳日:2023-09-14 14:40:33 公開日:2023-09-13
# アルミニウム合金の添加摩擦スター堆積におけるピーク温度分布予測のための機械学習と物理に基づく機械学習手法

Supervised Machine Learning and Physics based Machine Learning approach for prediction of peak temperature distribution in Additive Friction Stir Deposition of Aluminium Alloy ( http://arxiv.org/abs/2309.06838v1 )

ライセンス: Link先を確認
Akshansh Mishra(参考訳) AFSD (Additive friction stir deposition) は、従来の粉体層融合と誘導エネルギーデポジションアプローチを悩ませるポーシティ、ひび割れ、特性異方性の問題を回避する新しい固体添加物製造技術である。 しかし, プロセスパラメータ, 温度分布, その結果のAFSDの微細構造との相関はよく分かっていない。 これはプロパティのプロセス最適化を妨げる。 この研究は、教師付き機械学習(SML)と物理情報ニューラルネットワーク(PINN)を組み合わせて、プロセスパラメータからAFSDのピーク温度分布を予測する。 SMLモデリングのために8つの回帰アルゴリズムが実装され、4つのPINNは輸送、波動伝播、熱伝達、量子力学の制御方程式を利用した。 複数の統計指標において、勾配の上昇のようなアンサンブル技術はSMLより優れており、MSEは165.78である。 また,ロジスティック回帰がロバストな精度をもたらすプロセス因子から沈着品質を分類するために,統合ml法を適用した。 データ駆動学習と基礎物理学を融合することにより、この2つの方法論はafsdの熱管理による微細構造の調整に関する包括的な洞察を提供する。 この研究は、AMプロセス-プロパティ関係を解明するための統計および物理に基づくモデリングをブリッジする力を示す。

Additive friction stir deposition (AFSD) is a novel solid-state additive manufacturing technique that circumvents issues of porosity, cracking, and properties anisotropy that plague traditional powder bed fusion and directed energy deposition approaches. However, correlations between process parameters, thermal profiles, and resulting microstructure in AFSD remain poorly understood. This hinders process optimization for properties. This work employs a cutting-edge framework combining supervised machine learning (SML) and physics-informed neural networks (PINNs) to predict peak temperature distribution in AFSD from process parameters. Eight regression algorithms were implemented for SML modeling, while four PINNs leveraged governing equations for transport, wave propagation, heat transfer, and quantum mechanics. Across multiple statistical measures, ensemble techniques like gradient boosting proved superior for SML, with lowest MSE of 165.78. The integrated ML approach was also applied to classify deposition quality from process factors, with logistic regression delivering robust accuracy. By fusing data-driven learning and fundamental physics, this dual methodology provides comprehensive insights into tailoring microstructure through thermal management in AFSD. The work demonstrates the power of bridging statistical and physics-based modeling for elucidating AM process-property relationships.
翻訳日:2023-09-14 14:40:19 公開日:2023-09-13
# 有限状態量子系における一般準確率間のカークウッド-ディラック分布の利点

Advantages of the Kirkwood-Dirac distribution among general quasi-probabilities for finite-state quantum systems ( http://arxiv.org/abs/2309.06836v1 )

ライセンス: Link先を確認
Shun Umekawa, Jaeha Lee, Naomichi Hatano(参考訳) 本研究では,有限状態量子系,特に2状態および3状態量子系における準結合確率分布の特徴を,準古典化の一般的な枠組みに基づく準結合確率分布の異なるタイプを比較して検討する。 カークウッド・ディラック分布は、有限状態量子系に対してうまく振る舞う準結合確率分布であることを示す。 1つは真の確率の類似性であり、もう1つは準確率から得られる情報である。 可観測値の概念を導入することで、カークウッド・ディラック分布はウィグナー関数を含む他の準確率の多くと対照的に、真の確率分布とよりよく振る舞うことを有限状態量子系に対して示す。 また、スピンの2方向のみのカークウッド・ディラック分布によって2状態と3状態の量子系の状態を完全に区別できることを証明し、準確率の虚部が状態の識別性に不可欠であることを2状態系に対して指摘する。

We investigate features of the quasi-joint-probability distribution for finite-state quantum systems, especially the two-state and three-state quantum systems, comparing different types of quasi-joint-probability distributions based on the general framework of quasi-classicalization. We show from two perspectives that the Kirkwood-Dirac distribution is the quasi-joint-probability distribution that behaves nicely for the finite-state quantum systems. One is the similarity to the genuine probability and the other is the information that we can obtain from the quasi-probability. By introducing the concept of the possible values of observables, we show for the finite-state quantum systems that the Kirkwood-Dirac distribution behaves more similarly to the genuine probability distribution in contrast to most of the other quasi-probabilities including the Wigner function. We also prove that the states of the two-state and three-state quantum systems can be completely distinguished by the Kirkwood-Dirac distribution of only two directions of the spin and point out for the two-state system that the imaginary part of the quasi-probability is essential for the distinguishability of the state.
翻訳日:2023-09-14 14:39:53 公開日:2023-09-13
# 二重ロバスト性を用いた安全強化学習

Safe Reinforcement Learning with Dual Robustness ( http://arxiv.org/abs/2309.06835v1 )

ライセンス: Link先を確認
Zeyang Li, Chuxiong Hu, Yunan Wang, Yujie Yang, Shengbo Eben Li(参考訳) 強化学習(rl)エージェントは、タスクのパフォーマンスを低下させ、安全仕様を損なう可能性がある敵の障害に対して脆弱である。 既存の方法は、敵(例えば安全なRL)が存在しないという仮定の下での安全要件に対処するか、パフォーマンスの敵(例えば堅牢なRL)に対する堅牢性にのみ焦点をあてる。 安全かつ堅牢な1つのポリシーを学ぶことは、未解決の問題である。 難しいのは、最悪の場合、実現可能性と最適性という2つの相互に絡み合う側面に取り組む方法です。 最適性は実行可能領域内でのみ有効であり、最大実行可能領域の識別は最適ポリシーの学習に依存する必要がある。 この問題に対処するために,問題定式化,反復計画,収束解析,実用的なアルゴリズム設計など,安全なRLと堅牢なRLを統合するための体系的フレームワークを提案する。 この統一は制約付き2プレイヤーゼロサムマルコフゲームの上に構築される。 タスクポリシと安全ポリシを同時に最適化する2つのポリシーイテレーションスキームが提案されている。 この反復スキームの収束が証明される。 さらに,drac(dually robust actor-critic)と呼ばれる,実用的な実装のための深いrlアルゴリズムを設計する。 安全性クリティカルなベンチマークによる評価では、DRACはすべてのシナリオ(敵、安全敵、パフォーマンス敵)において高いパフォーマンスと永続的な安全性を達成し、すべてのベースラインを著しく上回っている。

Reinforcement learning (RL) agents are vulnerable to adversarial disturbances, which can deteriorate task performance or compromise safety specifications. Existing methods either address safety requirements under the assumption of no adversary (e.g., safe RL) or only focus on robustness against performance adversaries (e.g., robust RL). Learning one policy that is both safe and robust remains a challenging open problem. The difficulty is how to tackle two intertwined aspects in the worst cases: feasibility and optimality. Optimality is only valid inside a feasible region, while identification of maximal feasible region must rely on learning the optimal policy. To address this issue, we propose a systematic framework to unify safe RL and robust RL, including problem formulation, iteration scheme, convergence analysis and practical algorithm design. This unification is built upon constrained two-player zero-sum Markov games. A dual policy iteration scheme is proposed, which simultaneously optimizes a task policy and a safety policy. The convergence of this iteration scheme is proved. Furthermore, we design a deep RL algorithm for practical implementation, called dually robust actor-critic (DRAC). The evaluations with safety-critical benchmarks demonstrate that DRAC achieves high performance and persistent safety under all scenarios (no adversary, safety adversary, performance adversary), outperforming all baselines significantly.
翻訳日:2023-09-14 14:39:33 公開日:2023-09-13
# 二重再生干渉に基づく弱値メトロロジー

Dual-recycled interference-based weak value metrology ( http://arxiv.org/abs/2309.06832v1 )

ライセンス: Link先を確認
Zi-Rui Zhong and Wei-Jun Tan and Yue Chen and Qing-Lin Wu(参考訳) 弱い値増幅は、選択後の権力を犠牲にして、小さな効果を観測可能な変化として測定することを可能にする。 電力リサイクル方式は, 稀な選択後の非効率性を排除し, ショットノイズの限界を越え, 測定精度を向上させることが実証されている。 しかし、改善はシステム設定、特にシステム損失によって厳密に制限されている。 本稿では, 干渉型弱値に基づく偏向計測に基づく2重リサイクルモデルを提案する。 干渉計の明暗ポートにそれぞれパワーリサイクリングミラーと信号リサイクリングミラーの2つのミラーを設置し、複合共振器を形成する。 その結果, 電力と信号対雑音比(snr)は, 電力再循環方式と比較して, 幅広い実験パラメータで大幅に向上した。 この作業はシステム設定の制約を大幅に緩和し、従来のスキームよりも弱い測定の本当の利点を探求する。

Weak-value-amplification permits small effects to be measured as observable changes at the sacrifice of power due to post-selection. The power recycling scheme has been proven to eliminate this inefficiency of the rare post-selection, thus surpassing the limit of the shot noise and improving the precision of the measurement. However, the improvement is strictly limited by the system setup, especially the system loss. Here we introduce a dual recycling model based on the interferometric weak-value-based deflection measurement. Two mirrors, the power-recycling mirror and signal-recycling mirror, are placed at the bright and dark port of the interferometer respectively, creating a composite resonator. The results show that both the power and the signal-to-noise ratio (SNR) are greatly enhanced in a wider range of experimental parameters compared to the power-recycling scheme. This work considerably loosens the constraint of the system setup and further explores the real advantage of weak measurement over traditional schemes.
翻訳日:2023-09-14 14:39:07 公開日:2023-09-13
# UniBrain: 階層的知識強化事前トレーニングによるユニバーサル脳MRI診断

UniBrain: Universal Brain MRI Diagnosis with Hierarchical Knowledge-enhanced Pre-training ( http://arxiv.org/abs/2309.06828v1 )

ライセンス: Link先を確認
Jiayu Lei, Lisong Dai, Haoyun Jiang, Chaoyi Wu, Xiaoman Zhang, Yao Zhang, Jiangchao Yao, Weidi Xie, Yanyong Zhang, Yuehua Li, Ya Zhang, Yanfeng Wang(参考訳) 磁気共鳴イメージング~(MRI)は脳疾患の診断において重要な役割を果たしており、コンピュータ支援人工知能手法が提案されている。 しかし、初期の調査は通常、1つの研究で限られた種類の脳疾患に焦点をあて、小さなスケールでモデルの訓練を行い、一般化のボトルネックをもたらす。 より効果的でスケーラブルなパラダイムを目指して、UniBrainと呼ばれるユニバーサル脳MRI診断のための階層的知識強化事前学習フレームワークを提案する。 特にunibrainは、通常の診断から24,770個の画像レポートペアの大規模なデータセットを活用する。 従来の一元的視覚やテキストの特徴の事前学習技術と異なり、視覚情報と言語情報とのブルートフォースアライメントでは、異なる粒度のレポート情報のユニークな特性を活用して階層的アライメント機構を構築し、特徴学習の効率を高める。 当社のUniBrainは,クラス不均衡の厳しい3つの実世界のデータセットと,パブリックなBraTS2019データセットで検証されています。 常に最先端の診断手法を大差で上回るだけでなく、優れた接地性能を提供するだけでなく、特定の疾患の専門放射線科医に匹敵する性能を示す。

Magnetic resonance imaging~(MRI) have played a crucial role in brain disease diagnosis, with which a range of computer-aided artificial intelligence methods have been proposed. However, the early explorations usually focus on the limited types of brain diseases in one study and train the model on the data in a small scale, yielding the bottleneck of generalization. Towards a more effective and scalable paradigm, we propose a hierarchical knowledge-enhanced pre-training framework for the universal brain MRI diagnosis, termed as UniBrain. Specifically, UniBrain leverages a large-scale dataset of 24,770 imaging-report pairs from routine diagnostics. Different from previous pre-training techniques for the unitary vision or textual feature, or with the brute-force alignment between vision and language information, we leverage the unique characteristic of report information in different granularity to build a hierarchical alignment mechanism, which strengthens the efficiency in feature learning. Our UniBrain is validated on three real world datasets with severe class imbalance and the public BraTS2019 dataset. It not only consistently outperforms all state-of-the-art diagnostic methods by a large margin and provides a superior grounding performance but also shows comparable performance compared to expert radiologists on certain disease types.
翻訳日:2023-09-14 14:38:52 公開日:2023-09-13
# 左利き超格子メタマテリアルへの巨大原子カップリングを用いたqed回路

Circuit QED with a Giant Atom Coupling to Left-handed Superlattice Metamaterials ( http://arxiv.org/abs/2309.06826v1 )

ライセンス: Link先を確認
Zhao-Min Gao, Jia-Qi Li, Zi-Wen Li, Wen-Xiao Liu and Xin Wang(参考訳) 双極子近似が有効ではない巨大原子は、干渉や時間遅延効果から生じる非典型的な量子光学現象を観測することができる。 これまでの研究では、右利き分散を持つ従来の材料に結合する巨大原子について検討している。 本研究では,左利き超格子メタマテリアルと相互作用する巨大原子の量子力学を初めて研究した。 右利きと異なり、左利きの超格子は、異常な分散バンドとブラッグ散乱バンドによって生じる非対称なバンドギャップを示す。 まず、巨大原子が連続分散エネルギー帯と共鳴していると仮定すると、自発的放出は干渉効果によって周期的な増強または抑制を受ける。 共鳴位置では, 群速度の差から生じる, 上層バンドと下層バンドの自発的減衰率に有意な差がある。 第二に、2つの結合点間の干渉によって境界状態が引き起こされるエネルギーバンドの外側のエミッタの周波数を考慮し、巨大原子の非マルコフ動力学を探求する。 解析的手法と数値的手法の両方を用いて、安定な原子集団は、巨大原子の大きさの変化によって周期的に変調されることを示した。 非対称なバンドエッジの存在は、様々な干渉ダイナミクスをもたらす。 最後に、2つの同一のエミッタが導波管に結合し、2つのエミッタ内のエネルギーがラビ振動によって交換されることを示す。

Giant atoms, where the dipole approximation ceases to be valid, allow us to observe unconventional quantum optical phenomena arising from interference and time-delay effects. Most previous studies consider giant atoms coupling to conventional materials with right-handed dispersion. In this study, we first investigate the quantum dynamics of a giant atom interacting with left-handed superlattice metamaterials. Different from those right-handed counterparts, the left-handed superlattices exhibit an asymmetric band gap generated by anomalous dispersive bands and Bragg scattering bands. First, by assuming that the giant atom is in resonance with the continuous dispersive energy band, spontaneous emission will undergo periodic enhancement or suppression due to the interference effect. At the resonant position, there is a significant discrepancy in the spontaneous decay rates between the upper and lower bands, which arises from the differences in group velocity. Second, we explore the non-Markovian dynamics of the giant atom by considering the frequency of the emitter outside the energy band, where bound states will be induced by the interference between two coupling points. By employing both analytical and numerical methods, we demonstrate that the steady atomic population will be periodically modulated, driven by variations in the size of the giant atom. The presence of asymmetric band edges leads to diverse interference dynamics. Finally, we consider the case of two identical emitters coupling to the waveguide and find that the energy within the two emitters undergoes exchange through the mechanism Rabi oscillations.
翻訳日:2023-09-14 14:38:33 公開日:2023-09-13
# 一番上へ:トピック・モデリング・システム・ツールキット

Towards the TopMost: A Topic Modeling System Toolkit ( http://arxiv.org/abs/2309.06908v1 )

ライセンス: Link先を確認
Xiaobao Wu, Fengjun Pan, Anh Tuan Luu(参考訳) トピックモデルは何十年にもわたって様々な用途で提案され、最近はニューラル変動推論によってリフレッシュされた。 しかしながら、これらのトピックモデルは、完全に異なるデータセット、実装、評価設定を採用しており、迅速な利用と公平な比較を妨げる。 これは話題モデルの研究の進展を大いに妨げている。 本稿では,これらの課題に対処するため,トピックモデリングシステムツールキット(TopMost)を提案する。 既存のツールキットと比較して、TopMostは、データセット前処理、モデルトレーニング、テスト、評価を含む完全なライフサイクルを含む幅広いトピックモデリングシナリオをカバーしている。 TopMostの高度に結合的で疎結合なモジュール設計は、様々なトピックモデルの迅速な利用、公正な比較、柔軟な拡張を可能にします。 これによりトピックモデルの研究や応用が容易になる。 私たちのコード、チュートリアル、ドキュメンテーションはhttps://github.com/bobxwu/topmostで閲覧できます。

Topic models have been proposed for decades with various applications and recently refreshed by the neural variational inference. However, these topic models adopt totally distinct dataset, implementation, and evaluation settings, which hinders their quick utilization and fair comparisons. This greatly hinders the research progress of topic models. To address these issues, in this paper we propose a Topic Modeling System Toolkit (TopMost). Compared to existing toolkits, TopMost stands out by covering a wider range of topic modeling scenarios including complete lifecycles with dataset pre-processing, model training, testing, and evaluations. The highly cohesive and decoupled modular design of TopMost enables quick utilization, fair comparisons, and flexible extensions of different topic models. This can facilitate the research and applications of topic models. Our code, tutorials, and documentation are available at https://github.com/bobxwu/topmost.
翻訳日:2023-09-14 14:32:06 公開日:2023-09-13
# 分散シフトを用いた表面符号のパリティ測定

Parity Measurements using Dispersive Shifts for Surface Codes ( http://arxiv.org/abs/2309.06905v1 )

ライセンス: Link先を確認
Aneirin Baker(参考訳) パリティ測定は量子エラー補正(QEC)の中心である。 現在の実装では、多数の制御not(cnot)ゲートを使用して安定化器の測定を行う。 この実装は、CNOTゲートの数が増加するにつれて、フィデリティの指数関数的に減少するので、安定化器の測定もフィデリティの著しく低下し、ゲート時間も増加する。 このプロセスの高速化と忠実性の向上は、これらの安定度測定の誤差率を改善し、論理量子ビットのコヒーレンス時間を増加させる。 分散シフトに基づく安定化再生に有用な単一ショット法を提案する。 本稿では,本手法のセットアップの可能性を示し,従来のcnot回路よりも忠実度とゲートタイムが改善されていることを示す4量子ビットシステムをシミュレートする。 本手法では,99.8%の忠実度と600nsのゲートタイムを求め,高次z相互作用の影響について検討した。

Parity measurements are central to quantum error correction (QEC). In current implementations measurements of stabilizers are performed using a number of Controlled Not (CNOT) gates. This implementation suffers from an exponential decrease in fidelity as the number of CNOT gates increases thus the stabilizer measurements also suffer a severe decrease in fidelity and increase in gate time. Speeding up and improving the fidelity of this process will improve error rates of these stabilizer measurements thus increasing the coherence times of logical qubits. We propose a single shot method useful for stabilizer readout based on dispersive shifts. We show a possible set up for this method and simulate a 4 qubit system showing that this method is an improvement over the previous CNOT circuit in both fidelity and gate time. We find a fidelity of 99.8% and gate time of 600 ns using our method and investigate the effects of higher order Z interactions on the system.
翻訳日:2023-09-14 14:31:52 公開日:2023-09-13
# CCSPNet-Joint:極端条件下での交通シーン検出のための効率的な共同訓練法

CCSPNet-Joint: Efficient Joint Training Method for Traffic Sihn Detection Under Extreme Conditions ( http://arxiv.org/abs/2309.06902v1 )

ライセンス: Link先を確認
Haoqin Hong, Yue Zhou, Xiangyu Shu and Xiangfang Hu(参考訳) 交通標識検出は知的運転における重要な研究方向である。 残念ながら、既存の手法は、霧や雨、動きのぼやけといった極端な状況を見落としていることが多い。 また,画像のデノイジングと物体検出モデルに対するエンドツーエンドのトレーニング戦略では,モデル間情報を有効に活用できない。 これらの問題に対処するために,我々はccspnetを提案する。ccspnetは,トランスフォーマーとcnnに基づく効率的な特徴抽出モジュールであり,文脈情報を有効に活用し,より高速な推論速度を実現し,より強力な機能拡張機能を提供する。 さらに,オブジェクト検出と画像復号化タスクの相関性を確立し,データ効率と一般化を改善するための共同トレーニングモデルCCSPNet-Jointを提案する。 最後に、我々のアプローチを検証するために、極端なシナリオでトラフィックシグネチャ検出のためのCCTSDB-AUGデータセットを作成します。 CCSPNetは、極端な条件下での交通標識検出において、最先端の性能を達成している。 CCSPNet-Jointはエンドツーエンドの手法と比較して精度が5.32%向上し、mAP@.5では18.09%向上した。

Traffic sign detection is an important research direction in intelligent driving. Unfortunately, existing methods often overlook extreme conditions such as fog, rain, and motion blur. Moreover, the end-to-end training strategy for image denoising and object detection models fails to utilize inter-model information effectively. To address these issues, we propose CCSPNet, an efficient feature extraction module based on Transformers and CNNs, which effectively leverages contextual information, achieves faster inference speed and provides stronger feature enhancement capabilities. Furthermore, we establish the correlation between object detection and image denoising tasks and propose a joint training model, CCSPNet-Joint, to improve data efficiency and generalization. Finally, to validate our approach, we create the CCTSDB-AUG dataset for traffic sign detection in extreme scenarios. Extensive experiments have shown that CCSPNet achieves state-of-the-art performance in traffic sign detection under extreme conditions. Compared to end-to-end methods, CCSPNet-Joint achieves a 5.32% improvement in precision and an 18.09% improvement in mAP@.5.
翻訳日:2023-09-14 14:31:36 公開日:2023-09-13
# 教師なしオンライン連続学習のためのドメイン認識強化

Domain-Aware Augmentations for Unsupervised Online General Continual Learning ( http://arxiv.org/abs/2309.06896v1 )

ライセンス: Link先を確認
Nicolas Michel, Romain Negrel, Giovanni Chierchia, Jean-Fran\c{c}ois Bercher(参考訳) 特に、教師なしオンライン総合学習(unsupervised online general continual learning, uogcl)のような教師なしのシナリオを扱う場合、学習エージェントはクラス境界に関する事前知識やタスク変更情報を持たない。 従来の研究では、教師付きセットアップにおける忘れの軽減に焦点が当てられていたが、近年の研究では、自己教師型学習者は忘れの耐性が高いことが示されている。 本稿では,uogclにおけるコントラスト学習のためのメモリ使用量を向上させるための新しい手法を提案する。 提案手法は単純だが有効であり,他の非教師なしの手法と比較し,教師なしと教師なしの連続学習のギャップを小さくする。 ドメイン対応強化手法は他のリプレイ方式にも適用可能であり,継続的な学習に有望な戦略となる。

Continual Learning has been challenging, especially when dealing with unsupervised scenarios such as Unsupervised Online General Continual Learning (UOGCL), where the learning agent has no prior knowledge of class boundaries or task change information. While previous research has focused on reducing forgetting in supervised setups, recent studies have shown that self-supervised learners are more resilient to forgetting. This paper proposes a novel approach that enhances memory usage for contrastive learning in UOGCL by defining and using stream-dependent data augmentations together with some implementation tricks. Our proposed method is simple yet effective, achieves state-of-the-art results compared to other unsupervised approaches in all considered setups, and reduces the gap between supervised and unsupervised continual learning. Our domain-aware augmentation procedure can be adapted to other replay-based methods, making it a promising strategy for continual learning.
翻訳日:2023-09-14 14:31:16 公開日:2023-09-13
# MagiCapture: 高解像度マルチコンセプトポートレートカスタマイズ

MagiCapture: High-Resolution Multi-Concept Portrait Customization ( http://arxiv.org/abs/2309.06895v1 )

ライセンス: Link先を確認
Junha Hyung, Jaeyo Shin, and Jaegul Choo(参考訳) 安定拡散を含む大規模テキスト対画像モデルは、高忠実度フォトリアリスティックなポートレート画像を生成することができる。 これらのモデルをパーソナライズする活動的な研究領域があり、提供された参照画像を用いて特定の主題やスタイルを合成することを目的としている。 しかし、こうしたパーソナライズ手法によるもっともらしい結果にもかかわらず、現実主義に欠け、まだ商業的に実現可能なレベルには達していないイメージをしばしば生成する傾向にある。 これは、人間の顔の不自然なアーチファクトが、人間固有の偏見のために容易に識別できるポートレート画像生成において特に顕著である。 そこで本研究では,被写体とスタイルの概念を統合し,数個の被写体とスタイルの参照を用いて高精細なポートレート画像を生成するパーソナライズ手法であるmagicaptureを提案する。 例えば、一握りのランダムなセルフィーがあれば、われわれの微調整されたモデルは、パスポートやプロフィール写真など、特定のスタイルで高品質なポートレート画像を生成することができる。 このタスクの主な課題は、構成された概念に対する基礎的真理の欠如であり、最終的な出力の品質の低下と、ソースの主題のアイデンティティシフトにつながる。 これらの課題に対処するために,この弱教師付き学習環境内での頑健な学習を促進する補助的事前学習と合わせて,新たな注意再焦点損失を提案する。 私たちのパイプラインには、非常に現実的なアウトプットを作成するための、追加の処理ステップも含まれています。 MagiCaptureは定量評価と定性評価の両方において他のベースラインよりも優れており、他の非人間オブジェクトにも一般化することができる。

Large-scale text-to-image models including Stable Diffusion are capable of generating high-fidelity photorealistic portrait images. There is an active research area dedicated to personalizing these models, aiming to synthesize specific subjects or styles using provided sets of reference images. However, despite the plausible results from these personalization methods, they tend to produce images that often fall short of realism and are not yet on a commercially viable level. This is particularly noticeable in portrait image generation, where any unnatural artifact in human faces is easily discernible due to our inherent human bias. To address this, we introduce MagiCapture, a personalization method for integrating subject and style concepts to generate high-resolution portrait images using just a few subject and style references. For instance, given a handful of random selfies, our fine-tuned model can generate high-quality portrait images in specific styles, such as passport or profile photos. The main challenge with this task is the absence of ground truth for the composed concepts, leading to a reduction in the quality of the final output and an identity shift of the source subject. To address these issues, we present a novel Attention Refocusing loss coupled with auxiliary priors, both of which facilitate robust learning within this weakly supervised learning setting. Our pipeline also includes additional post-processing steps to ensure the creation of highly realistic outputs. MagiCapture outperforms other baselines in both quantitative and qualitative evaluations and can also be generalized to other non-human objects.
翻訳日:2023-09-14 14:30:59 公開日:2023-09-13
# シムプール氏:監督トランスフォーマーは注意の欠如に苦しんでいると誰が言ったか?

Keep It SimPool: Who Said Supervised Transformers Suffer from Attention Deficit? ( http://arxiv.org/abs/2309.06891v1 )

ライセンス: Link先を確認
Bill Psomas, Ioannis Kakogeorgiou, Konstantinos Karantzalos, Yannis Avrithis(参考訳) 畳み込みネットワークと視覚トランスフォーマーは、異なる形式の対向相互作用を持ち、層をまたいでプールし、ネットワークの最後にプールする。 後者は本当に違う必要があるのでしょうか? プールの副産物として、視覚変換器は空間的注意を無料で提供するが、多くの場合、自己監督的でないと品質が低い。 監督は本当に問題なのか? 本研究では,汎用的なプーリングフレームワークを開発し,既存のメソッドをインスタンス化として定式化する。 それぞれのメソッドの性質を議論することで、コンボリューショナルエンコーダとトランスフォーマーエンコーダの両方に対するデフォルト値の置き換えとして、シンプルなアテンションベースのプール機構であるSimPoolを導出する。 監督であれ、自己監督であれ、これは事前トレーニングとダウンストリームタスクのパフォーマンスを改善し、すべてのケースでオブジェクト境界を示す注意マップを提供する。 従って、SimPool Universalと呼ぶことができる。 我々の知る限りでは、我々は少なくとも自己監督と同等の品質の教師付きトランスフォーマーにおいて、明示的な損失やアーキテクチャの変更を伴わずにアテンションマップを入手した最初の人物である。 コード: https://github.com/billpsomas/simpool。

Convolutional networks and vision transformers have different forms of pairwise interactions, pooling across layers and pooling at the end of the network. Does the latter really need to be different? As a by-product of pooling, vision transformers provide spatial attention for free, but this is most often of low quality unless self-supervised, which is not well studied. Is supervision really the problem? In this work, we develop a generic pooling framework and then we formulate a number of existing methods as instantiations. By discussing the properties of each group of methods, we derive SimPool, a simple attention-based pooling mechanism as a replacement of the default one for both convolutional and transformer encoders. We find that, whether supervised or self-supervised, this improves performance on pre-training and downstream tasks and provides attention maps delineating object boundaries in all cases. One could thus call SimPool universal. To our knowledge, we are the first to obtain attention maps in supervised transformers of at least as good quality as self-supervised, without explicit losses or modifying the architecture. Code at: https://github.com/billpsomas/simpool.
翻訳日:2023-09-14 14:30:34 公開日:2023-09-13
# 2023年現在も使えるOWLレゾネーター

OWL Reasoners still useable in 2023 ( http://arxiv.org/abs/2309.06888v1 )

ライセンス: Link先を確認
Konrad Abicht(参考訳) 系統的な文献とソフトウェアレビューにおいて、100以上のOWL推論/システムを分析し、2023年にまだ使えるかどうかを確認した。 この能力では一度も行われていない。 owl reasonersはいまだに知識組織とマネジメントにおいて重要な役割を担っているが、最後の包括的な調査/研究は8年以上前のものだ。 この研究の結果は、95のスタンドアロンOWL推論器とOWL推論器を用いたシステムからなる総合的なリストである。 各項目について、プロジェクトページ、ソースコードリポジトリ、関連ドキュメントに関する情報が収集された。 生の研究データはgithubリポジトリに提供され、誰でも利用できる。

In a systematic literature and software review over 100 OWL reasoners/systems were analyzed to see if they would still be usable in 2023. This has never been done in this capacity. OWL reasoners still play an important role in knowledge organisation and management, but the last comprehensive surveys/studies are more than 8 years old. The result of this work is a comprehensive list of 95 standalone OWL reasoners and systems using an OWL reasoner. For each item, information on project pages, source code repositories and related documentation was gathered. The raw research data is provided in a Github repository for anyone to use.
翻訳日:2023-09-14 14:30:12 公開日:2023-09-13
# オートエンコーダによる欠陥局在と教師なしクラス選択による製造品質管理

Manufacturing Quality Control with Autoencoder-Based Defect Localization and Unsupervised Class Selection ( http://arxiv.org/abs/2309.06884v1 )

ライセンス: Link先を確認
Devang Mehta and Noah Klarmann(参考訳) 製造業は高品質の完成品を効率よく生産する必要がある。 業界 4.0 の文脈では、視覚異常検出は、高い精度で製品品質を自動制御する楽観的な解決策である。 コンピュータビジョンに基づく自動化は、製品の品質チェックポイントのボトルネックを防止するための有望な解決策となります。 視覚的欠陥の局所化を改善するために機械学習の最近の進歩を検討したが、生産ラインで発生する多種多様な欠陥のバランスのとれた特徴セットとデータベースを得る際の課題が続いている。 本稿では,事前学習したVGG-16ネットワークから抽出した特徴をk平均でクラスタリングすることで,教師なしクラス選択による欠陥ローカライズオートエンコーダを提案する。 選択された欠陥のクラスは、人工的な欠陥をシミュレートするために自然の野生のテクスチャで拡張される。 本研究は, 製造産業における欠陥検出を改善するための教師なしクラス選択による欠陥局所化オートエンコーダの有効性を示す。 提案手法は,家具産業用メラミン板の品質欠陥を高精度かつ高精度に同定する有望な結果を示す。 トレーニングデータに人工的な欠陥を組み込むことは、実世界の品質管理シナリオにおける実用的な実装の可能性を示している。

Manufacturing industries require efficient and voluminous production of high-quality finished goods. In the context of Industry 4.0, visual anomaly detection poses an optimistic solution for automatically controlling product quality with high precision. Automation based on computer vision poses a promising solution to prevent bottlenecks at the product quality checkpoint. We considered recent advancements in machine learning to improve visual defect localization, but challenges persist in obtaining a balanced feature set and database of the wide variety of defects occurring in the production line. This paper proposes a defect localizing autoencoder with unsupervised class selection by clustering with k-means the features extracted from a pre-trained VGG-16 network. The selected classes of defects are augmented with natural wild textures to simulate artificial defects. The study demonstrates the effectiveness of the defect localizing autoencoder with unsupervised class selection for improving defect detection in manufacturing industries. The proposed methodology shows promising results with precise and accurate localization of quality defects on melamine-faced boards for the furniture industry. Incorporating artificial defects into the training data shows significant potential for practical implementation in real-world quality control scenarios.
翻訳日:2023-09-14 14:30:03 公開日:2023-09-13
# 2光子干渉サンプリング測定による2光子間の横変位の究極的量子精度の推定

Estimation with ultimate quantum precision of the transverse displacement between two photons via two-photon interference sampling measurements ( http://arxiv.org/abs/2309.06883v1 )

ライセンス: Link先を確認
Danilo Triggiani and Vincenzo Tamma(参考訳) 本研究では,ビームスプリッタに干渉する2つの光子間の横変位を,出力における横運動量サンプリング測定に基づいて推定することで,最終的な量子感度を達成する量子センシング手法を提案する。 このスキームは、回折限界におけるカメラ解像度の標準的な直接イメージングの要求を回避し、高強度の目的を回避し、超解像単分子局在顕微鏡のような高精度なナノスコープ技術に繋がる可能性がある。 興味深いことに、2つの変位したフォトニック波束の重なりに関わらず、自然における最終的な空間精度が達成される。 これにより、空間的に解決された量子干渉と量子増強された空間感度のインターフェースに基づく新しい研究パラダイムが開かれる。

We present a quantum sensing scheme achieving the ultimate quantum sensitivity in the estimation of the transverse displacement between two photons interfering at a balanced beam splitter, based on transverse-momentum sampling measurements at the output. This scheme can possibly lead to enhanced high-precision nanoscopic techniques, such as super-resolved single-molecule localization microscopy with quantum dots, by circumventing the requirements in standard direct imaging of cameras resolution at the diffraction limit, and of highly magnifying objectives. Interestingly, the ultimate spatial precision in nature is achieved irrespectively of the overlap of the two displaced photonic wavepackets. This opens a new research paradigm based on the interface between spatially resolved quantum interference and quantum-enhanced spatial sensitivity.
翻訳日:2023-09-14 14:29:46 公開日:2023-09-13
# ProMap:Eコマースにおけるプロダクトマッピングのためのデータセット

ProMap: Datasets for Product Mapping in E-commerce ( http://arxiv.org/abs/2309.06882v1 )

ライセンス: Link先を確認
Kate\v{r}ina Mackov\'a, Martin Pil\'at(参考訳) プロダクトマッピングの目的は、2つの異なるeショップからの2つのリストが同じ製品を記述するかどうかを決定することだ。 しかし、既存のマッチング製品と非マッチング製品のデータセットは、しばしば不完全な製品情報に悩まされる。 したがって、これらのデータセットでトレーニングされた予測モデルは、良い結果を得る一方で、実際には、非常に類似しているが適合しない製品のペアを区別できないため、使用不可能である。 本稿では,2つの製品マッピング用データセットについて紹介する。promapczは1,495個のチェコ製品対と,promapenは1,555個の英語製品対のマッチング製品と非マッチング製品からなる。 データセットには、仕様を含む製品のイメージとテキスト記述の両方が含まれており、製品マッピングのための最も完全なデータセットの1つである。 さらに、非マッチング製品は2つのフェーズで選択され、近接非マッチングと中間非マッチングの2つのタイプの非マッチングを生み出した。 中間の非マッチングでさえも、他のデータセットの非マッチングと非常によく似たプロダクトのペアです – 例えば、同じブランドと、同じ名前と価格を持つ必要があるのです。 単純なデータ前処理の後、promapデータセットの複雑さと完全性を示すために、これらと他の2つのデータセットでいくつかの機械学習アルゴリズムをトレーニングした。 ProMapデータセットは、既存のデータセットのギャップを埋める製品マッピングのさらなる研究のための黄金の標準として提示される。

The goal of product mapping is to decide, whether two listings from two different e-shops describe the same products. Existing datasets of matching and non-matching pairs of products, however, often suffer from incomplete product information or contain only very distant non-matching products. Therefore, while predictive models trained on these datasets achieve good results on them, in practice, they are unusable as they cannot distinguish very similar but non-matching pairs of products. This paper introduces two new datasets for product mapping: ProMapCz consisting of 1,495 Czech product pairs and ProMapEn consisting of 1,555 English product pairs of matching and non-matching products manually scraped from two pairs of e-shops. The datasets contain both images and textual descriptions of the products, including their specifications, making them one of the most complete datasets for product mapping. Additionally, the non-matching products were selected in two phases, creating two types of non-matches -- close non-matches and medium non-matches. Even the medium non-matches are pairs of products that are much more similar than non-matches in other datasets -- for example, they still need to have the same brand and similar name and price. After simple data preprocessing, several machine learning algorithms were trained on these and two the other datasets to demonstrate the complexity and completeness of ProMap datasets. ProMap datasets are presented as a golden standard for further research of product mapping filling the gaps in existing ones.
翻訳日:2023-09-14 14:29:32 公開日:2023-09-13
# DreamStyler: テキスト-画像拡散モデルによるスタイルインバージョンによるペイント

DreamStyler: Paint by Style Inversion with Text-to-Image Diffusion Models ( http://arxiv.org/abs/2309.06933v1 )

ライセンス: Link先を確認
Namhyuk Ahn, Junsoo Lee, Chunggi Lee, Kunhee Kim, Daesik Kim, Seung-Hun Nam, Kibeom Hong(参考訳) 近年の大規模テキスト・画像モデルの進歩は画期的な成果をもたらし、美術分野における様々な応用を見出した。 しかし、テキストプロンプトだけで作品(筆跡、色調、作曲など)の独特な特徴を表現することは、言語記述の固有の制約のために制限を受ける可能性がある。 そこで我々はDreamStylerを紹介した。DreamStylerは芸術的な画像合成のための新しいフレームワークで、テキスト・画像合成とスタイル転送の両方に長けている。 DreamStylerは、コンテキスト対応のテキストプロンプトで多段階のテキスト埋め込みを最適化する。 さらに、コンテンツとスタイル指導により、dreamstylerは様々なスタイル参照に対応する柔軟性を示す。 実験の結果、複数のシナリオで優れたパフォーマンスを示し、芸術的製品作成に有望な可能性を示唆した。

Recent progresses in large-scale text-to-image models have yielded remarkable accomplishments, finding various applications in art domain. However, expressing unique characteristics of an artwork (e.g. brushwork, colortone, or composition) with text prompts alone may encounter limitations due to the inherent constraints of verbal description. To this end, we introduce DreamStyler, a novel framework designed for artistic image synthesis, proficient in both text-to-image synthesis and style transfer. DreamStyler optimizes a multi-stage textual embedding with a context-aware text prompt, resulting in prominent image quality. In addition, with content and style guidance, DreamStyler exhibits flexibility to accommodate a range of style references. Experimental results demonstrate its superior performance across multiple scenarios, suggesting its promising potential in artistic product creation.
翻訳日:2023-09-14 14:21:50 公開日:2023-09-13
# セマンティックWeb技術を用いた転位ダイナミクスデータのモデリング

Modeling Dislocation Dynamics Data Using Semantic Web Technologies ( http://arxiv.org/abs/2309.06930v1 )

ライセンス: Link先を確認
Ahmad Zainul Ihsan, Said Fathalla, Stefan Sandfeld(参考訳) 材料科学と工学の分野での研究は、材料の設計、合成、特性、性能に焦点を当てている。 広く研究されている重要な材料は、金属や半導体を含む結晶材料である。 結晶材料は通常「転位」と呼ばれる別の種類の欠陥を含む。 この欠陥は強度、破壊靭性、延性など様々な材料特性に大きな影響を与える。 研究者は近年, 実験的キャラクタリゼーション技術やシミュレーション, 例えば転位ダイナミクスシミュレーションなどを通じて転位挙動の解明に多大な努力を重ねている。 本稿では,オントロジーを用いたデータアノテートによるセマンティックウェブ技術を用いて,転位ダイナミクスシミュレーションからのデータモデリングを行う方法を提案する。 既に存在する転位オントロジーを拡張し、欠落する概念を追加し、他の2つのドメイン関連オントロジー(すなわち、基本マルチパースペクティブな材料オントロジーと材料設計オントロジー)と整合させることにより、転位シミュレーションデータを効率的に表現できる。 さらに,それらの関係を説明する知識グラフ(dislockg)として離散的転位ダイナミクスデータを表現することにより,実世界のユースケースを示す。 また、DisLocKGのクエリに広範な柔軟性を提供するSPARQLエンドポイントも開発しました。

Research in the field of Materials Science and Engineering focuses on the design, synthesis, properties, and performance of materials. An important class of materials that is widely investigated are crystalline materials, including metals and semiconductors. Crystalline material typically contains a distinct type of defect called "dislocation". This defect significantly affects various material properties, including strength, fracture toughness, and ductility. Researchers have devoted a significant effort in recent years to understanding dislocation behavior through experimental characterization techniques and simulations, e.g., dislocation dynamics simulations. This paper presents how data from dislocation dynamics simulations can be modeled using semantic web technologies through annotating data with ontologies. We extend the already existing Dislocation Ontology by adding missing concepts and aligning it with two other domain-related ontologies (i.e., the Elementary Multi-perspective Material Ontology and the Materials Design Ontology) allowing for representing the dislocation simulation data efficiently. Moreover, we show a real-world use case by representing the discrete dislocation dynamics data as a knowledge graph (DisLocKG) that illustrates the relationship between them. We also developed a SPARQL endpoint that brings extensive flexibility to query DisLocKG.
翻訳日:2023-09-14 14:21:34 公開日:2023-09-13
# 対話感情検出のための動的因果解離モデル

Dynamic Causal Disentanglement Model for Dialogue Emotion Detection ( http://arxiv.org/abs/2309.06928v1 )

ライセンス: Link先を確認
Yuting Su, Yichen Wei, Weizhi Nie, Sicheng Zhao, Anan Liu(参考訳) 感情検出は様々な分野で広く使われている重要な技術である。 既存の感情検出手法にはコモンセンス知識の組み入れが有用であることが証明されているが、対話型感情検出は、人事による多くの困難や困難に遭遇し、対話内容の変動が生じる。 しかし、しばしば暗黙的に表現される。 そこで本稿では,隠れ変数の分離を基盤として,隠れ変数分離に基づく動的因果不等角化モデルを提案する。 このモデルは、対話の内容を有効に分解し、感情の時間的蓄積を調査し、より正確な感情認識を可能にする。 まず,隠れた感情情報と他の観察要素との相関性を確立するために,新しい因果有向非循環グラフ(dag)を提案する。 その後,非関係変数を分離することを目的として,抽出済みの個人属性と発話話題を隠れ変数の分布の誘導要因として利用する。 具体的には,発話と隠れ変数の伝搬を推定し,会話全体を通して感情関連情報の蓄積を可能にする動的時間的ゆがみモデルを提案する。 そこで我々は,ChatGPT-4.0 と LSTM ネットワークを利用して発話トピックと個人属性を観測情報として抽出し,対話感情検出における2つの一般的なデータセットに対するアプローチを検証し,モデルの優位性を検証した。

Emotion detection is a critical technology extensively employed in diverse fields. While the incorporation of commonsense knowledge has proven beneficial for existing emotion detection methods, dialogue-based emotion detection encounters numerous difficulties and challenges due to human agency and the variability of dialogue content.In dialogues, human emotions tend to accumulate in bursts. However, they are often implicitly expressed. This implies that many genuine emotions remain concealed within a plethora of unrelated words and dialogues.In this paper, we propose a Dynamic Causal Disentanglement Model based on hidden variable separation, which is founded on the separation of hidden variables. This model effectively decomposes the content of dialogues and investigates the temporal accumulation of emotions, thereby enabling more precise emotion recognition. First, we introduce a novel Causal Directed Acyclic Graph (DAG) to establish the correlation between hidden emotional information and other observed elements. Subsequently, our approach utilizes pre-extracted personal attributes and utterance topics as guiding factors for the distribution of hidden variables, aiming to separate irrelevant ones. Specifically, we propose a dynamic temporal disentanglement model to infer the propagation of utterances and hidden variables, enabling the accumulation of emotion-related information throughout the conversation. To guide this disentanglement process, we leverage the ChatGPT-4.0 and LSTM networks to extract utterance topics and personal attributes as observed information.Finally, we test our approach on two popular datasets in dialogue emotion detection and relevant experimental results verified the model's superiority.
翻訳日:2023-09-14 14:21:13 公開日:2023-09-13
# OMOD: OpenStreetMapに基づいた非集約型モビリティ需要を作成するオープンソースツール

OMOD: An open-source tool for creating disaggregated mobility demand based on OpenStreetMap ( http://arxiv.org/abs/2309.06927v1 )

ライセンス: Link先を確認
Leo Strobel, Marco Pruckner(参考訳) 本稿では,オープンソースのアクティビティベースのモビリティ要求生成ツールであるopenstreetmap mobility demand generator (omod)について紹介する。 OMODは、エージェントの集団を作り、各エージェントが行う予定の行動、場所、およびどれくらいの期間を記述した詳細な日々の活動スケジュールを作成する。 出力の時間的側面は完全に分離され、空間的側面は個々の建物のレベルに与えられる。 他の既存のモデルとは対照的に、OMODは無償でオープンソースで公開されており、アウト・オブ・ザ・ボックスで動作し、地球上のどのリージョンにも適用可能である。 OMODでは、非専門家が現実的なモビリティ需要を創出しやすく、輸送研究、エネルギーシステムモデリング、通信システム研究などに利用することができる。 OMODはデータ駆動方式を用いて、家庭旅行調査データと調整された移動需要を生成する。 本稿は,OMODの建築を概説し,人口20万人から250万人までの3都市を対象としたモデルを検証した。

In this paper, we introduce the OpenStreetMap Mobility Demand Generator (OMOD), a new open-source activity-based mobility demand generation tool. OMOD creates a population of agents and detailed daily activity schedules that state what activities each agent plans to conduct, where, and for how long. The temporal aspect of the output is wholly disaggregated, while the spatial aspect is given on the level of individual buildings. In contrast to other existing models, OMOD is freely available, open-source, works out-of-the-box, can be applied to any region on earth, and only requires freely available OpenStreetMap (OSM) data from the user. With OMOD, it is easy for non-experts to create realistic mobility demand, which can be used in transportation studies, energy system modeling, communications system research, et cetera. OMOD uses a data-driven approach to generate mobility demand that has been calibrated with household travel survey data. This paper describes OMOD's architecture and validates the model for three cities ranging from 200,000 to 2.5 million inhabitants.
翻訳日:2023-09-14 14:20:48 公開日:2023-09-13
# コントラスト-Phys+:時空間コントラストによる教師なし・弱教師付き遠隔生理計測

Contrast-Phys+: Unsupervised and Weakly-supervised Video-based Remote Physiological Measurement via Spatiotemporal Contrast ( http://arxiv.org/abs/2309.06924v1 )

ライセンス: Link先を確認
Zhaodong Sun and Xiaobai Li(参考訳) ビデオベースの遠隔生理計測は、顔の映像を利用して血液量変化信号を測定する。 rPPG測定の監視手法は優れた性能を発揮することが示されている。 しかし、これらの手法の欠点は、しばしばコストがかかり入手が困難である、地上の真実(GT)生理学的信号を持つ顔ビデオを必要とすることである。 本稿では,教師なし設定と弱い教師なし設定の両方で訓練できる方法であるcon contrast-phys+を提案する。 我々は3DCNNモデルを用いて、複数の時空間rPPG信号を生成し、rPPGの事前知識を対照的な損失関数に組み込む。 さらに、GT信号をコントラスト学習に組み込んで、部分的または不正なラベルに適応させる。 対照的な損失は、同じビデオからのrPPG/GT信号をグループ化し、異なるビデオからそれらを分離させる。 RGBおよび近赤外ビデオを含む5つの公開データセットに対して,本手法の評価を行った。 コントラスト-Phys+は、部分的に利用可能または不一致のGT信号を使用する場合やラベルが全くない場合でも、最先端の教師付き手法よりも優れている。 さらに,計算効率,雑音頑健性,一般化の観点から,本手法の利点を強調した。

Video-based remote physiological measurement utilizes facial videos to measure the blood volume change signal, which is also called remote photoplethysmography (rPPG). Supervised methods for rPPG measurements have been shown to achieve good performance. However, the drawback of these methods is that they require facial videos with ground truth (GT) physiological signals, which are often costly and difficult to obtain. In this paper, we propose Contrast-Phys+, a method that can be trained in both unsupervised and weakly-supervised settings. We employ a 3DCNN model to generate multiple spatiotemporal rPPG signals and incorporate prior knowledge of rPPG into a contrastive loss function. We further incorporate the GT signals into contrastive learning to adapt to partial or misaligned labels. The contrastive loss encourages rPPG/GT signals from the same video to be grouped together, while pushing those from different videos apart. We evaluate our methods on five publicly available datasets that include both RGB and Near-infrared videos. Contrast-Phys+ outperforms the state-of-the-art supervised methods, even when using partially available or misaligned GT signals, or no labels at all. Additionally, we highlight the advantages of our methods in terms of computational efficiency, noise robustness, and generalization.
翻訳日:2023-09-14 14:20:27 公開日:2023-09-13
# 大きな鳥の埋め込みによるネイティブ言語識別

Native Language Identification with Big Bird Embeddings ( http://arxiv.org/abs/2309.06923v1 )

ライセンス: Link先を確認
Sergey Kramp, Giovanni Cassani, Chris Emmery(参考訳) ネイティブ言語識別(NLI)は、著者の母国語を他の言語での表記に基づいて分類することを目的としている。 歴史的に、このタスクは時間を要する言語的特徴工学に大きく依存しており、トランスフォーマーベースのNLIモデルは今のところ、効果的で実用的な代替手段を提供していない。 現在の研究は、入力サイズが制限要因であるかどうかを調べ、Big Birdの埋め込みを使って訓練された分類器が、Reddit-L2データセットの大きなマージンで言語機能エンジニアリングモデルより優れていることを示す。 さらに,入力長依存性のさらなる洞察を提供し,一貫したサンプル外性能を示し,埋め込み空間を質的に解析する。 本手法の有効性と計算効率を考えると,今後のNLI研究に期待できる道のりを提供すると信じている。

Native Language Identification (NLI) intends to classify an author's native language based on their writing in another language. Historically, the task has heavily relied on time-consuming linguistic feature engineering, and transformer-based NLI models have thus far failed to offer effective, practical alternatives. The current work investigates if input size is a limiting factor, and shows that classifiers trained using Big Bird embeddings outperform linguistic feature engineering models by a large margin on the Reddit-L2 dataset. Additionally, we provide further insight into input length dependencies, show consistent out-of-sample performance, and qualitatively analyze the embedding space. Given the effectiveness and computational efficiency of this method, we believe it offers a promising avenue for future NLI work.
翻訳日:2023-09-14 14:20:03 公開日:2023-09-13
# Hydra:パラメータ効率的な微調整のためのマルチヘッド低ランク適応

Hydra: Multi-head Low-rank Adaptation for Parameter Efficient Fine-tuning ( http://arxiv.org/abs/2309.06922v1 )

ライセンス: Link先を確認
Sanghyeon Kim, Hyunmo Yang, Younghyun Kim, Youngjoon Hong, and Eunbyung Park(参考訳) 最近の大規模基礎モデルの増加は、これらのモデルを様々な下流タスクに適応させるための効率的な手法の開発を促した。 LoRAのような低ランク適応法は、パラメータ効率が優れており、追加の推論遅延がないために注目されている。 本稿では,並列適応分岐と逐次適応分岐がファインチューニング中にそれぞれ新しい特徴と一般的な特徴を学習する解析に基づいて,より一般的なアダプタモジュールについて検討する。 提案手法はHydraという名前で,並列分岐とシーケンシャル分岐を組み合わせることで,既存の単一分岐法よりも表現力が高く,微調整プロセスにおける幅広い最適点の探索を可能にする。 さらに,提案手法では,事前学習した特徴を線形に組み合わせることで,事前学習した重みを明示的に活用する。 これにより、学習した機能は、さまざまな下流タスク間でより良い一般化性能を得ることができる。 さらに,各適応分岐の特性を実証的証拠を用いて包括的に解析する。 比較とアブレーションの研究を包含する幅広い実験を通じて,その効率を実証し,hydraの優れた性能を示す。 この総合的な評価は、さまざまなアプリケーションにおけるhydraの潜在的影響と有効性の基礎となる。 私たちのコードは \url{https://github.com/extremebird/Hydra} で利用可能です。

The recent surge in large-scale foundation models has spurred the development of efficient methods for adapting these models to various downstream tasks. Low-rank adaptation methods, such as LoRA, have gained significant attention due to their outstanding parameter efficiency and no additional inference latency. This paper investigates a more general form of adapter module based on the analysis that parallel and sequential adaptation branches learn novel and general features during fine-tuning, respectively. The proposed method, named Hydra, due to its multi-head computational branches, combines parallel and sequential branch to integrate capabilities, which is more expressive than existing single branch methods and enables the exploration of a broader range of optimal points in the fine-tuning process. In addition, the proposed adaptation method explicitly leverages the pre-trained weights by performing a linear combination of the pre-trained features. It allows the learned features to have better generalization performance across diverse downstream tasks. Furthermore, we perform a comprehensive analysis of the characteristics of each adaptation branch with empirical evidence. Through an extensive range of experiments, encompassing comparisons and ablation studies, we substantiate the efficiency and demonstrate the superior performance of Hydra. This comprehensive evaluation underscores the potential impact and effectiveness of Hydra in a variety of applications. Our code is available on \url{https://github.com/extremebird/Hydra}
翻訳日:2023-09-14 14:19:49 公開日:2023-09-13
# 政策勾配アルゴリズムにおける行動表現の影響の検討

Investigating the Impact of Action Representations in Policy Gradient Algorithms ( http://arxiv.org/abs/2309.06921v1 )

ライセンス: Link先を確認
Jan Schneider, Pierre Schumacher, Daniel H\"aufle, Bernhard Sch\"olkopf, Dieter B\"uchler(参考訳) Reinforcement Learning~(RL)は、複雑な現実世界のタスクを学習するための汎用的なフレームワークである。 しかし、RLアルゴリズムの学習性能への影響は、実際にはほとんど理解されていないことが多い。 本稿では,RLにおける行動表現の影響について検討し,その効果を評価する。 実験により,アクション表現がRLベンチマークタスクの学習性能に大きな影響を及ぼすことを示した。 分析結果から,最適化環境の複雑さの変化が性能の差異の原因となる可能性が示唆された。 最後に,rlアルゴリズムの解析技術の課題について述べる。

Reinforcement learning~(RL) is a versatile framework for learning to solve complex real-world tasks. However, influences on the learning performance of RL algorithms are often poorly understood in practice. We discuss different analysis techniques and assess their effectiveness for investigating the impact of action representations in RL. Our experiments demonstrate that the action representation can significantly influence the learning performance on popular RL benchmark tasks. The analysis results indicate that some of the performance differences can be attributed to changes in the complexity of the optimization landscape. Finally, we discuss open challenges of analysis techniques for RL algorithms.
翻訳日:2023-09-14 14:19:30 公開日:2023-09-13
# ディリクレ生成型リハーサルによる連続学習

Continual Learning with Dirichlet Generative-based Rehearsal ( http://arxiv.org/abs/2309.06917v1 )

ライセンス: Link先を確認
Min Zeng, Wei Xue, Qifeng Liu, Yike Guo(参考訳) データ駆動型タスク指向対話システム(ToD)の最近の進歩は、計算制約や時間的問題による漸進的な学習に苦慮している。 継続学習(CL)は、集中的な事前学習を避けることでこれを解決しようとするが、破滅的な忘れ(CF)の問題に直面している。 生成的リハーサルCL法は大きな進歩を遂げているが、基礎となるタスク固有の分布を正確に反映した擬似サンプルを生成することは依然として課題である。 本稿では,clのための新しい生成型リハーサル戦略であるdirichlet continual learning (dcl)を提案する。 条件変分オートエンコーダ(CVAE)の従来のガウス潜時変数とは異なり、DCLはディリクレ分布の柔軟性と汎用性を活用して潜時潜時変数をモデル化する。 これにより、前のタスクの文レベルの特徴を効率的にキャプチャし、擬似サンプルの生成を効果的に導くことができる。 また,疑似サンプル生成時の知識伝達を促進するロジットベースの知識蒸留法であるjensen-shannon knowledge distillation (jskd)を提案する。 本研究は,本手法の有効性を実証し,本手法の有効性を確認した。

Recent advancements in data-driven task-oriented dialogue systems (ToDs) struggle with incremental learning due to computational constraints and time-consuming issues. Continual Learning (CL) attempts to solve this by avoiding intensive pre-training, but it faces the problem of catastrophic forgetting (CF). While generative-based rehearsal CL methods have made significant strides, generating pseudo samples that accurately reflect the underlying task-specific distribution is still a challenge. In this paper, we present Dirichlet Continual Learning (DCL), a novel generative-based rehearsal strategy for CL. Unlike the traditionally used Gaussian latent variable in the Conditional Variational Autoencoder (CVAE), DCL leverages the flexibility and versatility of the Dirichlet distribution to model the latent prior variable. This enables it to efficiently capture sentence-level features of previous tasks and effectively guide the generation of pseudo samples. In addition, we introduce Jensen-Shannon Knowledge Distillation (JSKD), a robust logit-based knowledge distillation method that enhances knowledge transfer during pseudo sample generation. Our experiments confirm the efficacy of our approach in both intent detection and slot-filling tasks, outperforming state-of-the-art methods.
翻訳日:2023-09-14 14:19:22 公開日:2023-09-13
# モード多重化深部光物質結合

Mode-multiplexing deep-strong light-matter coupling ( http://arxiv.org/abs/2309.06915v1 )

ライセンス: Link先を確認
J. Mornhinweg (1 and 2), L. Diebel (1), M. Halbhuber (1), M. Prager (1), J. Riepl (1), T. Inzenhofer (1), D. Bougeard (1), R. Huber (1), and C. Lange (2) ((1) Department of Physics, University of Regensburg, Germany, (2) Department of Physics, TU Dortmund University, Germany)(参考訳) 仮想光子による物質の量子状態の進行は、真空場修飾輸送から分極化学までエキゾチックな効果を生じさせ、光と物質モードの強いゆがみや絡みを引き起こす可能性がある。 空洞量子電磁力学の確立されたパラダイムは、共振光-物質相互作用に注目し、真空ラビ周波数と光のキャリア周波数の比として定義される結合強度$\omega_\mathrm{r}/\omega_\mathrm{c}$を最大化する。 しかし、単一の電子励起の有限振動子強度は、自然限界を$\omega_\mathrm{r}/\omega_\mathrm{c}$とする。 ここでは,超共鳴磁気プラズモンモードの多重双極子モーメントを利用した記録-光-物質相互作用の新たな機構を示す。 このマルチモードカップリングは、6オクターブの光にまたがる20以上のポーラリトン、電子および光モードの1つの仮想励起量子を超える真空基底状態、および$\omega_\mathrm{r}/\omega_\mathrm{c}=3.19$に相当する記録結合強度を生成する。 極端な相互作用は、強磁場物理学に当てはまらない高次非線形性に似た複数のボゾンモード間の真空エネルギーの強いサブサイクル交換を駆動し、共振器モードの真空ゆらぎによってのみ直交電子励起を絡める。 これにより、誘電体環境を形作るだけで、非相互作用モードを結合することで相転移を調整できる。

Dressing quantum states of matter with virtual photons can create exotic effects ranging from vacuum-field modified transport to polaritonic chemistry, and may drive strong squeezing or entanglement of light and matter modes. The established paradigm of cavity quantum electrodynamics focuses on resonant light-matter interaction to maximize the coupling strength $\Omega_\mathrm{R}/\omega_\mathrm{c}$, defined as the ratio of the vacuum Rabi frequency and the carrier frequency of light. Yet, the finite oscillator strength of a single electronic excitation sets a natural limit to $\Omega_\mathrm{R}/\omega_\mathrm{c}$. Here, we demonstrate a new regime of record-strong light-matter interaction which exploits the cooperative dipole moments of multiple, highly non-resonant magnetoplasmon modes specifically tailored by our metasurface. This multi-mode coupling creates an ultrabroadband spectrum of over 20 polaritons spanning 6 optical octaves, vacuum ground state populations exceeding 1 virtual excitation quantum for electronic and optical modes, and record coupling strengths equivalent to $\Omega_\mathrm{R}/\omega_\mathrm{c}=3.19$. The extreme interaction drives strongly subcycle exchange of vacuum energy between multiple bosonic modes akin to high-order nonlinearities otherwise reserved to strong-field physics, and entangles previously orthogonal electronic excitations solely via vacuum fluctuations of the common cavity mode. This offers avenues towards tailoring phase transitions by coupling otherwise non-interacting modes, merely by shaping the dielectric environment.
翻訳日:2023-09-14 14:19:00 公開日:2023-09-13
# 量子非局所性:デニゲーションからノーベル賞まで、量子暗号による

Quantum non-locality: from denigration to the Nobel prize, via quantum cryptography ( http://arxiv.org/abs/2309.06962v1 )

ライセンス: Link先を確認
Nicolas Gisin(参考訳) 1960年代後半、若い物理学者がカリフォルニアの海岸に沿ってバークレーに向かい、天文学のポストドックの地位を得た。 しかし、彼の本当の目標は天文学ではなく、少なくともすぐにではない。 まず、ジョン・クリューザーは、ジュネーヴ近郊の有名なCERNで働いていたアイルランドの物理学者ジョン・スチュワート・ベル(英語版)の最近でほとんど無視された結果とは相反する量子理論の予測を熱心にテストした。

In the late 1960s, a young physicist was sailing along the coast of California towards Berkeley, where he got a post-doc position in astronomy. But his real goal was not astronomy, at least not immediately. First, John Clauser eagerly wanted to test some predictions of quantum theory that were at odds with a then recent and mostly ignored result by an Irish physicist John Stewart Bell, working at the celebrated CERN near Geneva.
翻訳日:2023-09-14 14:12:58 公開日:2023-09-13
# 信頼性のある皮膚科評価ベンチマークに向けて

Towards Reliable Dermatology Evaluation Benchmarks ( http://arxiv.org/abs/2309.06961v1 )

ライセンス: Link先を確認
Fabian Gr\"oger, Simone Lionetti, Philippe Gottfrois, Alvaro Gonzalez-Jimenez, Matthew Groh, Roxana Daneshjou, Labelling Consortium, Alexander A. Navarini, Marc Pouly(参考訳) デジタル皮膚学のベンチマークデータセットには、モデルパフォーマンス推定の信頼性を低下させる不正確性が含まれている。 我々は,以前のキュレーションから逃れた問題を特定するために,資源効率の良いデータクリーニングプロトコルを提案する。 このプロトコルは既存のアルゴリズムクリーニング戦略を利用しており、直感的な停止基準によって終了する確認プロセスが続く。 複数の皮膚科医による確認に基づき,本研究は無関係なサンプルとほぼ重複を除去し,国際皮膚画像コラボレーションによるモデル評価のための6つの皮膚画像データセットにおけるラベル誤差の割合を推定する。 本稿では,モデル評価に使用すべきデータセット毎のファイルリストを改訂して公開する。 我々の研究は、デジタル皮膚科におけるより信頼できるパフォーマンス評価の道を開いた。

Benchmark datasets for digital dermatology unwittingly contain inaccuracies that reduce trust in model performance estimates. We propose a resource-efficient data cleaning protocol to identify issues that escaped previous curation. The protocol leverages an existing algorithmic cleaning strategy and is followed by a confirmation process terminated by an intuitive stopping criterion. Based on confirmation by multiple dermatologists, we remove irrelevant samples and near duplicates and estimate the percentage of label errors in six dermatology image datasets for model evaluation promoted by the International Skin Imaging Collaboration. Along with this paper, we publish revised file lists for each dataset which should be used for model evaluation. Our work paves the way for more trustworthy performance assessment in digital dermatology.
翻訳日:2023-09-14 14:12:46 公開日:2023-09-13
# PhantomSound: 分割音素注入によるブラックボックス、クエリ効率の良いオーディオアドバイザリアタック

PhantomSound: Black-Box, Query-Efficient Audio Adversarial Attack via Split-Second Phoneme Injection ( http://arxiv.org/abs/2309.06960v1 )

ライセンス: Link先を確認
Hanqing Guo, Guangjing Wang, Yuanda Wang, Bocheng Chen, Qiben Yan, Li Xiao(参考訳) 本稿では,音声アシスタントに対するクエリ効率の高いブラックボックス攻撃であるPhantomSoundを提案する。 音声アシスタントに対する既存のブラックボックスの対向攻撃は、置換モデルを適用するか、中間モデル出力を利用して対向音声サンプルを作成するための勾配を推定する。 しかし、これらの攻撃アプローチは、長いトレーニング段階を持つ大量のクエリを必要とする。 phantomsoundは、決定に基づく攻撃を利用して効果的な逆オーディオを生成し、勾配推定を最適化することでクエリの数を減らす。 実験では,実世界の3つのシナリオの下で,4つの異なる音声対テキストAPIに対する攻撃を行い,リアルタイム攻撃の影響を実証した。 その結果,phantomsoundは5種類の商用音声制御デバイスに対して実用的で堅牢であり,95%以上の成功率で3つのライブネス検出機構をバイパスできることがわかった。 ベンチマークの結果、phantomsoundは逆の例を生成し、数分で攻撃を開始することができる。 我々は,現在最先端のブラックボックス攻撃と比較して,クエリ効率を大幅に向上させ,未ターゲット攻撃と目標攻撃のコストを93.1%と65.5%削減し,それぞれ300クエリ(~5分)と1,500クエリ(~25分)で比較した。

In this paper, we propose PhantomSound, a query-efficient black-box attack toward voice assistants. Existing black-box adversarial attacks on voice assistants either apply substitution models or leverage the intermediate model output to estimate the gradients for crafting adversarial audio samples. However, these attack approaches require a significant amount of queries with a lengthy training stage. PhantomSound leverages the decision-based attack to produce effective adversarial audios, and reduces the number of queries by optimizing the gradient estimation. In the experiments, we perform our attack against 4 different speech-to-text APIs under 3 real-world scenarios to demonstrate the real-time attack impact. The results show that PhantomSound is practical and robust in attacking 5 popular commercial voice controllable devices over the air, and is able to bypass 3 liveness detection mechanisms with >95% success rate. The benchmark result shows that PhantomSound can generate adversarial examples and launch the attack in a few minutes. We significantly enhance the query efficiency and reduce the cost of a successful untargeted and targeted adversarial attack by 93.1% and 65.5% compared with the state-of-the-art black-box attacks, using merely ~300 queries (~5 minutes) and ~1,500 queries (~25 minutes), respectively.
翻訳日:2023-09-14 14:12:35 公開日:2023-09-13
# RCA血管造影のニューラルネットワークによる冠優位分類

Neural network-based coronary dominance classification of RCA angiograms ( http://arxiv.org/abs/2309.06958v1 )

ライセンス: Link先を確認
Ivan Kruzhilov, Egor Ikryannikov, Artem Shadrin, Ruslan Utegenov, Galina Zubkova, Ivan Bessonov(参考訳) 背景。 冠状動脈疾患の複雑度を判定し,患者の選択を最適な再血管化戦略へ導くツールであるSynTAXスコア推定には,心臓優位性分類が不可欠である。 目的。 ニューラルネットワークを用いた右冠動脈造影法(RCA)を用いた心臓優位分類アルゴリズム 2次元画像(フレーム)分類に畳み込みニューラルネットワークconvnextとswin transformerを用い,心血管造影図の分類に多数票を投じた。 補助ネットワークは、データセットから除外された無関係な画像を検出するためにも使われた。 対象は血管造影検査828例で,そのうち192例が左半身の症例であった。 結果だ 5倍クロス検証では、支配的分類指標(p=95%):マクロリコール=93.1%、精度=93.5%、マクロf1=89.2%。 モデルが定期的に失敗する最も一般的なケースは、LCA情報の利用を必要とするため、RCA閉塞であった。 誤診のもう一つの原因は、細径と品質の悪い心血管造影所見の併用である。 このような場合、心臓支配分類は複雑であり、正確な結論に達するには専門家の間で議論が必要である。 結論だ RCAのみに基づく心臓支配を分類するための機械学習アプローチの使用は、良好な精度で成功している。 しかし、より高精度には、閉鎖されたRCAの場合のLCA情報を利用し、不確実性が高い場合を検出する必要がある。

Background. Cardiac dominance classification is essential for SYNTAX score estimation, which is a tool used to determine the complexity of coronary artery disease and guide patient selection toward optimal revascularization strategy. Objectives. Cardiac dominance classification algorithm based on the analysis of right coronary artery (RCA) angiograms using neural network Method. We employed convolutional neural network ConvNext and Swin transformer for 2D image (frames) classification, along with a majority vote for cardio angiographic view classification. An auxiliary network was also used to detect irrelevant images which were then excluded from the data set. Our data set consisted of 828 angiographic studies, 192 of them being patients with left dominance. Results. 5-fold cross validation gave the following dominance classification metrics (p=95%): macro recall=93.1%, accuracy=93.5%, macro F1=89.2%. The most common case in which the model regularly failed was RCA occlusion, as it requires utilization of LCA information. Another cause for false prediction is a small diameter combined with poor quality cardio angiographic view. In such cases, cardiac dominance classification can be complex and may require discussion among specialists to reach an accurate conclusion. Conclusion. The use of machine learning approaches to classify cardiac dominance based on RCA alone has been shown to be successful with satisfactory accuracy. However, for higher accuracy, it is necessary to utilize LCA information in the case of an occluded RCA and detect cases where there is high uncertainty.
翻訳日:2023-09-14 14:12:12 公開日:2023-09-13
# DNAベースのデータストレージのためのインプシット・ニューラル多重記述法

Implicit Neural Multiple Description for DNA-based data storage ( http://arxiv.org/abs/2309.06956v1 )

ライセンス: Link先を確認
Trung Hieu Le, Xavier Pic, Jeremy Mateos and Marc Antonini(参考訳) DNAは、その顕著な貯蔵密度と、その固有の生体分子構造から生じる長期的な安定性のために、データ保存ソリューションとして大きな可能性を秘めている。 しかし、この新しい媒体の開発には、ストレージや生物学的操作から生じるエラーに対処するという、独自の課題が伴う。 これらの課題は、DNA配列の構造的制約とコスト考慮によってさらに条件付けられている。 これらの制約に対応するため、我々は、DNAデータ記憶にニューラルネットワークを利用する新しい圧縮スキームと最先端の多重記述符号化(MDC)技術を開発した。 我々のMDC法はDNAにデータをエンコードする革新的な手法を導入している。 特に,新しい圧縮方式は,DNAデータ記憶のための古典的な画像圧縮手法を上回ります。 さらに,本手法はオートエンコーダに依存した従来のMDC法よりも優れていることを示す。 その特筆すべき強みは、広範なモデルトレーニングの必要性を回避できる能力と、微調整冗長性レベルへの適応性の向上にある。 実験の結果,提案手法は現場における最新のDNAデータ保存手法と良好に競合し,優れた圧縮速度と頑健な耐雑音性を提供することが示された。

DNA exhibits remarkable potential as a data storage solution due to its impressive storage density and long-term stability, stemming from its inherent biomolecular structure. However, developing this novel medium comes with its own set of challenges, particularly in addressing errors arising from storage and biological manipulations. These challenges are further conditioned by the structural constraints of DNA sequences and cost considerations. In response to these limitations, we have pioneered a novel compression scheme and a cutting-edge Multiple Description Coding (MDC) technique utilizing neural networks for DNA data storage. Our MDC method introduces an innovative approach to encoding data into DNA, specifically designed to withstand errors effectively. Notably, our new compression scheme overperforms classic image compression methods for DNA-data storage. Furthermore, our approach exhibits superiority over conventional MDC methods reliant on auto-encoders. Its distinctive strengths lie in its ability to bypass the need for extensive model training and its enhanced adaptability for fine-tuning redundancy levels. Experimental results demonstrate that our solution competes favorably with the latest DNA data storage methods in the field, offering superior compression rates and robust noise resilience.
翻訳日:2023-09-14 14:11:46 公開日:2023-09-13
# TransNet:人間行動認識のためのトランスファーラーニングベースネットワーク

TransNet: A Transfer Learning-Based Network for Human Action Recognition ( http://arxiv.org/abs/2309.06951v1 )

ライセンス: Link先を確認
K. Alomar, X. Cai(参考訳) HAR(Human Action Recognition)は、コンピュータビジョンにおいて、ユビキタスな応用のために、ハイレベルかつ重要な研究領域である。 現在のHARモデルの主な制限は、その複雑な構造と長いトレーニング時間である。 本稿では,harのための簡易かつ汎用的で効率的なエンドツーエンドのディープラーニングアーキテクチャであるtransnetを提案する。 TransNetは複雑な3D-CNNを2D-と1D-CNNに分解し、2D-と1D-CNNコンポーネントはそれぞれビデオの空間的特徴と時間的パターンを抽出する。 簡潔なアーキテクチャから恩恵を受け、TransNetは他の分野の訓練済みの2D-CNNモデルと理想的に互換性があり、HARタスクのために転送される。 言い換えれば、HARの転送学習の能力と成功を自然に活用し、効率性と効率性において大きな利点をもたらす。 大規模実験結果と最先端モデルとの比較により,HARにおけるTransNetの柔軟性,モデルの複雑性,トレーニング速度,分類精度の点で優れた性能を示した。

Human action recognition (HAR) is a high-level and significant research area in computer vision due to its ubiquitous applications. The main limitations of the current HAR models are their complex structures and lengthy training time. In this paper, we propose a simple yet versatile and effective end-to-end deep learning architecture, coined as TransNet, for HAR. TransNet decomposes the complex 3D-CNNs into 2D- and 1D-CNNs, where the 2D- and 1D-CNN components extract spatial features and temporal patterns in videos, respectively. Benefiting from its concise architecture, TransNet is ideally compatible with any pretrained state-of-the-art 2D-CNN models in other fields, being transferred to serve the HAR task. In other words, it naturally leverages the power and success of transfer learning for HAR, bringing huge advantages in terms of efficiency and effectiveness. Extensive experimental results and the comparison with the state-of-the-art models demonstrate the superior performance of the proposed TransNet in HAR in terms of flexibility, model complexity, training speed and classification accuracy.
翻訳日:2023-09-14 14:11:28 公開日:2023-09-13
# 合成データを用いたDeep End-to-End Learningによる有限角トモグラフィ再構成

Limited-Angle Tomography Reconstruction via Deep End-To-End Learning on Synthetic Data ( http://arxiv.org/abs/2309.06948v1 )

ライセンス: Link先を確認
Thomas Germer, Jan Robine, Sebastian Konietzny, Stefan Harmeling, Tobias Uelwer(参考訳) CT(Computed tomography)は現代科学や医学において欠かせない部分となっている。 CTスキャナは、対象物の周りにスピンするX線源で構成される。 X線源の反対側では、検出器が物体に吸収されないX線を捕捉する。 画像の再構成は線形逆問題であり、通常はフィルタバックプロジェクションによって解決される。 しかし, 測定回数が少ない場合には, 再現性に問題がある。 これは例えば、x線源が物体の周囲に完全にスピンしていない場合ではなく、限られた角度からのみ照射する場合である。 この問題に対処するために,多量の精巧な合成データに基づいて訓練を行い,30{\deg}または40{\deg}シンノグラムのみであっても限られた角度トモグラフィ再構成が可能な深層ニューラルネットワークを提案する。 このアプローチによって、私たちは2022年のヘルシンキ・トモグラフィ・チャレンジで優勝しました。

Computed tomography (CT) has become an essential part of modern science and medicine. A CT scanner consists of an X-ray source that is spun around an object of interest. On the opposite end of the X-ray source, a detector captures X-rays that are not absorbed by the object. The reconstruction of an image is a linear inverse problem, which is usually solved by filtered back projection. However, when the number of measurements is small, the reconstruction problem is ill-posed. This is for example the case when the X-ray source is not spun completely around the object, but rather irradiates the object only from a limited angle. To tackle this problem, we present a deep neural network that is trained on a large amount of carefully-crafted synthetic data and can perform limited-angle tomography reconstruction even for only 30{\deg} or 40{\deg} sinograms. With our approach we won the first place in the Helsinki Tomography Challenge 2022.
翻訳日:2023-09-14 14:11:07 公開日:2023-09-13
# ランダム林の変動選択に及ぼすハイパーパラメータの影響

Effect of hyperparameters on variable selection in random forests ( http://arxiv.org/abs/2309.06943v1 )

ライセンス: Link先を確認
Cesaire J. K. Fouodo, Lea L. Kronziel, Inke R. K\"onig, Silke Szymczak(参考訳) ランダムフォレスト (rfs) は高次元オミクス研究における予測モデリングや変数選択に適している。 RFアルゴリズムのハイパーパラメータが予測性能および変数重要度推定に与える影響を以前検討した。 しかし、ハイパーパラメータがRFベースの変数選択にどのように影響するかは未定である。 理論的分布と経験的遺伝子発現データを用いた2つのシミュレーション研究に基づいて, Vita および Boruta 変数選択法の効果を評価する。 疑似発見率(FDR)を制御しながら重要な変数(感度)を選択する手順の能力を評価する。 以上の結果から,トレーニングデータセットの分割候補変数(mtry.prop)とサンプル分数(sample.fraction)の比率が,トレーニングデータセットの描画戦略や最小終端ノードサイズよりも選択手順に影響を及ぼすことが示された。 RFハイパーパラメータの適切な設定は、データの相関構造に依存する。 弱相関予測変数では、mtryのデフォルト値が最適であるが、サンプルの値が小さいと感度が高くなる。 対照的に、最適値の感度とサンプルのデフォルト値との差は、強く相関した予測変数では無視できるが、デフォルト値よりも小さい値の方が他の設定で優れている。 結論として、ハイパーパラメータのデフォルト値は必ずしも重要な変数を特定するのに適しているとは限らない。 したがって,本研究の目的が予測性能の最適化か変数選択かによって,適切な値が異なる。

Random forests (RFs) are well suited for prediction modeling and variable selection in high-dimensional omics studies. The effect of hyperparameters of the RF algorithm on prediction performance and variable importance estimation have previously been investigated. However, how hyperparameters impact RF-based variable selection remains unclear. We evaluate the effects on the Vita and the Boruta variable selection procedures based on two simulation studies utilizing theoretical distributions and empirical gene expression data. We assess the ability of the procedures to select important variables (sensitivity) while controlling the false discovery rate (FDR). Our results show that the proportion of splitting candidate variables (mtry.prop) and the sample fraction (sample.fraction) for the training dataset influence the selection procedures more than the drawing strategy of the training datasets and the minimal terminal node size. A suitable setting of the RF hyperparameters depends on the correlation structure in the data. For weakly correlated predictor variables, the default value of mtry is optimal, but smaller values of sample.fraction result in larger sensitivity. In contrast, the difference in sensitivity of the optimal compared to the default value of sample.fraction is negligible for strongly correlated predictor variables, whereas smaller values than the default are better in the other settings. In conclusion, the default values of the hyperparameters will not always be suitable for identifying important variables. Thus, adequate values differ depending on whether the aim of the study is optimizing prediction performance or variable selection.
翻訳日:2023-09-14 14:10:52 公開日:2023-09-13
# DEFormer:低照度画像と暗視のためのDCT駆動強化トランス

DEFormer: DCT-driven Enhancement Transformer for Low-light Image and Dark Vision ( http://arxiv.org/abs/2309.06941v1 )

ライセンス: Link先を確認
Xiangchen Yin, Zhenda Yu, Xin Gao, Ran Ju, Xiao Sun, Xinyu Zhang(参考訳) 低照度画像強調の目標は、画像の色と詳細を復元することであり、自律運転における高レベル視覚タスクにおいて非常に重要である。 しかし,rgbドメインのみに依存して暗黒領域の失われた詳細を復元することは困難である。 本稿では,ネットワークに新たな手がかりとして周波数を導入し,新しいDCT駆動拡張トランス (DEFormer) を提案する。 まず、DCT処理と曲率に基づく周波数強調(CFE)を含む周波数拡張のための学習可能な周波数分岐(LFB)を提案する。 CFEは、各チャネルの曲率を計算し、異なる周波数帯域の細部を表現し、より豊かなテクスチャを持つ周波数帯域に焦点を当てた周波数特徴を分割する。 さらに,RGB領域と周波数領域の差を低減するために,クロスドメイン融合(CDF)を提案する。 また,デフォーマをダーク検出の前処理として採用し,デフォーマは検出器の性能を効果的に向上させ,マップ上のexdarkとdark faceデータセットをそれぞれ2.1%,3.4%改善した。

The goal of low-light image enhancement is to restore the color and details of the image and is of great significance for high-level visual tasks in autonomous driving. However, it is difficult to restore the lost details in the dark area by relying only on the RGB domain. In this paper we introduce frequency as a new clue into the network and propose a novel DCT-driven enhancement transformer (DEFormer). First, we propose a learnable frequency branch (LFB) for frequency enhancement contains DCT processing and curvature-based frequency enhancement (CFE). CFE calculates the curvature of each channel to represent the detail richness of different frequency bands, then we divides the frequency features, which focuses on frequency bands with richer textures. In addition, we propose a cross domain fusion (CDF) for reducing the differences between the RGB domain and the frequency domain. We also adopt DEFormer as a preprocessing in dark detection, DEFormer effectively improves the performance of the detector, bringing 2.1% and 3.4% improvement in ExDark and DARK FACE datasets on mAP respectively.
翻訳日:2023-09-14 14:10:28 公開日:2023-09-13
# コレクションレス人工知能

Collectionless Artificial Intelligence ( http://arxiv.org/abs/2309.06938v1 )

ライセンス: Link先を確認
Marco Gori and Stefano Melacci(参考訳) 大規模なデータ収集の専門的取り扱いは、機械学習の進展と関連する分野におけるその顕著な成果の基本的な要素であり、そのようなデータ収集の中央集権化に伴うリスクに関する合意がますます高まっている。 本論文は,機械が環境相互作用を中心とした真に人間的な文脈で認知スキルを征服する新たな学習プロトコルを考える上で,その時が来たことを示すものである。 これは、環境から取得したデータは、その環境の現在の内部表現を更新するのに寄与する目的で処理され、エージェントは時間の流れを記録する特権を与えられないという、コレクションレス原則に従って学習プロトコルに特有の制限を伴っている。 基本的には、センサーからの時間的情報を格納する許可がないため、オフライン学習アルゴリズムに典型的な学習ダイナミクスをシミュレートするために、ベアストレージに頼るのではなく、より抽象的なレベルで自己組織化された記憶スキルの開発を促進する。 この極端な位置は、人間ベースのスキームに従うことによって情報を動的に整理することを学ぶ機械の開発を刺激することを目的としている。 この課題の提案は、設計によるデータの蓄積を避け、プライバシー問題、制御性、カスタマイズ性により適したフレームワークを提供する、AIテクノロジの真正統な競争軌道への扉を開くかもしれない学習と推論の計算プロセスに関する新しい基盤を開発することを示唆している。 最後に、大規模な分散計算を推し進める中で、AIに対する無数のアプローチは、企業や政府におけるパワーの集中を減らし、地政学的な問題に直面するだろう。

By and large, the professional handling of huge data collections is regarded as a fundamental ingredient of the progress of machine learning and of its spectacular results in related disciplines, with a growing agreement on risks connected to the centralization of such data collections. This paper sustains the position that the time has come for thinking of new learning protocols where machines conquer cognitive skills in a truly human-like context centered on environmental interactions. This comes with specific restrictions on the learning protocol according to the collectionless principle, which states that, at each time instant, data acquired from the environment is processed with the purpose of contributing to update the current internal representation of the environment, and that the agent is not given the privilege of recording the temporal stream. Basically, there is neither permission to store the temporal information coming from the sensors, thus promoting the development of self-organized memorization skills at a more abstract level, instead of relying on bare storage to simulate learning dynamics that are typical of offline learning algorithms. This purposely extreme position is intended to stimulate the development of machines that learn to dynamically organize the information by following human-based schemes. The proposition of this challenge suggests developing new foundations on computational processes of learning and reasoning that might open the doors to a truly orthogonal competitive track on AI technologies that avoid data accumulation by design, thus offering a framework which is better suited concerning privacy issues, control and customizability. Finally, pushing towards massively distributed computation, the collectionless approach to AI will likely reduce the concentration of power in companies and governments, thus better facing geopolitical issues.
翻訳日:2023-09-14 14:10:07 公開日:2023-09-13
# 画像記述を用いたALS患者の認知スコアのリモート推定

Remote Inference of Cognitive Scores in ALS Patients Using a Picture Description ( http://arxiv.org/abs/2309.06989v1 )

ライセンス: Link先を確認
Carla Agurto, Guillermo Cecchi, Bo Wen, Ernest Fraenkel, James Berry, Indu Navar, Raquel Norel(参考訳) 筋萎縮性側索硬化症(amyotrophic lateral sclerosis)は、運動、言語、呼吸だけでなく認知にも影響を及ぼす致命的な疾患である。 近年の研究では,ALS検出のための言語解析技術と,機能的進行の監視のための推論尺度が注目されている。 本稿では,ALS人口の35~50%に影響を及ぼす認知障害という,別の重要な側面に注目した。 モビリティの制限が頻発するALS人口に到達するために,我々はEdinburgh Cognitive and Behavioral ALS Screen (ECAS) のデジタル版を初めて実装した。 認知障害を測定するために設計されたこのテストは、EverythALS Speech Studyの56人の参加者が遠隔で実施した。 研究の一環として、参加者(alsと非als)は、自宅のコンピューターに複雑なシーンが表示された多数の画像のプールから毎週1枚の写真を記述するよう求められた。 本研究は,ECAS検査施行日から60日以内に行われた記述を分析し,異なる言語的特徴と音響的特徴を抽出した。 それらの特徴を線形回帰モデルに入力し、5つのECASサブスコアと合計スコアを推定する。 画像記述からの音声サンプルはECASサブスコアを予測するのに十分信頼性が高く、10倍のクロスバリデーションを用いてモデルの性能に対して統計的に有意なスピアマン相関値を0.32から0.51とする。

Amyotrophic lateral sclerosis is a fatal disease that not only affects movement, speech, and breath but also cognition. Recent studies have focused on the use of language analysis techniques to detect ALS and infer scales for monitoring functional progression. In this paper, we focused on another important aspect, cognitive impairment, which affects 35-50% of the ALS population. In an effort to reach the ALS population, which frequently exhibits mobility limitations, we implemented the digital version of the Edinburgh Cognitive and Behavioral ALS Screen (ECAS) test for the first time. This test which is designed to measure cognitive impairment was remotely performed by 56 participants from the EverythingALS Speech Study. As part of the study, participants (ALS and non-ALS) were asked to describe weekly one picture from a pool of many pictures with complex scenes displayed on their computer at home. We analyze the descriptions performed within +/- 60 days from the day the ECAS test was administered and extract different types of linguistic and acoustic features. We input those features into linear regression models to infer 5 ECAS sub-scores and the total score. Speech samples from the picture description are reliable enough to predict the ECAS subs-scores, achieving statistically significant Spearman correlation values between 0.32 and 0.51 for the model's performance using 10-fold cross-validation.
翻訳日:2023-09-14 14:02:47 公開日:2023-09-13
# 一般化ゼロショット学習のための適応型原型コントラスト埋め込み

Instance Adaptive Prototypical Contrastive Embedding for Generalized Zero Shot Learning ( http://arxiv.org/abs/2309.06987v1 )

ライセンス: Link先を確認
Riti Paul, Sahil Vora and Baoxin Li(参考訳) 一般化されたゼロショット学習(gzsl)は、目に見えないラベルと見えないラベルからサンプルを分類することを目的としている。 gzslの最近の進歩は、生成ネットワークにコントラスト学習ベース(インスタンスベース)を組み込んだり、データポイント間のセマンティクス関係を活用している。 しかし, 既存の埋め込みアーキテクチャには, 1) 微細なクラスタ構造を考慮せずに, 合成特徴の埋め込みの識別可能性の制限, (2) 既存のコントラッシブな埋め込みネットワーク上でのスケーリング機構の制限による非フレキシブルな最適化, という2つの制限がある。 組込み空間における表現の質を高めるため,(1) で述べたように,プロトタイプデータ(クラスタの品質向上)と暗黙のデータデータ(きめ細かな表現)の相互作用の利点を享受し,組込みネットワークとジェネレータに実質的なクラスタ管理を提供しながら,マージンベースのプロトタイプ型コントラスト学習埋め込みネットワークを提案する。 2) に対処するために,クラス間マージンが増大する未確認ラベルの一般化表現につながる適応型コントラスト損失を提案する。 総合的な実験評価により,本手法は3つのベンチマークデータセットにおいて最先端の手法より優れていることを示す。 また,本手法は,GZSL設定において,目立たない最高の性能を実現する。

Generalized zero-shot learning(GZSL) aims to classify samples from seen and unseen labels, assuming unseen labels are not accessible during training. Recent advancements in GZSL have been expedited by incorporating contrastive-learning-based (instance-based) embedding in generative networks and leveraging the semantic relationship between data points. However, existing embedding architectures suffer from two limitations: (1) limited discriminability of synthetic features' embedding without considering fine-grained cluster structures; (2) inflexible optimization due to restricted scaling mechanisms on existing contrastive embedding networks, leading to overlapped representations in the embedding space. To enhance the quality of representations in the embedding space, as mentioned in (1), we propose a margin-based prototypical contrastive learning embedding network that reaps the benefits of prototype-data (cluster quality enhancement) and implicit data-data (fine-grained representations) interaction while providing substantial cluster supervision to the embedding network and the generator. To tackle (2), we propose an instance adaptive contrastive loss that leads to generalized representations for unseen labels with increased inter-class margin. Through comprehensive experimental evaluation, we show that our method can outperform the current state-of-the-art on three benchmark datasets. Our approach also consistently achieves the best unseen performance in the GZSL setting.
翻訳日:2023-09-14 14:02:22 公開日:2023-09-13
# 注意:合成データに対する大規模精度行列推定

CARE: Large Precision Matrix Estimation for Compositional Data ( http://arxiv.org/abs/2309.06985v1 )

ライセンス: Link先を確認
Shucong Zhang, Huiyuan Wang, Wei Lin(参考訳) 高次元合成データは、多くのアプリケーションで広く使われている。 単純な制約は、大きな精度行列によって符号化された構成を構成する成分間の条件依存関係を推測する固有の課題を生じさせる。 本稿では, 合成精度行列の正確な仕様を導入し, 適切な空間性仮定の下で, 漸近的に同定可能であることを示す。 この接続を利用して、スパース基底精度行列を推定する合成適応正規化推定法(CARE)を提案する。 我々は,推定器の収束率を導出し,データ駆動パラメータチューニングとサポート回復に関する理論的保証を提供する。 筆者らの理論は,識別と推定の間の興味深いトレードオフを明らかにし,構成データ解析における次元性の祝福を強調する。 特に、十分な高次元において、CARE推定器は極小極小の最適性を達成し、基礎が観測された場合と同様に機能する。 さらに、ゼロをサンプリングするなど、ゼロを含むデータを扱うために我々のフレームワークをどのように拡張できるかについても論じる。 従来の方法に対するCAREの利点はシミュレーション研究とヒト腸内の微生物生態ネットワーク推定への応用によって説明される。

High-dimensional compositional data are prevalent in many applications. The simplex constraint poses intrinsic challenges to inferring the conditional dependence relationships among the components forming a composition, as encoded by a large precision matrix. We introduce a precise specification of the compositional precision matrix and relate it to its basis counterpart, which is shown to be asymptotically identifiable under suitable sparsity assumptions. By exploiting this connection, we propose a composition adaptive regularized estimation (CARE) method for estimating the sparse basis precision matrix. We derive rates of convergence for the estimator and provide theoretical guarantees on support recovery and data-driven parameter tuning. Our theory reveals an intriguing trade-off between identification and estimation, thereby highlighting the blessing of dimensionality in compositional data analysis. In particular, in sufficiently high dimensions, the CARE estimator achieves minimax optimality and performs as well as if the basis were observed. We further discuss how our framework can be extended to handle data containing zeros, including sampling zeros and structural zeros. The advantages of CARE over existing methods are illustrated by simulation studies and an application to inferring microbial ecological networks in the human gut.
翻訳日:2023-09-14 14:01:52 公開日:2023-09-13
# ab initio輸送計算:通常電流から超伝導電流へ

Ab initio transport calculations: from normal to superconducting current ( http://arxiv.org/abs/2309.06984v1 )

ライセンス: Link先を確認
H. Ness and M. van Schilfgaarde(参考訳) ボゴリューボフ・デ・ジェンヌ方程式を密度汎関数理論に適用すると、超伝導/常磁性三層膜における電流相関係の第一原理記述を定式化することができる。 このような構造は、磁気抵抗性ランダムアクセスメモリデバイス(jmram)の超伝導アナログの基礎である。 最近の論文[1]では、Nb/Ni/Nb三層膜に適用した、そのような理論を定式化するための最初の試みの結果を提示した。 本研究では, 線形マフィン・スズ軌道(LMTO)の枠組みにおいて, 鍵成分(散乱行列$S_N$)をどう構成するかを説明する。

Applying the Bogoliubov-de Gennes equations with density-functional theory, it is possible to formulate first-principles description of current-phase relationships in superconducting/normal (magnetic)/superconducting trilayers. Such structures are the basis for the superconducting analog of Magnetoresistive random access memory devices (JMRAM). In a recent paper [1] we presented results from the first attempt to formulate such a theory, applied to the Nb/Ni/Nb trilayers. In the present work we provide computational details, explaining how to construct key ingredient (scattering matrices $S_N$) in a framework of linear muffin-tin orbitals (LMTO).
翻訳日:2023-09-14 14:01:36 公開日:2023-09-13
# MASTERKEY: 話者認証システムに対する実践的なバックドア攻撃

MASTERKEY: Practical Backdoor Attack Against Speaker Verification Systems ( http://arxiv.org/abs/2309.06981v1 )

ライセンス: Link先を確認
Hanqing Guo, Xun Chen, Junfeng Guo, Li Xiao, Qiben Yan(参考訳) 話者認証 (SV) は, 音声特性を用いて正統なユーザを認証するために, モバイルシステムに広く展開されている。 本稿では,svモデルに妥協するためのバックドア攻撃マスタキーを提案する。 以前の攻撃と異なり、攻撃者が意図した被害者の知識を持たない現実的な現実的な状況に焦点を当てる。 MASTERKEYを設計するために,既存の標的に対する毒殺の限界について検討する。 そして、任意のターゲットを攻撃できるユニバーサルバックドアを最適化する。 次に、話者の特徴と意味情報をバックドアに埋め込む。 最後に,チャネル歪みを推定し,バックドアに統合する。 6種類のSVモデルに対する攻撃を検証する。 具体的には、53モデルに登録された310個のターゲット話者からなる16,430個の登録話者を攻撃するために、合計53モデルに毒を盛った。 我々の攻撃は15%の毒で100%の攻撃成功率を達成した。 毒性率を3%に下げることで、攻撃成功率はおよそ50%に留まる。 実世界の3つのシナリオで攻撃を検証し,電話と無線の両方のシナリオで攻撃の実証に成功した。

Speaker Verification (SV) is widely deployed in mobile systems to authenticate legitimate users by using their voice traits. In this work, we propose a backdoor attack MASTERKEY, to compromise the SV models. Different from previous attacks, we focus on a real-world practical setting where the attacker possesses no knowledge of the intended victim. To design MASTERKEY, we investigate the limitation of existing poisoning attacks against unseen targets. Then, we optimize a universal backdoor that is capable of attacking arbitrary targets. Next, we embed the speaker's characteristics and semantics information into the backdoor, making it imperceptible. Finally, we estimate the channel distortion and integrate it into the backdoor. We validate our attack on 6 popular SV models. Specifically, we poison a total of 53 models and use our trigger to attack 16,430 enrolled speakers, composed of 310 target speakers enrolled in 53 poisoned models. Our attack achieves 100% attack success rate with a 15% poison rate. By decreasing the poison rate to 3%, the attack success rate remains around 50%. We validate our attack in 3 real-world scenarios and successfully demonstrate the attack through both over-the-air and over-the-telephony-line scenarios.
翻訳日:2023-09-14 14:01:24 公開日:2023-09-13
# 自己回帰型次世代予測は普遍学習者である

Auto-Regressive Next-Token Predictors are Universal Learners ( http://arxiv.org/abs/2309.06979v1 )

ライセンス: Link先を確認
Eran Malach(参考訳) 大きな言語モデルは論理的および数学的推論において顕著な能力を示し、複雑なタスクを解決できる。 興味深いことに、これらの能力は次の予測の単純なタスクで訓練されたネットワークに現れる。 本研究では,自動回帰型次世代予測器の理論的枠組みを提案する。 チェイン・オブ・ソート(CoT)データに基づいて訓練された線形次トーケン予測器のような単純なモデルでさえ、チューリングマシンによって効率的に計算される任意の関数を近似できることを示した。 対象関数を近似するために必要なCoTシーケンスの中間トークン数を測定し、長さ複雑性と他の複雑性の概念との相互作用を分析する。 最後に,線形ネットワークや浅層多層パーセプトロン (mlps) などの単純な次分岐予測器が,テキスト生成や演算タスクにおいて非自明な性能を示すことを実験的に示す。 この結果から, 言語モデルのパワーは, 自己回帰型次世代学習方式に大きく寄与し, 必ずしも特定のアーキテクチャの選択に寄与するものではないことがわかった。

Large language models display remarkable capabilities in logical and mathematical reasoning, allowing them to solve complex tasks. Interestingly, these abilities emerge in networks trained on the simple task of next-token prediction. In this work, we present a theoretical framework for studying auto-regressive next-token predictors. We demonstrate that even simple models such as linear next-token predictors, trained on Chain-of-Thought (CoT) data, can approximate any function efficiently computed by a Turing machine. We introduce a new complexity measure -- length complexity -- which measures the number of intermediate tokens in a CoT sequence required to approximate some target function, and analyze the interplay between length complexity and other notions of complexity. Finally, we show experimentally that simple next-token predictors, such as linear networks and shallow Multi-Layer Perceptrons (MLPs), display non-trivial performance on text generation and arithmetic tasks. Our results demonstrate that the power of language models can be attributed, to a great extent, to the auto-regressive next-token training scheme, and not necessarily to a particular choice of architecture.
翻訳日:2023-09-14 14:01:05 公開日:2023-09-13
# JPEGの差別化:悪魔は細部にある

Differentiable JPEG: The Devil is in the Details ( http://arxiv.org/abs/2309.06978v1 )

ライセンス: Link先を確認
Christoph Reich, Biplob Debnath, Deep Patel, Srimat Chakradhar(参考訳) jpegは最も広く普及している画像符号化方法の1つである。 しかしながら、jpegの非微分性は、ディープラーニングパイプラインのアプリケーションを制限する。 JPEGのいくつかの異なる近似がこの問題に対処するために最近提案されている。 本稿では既存の差分を包括的に検討する。 JPEGは従来の方法で見逃された重要な詳細にアプローチし、識別する。 この目的のために、我々は新しい差分を提案する。 JPEGアプローチは、以前の制限を克服する。 我々のアプローチは、入力画像、jpeg品質、量子化テーブル、色変換パラメータを微分可能なw.r.tである。 我々は差分の前方および後方のパフォーマンスを評価する。 既存のメソッドに対するJPEGアプローチ。 さらに、重要な設計選択を評価するために広範なアブレーションが行われる。 我々の提案した差分。 JPEGは(非差分)参照実装に最も似ており、近年の差分をはるかに上回っている。 平均$3.47$dB (PSNR) のアプローチ。 強い圧縮率では、PSNRも9.51ドルdB改善できる。 強い敵攻撃の結果は差分によって得られる。 JPEGは、効果的な勾配近似を示す。 私たちのコードはhttps://github.com/necla-ml/Diff-JPEGで公開されています。

JPEG remains one of the most widespread lossy image coding methods. However, the non-differentiable nature of JPEG restricts the application in deep learning pipelines. Several differentiable approximations of JPEG have recently been proposed to address this issue. This paper conducts a comprehensive review of existing diff. JPEG approaches and identifies critical details that have been missed by previous methods. To this end, we propose a novel diff. JPEG approach, overcoming previous limitations. Our approach is differentiable w.r.t. the input image, the JPEG quality, the quantization tables, and the color conversion parameters. We evaluate the forward and backward performance of our diff. JPEG approach against existing methods. Additionally, extensive ablations are performed to evaluate crucial design choices. Our proposed diff. JPEG resembles the (non-diff.) reference implementation best, significantly surpassing the recent-best diff. approach by $3.47$dB (PSNR) on average. For strong compression rates, we can even improve PSNR by $9.51$dB. Strong adversarial attack results are yielded by our diff. JPEG, demonstrating the effective gradient approximation. Our code is available at https://github.com/necla-ml/Diff-JPEG.
翻訳日:2023-09-14 14:00:35 公開日:2023-09-13
# グラフニューラルネットワークを用いたパラメータ化量子回路の予測可能性

Predicting Expressibility of Parameterized Quantum Circuits using Graph Neural Network ( http://arxiv.org/abs/2309.06975v1 )

ライセンス: Link先を確認
Shamminuj Aktar, Andreas B\"artschi, Abdel-Hameed A. Badawy, Diane Oyen, Stephan Eidenbenz(参考訳) 量子化量子回路(PQC)は、量子機械学習と最適化アルゴリズムに不可欠である。 幅広い量子状態を表現する能力を測定するPQCの表現性は、量子問題を解く上での有効性に影響を与える重要な要因である。 しかし、既存の表現可能性の計算手法は、多くのサンプルを必要とする古典的なシミュレーションを通して統計的に推定することに依存している。 本研究では,PQCの表現性を予測するためのグラフニューラルネットワーク(GNN)に基づく新しい手法を提案する。 グラフに基づくPQC表現を活用することで、GNNベースのモデルは、回路パラメータと結果の表現性の間の複雑な関係をキャプチャする。 我々は、GNNモデルを、その表現可能性値に注釈を付けたPQCの包括的データセットに基づいて訓練する。 4 万個のランダム PQC データセットと IBM Qiskit のハードウェア効率の良いアンサッツセットの実験的評価は, それぞれ 0.03 と 0.06 のルート平均二乗誤差(RMSE)を達成し, 提案手法の優れた性能を示す。

Parameterized Quantum Circuits (PQCs) are essential to quantum machine learning and optimization algorithms. The expressibility of PQCs, which measures their ability to represent a wide range of quantum states, is a critical factor influencing their efficacy in solving quantum problems. However, the existing technique for computing expressibility relies on statistically estimating it through classical simulations, which requires many samples. In this work, we propose a novel method based on Graph Neural Networks (GNNs) for predicting the expressibility of PQCs. By leveraging the graph-based representation of PQCs, our GNN-based model captures intricate relationships between circuit parameters and their resulting expressibility. We train the GNN model on a comprehensive dataset of PQCs annotated with their expressibility values. Experimental evaluation on a four thousand random PQC dataset and IBM Qiskit's hardware efficient ansatz sets demonstrates the superior performance of our approach, achieving a root mean square error (RMSE) of 0.03 and 0.06, respectively.
翻訳日:2023-09-14 14:00:21 公開日:2023-09-13
# DNNShifter:エッジコンピューティングのための効率的なDNNプルーニングシステム

DNNShifter: An Efficient DNN Pruning System for Edge Computing ( http://arxiv.org/abs/2309.06973v1 )

ライセンス: Link先を確認
Bailey J. Eccles, Philip Rodgers, Peter Kilpatrick, Ivor Spence, Blesson Varghese(参考訳) ディープニューラルネットワーク(DNN)は多くの機械学習アプリケーションを支える。 生産品質のDNNモデルは、膨大なリソースフットプリントを持つ数百万のDNNパラメータをトレーニングすることで、高い推論精度を達成する。 これは、計算資源やメモリ資源が限られているモバイルや組み込みデバイスなど、ネットワークの極端で運用するリソースに対する課題である。 これに対処するため、モデルはプルーニングされ、これらのデバイスに対してより軽量でより適切なバリエーションが作成される。 既存のプルーニング手法では、大幅な時間コストとオーバーヘッドを伴わず、未処理のプルーニングモデルと同じような品質のモデルを提供できない。 我々の研究は、原モデルの精度を維持しながら、適切なモデル変種を迅速に導き出す。 システムとネットワークの条件が変更されてワークロードの要求に合わせると、モデル変種は迅速に交換できる。 本稿では,DNNShifter,DNNトレーニング,空間プルーニング,モデル切替システムについて述べる。 DNNShifterの中心となるのは、構造化プルーニングを使ってスパースモデルを作成する新しい方法論である。 dnnshifterが生成するprunedモデル変種は、サイズが小さく、密度の高いモデルよりも高速で、エッジでの推論に適しており、元の高密度モデルとほぼ同様の精度を維持している。 DNNShifterは、運用条件に応じて迅速に交換可能なモデル変種ポートフォリオを生成する。 DNNShifterは、従来の訓練方法の最大93倍の速度でプルーニングモデルを生成する。 スパースモデルと比較して、プルーンドモデルの変種は最大5.14倍小さく、1.67倍の推論遅延速度を持ち、スパースモデルの精度に妥協はない。 さらに、DNNShifterはスイッチングモデルのオーバーヘッドを最大1.9倍、既存のアプローチよりも最大3.8倍も低い。

Deep neural networks (DNNs) underpin many machine learning applications. Production quality DNN models achieve high inference accuracy by training millions of DNN parameters which has a significant resource footprint. This presents a challenge for resources operating at the extreme edge of the network, such as mobile and embedded devices that have limited computational and memory resources. To address this, models are pruned to create lightweight, more suitable variants for these devices. Existing pruning methods are unable to provide similar quality models compared to their unpruned counterparts without significant time costs and overheads or are limited to offline use cases. Our work rapidly derives suitable model variants while maintaining the accuracy of the original model. The model variants can be swapped quickly when system and network conditions change to match workload demand. This paper presents DNNShifter, an end-to-end DNN training, spatial pruning, and model switching system that addresses the challenges mentioned above. At the heart of DNNShifter is a novel methodology that prunes sparse models using structured pruning. The pruned model variants generated by DNNShifter are smaller in size and thus faster than dense and sparse model predecessors, making them suitable for inference at the edge while retaining near similar accuracy as of the original dense model. DNNShifter generates a portfolio of model variants that can be swiftly interchanged depending on operational conditions. DNNShifter produces pruned model variants up to 93x faster than conventional training methods. Compared to sparse models, the pruned model variants are up to 5.14x smaller and have a 1.67x inference latency speedup, with no compromise to sparse model accuracy. In addition, DNNShifter has up to 11.9x lower overhead for switching models and up to 3.8x lower memory utilisation than existing approaches.
翻訳日:2023-09-14 13:59:42 公開日:2023-09-13
# 正しい期待を設定する: アルゴリズムによる時間経過

Setting the Right Expectations: Algorithmic Recourse Over Time ( http://arxiv.org/abs/2309.06969v1 )

ライセンス: Link先を確認
Joao Fonseca, Andrew Bell, Carlo Abrate, Francesco Bonchi, Julia Stoyanovich(参考訳) アルゴリズムシステムは、しばしば高い意思決定を支援するために呼ばれる。 これを踏まえて、アルゴリズムリコースは、個人がアルゴリズムシステムによって望ましくない結果に対して行動できることを原則として、注目を集めている。 アルゴリズム的リコースに関する文献の大部分は、継続的に変化するコンテキストの影響を批判的な要素を見下ろして、単一の個人にリコースを提供する方法に重点を置いている。 ほとんどすべてのケースにおいて、リコースは第一に、好ましくない試みをする個人で構成され、その後、状況が変わった場合、後日、一つまたは複数の試みを行う機会が与えられるため、これらの影響をリコースに無視することは重大な監視である。 モデルドリフトや個人間の望ましい結果への競争によって、最初のリコースの推奨は時間とともに信頼性が低下する可能性があるため、これは誤った期待を生み出す可能性がある。 本研究では,連続的に変化する環境がアルゴリズムの会話に与える影響を研究するためのエージェントベースシミュレーションフレームワークを提案する。 特に, エージェントが代表する個人に対するリコースの信頼性を変化させる効果として, (1) リコースに行動する他のエージェントとの競争, (2) 環境に参入する新しいエージェントとの競争の2つを見出した。 この結果から,特定のパラメータ化の小さなセットだけが,時間とともにエージェントに信頼性のあるアルゴリズム的リコースをもたらすことが明らかとなった。 その結果、時間とともにリコースの信頼性を理解し、エージェントの努力に報いるリコース手法を開発するために、かなりの追加作業が必要となる。

Algorithmic systems are often called upon to assist in high-stakes decision making. In light of this, algorithmic recourse, the principle wherein individuals should be able to take action against an undesirable outcome made by an algorithmic system, is receiving growing attention. The bulk of the literature on algorithmic recourse to-date focuses primarily on how to provide recourse to a single individual, overlooking a critical element: the effects of a continuously changing context. Disregarding these effects on recourse is a significant oversight, since, in almost all cases, recourse consists of an individual making a first, unfavorable attempt, and then being given an opportunity to make one or several attempts at a later date - when the context might have changed. This can create false expectations, as initial recourse recommendations may become less reliable over time due to model drift and competition for access to the favorable outcome between individuals. In this work we propose an agent-based simulation framework for studying the effects of a continuously changing environment on algorithmic recourse. In particular, we identify two main effects that can alter the reliability of recourse for individuals represented by the agents: (1) competition with other agents acting upon recourse, and (2) competition with new agents entering the environment. Our findings highlight that only a small set of specific parameterizations result in algorithmic recourse that is reliable for agents over time. Consequently, we argue that substantial additional work is needed to understand recourse reliability over time, and to develop recourse methods that reward agents' effort.
翻訳日:2023-09-14 13:58:51 公開日:2023-09-13
# 神経3次元室内再構成における複数の前兆の活用

Exploiting Multiple Priors for Neural 3D Indoor Reconstruction ( http://arxiv.org/abs/2309.07021v1 )

ライセンス: Link先を確認
Federico Lincetto, Gianluca Agresti, Mattia Rossi, Pietro Zanuttigh(参考訳) ニューラル暗黙のモデリングでは、小さな物体に対して印象的な3D再構成結果が得られるが、大きな屋内シーンでは大きな制限がある。 本研究では,複数の正規化戦略を活用し,画像のみに依存しながら,大規模室内環境の再構成を実現するニューラル暗黙的モデリング手法を提案する。 シーンを初期モデルに固定するために、スパースだが正確な深さが使用される。 密度は高いが正確な深さは低いが、モデルから逸脱して推定された形状を改善するのに十分柔軟である。 次に、推定表面の正規化を規則化する新しい自己監督戦略を示す。 最後に、学習可能な露光補償スキームにより、困難な照明条件に対処することができる。 実験の結果,本手法は屋内シナリオにおいて最先端の3次元再構成を実現することがわかった。

Neural implicit modeling permits to achieve impressive 3D reconstruction results on small objects, while it exhibits significant limitations in large indoor scenes. In this work, we propose a novel neural implicit modeling method that leverages multiple regularization strategies to achieve better reconstructions of large indoor environments, while relying only on images. A sparse but accurate depth prior is used to anchor the scene to the initial model. A dense but less accurate depth prior is also introduced, flexible enough to still let the model diverge from it to improve the estimated geometry. Then, a novel self-supervised strategy to regularize the estimated surface normals is presented. Finally, a learnable exposure compensation scheme permits to cope with challenging lighting conditions. Experimental results show that our approach produces state-of-the-art 3D reconstructions in challenging indoor scenarios.
翻訳日:2023-09-14 13:52:20 公開日:2023-09-13
# オリジナルの研究論文を超えて NLP による分類

Beyond original Research Articles Categorization via NLP ( http://arxiv.org/abs/2309.07020v1 )

ライセンス: Link先を確認
Rosanna Turrisi(参考訳) 本研究は、自然言語処理技術を用いて、科学的文献の文脈におけるテキスト分類(未知のカテゴリ)に対する新しいアプローチを提案する。 この研究は、事前学習された言語モデル、特にSciBERTの力を利用して、ArXivデータセットから意味のある抽象表現を抽出する。 K-Meansアルゴリズムを用いてテキスト分類を行い、Silhouetteスコアに基づいて最適なクラスタ数を決定する。 その結果,提案手法は従来のarxivラベル方式よりも効果的に対象情報を取り込むことができ,テキスト分類精度が向上した。 このアプローチは、科学研究文学の急速に成長する分野において、より良いナビゲーションとレコメンデーションシステムをもたらす可能性がある。

This work proposes a novel approach to text categorization -- for unknown categories -- in the context of scientific literature, using Natural Language Processing techniques. The study leverages the power of pre-trained language models, specifically SciBERT, to extract meaningful representations of abstracts from the ArXiv dataset. Text categorization is performed using the K-Means algorithm, and the optimal number of clusters is determined based on the Silhouette score. The results demonstrate that the proposed approach captures subject information more effectively than the traditional arXiv labeling system, leading to improved text categorization. The approach offers potential for better navigation and recommendation systems in the rapidly growing landscape of scientific research literature.
翻訳日:2023-09-14 13:52:08 公開日:2023-09-13
# ボソニック二次系における位相相の量子シグネチャ

Quantum Signatures of Topological Phase in Bosonic Quadratic System ( http://arxiv.org/abs/2309.07017v1 )

ライセンス: Link先を確認
Yaohua Li, Yong-Chun Liu(参考訳) 量子絡み合いと古典トポロジーは、結びつくのが難しい2つの異なる現象である。 ここでは開体性二次鎖がトポロジーによって引き起こされる絡み合い効果を示す。 系が位相相にあるとき、エッジモードは定常状態で絡み合うことができるが、自明な位相では絡み合いは現れない。 この発見は、量子マスター方程式に基づく共分散法によって検証され、切り裂き過程を伴わない正確な数値結果が得られる。 また、正確な数値結果と完全に一致する量子ランゲヴィン方程式を用いて、簡潔な近似解析結果を得る。 本研究は, 帯域ギャップに位置し, 系環境結合(散逸率による)に適合するバルク固有エネルギーから分離した, ほぼゼロの固有エネルギーを示す位相的エッジ状態を示し, スクイーズ相関を増大させる。 我々の研究は、定常絡みはボゾン系における位相位相の量子的シグネチャであり、逆に位相2次系は堅牢な絡み合いを生成する強力なプラットフォームであることを示した。

Quantum entanglement and classical topology are two distinct phenomena that are difficult to be connected together. Here we discover that an open bosonic quadratic chain exhibits topology-induced entanglement effect. When the system is in the topological phase, the edge modes can be entangled in the steady state, while no entanglement appears in the trivial phase. This finding is verified through the covariance approach based on the quantum master equations, which provide exact numerical results without truncation process. We also obtain concise approximate analytical results through the quantum Langevin equations, which perfectly agree with the exact numerical results. We show the topological edge states exhibit near-zero eigenenergies located in the band gap and are separated from the bulk eigenenergies, which match the system-environment coupling (denoted by the dissipation rate) and thus the squeezing correlations can be enhanced. Our work reveals that the stationary entanglement can be a quantum signature of the topological phase in bosonic systems, and inversely the topological quadratic systems can be powerful platforms to generate robust entanglement.
翻訳日:2023-09-14 13:51:56 公開日:2023-09-13
# R'esum\'e Parsing as Hierarchical Sequence Labeling: an empirical Study

R\'esum\'e Parsing as Hierarchical Sequence Labeling: An Empirical Study ( http://arxiv.org/abs/2309.07015v1 )

ライセンス: Link先を確認
Federico Retyk, Hermenegildo Fabregat, Juan Aizpuru, Mariana Taglio, Rabih Zbib(参考訳) r\'esum\'esから情報を抽出することは典型的には2段階の問題として定式化され、文書をまずセクションに分割し、各セクションを個別に処理して対象のエンティティを抽出する。 その代わりに、全問題を行とトークンという2つのレベルでシーケンスラベリングし、両方のタスクを同時に解決するためのモデルアーキテクチャを研究しました。 我々は、英語、フランス語、中国語、スペイン語、ドイツ語、ポルトガル語、スウェーデン語で高品質な構文解析コーパスを構築する。 これらのコーパスに基づき,提案手法の有効性を示す実験結果について述べる。 提案する建築のアブレーション研究を行う。 また,モデル性能と資源効率の両方を分析し,本番環境におけるモデル展開のトレードオフについて述べる。

Extracting information from r\'esum\'es is typically formulated as a two-stage problem, where the document is first segmented into sections and then each section is processed individually to extract the target entities. Instead, we cast the whole problem as sequence labeling in two levels -- lines and tokens -- and study model architectures for solving both tasks simultaneously. We build high-quality r\'esum\'e parsing corpora in English, French, Chinese, Spanish, German, Portuguese, and Swedish. Based on these corpora, we present experimental results that demonstrate the effectiveness of the proposed models for the information extraction task, outperforming approaches introduced in previous work. We conduct an ablation study of the proposed architectures. We also analyze both model performance and resource efficiency, and describe the trade-offs for model deployment in the context of a production environment.
翻訳日:2023-09-14 13:51:35 公開日:2023-09-13
# OYXOY: 現代ギリシャ向け最新のNLPテストスイート

OYXOY: A Modern NLP Test Suite for Modern Greek ( http://arxiv.org/abs/2309.07009v1 )

ライセンス: Link先を確認
Konstantinos Kogkalidis, Stergios Chatzikyriakidis, Eirini Chrysovalantou Giannikouri, Vassiliki Katsouli, Christina Klironomou, Christina Koula, Dimitris Papadakis, Thelka Pasparaki, Erofili Psaltaki, Efthymia Sakellariou, Hara Soupiona(参考訳) 本論文は,ギリシャ語NLPのための言語的動機付けと技術的に関係のある評価スイートの開発に向けた基礎的なステップとして機能する。 この取り組みは、自然言語推論、単語感覚の曖昧さ(例比較や感覚選択)、比喩検出の4つの専門家による評価タスクを導入することで開始する。 既存のタスクの言語適応レプリカよりも、より広いリソースと評価コミュニティに共鳴する2つのイノベーションに貢献する。 第一に、私たちの推論データセットは、その種の最初のものであり、単に \textit{one} ではなく、推論ラベルである \textit{all} を示し、例えば曖昧さや多義性によって起こりうるシフトを考慮します。 次に,低リソース言語のためのデータセットを得るためのコスト効率のよい手法を示す。 言語ニュートラルパーサーとしてChatGPTを用いて、標準現代ギリシア語辞典を構造化形式に変換し、そこから単純な射影を通して他の3つのタスクを導出する。 各作業の他に,現在入手可能な工芸機械を用いて実験を行う。 我々の実験ベースラインは、我々の課題の難易度を実証し、ギリシャのNLPエコシステムが現代主流の研究に追随するために、迅速な進歩の必要性を強調します。

This paper serves as a foundational step towards the development of a linguistically motivated and technically relevant evaluation suite for Greek NLP. We initiate this endeavor by introducing four expert-verified evaluation tasks, specifically targeted at natural language inference, word sense disambiguation (through example comparison or sense selection) and metaphor detection. More than language-adapted replicas of existing tasks, we contribute two innovations which will resonate with the broader resource and evaluation community. Firstly, our inference dataset is the first of its kind, marking not just \textit{one}, but rather \textit{all} possible inference labels, accounting for possible shifts due to e.g. ambiguity or polysemy. Secondly, we demonstrate a cost-efficient method to obtain datasets for under-resourced languages. Using ChatGPT as a language-neutral parser, we transform the Dictionary of Standard Modern Greek into a structured format, from which we derive the other three tasks through simple projections. Alongside each task, we conduct experiments using currently available state of the art machinery. Our experimental baselines affirm the challenging nature of our tasks and highlight the need for expedited progress in order for the Greek NLP ecosystem to keep pace with contemporary mainstream research.
翻訳日:2023-09-14 13:51:19 公開日:2023-09-13
# 高周波電磁場によるRydberg状態の周波数変調

Frequency modulation of Rydberg states by radio frequency electromagnetic fields ( http://arxiv.org/abs/2309.07007v1 )

ライセンス: Link先を確認
Nabendu S. Mishra(参考訳) 本研究では,Rydberg状態の周波数変調による電磁誘導透過(EIT)信号におけるサイドバンドの生成を,$^{87}\text{Rb}$熱蒸気で実証する。 一対の平行配置された銅板から発生する発振電波周波数(RF)電界は、側バンドの周波数と強度がRF電界の存在を定量化するスターク効果により、リドベルク状態の変調をもたらす。 変調指数のベッセル関数の関数として,EITピークとRF電圧の側バンドの強度の変動が観察された。 媒質中の原子分極性の推定値を提供し、54s_{1/2}$状態の場合、$(h)\cdot1.01\times10^8$$$\text{hz/(v/cm)}^2$であることが分かる。

In this work, we demonstrate the generation of sidebands in electromagnetically induced transparency (EIT) signal due to frequency modulation of Rydberg states in $^{87}\text{Rb}$ thermal vapor. An oscillating radio-frequency (RF) electric field generated through a pair of parallel-placed copper plates leads to modulation of the Rydberg state by virtue of Stark effect where the frequency and strength of the sidebands quantify the RF electric field present. The variation of the strength of the EIT peak and the sidebands with RF voltage is observed to vary as a function of the Bessel function of modulation index. It provides an estimate of the atomic polarizability in the medium, which for $54S_{1/2}$ state, is found to be $(h)\cdot1.01\times10^8$ $\text{Hz/(V/cm)}^2$.
翻訳日:2023-09-14 13:50:57 公開日:2023-09-13
# 進化アルゴリズムを用いた多次元配列のモートン状レイアウトの探索

Finding Morton-Like Layouts for Multi-Dimensional Arrays Using Evolutionary Algorithms ( http://arxiv.org/abs/2309.07002v1 )

ライセンス: Link先を確認
Stephen Nicholas Swatman, Ana-Lucia Varbanescu, Andy D. Pimentel, Andreas Salzburger, Attila Krasznahorkay(参考訳) 多次元データのレイアウトは、ハードウェアキャッシュの有効性と拡張によってアプリケーションのパフォーマンスに大きな影響を与える可能性がある。 一般的な多次元レイアウトには、標準行長および列長のレイアウトとモートン曲線レイアウトが含まれる。 本稿では,モートンレイアウトを多次元データレイアウトの非常に大きなファミリーに一般化し,その性能特性を多様に変化させる方法について述べる。 この設計空間は遺伝的アルゴリズムに基づく組合せ進化法を用いて効率的に探索できると仮定する。 そこで本研究では,このようなレイアウトの染色体表現と,キャッシュシミュレーションを用いた配列レイアウトの適合性推定手法を提案する。 我々は,実ハードウェアのカーネル実行時間と適合する適合度関数を示し,その進化戦略により,少数の世代で検討中の8つの実世界のアプリケーションのうち4つにおいて,良好なキャッシュ特性を持つ候補を見つけることができることを示した。 最後に、我々の進化的手法を用いた配列レイアウトは、シミュレーション環境だけでなく、実際のハードウェアにおける大幅なパフォーマンス向上(極端な場合では最大10倍)にも影響を与えることを実証する。

The layout of multi-dimensional data can have a significant impact on the efficacy of hardware caches and, by extension, the performance of applications. Common multi-dimensional layouts include the canonical row-major and column-major layouts as well as the Morton curve layout. In this paper, we describe how the Morton layout can be generalized to a very large family of multi-dimensional data layouts with widely varying performance characteristics. We posit that this design space can be efficiently explored using a combinatorial evolutionary methodology based on genetic algorithms. To this end, we propose a chromosomal representation for such layouts as well as a methodology for estimating the fitness of array layouts using cache simulation. We show that our fitness function correlates to kernel running time in real hardware, and that our evolutionary strategy allows us to find candidates with favorable simulated cache properties in four out of the eight real-world applications under consideration in a small number of generations. Finally, we demonstrate that the array layouts found using our evolutionary method perform well not only in simulated environments but that they can effect significant performance gains -- up to a factor ten in extreme cases -- in real hardware.
翻訳日:2023-09-14 13:50:41 公開日:2023-09-13
# 企業ESGレポートの動的解析:進化的傾向のモデル

Dynamic Analysis of Corporate ESG Reports: A Model of Evolutionary Trends ( http://arxiv.org/abs/2309.07001v1 )

ライセンス: Link先を確認
Ziyuan Xia, Anchen Sun, Xiaodong Cai, Saixing Zeng(参考訳) 環境、社会、ガバナンス(ESG)の報告は、持続可能な企業開発における重要な要素として世界的に認識されている。 本研究は,グローバル市場の企業におけるESGトピックスの変化状況の地図化を目的とする。 動的フレームワークは、個々のクラス、複数のクラス、および特定の持続可能性指数に沿ったESG戦略管理を分析するために開発された。 これらの分析過程の出力はESG戦略モデルの基盤となる。 技術系企業からの21世紀のESGレポートの豊富な収集を利用して,分析キーワードをフレームワークに組み込むことで,ESGの視点の変化を解明する。 この研究は、近年のESGトピックの同時進化を明らかにする実証的な方法を提供する。

Environmental, social, and governance (ESG) reports are globally recognized as a keystone in sustainable enterprise development. This study aims to map the changing landscape of ESG topics within firms in the global market. A dynamic framework is developed to analyze ESG strategic management for individual classes, across multiple classes, and in alignment with a specific sustainability index. The output of these analytical processes forms the foundation of an ESG strategic model. Utilizing a rich collection of 21st-century ESG reports from technology companies, our experiment elucidates the changes in ESG perspectives by incorporating analytical keywords into the proposed framework. This work thus provides an empirical method that reveals the concurrent evolution of ESG topics over recent years.
翻訳日:2023-09-14 13:50:24 公開日:2023-09-13
# ラビ模型の量子相転移を反映するダイナミクス

Dynamics Reflects Quantum Phase Transition of Rabi Model ( http://arxiv.org/abs/2309.06996v1 )

ライセンス: Link先を確認
M. Li, Y. N. Wang, Z. Y. Song, Y. M. Zhao, X. L. Zhao, H. Y. Ma(参考訳) 光と物質の相互作用を記述する最も単純かつ基本的なモデルとして、回転波近似の分解は、クォービットの周波数が振動子の周波数を大きく上回るとき、位相遷移様の挙動と結合強度をもたらす。 このダイナミクスは,rabiモデルの相転移を反映できることを示す。 基底状態における量子場とボゾン場の励起に加えて, 分離性, 相互情報, 量子フィッシャー情報, キャビティのばらつきの目撃者が, クエンチ中の相転移を検出するために利用できることが示される。 また,加熱による相転移のチェックに対する温度の影響も明らかにした。 このモデルは閉じ込められたイオンを用いて実装することができ、結合強度は弱い状態から超強い状態に柔軟に調整できる。 熱力学的限界を課さずに基本量子光学モデルにおける相転移を反映することにより、非平衡過程における相転移を探索する方法を提案する。

As the simplest and most fundamental model describing the interaction between light and matter, a breakdown in the rotating wave approximation leads to phase-transition-like behavior versus coupling strength when the frequency of the qubit greatly surpasses that of the oscillator. We show that the dynamics can reflect the phase transition of the Rabi model. In addition to the excitation of the qubit and bosonic field in the ground state, we show that the witness of inseparability, mutual information, quantum Fisher information, and the variance of cavity quadrature can be employed to detect the phase transition in quench. We also reveal the negative impact of temperature on checking the phase transition by quench. This model can be implemented using trapped ions, where the coupling strength can be flexibly adjusted from weak to ultrastrong regime. By reflecting the phase transition in a fundamental quantum optics model without imposing the thermodynamic limit, we propose a method to explore phase transition in non-equilibrium process.
翻訳日:2023-09-14 13:50:13 公開日:2023-09-13
# 言語モデルを用いた教師なしコントラスト一貫性ランキング

Unsupervised Contrast-Consistent Ranking with Language Models ( http://arxiv.org/abs/2309.06991v1 )

ライセンス: Link先を確認
Niklas Stoehr, Pengxiang Cheng, Jing Wang, Daniel Preotiuc-Pietro, Rajarshi Bhowmik(参考訳) 言語モデルはランキングベースの知識を含み、コンテキスト内ランキングタスクの強力な解法である。 例えば、国家の規模による秩序に関するパラメトリックな知識を持つか、あるいは感情によるレビューをランク付けすることができる。 最近の研究は、ペアワイズ、ポイントワイズ、リストワイズに焦点を合わせ、言語モデルのランキング知識を引き出すテクニックを推進している。 しかし,注意深いキャリブレーションと制約付きデコードでは,プロンプトベースの手法が必ずしもランキングに一貫性を持つとは限らない。 これは、Contrast-Consistent Search (CCS)と呼ばれる教師なしの探索手法にインスパイアされた代替手法を探る動機となっている。 その考え方は、論理的制約によって導かれる探索モデルを訓練することであり、モデルのステートメントの表現とその否定は、複数のステートメントにわたって一貫して対照的な真偽極にマッピングされなければならない。 同様の制約は、すべての項目が一貫性のあるペアワイズまたはリストワイズ比較によって関連づけられるランキングタスクに適用できると仮定する。 この目的のために,最大マージン損失,三重項損失,順序回帰目標といった既存のランキング手法を適応させることにより,コントラスト一貫性ランキング(ccr)へバイナリccs法を拡張する。 以上の結果から,同じ言語モデルの場合,CCRが性能を向上し,さらに大きな言語モデルで性能を向上することを確認した。

Language models contain ranking-based knowledge and are powerful solvers of in-context ranking tasks. For instance, they may have parametric knowledge about the ordering of countries by size or may be able to rank reviews by sentiment. Recent work focuses on pairwise, pointwise, and listwise prompting techniques to elicit a language model's ranking knowledge. However, we find that even with careful calibration and constrained decoding, prompting-based techniques may not always be self-consistent in the rankings they produce. This motivates us to explore an alternative approach that is inspired by an unsupervised probing method called Contrast-Consistent Search (CCS). The idea is to train a probing model guided by a logical constraint: a model's representation of a statement and its negation must be mapped to contrastive true-false poles consistently across multiple statements. We hypothesize that similar constraints apply to ranking tasks where all items are related via consistent pairwise or listwise comparisons. To this end, we extend the binary CCS method to Contrast-Consistent Ranking (CCR) by adapting existing ranking methods such as the Max-Margin Loss, Triplet Loss, and Ordinal Regression objective. Our results confirm that, for the same language model, CCR probing outperforms prompting and even performs on a par with prompting much larger language models.
翻訳日:2023-09-14 13:49:56 公開日:2023-09-13
# ビデオ分解用ハイブリッド変圧器による長期シャープ特性の集約

Aggregating Long-term Sharp Features via Hybrid Transformers for Video Deblurring ( http://arxiv.org/abs/2309.07054v1 )

ライセンス: Link先を確認
Dongwei Ren, Wei Shang, Yi Yang and Wangmeng Zuo(参考訳) あるぼやけたビデオから連続的にシャープなフレームを復元することを目的としたビデオデブロアリング法は、通常、入力されたビデオが連続的にぼやけたフレームに苦しむと仮定する。 しかし、現代の画像装置が撮影した現実世界のぼやけたビデオでは、シャープなフレームが与えられたビデオに通常現れるため、時間的長期的シャープな特徴は、ぼやけたフレームの復元を容易にする。 本研究では,特徴集約のためのハイブリッドトランスフォーマーを用いて,隣接するフレームとシャープフレームの両方を活用するビデオデブロアリング手法を提案する。 具体的には、まず、シャープフレームとぼやけたフレームを区別するぼかし検知器を訓練する。 次に、隣接するフレームから特徴を活用し、明示的な空間的アライメントを必要とせず隣のフレームから特徴を集約するのにクロス注意が有用であるウィンドウベースのローカルトランスを用いる。 検出したシャープフレームから長時間のシャープ特徴を集約するために,マルチスケールマッチング機能を備えたグローバルトランスを利用する。 さらに, イベント融合モジュールをグローバルトランスフォーマーに組み込むことで, イベント駆動型ビデオデブロアリングに容易に拡張することができる。 ベンチマークデータセットの大規模な実験により,提案手法は,定量的な測定値と視覚的品質の点から,最先端のビデオデブロアリング法およびイベント駆動ビデオデブロアリング法より優れていることが示された。 ソースコードとトレーニングされたモデルはhttps://github.com/shangwei5/STGTNで入手できる。

Video deblurring methods, aiming at recovering consecutive sharp frames from a given blurry video, usually assume that the input video suffers from consecutively blurry frames. However, in real-world blurry videos taken by modern imaging devices, sharp frames usually appear in the given video, thus making temporal long-term sharp features available for facilitating the restoration of a blurry frame. In this work, we propose a video deblurring method that leverages both neighboring frames and present sharp frames using hybrid Transformers for feature aggregation. Specifically, we first train a blur-aware detector to distinguish between sharp and blurry frames. Then, a window-based local Transformer is employed for exploiting features from neighboring frames, where cross attention is beneficial for aggregating features from neighboring frames without explicit spatial alignment. To aggregate long-term sharp features from detected sharp frames, we utilize a global Transformer with multi-scale matching capability. Moreover, our method can easily be extended to event-driven video deblurring by incorporating an event fusion module into the global Transformer. Extensive experiments on benchmark datasets demonstrate that our proposed method outperforms state-of-the-art video deblurring methods as well as event-driven video deblurring methods in terms of quantitative metrics and visual quality. The source code and trained models are available at https://github.com/shangwei5/STGTN.
翻訳日:2023-09-14 13:41:16 公開日:2023-09-13
# 確率的プログラミングにおける学習モードとしてのpearlとjeffreyの更新

Pearl's and Jeffrey's Update as Modes of Learning in Probabilistic Programming ( http://arxiv.org/abs/2309.07053v1 )

ライセンス: Link先を確認
Bart Jacobs and Dario Stein(参考訳) 新しい証拠に照らして確率分布を更新するという概念は、統計学と機械学習の中心にある。 パールとジェフリーのルールは、異なる結果をもたらす2つの自然な更新メカニズムであるが、類似点と相違点はまだ謎のままである。 本稿では、確率的プログラムとサンプリングセマンティクスの観点から2つの更新メカニズムを別々に記述し、パールとジェフリーについて)異なる可能性の概念でそれらの関係を明らかにする。 さらに,jeffreyの更新規則は変分推論によって生じることを示した。 カテゴリー的確率論の観点では、これは分布モナドのクライスリ圏に拡張された多重集合関手の振舞いの観点からの状況の分析に相当する。

The concept of updating a probability distribution in the light of new evidence lies at the heart of statistics and machine learning. Pearl's and Jeffrey's rule are two natural update mechanisms which lead to different outcomes, yet the similarities and differences remain mysterious. This paper clarifies their relationship in several ways: via separate descriptions of the two update mechanisms in terms of probabilistic programs and sampling semantics, and via different notions of likelihood (for Pearl and for Jeffrey). Moreover, it is shown that Jeffrey's update rule arises via variational inference. In terms of categorical probability theory, this amounts to an analysis of the situation in terms of the behaviour of the multiset functor, extended to the Kleisli category of the distribution monad.
翻訳日:2023-09-14 13:40:50 公開日:2023-09-13
# Unified Gesture: 複数の骨格に対する統一ジェスチャー合成モデル

UnifiedGesture: A Unified Gesture Synthesis Model for Multiple Skeletons ( http://arxiv.org/abs/2309.07051v1 )

ライセンス: Link先を確認
Sicheng Yang, Zilin Wang, Zhiyong Wu, Minglei Li, Zhensong Zhang, Qiaochu Huang, Lei Hao, Songcen Xu, Xiaofei Wu, changpeng yang, Zonghong Dai(参考訳) 自動協調ジェスチャ生成は、コンピュータアニメーションに多くの注目を集める。 以前の研究は個々のデータセット上のネットワーク構造を設計し、結果としてデータボリュームの欠如とさまざまなモーションキャプチャ標準の一般化が可能になった。 また, 音声とジェスチャーの相関が弱いため, 難易度の高い課題である。 これらの問題に対処するために,新しい拡散モデルに基づく音声駆動ジェスチャ合成手法であるunifiedgestureを提案する。 具体的には、まず、異なるモーションキャプチャ標準のための潜時相グラフを学習するための再ターゲットネットワークを提示し、データセットを拡張しながら様々なジェスチャーの表現を統一する。 次に、局所的注意と自己注意を用いて拡散モデルアーキテクチャに基づく音声とジェスチャーの相関関係を捉え、より優れた音声マッチングと現実的なジェスチャーを生成する。 音声とジェスチャーをさらに整合させ,多様性を高めるために,離散的なジェスチャーユニットに強化学習を学習報酬関数に組み込む。 広汎な実験により、UnifiedGestureは、CCA、FGD、および人間の類似性の観点から、音声駆動ジェスチャ生成における最近のアプローチよりも優れていることが示された。 すべてのコード、事前訓練されたモデル、データベース、デモはhttps://github.com/YoungSeng/UnifiedGesture.comで公開されている。

The automatic co-speech gesture generation draws much attention in computer animation. Previous works designed network structures on individual datasets, which resulted in a lack of data volume and generalizability across different motion capture standards. In addition, it is a challenging task due to the weak correlation between speech and gestures. To address these problems, we present UnifiedGesture, a novel diffusion model-based speech-driven gesture synthesis approach, trained on multiple gesture datasets with different skeletons. Specifically, we first present a retargeting network to learn latent homeomorphic graphs for different motion capture standards, unifying the representations of various gestures while extending the dataset. We then capture the correlation between speech and gestures based on a diffusion model architecture using cross-local attention and self-attention to generate better speech-matched and realistic gestures. To further align speech and gesture and increase diversity, we incorporate reinforcement learning on the discrete gesture units with a learned reward function. Extensive experiments show that UnifiedGesture outperforms recent approaches on speech-driven gesture generation in terms of CCA, FGD, and human-likeness. All code, pre-trained models, databases, and demos are available to the public at https://github.com/YoungSeng/UnifiedGesture.
翻訳日:2023-09-14 13:40:36 公開日:2023-09-13
# エクストリーム・ラーニング・マシンを用いた高次元pdes計算法

An Extreme Learning Machine-Based Method for Computational PDEs in Higher Dimensions ( http://arxiv.org/abs/2309.07049v1 )

ライセンス: Link先を確認
Yiran Wang, Suchuan Dong(参考訳) 本稿では,ランダム化ニューラルネットワークを用いた高次元偏微分方程式(pde)の解法を2つ提案する。 このタイプのネットワークの普遍近似特性により、どちらの手法も極端学習機械(ELM)アプローチを低次元から高次元に拡張する。 最初の方法では、$d$次元の未知の解場をランダムなフィードフォワードニューラルネットワークで表現し、出力層パラメータのトレーニング中に隠蔽層パラメータをランダムに割り当て固定する。 PDEと境界/初期条件、および連続性条件(この方法の局所変種の場合)は、ランダムな内部/境界コロケーション点の集合に強制される。 その結果の線形あるいは非線形代数系は、最小二乗解を通じて、ネットワークパラメータの訓練された値を提供する。 第2の方法により、高次元PDE問題は、次元が増加するにつれてTFCの項数が指数関数的に増加するのを回避し、関数接続理論(A-TFC)の近似変種に基づく制約付き式によって再構成される。 A-TFC制約式における自由場関数はランダム化されたニューラルネットワークで表現され、第1の手法に類似した手順で訓練される。 本稿では,高次元線形・非線形定常・動的PDEの数値シミュレーションを行い,その性能を実証する。 これらの手法は高次元PDEの正確な解を生成することができ、特に比較的低次元の機械の精度から程遠いレベルまで誤差が到達している。 物理インフォームドニューラルネットワーク(PINN)法と比較して、現在の手法はコスト効率が高く、高次元PDEに対してより正確である。

We present two effective methods for solving high-dimensional partial differential equations (PDE) based on randomized neural networks. Motivated by the universal approximation property of this type of networks, both methods extend the extreme learning machine (ELM) approach from low to high dimensions. With the first method the unknown solution field in $d$ dimensions is represented by a randomized feed-forward neural network, in which the hidden-layer parameters are randomly assigned and fixed while the output-layer parameters are trained. The PDE and the boundary/initial conditions, as well as the continuity conditions (for the local variant of the method), are enforced on a set of random interior/boundary collocation points. The resultant linear or nonlinear algebraic system, through its least squares solution, provides the trained values for the network parameters. With the second method the high-dimensional PDE problem is reformulated through a constrained expression based on an Approximate variant of the Theory of Functional Connections (A-TFC), which avoids the exponential growth in the number of terms of TFC as the dimension increases. The free field function in the A-TFC constrained expression is represented by a randomized neural network and is trained by a procedure analogous to the first method. We present ample numerical simulations for a number of high-dimensional linear/nonlinear stationary/dynamic PDEs to demonstrate their performance. These methods can produce accurate solutions to high-dimensional PDEs, in particular with their errors reaching levels not far from the machine accuracy for relatively lower dimensions. Compared with the physics-informed neural network (PINN) method, the current method is both cost-effective and more accurate for high-dimensional PDEs.
翻訳日:2023-09-14 13:40:15 公開日:2023-09-13
# safetybench: 複数の選択質問による大規模言語モデルの安全性評価

SafetyBench: Evaluating the Safety of Large Language Models with Multiple Choice Questions ( http://arxiv.org/abs/2309.07045v1 )

ライセンス: Link先を確認
Zhexin Zhang, Leqi Lei, Lindong Wu, Rui Sun, Yongkang Huang, Chong Long, Xiao Liu, Xuanyu Lei, Jie Tang, Minlie Huang(参考訳) 大規模言語モデル(llm)の急速な発展に伴い、安全性への懸念に注目が集まっている。 したがって, LLMの安全性を評価することは, LLMの幅広い応用を促進する上で重要な課題となっている。 それでも、総合的な安全性評価ベンチマークが欠如していることは、LLMの安全性を効果的に評価し、向上させる重要な障害となる。 そこで本研究では,安全問題7つのカテゴリにまたがる多様な選択質問11,435項目からなる,llmの安全性評価のための総合ベンチマークであるsafetybenchを提案する。 とくにSafetyBenchは、中国語と英語のデータも含み、両方の言語での評価を容易にする。 ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回比較した大規模なテストでは、GPT-4に対するパフォーマンス上のアドバンテージが示され、現在のLLMの安全性を向上する余地は依然として大きい。 我々は,安全ベンチがLLMの安全性を迅速かつ包括的に評価し,より安全なLLMの開発を促進すると信じている。 データと評価のガイドラインはhttps://github.com/thu-coai/safetybenchで入手できる。 入場口とリーダーボードはhttps://llmbench.ai/safety.comで入手できる。

With the rapid development of Large Language Models (LLMs), increasing attention has been paid to their safety concerns. Consequently, evaluating the safety of LLMs has become an essential task for facilitating the broad applications of LLMs. Nevertheless, the absence of comprehensive safety evaluation benchmarks poses a significant impediment to effectively assess and enhance the safety of LLMs. In this work, we present SafetyBench, a comprehensive benchmark for evaluating the safety of LLMs, which comprises 11,435 diverse multiple choice questions spanning across 7 distinct categories of safety concerns. Notably, SafetyBench also incorporates both Chinese and English data, facilitating the evaluation in both languages. Our extensive tests over 25 popular Chinese and English LLMs in both zero-shot and few-shot settings reveal a substantial performance advantage for GPT-4 over its counterparts, and there is still significant room for improving the safety of current LLMs. We believe SafetyBench will enable fast and comprehensive evaluation of LLMs' safety, and foster the development of safer LLMs. Data and evaluation guidelines are available at https://github.com/thu-coai/SafetyBench. Submission entrance and leaderboard are available at https://llmbench.ai/safety.
翻訳日:2023-09-14 13:39:42 公開日:2023-09-13
# 跳躍モノポッドの効率的な強化学習

Efficient Reinforcement Learning for Jumping Monopods ( http://arxiv.org/abs/2309.07038v1 )

ライセンス: Link先を確認
Riccardo Bussola, Michele Focchi, Andrea Del Prete, Daniele Fontanelli, Luigi Palopoli(参考訳) 本研究では,モノポッドをジャンプで目標に到達させるという複雑な制御問題を考察する。 モノポッドはあらゆる方向にジャンプでき、足の下の地形は不均一である。 これは、より広い種類の問題のテンプレートであり、標準の最適化ベース技術を使って解くのは非常に困難で計算コストが高い。 強化学習(Reinforcement Learning, RL)は興味深い方法かも知れないが、コントローラがすべてをゼロから学ばなければならないエンドツーエンドのアプローチの適用は現実的ではない。 本稿では,物理知識を注入することにより,RLフレームワーク内での学習プロセスをガイドする。 この迅速性は、学習時間の大幅な削減や、動作を実行する低レベルのコントローラで起こりうるエラーを学習し補償する機能など、幅広い利点をもたらす。 我々は、最適化ベースとエンドツーエンドのrlアプローチの両方に関して、このアプローチの利点を実証する。

In this work, we consider the complex control problem of making a monopod reach a target with a jump. The monopod can jump in any direction and the terrain underneath its foot can be uneven. This is a template of a much larger class of problems, which are extremely challenging and computationally expensive to solve using standard optimisation-based techniques. Reinforcement Learning (RL) could be an interesting alternative, but the application of an end-to-end approach in which the controller must learn everything from scratch, is impractical. The solution advocated in this paper is to guide the learning process within an RL framework by injecting physical knowledge. This expedient brings to widespread benefits, such as a drastic reduction of the learning time, and the ability to learn and compensate for possible errors in the low-level controller executing the motion. We demonstrate the advantage of our approach with respect to both optimization-based and end-to-end RL approaches.
翻訳日:2023-09-14 13:39:22 公開日:2023-09-13
# 非相関性または相関性障害により引き起こされるフロケトポロジカル相転移

Floquet topological phase transitions induced by uncorrelated or correlated disorder ( http://arxiv.org/abs/2309.07035v1 )

ライセンス: Link先を確認
Jun-Hui Zheng, Arijit Dutta, Monika Aidelsburger, and Walter Hofstetter(参考訳) 弱い障害とその空間的相関がフロケ系のトポロジーに与える影響は、今のところよく理解されていない。 本研究では,実験で実現した2次元フロケシステムと密接な関係を持つモデルについて検討する。 乱れがない場合,位相図を判定し,隣接ギャップ内の交互なキラリティーを伴うエッジ状態によって特徴付けられる新しい位相を同定する。 弱性障害が導入された場合,障害平均ボット指数を調べ,異常なフロッケトポロジカル絶縁体が非相関性障害と相関性障害の両方に好まれる理由を分析し,後者の方が強い効果を示す。 環状ギャップを持つ系では、ボルン近似は点状ギャップを持つ系とは異なり位相相転移の説明に失敗する。

The impact of weak disorder and its spatial correlation on the topology of a Floquet system is not well understood so far. In this study, we investigate a model closely related to a two-dimensional Floquet system that has been realized in experiments. In the absence of disorder, we determine the phase diagram and identify a new phase characterized by edge states with alternating chirality in adjacent gaps. When weak disorder is introduced, we examine the disorder-averaged Bott index and analyze why the anomalous Floquet topological insulator is favored by both uncorrelated and correlated disorder, with the latter having a stronger effect. For a system with a ring-shaped gap, the Born approximation fails to explain the topological phase transition, unlike for a system with a point-like gap.
翻訳日:2023-09-14 13:39:06 公開日:2023-09-13
# 主観的NLP課題におけるソシオドモグラフィー情報の利用方法(Not)

How (Not) to Use Sociodemographic Information for Subjective NLP Tasks ( http://arxiv.org/abs/2309.07034v1 )

ライセンス: Link先を確認
Tilman Beck, Hendrik Schuff, Anne Lauscher, Iryna Gurevych(参考訳) 注釈者の社会デモグラフィ的背景(すなわち、性別、年齢、教育的背景などの個々の構成)は、ヘイトスピーチ検出のような主観的なnlpタスクに取り組む際に、彼らの決定に強い影響を与える。 不均一な背景はしばしば高い相違をもたらす。 この変異をモデル化するために、最近の研究は、特定の社会デモグラフィプロファイルを持つ人間が与えるであろう答えに対して、プロンプトベースのモデルの出力を制御する手法である社会デモグラフィープロンシングを探求している。 しかし、利用可能なnlp文献は、このテクニックの有効性に異議を唱えている。どのタスクやシナリオが役に立つのか、評価は特定のタスクのみに限られている。 我々は,この研究のギャップを,今日最も大きく包括的な社会デマトグラフィー研究によって解決している。 具体的には、7つのデータセットと6つの命令調整モデルファミリにまたがるいくつかの迅速な定式化を評価する。 その結果,(1)主観的nlpタスクにおけるゼロショット学習の改善に社会デポジトリプロンプトが有効である一方で,(2)モデルの種類,サイズ,データセットによって結果が大きく異なり,(3)プロンプト定式化には大きなばらつきがあることがわかった。 したがって、社会デマトグラフィーのプロンプトは、社会デマトグラフィー的に異質なアノテータ群を持つ従来のデータアノテーションの信頼できるプロキシではない。 代わりに、より情報に富んだアノテーションの取り組みをもたらすあいまいなインスタンスを特定するために(4)を提案する。

Annotators' sociodemographic backgrounds (i.e., the individual compositions of their gender, age, educational background, etc.) have a strong impact on their decisions when working on subjective NLP tasks, such as hate speech detection. Often, heterogeneous backgrounds result in high disagreements. To model this variation, recent work has explored sociodemographic prompting, a technique, which steers the output of prompt-based models towards answers that humans with specific sociodemographic profiles would give. However, the available NLP literature disagrees on the efficacy of this technique -- it remains unclear, for which tasks and scenarios it can help and evaluations are limited to specific tasks only. We address this research gap by presenting the largest and most comprehensive study of sociodemographic prompting today. Concretely, we evaluate several prompt formulations across seven datasets and six instruction-tuned model families. We find that (1) while sociodemographic prompting can be beneficial for improving zero-shot learning in subjective NLP tasks, (2) its outcomes largely vary for different model types, sizes, and datasets, (3) are subject to large variance with regards to prompt formulations. Thus, sociodemographic prompting is not a reliable proxy for traditional data annotation with a sociodemographically heterogeneous group of annotators. Instead, we propose (4) to use it for identifying ambiguous instances resulting in more informed annotation efforts.
翻訳日:2023-09-14 13:38:50 公開日:2023-09-13
# 有向重み付きグラフのための最適輸送距離:細胞間通信網を用いたケーススタディ

Optimal transport distances for directed, weighted graphs: a case study with cell-cell communication networks ( http://arxiv.org/abs/2309.07030v1 )

ライセンス: Link先を確認
James S. Nagai (1), Ivan G. Costa (1) and Michael T. Schaub (2) ((1) Institute for Computational Genomics, RWTH Aachen Medical Faculty, Germany, (2) Department of Computer Science, RWTH Aachen University, Germany)(参考訳) 最適輸送によって引き起こされる距離は、グラフ間の原理的な計量と、輸送計画の観点からのグラフ間の関連する変化の解釈可能な記述の両方を提供するため、最適輸送のグラフを比較することは近年大きな注目を集めている。 対称性の欠如が典型的に考慮された定式化の課題をもたらすため、グラフの最適輸送距離は、主に無向グラフのために開発された。 ここでは、最適輸送の変種に基づく有向グラフの比較のための2つの距離測度を提案する。 (i)地球移動距離(wasserstein)及び (II)Gromov-Wasserstein (GW) 距離。 これら2つの距離を評価し,単細胞rna-seqデータから推定したシミュレーショングラフデータと実世界のセル間通信グラフの相対的性能について検討した。

Comparing graphs of optimal transport has recently gained significant attention, as the distances induced by optimal transport provide both a principled metric between graphs as well as an interpretable description of the associated changes between graphs in terms of a transport plan. As the lack of symmetry introduces challenges in the typically considered formulations, optimal transport distances for graphs have mostly been developed for undirected graphs. Here, we propose two distance measures to compare directed graphs based on variants of optimal transport: (i) an earth movers distance (Wasserstein) and (ii) a Gromov-Wasserstein (GW) distance. We evaluate these two distances and discuss their relative performance for both simulated graph data and real-world directed cell-cell communication graphs, inferred from single-cell RNA-seq data.
翻訳日:2023-09-14 13:38:22 公開日:2023-09-13
# データフローエンジンによる高速ボソンサンプリングシミュレーション

High performance Boson Sampling simulation via data-flow engines ( http://arxiv.org/abs/2309.07027v1 )

ライセンス: Link先を確認
Gregory Morse, Tomasz Rybotycki, \'Agoston Kaposi, Zolt\'an Kolarovszki, Uros Stojic, Tam\'as Kozsik, Oskar Mencer, Micha{\l} Oszmaniec, Zolt\'an Zimbor\'as, P\'eter Rakyta(参考訳) 本研究では,Balasubramanian-Bax-Franklin-Glynn (BB/FG) の恒常式を一般化し,永続的評価における行乗数を考慮した。 これは、評価中に加算のn-ary Grayコード順序を組み込むことによって達成される。 FPGAベースのデータフローエンジン上で設計したアルゴリズムを実装し,4ドルのFPGAチップを用いて,60ドルモード干渉計のサンプルを1秒あたり平均$\sim80$秒で描画することにより,ボソンサンプリングシミュレーションを最大40ドルまで高速化した。 また,BSシミュレータの性能はClifford \& Clifford \cite{clifford2020faster} の理論的推定と一致し,BSシミュレータの性能を可搬性で特徴付けるための単一のパラメータを定義する方法を提供する。 開発された設計は、理想と損失の大きいボソンサンプリング実験の両方をシミュレートすることができる。

In this work, we generalize the Balasubramanian-Bax-Franklin-Glynn (BB/FG) permanent formula to account for row multiplicities during the permanent evaluation and reduce the complexity of permanent evaluation in scenarios where such multiplicities occur. This is achieved by incorporating n-ary Gray code ordering of the addends during the evaluation. We implemented the designed algorithm on FPGA-based data-flow engines and utilized the developed accessory to speed up boson sampling simulations up to $40$ photons, by drawing samples from a $60$ mode interferometer at an averaged rate of $\sim80$ seconds per sample utilizing $4$ FPGA chips. We also show that the performance of our BS simulator is in line with the theoretical estimation of Clifford \& Clifford \cite{clifford2020faster} providing a way to define a single parameter to characterize the performance of the BS simulator in a portable way. The developed design can be used to simulate both ideal and lossy boson sampling experiments.
翻訳日:2023-09-14 13:38:06 公開日:2023-09-13
# Whisperは音声によるインコンテキスト学習を実現できるか

Can Whisper perform speech-based in-context learning ( http://arxiv.org/abs/2309.07081v1 )

ライセンス: Link先を確認
Siyin Wang, Chao-Han Huck Yang, Ji Wu, Chao Zhang(参考訳) 本稿では,OpenAIがリリースしたWhisper自動音声認識(ASR)モデルのコンテキスト内学習能力について検討する。 単語誤り率 (wers) を少数のラベル付き音声サンプルで低減し, 勾配降下を伴わずに単語誤り率を低減できる, 新たな音声ベースインコンテキスト学習 (sicl) 手法を提案する。 中国語の方言を用いた言語レベルの適応実験では、SICLを孤立した単語ASRに適用する場合、平均32.3%のWhisperモデルを用いて、一貫した相対的なWER削減を実現することができた。 k-nearest-neighbours-based in-context example selection techniqueを適用すれば、SICLの効率をさらに向上することができ、平均相対的なWER低減を36.4%に向上させることができる。 その結果,話者適応や連続音声認識タスクを用いて検証し,相対的なWER削減を実現した。 詳細な定量的分析も提供され、SICLの音韻的変化や方言固有の語彙への適応性に光を当てている。

This paper investigates the in-context learning abilities of the Whisper automatic speech recognition (ASR) models released by OpenAI. A novel speech-based in-context learning (SICL) approach is proposed for test-time adaptation, which can reduce the word error rates (WERs) with only a small number of labelled speech samples without gradient descent. Language-level adaptation experiments using Chinese dialects showed that when applying SICL to isolated word ASR, consistent and considerable relative WER reductions can be achieved using Whisper models of any size on two dialects, which is on average 32.3%. A k-nearest-neighbours-based in-context example selection technique can be applied to further improve the efficiency of SICL, which can increase the average relative WER reduction to 36.4%. The findings are verified using speaker adaptation or continuous speech recognition tasks, and both achieved considerable relative WER reductions. Detailed quantitative analyses are also provided to shed light on SICL's adaptability to phonological variances and dialect-specific lexical nuances.
翻訳日:2023-09-14 13:32:34 公開日:2023-09-13
# 深層学習における検証精度・ロバスト性・一般化の境界

The Boundaries of Verifiable Accuracy, Robustness, and Generalisation in Deep Learning ( http://arxiv.org/abs/2309.07072v1 )

ライセンス: Link先を確認
Alexander Bastounis, Alexander N. Gorban, Anders C. Hansen, Desmond J. Higham, Danil Prokhorov, Oliver Sutton, Ivan Y. Tyukin, Qinghua Zhou(参考訳) 本研究では,分類タスクにおけるニューラルネットワークの安定性と精度を保証する理論的限界を評価する。 従来の分布非依存のフレームワークとアルゴリズムは経験的リスクを最小限に抑え、ある程度の重み付け正則化の対象となる可能性がある。 このような理想的なソリューションが与えられたニューラルネットワークのクラス内に存在するとしても、上記の設定で理想的な安定かつ正確なニューラルネットワークを計算し検証する作業は、可能ならば極めて困難であることを示す。

In this work, we assess the theoretical limitations of determining guaranteed stability and accuracy of neural networks in classification tasks. We consider classical distribution-agnostic framework and algorithms minimising empirical risks and potentially subjected to some weights regularisation. We show that there is a large family of tasks for which computing and verifying ideal stable and accurate neural networks in the above settings is extremely challenging, if at all possible, even when such ideal solutions exist within the given class of neural architectures.
翻訳日:2023-09-14 13:32:09 公開日:2023-09-13
# FAIR: 産業用視覚異常検出のための周波数認識画像復元

FAIR: Frequency-aware Image Restoration for Industrial Visual Anomaly Detection ( http://arxiv.org/abs/2309.07068v1 )

ライセンス: Link先を確認
Tongkun Liu, Bing Li, Xiao Du, Bingke Jiang, Leqi Geng, Feiyang Wang, Zhuo Zhao(参考訳) 画像再構成に基づく異常検出モデルは産業視覚検査において広く研究されている。 しかし、既存のモデルでは、通常再現の忠実度と異常再構成の識別性の間のトレードオフに悩まされ、性能が損なわれる。 本稿では,正規化と異常化の異なる周波数バイアスを利用することで,上記のトレードオフを緩和できることを示す。 そこで本研究では,高頻度成分から画像を復元する新しい自己教師あり画像復元タスクである周波数認識画像復元(fair)を提案する。 異常に対する不利な一般化を緩和しながら、正常なパターンを正確に再構築することができる。 単純なバニラUNetだけで、FAIRは様々な欠陥検出データセットで高い効率で最先端のパフォーマンスを達成する。 コード:https://github.com/liutongkun/FAIR。

Image reconstruction-based anomaly detection models are widely explored in industrial visual inspection. However, existing models usually suffer from the trade-off between normal reconstruction fidelity and abnormal reconstruction distinguishability, which damages the performance. In this paper, we find that the above trade-off can be better mitigated by leveraging the distinct frequency biases between normal and abnormal reconstruction errors. To this end, we propose Frequency-aware Image Restoration (FAIR), a novel self-supervised image restoration task that restores images from their high-frequency components. It enables precise reconstruction of normal patterns while mitigating unfavorable generalization to anomalies. Using only a simple vanilla UNet, FAIR achieves state-of-the-art performance with higher efficiency on various defect detection datasets. Code: https://github.com/liutongkun/FAIR.
翻訳日:2023-09-14 13:32:02 公開日:2023-09-13
# 古典密度汎関数理論における外部ポテンシャルの物理インフォームドベイズ推論

Physics-informed Bayesian inference of external potentials in classical density-functional theory ( http://arxiv.org/abs/2309.07065v1 )

ライセンス: Link先を確認
Antonio Malpica-Morales, Peter Yatsyshin, Miguel A. Duran-Olivencia, Serafim Kalliadasis(参考訳) 機械学習(ML)の急速な進歩は、統計力学の領域では気付かれていない。 ML技術は、多くの粒子系の平衡密度プロファイルを決定する自由エネルギー関数の発見を可能にするため、古典密度汎関数理論(DFT)コミュニティから注目を集めている。 DFT内の外部ポテンシャルは、多粒子系と外部磁場との相互作用を考慮し、したがって密度分布に影響を与える。 本稿では,多粒子系に作用する外部ポテンシャルを推測する統計的学習フレームワークを提案する。 ベイズ推論手法と古典的DFT装置を組み合わせることで、外部ポテンシャルを再構成し、外ポテンシャル汎関数形式を本質的に不確実な定量化で確率論的に記述する。 我々のフレームワークは、閉じ込められた幾何学における体積相互作用を排除した大カノニカルな1次元粒子アンサンブルで例示される。 必要なトレーニングデータセットは、グランドカノニカルアンサンブルに外部電位が適用されるモンテカルロ(mc)シミュレーションを用いて生成される。 MCシミュレーションから得られた粒子座標は、外部ポテンシャルを明らかにするために学習フレームワークに入力される。 これにより、DFTのツールを用いてシステムの平衡密度プロファイルを計算することができる。 提案手法は,dft定式化によって計算された真の外部ポテンシャルに対する推定密度のベンチマークを行う。 提案したベイズ法は、外部電位と密度分布を正確に推定する。 また、利用可能なシミュレーションデータ量に基づく外部電位不確実性定量化についても注目する。 この研究で導入された一見単純なケーススタディは、吸着やキャピラリティを含む幅広い応用の研究のプロトタイプとして機能するかもしれない。

The swift progression of machine learning (ML) have not gone unnoticed in the realm of statistical mechanics. ML techniques have attracted attention by the classical density-functional theory (DFT) community, as they enable discovery of free-energy functionals to determine the equilibrium-density profile of a many-particle system. Within DFT, the external potential accounts for the interaction of the many-particle system with an external field, thus, affecting the density distribution. In this context, we introduce a statistical-learning framework to infer the external potential exerted on a many-particle system. We combine a Bayesian inference approach with the classical DFT apparatus to reconstruct the external potential, yielding a probabilistic description of the external potential functional form with inherent uncertainty quantification. Our framework is exemplified with a grand-canonical one-dimensional particle ensemble with excluded volume interactions in a confined geometry. The required training dataset is generated using a Monte Carlo (MC) simulation where the external potential is applied to the grand-canonical ensemble. The resulting particle coordinates from the MC simulation are fed into the learning framework to uncover the external potential. This eventually allows us to compute the equilibrium density profile of the system by using the tools of DFT. Our approach benchmarks the inferred density against the exact one calculated through the DFT formulation with the true external potential. The proposed Bayesian procedure accurately infers the external potential and the density profile. We also highlight the external-potential uncertainty quantification conditioned on the amount of available simulated data. The seemingly simple case study introduced in this work might serve as a prototype for studying a wide variety of applications, including adsorption and capillarity.
翻訳日:2023-09-14 13:31:48 公開日:2023-09-13
# 現代のデジタル法医学とインシデント対応における人工知能と機械学習の役割に関する包括的分析

A Comprehensive Analysis of the Role of Artificial Intelligence and Machine Learning in Modern Digital Forensics and Incident Response ( http://arxiv.org/abs/2309.07064v1 )

ライセンス: Link先を確認
Dipo Dunsin, Mohamed C. Ghanem, Karim Ouazzane, Vassil Vassilev(参考訳) デジタル法医学のダイナミックランドスケープでは、人工知能(AI)と機械学習(ML)の統合は、デジタル法医学の調査の効率と精度を増幅する、変革的な技術である。 しかし、デジタル法医学におけるMLとAIの使用は、まだ初期段階にある。 その結果、本論文は、簡単な調査やレビュー以上の、徹底的で詳細な分析を行っている。 目標は、デジタル法医学とインシデント対応において、AIとMLの技術がどのように使われているか、詳しく調べることである。 本研究では,データ収集とリカバリ,サイバー犯罪タイムラインの複雑な再構築,堅牢なビッグデータ分析,パターン認識,保護チェーンの保護,ハッキング事件に対する対応戦略の編成など,最先端の研究イニシアティブについて検討する。 この取り組みは、AI駆動の方法論がこれらの重要なデジタル法医学の実践を形作っている複雑な方法を明らかにするために、表面のずっと下を掘り下げる。 デジタル法医学におけるaiの約束は明らかであるが、データベースサイズの増加と犯罪戦術の進化から生じる課題は、デジタル法医学の専門分野における継続的な共同研究と洗練を必要とする。 本研究では,既存の研究における貢献,限界,ギャップについて検討し,AIとML技術の可能性と限界に光を当てる。 これらの異なる研究領域を探索することで、デジタル法医学とインシデント対応におけるaiの潜在能力を解き放つための戦略的計画、継続的な研究、開発の必要性を強調する。 この論文は、デジタル法医学におけるaiとmlの統合の重要性を強調し、その利点、欠点、そして現代のサイバー脅威に取り組むための幅広い意味について洞察を提供する。

In the dynamic landscape of digital forensics, the integration of Artificial Intelligence (AI) and Machine Learning (ML) stands as a transformative technology, poised to amplify the efficiency and precision of digital forensics investigations. However, the use of ML and AI in digital forensics is still in its nascent stages. As a result, this paper gives a thorough and in-depth analysis that goes beyond a simple survey and review. The goal is to look closely at how AI and ML techniques are used in digital forensics and incident response. This research explores cutting-edge research initiatives that cross domains such as data collection and recovery, the intricate reconstruction of cybercrime timelines, robust big data analysis, pattern recognition, safeguarding the chain of custody, and orchestrating responsive strategies to hacking incidents. This endeavour digs far beneath the surface to unearth the intricate ways AI-driven methodologies are shaping these crucial facets of digital forensics practice. While the promise of AI in digital forensics is evident, the challenges arising from increasing database sizes and evolving criminal tactics necessitate ongoing collaborative research and refinement within the digital forensics profession. This study examines the contributions, limitations, and gaps in the existing research, shedding light on the potential and limitations of AI and ML techniques. By exploring these different research areas, we highlight the critical need for strategic planning, continual research, and development to unlock AI's full potential in digital forensics and incident response. Ultimately, this paper underscores the significance of AI and ML integration in digital forensics, offering insights into their benefits, drawbacks, and broader implications for tackling modern cyber threats.
翻訳日:2023-09-14 13:31:23 公開日:2023-09-13
# 神経熱磁場による熱状態のリアルタイム量子力学

Real-time quantum dynamics of thermal states with neural thermofields ( http://arxiv.org/abs/2309.07063v1 )

ライセンス: Link先を確認
Jannes Nys, Zakari Denis, Giuseppe Carleo(参考訳) 時間依存型量子多体Schr\"odinger方程式の解法は、特に環境が力学に影響を及ぼす有限温度の状態において難しい問題である。 既存の近似法は、静的な熱密度行列、1d系および/またはゼロ温度状態を表すために設計されている。 本研究では,熱場ダイナミクス,変分モンテカルロ,ニューラルネットワーク量子状態に基づいて,熱状態の2次元の実時間ダイナミクスを研究する手法を提案する。 この目的のために 2つの新しいツールを紹介します (i)無限温度から任意の量子変分状態の冷却を的確にシミュレートする手順 (II) 熱場基底回転を用いた密度行列からの直接サンプリングを可能にする汎用熱(自己回帰)リカレントニューラルネットワーク(ARNNO)アンザッツ。 追加の長手場を対象とする横フィールドイジングモデルに適用し、相関演算子を含む時間依存観測値が4x4スピン格子に対して正確に再現可能であることを示す。 正確なシミュレーションの範囲外に位置する6x6格子上でのリアルタイムダイナミクスの予測を行う。

Solving the time-dependent quantum many-body Schr\"odinger equation is a challenging task, especially for states at a finite temperature, where the environment affects the dynamics. Most existing approximating methods are designed to represent static thermal density matrices, 1D systems, and/or zero-temperature states. In this work, we propose a method to study the real-time dynamics of thermal states in two dimensions, based on thermofield dynamics, variational Monte Carlo, and neural-network quantum states. To this aim, we introduce two novel tools: (i) a procedure to accurately simulate the cooling down of arbitrary quantum variational states from infinite temperature, and (ii) a generic thermal (autoregressive) recurrent neural-network (ARNNO) Ansatz that allows for direct sampling from the density matrix using thermofield basis rotations. We apply our technique to the transverse-field Ising model subject to an additional longitudinal field and demonstrate that the time-dependent observables, including correlation operators, can be accurately reproduced for a 4x4 spin lattice. We provide predictions of the real-time dynamics on a 6x6 lattice that lies outside the reach of exact simulations.
翻訳日:2023-09-14 13:30:52 公開日:2023-09-13
# 超伝導量子回路の高速フラックスアクティブリーク低減

Fast Flux-Activated Leakage Reduction for Superconducting Quantum Circuits ( http://arxiv.org/abs/2309.07060v1 )

ライセンス: Link先を確認
Nathan Lacroix, Luca Hofele, Ants Remm, Othmane Benhayoune-Khadraoui, Alexander McDonald, Ross Shillito, Stefania Lazar, Christoph Hellings, Francois Swiadek, Dante Colao-Zanuz, Alexander Flasby, Mohsen Bahrami Panah, Michael Kerschbaum, Graham J. Norris, Alexandre Blais, Andreas Wallraff, Sebastian Krinner(参考訳) 量子コンピュータは、従来のコンピュータの能力を超える問題を解くのに必要な低いエラー率に達するために、量子エラー補正を必要とする。 複数の技術プラットフォームにわたる量子誤り訂正符号の性能を制限する主要な誤りの1つは、qubit実装のマルチレベル構造から生じる計算サブスペースの漏洩である。 本稿では、パラメトリックフラックス変調を用いた超電導量子ビットの資源効率の高いユニバーサルリーク低減ユニットを提案する。 この操作は、計算サブスペースに2.5(1)\cdot 10^{-3}$という低い誤差で約50\, \mathrm{ns}$の7\cdot 10^{-4}$という測定精度でリークを取り除き、シングルキュービットゲートと同等の持続時間とフィディティに到達します。 重み2スタビライザの繰り返し測定における漏洩低減ユニットを用いることで,検出された誤差の総数をスケーラブルな方法で削減し,スケールしない漏洩除去法で達成できることを実証する。 このアプローチでは、追加の制御エレクトロニクスやオンチップコンポーネントは必要とせず、補助キュービットとデータキュービットの両方に適用できる。 これらの利点は,大規模量子誤り訂正回路における漏洩の軽減に特に役立ち,フォールトトレラント量子計算の実用的実装に欠かせない要件である。

Quantum computers will require quantum error correction to reach the low error rates necessary for solving problems that surpass the capabilities of conventional computers. One of the dominant errors limiting the performance of quantum error correction codes across multiple technology platforms is leakage out of the computational subspace arising from the multi-level structure of qubit implementations. Here, we present a resource-efficient universal leakage reduction unit for superconducting qubits using parametric flux modulation. This operation removes leakage down to our measurement accuracy of $7\cdot 10^{-4}$ in approximately $50\, \mathrm{ns}$ with a low error of $2.5(1)\cdot 10^{-3}$ on the computational subspace, thereby reaching durations and fidelities comparable to those of single-qubit gates. We demonstrate that using the leakage reduction unit in repeated weight-two stabilizer measurements reduces the total number of detected errors in a scalable fashion to close to what can be achieved using leakage-rejection methods which do not scale. Our approach does neither require additional control electronics nor on-chip components and is applicable to both auxiliary and data qubits. These benefits make our method particularly attractive for mitigating leakage in large-scale quantum error correction circuits, a crucial requirement for the practical implementation of fault-tolerant quantum computation.
翻訳日:2023-09-14 13:30:12 公開日:2023-09-13
# Deep Quantum Graph Dreaming: ニューラルネットワークの洞察を量子実験に解読する

Deep Quantum Graph Dreaming: Deciphering Neural Network Insights into Quantum Experiments ( http://arxiv.org/abs/2309.07056v1 )

ライセンス: Link先を確認
Tareq Jaouni, S\"oren Arlt, Carlos Ruiz-Gonzalez, Ebrahim Karimi, Xuemei Gu, Mario Krenn(参考訳) 新たな科学的発見を促進するという彼らの約束にもかかわらず、ニューラルネットワークの不透明さは、彼らの発見の背後にある論理を解釈する上での課題である。 ここでは、コンピュータビジョンのための機械学習で発明された$inception$または$deep$$dreaming$と呼ばれるeXplainable-AI(XAI)技術を使用します。 この技術を使って、ニューラルネットワークが量子光学実験で何を学ぶかを調べる。 私たちのストーリーは、量子システムの特性に関するディープニューラルネットワークのトレーニングから始まります。 ニューラルネットワークは、特定の特性を持つ量子システムをどのように想像するか、そして、その特性を変更するために量子システムを継続的に修正するかを、効果的に問う。 ネットワークは量子システムの特性の初期分布をシフトすることができ、ニューラルネットワークの学習戦略を概念化することができる。 興味深いことに、第1層ではニューラルネットワークが単純な特性を識別する一方で、より深い層では複雑な量子構造や量子絡み合いを識別できる。 これはコンピュータビジョンで知られている長い誤解された特性を思い出させるもので、現在では複雑な自然科学のタスクで特定されている。 我々のアプローチは、量子物理学における新しい高度なAIベースの科学発見技術を開発するために、より解釈可能な方法で役立つかもしれない。

Despite their promise to facilitate new scientific discoveries, the opaqueness of neural networks presents a challenge in interpreting the logic behind their findings. Here, we use a eXplainable-AI (XAI) technique called $inception$ or $deep$ $dreaming$, which has been invented in machine learning for computer vision. We use this techniques to explore what neural networks learn about quantum optics experiments. Our story begins by training a deep neural networks on the properties of quantum systems. Once trained, we "invert" the neural network -- effectively asking how it imagines a quantum system with a specific property, and how it would continuously modify the quantum system to change a property. We find that the network can shift the initial distribution of properties of the quantum system, and we can conceptualize the learned strategies of the neural network. Interestingly, we find that, in the first layers, the neural network identifies simple properties, while in the deeper ones, it can identify complex quantum structures and even quantum entanglement. This is in reminiscence of long-understood properties known in computer vision, which we now identify in a complex natural science task. Our approach could be useful in a more interpretable way to develop new advanced AI-based scientific discovery techniques in quantum physics.
翻訳日:2023-09-14 13:29:47 公開日:2023-09-13
# エージェント・イン・セルモデルにおける地理空間的テッセルレーション:パンデミックのエージェントベースモデリングのためのフレームワーク

Geospatial Tessellation in the Agent-In-Cell Model: A Framework for Agent-Based Modeling of Pandemic ( http://arxiv.org/abs/2309.07055v1 )

ライセンス: Link先を確認
Amir Mohammad Esmaieeli Sikaroudi, Alon Efrat, Michael Chertkov(参考訳) エージェントベースシミュレーションは、様々な分野にまたがる複雑なシステムや現象を分析するために、多用途で強力な計算モデリング技術である。 しかし、その計算強度のため、地理的に考慮された場合、エージェントベースのモデルはより資源需要が高まる。 本研究は,都市を模擬したエージェントベースモデル「Adnt-in-the-cell」を製作するための多様な戦略を考察する。 これらのモデルは、都市の地理的属性を取り入れ、safegraphの公開データセットから実世界のオープンソースのモビリティデータを活用し、さまざまなシナリオで拡散する新型コロナウイルスのダイナミクスをシミュレートする。 エイジェント・イン・ザ・セル(agent-in-the-cell)」という概念は、我々の代表的エージェントであるメタエイジェントが、市内のテッセル化の特定の家庭細胞と結びついていることを示している。 我々は,モビリティマップの複雑度が異なるテッセレーションを調査し,実人口のマッチングから計算効率のための(メタ)エージェント数の減少まで,エージェント密度を実験する。 以上の結果から, 街路ネットワーク上の特定位置のボロノイ図に従って構築されたテッセレーションは, 国勢調査ブロック群テッセレーションに比べてダイナミックスを保ち, ユークリッド系テッセレーションよりも優れていることが示された。 さらに、Voronoi Diagramテッセルレーションと、Voronoi DiagramとCensus Block Groupベースのハイブリッドは、フルスケールのダイナミクスを適切に近似するためにメタエージェントを少なくする必要がある。 解析対象は米国内の都市規模で,小規模(サンタfe,nm),中規模(seattle,wa),大規模都市(chicago,il)を対象とする。 本試験は, エージェント数削減効果, 感度指標の変化, 都市固有の要因の影響について, 貴重な知見を提供する。

Agent-based simulation is a versatile and potent computational modeling technique employed to analyze intricate systems and phenomena spanning diverse fields. However, due to their computational intensity, agent-based models become more resource-demanding when geographic considerations are introduced. This study delves into diverse strategies for crafting a series of Agent-Based Models, named "agent-in-the-cell," which emulate a city. These models, incorporating geographical attributes of the city and employing real-world open-source mobility data from Safegraph's publicly available dataset, simulate the dynamics of COVID spread under varying scenarios. The "agent-in-the-cell" concept designates that our representative agents, called meta-agents, are linked to specific home cells in the city's tessellation. We scrutinize tessellations of the mobility map with varying complexities and experiment with the agent density, ranging from matching the actual population to reducing the number of (meta-) agents for computational efficiency. Our findings demonstrate that tessellations constructed according to the Voronoi Diagram of specific location types on the street network better preserve dynamics compared to Census Block Group tessellations and better than Euclidean-based tessellations. Furthermore, the Voronoi Diagram tessellation and also a hybrid -- Voronoi Diagram - and Census Block Group - based -- tessellation require fewer meta-agents to adequately approximate full-scale dynamics. Our analysis spans a range of city sizes in the United States, encompassing small (Santa Fe, NM), medium (Seattle, WA), and large (Chicago, IL) urban areas. This examination also provides valuable insights into the effects of agent count reduction, varying sensitivity metrics, and the influence of city-specific factors.
翻訳日:2023-09-14 13:29:25 公開日:2023-09-13
# 逆パッチ攻撃に対するRGB-D物体認識システムの強化

Hardening RGB-D Object Recognition Systems against Adversarial Patch Attacks ( http://arxiv.org/abs/2309.07106v1 )

ライセンス: Link先を確認
Yang Zheng, Luca Demetrio, Antonio Emanuele Cin\`a, Xiaoyi Feng, Zhaoqiang Xia, Xiaoyue Jiang, Ambra Demontis, Battista Biggio, Fabio Roli(参考訳) RGB-Dオブジェクト認識システムは、色と深度情報を融合することで予測性能を改善し、色のみに依存するニューラルネットワークアーキテクチャより優れている。 RGB-Dシステムは、RGBのみのシステムよりも敵のシステムの方が堅牢であると予想されているが、非常に脆弱であることが証明されている。 そのロバスト性は、元の画像の色だけを変更して敵の例を生成する場合でも似ている。 異なる作品がrgb-dシステムの脆弱性を強調しているが、この弱点に関する技術的な説明が欠けている。 したがって、本研究では、RGB-Dシステムの学習された深部表現を調査し、色特徴がネットワークによって学習される機能をより複雑にし、小さな摂動に敏感にすることで、このギャップを埋める。 この問題を軽減するために,RGB-Dシステムに対してより堅牢な検出機構に基づく防御手法を提案する。 提案手法は,この検出機構を回避するためにアドホックを計算した場合でも,敵例に対するrgb-dシステムの性能が向上し,また,敵の訓練よりも効果的であることを示す。

RGB-D object recognition systems improve their predictive performances by fusing color and depth information, outperforming neural network architectures that rely solely on colors. While RGB-D systems are expected to be more robust to adversarial examples than RGB-only systems, they have also been proven to be highly vulnerable. Their robustness is similar even when the adversarial examples are generated by altering only the original images' colors. Different works highlighted the vulnerability of RGB-D systems; however, there is a lacking of technical explanations for this weakness. Hence, in our work, we bridge this gap by investigating the learned deep representation of RGB-D systems, discovering that color features make the function learned by the network more complex and, thus, more sensitive to small perturbations. To mitigate this problem, we propose a defense based on a detection mechanism that makes RGB-D systems more robust against adversarial examples. We empirically show that this defense improves the performances of RGB-D systems against adversarial examples even when they are computed ad-hoc to circumvent this detection mechanism, and that is also more effective than adversarial training.
翻訳日:2023-09-14 13:21:20 公開日:2023-09-13
# グローバルが局所化:グローバルマスター方程式の効率的な多体力学

Global becomes local: Efficient many-body dynamics for global master equations ( http://arxiv.org/abs/2309.07105v1 )

ライセンス: Link先を確認
Alexander Schnell(参考訳) この研究は、グローバル対ローカルマスター方程式の問題に進展をもたらす。 レッドフィールドマスター方程式のような大域的マスター方程式(標準ボルン近似やマルコフ近似に従う)は、ハミルトニアン系を完全に対角化する必要がある。 これは量子多体系の相互作用には特に困難である。 我々は、相反(エネルギー)空間における短波相関時間展開について議論し、ハミルトニアンの対角化を避けるジャンプ作用素の連続展開をもたらす。 局所的に1つの場所に結合された浴場の場合、これは典型的には、局所的なオペレーターの観点から、グローバルなレッドフィールドジャンプ演算子の拡張につながる。 さらに、局所レッドフィールドマスター方程式を近似したリンドブラッド形式にマッピングし、より広い体系のクラスに適用できる一方で、従来の局所リンドブラッドアプローチと同じ概念上の利点を持つ方程式を与える。 我々のアイデアは局所マスター方程式の非ヒューリスティックな基礎を生み出し、確立された多体法と組み合わせることができる。

This work makes progress on the issue of global- vs. local- master equations. Global master equations like the Redfield master equation (following from standard Born- and Markov- approximation) require a full diagonalization of the system Hamiltonian. This is especially challenging for interacting quantum many-body systems. We discuss a short-bath-correlation-time expansion in reciprocal (energy) space, leading to a series expansion of the jump operator, which avoids a diagonalization of the Hamiltonian. For a bath that is coupled locally to one site, this typically leads to an expansion of the global Redfield jump operator in terms of local operators. We additionally map the local Redfield master equation to an approximate Lindblad form, giving an equation which has the same conceptual advantages of traditional local Lindblad approaches, while being applicable in a much broader class of systems. Our ideas give rise to a non-heuristic foundation of local master equations, which can be combined with established many-body methods.
翻訳日:2023-09-14 13:20:58 公開日:2023-09-13
# 視点非依存な単眼3D車両検出のための多角形断面積損失

Polygon Intersection-over-Union Loss for Viewpoint-Agnostic Monocular 3D Vehicle Detection ( http://arxiv.org/abs/2309.07104v1 )

ライセンス: Link先を確認
Derek Gloudemans, Xinxuan Lu, Shepard Xia, Daniel B. Work(参考訳) 2次元画像から深度情報を得るのが難しいため,モノクロ3次元物体検出は難しい課題である。 視点に依存しない3d検出手法のサブセットは、トレーニング中にシーンのホモグラフィーや幾何学を明示的に活用していない。 このような研究は、画像平面上の3D境界ボックスの投影を予測して3Dボックスの位置を推定するが、これらの投影は長方形ではないため、これらの投影されたポリゴン間のIoUの計算は簡単ではない。 本研究では、2つの凸多角形間のIoUの計算を効率よく完全に微分可能なアルゴリズムを提案し、任意の角度から見る2つの3次元境界ボックスフットプリント間のIoUの計算に利用できる。 提案する多角形iou損失(piou損失)の性能を3つの最先端視点非依存3次元検出モデルで検証した。 実験により、提案したPIoU損失はL1損失よりも早く収束し、3次元検出モデルでは、PIoU損失とL1損失の組み合わせはL1損失単独よりも優れた結果が得られる(自動車では+1.64% AP70、自動車では+0.18% AP70、自転車では+0.83%/+2.46% AP50/AP25)。

Monocular 3D object detection is a challenging task because depth information is difficult to obtain from 2D images. A subset of viewpoint-agnostic monocular 3D detection methods also do not explicitly leverage scene homography or geometry during training, meaning that a model trained thusly can detect objects in images from arbitrary viewpoints. Such works predict the projections of the 3D bounding boxes on the image plane to estimate the location of the 3D boxes, but these projections are not rectangular so the calculation of IoU between these projected polygons is not straightforward. This work proposes an efficient, fully differentiable algorithm for the calculation of IoU between two convex polygons, which can be utilized to compute the IoU between two 3D bounding box footprints viewed from an arbitrary angle. We test the performance of the proposed polygon IoU loss (PIoU loss) on three state-of-the-art viewpoint-agnostic 3D detection models. Experiments demonstrate that the proposed PIoU loss converges faster than L1 loss and that in 3D detection models, a combination of PIoU loss and L1 loss gives better results than L1 loss alone (+1.64% AP70 for MonoCon on cars, +0.18% AP70 for RTM3D on cars, and +0.83%/+2.46% AP50/AP25 for MonoRCNN on cyclists).
翻訳日:2023-09-14 13:20:42 公開日:2023-09-13
# ソース・コントラストおよび言語・コントラスト・デコーディングによる幻覚とオフターゲット機械翻訳の緩和

Mitigating Hallucinations and Off-target Machine Translation with Source-Contrastive and Language-Contrastive Decoding ( http://arxiv.org/abs/2309.07098v1 )

ライセンス: Link先を確認
Rico Sennrich and Jannis Vamvas and Alireza Mohammadshahi(参考訳) 幻覚やオフターゲット翻訳は、特に低リソース言語や多言語モデルにおいて、機械翻訳において未解決の問題である。 本稿では,再学習や外部モデルを必要とせず,デコード目的の修正による障害ケースの緩和手法を提案する。 ソース・コントラスト復号法では、正しい入力が与えられたとしても、ランダムな入力セグメントが与えられない翻訳を探索し、幻覚も同様の確率で与えられると仮定する。 言語結合型デコードでは、間違った言語指示トークンを考えると、あり得るが、あり得ない翻訳を探索する。 M2M-100 (418M) と SMaLL-100 の実験では,これらの手法は幻覚や標的外翻訳を効果的に抑制し,57 の検定翻訳方向において,chrF2 を平均 1.7 および 1.4 ポイント改善する。 また,英語-ドイツ語における概念実証において,llama 2チャットモデルを用いて目標外の翻訳を抑制できることを示し,llmsを用いた機械翻訳への適用性を示した。 ソースコードはhttps://github.com/ZurichNLP/ContraDecode.comで公開しています。

Hallucinations and off-target translation remain unsolved problems in machine translation, especially for low-resource languages and massively multilingual models. In this paper, we introduce methods to mitigate both failure cases with a modified decoding objective, without requiring retraining or external models. In source-contrastive decoding, we search for a translation that is probable given the correct input, but improbable given a random input segment, hypothesising that hallucinations will be similarly probable given either. In language-contrastive decoding, we search for a translation that is probable, but improbable given the wrong language indicator token. In experiments on M2M-100 (418M) and SMaLL-100, we find that these methods effectively suppress hallucinations and off-target translations, improving chrF2 by 1.7 and 1.4 points on average across 57 tested translation directions. In a proof of concept on English--German, we also show that we can suppress off-target translations with the Llama 2 chat models, demonstrating the applicability of the method to machine translation with LLMs. We release our source code at https://github.com/ZurichNLP/ContraDecode.
翻訳日:2023-09-14 13:19:39 公開日:2023-09-13
# RadarLCD: 学習可能なレーダベースループクロージャ検出パイプライン

RadarLCD: Learnable Radar-based Loop Closure Detection Pipeline ( http://arxiv.org/abs/2309.07094v1 )

ライセンス: Link先を確認
Mirko Usuelli, Matteo Frosi, Paolo Cudrano, Simone Mentasti, Matteo Matteucci(参考訳) ループクロージャ検出(LCD)は、ロボット工学とコンピュータビジョンにおいて必須のタスクであり、多様な領域にわたる様々なアプリケーションの基本となる。 これらのアプリケーションは、オブジェクト認識、画像検索、ビデオ分析を包含する。 LCDは、以前に訪れた場所(ループと呼ばれる)にロボットが戻ったかどうかを特定し、分析された場所について関連するロト翻訳を推定する。 さまざまな気象条件下での運用能力や、他の一般的なセンサー(カメラやライダーなど)よりも広い視野を提供するなど、レーダーセンサーの多くの利点にもかかわらず、レーダーデータの統合は、本質的なノイズや歪みのために厳しい課題である。 この課題に対処するために,FMCWレーダ(周波数変調連続波)センサを用いたループクロージャ検出専用に設計された新しい教師付きディープラーニングパイプラインであるRadarLCDを紹介する。 レーダシステム用に明示的に設計された学習型LCD手法であるRadarLCDは、事前訓練されたHERO(Hybrid Estimation Radar Odometry)モデルを活用することで大きな貢献をしている。 HEROはもともとレーダーオドメトリーのために開発されたもので、LCDタスクに不可欠なキーポイントを選択するために使用される。 この手法は、様々なFMCW Radarデータセットシーンで評価を行い、Scan Context for Place RecognitionやICP for Loop Closureといった最先端システムと比較される。 その結果,RadarLCDはループクロージャ検出の複数の側面において代替品を上回ることがわかった。

Loop Closure Detection (LCD) is an essential task in robotics and computer vision, serving as a fundamental component for various applications across diverse domains. These applications encompass object recognition, image retrieval, and video analysis. LCD consists in identifying whether a robot has returned to a previously visited location, referred to as a loop, and then estimating the related roto-translation with respect to the analyzed location. Despite the numerous advantages of radar sensors, such as their ability to operate under diverse weather conditions and provide a wider range of view compared to other commonly used sensors (e.g., cameras or LiDARs), integrating radar data remains an arduous task due to intrinsic noise and distortion. To address this challenge, this research introduces RadarLCD, a novel supervised deep learning pipeline specifically designed for Loop Closure Detection using the FMCW Radar (Frequency Modulated Continuous Wave) sensor. RadarLCD, a learning-based LCD methodology explicitly designed for radar systems, makes a significant contribution by leveraging the pre-trained HERO (Hybrid Estimation Radar Odometry) model. Being originally developed for radar odometry, HERO's features are used to select key points crucial for LCD tasks. The methodology undergoes evaluation across a variety of FMCW Radar dataset scenes, and it is compared to state-of-the-art systems such as Scan Context for Place Recognition and ICP for Loop Closure. The results demonstrate that RadarLCD surpasses the alternatives in multiple aspects of Loop Closure Detection.
翻訳日:2023-09-14 13:19:11 公開日:2023-09-13
# 量子メトロポリスサンプリングによる非アベリアドルD_4$格子ゲージ理論の熱平均の量子計算

Quantum Computation of Thermal Averages for a Non-Abelian $D_4$ Lattice Gauge Theory via Quantum Metropolis Sampling ( http://arxiv.org/abs/2309.07090v1 )

ライセンス: Link先を確認
Edoardo Ballini, Giuseppe Clemente, Massimo D'Elia, Lorenzo Maio, and Kevin Zambello(参考訳) 本稿では,離散非可換ゲージ群 $d_4$ in (2+1)-dimensions を持つトイゲージ理論に対する量子メトロポリスサンプリング (qms) アルゴリズムの適用について述べる。 特に、ゲージ不変性を保持し、物理的ヒルベルト空間上で推移的に作用するランダムユニタリ作用素の構成について論じ、ゲージ不変固有空間間の量子メトロポリスのエルゴード集合を構成し、ゲージ不変測度のプロトコルを導入する。 さらに, エネルギー測定における有限分解能がqmsによるエネルギー分布とプラーペット分布を歪めていることを示すとともに, 計算結果と解析結果との偏差の一部を考慮し, エネルギー測定に用いる量子ビット数を増加させることで不一致を解消するヒューリスティックモデルを提案する。

In this paper, we show the application of the Quantum Metropolis Sampling (QMS) algorithm to a toy gauge theory with discrete non-Abelian gauge group $D_4$ in (2+1)-dimensions, discussing in general how some components of hybrid quantum-classical algorithms should be adapted in the case of gauge theories. In particular, we discuss the construction of random unitary operators which preserve gauge invariance and act transitively on the physical Hilbert space, constituting an ergodic set of quantum Metropolis moves between gauge invariant eigenspaces, and introduce a protocol for gauge invariant measurements. Furthermore, we show how a finite resolution in the energy measurements distorts the energy and plaquette distribution measured via QMS, and propose a heuristic model that takes into account part of the deviations between numerical results and exact analytical results, whose discrepancy tends to vanish by increasing the number of qubits used for the energy measurements.
翻訳日:2023-09-14 13:18:42 公開日:2023-09-13
# 卵巣癌に対するネオアジュバント化学療法(NACT)の反応予測のための新しい画像マーカーの開発

Developing a Novel Image Marker to Predict the Responses of Neoadjuvant Chemotherapy (NACT) for Ovarian Cancer Patients ( http://arxiv.org/abs/2309.07087v1 )

ライセンス: Link先を確認
Ke Zhang, Neman Abdoli, Patrik Gilley, Youkabed Sadri, Xuxin Chen, Theresa C. Thai, Lauren Dockery, Kathleen Moore, Robert S. Mannel, Yuchen Qiu(参考訳) 目的:ネオアジュバント化学療法(neoadjuvant chemotherapy:nact)は,進行期卵巣癌に対する治療法の一つである。 しかし,腫瘍の多様性により,nactに対する反応は異なるサブグループ間で有意差がみられた。 本研究の目的は,NATの早期に高精度な応答予測を実現するために,新しい画像マーカーを開発することである。 方法: この目的のために, 腫瘍の特徴を定量化するために, 1373個の放射能の特徴を初めて計算し, 幾何学的, 強度, テクスチャ的特徴の3つのカテゴリに分類した。 第二に、これらすべての機能は主成分分析アルゴリズムによって最適化され、コンパクトで情報性の高い特徴クラスタを生成する。 このクラスタを入力として使用し、最終マーカーを作成するためにSVMベースの分類器を開発し、NACT治療に反応する可能性を示した。 この方法を検証するため,卵巣癌患者42例をふりかえり収集した。 モデル性能評価には、ネストしたLeft-outクロスバリデーションが採用された。 結果: 新手法では, auc (roc (receiver characteristic operation) curve) が0.745であった。 一方、モデル全体の精度は76.2%、正の予測値は70%、負の予測値は78.1%であった。 結論: 本研究は, NACT応答予測における放射能に基づく画像マーカーの開発に有意義な情報を提供する。

Objective: Neoadjuvant chemotherapy (NACT) is one kind of treatment for advanced stage ovarian cancer patients. However, due to the nature of tumor heterogeneity, the patients' responses to NACT varies significantly among different subgroups. To address this clinical challenge, the purpose of this study is to develop a novel image marker to achieve high accuracy response prediction of the NACT at an early stage. Methods: For this purpose, we first computed a total of 1373 radiomics features to quantify the tumor characteristics, which can be grouped into three categories: geometric, intensity, and texture features. Second, all these features were optimized by principal component analysis algorithm to generate a compact and informative feature cluster. Using this cluster as the input, an SVM based classifier was developed and optimized to create a final marker, indicating the likelihood of the patient being responsive to the NACT treatment. To validate this scheme, a total of 42 ovarian cancer patients were retrospectively collected. A nested leave-one-out cross-validation was adopted for model performance assessment. Results: The results demonstrate that the new method yielded an AUC (area under the ROC [receiver characteristic operation] curve) of 0.745. Meanwhile, the model achieved overall accuracy of 76.2%, positive predictive value of 70%, and negative predictive value of 78.1%. Conclusion: This study provides meaningful information for the development of radiomics based image markers in NACT response prediction.
翻訳日:2023-09-14 13:18:22 公開日:2023-09-13
# ヘテロジニアスデバイスのためのフェデレーション学習におけるグループバイアスの軽減

Mitigating Group Bias in Federated Learning for Heterogeneous Devices ( http://arxiv.org/abs/2309.07085v1 )

ライセンス: Link先を確認
Khotso Selialia, Yasra Chandio, Fatima M. Anwar(参考訳) Federated Learningは、分散エッジアプリケーションにおけるプライバシ保護モデルトレーニングアプローチとして登場している。 したがって、ほとんどのエッジデプロイメントは本質的に異質であり、その知覚能力と環境はデプロイメントによって異なる。 このエッジの不均一性は、クライアント間でのローカルデータの独立性と同一分布(IID)特性に反し、偏りのあるグローバルモデル、すなわち特定のコミュニティやグループに対する不公平な意思決定と差別に寄与するモデルを生成する。 既存のバイアス緩和技術は、非iidデータのラベルの不均一性から生じるバイアスにのみ焦点をあて、特徴的不均一性によるドメインの変動を考慮せず、グローバルなグループフェア性に対処しない。 本研究では,プライバシ保護と資源利用のオーバーヘッドを伴わずにグループバイアスを最小限に抑えるグループフェアFLフレームワークを提案する。 本研究の主目的は,異種学習データから得られたクロスドメイン群 \textit{importance weights} を計算し,修正乗算重み更新法を用いて最悪のパフォーマンス群の性能を最適化することである。 さらに, バイアス低減とグループ性能劣化のバランスを保ちつつ, 最短群と最良群との差を最小限に抑えるための正規化手法を提案する。 人間の感情認識と画像分類ベンチマークの評価は、実世界の不均一な環境での枠組みの公平な意思決定を評価する。

Federated Learning is emerging as a privacy-preserving model training approach in distributed edge applications. As such, most edge deployments are heterogeneous in nature i.e., their sensing capabilities and environments vary across deployments. This edge heterogeneity violates the independence and identical distribution (IID) property of local data across clients and produces biased global models i.e. models that contribute to unfair decision-making and discrimination against a particular community or a group. Existing bias mitigation techniques only focus on bias generated from label heterogeneity in non-IID data without accounting for domain variations due to feature heterogeneity and do not address global group-fairness property. Our work proposes a group-fair FL framework that minimizes group-bias while preserving privacy and without resource utilization overhead. Our main idea is to leverage average conditional probabilities to compute a cross-domain group \textit{importance weights} derived from heterogeneous training data to optimize the performance of the worst-performing group using a modified multiplicative weights update method. Additionally, we propose regularization techniques to minimize the difference between the worst and best-performing groups while making sure through our thresholding mechanism to strike a balance between bias reduction and group performance degradation. Our evaluation of human emotion recognition and image classification benchmarks assesses the fair decision-making of our framework in real-world heterogeneous settings.
翻訳日:2023-09-14 13:18:00 公開日:2023-09-13
# SupFusion:3Dオブジェクト検出のためのLiDAR-Camera Fusion

SupFusion: Supervised LiDAR-Camera Fusion for 3D Object Detection ( http://arxiv.org/abs/2309.07084v1 )

ライセンス: Link先を確認
Yiran Qin, Chaoqun Wang, Zijian Kang, Ningning Ma, Zhen Li, Ruimao Zhang(参考訳) 本稿では,実効LiDAR-Camera融合のための機能レベルの補助的監視を提供し,検出性能を大幅に向上させるSupFusionと呼ばれる新しいトレーニング戦略を提案する。 我々の戦略はポーラサンプリング(Polar Smpling)と呼ばれるデータ強化手法で、スパースオブジェクトを密度化し、アシスタントモデルを訓練し、監督として高品質な特徴を生成する。 これらの機能はLiDAR-Camera融合モデルをトレーニングするために使用され、融合機能は生成された高品質な機能をシミュレートするために最適化される。 さらに,SupFusion 戦略を用いた従来の核融合法と比較して連続的に性能が向上する,単純で効果的な深層核融合モジュールを提案する。 このようにして、提案は以下の利点を共有します。 まず、SupFusionは追加の推論コストを導入することなくLiDAR-Camera検出性能を向上させる機能レベルの補助的監視を導入する。 第二に、提案された深部核融合は検出器の能力を継続的に改善することができた。 提案するsupfusionおよびdeep fusionモジュールはプラグアンドプレイであり,その効果を実証するための広範な実験を行う。 具体的には,複数のLiDAR-Camera 3D検出器をベースとしたKITTIベンチマークにおいて,約2%の3D mAP改善が得られた。

In this paper, we propose a novel training strategy called SupFusion, which provides an auxiliary feature level supervision for effective LiDAR-Camera fusion and significantly boosts detection performance. Our strategy involves a data enhancement method named Polar Sampling, which densifies sparse objects and trains an assistant model to generate high-quality features as the supervision. These features are then used to train the LiDAR-Camera fusion model, where the fusion feature is optimized to simulate the generated high-quality features. Furthermore, we propose a simple yet effective deep fusion module, which contiguously gains superior performance compared with previous fusion methods with SupFusion strategy. In such a manner, our proposal shares the following advantages. Firstly, SupFusion introduces auxiliary feature-level supervision which could boost LiDAR-Camera detection performance without introducing extra inference costs. Secondly, the proposed deep fusion could continuously improve the detector's abilities. Our proposed SupFusion and deep fusion module is plug-and-play, we make extensive experiments to demonstrate its effectiveness. Specifically, we gain around 2% 3D mAP improvements on KITTI benchmark based on multiple LiDAR-Camera 3D detectors.
翻訳日:2023-09-14 13:17:32 公開日:2023-09-13
# 合成3次元アバターのテキストガイド生成と編集

Text-Guided Generation and Editing of Compositional 3D Avatars ( http://arxiv.org/abs/2309.07125v1 )

ライセンス: Link先を確認
Hao Zhang, Yao Feng, Peter Kulits, Yandong Wen, Justus Thies, Michael J. Black(参考訳) 私たちのゴールは、テキスト記述だけで髪とアクセサリーを備えたリアルな3D顔アバターを作ることです。 この課題は近年大きな関心を集めているが、既存の手法ではリアリズムを欠いたり、非現実的な形状を生み出したり、髪型の変更など編集をサポートしていない。 既存の手法は、頭部、顔、毛髪、アクセサリーの1つの表現を用いて、モノリシックなモデリングアプローチを採用するため、制限されていると我々は主張する。 私たちの観察では、例えば、髪と顔は、異なる表現の恩恵を受ける非常に異なる構造的性質を持っている。 この知見に基づいて、頭、顔、上半身を伝統的な3dメッシュで表現し、髪、衣服、アクセサリーを神経放射野(nerf)で表現した構成モデルによるアバターを生成する。 モデルに基づくメッシュ表現は、顔領域の強力な幾何学的先行を提供し、人の外観の編集を可能にしながら、リアリズムを改善する。 残った成分をNeRFで表現することで、カーリーヘアやふわふわのスカーフのような複雑な形状と外観の部品をモデル化し、合成することができる。 本システムでは,これらの高品質合成アバターをテキスト記述から合成する。 提案手法は,合成アバター(teca)をテキストで生成・編集する手法であり,その構成特性から編集可能でありながら,最近の手法よりもリアルなアバターを生成できることが実証された。 例えば、TECAはヘアスタイル、スカーフ、その他のアクセサリーをアバター間でシームレスに転送することを可能にする。 この機能は仮想トライオンのようなアプリケーションをサポートする。

Our goal is to create a realistic 3D facial avatar with hair and accessories using only a text description. While this challenge has attracted significant recent interest, existing methods either lack realism, produce unrealistic shapes, or do not support editing, such as modifications to the hairstyle. We argue that existing methods are limited because they employ a monolithic modeling approach, using a single representation for the head, face, hair, and accessories. Our observation is that the hair and face, for example, have very different structural qualities that benefit from different representations. Building on this insight, we generate avatars with a compositional model, in which the head, face, and upper body are represented with traditional 3D meshes, and the hair, clothing, and accessories with neural radiance fields (NeRF). The model-based mesh representation provides a strong geometric prior for the face region, improving realism while enabling editing of the person's appearance. By using NeRFs to represent the remaining components, our method is able to model and synthesize parts with complex geometry and appearance, such as curly hair and fluffy scarves. Our novel system synthesizes these high-quality compositional avatars from text descriptions. The experimental results demonstrate that our method, Text-guided generation and Editing of Compositional Avatars (TECA), produces avatars that are more realistic than those of recent methods while being editable because of their compositional nature. For example, our TECA enables the seamless transfer of compositional features like hairstyles, scarves, and other accessories between avatars. This capability supports applications such as virtual try-on.
翻訳日:2023-09-14 13:12:51 公開日:2023-09-13
# RAIN: 言語モデルは微調整なしでテーマを調整できる

RAIN: Your Language Models Can Align Themselves without Finetuning ( http://arxiv.org/abs/2309.07124v1 )

ライセンス: Link先を確認
Yuhui Li, Fangyun Wei, Jinjing Zhao, Chao Zhang, Hongyang Zhang(参考訳) 大型言語モデル(LLM)は人間の好みと矛盾することが多い。 従来の研究では、人間の嗜好データを収集し、強化学習や指導チューニングを用いて事前訓練されたモデルを整列させた。 対照的に、余分なデータなしで凍結したLLMを調整することはより魅力的である。 この研究は、後者の設定の可能性を探求する。 自己評価とリワインド機構を統合することで,非整合llmは自己ブーストを通じて,人間の嗜好と一致した応答を直接生成できることを見出した。 本稿では,事前学習されたllmによる自己生成の評価を可能とし,その評価結果を用いてai安全性のための後方巻き戻しと前方生成を導く新しい推定法であるrewindable auto-regressive inference (rain)を提案する。 特に、RAINはモデルアライメントのための余分なデータを必要とせず、トレーニング、勾配計算、パラメータ更新を中断する。 GPT-4およびヒトで評価された実験結果から, RAINの有効性が示された。HHデータセットでは, RAINはバニラ推論によるLLaMA 30Bの無害率を82%から97%に改善し, 有用性を維持した。 ヴィクナ33bでのllm攻撃において、レインは攻撃成功率を94%から19%に減らし、新たな防御基準を確立している。

Large language models (LLMs) often demonstrate inconsistencies with human preferences. Previous research gathered human preference data and then aligned the pre-trained models using reinforcement learning or instruction tuning, the so-called finetuning step. In contrast, aligning frozen LLMs without any extra data is more appealing. This work explores the potential of the latter setting. We discover that by integrating self-evaluation and rewind mechanisms, unaligned LLMs can directly produce responses consistent with human preferences via self-boosting. We introduce a novel inference method, Rewindable Auto-regressive INference (RAIN), that allows pre-trained LLMs to evaluate their own generation and use the evaluation results to guide backward rewind and forward generation for AI safety. Notably, RAIN operates without the need of extra data for model alignment and abstains from any training, gradient computation, or parameter updates; during the self-evaluation phase, the model receives guidance on which human preference to align with through a fixed-template prompt, eliminating the need to modify the initial prompt. Experimental results evaluated by GPT-4 and humans demonstrate the effectiveness of RAIN: on the HH dataset, RAIN improves the harmlessness rate of LLaMA 30B over vanilla inference from 82% to 97%, while maintaining the helpfulness rate. Under the leading adversarial attack llm-attacks on Vicuna 33B, RAIN establishes a new defense baseline by reducing the attack success rate from 94% to 19%.
翻訳日:2023-09-14 13:12:24 公開日:2023-09-13
# 木構造シェーディング分解

Tree-Structured Shading Decomposition ( http://arxiv.org/abs/2309.07122v1 )

ライセンス: Link先を確認
Chen Geng, Hong-Xing Yu, Sharon Zhang, Maneesh Agrawala, Jiajun Wu(参考訳) 対象のシェーディングのための単一の画像から木構造表現を推定する。 事前の作業は通常、モデルシェーディングにパラメトリックまたは測定された表現を使用するが、これは解釈も編集も容易ではない。 本稿では,基本的なシェーディングノードと合成メソッドを組み合わせたシェードツリー表現を用いて,オブジェクト表面シェーディングを分解する手法を提案する。 シェードツリー表現は、物理的シェーディングプロセスに慣れていない初心者ユーザーが効率よく直感的にオブジェクトシェーディングを編集することを可能にする。 シェードツリーを推定する際の大きな課題は、推測問題は、離散ツリー構造とツリーノードの連続パラメータの両方に関係していることである。 この問題に対処するためのハイブリッドアプローチを提案する。 我々は,木構造とノードパラメータを大まかに推定する自動回帰推論モデルを導入し,最適化アルゴリズムを用いて推定した日陰ツリーを微調整する。 合成画像,キャプチャ反射率,実画像,非現実的なベクトル描画について実験を行い,材料編集,ベクトルシェーディング,照明といった下流の応用を可能にした。 プロジェクトウェブサイト: https://chen-geng.com/inv-shade-trees

We study inferring a tree-structured representation from a single image for object shading. Prior work typically uses the parametric or measured representation to model shading, which is neither interpretable nor easily editable. We propose using the shade tree representation, which combines basic shading nodes and compositing methods to factorize object surface shading. The shade tree representation enables novice users who are unfamiliar with the physical shading process to edit object shading in an efficient and intuitive manner. A main challenge in inferring the shade tree is that the inference problem involves both the discrete tree structure and the continuous parameters of the tree nodes. We propose a hybrid approach to address this issue. We introduce an auto-regressive inference model to generate a rough estimation of the tree structure and node parameters, and then we fine-tune the inferred shade tree through an optimization algorithm. We show experiments on synthetic images, captured reflectance, real images, and non-realistic vector drawings, allowing downstream applications such as material editing, vectorized shading, and relighting. Project website: https://chen-geng.com/inv-shade-trees
翻訳日:2023-09-14 13:11:55 公開日:2023-09-13
# テキストを超えた視点: マルチモーダルトレーニングは、真実と倫理のLLMを促進する

Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness and Ethics ( http://arxiv.org/abs/2309.07120v1 )

ライセンス: Link先を確認
Haoqin Tu, Bingchen Zhao, Chen Wei, Cihang Xie(参考訳) マルチモーダルな大言語モデル(MLLM)は、多モーダルな入力を理解し、テキスト応答を生成する能力が強化された大規模言語モデル(LLM)に基づいて訓練される。 マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。 本研究では,MLLMをMLLMへ移行するための視覚的指導戦略である視覚的指導指導が,純粋NLP文脈における真理性と倫理的整合性の両方を向上する上で,予期せぬ,興味深い結果をもたらすことを示唆する。 例えば、視覚的な指示で調整されたLLaMA2 7Bモデルは、TruthfulQA-mcおよびEthicsベンチマークにおいて、100万人以上のアノテーションで微調整されたLLaMA2-chat 7Bモデルの性能を上回る。 さらに解析により、改善されたアライメントは、視覚テキストデータ固有の優れた命令品質に起因できることが明らかになった。 github.com/UCSC-VLAA/Sight-Beyond-Textでコードを公開する際には、視覚テキストのシナジーの本質的な価値と、より広い範囲において、アライメント研究におけるマルチモーダルインタラクションのさらなる探求を目標としています。

Multi-modal large language models (MLLMs) are trained based on large language models (LLM), with an enhanced capability to comprehend multi-modal inputs and generate textual responses. While they excel in multi-modal tasks, the pure NLP abilities of MLLMs are often underestimated and left untested. In this study, we get out of the box and unveil an intriguing characteristic of MLLMs -- our preliminary results suggest that visual instruction tuning, a prevailing strategy for transitioning LLMs into MLLMs, unexpectedly and interestingly helps models attain both improved truthfulness and ethical alignment in the pure NLP context. For example, a visual-instruction-tuned LLaMA2 7B model surpasses the performance of the LLaMA2-chat 7B model, fine-tuned with over one million human annotations, on TruthfulQA-mc and Ethics benchmarks. Further analysis reveals that the improved alignment can be attributed to the superior instruction quality inherent to visual-text data. In releasing our code at github.com/UCSC-VLAA/Sight-Beyond-Text, we aspire to foster further exploration into the intrinsic value of visual-text synergies and, in a broader scope, multi-modal interactions in alignment research.
翻訳日:2023-09-14 13:11:38 公開日:2023-09-13
# 等方性量子ハイゼンベルク磁石中の準安定キタエフスピン液体

Metastable Kitaev Spin Liquids in Isotropic Quantum Heisenberg Magnets ( http://arxiv.org/abs/2309.07119v1 )

ライセンス: Link先を確認
Ganapathy Baskaran(参考訳) ヒルベルト空間に驚くべき性質を持つ準安定状態が存在する。 我々はハニカム格子における非フラストレーション等方性スピン-ハルフハイゼンベルクモデルについて検討し、自発的対称性の破れにより、2スピンのネマティックな長範囲秩序を持つ \textit{metastable Kitaev spin liquids の出現を見出した。 等方的ハイゼンベルク・ハミルトニアン$H^H$を3つの非可換(置換)なKortoev Hamiltonians, $H^H$ = $H^{K}_{\rm xyz}+H^{K}_{\rm yzx}+H^{K}_{\rm zxy} に分解すると、フラックス自由準安定なKortoev spin liquid vacua} とベクトルフェルミオン(ゴールドストーン様)集合モードの退化が成立する。 我々は、ハミルトニアンの‘textit{symmetric decomposition of Hamiltonians} という方法を導入し、これは、‘textit{designer metalstable phases’ を工法するのに役立つかもしれない。 jackeli-khaliullin-kitaev材料に存在する小さなキタエフ相互作用は、支配的なハイゼンベルクカップリングを持つため、実際の実験で準安定なキタエフスピン液体の特徴をもたらす可能性が高い。 本研究は,異種実数系に存在するエキゾチック準粒子とエキゾチック準安定状態を用いて,量子計算やその他のタスクを実行する可能性を開く。

Metastable states with surprising properties abound in Hilbert space. We study unfrustrated isotropic spin-\half Heisenberg models in honeycomb lattice and find emergence of \textit{metastable Kitaev spin liquids having a 2-spin nematic long range order}, via spontaneous symmetry breaking. Decomposition of isotropic Heisenberg Hamiltonian $H^H$ into an exact sum of 3 noncommuting (permuted) Kitaev Hamiltonians, $H^H$ = $H^{K}_{\rm xyz}+H^{K}_{\rm yzx}+H^{K}_{\rm zxy},$ helps us build a degenerate \textit{manifold of flux free metastable Kitaev spin liquid vacua} and vector Fermionic (Goldstone like) collective modes. We introduce a method, \textit{symmetric decomposition of Hamiltonians}, which might help craft \textit{designer metalstable phases}. It is likely that small Kitaev interactions present in Jackeli-Khaliullin-Kitaev materials, with dominant Heisenberg couplings, bring in metastable Kitaev spin liquid features in real experiments. Present work opens possibilities of performing quantum computation and other tasks, using exotic quasiparticles and exotic metastable states, present in nonexotic real systems.
翻訳日:2023-09-14 13:11:10 公開日:2023-09-13
# PILOT: モデルベースの継続的学習ツールボックス

PILOT: A Pre-Trained Model-Based Continual Learning Toolbox ( http://arxiv.org/abs/2309.07117v1 )

ライセンス: Link先を確認
Hai-Long Sun, Da-Wei Zhou, Han-Jia Ye, De-Chuan Zhan(参考訳) 従来の機械学習は、幅広い問題に効果的に対処できるが、主にクローズドワールド設定内で動作し、ストリーミングデータを扱う際の制限を提示する。 解決策として、インクリメンタルな学習が登場し、新しいデータが到着する実際のシナリオに対処する。 近年、事前訓練は大きな進歩を遂げ、多くの研究者の注目を集めている。 これらの事前学習モデル(PTM)の強力な性能は、現実のシナリオに効果的に適応できる連続学習アルゴリズムを開発するための有望な道を示す。 その結果,段階的学習における PTM の利用を探求することが重要となった。 本稿では,PILOTとして知られるモデルベース連続学習ツールボックスを提案する。 一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。 一方、PILOTは、訓練済みモデルのコンテキスト内に典型的なクラス増分学習アルゴリズム(DER、FOSTER、MEMOなど)を適合させて、それらの効果を評価する。

While traditional machine learning can effectively tackle a wide range of problems, it primarily operates within a closed-world setting, which presents limitations when dealing with streaming data. As a solution, incremental learning emerges to address real-world scenarios involving new data's arrival. Recently, pre-training has made significant advancements and garnered the attention of numerous researchers. The strong performance of these pre-trained models (PTMs) presents a promising avenue for developing continual learning algorithms that can effectively adapt to real-world scenarios. Consequently, exploring the utilization of PTMs in incremental learning has become essential. This paper introduces a pre-trained model-based continual learning toolbox known as PILOT. On the one hand, PILOT implements some state-of-the-art class-incremental learning algorithms based on pre-trained models, such as L2P, DualPrompt, and CODA-Prompt. On the other hand, PILOT also fits typical class-incremental learning algorithms (e.g., DER, FOSTER, and MEMO) within the context of pre-trained models to evaluate their effectiveness.
翻訳日:2023-09-14 13:10:14 公開日:2023-09-13
# 聴覚的話者認証のための弱教師付きマルチタスク学習

Weakly-Supervised Multi-Task Learning for Audio-Visual Speaker Verification ( http://arxiv.org/abs/2309.07115v1 )

ライセンス: Link先を確認
Anith Selvakumar and Homa Fashandi(参考訳) 本稿では,オープンセット音声-視覚話者照合に最適化された頑健なマルチモーダル人物表現を実現する手法を提案する。 距離メトリックラーニング(DML)アプローチは、新しいクラスや目に見えないクラスでの強いパフォーマンスのため、この問題領域を支配してきた。 本研究では,DML手法の性能向上を目的としたマルチタスク学習手法について検討し,弱いラベルを持つ補助課題が学習話者表現のコンパクト性を高めることを示す。 また、ge2e(generalized end-to-end loss)をマルチモーダル入力に拡張し、オーディオ・ビジュアル空間における競争力を発揮できることを実証する。 最後に,学習時間における非同期音声-視覚的サンプリングランダム戦略を導入し,一般化の促進を図った。 本ネットワークは,voxceleb1-eとvoxceleb1-hの3つの公式試用リストにおいて,0.244%,0.252%,0.441%等誤差率 (eer) を報告し,話者検証のための技術性能の状態を実現した。

In this paper, we present a methodology for achieving robust multimodal person representations optimized for open-set audio-visual speaker verification. Distance Metric Learning (DML) approaches have typically dominated this problem space, owing to strong performance on new and unseen classes. In our work, we explored multitask learning techniques to further boost performance of the DML approach and show that an auxiliary task with weak labels can increase the compactness of the learned speaker representation. We also extend the Generalized end-to-end loss (GE2E) to multimodal inputs and demonstrate that it can achieve competitive performance in an audio-visual space. Finally, we introduce a non-synchronous audio-visual sampling random strategy during training time that has shown to improve generalization. Our network achieves state of the art performance for speaker verification, reporting 0.244%, 0.252%, 0.441% Equal Error Rate (EER) on the three official trial lists of VoxCeleb1-O/E/H, which is to our knowledge, the best published results on VoxCeleb1-E and VoxCeleb1-H.
翻訳日:2023-09-14 13:09:50 公開日:2023-09-13
# コントラストディープエンコーディングは、不確かさを意識した機械学習支援病理学を可能にする

Contrastive Deep Encoding Enables Uncertainty-aware Machine-learning-assisted Histopathology ( http://arxiv.org/abs/2309.07113v1 )

ライセンス: Link先を確認
Nirhoshan Sivaroopan, Chamuditha Jayanga, Chalani Ekanayake, Hasindri Watawana, Jathurshan Pradeepkumar, Mithunjha Anandakumar, Ranga Rodrigo, Chamira U. S. Edussooriya, and Dushan N. Wadduwage(参考訳) ディープニューラルネットワークモデルは、数百万の病理画像から臨床的に関連する特徴を学習することができる。 しかし, 病院ごと, がんの種類, 診断タスクごとに, 高品質なアノテーションを作成して, それらのモデルを訓練することは違法である。 一方、テラバイト単位のトレーニングデータ -- 信頼できるアノテーションを欠いているが -- がパブリックドメインで簡単に利用できるケースもある。 本研究では,これらの大規模データセットを意識的に深層ネットワークに事前学習して情報表現を符号化する方法について検討する。 そして、アノテートされたトレーニングデータの一部に事前トレーニングされたモデルを微調整して、特定のダウンストリームタスクを実行します。 提案手法は,他のSOTA手法と比較して,ランダムに選択されたアノテーションが1~10%しかないパッチレベルの分類において,最先端のSOTA(State-of-the-art)に到達可能であることを示す。 さらに,推論中のモデルの信頼度を定量化する不確実性認識損失関数を提案する。 量的不確実性は、専門家がさらなるトレーニングのために最高のインスタンスを選択するのに役立つ。 我々の不確実性を認識したラベリングは、ランダムなラベリングに比べてかなり少ないアノテーションでSOTAに到達する。 最後に、我々の事前学習エンコーダが、監督の弱い全スライディング画像分類において、現在のSOTAを超えることができることを示す。 我々の研究は、定量化された不確実性を伴うデータとタスクに依存しない事前訓練されたディープネットワークの基礎を築いた。

Deep neural network models can learn clinically relevant features from millions of histopathology images. However generating high-quality annotations to train such models for each hospital, each cancer type, and each diagnostic task is prohibitively laborious. On the other hand, terabytes of training data -- while lacking reliable annotations -- are readily available in the public domain in some cases. In this work, we explore how these large datasets can be consciously utilized to pre-train deep networks to encode informative representations. We then fine-tune our pre-trained models on a fraction of annotated training data to perform specific downstream tasks. We show that our approach can reach the state-of-the-art (SOTA) for patch-level classification with only 1-10% randomly selected annotations compared to other SOTA approaches. Moreover, we propose an uncertainty-aware loss function, to quantify the model confidence during inference. Quantified uncertainty helps experts select the best instances to label for further training. Our uncertainty-aware labeling reaches the SOTA with significantly fewer annotations compared to random labeling. Last, we demonstrate how our pre-trained encoders can surpass current SOTA for whole-slide image classification with weak supervision. Our work lays the foundation for data and task-agnostic pre-trained deep networks with quantified uncertainty.
翻訳日:2023-09-14 13:09:24 公開日:2023-09-13
# フェアネス向上のためのサブグループ混合によるデータ拡張

Data Augmentation via Subgroup Mixup for Improving Fairness ( http://arxiv.org/abs/2309.07110v1 )

ライセンス: Link先を確認
Madeline Navarro, Camille Little, Genevera I. Allen, Santiago Segarra(参考訳) 本研究では,グループフェア性を改善するために,サブグループ間のペアワイズミックスアップによるデータ拡張を提案する。 機械学習システムの現実的な応用の多くは、社会的バイアスを反映した非表現データやトレーニングデータによって、特定のグループに偏りを示す。 分類性能を向上させるためのミックスアップの成功に触発されて、トレーニングデータを増強し、全てのサブグループの公平かつ正確な決定境界を奨励するペアワイズ・ミックスアップ・スキームを開発した。 グループフェアネスのためのデータ拡張により、サブポピュレーションのバランスをとるために、未表示のグループの新しいサンプルを追加できます。 さらに,ミキサアップの一般化能力を利用して,公平性と精度を両立させることができる。 提案手法は,合成シミュレーションと実世界のベンチマークフェア分類データの両方において,既存のデータ拡張法とバイアス緩和法と比較し,精度が向上しなければ十分な結果が得られることを示した。

In this work, we propose data augmentation via pairwise mixup across subgroups to improve group fairness. Many real-world applications of machine learning systems exhibit biases across certain groups due to under-representation or training data that reflects societal biases. Inspired by the successes of mixup for improving classification performance, we develop a pairwise mixup scheme to augment training data and encourage fair and accurate decision boundaries for all subgroups. Data augmentation for group fairness allows us to add new samples of underrepresented groups to balance subpopulations. Furthermore, our method allows us to use the generalization ability of mixup to improve both fairness and accuracy. We compare our proposed mixup to existing data augmentation and bias mitigation approaches on both synthetic simulations and real-world benchmark fair classification data, demonstrating that we are able to achieve fair outcomes with robust if not improved accuracy.
翻訳日:2023-09-14 13:09:03 公開日:2023-09-13
# マルチエージェント強化学習の速度特性評価

Characterizing Speed Performance of Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2309.07108v1 )

ライセンス: Link先を確認
Samuel Wiggins, Yuan Meng, Rajgopal Kannan, Viktor Prasanna(参考訳) MARL(Multi-Agent Reinforcement Learning)は、大規模AIシステムや、スマートグリッドや監視などビッグデータアプリケーションで大きな成功を収めています。 MARLアルゴリズムの既存の進歩は、エージェント間協調のための様々なメカニズムを導入して得られる報酬の改善に焦点を当てている。 しかし、これらの最適化は通常、計算量とメモリ集約性があり、エンドツーエンドのトレーニング時間での最適化速度を低下させる。 本研究では,MARL実装における速度特性(すなわちレイテンシ境界スループット)を重要な指標として分析する。 具体的には,(1)訓練方式と(2)通信方式によって分類された加速度の観点から,まずMARLアルゴリズムの分類を導入する。 分類法を用いて,マルチエージェント・ディープ・Deep Deterministic Policy Gradient (MADDPG),ターゲット指向マルチエージェント通信・協調 (ToM2C),ネットワークマルチエージェントRL (NeurComm) の3種類のMARLアルゴリズムを目標ベンチマークアルゴリズムとして同定し,その性能ボトルネックを均質なマルチコアCPUプラットフォーム上でシステマティックに解析する。 我々は、MARLレイテンシバウンドスループットが将来の文献において重要なパフォーマンス指標となることの必要性を正当化するとともに、並列化とアクセラレーションの機会に対処する。

Multi-Agent Reinforcement Learning (MARL) has achieved significant success in large-scale AI systems and big-data applications such as smart grids, surveillance, etc. Existing advancements in MARL algorithms focus on improving the rewards obtained by introducing various mechanisms for inter-agent cooperation. However, these optimizations are usually compute- and memory-intensive, thus leading to suboptimal speed performance in end-to-end training time. In this work, we analyze the speed performance (i.e., latency-bounded throughput) as the key metric in MARL implementations. Specifically, we first introduce a taxonomy of MARL algorithms from an acceleration perspective categorized by (1) training scheme and (2) communication method. Using our taxonomy, we identify three state-of-the-art MARL algorithms - Multi-Agent Deep Deterministic Policy Gradient (MADDPG), Target-oriented Multi-agent Communication and Cooperation (ToM2C), and Networked Multi-Agent RL (NeurComm) - as target benchmark algorithms, and provide a systematic analysis of their performance bottlenecks on a homogeneous multi-core CPU platform. We justify the need for MARL latency-bounded throughput to be a key performance metric in future literature while also addressing opportunities for parallelization and acceleration.
翻訳日:2023-09-14 13:08:46 公開日:2023-09-13
# 学習後の量子化が大規模言語モデルに与える影響の理解

Understanding the Impact of Post-Training Quantization on Large Language Models ( http://arxiv.org/abs/2309.05210v2 )

ライセンス: Link先を確認
Somnath Roy(参考訳) 大規模言語モデル(llm)は急速に拡大しており、パラメータの数はchatgpt、claude、bardといった多くの商用モデルの成功の重要な要因となっている。 falconやllama2など、最近公開された商用利用用のパブリックアクセスモデルでさえ、数十億のパラメータを備えている。 このパラメータ数の大幅な増加は、デプロイメントと運用を非常にコストがかかる。 大規模ニューラルネットワークの量子化分野における目覚ましい進歩、特にLLMは、これらのモデルをコンシューマグレードのGPUにデプロイすることで、よりアクセスしやすくしている。 量子化モデルは一般に、量子化されていないベースモデルと同等のパフォーマンスレベルを示す。 しかしながら、これらの量子化モデルが、特に次の単語予測のために、温度、最大新しいトークン、トプクといったハイパーパラメータにどのように反応するかについての包括的な理解には、注目すべきギャップがある。 本分析により,nf4とfp4は,推論速度,メモリ消費,生成コンテンツの品質といった類似の属性を特徴とする4ビット量子化技術であることがわかった。 しかしながら、これらの量子化法は、より小さいモデルと大きなモデルの両方において、異なる温度設定で異なる挙動を示す。 一般に、異なる大きさの4ビット量子化モデルでは、非定量化モデルとは異なり、低い温度設定に対する感度が高められる。 さらに、int8量子化は推論速度が大幅に遅いのに対して、fp16モデルは全てのサイズのモデルで常に高速な推論速度が得られる。

Large language models (LLMs) are rapidly increasing in size, with the number of parameters becoming a key factor in the success of many commercial models, such as ChatGPT, Claude, and Bard. Even the recently released publicly accessible models for commercial usage, such as Falcon and Llama2, come equipped with billions of parameters. This significant increase in the number of parameters makes deployment and operation very costly. The remarkable progress in the field of quantization for large neural networks in general and LLMs in particular, has made these models more accessible by enabling them to be deployed on consumer-grade GPUs. Quantized models generally demonstrate comparable performance levels to their unquantized base counterparts. Nonetheless, there exists a notable gap in our comprehensive understanding of how these quantized models respond to hyperparameters, such as temperature, max new tokens, and topk, particularly for next word prediction. The present analysis reveals that nf4 and fp4 are equally proficient 4-bit quantization techniques, characterized by similar attributes such as inference speed, memory consumption, and the quality of generated content. Nevertheless, these quantization methods exhibit distinct behaviors at varying temperature settings, both in the context of smaller and larger models. It is noteworthy that, in general, 4-bit quantized models of varying sizes exhibit heightened sensitivity to lower temperature settings, unlike their unquantized counterparts. Additionally, int8 quantization is associated with significantly slower inference speeds, whereas unquantized fp16 models consistently yield the fastest inference speeds across models of all sizes.
翻訳日:2023-09-14 11:25:54 公開日:2023-09-13
# 有界更新を伴う反復学習アルゴリズムの一般化誤差境界

Generalization error bounds for iterative learning algorithms with bounded updates ( http://arxiv.org/abs/2309.05077v2 )

ライセンス: Link先を確認
Jingwen Fu and Nanning Zheng(参考訳) 本稿では,非凸損失関数の有界更新による反復学習アルゴリズムの一般化特性について,情報理論的手法を用いて検討する。 我々の重要な貢献は、SGD(Stochastic Gradient Descent)にのみ焦点をあてた以前の研究の範囲を超えて、境界更新を伴うこれらのアルゴリズムの一般化エラーに対する新しいバウンダリである。 私たちのアプローチは2つの大きなノベルティを導入します。 1) 相互情報を更新の不確実性として改定し、新たな視点を提供する。 2) 相互情報の連鎖規則を使う代わりに, 分散分解法を用いて反復的に情報を分解し, より単純な代理プロセスを実現する。 様々な設定下での一般化を解析し,トレーニングデータサンプル数と同じ速度でモデル次元が増加すると境界が改善されることを示す。 理論と実践のギャップを埋めるため,前述した大規模言語モデルのスケーリング挙動についても検討した。 究極的には、我々の研究は実用的な一般化理論を開発するためのさらなる一歩を踏み出します。

This paper explores the generalization characteristics of iterative learning algorithms with bounded updates for non-convex loss functions, employing information-theoretic techniques. Our key contribution is a novel bound for the generalization error of these algorithms with bounded updates, extending beyond the scope of previous works that only focused on Stochastic Gradient Descent (SGD). Our approach introduces two main novelties: 1) we reformulate the mutual information as the uncertainty of updates, providing a new perspective, and 2) instead of using the chaining rule of mutual information, we employ a variance decomposition technique to decompose information across iterations, allowing for a simpler surrogate process. We analyze our generalization bound under various settings and demonstrate improved bounds when the model dimension increases at the same rate as the number of training data samples. To bridge the gap between theory and practice, we also examine the previously observed scaling behavior in large language models. Ultimately, our work takes a further step for developing practical generalization theories.
翻訳日:2023-09-14 11:24:54 公開日:2023-09-13
# トレンドフィルタリングによる時間空間モデル

Temporal-spatial model via Trend Filtering ( http://arxiv.org/abs/2308.16172v4 )

ライセンス: Link先を確認
Carlos Misael Madrid Padilla, Oscar Hernan Madrid Padilla, Daren Wang(参考訳) 本研究では,同時時間と空間依存性を考慮した非パラメトリック回帰関数の推定に着目する。 このような文脈で、Trend Filteringは、 \cite{mammen 1997locally} と \cite{rudin 1992nonlinear} によって導入された非パラメトリック推定器である。 不平等な設定の場合、我々が考慮する信号は、有界な全変動を持つkth弱微分を持つと仮定され、一般的な滑らかさの程度を許容する。 多変量解析のシナリオでは,一括リプシッツ連続性基準に準拠した有界変動を持つ信号に適合するADMMアルゴリズムを用いて,$K$-Nearest Neighbor fused lasso estimator を \cite{padilla2018adaptive} で検討する。 下界に合わせることにより、推定器の最小最適度が検証される。 傾向フィルタリング研究に従来未記載であった一意な相転移現象が,本解析によって明らかにされる。 シミュレーション研究と実データ応用はどちらも,既存の文献で確立された手法と比較して,本手法の優れた性能を示している。

This research focuses on the estimation of a non-parametric regression function designed for data with simultaneous time and space dependencies. In such a context, we study the Trend Filtering, a nonparametric estimator introduced by \cite{mammen1997locally} and \cite{rudin1992nonlinear}. For univariate settings, the signals we consider are assumed to have a kth weak derivative with bounded total variation, allowing for a general degree of smoothness. In the multivariate scenario, we study a $K$-Nearest Neighbor fused lasso estimator as in \cite{padilla2018adaptive}, employing an ADMM algorithm, suitable for signals with bounded variation that adhere to a piecewise Lipschitz continuity criterion. By aligning with lower bounds, the minimax optimality of our estimators is validated. A unique phase transition phenomenon, previously uncharted in Trend Filtering studies, emerges through our analysis. Both Simulation studies and real data applications underscore the superior performance of our method when compared with established techniques in the existing literature.
翻訳日:2023-09-14 11:24:09 公開日:2023-09-13
# DWRSeg: リアルタイムセマンティックセグメンテーションのためのマルチスケールコンテキスト情報の効率的な獲得再考

DWRSeg: Rethinking Efficient Acquisition of Multi-scale Contextual Information for Real-time Semantic Segmentation ( http://arxiv.org/abs/2212.01173v3 )

ライセンス: Link先を確認
Haoran Wei, Xu Liu, Shouchun Xu, Zhongjian Dai, Yaping Dai, Xiangyang Xu(参考訳) 現在の多くの研究は、直接的にマルチレートの奥行きを拡張した畳み込みを用いて、1つの入力特徴写像から同時にマルチスケールの文脈情報をキャプチャすることで、リアルタイムセマンティックセグメンテーションにおける特徴抽出効率を向上させる。 しかし、この設計は、不合理な構造とハイパーパラメータのため、マルチスケールのコンテキスト情報へのアクセスが困難になる可能性がある。 マルチスケールなコンテクスト情報の描画の難しさを軽減するために,元の単一ステップ法を2段階に分割する高効率なマルチスケール特徴抽出手法を提案する。 本手法では、第1ステップによって提供される領域形状の簡潔な特徴写像に基づいて、第2ステップで1つの所望の受容場と単純な意味に基づく形態的フィルタリングを行うことにより、特徴抽出においてより簡単な役割を担い、その効率を向上させる。 さらに,ネットワークステージ毎に拡張率と拡張畳み込み容量を精練し,実現可能な領域形式のすべての特徴マップを十分に活用し,さらに,高レベルネットワークと低レベルネットワーク向けに,新しい拡張ワイズ残差 (dwr) モジュールと簡易反転残差 (sir) モジュールを設計し,強力なdwrセグメント (dwrseg) ネットワークを形成する。 CityscapesとCamVidデータセットの大規模な実験は、より軽量なだけでなく、精度と推論速度の間の最先端のトレードオフを達成して、我々の手法の有効性を実証している。 プレトレーニングやトレーニングのトリックを使わずに、1台のNVIDIA GeForce GTX 1080 Tiカードで319.5 FPSで設定されたCityscapesテストで72.7%のmIoUを達成した。 コードとトレーニングされたモデルは公開されている。

Many current works directly adopt multi-rate depth-wise dilated convolutions to capture multi-scale contextual information simultaneously from one input feature map, thus improving the feature extraction efficiency for real-time semantic segmentation. However, this design may lead to difficult access to multi-scale contextual information because of the unreasonable structure and hyperparameters. To lower the difficulty of drawing multi-scale contextual information, we propose a highly efficient multi-scale feature extraction method, which decomposes the original single-step method into two steps, Region Residualization-Semantic Residualization. In this method, the multi-rate depth-wise dilated convolutions take a simpler role in feature extraction: performing simple semantic-based morphological filtering with one desired receptive field in the second step based on each concise feature map of region form provided by the first step, to improve their efficiency. Moreover, the dilation rates and the capacity of dilated convolutions for each network stage are elaborated to fully utilize all the feature maps of region form that can be achieved.Accordingly, we design a novel Dilation-wise Residual (DWR) module and a Simple Inverted Residual (SIR) module for the high and low level network, respectively, and form a powerful DWR Segmentation (DWRSeg) network. Extensive experiments on the Cityscapes and CamVid datasets demonstrate the effectiveness of our method by achieving a state-of-the-art trade-off between accuracy and inference speed, in addition to being lighter weight. Without pretraining or resorting to any training trick, we achieve an mIoU of 72.7% on the Cityscapes test set at a speed of 319.5 FPS on one NVIDIA GeForce GTX 1080 Ti card, which exceeds the latest methods of a speed of 69.5 FPS and 0.8% mIoU. The code and trained models are publicly available.
翻訳日:2023-09-14 11:23:50 公開日:2023-09-13
# 超拡散量子ウォークの騒音相関

Noise correlations behind superdiffusive quantum walks ( http://arxiv.org/abs/2207.13145v3 )

ライセンス: Link先を確認
Gra\c{c}a R. M. de Almeida, N. Amaral, A. R. C. Buarque and W. S. Dias(参考訳) 短距離相関雑音下での離散時間量子ウォークの挙動について検討する。 量子ゲートの不均一性の源としてノイズを考慮することにより、ランダム分布に現れる二対相関という非相関な確率的雑音仮定に原始緩和を導入する。 異なる量子ゲートを考慮し,空間的および時間的ノイズ状態の輸送特性について検討した。 空間的不均一性については、量子ウォークを指数関数的に局所化した状態から超拡散拡散へ導くノイズ相関を示す。 このシナリオでは、超拡散指数が不均質度にほぼ不変であるエキサイティングな性能を示す。 時間漸近的な状態と有限スケールのスケーリングはまた、時間的ノイズ相関を経る量子ウォークに対する創発的な過拡散挙動を明らかにし、ノイズがランダムで非相関なときに現れる拡散状態を置き換える。 しかし, 量子ゲートは相関に影響を受けず, 空間雑音とは対照的な結果が得られた。 結果とその後の議論は、決定論的非周期的不均一性を含む超拡散量子ウォークの基礎メカニズムを理解するのに役立つ。

We study how discrete-time quantum walks behave under short-range correlated noise. By considering noise as a source of inhomogeneity of quantum gates, we introduce a primitive relaxation in the uncorrelated stochastic noise assumption: binary pair correlations manifesting in the random distribution. Considering different quantum gates, we examined the transport properties for both spatial and temporal noise regimes. For spatial inhomogeneities, we show noise correlations driving quantum walks from the well-known exponentially localized condition to superdiffusive spreading. This scenario displays an exciting performance in which the superdiffusive exponent is almost invariant to the inhomogeneity degree. The time-asymptotic regime and the finite-size scaling also unveil an emergent superdiffusive behavior for quantum walks undergoing temporal noise correlation, replacing the diffusive regime exhibited when noise is random and uncorrelated. However, results report some quantum gates insensitive to correlations, contrasting with the spatial noise scenario. Results and following discussions help us understand the underlying mechanism of superdiffusive quantum walks, including those with deterministic aperiodic inhomogeneities.
翻訳日:2023-09-14 11:23:09 公開日:2023-09-13
# サンプリング:単一画像からの新たなビュー合成のためのシーン適応型階層型マルチプレーン画像表現

SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation for Novel View Synthesis from a Single Image ( http://arxiv.org/abs/2309.06323v2 )

ライセンス: Link先を確認
Xiaoyu Zhou, Zhiwei Lin, Xiaojun Shan, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang(参考訳) 最近の新しいビュー合成手法は、室内環境やいくつかのオブジェクトを持つシーンなど、比較的小さなシーンに対して有望な結果が得られるが、単一のイメージを入力として、境界のない屋外シーンでは失敗する傾向にある。 本稿では,改良された多面体画像(MPI)に基づく単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。 屋外の無界シーンでは深度分布が著しく異なることを観察し,各シーン画像に応じてmpiの適応ビン戦略を用いて平面配置を行った。 複雑な幾何学と多元的詳細を表現するために、さらに階層的洗練分枝を導入し、高品質な合成新奇なビューを導出する。 提案手法は,KITTIデータセット上の単一画像を用いて大規模非有界屋外シーンを合成し,未知のタンクとテンプルのデータセットによく対応し,コードとモデルが間もなく利用可能になることを示す。

Recent novel view synthesis methods obtain promising results for relatively small scenes, e.g., indoor environments and scenes with a few objects, but tend to fail for unbounded outdoor scenes with a single image as input. In this paper, we introduce SAMPLING, a Scene-adaptive Hierarchical Multiplane Images Representation for Novel View Synthesis from a Single Image based on improved multiplane images (MPI). Observing that depth distribution varies significantly for unbounded outdoor scenes, we employ an adaptive-bins strategy for MPI to arrange planes in accordance with each scene image. To represent intricate geometry and multi-scale details, we further introduce a hierarchical refinement branch, which results in high-quality synthesized novel views. Our method demonstrates considerable performance gains in synthesizing large-scale unbounded outdoor scenes using a single image on the KITTI dataset and generalizes well to the unseen Tanks and Temples dataset.The code and models will soon be made available.
翻訳日:2023-09-14 11:18:36 公開日:2023-09-13
# AKEM:エンティティ認識とリンクのためのアンサンブルモデルによるクエリの知識ベース調整

AKEM: Aligning Knowledge Base to Queries with Ensemble Model for Entity Recognition and Linking ( http://arxiv.org/abs/2309.06175v2 )

ライセンス: Link先を確認
Di Lu and Zhongping Liang and Caixia Yuan and Xiaojie Wang(参考訳) 本稿では,NLPCC 2015におけるエンティティ認識とリンク問題に対する新しいアプローチを提案する。 このタスクは、短い検索クエリから名前付きエンティティ参照を抽出し、参照中国の知識ベース内のエンティティにリンクする。 この問題に対処するために,まず既存の知識ベースを拡張し,外部知識を用いて候補エンティティを識別し,リコール率を向上させる。 次に、候補エンティティから特徴を抽出し、結果をフィルタリングするスコアリング機能として、サポートベクトル回帰と多重付加回帰木を利用する。 さらに,結果の精細化と精度向上にルールを適用した。 本手法は計算効率が高く,F1スコアは0.535。

This paper presents a novel approach to address the Entity Recognition and Linking Challenge at NLPCC 2015. The task involves extracting named entity mentions from short search queries and linking them to entities within a reference Chinese knowledge base. To tackle this problem, we first expand the existing knowledge base and utilize external knowledge to identify candidate entities, thereby improving the recall rate. Next, we extract features from the candidate entities and utilize Support Vector Regression and Multiple Additive Regression Tree as scoring functions to filter the results. Additionally, we apply rules to further refine the results and enhance precision. Our method is computationally efficient and achieves an F1 score of 0.535.
翻訳日:2023-09-14 11:18:19 公開日:2023-09-13
# c-ritnet: 補完的情報マイニングのない赤外線および可視画像融合

C-RITNet: Set Infrared and Visible Image Fusion Free from Complementary Information Mining ( http://arxiv.org/abs/2309.06118v2 )

ライセンス: Link先を確認
Yafei Zhang, Keying Du, Huafeng Li, Zhengtao Yu, Yu Liu(参考訳) 赤外線および可視画像融合(ivif)は、2つの異なるモードの補完情報を抽出・統合し、優れたターゲットと豊富なテクスチャ詳細を持つ高品質な融合画像を生成することを目的としている。 しかし、現在の画像融合法は相補的な特徴を発掘するために非常に長い時間を要するため、一般的には2つの努力によって達成される。 一方、特徴抽出ネットワークは、補完的情報抽出において優れた性能を有することが期待される。 一方、複雑な融合戦略は相補的な情報を集約するためにしばしば設計される。 言い換えれば、ネットワークが補完的な情報を知覚し抽出できるようにすることは極めて困難である。 複雑な融合戦略は効果的ではあるが、依然として弱いエッジの詳細を失うリスクを負っている。 そこで本稿では,IVIFを箱の外に再考し,補完的冗長情報伝達ネットワーク(C-RITNet)を提案する。 相補的情報を冗長なものに合理的に転送し、2つのモードから相補的特徴と相補的特徴の両方を統合する。 そこで,提案手法は,相補的な情報抽出による課題を緩和し,高度な融合戦略への依存を減らすことができる。 具体的には,まず相互情報伝達(mit)モジュールの設計を行い,その特徴を2つのモダリティから相互に表現し,補完情報を冗長なものに大まかに置き換える。 そして、ソース画像(RIASSI)モジュールによって管理される冗長情報取得を考案し、MIT以降の補間情報転送をさらに確実にする。 また,ソース画像のエッジ構造情報を融合結果に転送可能であることを保証する構造情報保存(sip)モジュールを提案する。

Infrared and visible image fusion (IVIF) aims to extract and integrate the complementary information in two different modalities to generate high-quality fused images with salient targets and abundant texture details. However, current image fusion methods go to great lengths to excavate complementary features, which is generally achieved through two efforts. On the one hand, the feature extraction network is expected to have excellent performance in extracting complementary information. On the other hand, complex fusion strategies are often designed to aggregate the complementary information. In other words, enabling the network to perceive and extract complementary information is extremely challenging. Complicated fusion strategies, while effective, still run the risk of losing weak edge details. To this end, this paper rethinks the IVIF outside the box, proposing a complementary-redundant information transfer network (C-RITNet). It reasonably transfers complementary information into redundant one, which integrates both the shared and complementary features from two modalities. Hence, the proposed method is able to alleviate the challenges posed by the complementary information extraction and reduce the reliance on sophisticated fusion strategies. Specifically, to skillfully sidestep aggregating complementary information in IVIF, we first design the mutual information transfer (MIT) module to mutually represent features from two modalities, roughly transferring complementary information into redundant one. Then, a redundant information acquisition supervised by source image (RIASSI) module is devised to further ensure the complementary-redundant information transfer after MIT. Meanwhile, we also propose a structure information preservation (SIP) module to guarantee that the edge structure information of the source images can be transferred to the fusion results.
翻訳日:2023-09-14 11:18:09 公開日:2023-09-13
# MRI並列再構成のためのバッチインプットニューラル表現法

Batch Implicit Neural Representation for MRI Parallel Reconstruction ( http://arxiv.org/abs/2309.06067v2 )

ライセンス: Link先を確認
Hao Li, Yusheng Zhou, Jianan Liu, Xiling Liu, Tao Huang, and Zhihan Lv(参考訳) 磁気共鳴画像(MRI)は常に長い取得時間の問題に悩まされている。 MRI再構成は、特定の位相符号化ラインをスキップし、アンダーサンプル測定から高品質なイメージを復元することでスキャン時間を短縮する1つの方法である。 近年,物体を空間座標の連続関数として表現する新しい深層学習法として暗黙的ニューラル表現(INR)が登場し,この関数は通常多層パーセプトロン(MLP)によってパラメータ化される。 本稿では,INRに基づく新しいMRI再構成手法を提案する。INRの一般化問題を克服するための画素座標とアンダーサンプル画像の先行特徴ベクトルの関数として,全サンプル画像を表現する。 具体的には,スケールの異なるmr画像からスケール非依存な画素特性を生成し,座標ベクトルと結合してmlpを介してフルサンプリングされたmr画像を復元し,任意のスケール再構成を実現するスケール埋め込みエンコーダを導入する。 提案手法の性能は,mriデータセット上で実験し,他の再構成法と比較することで評価した。 提案手法が代替手法よりも優れていることを示す定量的評価を行った。

Magnetic resonance imaging (MRI) always suffered from the problem of long acquisition time. MRI reconstruction is one solution to reduce scan time by skipping certain phase-encoding lines and then restoring high-quality images from undersampled measurements. Recently, implicit neural representation (INR) has emerged as a new deep learning method that represents an object as a continuous function of spatial coordinates, and this function is normally parameterized by a multilayer perceptron (MLP). In this paper, we propose a novel MRI reconstruction method based on INR, which represents the fully-sampled images as the function of pixel coordinates and prior feature vectors of undersampled images for overcoming the generalization problem of INR. Specifically, we introduce a scale-embedded encoder to produce scale-independent pixel-specific features from MR images with different undersampled scales and then concatenate with coordinates vectors to recover fully-sampled MR images via an MLP, thus achieving arbitrary scale reconstruction. The performance of the proposed method was assessed by experimenting on publicly available MRI datasets and compared with other reconstruction methods. Our quantitative evaluation demonstrates the superiority of the proposed method over alternative reconstruction methods.
翻訳日:2023-09-14 11:17:22 公開日:2023-09-13
# 機械学習と深層学習モデルを用いた地すべり感受性予測のための寄与要因の選択

Selection of contributing factors for predicting landslide susceptibility using machine learning and deep learning models ( http://arxiv.org/abs/2309.06062v2 )

ライセンス: Link先を確認
Cheng Chen and Lei Fan(参考訳) 地すべりは一般的な自然災害であり、損失、資産安全の脅威、経済的損失を引き起こす可能性がある。 したがって, 危険地における地すべり発生の可能性を把握し, 予測することが重要である。 一般的に用いられる手段は、地すべり在庫と地すべり寄与要因のセットに基づいて地すべり感受性評価を行うことである。 これは、ロジスティック回帰(LR)やサポートベクターマシン(SVM)、ランダムフォレスト(RF)、極端な勾配向上(Xgboost)、畳み込みニューラルネットワーク(CNN)や長短時間メモリ(LSTM)といったディープラーニング(DL)モデルなど、機械学習(ML)モデルで容易に実現できる。 これらのモデルの入力データとして,地すべり要因は地すべり発生に異なる影響を与える。 したがって、これらのモデルの予測精度を高めることを目的として、より重要な寄与要因を選択し、関連性の高い要素を排除できる。 しかし、より重要な要素を選択することは依然として難しい課題であり、一般に受け入れられる方法はない。 また,mlモデルとdlモデルの予測精度に及ぼす各種手法を用いた因子選択の影響は明らかでない。 本研究では, MLモデルとDLモデルを用いた地すべり感受性予測の精度に及ぼす寄与要因の選択の影響について検討した。 情報ゲイン比(IGR)、再帰的特徴除去(RFE)、パーティクルスワーム最適化(PSO)、絶対収縮・選択演算子(LASSO)、ハリスホーク最適化(HHO)の4つの要因を選択する方法を検討した。 また,DLモデルのオートエンコーダに基づく因子選択法についても検討した。 彼らのパフォーマンスを評価するために、徹底的なアプローチが採用された。

Landslides are a common natural disaster that can cause casualties, property safety threats and economic losses. Therefore, it is important to understand or predict the probability of landslide occurrence at potentially risky sites. A commonly used means is to carry out a landslide susceptibility assessment based on a landslide inventory and a set of landslide contributing factors. This can be readily achieved using machine learning (ML) models such as logistic regression (LR), support vector machine (SVM), random forest (RF), extreme gradient boosting (Xgboost), or deep learning (DL) models such as convolutional neural network (CNN) and long short time memory (LSTM). As the input data for these models, landslide contributing factors have varying influences on landslide occurrence. Therefore, it is logically feasible to select more important contributing factors and eliminate less relevant ones, with the aim of increasing the prediction accuracy of these models. However, selecting more important factors is still a challenging task and there is no generally accepted method. Furthermore, the effects of factor selection using various methods on the prediction accuracy of ML and DL models are unclear. In this study, the impact of the selection of contributing factors on the accuracy of landslide susceptibility predictions using ML and DL models was investigated. Four methods for selecting contributing factors were considered for all the aforementioned ML and DL models, which included Information Gain Ratio (IGR), Recursive Feature Elimination (RFE), Particle Swarm Optimization (PSO), Least Absolute Shrinkage and Selection Operators (LASSO) and Harris Hawk Optimization (HHO). In addition, autoencoder-based factor selection methods for DL models were also investigated. To assess their performances, an exhaustive approach was adopted,...
翻訳日:2023-09-14 11:17:01 公開日:2023-09-13
# 確率的LLMは言語を理解しない:記号的・説明可能・オントロジー的LLMを目指して

Stochastic LLMs do not Understand Language: Towards Symbolic, Explainable and Ontologically Based LLMs ( http://arxiv.org/abs/2309.05918v2 )

ライセンス: Link先を確認
Walid S. Saba(参考訳) 我々の意見では、データ駆動型大規模言語モデル(LLM)の相対的な成功を巡って、若干の誤解があり、いくつかの理由がある。 i) LLMは,すべての摂取されたテキスト(実物又は非実物)が平等に作成されたため,事実情報に頼ってはならない。 (二)その副記号的ナチュアにより、これらのモデルが言語について獲得する「知識」が何であれ、常に何十億ものマイクロ特徴(重み)に埋もれ、それ自体には意味がない。 (iii)LLMは、いくつかの言語文脈(例:名目化合物、述語、量化子スコープの曖昧さ、無緊張な文脈)において正しい推論に失敗することが多い。 データ駆動型大規模言語モデル(LLM)の相対的な成功は、記号的対準記号的議論の反映ではなく、大規模にボトムアップのリバースエンジニアリングを成功させるためのリフレクションであると信じているので、本論文では、シンボル的、説明可能な、そして存在論的基礎付けられた言語モデルをもたらす効果的なボトムアップ戦略を適用することを提案する。

In our opinion the exuberance surrounding the relative success of data-driven large language models (LLMs) is slightly misguided and for several reasons (i) LLMs cannot be relied upon for factual information since for LLMs all ingested text (factual or non-factual) was created equal; (ii) due to their subsymbolic na-ture, whatever 'knowledge' these models acquire about language will always be buried in billions of microfeatures (weights), none of which is meaningful on its own; and (iii) LLMs will often fail to make the correct inferences in several linguistic contexts (e.g., nominal compounds, copredication, quantifier scope ambi-guities, intensional contexts. Since we believe the relative success of data-driven large language models (LLMs) is not a reflection on the symbolic vs. subsymbol-ic debate but a reflection on applying the successful strategy of a bottom-up reverse engineering of language at scale, we suggest in this paper applying the effective bottom-up strategy in a symbolic setting resulting in symbolic, explainable, and ontologically grounded language models.
翻訳日:2023-09-14 11:16:27 公開日:2023-09-13
# 異方性拡散ステンシル:安定性推定の単純な導出からResNet実装へ

Anisotropic Diffusion Stencils: From Simple Derivations over Stability Estimates to ResNet Implementations ( http://arxiv.org/abs/2309.05575v2 )

ライセンス: Link先を確認
Karl Schrader, Joachim Weickert, Michael Krause(参考訳) 拡散テンソルを持つ異方性拡散過程は、画像解析、物理学、工学において重要である。 しかし、それらの数値近似は散逸的アーティファクトや回転不変量からの逸脱に大きな影響を与える。 本研究では, 3 x 3 stencil 上で有限差分離散化の大きな族について検討する。 2次元の異方性拡散を4つの1次元拡散に分割して導出する。 結果として生じるステンシルクラスは1つの自由パラメータを含み、様々な既存の議論をカバーする。 Weickert et al. (2013) のフルステンシルファミリーを構成し、それらの2つのパラメータが冗長性を含んでいることを示す。 さらに,ステンシルに対応する行列のスペクトルノルムの有界性を確立する。 これはユークリッドノルムにおける明示的なスキームの安定性を保証する時間ステップサイズ制限を与える。 我々の方向分割はまた、明示的なスキームをResNetブロックに非常に自然な翻訳を可能にする。 ニューラルネットワークライブラリを使用することで、GPUの単純かつ高効率な並列実装が可能になる。

Anisotropic diffusion processes with a diffusion tensor are important in image analysis, physics, and engineering. However, their numerical approximation has a strong impact on dissipative artefacts and deviations from rotation invariance. In this work, we study a large family of finite difference discretisations on a 3 x 3 stencil. We derive it by splitting 2-D anisotropic diffusion into four 1-D diffusions. The resulting stencil class involves one free parameter and covers a wide range of existing discretisations. It comprises the full stencil family of Weickert et al. (2013) and shows that their two parameters contain redundancy. Furthermore, we establish a bound on the spectral norm of the matrix corresponding to the stencil. This gives time step size limits that guarantee stability of an explicit scheme in the Euclidean norm. Our directional splitting also allows a very natural translation of the explicit scheme into ResNet blocks. Employing neural network libraries enables simple and highly efficient parallel implementations on GPUs.
翻訳日:2023-09-14 11:15:41 公開日:2023-09-13
# NExT-GPT: 任意のマルチモーダルLCM

NExT-GPT: Any-to-Any Multimodal LLM ( http://arxiv.org/abs/2309.05519v2 )

ライセンス: Link先を確認
Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, Tat-Seng Chua(参考訳) 最近、MM-LLM(Multimodal Large Language Models)は、エキサイティングな進歩を遂げているが、主に、複数のモーダルでコンテンツを生成する能力のない、入力側のマルチモーダル理解の限界に陥る。 人間は常に世界を理解し、様々なモダリティを通じて人々とコミュニケーションをとるので、あらゆるモダリティでコンテンツを受け入れ、届けることのできるMM-LLMを開発することは、人間レベルのAIにとって不可欠である。 このギャップを埋めるために,NExT-GPTという汎用的なMM-LLMシステムを提案する。 llmをマルチモーダル適応器と異なる拡散デコーダに接続し、next-gptが入力を知覚し、テキスト、画像、ビデオ、音声の任意の組み合わせで出力を生成する。 既存のよく訓練された高性能エンコーダとデコーダを活用することで、NEXT-GPTは特定の射影層の少ないパラメータ(1%)で調整される。 さらに,モダリティスイッチング命令チューニング(mosit)を導入し,複雑なクロスモーダル意味理解とコンテンツ生成を付与されたnext-gptに基づくmositの高品質データセットを手作業で収集する。 全体として、我々の研究は、普遍的なモダリティをモデル化できるAIエージェントを構築する可能性を示し、コミュニティにおけるより人間らしいAI研究への道を開いた。 プロジェクトページ: https://next-gpt.github.io/

While recently Multimodal Large Language Models (MM-LLMs) have made exciting strides, they mostly fall prey to the limitation of only input-side multimodal understanding, without the ability to produce content in multiple modalities. As we humans always perceive the world and communicate with people through various modalities, developing any-to-any MM-LLMs capable of accepting and delivering content in any modality becomes essential to human-level AI. To fill the gap, we present an end-to-end general-purpose any-to-any MM-LLM system, NExT-GPT. We connect an LLM with multimodal adaptors and different diffusion decoders, enabling NExT-GPT to perceive inputs and generate outputs in arbitrary combinations of text, images, videos, and audio. By leveraging the existing well-trained highly-performing encoders and decoders, NExT-GPT is tuned with only a small amount of parameter (1%) of certain projection layers, which not only benefits low-cost training and also facilitates convenient expansion to more potential modalities. Moreover, we introduce a modality-switching instruction tuning (MosIT) and manually curate a high-quality dataset for MosIT, based on which NExT-GPT is empowered with complex cross-modal semantic understanding and content generation. Overall, our research showcases the promising possibility of building an AI agent capable of modeling universal modalities, paving the way for more human-like AI research in the community. Project page: https://next-gpt.github.io/
翻訳日:2023-09-14 11:15:29 公開日:2023-09-13
# 何が起きているのか メールしてもらえますか? 自律走行のための軌道予測モデルへの事前学習言語エンコーダの統合

Can you text what is happening? Integrating pre-trained language encoders into trajectory prediction models for autonomous driving ( http://arxiv.org/abs/2309.05282v2 )

ライセンス: Link先を確認
Ali Keysan, Andreas Look, Eitan Kosman, Gonca G\"ursun, J\"org Wagner, Yu Yao, Barbara Rakitsch(参考訳) 自動運転タスクでは、周囲の交通参加者の将来の行動を予測するための最初のステップがシーン理解である。 しかし、あるシーンを表現し、その特徴を抽出する方法はまだ研究の余地がある。 本研究では,トラフィックシーンをテキストベースで表現し,事前学習した言語エンコーダで処理する手法を提案する。 まず,テキストに基づく表現と古典的なラスタ化画像表現を組み合わせることで,記述的シーン埋め込みが実現することを示す。 次に、nuScenesデータセットの予測をベンチマークし、ベースラインと比較して大幅に改善したことを示す。 第3に,テキストとラスタ化画像のジョイントエンコーダが個々のエンコーダよりも優れており,両表現が相補的な強みを持っていることを確認した。

In autonomous driving tasks, scene understanding is the first step towards predicting the future behavior of the surrounding traffic participants. Yet, how to represent a given scene and extract its features are still open research questions. In this study, we propose a novel text-based representation of traffic scenes and process it with a pre-trained language encoder. First, we show that text-based representations, combined with classical rasterized image representations, lead to descriptive scene embeddings. Second, we benchmark our predictions on the nuScenes dataset and show significant improvements compared to baselines. Third, we show in an ablation study that a joint encoder of text and rasterized images outperforms the individual encoders confirming that both representations have their complementary strengths.
翻訳日:2023-09-14 11:14:59 公開日:2023-09-13