このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240814となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 高次3変数多項式合同の量子後暗号アルゴリズム:BS暗号系とBS鍵生成
Post-quantum encryption algorithms of high-degree 3-variable polynomial congruences: BS cryptosystems and BS key generation ( http://arxiv.org/abs/2409.03758v1 ) ライセンス: Link先を確認 | Nicholas J. Daras, | (参考訳) 本稿では,3変数多項式Beal-Schurコングルースに基づく量子後暗号アルゴリズムを構築する。
ビール予想の証明を与え、離散対数とその一般化のいくつかが解決不可能な問題である選択された場合には、ビール予想のいくつかの応用を引用した後、整数の有限体上のビール予想の適切なバージョンの定式化と妥当性について検討する。
無限の場合とは対照的に、対応するBeal-Schur合同方程式 $x^{p}+y^{q}\equiv z^{r} (mod \mathcal{N})$ が有限体 $\mathbb{Z}_{\mathcal{N}} $ に対して非自明な解を持つことを示す。
この結果を用いて、Beal-Schurコングルーエンス方程式に基づく単純でセキュアな暗号後暗号アルゴリズムと、量子後暗号のセキュリティがパラメータ $p$, $q$, $r$, $\mathcal{N}$ の無限個のオプションを持つことに依存する新しい暗号鍵生成手法を生成する。
We will construct post-quantum encryption algorithms based on three-variable polynomial Beal-Schur congruence. After giving a proof of Beal's conjecture and citing some applications of it to selected cases where the discrete logarithm and some of its generalizations are unsolvable problems, we will investigate the formulation and validity of an appropriate version of the Beal's conjecture on finite fields of integers. In contrast to the infinite case, we will show that the corresponding Beal-Schur congruence equation $x^{p}+y^{q}\equiv z^{r} (mod \mathcal{N})$ has non-trivial solutions into the finite field $\mathbb{Z}_{\mathcal{N}} $, for all sufficiently large primes $\mathcal{N}$ that do not divide the product $xyz$, under certain mutual divisibility conditions of the exponents $p$, $q$ and $r$. We will apply this result to generate the so-called BS cryptosystems, i.e., simple and secure post-quantum encryption algorithms based on the Beal-Schur congruence equation, as well as new cryptographic key generation methods, whose post-quantum algorithmic encryption security relies on having an infinite number of options for the parameters $p$, $q$, $r$, $\mathcal{N}$. | 翻訳日:2024-09-15 05:46:11 公開日:2024-08-14 |
# ガバナンスパラダイムをナビゲートする - ジェネレーティブAIガバナンスプロセスと原則の相互比較研究
Navigating Governance Paradigms: A Cross-Regional Comparative Study of Generative AI Governance Processes & Principles ( http://arxiv.org/abs/2408.16771v1 ) ライセンス: Link先を確認 | Jose Luna, Ivan Tan, Xiaofei Xie, Lingxiao Jiang, | (参考訳) ジェネレーティブ・人工知能(GenAI)技術が前例のない速度で進化するにつれて、グローバルガバナンスのアプローチは技術に追随するのに苦労し、重要な課題のガバナンス適応における重要な課題を浮き彫りにしている。
リスク、ルール、成果、原則、あるいは世界中のさまざまな領域にまたがる混合に基づいて、新しくて多様なガバナンスアプローチのニュアンスを描写することは、相違点と収束を識別し、対処すべき特定の制限に光を当てることで、GenAIの安全で信頼できる採用を促進するのに不可欠である。
本稿では、GenAIの必要性と進化する性質に応じて、世界中の異なるガバナンスアプローチの全体像を提供することを目的とする。
本研究は、欧州連合(EU)、米国(米国)、中国(CN)、カナダ(CA)、英国(UK)、シンガポール(SG)の6つの地域の統治アプローチに基づく、調和したGenAIフレームワーク「H-GenAIGF」を紹介する。
我々は,GenAIのガバナンスを支援する4つの構成要素,15のプロセス,25のサブプロセス,9つの原則を特定した。
さらに,各地域別プロセスのカバレッジに基づいて,共通基盤と区別の識別を容易にするための比較分析を行った。
その結果,リスクベースのアプローチによってプロセスのカバレッジが向上し,その後に混在するアプローチが得られた。
他のアプローチは遅れており、プロセスの50%未満をカバーしています。
最も注目すべきは、この分析が示すのは、すべてのアプローチに一貫した1つのプロセスのみであり、一貫性と実行可能な規定が欠如していることである。
さらに、ChatGPTのケーススタディでは、プロセスカバレッジ不足が明らかとなり、GenAIガバナンスの整合性を見出すためには、アプローチの調和が不可欠であることが示されている。
As Generative Artificial Intelligence (GenAI) technologies evolve at an unprecedented rate, global governance approaches struggle to keep pace with the technology, highlighting a critical issue in the governance adaptation of significant challenges. Depicting the nuances of nascent and diverse governance approaches based on risks, rules, outcomes, principles, or a mix across different regions around the globe is fundamental to discern discrepancies and convergences and to shed light on specific limitations that need to be addressed, thereby facilitating the safe and trustworthy adoption of GenAI. In response to the need and the evolving nature of GenAI, this paper seeks to provide a collective view of different governance approaches around the world. Our research introduces a Harmonized GenAI Framework, "H-GenAIGF," based on the current governance approaches of six regions: European Union (EU), United States (US), China (CN), Canada (CA), United Kingdom (UK), and Singapore (SG). We have identified four constituents, fifteen processes, twenty-five sub-processes, and nine principles that aid the governance of GenAI, thus providing a comprehensive perspective on the current state of GenAI governance. In addition, we present a comparative analysis to facilitate the identification of common ground and distinctions based on the coverage of the processes by each region. The results show that risk-based approaches allow for better coverage of the processes, followed by mixed approaches. Other approaches lag behind, covering less than 50% of the processes. Most prominently, the analysis demonstrates that among the regions, only one process aligns across all approaches, highlighting the lack of consistent and executable provisions. Moreover, our case study on ChatGPT reveals process coverage deficiency, showing that harmonization of approaches is necessary to find alignment for GenAI governance. | 翻訳日:2024-09-08 15:56:29 公開日:2024-08-14 |
# 脳性麻痺早期発見のためのディープラーニングモデルにおける説明可能なAI手法の評価
Evaluating Explainable AI Methods in Deep Learning Models for Early Detection of Cerebral Palsy ( http://arxiv.org/abs/2409.00001v1 ) ライセンス: Link先を確認 | Kimji N. Pellano, Inga Strümke, Daniel Groos, Lars Adde, Espen Alexander F. Ihlen, | (参考訳) 脳性麻痺(CP)の早期発見は効果的な介入とモニタリングに不可欠である。
本稿では,幼児の動きのビデオ記録から抽出した骨格データを解析し,CPを予測する深層学習法を用いて,説明可能なAI(XAI)手法の信頼性と適用性を検討した。
具体的には、XAI評価指標(信頼性と安定性)を用いて、この特定の医療応用において、クラス活性化マッピング(CAM)とグラディエント重み付きクラス活性化マッピング(Grad-CAM)の信頼性を定量的に評価する。
乳児運動の独自のデータセットを使用し,乳幼児運動の原動力を歪ませることなく骨格データ摂動を適用した。
CP予測モデルはアンサンブルアプローチを利用するので,全体のアンサンブルと個々のモデルの両方に対して,XAIメトリクスのパフォーマンスを評価する。
以上の結果から,XAI法はCP予測に影響を及ぼすキーボディーポイントを効果的に同定し,その説明がデータ摂動に対して堅牢であることが示唆された。
Grad-CAM は RISv 測定で CAM を著しく上回り、速度の点で安定性を測る。
対照的に、CAMは骨の安定性に関連するRISbメートル法と、内部表現の堅牢性を評価するRSRメートル法において、より優れた性能を発揮する。
アンサンブル内の個々のモデルは様々な結果を示し、CAMもGrad-CAMも一貫して他のモデルよりも優れており、アンサンブルのアプローチはその構成モデルから結果の表現を提供する。
Early detection of Cerebral Palsy (CP) is crucial for effective intervention and monitoring. This paper tests the reliability and applicability of Explainable AI (XAI) methods using a deep learning method that predicts CP by analyzing skeletal data extracted from video recordings of infant movements. Specifically, we use XAI evaluation metrics -- namely faithfulness and stability -- to quantitatively assess the reliability of Class Activation Mapping (CAM) and Gradient-weighted Class Activation Mapping (Grad-CAM) in this specific medical application. We utilize a unique dataset of infant movements and apply skeleton data perturbations without distorting the original dynamics of the infant movements. Our CP prediction model utilizes an ensemble approach, so we evaluate the XAI metrics performances for both the overall ensemble and the individual models. Our findings indicate that both XAI methods effectively identify key body points influencing CP predictions and that the explanations are robust against minor data perturbations. Grad-CAM significantly outperforms CAM in the RISv metric, which measures stability in terms of velocity. In contrast, CAM performs better in the RISb metric, which relates to bone stability, and the RRS metric, which assesses internal representation robustness. Individual models within the ensemble show varied results, and neither CAM nor Grad-CAM consistently outperform the other, with the ensemble approach providing a representation of outcomes from its constituent models. | 翻訳日:2024-09-08 15:50:41 公開日:2024-08-14 |
# DNNモデルを用いた認知ネットワークとfMRIによる状態分類
Cognitive Networks and Performance Drive fMRI-Based State Classification Using DNN Models ( http://arxiv.org/abs/2409.00003v1 ) ライセンス: Link先を確認 | Murat Kucukosmanoglu, Javier O. Garcia, Justin Brooks, Kanika Bansal, | (参考訳) ディープニューラルネットワーク(DNN)モデルは、様々な領域で顕著な性能を示してきたが、認知神経科学への応用は、解釈可能性の欠如により限られている。
本研究では,1次元畳み込みニューラルネットワーク (1D-CNN) と双方向長短期記憶ネットワーク (BiLSTM) の2つの構造的・相補的なDNNモデルを用いて,fMRI BOLDデータから個々の認知状態を分類する。
アーキテクチャ上の違いにもかかわらず、どちらのモデルも予測精度と個人の認知性能との間に頑健な関係を保ち、低い性能が予測精度を低下させることを示した。
モデル説明可能性を実現するため,我々は,モデル予測に影響を及ぼす最も重要な脳領域を同定し,特徴の重要度を計算するために置換手法を用いた。
モデル全体では、視覚ネットワークが支配的であり、タスク駆動の状態差が主に視覚処理で符号化されていることが示唆された。
注意と制御のネットワークも比較的重要であったが、デフォルトモードと時空間ネットワークは認知状態の識別に無視できない寄与を示した。
さらに,1D-CNNでは全体の性能がわずかに向上し,BiLSTMでは個人の行動に対する感度が向上した。
我々の研究は、認知状態遷移の基礎となる神経メカニズムを明らかにする上で、説明可能なDNNモデルの重要性を強調し、この領域における将来の研究の基盤を提供する。
Deep neural network (DNN) models have demonstrated impressive performance in various domains, yet their application in cognitive neuroscience is limited due to their lack of interpretability. In this study we employ two structurally different and complementary DNN-based models, a one-dimensional convolutional neural network (1D-CNN) and a bidirectional long short-term memory network (BiLSTM), to classify individual cognitive states from fMRI BOLD data, with a focus on understanding the cognitive underpinnings of the classification decisions. We show that despite the architectural differences, both models consistently produce a robust relationship between prediction accuracy and individual cognitive performance, such that low performance leads to poor prediction accuracy. To achieve model explainability, we used permutation techniques to calculate feature importance, allowing us to identify the most critical brain regions influencing model predictions. Across models, we found the dominance of visual networks, suggesting that task-driven state differences are primarily encoded in visual processing. Attention and control networks also showed relatively high importance, however, default mode and temporal-parietal networks demonstrated negligible contribution in differentiating cognitive states. Additionally, we observed individual trait-based effects and subtle model-specific differences, such that 1D-CNN showed slightly better overall performance, while BiLSTM showed better sensitivity for individual behavior; these initial findings require further research and robustness testing to be fully established. Our work underscores the importance of explainable DNN models in uncovering the neural mechanisms underlying cognitive state transitions, providing a foundation for future work in this domain. | 翻訳日:2024-09-08 15:50:41 公開日:2024-08-14 |
# n,d)->1ランダムアクセス符号における量子アドバンテージ
Quantum Advantages in (n,d)->1 Random Access Codes ( http://arxiv.org/abs/1510.03045v3 ) ライセンス: Link先を確認 | Andris Ambainis, Dmitry Kravchenko, Sk Sazim, Joonwoo Bae, Ashutosh Rai, | (参考訳) ランダムアクセスコード(RAC)は、量子情報理論における様々な応用の通信プリミティブに対応するもので、準備と測定のシナリオの例である。
本研究では、(n,d)-RACを「n」長文字列とし、文字の「d」サイズの集合から構成し、文字列の符号化を単一のdレベル物理系に送信し、量子的優位性を示す。
まず、最適化された古典的RACを特徴付け、多数エンコーディング・アイデンティティ・デコーディングとして知られる古典的戦略が本当に最適であることを証明した。
次に、最小限の要件である2つの非互換な測度のみを利用して量子プロトコルを構築し、古典的な測度を超える利点を示す。
また、この結果の一般性や、全ての (n, d)->1 RAC に対して量子的優位性が有効かどうかについても論じる。
A random access code (RAC), corresponding to a communication primitive with various applications in quantum information theory, is an instance of a preparation-and-measurement scenario. In this work, we consider (n,d)-RACs constituting an "n"-length string, constructed from a "d" size set of letters, and send an encoding of the string in a single d-level physical system and present their quantum advantages. We first characterize optimal classical RACs, proving that the well-known classical strategy known as majority-encoding-identity-decoding is indeed optimal. We then construct a quantum protocol by exploiting only two incompatible measurements, the minimal requirement, and show the advantages beyond the classical one. We also discuss the generality of our results and whether quantum advantages are valid for all types of (n, d)->1 RACs. | 翻訳日:2024-09-04 23:20:48 公開日:2024-08-14 |
# AIリスクリポジトリ: 人工知能によるリスクの総合的メタレビュー、データベース、分類
The AI Risk Repository: A Comprehensive Meta-Review, Database, and Taxonomy of Risks From Artificial Intelligence ( http://arxiv.org/abs/2408.12622v1 ) ライセンス: Link先を確認 | Peter Slattery, Alexander K. Saeri, Emily A. C. Grundy, Jess Graham, Michael Noetel, Risto Uuk, James Dao, Soroush Pour, Stephen Casper, Neil Thompson, | (参考訳) 人工知能(AI)によって引き起こされるリスクは、学者、監査人、政策立案者、AI企業、そして一般大衆にかなり懸念されている。
しかし、AIリスクに関する共通理解の欠如は、包括的に議論し、研究し、それに反応する能力を妨げる可能性がある。
本稿では、共通の参照フレームとして機能するAIリスクリポジトリを作成することで、このギャップに対処する。
このデータベースは、43の分類体系から抽出された777のリスクをリビングデータベースに格納し、2つの分類体系に基づいてフィルタリングし、Webサイトやオンラインスプレッドシートを通じて簡単にアクセス、修正、更新することができる。
我々は,AIリスクの分類とその他の構造的分類を体系的に検討し,専門家による協議によりリポジトリを構築した。
我々は、最適なフレームワーク合成を用いて、AIリスクの分類学を発展させる。
我々のAIリスクの高レベルの因果分類は、それぞれのリスクをその因果要因(Entity: Human, AI), (2)意図: Intentional, Unintentional, (3)タイミング:pre-deployment, Post-deployment)によって分類する。
中級のAIリスク分類では、リスクを(1)識別と毒性、(2)プライバシーとセキュリティ、(3)誤情報、(4)悪意あるアクターと誤用、(5)人間とコンピュータのインタラクション、(6)社会経済と環境、(7)AIシステムの安全性、障害、および制限の7つのAIリスクドメインに分類しています。
さらに23のサブドメインに分けられる。
AI Risk Repositoryは、私たちの知る限り、AIリスクフレームワークを広くアクセス可能で、包括的で、拡張可能で、分類されたリスクデータベースに厳格にキュレートし、分析し、抽出する最初の試みです。
これにより、AIシステムによって引き起こされるリスクを定義し、監査し、管理するための、よりコーディネートで、一貫性のある完全なアプローチの基礎が形成される。
The risks posed by Artificial Intelligence (AI) are of considerable concern to academics, auditors, policymakers, AI companies, and the public. However, a lack of shared understanding of AI risks can impede our ability to comprehensively discuss, research, and react to them. This paper addresses this gap by creating an AI Risk Repository to serve as a common frame of reference. This comprises a living database of 777 risks extracted from 43 taxonomies, which can be filtered based on two overarching taxonomies and easily accessed, modified, and updated via our website and online spreadsheets. We construct our Repository with a systematic review of taxonomies and other structured classifications of AI risk followed by an expert consultation. We develop our taxonomies of AI risk using a best-fit framework synthesis. Our high-level Causal Taxonomy of AI Risks classifies each risk by its causal factors (1) Entity: Human, AI; (2) Intentionality: Intentional, Unintentional; and (3) Timing: Pre-deployment; Post-deployment. Our mid-level Domain Taxonomy of AI Risks classifies risks into seven AI risk domains: (1) Discrimination & toxicity, (2) Privacy & security, (3) Misinformation, (4) Malicious actors & misuse, (5) Human-computer interaction, (6) Socioeconomic & environmental, and (7) AI system safety, failures, & limitations. These are further divided into 23 subdomains. The AI Risk Repository is, to our knowledge, the first attempt to rigorously curate, analyze, and extract AI risk frameworks into a publicly accessible, comprehensive, extensible, and categorized risk database. This creates a foundation for a more coordinated, coherent, and complete approach to defining, auditing, and managing the risks posed by AI systems. | 翻訳日:2024-09-01 17:02:13 公開日:2024-08-14 |
# 古典・量子システムにおける変位電流
Displacement Current in Classical and Quantum Systems ( http://arxiv.org/abs/2408.13268v1 ) ライセンス: Link先を確認 | David K. Ferry, Xavier Oriols, Robert Eisenberg, | (参考訳) 電気的性質 - 遅い (sec) か速い (nsec) か、光学的 (fsec) であっても がマクスウェルの方程式によって記述されていることは確かであり、電場と磁場の変化率に依存する用語がある。
特に、磁場のカールに対するマクスウェルの方程式は、電場の時間微分に依存する定常電流と項の両方を含む。
後者は変位電流と呼ばれ、主にマクスウェル自身によって含まれていたと考えられているが、以前にキルヒホフによって考えられていた証拠がある。
マクスウェルの方程式とキルホフの回路法則は、電子工学が伝統的に扱う幅広い周波数において重要である。
そして、変位電流は古典力学と量子力学の両方においてこれらに重要な寄与である。
ここでは、変位電流の発生、古典力学と量子力学の両方において重要であること、そしてそれが幅広い系の力学において果たす基本的な役割を説明するためにいくつかの応用が提供される。
It is certain that electrical properties-whether slow (sec) or fast (nsec), even optical (fsec)-are described by Maxwell's equations, and there are terms that depend on the rate of change of the electric and magnetic fields. In particular, Maxwell's equation for the curl of the magnetic field contains both the steady current and a term depending upon the temporal derivative of the electric displacement field. The latter is referred to as displacement current, and is generally believed to have been included originally by Maxwell himself, although there is evidence it was earlier considered by Kirchhoff. Maxwell's equations and Kirchoff's circuit laws both are important over the wide range of frequencies with which electronics traditionally deals. And, displacement current is an important contribution to these in both classical and quantum mechanics. Here, the development of displacement current, its importance in both classical and quantum mechanics, and some applications are provided to illustrate the fundamental role that it plays in the dynamics of a wide range of systems. | 翻訳日:2024-09-01 17:02:13 公開日:2024-08-14 |
# 超電導ビットに対する動的デカップリング方式の初期相関と時間遅延ノイズ
Initial Correlations and Time-Retarded Noise in Dynamical Decoupling Schemes for Superconducting Qubits ( http://arxiv.org/abs/2408.15277v1 ) ライセンス: Link先を確認 | Kiyoto Nakamura, Joachim Ankerhold, | (参考訳) 動的デカップリング(DD)と呼ばれる超伝導量子ビット演算のデコヒーレンスを抑制するための,最も単純かつ資源集約的な手法の1つを,時間的なフィードバックを伴って,幅広い現実的なノイズ源について検討した。
例えば、カル・プルセル・メイボーム・ギル (CPMG) 配列は、量子ビットと環境の間の相関関係についても、数値的に厳密な方法で解析される。
実験的なノイズ源はスペクトル密度によって特徴づけられるため、スピンボソンモデルを用いてスペクトル密度$J(\omega) \propto \omega^s$に対してDDの下での量子ビット力学を記述する。
幅広いノイズ源をカバーするために、スペクトル指数の$s$は、コヒーレンス時間向上のためのDD性能に対する時間非局所バックアクションの影響を調べるために、$s=1$ (Ohmic bath) から$0 < s \ll 1$ (Deep sub-Ohmic bath) のかなり小さな値に変化する。
DDスキームについて、ラムゼー列の1つの量子ビットのプルースとハーンエコー(HE)列を含まない動力学についても検討した。
One of the simplest and least resource-intensive methods to suppress decoherence for superconducting qubit operations, namely, dynamical decoupling (DD), is investigated for a broad range of realistic noise sources with time-retarded feedback. By way of example, the Carr-Purcell-Meiboom-Gill (CPMG) sequence is analyzed in a numerically rigorous manner accounting also for correlations between qubit and environment. Since experimentally noise sources are characterized through spectral densities, we adopt the spin-boson model as a suitable platform to describe the qubit dynamics under DD for a given spectral density $J(\omega) \propto \omega^s$. To cover a broad range of noise sources, the spectral exponent $s$ is varied from $s=1$ (Ohmic bath) to a substantially small value $0 < s \ll 1$ (deep sub-Ohmic bath), in order to investigate the impact of time-nonlocal back action on DD performances for enhanced coherence times. As reference to the DD schemes, dynamics of a single qubit subject to Ramsey sequences without any pules and Hahn echo (HE) sequences are also investigated. | 翻訳日:2024-09-01 16:32:17 公開日:2024-08-14 |
# 深層学習による画像サイトメトリーにおける細胞間相互作用の新しい解析法:空間的相互作用ポテンシャルとコローカライゼーション指数
Novel Methods for Analyzing Cellular Interactions in Deep Learning-Based Image Cytometry: Spatial Interaction Potential and Co-Localization Index ( http://arxiv.org/abs/2408.16008v1 ) ライセンス: Link先を確認 | Toru Nagasaka, Kimihiro Yamashita, Mitsugu Fujita, | (参考訳) 本研究は,深層学習に基づく画像サイトメトリーを用いて,デジタル病理における細胞間相互作用を定量化する新しい手法を提案する。
従来の方法は組織内の細胞の多様性と不均一性に苦しむ。
これを解決するために、深層学習の分類能力を活用した空間的相互作用ポテンシャル(SIP)とコローカライズ指数(CLI)を導入する。
SIPは電場と同様の細胞間相互作用の可能性を評価し、CLIは細胞間の距離を取り入れ、動的細胞の動きを考慮に入れている。
我々のアプローチは従来の方法を強化し、細胞間相互作用のより洗練された分析を提供する。
我々は,SIPとCLIをシミュレーションにより検証し,大腸癌検体に適用し,実際の生物学的データと強い相関を示す。
この手法は細胞相互作用の理解を大幅に改善し、デジタル病理学の様々な分野に応用できる可能性がある。
The study presents a novel approach for quantifying cellular interactions in digital pathology using deep learning-based image cytometry. Traditional methods struggle with the diversity and heterogeneity of cells within tissues. To address this, we introduce the Spatial Interaction Potential (SIP) and the Co-Localization Index (CLI), leveraging deep learning classification probabilities. SIP assesses the potential for cell-to-cell interactions, similar to an electric field, while CLI incorporates distances between cells, accounting for dynamic cell movements. Our approach enhances traditional methods, providing a more sophisticated analysis of cellular interactions. We validate SIP and CLI through simulations and apply them to colorectal cancer specimens, demonstrating strong correlations with actual biological data. This innovative method offers significant improvements in understanding cellular interactions and has potential applications in various fields of digital pathology. | 翻訳日:2024-09-01 16:32:17 公開日:2024-08-14 |
# SAGE-RT:安全評価とレッドチームのための合成アライメントデータ生成
SAGE-RT: Synthetic Alignment data Generation for Safety Evaluation and Red Teaming ( http://arxiv.org/abs/2408.11851v1 ) ライセンス: Link先を確認 | Anurakt Kumar, Divyanshu Kumar, Jatan Loya, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi, | (参考訳) SAGE-RT (SAGE-RT or SAGE) は, 合成アライメントとリピートデータを生成するための新しいパイプラインである。
既存のメソッドは、ニュアンスで多様なデータセットの作成に不足し、データ生成と検証プロセスの必要なコントロールを提供するか、あるいは大量の手動で生成されたシードデータを必要とする。
SAGEはこれらの制限に対処し、詳細な分類を使用して、幅広いトピックにわたる安全アライメントと再チームのデータを生成する。
有害性のトピックを1,500以上含み,大規模言語モデル(LLM)が直面する最も頻繁なタイプのジェイルブレイクプロンプトのバリエーションを網羅した,多種多様かつ詳細なプロンプト応答ペア51,000を作成した。
SAGEjailbreakによって生成されたリピートデータは,32のサブカテゴリのうち27以上,279のリーフカテゴリ(サブカテゴリ)のうち58以上において,最先端のLDMを突破する。
GPT-4o, GPT-3.5-turboの攻撃成功率は, 有害性のサブカテゴリに対して100%であった。
提案手法は,モデム崩壊やニュアンス欠如などの合成安全訓練データ生成の落とし穴を回避し,トピックの反復的拡張による有害トピックの詳細なカバレッジを確保し,生成した生テキストに出力を条件付ける。
この方法は、LLMセーフティのためのレッドチームデータとアライメントデータを生成するために使用することができ、LLMをより安全なものにしたり、様々なトピックでモデルのレッドチーム化に利用することができる。
We introduce Synthetic Alignment data Generation for Safety Evaluation and Red Teaming (SAGE-RT or SAGE) a novel pipeline for generating synthetic alignment and red-teaming data. Existing methods fall short in creating nuanced and diverse datasets, providing necessary control over the data generation and validation processes, or require large amount of manually generated seed data. SAGE addresses these limitations by using a detailed taxonomy to produce safety-alignment and red-teaming data across a wide range of topics. We generated 51,000 diverse and in-depth prompt-response pairs, encompassing over 1,500 topics of harmfulness and covering variations of the most frequent types of jailbreaking prompts faced by large language models (LLMs). We show that the red-teaming data generated through SAGE jailbreaks state-of-the-art LLMs in more than 27 out of 32 sub-categories, and in more than 58 out of 279 leaf-categories (sub-sub categories). The attack success rate for GPT-4o, GPT-3.5-turbo is 100% over the sub-categories of harmfulness. Our approach avoids the pitfalls of synthetic safety-training data generation such as mode collapse and lack of nuance in the generation pipeline by ensuring a detailed coverage of harmful topics using iterative expansion of the topics and conditioning the outputs on the generated raw-text. This method can be used to generate red-teaming and alignment data for LLM Safety completely synthetically to make LLMs safer or for red-teaming the models over a diverse range of topics. | 翻訳日:2024-08-25 13:51:32 公開日:2024-08-14 |
# インコンテキスト学習による高速トレーニングデータセットの属性
Fast Training Dataset Attribution via In-Context Learning ( http://arxiv.org/abs/2408.11852v1 ) ライセンス: Link先を確認 | Milad Fotouhi, Mohammad Taha Bahadori, Oluwaseyi Feyisetan, Payman Arabshahi, David Heckerman, | (参考訳) 本研究では,インコンテキスト学習とエンジニアリングの活用について検討し,インストラクションチューニングされた大規模言語モデル(LLM)の出力におけるトレーニングデータの貢献度を推定する。
本研究では,(1)LLM出力のコンテクストと非コンテクストとの差を測定する類似性に基づくアプローチと,(2)コントリビューションスコアを行列因数分解タスクとして識別する問題をモデル化する混合分布モデルアプローチを提案する。
我々の経験的比較は、混合モデルアプローチが文脈内学習におけるノイズの検索に頑健であることを示し、より信頼性の高いデータコントリビューション推定を提供する。
We investigate the use of in-context learning and prompt engineering to estimate the contributions of training data in the outputs of instruction-tuned large language models (LLMs). We propose two novel approaches: (1) a similarity-based approach that measures the difference between LLM outputs with and without provided context, and (2) a mixture distribution model approach that frames the problem of identifying contribution scores as a matrix factorization task. Our empirical comparison demonstrates that the mixture model approach is more robust to retrieval noise in in-context learning, providing a more reliable estimation of data contributions. | 翻訳日:2024-08-25 13:51:32 公開日:2024-08-14 |
# リコーディアーカイブによる写本の光学的音楽認識
Optical Music Recognition in Manuscripts from the Ricordi Archive ( http://arxiv.org/abs/2408.10260v1 ) ライセンス: Link先を確認 | Federico Simonetta, Rishav Mondal, Luca Andrea Ludovico, Stavros Ntalampiras, | (参考訳) リコルディのアーカイブは、ドニゼッティ、ヴェルディ、プッチーニなどの著名なオペラ作曲家の著名な音楽写本のコレクションであり、デジタル化されている。
このプロセスでは,ノート,ステーブ,クリーフ,消去,作曲家の注釈など,写本に描かれた様々な音楽要素を表すサンプルを自動的に抽出することができる。
デジタル化ノイズと実際の音楽要素を区別するために、これらの画像のサブセットを慎重にグループ化し、複数の個人によって複数のクラスにラベル付けした。
アノテーションの一貫性を評価した後、識別された音楽要素を区別するために、複数のニューラルネットワークベースの分類器を訓練した。
本研究の主な目的は,これらの分類器の信頼性を評価することである。
これらの実験で使用される手動のアノテーション、モデル、ソースコードによって補完されるデータセットは、レプリケーション目的で一般にアクセス可能である。
The Ricordi archive, a prestigious collection of significant musical manuscripts from renowned opera composers such as Donizetti, Verdi and Puccini, has been digitized. This process has allowed us to automatically extract samples that represent various musical elements depicted on the manuscripts, including notes, staves, clefs, erasures, and composer's annotations, among others. To distinguish between digitization noise and actual music elements, a subset of these images was meticulously grouped and labeled by multiple individuals into several classes. After assessing the consistency of the annotations, we trained multiple neural network-based classifiers to differentiate between the identified music elements. The primary objective of this study was to evaluate the reliability of these classifiers, with the ultimate goal of using them for the automatic categorization of the remaining unannotated data set. The dataset, complemented by manual annotations, models, and source code used in these experiments are publicly accessible for replication purposes. | 翻訳日:2024-08-21 18:28:07 公開日:2024-08-14 |
# リレーショナルグラフ畳み込みネットワークは音律を学習しない
Relational Graph Convolutional Networks Do Not Learn Sound Rules ( http://arxiv.org/abs/2408.10261v1 ) ライセンス: Link先を確認 | Matthew Morris, David J. Tena Cucala, Bernardo Cuenca Grau, Ian Horrocks, | (参考訳) グラフニューラルネットワーク(GNN)は、知識グラフ(KG)の欠落した事実を予測するために頻繁に使用される。
これらのモデルのアウトプットの説明可能性の欠如により、最近の研究は、広く使われている論理ベースの形式であるDatalogを用いて、それらの予測を説明することを目的としている。
しかし、そのような研究はGNNの特定のサブクラスに限定されている。
本稿では,KGs,R-GCNにおける最も一般的なGNNアーキテクチャの1つを考察し,その予測を説明するためのルールを抽出する2つの方法を提案する。
さらに、R-GCNに対して、データログ規則の特定のクラスが健全でないことを検証できる手法を提案する。
実験では、KG完了ベンチマーク上でR-GCNを訓練し、モデルが精度が高く、ほぼ完全であるにもかかわらず、これらのモデルに対してデータログ規則が健全でないことを検証できる。
このことは、R-GCNモデルを一般化する能力と、それらの予測の説明可能性について、いくつかの懸念を提起する。
さらに、R-GCNのトレーニングパラダイムに2つのバリエーションを加えて、音響規則を学習し、モデル精度と学習音声規則の数とのトレードオフを見つける。
Graph neural networks (GNNs) are frequently used to predict missing facts in knowledge graphs (KGs). Motivated by the lack of explainability for the outputs of these models, recent work has aimed to explain their predictions using Datalog, a widely used logic-based formalism. However, such work has been restricted to certain subclasses of GNNs. In this paper, we consider one of the most popular GNN architectures for KGs, R-GCN, and we provide two methods to extract rules that explain its predictions and are sound, in the sense that each fact derived by the rules is also predicted by the GNN, for any input dataset. Furthermore, we provide a method that can verify that certain classes of Datalog rules are not sound for the R-GCN. In our experiments, we train R-GCNs on KG completion benchmarks, and we are able to verify that no Datalog rule is sound for these models, even though the models often obtain high to near-perfect accuracy. This raises some concerns about the ability of R-GCN models to generalise and about the explainability of their predictions. We further provide two variations to the training paradigm of R-GCN that encourage it to learn sound rules and find a trade-off between model accuracy and the number of learned sound rules. | 翻訳日:2024-08-21 18:28:07 公開日:2024-08-14 |
# ブロックチェーンによるサプライチェーンファイナンスの現状と展望
A Survey on Blockchain-based Supply Chain Finance with Progress and Future directions ( http://arxiv.org/abs/2408.08915v1 ) ライセンス: Link先を確認 | Zhengdong Luo, | (参考訳) サプライチェーンの競争にとってサプライチェーンファイナンスは非常に重要であり、サプライチェーンの資本フローを活性化させる重要なツールである。
サプライチェーンファイナンス関連の研究は、口座の受入れ可能な融資、リスク管理の強化、サプライチェーン管理の最適化など、複数のアプリケーションやサービスをサポートすることができる。
ブロックチェーンの開発は10年以上にわたり、様々な分野、特に金融分野で広く注目を集めてきた。
データ改ざん、偽造防止、暗号、コンセンサス検証、分散化の特徴により、ブロックチェーンは、データの完全性、信頼性、プライバシ、情報共有を必要とするサプライチェーンファイナンスの現実的なニーズに適合する。
したがって、サプライチェーンファイナンス分野におけるブロックチェーン技術の応用をまとめる時が来た。
ブロックチェーン技術がサプライチェーンファイナンスにもたらすものは、情報非対称性、クレジット解体、ファイナンスコストの問題を緩和するだけでなく、インテリジェントなサプライチェーンファイナンスへのスマートコントラクトによるサプライチェーンファイナンスオペレーションの改善と、人工知能、クラウドコンピューティング、データマイニングといった他のテクノロジとの結合を両立させることである。
したがって、さまざまなサプライチェーンファイナンス指向のアプリケーションに対するブロックチェーンベースのサプライチェーンファイナンス調査では、いくつかの研究があったが、これらの作業の大部分は、概念的なフレームワークの提案や、その深いアプリケーションを活用することなくブロックチェーンを使用するための管理レベルにある。
さらに、ブロックチェーンベースのサプライチェーンファイナンス領域における現在の作業の包括的な概要を提供する体系的なレビューはほとんどない。
この論文では、我々は...
Supply Chain Finance is very important for supply chain competition, which is an important tool to activate the capital flow in the supply chain. Supply Chain Finance-related research can support multiple applications and services, such as providing accounts receivable financing, enhancing risk management, and optimizing supply chain management. For more than a decade, the development of Blockchain has attracted widely attention in various fields, especially in finance. With the characteristics of data tamper-proof, forgery-proof, cryptography, consensus verification, and decentralization, Blockchain fits well with the realistic needs of Supply Chain Finance, which requires data integrity, authenticity, privacy, and information sharing. Therefore, it is time to summarize the applications of Blockchain technology in the field of Supply Chain Finance. What Blockchain technology brings to Supply Chain Finance is not only to alleviate the problems of information asymmetry, credit disassembly, and financing cost, but also to improve Supply Chain Finance operations through smart contracts to intelligent Supply Chain Finance and in combination with other technologies, such as artificial intelligence, cloud computing, and data mining, jointly. So there has been some work in Blockchain-based Supply Chain Finance research for different Supply Chain Finance oriented applications, but most of these work are at the management level to propose conceptual frameworks or simply use Blockchain without exploiting its deep applications. Moreover, there are few systematic reviews providing a comprehensive summary of current work in the area of Blockchain-based Supply Chain Finance. In this paper, we ... | 翻訳日:2024-08-20 23:35:59 公開日:2024-08-14 |
# Recursive Bipolar Argumentation Frameworksにおける周期的サポート:セマンティックスとLPマッピング
Cyclic Supports in Recursive Bipolar Argumentation Frameworks: Semantics and LP Mapping ( http://arxiv.org/abs/2408.08916v1 ) ライセンス: Link先を確認 | Gianvincenzo Alfano, Sergio Greco, Francesco Parisi, Irina Trubitsyna, | (参考訳) Dung's Abstract Argumentation Framework (AF) は人工知能における議論の重要な形式として登場した。
BAF(Bipolar Argumentation Framework)が開発され、再帰攻撃と支援が行われ、再帰的BAF(Rec-BAF)が実現した。
サポートの異なる解釈が提案されているのに対して、Rec-BAF(アタックとサポートのターゲットもアタックとサポートの可能性がある)では、アタックの異なるセマンティクスが定義されている。
しかしながら、これらのフレームワークのセマンティクスはサポートサイクルの存在下で定義されていないか、しばしば関連する定義に関してかなり複雑である。
我々は、この制限と、一般的なBAFおよびRec-BAFの古典的意味論を包含し、特定のBAFおよびRec-BAFフレームワークのセマンティクスは、AFの場合に定義された、非常に単純で直感的な修正によって定義できることを示す。
これは、各AFベースのフレームワークに対して、敗北した要素と許容できる要素のセットのモジュラー定義を提供することによって達成される。
また、論理プログラミングや部分安定モデルのセマンティクスの観点から、一般のBAFやRec-BAFのセマンティクスをエレガントかつ均一に特徴づける。
Dung's Abstract Argumentation Framework (AF) has emerged as a key formalism for argumentation in Artificial Intelligence. It has been extended in several directions, including the possibility to express supports, leading to the development of the Bipolar Argumentation Framework (BAF), and recursive attacks and supports, resulting in the Recursive BAF (Rec-BAF). Different interpretations of supports have been proposed, whereas for Rec-BAF (where the target of attacks and supports may also be attacks and supports) even different semantics for attacks have been defined. However, the semantics of these frameworks have either not been defined in the presence of support cycles, or are often quite intricate in terms of the involved definitions. We encompass this limitation and present classical semantics for general BAF and Rec-BAF and show that the semantics for specific BAF and Rec-BAF frameworks can be defined by very simple and intuitive modifications of that defined for the case of AF. This is achieved by providing a modular definition of the sets of defeated and acceptable elements for each AF-based framework. We also characterize, in an elegant and uniform way, the semantics of general BAF and Rec-BAF in terms of logic programming and partial stable model semantics. | 翻訳日:2024-08-20 23:35:59 公開日:2024-08-14 |
# スポッフィング行動バイオメトリックスのための教師付き・教師なしアライメント
Supervised and Unsupervised Alignments for Spoofing Behavioral Biometrics ( http://arxiv.org/abs/2408.08918v1 ) ライセンス: Link先を確認 | Thomas Thebaud, Gaël Le Lan, Anthony Larcher, | (参考訳) 生体認証システムは、ユーザ固有の特性に基づいたセキュリティシステムであり、通常は埋め込みと呼ばれる高次元の表現にエンコードされる。
組込み盗難の危険性を検討するため,アライメント手法を用いて2つの行動バイオメトリックシステム(自動話者検証システムと手書き桁分析システム)に対してスプーフィング攻撃を行う。
埋め込みに基づく生体認証システムは、次の2つのフェーズで動作する。 登録 - 埋め込みが収集され、保存される場所 - 認証 - 新たな埋め込みが保存されているものと比較される場合。
元のデータを再構築して認証システムを偽造することは、そのエンコーダへのブラックボックスアクセスによって可能である。
本稿では,エンコーダへのアクセスを必要とせずにテンプレート再構築攻撃を行うオプションについて検討する。
これらの攻撃を実行するために、エンコーダ間の埋め込みの分布に関する一般的なルールを仮定し、教師なしおよび教師なしのアルゴリズムを用いて、ラベルなしの埋め込みのセットを既知のエンコーダのセットと整合させる。
教師なし翻訳文献からのアライメントアルゴリズムの使用は、2つの行動バイオメトリックシステムのスプーフ化に有望な結果をもたらす。
Biometric recognition systems are security systems based on intrinsic properties of their users, usually encoded in high dimension representations called embeddings, which potential theft would represent a greater threat than a temporary password or a replaceable key. To study the threat of embedding theft, we perform spoofing attacks on two behavioral biometric systems (an automatic speaker verification system and a handwritten digit analysis system) using a set of alignment techniques. Biometric recognition systems based on embeddings work in two phases: enrollment - where embeddings are collected and stored - then authentication - when new embeddings are compared to the stored ones -.The threat of stolen enrollment embeddings has been explored by the template reconstruction attack literature: reconstructing the original data to spoof an authentication system is doable with black-box access to their encoder. In this document, we explore the options available to perform template reconstruction attacks without any access to the encoder. To perform those attacks, we suppose general rules over the distribution of embeddings across encoders and use supervised and unsupervised algorithms to align an unlabeled set of embeddings with a set from a known encoder. The use of an alignment algorithm from the unsupervised translation literature gives promising results on spoofing two behavioral biometric systems. | 翻訳日:2024-08-20 23:35:59 公開日:2024-08-14 |
# TurboEdit:インスタントテキストベースの画像編集
TurboEdit: Instant text-based image editing ( http://arxiv.org/abs/2408.08332v1 ) ライセンス: Link先を確認 | Zongze Wu, Nicholas Kolkin, Jonathan Brandt, Richard Zhang, Eli Shechtman, | (参考訳) 我々は,数ステップの拡散モデルを用いて,正確な画像逆転と非交叉画像編集の課題に対処する。
エンコーダをベースとした反復インバージョン手法を提案する。
インバージョンネットワークは、入力画像と前段からの再構成画像とに条件付けされ、入力画像に対する次の再構成の補正を可能にする。
本研究では,(自動生成)詳細なテキストプロンプトを条件にすることで,数ステップの拡散モデルにおいて,不整合制御が容易に実現できることを示す。
逆画像を操作するために、ノイズマップをフリーズし、テキストプロンプト中の1つの属性を修正(手動またはLSMによって駆動される命令ベースの編集)し、入力画像に似た新しい画像を生成する。
さらに編集強度を制御し、インストラクティブテキストプロンプトを受け入れることができる。
提案手法は, リアルタイムなテキストガイド画像編集を容易にするため, インバージョン(1回あたりのコスト)において8つの機能評価(NFE)と4つのNFE(NFE)しか必要としない。
我々の手法は高速であるだけでなく、最先端の多段階拡散編集技術よりもはるかに優れている。
We address the challenges of precise image inversion and disentangled image editing in the context of few-step diffusion models. We introduce an encoder based iterative inversion technique. The inversion network is conditioned on the input image and the reconstructed image from the previous step, allowing for correction of the next reconstruction towards the input image. We demonstrate that disentangled controls can be easily achieved in the few-step diffusion model by conditioning on an (automatically generated) detailed text prompt. To manipulate the inverted image, we freeze the noise maps and modify one attribute in the text prompt (either manually or via instruction based editing driven by an LLM), resulting in the generation of a new image similar to the input image with only one attribute changed. It can further control the editing strength and accept instructive text prompt. Our approach facilitates realistic text-guided image edits in real-time, requiring only 8 number of functional evaluations (NFEs) in inversion (one-time cost) and 4 NFEs per edit. Our method is not only fast, but also significantly outperforms state-of-the-art multi-step diffusion editing techniques. | 翻訳日:2024-08-19 17:39:31 公開日:2024-08-14 |
# CodeMirage: 大規模言語モデルによって生成されたコードの幻覚
CodeMirage: Hallucinations in Code Generated by Large Language Models ( http://arxiv.org/abs/2408.08333v1 ) ライセンス: Link先を確認 | Vibhor Agarwal, Yulong Pei, Salwa Alamir, Xiaomo Liu, | (参考訳) 大規模言語モデル(LLM)は、プログラム生成とコードの自動化において有望な可能性を示している。
しかし、LLMは幻覚を生成する傾向があり、すなわち、可塑性に聞こえるが誤りであるテキストを生成する。
近年、テキスト生成のためのLLM幻覚の研究が急増しているが、コード生成において同様の幻覚現象が発生する可能性がある。
時に生成されたコードは、構文的または論理的エラーや、セキュリティの脆弱性やメモリリークといったより高度な問題を抱えることがある。
コード生成および開発における効率性を高めるため,LLMの広範な適応を考えると,コード生成における幻覚を調査することが不可欠となる。
我々の知る限りでは、LLMが生成したコードの幻覚を研究する最初の試みである。
まず、コード幻覚の定義とコード幻覚の包括分類の導入から始めます。
コード幻覚のための最初のベンチマークであるCodeMirageデータセットを提案する。
ベンチマークには、HumanEvalとMBPPという2つのベースデータセットから、Pythonプログラミング問題に対する1,137 GPT-3.5生成の幻覚コードスニペットが含まれている。
次に,CodeLLaMAやOpenAIのGPT-3.5,GPT-4といったオープンソースのLCMをワンショットプロンプトで検出し,実験する手法を提案する。
GPT-4はHumanEvalデータセット上で最高の性能を示し、MBPPデータセット上の細調整されたCodeBERTベースラインに匹敵する結果を与える。
最後に,コード幻覚の緩和戦略について論じ,研究をまとめる。
Large Language Models (LLMs) have shown promising potentials in program generation and no-code automation. However, LLMs are prone to generate hallucinations, i.e., they generate text which sounds plausible but is incorrect. Although there has been a recent surge in research on LLM hallucinations for text generation, similar hallucination phenomenon can happen in code generation. Sometimes the generated code can have syntactical or logical errors as well as more advanced issues like security vulnerabilities, memory leaks, etc. Given the wide adaptation of LLMs to enhance efficiency in code generation and development in general, it becomes imperative to investigate hallucinations in code generation. To the best of our knowledge, this is the first attempt at studying hallucinations in the code generated by LLMs. We start by introducing the code hallucination definition and a comprehensive taxonomy of code hallucination types. We propose the first benchmark CodeMirage dataset for code hallucinations. The benchmark contains 1,137 GPT-3.5 generated hallucinated code snippets for Python programming problems from two base datasets - HumanEval and MBPP. We then propose the methodology for code hallucination detection and experiment with open source LLMs such as CodeLLaMA as well as OpenAI's GPT-3.5 and GPT-4 models using one-shot prompt. We find that GPT-4 performs the best on HumanEval dataset and gives comparable results to the fine-tuned CodeBERT baseline on MBPP dataset. Towards the end, we discuss various mitigation strategies for code hallucinations and conclude our work. | 翻訳日:2024-08-19 17:39:31 公開日:2024-08-14 |
# ハイブリッドテンソルネットワークによる量子古典機械学習
Quantum-Classical Machine learning by Hybrid Tensor Networks ( http://arxiv.org/abs/2005.09428v2 ) ライセンス: Link先を確認 | Ding Liu, Jiaqi Yao, Zekun Yao, Quan Zhang, | (参考訳) テンソルネットワーク(TN)は機械学習に広く使われており、特にTNとディープラーニングは大きな類似点を持っている。
本研究では,機械学習における通常のテンソルネットワークの限界を克服するため,量子古典的ハイブリッドテンソルネットワーク(HTN)と古典的ニューラルネットワークを組み合わせた一様ディープラーニングフレームワークを提案する。
まず、表現力とアーキテクチャのスケーラビリティを含む機械学習の応用における通常のテンソルネットワークの限界を分析する。
実際、通常のテンソルネットワークはディープラーニングの基本的な構成要素には適していないと結論付けている。
そこで,機械学習における通常のテンソルネットワークの欠如を克服するHTNの性能について検討する。
この意味では、Back PropagationやStochastic Gradient Descentといったアルゴリズムの標準的な組み合わせであるディープラーニング方式でHTNを訓練することができる。
最終的に、量子状態分類や量子古典的オートエンコーダを含む、HTNの潜在的な応用を示す2つの応用事例を提示する。
これらのケースはまた、様々なHTNをディープラーニングで設計する大きな可能性を示している。
Tensor networks (TN) have found a wide use in machine learning, and in particular, TN and deep learning bear striking similarities. In this work, we propose the quantum-classical hybrid tensor networks (HTN) which combine tensor networks with classical neural networks in a uniform deep learning framework to overcome the limitations of regular tensor networks in machine learning. We first analyze the limitations of regular tensor networks in the applications of machine learning involving the representation power and architecture scalability. We conclude that in fact the regular tensor networks are not competent to be the basic building blocks of deep learning. Then, we discuss the performance of HTN which overcome all the deficiency of regular tensor networks for machine learning. In this sense, we are able to train HTN in the deep learning way which is the standard combination of algorithms such as Back Propagation and Stochastic Gradient Descent. We finally provide two applicable cases to show the potential applications of HTN, including quantum states classification and quantum-classical autoencoder. These cases also demonstrate the great potentiality to design various HTN in deep learning way. | 翻訳日:2024-08-19 05:35:40 公開日:2024-08-14 |
# 実業界における試験室スケジューリングのための制約計画とハイブリッド手法の検討
Investigating Constraint Programming and Hybrid Methods for Real World Industrial Test Laboratory Scheduling ( http://arxiv.org/abs/1911.04766v4 ) ライセンス: Link先を確認 | Tobias Geibinger, Florian Mischek, Nysret Musliu, | (参考訳) 本稿では、よく知られた資源制約計画問題(RCPSP)と密接に関連する複雑な実世界のスケジューリング問題に対処する。
この問題は、期限やその他の制約を尊重しつつ、専門設備を使用する資格のある職員が多数の試験を行う必要がある産業試験室に関するものである。
本稿では,この問題に対する制約プログラミングモデルと探索戦略について述べる。
さらに,提案手法に基づいた大規模近傍探索手法を提案する。
本モデルでは,実世界の実験室データと実世界のデータに基づく異なるサイズのインスタンスのセットに基づいて,CPソルバとMIPソルバを用いて評価を行った。
さらに、正確なアプローチをVLNSとシミュレートされたアニーリングヒューリスティックと比較する。
すべてのインスタンスと複数の最適解に対して実現可能な解を見つけることができ、VLNSを使用することで、他のアプローチの結果を改善することができることを示す。
In this paper we deal with a complex real world scheduling problem closely related to the well-known Resource-Constrained Project Scheduling Problem (RCPSP). The problem concerns industrial test laboratories in which a large number of tests has to be performed by qualified personnel using specialised equipment, while respecting deadlines and other constraints. We present different constraint programming models and search strategies for this problem. Furthermore, we propose a Very Large Neighborhood Search approach based on our CP methods. Our models are evaluated using CP solvers and a MIP solver both on real-world test laboratory data and on a set of generated instances of different sizes based on the real-world data. Further, we compare the exact approaches with VLNS and a Simulated Annealing heuristic. We could find feasible solutions for all instances and several optimal solutions and we show that using VLNS we can improve upon the results of the other approaches. | 翻訳日:2024-08-16 19:30:50 公開日:2024-08-14 |
# フレキシブルロボットにおける非線形モデル予測制御の安全な模倣学習
Safe Imitation Learning of Nonlinear Model Predictive Control for Flexible Robots ( http://arxiv.org/abs/2212.02941v3 ) ライセンス: Link先を確認 | Shamil Mamedov, Rudolf Reiter, Seyed Mahdi Basiri Azad, Ruan Viljoen, Joschka Boedecker, Moritz Diehl, Jan Swevers, | (参考訳) フレキシブルロボットは、本質的に安全な人間とロボットのコラボレーションを可能にし、より高いペイロードと質量の比率を達成するなど、業界の主要な課題を克服する可能性がある。
しかし、振動挙動や高次元状態空間を含む複雑な力学のため、柔軟ロボットの制御は複雑である。
非線形モデル予測制御(NMPC)は、そのようなロボットを制御する効果的な手段を提供するが、その大きな計算要求は、しばしばリアルタイムシナリオでの応用を制限する。
フレキシブルロボットの高速制御を実現するために,模倣学習と予測安全フィルタを用いたNMPCの安全な近似のためのフレームワークを提案する。
我々のフレームワークは、性能をわずかに損なうことなく、計算時間を著しく短縮する。
NMPCと比較して、我々のフレームワークは3次元フレキシブルロボットアームをシミュレーションで制御する際の計算時間を8倍以上改善し、安全性の制約を保証している。
特に,本手法は最先端の強化学習法より優れている。
高速で安全な近似NMPCの開発は、産業における柔軟なロボットの採用を加速する可能性を秘めている。
プロジェクトのコードは以下の通り。 littleurl.com/anmpc4fr
Flexible robots may overcome some of the industry's major challenges, such as enabling intrinsically safe human-robot collaboration and achieving a higher payload-to-mass ratio. However, controlling flexible robots is complicated due to their complex dynamics, which include oscillatory behavior and a high-dimensional state space. Nonlinear model predictive control (NMPC) offers an effective means to control such robots, but its significant computational demand often limits its application in real-time scenarios. To enable fast control of flexible robots, we propose a framework for a safe approximation of NMPC using imitation learning and a predictive safety filter. Our framework significantly reduces computation time while incurring a slight loss in performance. Compared to NMPC, our framework shows more than an eightfold improvement in computation time when controlling a three-dimensional flexible robot arm in simulation, all while guaranteeing safety constraints. Notably, our approach outperforms state-of-the-art reinforcement learning methods. The development of fast and safe approximate NMPC holds the potential to accelerate the adoption of flexible robots in industry. The project code is available at: tinyurl.com/anmpc4fr | 翻訳日:2024-08-16 19:30:50 公開日:2024-08-14 |
# メタ強化学習に関する調査
A Survey of Meta-Reinforcement Learning ( http://arxiv.org/abs/2301.08028v2 ) ライセンス: Link先を確認 | Jacob Beck, Risto Vuorio, Evan Zheran Liu, Zheng Xiong, Luisa Zintgraf, Chelsea Finn, Shimon Whiteson, | (参考訳) ディープラーニング(Deep reinforcement learning, RL)は、機械学習におけるいくつかの顕著な成功を後押ししてきたが、多くの場合、データ効率の低下と、それが生み出すポリシーの限定的な一般化によって、より広く採用されることから、遠ざかっている。
これらの制限を緩和するための有望なアプローチは、メタRLと呼ばれるプロセスにおいて機械学習問題自体として、より良いRLアルゴリズムを開発することである。
メタRLは、タスクの分散が与えられた場合、可能な限り少ないデータでタスクの分散から新しいタスクに適応できるポリシーを学ぶことが目的である。
本稿では,メタRL問題と,その主なバリエーションについて詳述する。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,メタRL研究を高いレベルでクラスタ化する方法について論じる。
これらのクラスタを用いてメタRLアルゴリズムとアプリケーションを調査します。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
While deep reinforcement learning (RL) has fueled multiple high-profile successes in machine learning, it is held back from more widespread adoption by its often poor data efficiency and the limited generality of the policies it produces. A promising approach for alleviating these limitations is to cast the development of better RL algorithms as a machine learning problem itself in a process called meta-RL. Meta-RL is most commonly studied in a problem setting where, given a distribution of tasks, the goal is to learn a policy that is capable of adapting to any new task from the task distribution with as little data as possible. In this survey, we describe the meta-RL problem setting in detail as well as its major variations. We discuss how, at a high level, meta-RL research can be clustered based on the presence of a task distribution and the learning budget available for each individual task. Using these clusters, we then survey meta-RL algorithms and applications. We conclude by presenting the open problems on the path to making meta-RL part of the standard toolbox for a deep RL practitioner. | 翻訳日:2024-08-16 19:24:40 公開日:2024-08-14 |
# ニューラルネットワークにおける深度縮退性:初期化における完全連結ReLUネットワークのアングルの消滅
Depth Degeneracy in Neural Networks: Vanishing Angles in Fully Connected ReLU Networks on Initialization ( http://arxiv.org/abs/2302.09712v3 ) ライセンス: Link先を確認 | Cameron Jakub, Mihai Nica, | (参考訳) 様々なタスクにおける顕著な性能にもかかわらず、ディープニューラルネットワークの多くの特性はまだ理論的に理解されていない。
ネットワークが深ければ深いほど、ネットワークは初期化時に一定の機能に近づきます。
本稿では,層数の関数としてのReLUニューラルネットワークに対する2つの入力間の角度の進化について検討する。
組合せ展開を用いることで、深さが増加するにつれてこの角度がゼロになる速度の正確な公式が見つかる。
これらの公式は無限幅制限の一般的な枠組みでは見えない微視的なゆらぎを捉え、質的に異なる予測をもたらす。
モンテカルロ実験を用いて理論的結果を検証し, 有限ネットワークの挙動を正確に近似することを示した。
また、深度縮退現象が実際のネットワークのトレーニングに悪影響を及ぼすかを実証的に検討する。
式はReLU関数を通した相関ガウスの混合モーメントの観点から与えられる。
また、これらの混合モーメントとベッセル数との間に驚くほどの組合せ関係があり、これらのモーメントを明示的に評価することができる。
Despite remarkable performance on a variety of tasks, many properties of deep neural networks are not yet theoretically understood. One such mystery is the depth degeneracy phenomenon: the deeper you make your network, the closer your network is to a constant function on initialization. In this paper, we examine the evolution of the angle between two inputs to a ReLU neural network as a function of the number of layers. By using combinatorial expansions, we find precise formulas for how fast this angle goes to zero as depth increases. These formulas capture microscopic fluctuations that are not visible in the popular framework of infinite width limits, and leads to qualitatively different predictions. We validate our theoretical results with Monte Carlo experiments and show that our results accurately approximate finite network behaviour. \review{We also empirically investigate how the depth degeneracy phenomenon can negatively impact training of real networks.} The formulas are given in terms of the mixed moments of correlated Gaussians passed through the ReLU function. We also find a surprising combinatorial connection between these mixed moments and the Bessel numbers that allows us to explicitly evaluate these moments. | 翻訳日:2024-08-16 19:24:40 公開日:2024-08-14 |
# 古典的な量子非シグナリングボックス
Classical-to-quantum non-signalling boxes ( http://arxiv.org/abs/2303.17268v6 ) ライセンス: Link先を確認 | Carolina Moreira Ferrera, Robin Simmons, James Purcell, Daniel Collins, Sandu Popescu, | (参考訳) ここでは、古典的入力-量子出力(C-Q)非シグナリングボックスの概念、古典的入力-古典的出力(C-C)非シグナリングボックスの一般化を紹介する。
このような対象を研究することで、量子力学を超えた量子非局所性と非局所性との関係をよりよく理解できるようになると論じる。
論文で論じられている主な問題は、既に知られている物体、すなわち、事前に共有された量子粒子に作用するC-Cボックスから、C-Qボックスまたは全てのC-Qボックスを構築することができるかどうかである。
C-Q ボックスの大規模なクラスは非遺伝的であることを示す。
特に、純状態の出力を持つ全ての二部C-Qボックスが非GAであることを示す。
また,解答がまだオープンな混合状態を出力するマルチパーティC-Qボックスなど,一般問題に対処するための様々な戦略も提示する。
最後に、非常に単純なC-Qボックスでさえ、それらをシミュレートするために大量のC-C非局所相関を必要とすることを示す。
Here we introduce the concept of classical input - quantum output (C-Q) non-signalling boxes, a generalisation of the classical input - classical output (C-C) non-signalling boxes. We argue that studying such objects leads to a better understanding of the relation between quantum nonlocality and non-locality beyond quantum mechanics. The main issue discussed in the paper is whether there exist 'genuine' C-Q boxes or all C-Q boxes can be built from objects already known, namely C-C boxes acting on pre-shared entangled quantum particles. We show that large classes of C-Q boxes are non-genuine. In particular, we show that all bi-partite C-Q boxes with outputs that are pure states are non-genuine. We also present various strategies for addressing the general problem, i.e. for multi-partite C-Q boxes which output mixed states, whose answer is still open. Finally, we show that even some very simple non-genuine C-Q boxes require large amounts of C-C nonlocal correlations in order to simulate them. | 翻訳日:2024-08-16 19:24:40 公開日:2024-08-14 |
# 学習した特徴におけるボトルネック構造:低次元対正規性トレードオフ
Bottleneck Structure in Learned Features: Low-Dimension vs Regularity Tradeoff ( http://arxiv.org/abs/2305.19008v3 ) ライセンス: Link先を確認 | Arthur Jacot, | (参考訳) これまでの研究では、大深度$L$と$L_{2}$-regularizationを持つDNNが入力の低次元表現の学習に偏りがあることが示されており、これは学習関数$f$の階数$R^{(0)}(f)$の最小化として解釈できる。
この結果に対する有限深度補正を計算し、ヤコビアン $\left|Jf(x)\right|_{+}$ の擬行列式を有界とする正則性の測度 $R^{(1)}$ を明らかにし、合成と加法の下で加法的である。
これは低次元表現の学習と特徴写像における複雑性/不規則性の最小化のバランスを形式化し、ネットワークが'右'内部次元を学習できるようにする。
最後に、学習した特徴のボトルネック構造を$L\to\infty$: 大深度の場合、ほとんどすべての隠れ表現はおよそ$R^{(0)}(f)$-次元であり、ほとんどすべての重み行列は$W_{\ell}$ have $R^{(0)}(f)$特異値が 1 に近く、その他のものは$O(L^{-\frac{1}{2}})$である。
興味深いことに、大きな学習率の使用は、ほぼすべての層の表現の無限深度収束を保証する注文$O(L)$ NTKを保証するために要求される。
Previous work has shown that DNNs with large depth $L$ and $L_{2}$-regularization are biased towards learning low-dimensional representations of the inputs, which can be interpreted as minimizing a notion of rank $R^{(0)}(f)$ of the learned function $f$, conjectured to be the Bottleneck rank. We compute finite depth corrections to this result, revealing a measure $R^{(1)}$ of regularity which bounds the pseudo-determinant of the Jacobian $\left|Jf(x)\right|_{+}$ and is subadditive under composition and addition. This formalizes a balance between learning low-dimensional representations and minimizing complexity/irregularity in the feature maps, allowing the network to learn the `right' inner dimension. Finally, we prove the conjectured bottleneck structure in the learned features as $L\to\infty$: for large depths, almost all hidden representations are approximately $R^{(0)}(f)$-dimensional, and almost all weight matrices $W_{\ell}$ have $R^{(0)}(f)$ singular values close to 1 while the others are $O(L^{-\frac{1}{2}})$. Interestingly, the use of large learning rates is required to guarantee an order $O(L)$ NTK which in turns guarantees infinite depth convergence of the representations of almost all layers. | 翻訳日:2024-08-16 19:24:40 公開日:2024-08-14 |
# サブ線形ハイパーボリュームレグレットの最適スカラー化
Optimal Scalarizations for Sublinear Hypervolume Regret ( http://arxiv.org/abs/2307.03288v3 ) ライセンス: Link先を確認 | Qiuyi Zhang, | (参考訳) スケーラビリティは、複数の目的を1つに減らすため、任意の多目的設定に展開できる一般的なパラライズ可能な手法であるが、線形スカラー化はパレートフロンティアの凹凸領域を探索できないため、この汎用的アプローチを否定する者もいる。
その目的は、支配的な超体積によって測定されるように、パレートフロンティア上の様々な$k$の目的の集合を確実に探索する単純な非線形スカラー化を見つけることである。
均一にランダムな重みを持つ超体積スカラー化は、任意のアルゴリズムが漸近的により良い処理をすることを妨げる下界と一致する$O(T^{-1/k})$の最適線形超体積後悔境界を達成することを示す。
多目的確率線型包帯の設定には、超体積スカラー化の特性を利用して、新しい非ユークリッド解析を導出し、$\tilde{O}(d T^{-1/2} + T^{-1/k})$の後悔境界を求め、不要な$\text{poly}(k)$依存を取り除く。
我々は,非線形スキャラライゼーションを多種多様な自然条件下で,線形なスキャラライゼーションと他の標準多目的アルゴリズムより優れているという,強い経験的性能で理論を支援した。
Scalarization is a general, parallizable technique that can be deployed in any multiobjective setting to reduce multiple objectives into one, yet some have dismissed this versatile approach because linear scalarizations cannot explore concave regions of the Pareto frontier. To that end, we aim to find simple non-linear scalarizations that provably explore a diverse set of $k$ objectives on the Pareto frontier, as measured by the dominated hypervolume. We show that hypervolume scalarizations with uniformly random weights achieves an optimal sublinear hypervolume regret bound of $O(T^{-1/k})$, with matching lower bounds that preclude any algorithm from doing better asymptotically. For the setting of multiobjective stochastic linear bandits, we utilize properties of hypervolume scalarizations to derive a novel non-Euclidean analysis to get regret bounds of $\tilde{O}( d T^{-1/2} + T^{-1/k})$, removing unnecessary $\text{poly}(k)$ dependencies. We support our theory with strong empirical performance of using non-linear scalarizations that outperforms both their linear counterparts and other standard multiobjective algorithms in a variety of natural settings. | 翻訳日:2024-08-16 19:24:40 公開日:2024-08-14 |
# CoTFormer: 推論における予算適応型計算コストを備えた階層型アーキテクチャ
CoTFormer: A Chain-of-Thought Driven Architecture with Budget-Adaptive Computation Cost at Inference ( http://arxiv.org/abs/2310.10845v2 ) ライセンス: Link先を確認 | Amirkeivan Mohtashami, Matteo Pagliardini, Martin Jaggi, | (参考訳) 言語モデルをより大きく、より深く拡張することで、パフォーマンスが大幅に向上した。
これらのモデルのサイズは、計算に制約のある環境での適用を制限するが、より大きくより深い基礎的なモデルを継続的に開発するレースが進行中である。
同時に、モデルのサイズに関係なく、タスク固有のテクニックは、最適な下流のパフォーマンスを達成する上で重要な役割を担っています。
CoT(Chain-of-Thought)と呼ばれるこれらのテクニックの1つは特に興味深い。この研究で指摘したように、モデルを何度も再適用することで、より深いトランスフォーマーを採用するようなものだ。
しかし、過去のトークンの注意を計算する上で重要な微妙さは、CoTが単にモデルを数回適用することとの違いである。
この知見に基づいて,トークンレベルでCoTを忠実に模倣する新しいアーキテクチャであるCoTFormerを提案する。
CoTを適用すると計算コストが増大するが、CoTFormerのトークンワイドな変数深度との特別な互換性を活用して補う。
計算を最も必要としているトークンに自動的に割り当てる計算適応モデルを通じて、精度を低下させることなく計算コストを大幅に削減でき、競争精度を維持しながらさらなる計算コスト削減が可能であることを示す。
Scaling language models to larger and deeper sizes has led to significant boosts in performance. Even though the size of these models limits their application in compute-constrained environments, the race to continually develop ever larger and deeper foundational models is underway. At the same time -- regardless of the model size -- task-specific techniques continue to play a pivotal role in achieving optimal downstream performance. One of these techniques, called Chain-of-Thought (CoT), is particularly interesting since, as we point out in this work, it resembles employing a deeper transformer through re-applying the model multiple times. However, a key subtlety in computing the attention of past tokens differentiates CoT from simply applying the model several times. Based on this insight, we propose CoTFormer, a novel architecture which closely mimics CoT at the token level, allowing us to obtain significantly improved accuracies close to much larger models. While applying CoT introduces additional computation costs, we compensate for it by leveraging CoTFormer's special compatibility with token-wise variable depth. Through a compute adaptive model -- which automatically allocates the compute to tokens that need it most -- we show that it is possible to reduce the computation cost significantly without any reduction in accuracy, and with further compute cost reductions possible while maintaining a competitive accuracy. | 翻訳日:2024-08-16 19:14:56 公開日:2024-08-14 |
# トラップイオン中のボソニック論理状態のロバストと決定論的生成
Robust and Deterministic Preparation of Bosonic Logical States in a Trapped Ion ( http://arxiv.org/abs/2310.15546v3 ) ライセンス: Link先を確認 | V. G. Matsos, C. H. Valahu, T. Navickas, A. D. Rao, M. J. Millican, X. C. Kolesnikow, M. J. Biercuk, T. R. Tan, | (参考訳) 論理量子ビットをボソニックモードで符号化すると、フォールトトレラントな量子情報処理のハードウェア効率が向上する可能性がある。
ここでは, 閉じ込められたイオンの機械的運動における非古典的ボゾン状態の高忠実度, 決定論的準備について述べる。
本手法は, レーザ駆動のスピンモーション相互作用の動的変調を最適化し, 単一ステップで目標状態を生成することにより, 誤差抑圧パルスを実装した。
我々は,GKP状態が$\bar{\mathcal{F}}=0.940(8)$,$\mathcal{F}=0.807(7)$,12.91(5)dB圧縮真空状態であることを示す。
Encoding logical qubits in bosonic modes provides a potentially hardware-efficient implementation of fault-tolerant quantum information processing. Here, we demonstrate high-fidelity and deterministic preparation of highly non-classical bosonic states in the mechanical motion of a trapped ion. Our approach implements error-suppressing pulses through optimized dynamical modulation of laser-driven spin-motion interactions to generate the target state in a single step. We demonstrate logical fidelities for the Gottesman-Kitaev-Preskill (GKP) state as high as $\bar{\mathcal{F}}=0.940(8)$, a distance-3 binomial state with an average fidelity of $\mathcal{F}=0.807(7)$, and a 12.91(5) dB squeezed vacuum state. | 翻訳日:2024-08-16 19:14:56 公開日:2024-08-14 |
# QECO:モバイルエッジコンピューティングのための深層強化学習に基づくQoE指向計算オフロードアルゴリズム
QECO: A QoE-Oriented Computation Offloading Algorithm based on Deep Reinforcement Learning for Mobile Edge Computing ( http://arxiv.org/abs/2311.02525v2 ) ライセンス: Link先を確認 | Iman Rahmati, Hamed Shah-Mansouri, Ali Movaghar, | (参考訳) モバイルエッジコンピューティング(MEC)の領域では、効率的な計算タスクのオフロードは、ユーザにとってシームレスな品質のエクスペリエンス(QoE)を保証する上で重要な役割を果たす。
高いQoEを維持することは、ユーザが信頼できるサービスを要求する、今日の相互接続の世界において最重要である。
この課題は、動的で不確実なモバイル環境の処理に寄与する最も重要な要因の1つである。
本研究では,厳密なタスク処理期限とエネルギー制約がシステム性能に悪影響を及ぼすおそれのあるMECシステムにおける計算オフロードについて検討する。
計算タスクのオフロード問題をマルコフ決定プロセス(MDP)として定式化し、各ユーザの長期QoEを個別に最大化する。
本稿では、モバイルデバイスが他のデバイスによる決定の知識を必要とせずに、そのオフロード決定を行うことを可能にする、深層強化学習(DRL)に基づく分散QoE指向計算オフロード(QECO)アルゴリズムを提案する。
数値解析により,QECOの性能評価を行った。
シミュレーションの結果、QECOはエッジノードの計算資源を効率的に活用することを確認した。
その結果、タスクを14倍に増やし、タスク遅延とエネルギー消費をそれぞれ9%と6%削減できる。
これらの組み合わせは、既存のアルゴリズムと比較して、平均QoEの少なくとも37倍の大幅な改善に寄与する。
In the realm of mobile edge computing (MEC), efficient computation task offloading plays a pivotal role in ensuring a seamless quality of experience (QoE) for users. Maintaining a high QoE is paramount in today's interconnected world, where users demand reliable services. This challenge stands as one of the most primary key factors contributing to handling dynamic and uncertain mobile environment. In this study, we delve into computation offloading in MEC systems, where strict task processing deadlines and energy constraints can adversely affect the system performance. We formulate the computation task offloading problem as a Markov decision process (MDP) to maximize the long-term QoE of each user individually. We propose a distributed QoE-oriented computation offloading (QECO) algorithm based on deep reinforcement learning (DRL) that empowers mobile devices to make their offloading decisions without requiring knowledge of decisions made by other devices. Through numerical studies, we evaluate the performance of QECO. Simulation results validate that QECO efficiently exploits the computational resources of edge nodes. Consequently, it can complete 14\% more tasks and reduce task delay and energy consumption by 9% and 6%, respectively. These together contribute to a significant improvement of at least 37\% in average QoE compared to an existing algorithm. | 翻訳日:2024-08-16 19:14:56 公開日:2024-08-14 |
# ホログラフィーとミューチュアル・インフォメーション・ガイダンスによる3D画像から航空写真まで
HawkI: Homography & Mutual Information Guidance for 3D-free Single Image to Aerial View ( http://arxiv.org/abs/2311.15478v3 ) ライセンス: Link先を確認 | Divya Kothandaraman, Tianyi Zhou, Ming Lin, Dinesh Manocha, | (参考訳) 我々は,テキストと模範画像から空中視像を合成するためのHawkIについて,微調整や推論のための追加のマルチビューや3D情報なしで述べる。
HawkIは古典的なコンピュータビジョンと情報理論の技法を使用している。
入力画像からの視覚的特徴を事前訓練されたテキストから2次元の安定拡散モデルにシームレスにブレンドし、入射視点マッピング(IPM)のホモグラフィ変換を用いて航空視合成のための微妙な手がかりを提供する。
推測において、HawkeIは、現実的な空中視点を維持しながら、入力画像のセマンティック詳細を忠実に複製するために、生成したイメージを操るために、ユニークな相互情報ガイダンスの定式化を用いる。
相互情報ガイダンスは生成した画像と入力画像とのセマンティック一貫性を最大化し、異なる視点間のピクセルレベルの対応を強制しない。
提案した合成および実データに対するテキスト+例画像ベース手法と3D/複数ビューベース新規ビュー合成手法との大規模な定性的・定量的比較により,本手法は高忠実度空中ビュー画像の生成に向けて,より優れたバイアス分散トレードオフを実現することを実証した。
We present HawkI, for synthesizing aerial-view images from text and an exemplar image, without any additional multi-view or 3D information for finetuning or at inference. HawkI uses techniques from classical computer vision and information theory. It seamlessly blends the visual features from the input image within a pretrained text-to-2Dimage stable diffusion model with a test-time optimization process for a careful bias-variance trade-off, which uses an Inverse Perspective Mapping (IPM) homography transformation to provide subtle cues for aerialview synthesis. At inference, HawkI employs a unique mutual information guidance formulation to steer the generated image towards faithfully replicating the semantic details of the input-image, while maintaining a realistic aerial perspective. Mutual information guidance maximizes the semantic consistency between the generated image and the input image, without enforcing pixel-level correspondence between vastly different viewpoints. Through extensive qualitative and quantitative comparisons against text + exemplar-image based methods and 3D/ multi-view based novel-view synthesis methods on proposed synthetic and real datasets, we demonstrate that our method achieves a significantly better bias-variance trade-off towards generating high fidelity aerial-view images.Code and data is available at https://github.com/divyakraman/HawkI2024. | 翻訳日:2024-08-16 19:14:56 公開日:2024-08-14 |
# WATonoBus:フィールドテストによる全重量自律型シャトル技術
WATonoBus: Field-Tested All-Weather Autonomous Shuttle Technology ( http://arxiv.org/abs/2312.00938v2 ) ライセンス: Link先を確認 | Neel P. Bhatt, Ruihe Zhang, Minghao Ning, Ahmad Reza Alghooneh, Joseph Sun, Pouya Panahandeh, Ehsan Mohammadbagher, Ted Ecclestone, Ben MacCallum, Ehsan Hashemi, Amir Khajepour, | (参考訳) 全天候の自動運転車の運用は、知覚や意思決定から経路計画や制御までモジュールを包含する、重大な課題を生んでいる。
この複雑さは、降雨、雪、霧などの悪天候に自律的なスタックを越えて対処する必要があることから生じる。
従来のモデルベースのシングルモジュールアプローチは、アップストリームやダウンストリームのタスクと全体的な統合を欠いていることが多い。
本稿では,積雪抑制検出,意思決定,安全監視といった特徴を通じて,認識レベルを越えた悪天候を考慮したマルチモジュール・モジュールシステムアーキテクチャを提案する。
WATonoBusプラットフォーム上で約2年間の平日サービスを通じて,我々の提案手法は悪天候に対処し,手術中に観察されたエッジケースから貴重な知見を提供することができることを示した。
All-weather autonomous vehicle operation poses significant challenges, encompassing modules from perception and decision-making to path planning and control. The complexity arises from the need to address adverse weather conditions such as rain, snow, and fog across the autonomy stack. Conventional model-based single-module approaches often lack holistic integration with upstream or downstream tasks. We tackle this problem by proposing a multi-module and modular system architecture with considerations for adverse weather across the perception level, through features such as snow covered curb detection, to decision-making and safety monitoring. Through daily weekday service on the WATonoBus platform for almost two years, we demonstrate that our proposed approach is capable of addressing adverse weather conditions and provide valuable insights from edge cases observed during operation. | 翻訳日:2024-08-16 19:14:56 公開日:2024-08-14 |
# メカニカル発振器の中心運動における光子とフォノンの非古典的相関
Non-classical correlations between photons and phonons of center-of-mass motion of a mechanical oscillator ( http://arxiv.org/abs/2312.05641v2 ) ライセンス: Link先を確認 | Ivan Galinskiy, Georg Enzian, Michał Parniak, Eugene Polzik, | (参考訳) 本研究では,Fabry-P'erot光共振器内部の軟クランプ型超コヒーレント膜振動子を用いたシステムにおいて,光子と光子の非古典的相関性を示す。
非ガウス量子特性は、サブミリナノグラムスケールの機械振動子の質量運動の中心に示される。
機械振動子に格納されたフォノンは、その後読み出すと強い量子コヒーレンスを示す。
古典的な2時間のコーシー=シュワルツ不等式は, 書記光子と記憶されたフォノンとの間の不等式が92.%の信頼で破られるのを観察する。
We demonstrate non-classical correlations between phonons and photons created using opto-mechanical spontaneous parametric down-conversion in a system based on a soft-clamped ultracoherent membrane oscillator inside of a Fabry-P\'erot optical resonator. Non-Gaussian quantum features are demonstrated for the center-of-mass motion of a sub-millimeter nanogram-scale mechanical oscillator. We show that phonons stored in the mechanical oscillator, when subsequently read out, display strong signs of quantum coherence, which we demonstrate by single-photon counting enabled by our state-of-the-art optical filtering system. We observe a violation of the classical two-time Cauchy-Schwarz inequality between a heralding write photon and a stored phonon with a confidence of $>92\%$. | 翻訳日:2024-08-16 19:04:55 公開日:2024-08-14 |
# 位相系に対するスペクトルベースのショートカット法
A spectrum-based shortcut method for topological systems ( http://arxiv.org/abs/2312.08920v2 ) ライセンス: Link先を確認 | Jian Xu, Feng Mei, Yan-Qing Zhu, | (参考訳) 高速で堅牢な量子状態転送の必要性は、スケーラブルな量子情報処理において必須の要素であり、断熱的な量子プロトコルを高速化するための近道への関心が広まる。
しかしながら、いくつかのレベルを持つシステムの短絡は、理論上は計算が困難であり、しばしば実験で実装することが困難である。
本研究では,多状態Landau-Zenerアプローチとより厳密な断熱条件により,断熱のためのショートカットを構築するためのプロトコルを開発する。
重要なことは、我々のプロトコルはエネルギースペクトルに関するわずかな情報しか必要とせず、システムの進化率を調整するだけである。
これは,提案プロトコルが理論モデルに適用可能であり,実験の難しさを増大させる必要がないことを意味する。
例として,2レベルランダウ・ツェナーモデル,非エルミタンSu-Schrieffer-Heeger(SSH)モデル,トポロジカルThoulessポンプモデルにおける状態伝達にプロトコルを適用し,ハミルトン誤差に頑健なまま操作速度を向上できることを示した。
さらに, 実験的な親和性から, 多体システム, 散逸ケース, フロッケプロセスにまで拡張できる可能性が示唆された。
提案したショートカットプロトコルは、量子状態転送プロトコルの効率性と信頼性を高めるための有望な道を提供する。
The need for fast and robust quantum state transfer is an essential element in scalable quantum information processing, leading to widespread interest in shortcuts to adiabaticity for speeding up adiabatic quantum protocols. However, shortcuts to adiabaticity for systems with more than a few levels is occasionally challenging to compute in theory and frequently difficult to implement in experiments. In this work, we develop a protocol for constructing shortcuts to adiabaticity through the multi-state Landau-Zener approach and a stricter adiabatic condition. Importantly, our protocol only requires a few pieces of information about the energy spectrum and just adjusts the evolutionary rate of the system. It means that our protocol has broad applicability to theoretical models and does not require increasing the difficulty of the experiment. As examples, we apply our protocol to state transfer in the two-level Landau-Zener model, the non-Hermitian Su-Schrieffer-Heeger (SSH) model and the topological Thouless pump model and find that it can speed up the manipulation speed while remaining robust to Hamiltonian errors. Furthermore, based on the experimental friendliness of our findings, it can potentially be extended to many-body systems, dissipation cases, or Floquet processes. Overall, the proposed shortcut protocol offers a promising avenue for enhancing the efficiency and reliability of quantum state transfer protocols. | 翻訳日:2024-08-16 19:04:55 公開日:2024-08-14 |
# 対称性強化ニューラルネットワークと構成モデリングへの応用
Symmetry-enforcing neural networks with applications to constitutive modeling ( http://arxiv.org/abs/2312.13511v2 ) ライセンス: Link先を確認 | Kévin Garanger, Julie Kraus, Julian J. Rimoli, | (参考訳) 任意のミクロ構造の効果的な挙動を均質化する機械学習技術は、効率的であるだけでなく、正確であることも示されている。
近年の研究では,非線形および履歴依存行動を示す複雑なミクロ構造を均質化するために,最先端のマイクロメカニカルモデリングと高度な機械学習技術を組み合わせる方法が実証されている(Logarzo et al , 2021)。
結果として、スマート構成法則(SCL)と呼ばれるホモジェナイズドモデルにより、従来の並列マルチスケールアプローチで必要とされる計算コストのごく一部で、マイクロ構造的に情報を得た構成法則を有限要素ソルバに適用することができる。
本研究では、様々なニューラルネットワークアーキテクチャに適用可能な、ニューロンレベルで物質対称性を強制する新しい方法論を導入することで、SCLの機能を拡張する。
このアプローチは、ニューラルネットワークにおけるテンソルベースの特徴を利用し、対称性保存操作の簡潔で正確な表現を容易にし、構成的モデリング以外の問題にまで拡張するのに十分である。
これらのテンソルベースニューラルネットワークの構築とその学習構成法則への応用について, 弾性材料と非弾性材料の両方について述べる。
従来のニューラルネットワークに対するこのアプローチの優位性は、等方性ネオフック材料や引張格子メタマテリアルを含む様々な材料に対する包括的なテストを通じて、限られたデータと強い対称性を持つシナリオで実証される。
この研究は、物質中の対称性の基底を発見するための方法論の可能性と、今後の研究方向性の概説によって締めくくられる。
The use of machine learning techniques to homogenize the effective behavior of arbitrary microstructures has been shown to be not only efficient but also accurate. In a recent work, we demonstrated how to combine state-of-the-art micromechanical modeling and advanced machine learning techniques to homogenize complex microstructures exhibiting non-linear and history dependent behaviors (Logarzo et al., 2021). The resulting homogenized model, termed smart constitutive law (SCL), enables the adoption of microstructurally informed constitutive laws into finite element solvers at a fraction of the computational cost required by traditional concurrent multiscale approaches. In this work, the capabilities of SCLs are expanded via the introduction of a novel methodology that enforces material symmetries at the neuron level, applicable across various neural network architectures. This approach utilizes tensor-based features in neural networks, facilitating the concise and accurate representation of symmetry-preserving operations, and is general enough to be extend to problems beyond constitutive modeling. Details on the construction of these tensor-based neural networks and their application in learning constitutive laws are presented for both elastic and inelastic materials. The superiority of this approach over traditional neural networks is demonstrated in scenarios with limited data and strong symmetries, through comprehensive testing on various materials, including isotropic neo-Hookean materials and tensegrity lattice metamaterials. This work is concluded by a discussion on the potential of this methodology to discover symmetry bases in materials and by an outline of future research directions. | 翻訳日:2024-08-16 19:04:55 公開日:2024-08-14 |
# 量子論における因果推論のための推定方程式の反転
Inverting estimating equations for causal inference on quantiles ( http://arxiv.org/abs/2401.00987v2 ) ライセンス: Link先を確認 | Chao Cheng, Fan Li, | (参考訳) 因果推論の文献は、しばしば潜在的な結果の平均を推定することに焦点を当てるが、潜在的な結果の量子化は重要な追加情報を運ぶ可能性がある。
逆推定方程式に基づく統一的なアプローチを提案し、因果推論解のクラスを、潜在的な結果の平均をその量子化量に推定することから一般化する。
本研究は、ポテンシャル結果の量子化方程式を簡易に構築する手法に基づいて、しきい値変換されたポテンシャル結果の平均を同定するモーメント関数が可能であることを仮定する。
さらに、ポテンシャル結果の平均と量子の効率的な影響関数を一般化し、それらの関係を解明する。
本研究では,パラメータモデルとデータ適応型機械学習器のどちらかがニュアンス関数を推定するために使用される場合,量子推定器を効率的な影響関数で動機付け,その漸近特性を開発する。
本研究の結果から, 平均因果推定値を用いて因果推定を行うことにより, 因果推定を容易化できる可能性が示唆された。
我々の一般的な結果は、いくつかの解析的および数値的な例によって示される。
The causal inference literature frequently focuses on estimating the mean of the potential outcome, whereas quantiles of the potential outcome may carry important additional information. We propose a unified approach, based on the inverse estimating equations, to generalize a class of causal inference solutions from estimating the mean of the potential outcome to its quantiles. We assume that a moment function is available to identify the mean of the threshold-transformed potential outcome, based on which a convenient construction of the estimating equation of quantiles of potential outcome is proposed. In addition, we give a general construction of the efficient influence functions of the mean and quantiles of potential outcomes, and explicate their connection. We motivate estimators for the quantile estimands with the efficient influence function, and develop their asymptotic properties when either parametric models or data-adaptive machine learners are used to estimate the nuisance functions. A broad implication of our results is that one can rework the existing result for mean causal estimands to facilitate causal inference on quantiles. Our general results are illustrated by several analytical and numerical examples. | 翻訳日:2024-08-16 19:04:55 公開日:2024-08-14 |
# 階層型時間論理仕様に基づく複数ロボットのタスク割当と計画
Simultaneous Task Allocation and Planning for Multi-Robots under Hierarchical Temporal Logic Specifications ( http://arxiv.org/abs/2401.04003v3 ) ライセンス: Link先を確認 | Xusheng Luo, Changliu Liu, | (参考訳) シンタクティック・コセーフな線形時間論理(sc-LTL)のような時間論理仕様を用いたロボット計画の研究は、単一の公式に依存している。
しかし、タスクの複雑さが増大するにつれて、sc-LTL公式は長くなるため、プランナーの計算能力の解釈と生成が困難になり、歪む。
これを解決するために,構文と意味論の両面で,Sc-LTL仕様に階層構造を導入し,フラットな仕様よりも表現性が高いことを示した。
フラットな sc-LTL と階層型との比較を行った結果,より複雑なタスクを階層型構造を用いてより容易に理解できることが判明した。
タスク割り当てと計画の同時実行を実現し,マルチロボットシステムの計画を合成するための検索ベースアプローチを開発する。
この手法は,SC-LTL仕様に対応する部分空間を疎結合で探索空間を近似する。
探索は主に1つの部分空間に焦点を当て、オートマトン分解によって決定される条件下で別の部分空間に遷移する。
探索を著しく高速化する複数のヒューリスティックを開発。
我々の理論的分析は、軽微な仮定の下で行われ、完全性と最適性に対処する。
サービスタスクの様々なシミュレーターで使われている既存の手法と比較して、我々の手法は、同等のソリューション品質を維持しながら、計画時間を改善する。
Research in robotic planning with temporal logic specifications, such as syntactically co-safe Linear Temporal Logic (sc-LTL), has relied on single formulas. However, as task complexity increases, sc-LTL formulas become lengthy, making them difficult to interpret and generate, and straining the computational capacities of planners. To address this, we introduce a hierarchical structure to sc-LTL specifications with both syntax and semantics, proving it to be more expressive than flat counterparts. We conducted a user study that compared the flat sc-LTL with our hierarchical version and found that users could more easily comprehend complex tasks using the hierarchical structure. We develop a search-based approach to synthesize plans for multi-robot systems, achieving simultaneous task allocation and planning. This method approximates the search space by loosely interconnected sub-spaces, each corresponding to an sc-LTL specification. The search primarily focuses on a single sub-space, transitioning to another under conditions determined by the decomposition of automatons. We develop multiple heuristics to significantly expedite the search. Our theoretical analysis, conducted under mild assumptions, addresses completeness and optimality. Compared to existing methods used in various simulators for service tasks, our approach improves planning times while maintaining comparable solution quality. | 翻訳日:2024-08-16 19:04:55 公開日:2024-08-14 |
# LLMは経済選択予測研究所を置き換えることができるか? 言語による説得ゲームの場合
Can LLMs Replace Economic Choice Prediction Labs? The Case of Language-based Persuasion Games ( http://arxiv.org/abs/2401.17435v4 ) ライセンス: Link先を確認 | Eilam Shapira, Omer Madmon, Roi Reichart, Moshe Tennenholtz, | (参考訳) 経済状況における人間の選択予測は、マーケティング、金融、公共政策などにおける応用に不可欠である。
しかし、このタスクは人間の選択データを取得することの難しさによって制約されることが多い。
単純な選択設定に焦点をあてた多くの実験経済学研究において、AIコミュニティは、これらの予測においてLLMが人間に代わることができるかどうかを調査し、より複雑な実験経済学設定を検証した。
しかし、重要な疑問が残る: LLMは人間の選択予測のためのトレーニングデータを生成することができるか?
我々は、自然言語を戦略的相互作用に含む複雑な経済環境である言語ベースの説得ゲームでこれを探求する。
実験の結果, LLMデータに基づいてトレーニングしたモデルは, これらのゲームにおける人間の振る舞いを効果的に予測し, 実際の人間のデータでトレーニングしたモデルよりも優れていた。
Human choice prediction in economic contexts is crucial for applications in marketing, finance, public policy, and more. This task, however, is often constrained by the difficulties in acquiring human choice data. With most experimental economics studies focusing on simple choice settings, the AI community has explored whether LLMs can substitute for humans in these predictions and examined more complex experimental economics settings. However, a key question remains: can LLMs generate training data for human choice prediction? We explore this in language-based persuasion games, a complex economic setting involving natural language in strategic interactions. Our experiments show that models trained on LLM-generated data can effectively predict human behavior in these games and even outperform models trained on actual human data. | 翻訳日:2024-08-16 18:53:22 公開日:2024-08-14 |
# 2次元重力における閉宇宙
Closed universes in two dimensional gravity ( http://arxiv.org/abs/2402.00098v3 ) ライセンス: Link先を確認 | Mykhaylo Usatyuk, Zi-Yue Wang, Ying Zhao, | (参考訳) 我々は、物質に結合したジャッキー・タイテルボイム(JT)重力のような2次元重力の単純なモデルと、前者の重要な特徴を捉えるおもちゃのトポロジーモデルで閉じた宇宙を研究する。
我々は、この理論の摂動的側面と非摂動的側面の間には、強いコントラストといくつかの関係があることを発見した。
私たちはリッチな半古典物理学を見つける。
しかし、摂動効果を含まない場合、それぞれの理論には一意に閉じた宇宙状態が存在する。
我々はこの観察の可能な意味と解釈について議論する。
We study closed universes in simple models of two dimensional gravity, such as Jackiw-Teiteilboim (JT) gravity coupled to matter, and a toy topological model that captures the key features of the former. We find there is a stark contrast, as well as some connections, between the perturbative and non-perturbative aspects of the theory. We find rich semi-classical physics. However, when non-perturbative effects are included there is a unique closed universe state in each theory. We discuss possible meanings and interpretations of this observation. | 翻訳日:2024-08-16 18:53:22 公開日:2024-08-14 |
# Just Cluster It: クラスタリングと事前学習表現を用いた高次元探索のためのアプローチ
Just Cluster It: An Approach for Exploration in High-Dimensions using Clustering and Pre-Trained Representations ( http://arxiv.org/abs/2402.03138v2 ) ライセンス: Link先を確認 | Stefan Sylvius Wagner, Stefan Harmeling, | (参考訳) 本稿では、強化学習における探索の表現中心の視点を採用し、探索を基本的に密度推定問題として考察する。
本研究では,3次元環境におけるクラスタリング表現の有効性について検討し,遷移間の画素変化の重要性は,遷移間の画素変化が典型的に顕著である2次元環境と比較して,3次元環境においてあまり強調されないことを考察した。
本研究では,ランダムな表現と事前学習されたDINO表現を用いて,擬似数の推定を行う方法を提案する。
驚くべきことに、ランダムな特徴でさえ3次元環境の状態をカウントするために効果的にクラスタリングすることができるが、これらが視覚的に複雑になると、事前学習されたDINO表現は、事前学習された誘導バイアスによりより効果的になる。
全体として、これは事前訓練されたバイアスを探索に組み込むための経路である。
我々は,VizDoom と Habitat の環境に対するアプローチを評価し,この手法が他のよく知られた探索手法を上回ることを実証した。
In this paper we adopt a representation-centric perspective on exploration in reinforcement learning, viewing exploration fundamentally as a density estimation problem. We investigate the effectiveness of clustering representations for exploration in 3-D environments, based on the observation that the importance of pixel changes between transitions is less pronounced in 3-D environments compared to 2-D environments, where pixel changes between transitions are typically distinct and significant. We propose a method that performs episodic and global clustering on random representations and on pre-trained DINO representations to count states, i.e, estimate pseudo-counts. Surprisingly, even random features can be clustered effectively to count states in 3-D environments, however when these become visually more complex, pre-trained DINO representations are more effective thanks to the pre-trained inductive biases in the representations. Overall, this presents a pathway for integrating pre-trained biases into exploration. We evaluate our approach on the VizDoom and Habitat environments, demonstrating that our method surpasses other well-known exploration methods in these settings. | 翻訳日:2024-08-16 18:53:22 公開日:2024-08-14 |
# 量子交叉二光子系における多重コンプトン散乱の運動論的解析
Kinematic analysis of multiple Compton scattering in quantum-entangled two-photon systems ( http://arxiv.org/abs/2402.12972v4 ) ライセンス: Link先を確認 | Peter Caradonna, | (参考訳) Stokes-Mueller法は、2光子系における絡み合った光子対の散乱を解析するために用いられる。
本研究は, 両光子をコンプトン偏光計で検出する前に, 一対の最大絡み合った消滅光子の一部となる光子が中間コンプトン散乱を受けるシナリオについて検討した。
また、コンプトン散乱による潜在的な量子デコヒーレンス効果も説明できる。
解析では, 平行面および垂直面の散乱挙動を解析し, 方位相関に影響を及ぼす変調係数の変動を同定した。
これらのバリエーションには、増加、減少、符号の変化、特定の中間散乱角での消失が含まれる。
本研究の目的は、量子場理論による予測のテストと検証を支援する理論的結果を提供することである。
The Stokes-Mueller method is used to analyze the scattering of entangled photon pairs in a two-photon system. This study examines the scenario where one of the photons, part of a pair of maximally entangled annihilation photons, undergoes intermediate Compton scattering before both photons are detected using Compton polarimeters. The method also accounts for potential quantum-decoherence effects resulting from Compton scattering. The analysis investigates the scattering behavior in both parallel and perpendicular planes, identifying variations in the modulation factor that affect azimuthal correlations. These variations include increases, decreases, sign changes, or disappearances at certain intermediate scattering angles. This work aims to provide theoretical results that support the testing and verification of predictions made by quantum field theory. | 翻訳日:2024-08-16 18:53:22 公開日:2024-08-14 |
# 入院心不全患者の音声による死亡予測 : 診断バイオマーカーを用いた機械学習アプローチ
Voice-Driven Mortality Prediction in Hospitalized Heart Failure Patients: A Machine Learning Approach Enhanced with Diagnostic Biomarkers ( http://arxiv.org/abs/2402.13812v2 ) ライセンス: Link先を確認 | Nihat Ahmadli, Mehmet Ali Sarsil, Berk Mizrak, Kurtulus Karauzum, Ata Shaker, Erol Tulumen, Didar Mirzamidinov, Dilek Ural, Onur Ergen, | (参考訳) 心臓不全(HF)を世界的な健康上の問題として扱うことは、患者ケアを強化する革新的なアプローチの実践に困難をもたらす。
特にHF患者の死亡率の予測は困難であり、個別のケアを必要とし、積極的管理を行い、教育を受けた意思決定が結果を高めることを可能にしている。
近年,機械学習(ML)と組み合わせた音声バイオマーカーの重要性が高まり,特に心不全の予測において顕著な効果が示された。
音声分析とMLアルゴリズムの相乗効果は、患者の健康を評価する非侵襲的で容易にアクセス可能な手段を提供する。
しかし、標準化された音声プロトコルを用いた心不全患者の死亡率を予測するための音声バイオマーカーが欠如している。
そこで我々は,音声バイオマーカーを用いて,入院HF患者の死亡率を予測するための,強力かつ効果的なMLモデルを実証した。
音声バイオマーカーを日常的な患者モニタリングにシームレスに統合することにより、患者の成果を改善し、リソース割り当てを最適化し、患者中心のHF管理を進めることができる。
本研究では,機械学習システム,特にロジスティック回帰モデルを用いて,患者の音声を入力として5年間の死亡率を予測する。
このモデルは、クロスバリデーションと統計的アプローチ(p-値 < 0.001)によって示されるように、素晴らしく一貫して機能する。
さらに、診断バイオマーカーであるNT-proBNPをHFに統合することで、モデルの予測精度が大幅に向上する。
Addressing heart failure (HF) as a prevalent global health concern poses difficulties in implementing innovative approaches for enhanced patient care. Predicting mortality rates in HF patients, in particular, is difficult yet critical, necessitating individualized care, proactive management, and enabling educated decision-making to enhance outcomes. Recently, the significance of voice biomarkers coupled with Machine Learning (ML) has surged, demonstrating remarkable efficacy, particularly in predicting heart failure. The synergy of voice analysis and ML algorithms provides a non-invasive and easily accessible means to evaluate patients' health. However, there is a lack of voice biomarkers for predicting mortality rates among heart failure patients with standardized speech protocols. Here, we demonstrate a powerful and effective ML model for predicting mortality rates in hospitalized HF patients through the utilization of voice biomarkers. By seamlessly integrating voice biomarkers into routine patient monitoring, this strategy has the potential to improve patient outcomes, optimize resource allocation, and advance patient-centered HF management. In this study, a Machine Learning system, specifically a logistic regression model, is trained to predict patients' 5-year mortality rates using their speech as input. The model performs admirably and consistently, as demonstrated by cross-validation and statistical approaches (p-value < 0.001). Furthermore, integrating NT-proBNP, a diagnostic biomarker in HF, improves the model's predictive accuracy substantially. | 翻訳日:2024-08-16 18:53:22 公開日:2024-08-14 |
# 冠動脈セマンティックラベリングにおけるマルチグラフグラフマッチング
Multi-graph Graph Matching for Coronary Artery Semantic Labeling ( http://arxiv.org/abs/2402.15894v2 ) ライセンス: Link先を確認 | Chen Zhao, Zhihui Xu, Pukar Baral, Michel Esposito, Weihua Zhou, | (参考訳) 冠状動脈疾患 (CAD) は世界中で死因の主要な疾患であり, 侵襲的冠動脈造影 (ICA) は血管解剖学的情報を評価するための金の基準である。
しかし, 深層学習に基づく手法は, 動脈セグメントのセマンティックなラベルを生成する上で, 主に動脈枝の形態的類似性や, 異なる投影角と患者の間の動脈系の解剖的変化に起因している。
この課題に対処するために,血管樹をグラフとしてモデル化し,冠状動脈意味的ラベル付けのためのマルチグラフグラフマッチング(MGM)アルゴリズムを提案する。
MGMアルゴリズムは、複数の血管木グラフにおける動脈間の類似性を評価し、各グラフ間のサイクル整合性を考慮して評価する。
その結果、注釈付きセグメントと一致させて、未注釈の動脈セグメントを適切にラベル付けする。
MGMモデルでは, 解剖学的グラフ構造, 放射線学的特徴, 意味マッピングを取り入れることで, 718 ICAを用いた多地点データセットを用いて, 冠動脈セマンティックラベリングにおいて, 0.9471 の精度を達成できた。
意味的ラベル付き動脈では,狭窄検出に0.9155の総合的精度が得られた。
提案したMGMは、複数のICA由来のグラフを用いて冠状動脈解析のための新しいツールを提供し、血管の健康と病理に関する貴重な知見を提供する。
Coronary artery disease (CAD) stands as the leading cause of death worldwide, and invasive coronary angiography (ICA) remains the gold standard for assessing vascular anatomical information. However, deep learning-based methods encounter challenges in generating semantic labels for arterial segments, primarily due to the morphological similarity between arterial branches and varying anatomy of arterial system between different projection view angles and patients. To address this challenge, we model the vascular tree as a graph and propose a multi-graph graph matching (MGM) algorithm for coronary artery semantic labeling. The MGM algorithm assesses the similarity between arterials in multiple vascular tree graphs, considering the cycle consistency between each pair of graphs. As a result, the unannotated arterial segments are appropriately labeled by matching them with annotated segments. Through the incorporation of anatomical graph structure, radiomics features, and semantic mapping, the proposed MGM model achieves an impressive accuracy of 0.9471 for coronary artery semantic labeling using our multi-site dataset with 718 ICAs. With the semantic labeled arteries, an overall accuracy of 0.9155 was achieved for stenosis detection. The proposed MGM presents a novel tool for coronary artery analysis using multiple ICA-derived graphs, offering valuable insights into vascular health and pathology. | 翻訳日:2024-08-16 18:53:22 公開日:2024-08-14 |
# ランダムな森のトレーニングで、データセットが完全に解明される
Trained Random Forests Completely Reveal your Dataset ( http://arxiv.org/abs/2402.19232v2 ) ライセンス: Link先を確認 | Julien Ferry, Ricardo Fukasawa, Timothée Pascal, Thibaut Vidal, | (参考訳) ランダム森林のトレーニングに使用するデータセットを完全にあるいはほぼ完全に再構築できる最適化ベースの再構築攻撃を導入する。
特に,本手法は,Scikit-learn などの一般的な図書館で利用できる情報にのみ依存する。
これを実現するために、最大目的条件下での組合せ問題として再構成問題を定式化する。
制約分散と解領域還元に根ざしたアプローチである制約プログラミングを用いて、スケールで解決可能ではあるが、この問題はNPハードであることを示す。
本研究は,ブートストラップアグリゲーションを使わずに訓練された無作為林において,特徴的ランダム化が完全に再構築される可能性が示唆された。
これは少数の木でも当てはまる。
ブートストラップアグリゲーションであっても、データの大部分を再構築することもできる。
これらの知見は、広く採用されているアンサンブル法に固有の致命的な脆弱性を浮き彫りにし、注意と緩和を保証した。
このような再建攻撃の可能性については,プライバシー研究で議論されているが,本研究は,その実践性に関する実証的な証拠を提示する。
We introduce an optimization-based reconstruction attack capable of completely or near-completely reconstructing a dataset utilized for training a random forest. Notably, our approach relies solely on information readily available in commonly used libraries such as scikit-learn. To achieve this, we formulate the reconstruction problem as a combinatorial problem under a maximum likelihood objective. We demonstrate that this problem is NP-hard, though solvable at scale using constraint programming -- an approach rooted in constraint propagation and solution-domain reduction. Through an extensive computational investigation, we demonstrate that random forests trained without bootstrap aggregation but with feature randomization are susceptible to a complete reconstruction. This holds true even with a small number of trees. Even with bootstrap aggregation, the majority of the data can also be reconstructed. These findings underscore a critical vulnerability inherent in widely adopted ensemble methods, warranting attention and mitigation. Although the potential for such reconstruction attacks has been discussed in privacy research, our study provides clear empirical evidence of their practicability. | 翻訳日:2024-08-16 18:53:22 公開日:2024-08-14 |
# モデルオープンネスフレームワーク:人工知能における再現性、透明性、ユーザビリティのための完全性とオープン性を促進する
The Model Openness Framework: Promoting Completeness and Openness for Reproducibility, Transparency, and Usability in Artificial Intelligence ( http://arxiv.org/abs/2403.13784v4 ) ライセンス: Link先を確認 | Matt White, Ibrahim Haddad, Cailean Osborne, Xiao-Yang Liu Yanglet, Ahmed Abdelmonsef, Sachin Varghese, | (参考訳) ジェネレーティブAI(GAI)は、研究とイノベーションの先例のない機会を提供するが、その商業化は透明性、再現性、安全性に関する懸念を引き起こしている。
多くのオープンなGAIモデルは、完全な理解と再現性に必要なコンポーネントを欠いている。
これらの問題に対処するために、我々は、オープンサイエンス、オープンソース、オープンデータ、オープンアクセスの原則に従って、その完全性とオープン性に基づいて機械学習モデルを評価するランク付けされた分類システムであるモデルオープンネスフレームワーク(MOF)を提案する。
MOFは、適切なオープンライセンスの下で、モデル開発ライフサイクルの特定のコンポーネントを含め、リリースする必要がある。
このフレームワークは、オープンであると主張するモデルの誤った表現を防止し、研究者や開発者が許容ライセンスの下ですべてのモデルコンポーネントを提供することを誘導し、個人や組織が制約なく安全に採用できるモデルを識別するのを助けることを目的としている。
透明性と再現性を促進することで、MOFは'オープンウォッシング'の実践と戦い、責任あるAIのコアテテットと並行して、完全性とオープン性を主要な基準として確立する。
MOFの広範な採用は、よりオープンなAIエコシステムを育み、研究、イノベーション、最先端モデルの採用に寄与する。
Generative AI (GAI) offers unprecedented opportunities for research and innovation, but its commercialization has raised concerns about transparency, reproducibility, and safety. Many open GAI models lack the necessary components for full understanding and reproducibility, and some use restrictive licenses whilst claiming to be ``open-source''. To address these concerns, we propose the Model Openness Framework (MOF), a ranked classification system that rates machine learning models based on their completeness and openness, following principles of open science, open source, open data, and open access. The MOF requires specific components of the model development lifecycle to be included and released under appropriate open licenses. This framework aims to prevent misrepresentation of models claiming to be open, guide researchers and developers in providing all model components under permissive licenses, and help individuals and organizations identify models that can be safely adopted without restrictions. By promoting transparency and reproducibility, the MOF combats ``openwashing'' practices and establishes completeness and openness as primary criteria alongside the core tenets of responsible AI. Wide adoption of the MOF will foster a more open AI ecosystem, benefiting research, innovation, and adoption of state-of-the-art models. | 翻訳日:2024-08-16 18:41:00 公開日:2024-08-14 |
# 大規模言語モデルはどの程度汚染されているか? : 包括的調査と LLM Sanitize Library
How Much are Large Language Models Contaminated? A Comprehensive Survey and the LLMSanitize Library ( http://arxiv.org/abs/2404.00699v2 ) ライセンス: Link先を確認 | Mathieu Ravaut, Bosheng Ding, Fangkai Jiao, Hailin Chen, Xingxuan Li, Ruochen Zhao, Chengwei Qin, Caiming Xiong, Shafiq Joty, | (参考訳) 近年のLarge Language Models(LLMs)の台頭に伴い、多くの新しい機会が生まれつつあり、また汚染が急速に重要になっている新しい課題もある。
ビジネスアプリケーションとAIの資金調達は、人気の高い質問回答ベンチマークで得られた数パーセントのポイントが数十万ドルに変換され、モデルの整合性に高い圧力がかかる規模に達している。
GPT-4やClaude-3のようなクローズドソースモデルでは、トレーニングセットに関する情報を漏らすことは不可能ではないが。
その結果、汚染は大きな問題となる: LLMの性能は、データへの以前の露出による少なくとも部分的には高い性能のため、もはや信頼できないかもしれない。
本稿では, LLM による汚染検出に関する最近の研究をすべて調査し, LLMSanitize というオープンソースの Python ライブラリをリリースすることによって, LLM の汚染レベルを追跡することを支援する。
With the rise of Large Language Models (LLMs) in recent years, abundant new opportunities are emerging, but also new challenges, among which contamination is quickly becoming critical. Business applications and fundraising in AI have reached a scale at which a few percentage points gained on popular question-answering benchmarks could translate into dozens of millions of dollars, placing high pressure on model integrity. At the same time, it is becoming harder and harder to keep track of the data that LLMs have seen; if not impossible with closed-source models like GPT-4 and Claude-3 not divulging any information on the training set. As a result, contamination becomes a major issue: LLMs' performance may not be reliable anymore, as the high performance may be at least partly due to their previous exposure to the data. This limitation jeopardizes the entire progress in the field of NLP, yet, there remains a lack of methods on how to efficiently detect contamination.In this paper, we survey all recent work on contamination detection with LLMs, and help the community track contamination levels of LLMs by releasing an open-source Python library named LLMSanitize implementing major contamination detection algorithms. | 翻訳日:2024-08-16 18:28:05 公開日:2024-08-14 |
# 超広帯域マイクロ波光子の計数統計
Counting statistics of ultra-broadband microwave photons ( http://arxiv.org/abs/2404.07868v3 ) ライセンス: Link先を確認 | Simon Bolduc Beaudoin, Edouard Pinsolle, Bertrand Reulet, | (参考訳) 未定義周波数のマイクロ波光子の計数統計,平均および分散の測定値について報告する。
この設定により、1-10GHz帯での任意の波形の単一フォトニックモードの解析が可能となる。
サンプル時間依存電圧からオンザフライ数値計算により、光子統計を得る。
量子マイクロ波源としてac+dcバイアストンネル接合を用い, コンタングルメント発生の競合源(最大0.9億ビット/秒のエンタングルドビット)を表す超広帯域のスクイージングスペクトルを実験的に容易に得ることができることを報告した。
また、トンネル接合による量子ステアリングの観測を報告し、ブロードバンドモードのスクイーズの存在が、それが含む2つのモード間の絡み合いの存在を示唆していることを示す。
We report measurements of counting statistics, average and variance, of microwave photons of ill-defined frequency : bichromatic photons, i.e. photons involving two well separated frequencies, and "white" broadband photons. Our setup allows for the analysis of single photonic modes of arbitrary waveform over the 1-10 GHz frequency range. The photon statistics is obtained by on-the-fly numerical calculation from the sampled time-dependent voltage. Using an ac+dc biased tunnel junction as a source of quantum microwave, we report an ultra-wide squeezing spectrum representing a competitive source for entanglement generation (up to 0.9 billion measured entangled bits per second) easily achievable experimentally. We also report the observation of quantum steering by the tunnel junction, and show how the presence of squeezing of a broadband mode implies the existence of entanglement between two modes it encompasses. | 翻訳日:2024-08-16 18:28:05 公開日:2024-08-14 |
# マルチエージェントLLMコラボレーションにおけるペルソナの不整合性:コンフォーマリティ,コラボレーション,インフォーマネーション
Persona Inconstancy in Multi-Agent LLM Collaboration: Conformity, Confabulation, and Impersonation ( http://arxiv.org/abs/2405.03862v3 ) ライセンス: Link先を確認 | Razan Baltaji, Babak Hemmatian, Lav R. Varshney, | (参考訳) マルチエージェントAIシステムは、科学的および実践的な応用において、集合的な意思決定をシミュレートするために使用することができる。
また、チャットボットパイプラインに多様なグループディスカッションステップを導入して、チャットボットの応答の文化的感受性を高めるためにも使用できる。
しかしながら、これらのアプリケーションは、AIエージェントが割り当てられたペルソナを確実に採用し、人間のインタラクションを模倣する能力に基づいている。
LLMエージェントがこれらの要件を満たすかどうかを確認するため、相互協力や議論に携わるAIエージェントのアンサンブルを、個人の反応やチャットの書き起こしを分析して検討する。
この結果から,多エージェントによる議論は,多面的な視点を反映した集合的AI決定を支援することができることが示唆されるが,この効果はエージェントが対人的プレッシャーを知覚することや,一貫したペルソナや意見を維持する上での課題によって,適合性への感受性によって誘惑される。
協力よりも意見を支持する上での議論を促す指示は、矛盾の度合いを増大させる。
私たちが特定した要因に対処しなければ、より文化的に多様なAI出力や、グループ意思決定のより現実的なシミュレーションを生成するマルチエージェントフレームワークの潜在能力は未完成のままである。
Multi-agent AI systems can be used for simulating collective decision-making in scientific and practical applications. They can also be used to introduce a diverse group discussion step in chatbot pipelines, enhancing the cultural sensitivity of the chatbot's responses. These applications, however, are predicated on the ability of AI agents to reliably adopt assigned personas and mimic human interactions. To see whether LLM agents satisfy these requirements, we examine AI agent ensembles engaged in cross-national collaboration and debate by analyzing their private responses and chat transcripts. Our findings suggest that multi-agent discussions can support collective AI decisions that more often reflect diverse perspectives, yet this effect is tempered by the agents' susceptibility to conformity due to perceived peer pressure and occasional challenges in maintaining consistent personas and opinions. Instructions that encourage debate in support of one's opinions rather than collaboration increase the rate of inconstancy. Without addressing the factors we identify, the full potential of multi-agent frameworks for producing more culturally diverse AI outputs or more realistic simulations of group decision-making may remain untapped. | 翻訳日:2024-08-16 18:17:13 公開日:2024-08-14 |
# Lyapunov Barrier Certificatesを用いたDeep Reinforcement Learning Controllerの形式検証
Formally Verifying Deep Reinforcement Learning Controllers with Lyapunov Barrier Certificates ( http://arxiv.org/abs/2405.14058v2 ) ライセンス: Link先を確認 | Udayan Mandal, Guy Amir, Haoze Wu, Ieva Daukantas, Fletcher Lee Newell, Umberto J. Ravaioli, Baoluo Meng, Michael Durling, Milan Ganai, Tobey Shim, Guy Katz, Clark Barrett, | (参考訳) 深層強化学習(DRL)は、自律システムを制御するエージェントを生成するための強力な機械学習パラダイムである。
しかし、DRLエージェントの‘black box’という性質は、現実世界の安全クリティカルなアプリケーションへのデプロイを制限している。
エージェントの行動に強い保証を与えるための有望なアプローチは、エージェントが望むように振る舞うことを間接的に暗示するシステム上で学習された関数であるNeural Lyapunov Barrier(NLB)証明書を使用することである。
しかしながら、NLBベースの証明書は一般的に習得が困難であり、特に複雑なシステムでは検証が困難である。
本研究では,離散時間システムのためのNLBベースの証明書をトレーニングし,検証するための新しい手法を提案する。
具体的には,証明書のシーケンスを戦略的に設計することで,複雑度の高いシステムの検証を簡略化する証明書合成手法を提案する。
ニューラルネットワーク検証エンジンと共同で検証する場合、これらの証明書はDRLエージェントがその目標を達成し、安全でない振る舞いを避けることを正式な保証を提供する。
さらに,正式に認証された証明書を生成するプロセスを大幅に単純化する証明書フィルタリング手法を提案する。
DRL制御宇宙船の安全性と生存性を保証するためのケーススタディにより,本手法の利点を実証する。
Deep reinforcement learning (DRL) is a powerful machine learning paradigm for generating agents that control autonomous systems. However, the ``black box'' nature of DRL agents limits their deployment in real-world safety-critical applications. A promising approach for providing strong guarantees on an agent's behavior is to use Neural Lyapunov Barrier (NLB) certificates, which are learned functions over the system whose properties indirectly imply that an agent behaves as desired. However, NLB-based certificates are typically difficult to learn and even more difficult to verify, especially for complex systems. In this work, we present a novel method for training and verifying NLB-based certificates for discrete-time systems. Specifically, we introduce a technique for certificate composition, which simplifies the verification of highly-complex systems by strategically designing a sequence of certificates. When jointly verified with neural network verification engines, these certificates provide a formal guarantee that a DRL agent both achieves its goals and avoids unsafe behavior. Furthermore, we introduce a technique for certificate filtering, which significantly simplifies the process of producing formally verified certificates. We demonstrate the merits of our approach with a case study on providing safety and liveness guarantees for a DRL-controlled spacecraft. | 翻訳日:2024-08-16 18:17:13 公開日:2024-08-14 |
# エントロピー蓄積による準備・測定・解離状態QKDの有限サイズ解析
Finite-size analysis of prepare-and-measure and decoy-state QKD via entropy accumulation ( http://arxiv.org/abs/2406.10198v2 ) ライセンス: Link先を確認 | Lars Kamin, Amir Arqand, Ian George, Norbert Lütkenhaus, Ernest Y. -Z. Tan, | (参考訳) 量子鍵分布(QKD)における重要なゴールは、集団攻撃の仮定なしに有限サイズのセキュリティ証明を提供することである。
このような証明を得るための準備と測定のQKDは、一般化エントロピー累積定理 (GEAT) である。
本研究では,デコイ状態プロトコルに着目した一般的な準備・測定プロトコルの有限サイズ解析にGEATを適用する手法を提案する。
特に,デコイ状態プロトコルのエントロピー境界を計算するための改良されたアプローチを提案する。これは,従来のアプローチよりも厳密なバウンダリを提供するという2つの利点があり,GEATのミニトランデフ関数の計算方法と互換性がある。
さらに,GEATの有限サイズの項にいくつかの改良を加える手法を開発し,min-tradeoff関数を自動的に最適化する手法を実装した。
提案手法は,従来の研究では解決されていなかった準備・測定プロトコルに特有な数値安定性の問題にも対処する。
An important goal in quantum key distribution (QKD) is the task of providing a finite-size security proof without the assumption of collective attacks. For prepare-and-measure QKD, one approach for obtaining such proofs is the generalized entropy accumulation theorem (GEAT), but thus far it has only been applied to study a small selection of protocols. In this work, we present techniques for applying the GEAT in finite-size analysis of generic prepare-and-measure protocols, with a focus on decoy-state protocols. In particular, we present an improved approach for computing entropy bounds for decoy-state protocols, which has the dual benefits of providing tighter bounds than previous approaches (even asymptotically) and being compatible with methods for computing min-tradeoff functions in the GEAT. Furthermore, we develop methods to incorporate some improvements to the finite-size terms in the GEAT, and implement techniques to automatically optimize the min-tradeoff function. Our approach also addresses some numerical stability challenges specific to prepare-and-measure protocols, which were not addressed in previous works. | 翻訳日:2024-08-16 18:17:13 公開日:2024-08-14 |
# メンタルヘルス自動化のための言語モデルからのリスク--倫理と実装の構造
Risks from Language Models for Automated Mental Healthcare: Ethics and Structure for Implementation ( http://arxiv.org/abs/2406.11852v2 ) ライセンス: Link先を確認 | Declan Grabb, Max Lamparth, Nina Vasan, | (参考訳) 自動精神医療のためのタスク自律型AI開発への関心が高まっている中で、この問題に関連する倫理的・実践的な課題に対処し、自律性のレベルを規定し、倫理的要件を概説し、メンタルヘルスサポートの文脈においてAIエージェントの既定のデフォルト動作を定義する構造化されたフレームワークを提案する。
また,精神病,精神病,うつ病,自殺思考,殺人傾向などのメンタルヘルス状態を反映した16のメンタルヘルス関連アンケートを用いて,14の最先端言語モデル(10種,微調整4種)を評価した。
アンケート調査は精神保健医(M.D.s)が実施した。
既存の言語モデルは、ニュアンスをナビゲートし、文脈を理解できる人間専門家の標準に適合するには不十分である。
これは、過度に慎重な反応やサイコファンティックな反応、必要な安全策が欠如していることなど、様々な問題によるものである。
また、検査されたモデルのほとんどは、メンタルヘルスの緊急事態でアクセスされた場合、ユーザーを保護することができず、既存の症状を悪化させる可能性があることもわかりました。
現行モデルの安全性を高めるためのソリューションを探究する。
メンタルヘルスにおけるタスク自律型AIシステムのリリースの前には、これらのモデルが一般的な精神疾患の症状を確実に検出し、管理し、ユーザへの害を防ぐことが不可欠である。
これは、倫理的な枠組みと、我々の研究で概説されたデフォルトの行動と整合性を伴う。
モデル開発者は、現在のAI技術がユーザのメンタルヘルスと安全性にもたらすリスクに対して、これらのガイドラインに従ってシステムを改善する責任を負っている、と我々は主張する。
トリガー警告(Triger warning):自殺や自傷などの精神医学的トピックを包含し、議論する。
Amidst the growing interest in developing task-autonomous AI for automated mental health care, this paper addresses the ethical and practical challenges associated with the issue and proposes a structured framework that delineates levels of autonomy, outlines ethical requirements, and defines beneficial default behaviors for AI agents in the context of mental health support. We also evaluate fourteen state-of-the-art language models (ten off-the-shelf, four fine-tuned) using 16 mental health-related questionnaires designed to reflect various mental health conditions, such as psychosis, mania, depression, suicidal thoughts, and homicidal tendencies. The questionnaire design and response evaluations were conducted by mental health clinicians (M.D.s). We find that existing language models are insufficient to match the standard provided by human professionals who can navigate nuances and appreciate context. This is due to a range of issues, including overly cautious or sycophantic responses and the absence of necessary safeguards. Alarmingly, we find that most of the tested models could cause harm if accessed in mental health emergencies, failing to protect users and potentially exacerbating existing symptoms. We explore solutions to enhance the safety of current models. Before the release of increasingly task-autonomous AI systems in mental health, it is crucial to ensure that these models can reliably detect and manage symptoms of common psychiatric disorders to prevent harm to users. This involves aligning with the ethical framework and default behaviors outlined in our study. We contend that model developers are responsible for refining their systems per these guidelines to safeguard against the risks posed by current AI technologies to user mental health and safety. Trigger warning: Contains and discusses examples of sensitive mental health topics, including suicide and self-harm. | 翻訳日:2024-08-16 18:17:13 公開日:2024-08-14 |
# 量子幾何学のパラメータ空間に対する$N$-bein形式
$N$-bein formalism for the parameter space of quantum geometry ( http://arxiv.org/abs/2406.19468v2 ) ライセンス: Link先を確認 | Jorge Romero, Carlos A. Velasquez, J David Vergara, | (参考訳) この研究は、量子幾何学テンソルを一般化する幾何学的対象を導入し、これを$N$-beinと呼ぶ。
カルタン形式で用いられるヴィエルベイン (orthonormal frame) と類似して、$N$-bein は量子幾何学テンソルの ``square root'' のように振る舞う。
これを用いて、連続する2つのパラメータの変動の後、ある状態から別の状態へ移動する可能性を測定する2つの状態の量子幾何テンソルを示す。
この新しいテンソルは、その反対称部分を通してそのような変動の可換性を決定する。
さらに、ベリー接続とは異なる接続を定義し、それを$N$-beinと組み合わせることで、ビアンキの恒等性を満足するトーションと曲率 \`{a} la Cartan の概念を導入することができる。
さらに、ねじれは前述の2状態量子幾何テンソルの反対称部分と一致しており、パラメータ変動の可換性に関連している。
また、微分形式を用いて形式論を記述し、新しい幾何学的対象の物理的解釈について論じる。
さらに、この研究で導入された幾何量から構築された異なるゲージ不変量を定義し、結果として新しい物理観測可能量が得られる。
最後に、これらの概念を説明するための2つの例を示す:調和振動子と一般化振動子。
新たなテンソルは、他の方法では利用できない量子状態間の相関関係を定量化することを発見した。
This work introduces a geometrical object that generalizes the quantum geometric tensor; we call it $N$-bein. Analogous to the vielbein (orthonormal frame) used in the Cartan formalism, the $N$-bein behaves like a ``square root'' of the quantum geometric tensor. Using it, we present a quantum geometric tensor of two states that measures the possibility of moving from one state to another after two consecutive parameter variations. This new tensor determines the commutativity of such variations through its anti-symmetric part. In addition, we define a connection different from the Berry connection, and combining it with the $N$-bein allows us to introduce a notion of torsion and curvature \`{a} la Cartan that satisfies the Bianchi identities. Moreover, the torsion coincides with the anti-symmetric part of the two-state quantum geometric tensor previously mentioned, and thus, it is related to the commutativity of the parameter variations. We also describe our formalism using differential forms and discuss the possible physical interpretations of the new geometrical objects. Furthermore, we define different gauge invariants constructed from the geometrical quantities introduced in this work, resulting in new physical observables. Finally, we present two examples to illustrate these concepts: a harmonic oscillator and a generalized oscillator, both immersed in an electric field. We found that the new tensors quantify correlations between quantum states that were unavailable by other methods. | 翻訳日:2024-08-16 18:07:06 公開日:2024-08-14 |
# マルチキュービット状態判別のための低レイテンシ機械学習FPGAアクセラレータ
Low-latency machine learning FPGA accelerator for multi-qubit-state discrimination ( http://arxiv.org/abs/2407.03852v2 ) ライセンス: Link先を確認 | Pradeep Kumar Gautam, Shantharam Kalipatnapu, Shankaranarayanan H, Ujjawal Singhal, Benjamin Lienhard, Vibhor Singh, Chetan Singh Thakur, | (参考訳) 量子ビット状態を測定することは、量子コンピューティングにおいて基本的ながエラーを起こしやすい操作である。
これらの誤りは、クロストーク、自然状態遷移、読み出しパルスによって引き起こされる励起など、様々なソースから生じる可能性がある。
ここでは、ニューラルネットワークをフィールドプログラマブルゲートアレイ(FPGA)上に展開するための統合的なアプローチを用いる。
マルチキュービット読み出しのための完全に接続されたニューラルネットワークアクセラレータの実装は、計算複雑性と低レイテンシ要求とのバランスを、精度を著しく損なうことなく、有利であることを示す。
ニューラルネットワークは、ウェイト、アクティベーション機能、入力の定量化によって実装される。
ハードウェアアクセラレータは、チップ(RFSoC)ZCU111FPGA上の無線周波数システムにおいて、50 ns未満の5つの超伝導量子ビットの周波数多重読み出しを行い、ニューラルネットワークを用いたRFSoCベースの低遅延マルチキュービット読み出しの出現を示す。
これらのモジュールは既存の量子制御および読み出しプラットフォームに実装および統合することができ、RFSoC ZCU111は実験的な展開の準備ができている。
Measuring a qubit state is a fundamental yet error-prone operation in quantum computing. These errors can arise from various sources, such as crosstalk, spontaneous state transitions, and excitations caused by the readout pulse. Here, we utilize an integrated approach to deploy neural networks onto field-programmable gate arrays (FPGA). We demonstrate that implementing a fully connected neural network accelerator for multi-qubit readout is advantageous, balancing computational complexity with low latency requirements without significant loss in accuracy. The neural network is implemented by quantizing weights, activation functions, and inputs. The hardware accelerator performs frequency-multiplexed readout of five superconducting qubits in less than 50 ns on a radio frequency system on chip (RFSoC) ZCU111 FPGA, marking the advent of RFSoC-based low-latency multi-qubit readout using neural networks. These modules can be implemented and integrated into existing quantum control and readout platforms, making the RFSoC ZCU111 ready for experimental deployment. | 翻訳日:2024-08-16 18:07:06 公開日:2024-08-14 |
# 言語モデル評価の高速化について
On Speeding Up Language Model Evaluation ( http://arxiv.org/abs/2407.06172v2 ) ライセンス: Link先を確認 | Jin Peng Zhou, Christian K. Belardi, Ruihan Wu, Travis Zhang, Carla P. Gomes, Wen Sun, Kilian Q. Weinberger, | (参考訳) LLM(Large Language Models)を用いたプロンプトベースの手法の開発には,多数の意思決定が必要である。
例えば、タスクの最高のパフォーマンスを達成するためには、適切な事前訓練されたLLM、プロンプト、ハイパーパラメータを選択する必要がある。
LLMに基づく手法の推測と評価の両方が資源集約的であるため、この徹底的な評価は時間と費用がかかる可能性がある。
さらに悪いことに、多くの計算が無駄になっている: 多くのハイパーパラメータ設定は非競合的であり、検証セットからの多くのサンプルは高い相関関係にあり、新しい情報はほとんど、あるいは全く提供されない。
したがって、最適なメソッドを特定することが目的ならば、検証サンプルとメソッドが適応的に選択された場合、はるかに効率的に行うことができる。
本稿では,この課題に対処するための新しい手法を提案する。
我々は,欠落した評価を補うために,低ランク行列の分解に頼り,また,次の(メソッド,検証サンプル)ペアを逐次同定するために,マルチアームのバンディットに頼っている。
我々は、いくつかの競合するベンチマーク問題に対するアプローチの有効性を慎重に評価し、典型的なリソースの5~15%しか必要とせず、最高のパフォーマンスの手法を識別できることを示し、その結果、85~95%のLCMコスト削減が停滞する結果となった。
Developing prompt-based methods with Large Language Models (LLMs) requires making numerous decisions, which give rise to a combinatorial search problem. For example, selecting the right pre-trained LLM, prompt, and hyperparameters to attain the best performance for a task typically necessitates evaluating an expoential number of candidates on large validation sets. This exhaustive evaluation can be time-consuming and costly, as both inference and evaluation of LLM-based approaches are resource-intensive. Worse, a lot of computation is wasted: Many hyper-parameter settings are non-competitive, and many samples from the validation set are highly correlated - providing little or no new information. So, if the goal is to identify the best method, it can be done far more efficiently if the validation samples and methods are selected adaptively. In this paper, we propose a novel method to address this challenge. We lean on low-rank matrix factorization to fill in missing evaluations and on multi-armed bandits to sequentially identify the next (method, validation sample)-pair to evaluate. We carefully assess the efficacy of our approach on several competitive benchmark problems and show that it can identify the top-performing method using only 5-15% of the typically needed resources -- resulting in a staggering 85-95% LLM cost savings. | 翻訳日:2024-08-16 18:07:06 公開日:2024-08-14 |
# LoAS:デュアルスパーススパイクニューラルネットワークのためのフルテンポラルパラレルデータフロー
LoAS: Fully Temporal-Parallel Datatflow for Dual-Sparse Spiking Neural Networks ( http://arxiv.org/abs/2407.14073v2 ) ライセンス: Link先を確認 | Ruokai Yin, Youngeun Kim, Di Wu, Priyadarshini Panda, | (参考訳) スパイキングニューラルネットワーク(SNN)は、リソースに制約のあるエッジデバイスを駆動する可能性から、過去10年間で大きな研究注目を集めている。
既存のSNNアクセラレーターはスパーススパイクを高効率で処理できるが、スパースウェイトを持つSNNでは、二重スパースシティの機会は少ない。
本研究では,スパース行列-スパース行列乗算(spMspM)のコア演算に着目し,二重スパースSNNの高速化について検討する。
両スパースニューラルネットワーク(ANN)用に設計された既存のspMspMアクセラレータ上で、双スパースSNNを鼻で動作させることで、準最適効率を示す。
主な課題は、SNNの自然な性質である処理タイムステップが、ANNspMspMに余分なループを導入し、レイテンシが長くなり、メモリトラフィックが増加することだ。
この問題に対処するために、時間ステップ間のデータ移動と、二重スパースSNNのエンドツーエンド遅延を最小化する、完全時相並列(FTP)データフローを提案する。
FTPデータフローの効率を最大化するために,単一ビットのスパイクを効率よく圧縮し,連続的なメモリアクセスを確保するFTPフレンドリーなスパイク圧縮機構を提案する。
さらに、スループットのペナルティがほとんどない高価なプレフィックスサム回路のコストを低減できるFTPフレンドリーなインナージョイント回路を提案する。
FTPデータフローのすべてのテクニックは、デュアルスパースSNN用の低遅延推論加速器であるLoASにカプセル化されている。
FTPデータフロー、圧縮、インナージョイントでは、LOAS上でデュアルスパースSNNワークロードを実行すると、以前のデュアルスパースアクセラレーターで実行する場合と比較して、大幅なスピードアップ(最大8.51\times$)とエネルギー削減(最大3.68\times$)が示される。
Spiking Neural Networks (SNNs) have gained significant research attention in the last decade due to their potential to drive resource-constrained edge devices. Though existing SNN accelerators offer high efficiency in processing sparse spikes with dense weights, opportunities are less explored in SNNs with sparse weights, i.e., dual-sparsity. In this work, we study the acceleration of dual-sparse SNNs, focusing on their core operation, sparse-matrix-sparse-matrix multiplication (spMspM). We observe that naively running a dual-sparse SNN on existing spMspM accelerators designed for dual-sparse Artificial Neural Networks (ANNs) exhibits sub-optimal efficiency. The main challenge is that processing timesteps, a natural property of SNNs, introduces an extra loop to ANN spMspM, leading to longer latency and more memory traffic. To address the problem, we propose a fully temporal-parallel (FTP) dataflow, which minimizes both data movement across timesteps and the end-to-end latency of dual-sparse SNNs. To maximize the efficiency of FTP dataflow, we propose an FTP-friendly spike compression mechanism that efficiently compresses single-bit spikes and ensures contiguous memory access. We further propose an FTP-friendly inner-join circuit that can lower the cost of the expensive prefix-sum circuits with almost no throughput penalty. All the above techniques for FTP dataflow are encapsulated in LoAS, a Low-latency inference Accelerator for dual-sparse SNNs. With FTP dataflow, compression, and inner-join, running dual-sparse SNN workloads on LoAS demonstrates significant speedup (up to $8.51\times$) and energy reduction (up to $3.68\times$) compared to running it on prior dual-sparse accelerators. | 翻訳日:2024-08-16 17:56:52 公開日:2024-08-14 |
# Peer-induced Fairness:Reveal Algorithmic Unfairnessに対する因果的アプローチ
Peer-induced Fairness: A Causal Approach to Reveal Algorithmic Unfairness ( http://arxiv.org/abs/2408.02558v2 ) ライセンス: Link先を確認 | Shiqi Fang, Zexun Chen, Jake Ansell, | (参考訳) 本稿では,アルゴリズムフェアネスを科学的に評価するための新しい枠組みである「ピア誘導フェアネス」を紹介する。
アルゴリズムによる差別による有害な結果と、個人の能力不足による結果の区別である。
単一世界干渉グラフ(Single World Intervention Graph)のような対物フェアネスと高度な因果推論技術を利用することで、このモデルに依存しないアプローチは、ピア比較と仮説テストを通じて個人レベルでの公平性を評価する。
また、データ不足や不均衡といった課題にも対処し、利害関係者のための柔軟でプラグ&プレイのセルフ監査ツールと規制当局のための外部監査ツールを提供し、不都合な判断によって影響を受ける人々に対する説明可能なフィードバックを提供する。
This paper introduces a novel framework, "peer-induced fairness", to scientifically audit algorithmic fairness. It addresses a critical but often overlooked issue: distinguishing between adverse outcomes due to algorithmic discrimination and those resulting from individuals' insufficient capabilities. By utilizing counterfactual fairness and advanced causal inference techniques, such as the Single World Intervention Graph, this model-agnostic approach evaluates fairness at the individual level through peer comparisons and hypothesis testing. It also tackles challenges like data scarcity and imbalance, offering a flexible, plug-and-play self-audit tool for stakeholders and an external audit tool for regulators, while providing explainable feedback for those affected by unfavorable decisions. | 翻訳日:2024-08-16 17:56:52 公開日:2024-08-14 |
# 不正確な汚染率がロバストな教師なし異常検出に及ぼす影響
Impact of Inaccurate Contamination Ratio on Robust Unsupervised Anomaly Detection ( http://arxiv.org/abs/2408.07718v1 ) ライセンス: Link先を確認 | Jordan F. Masakuna, DJeff Kanda Nkashama, Arian Soltani, Marc Frappier, Pierre-Martin Tardif, Froduald Kabanza, | (参考訳) 教師なし異常検出を目的としたトレーニングデータセットは、通常、異常のないと推定され、しばしば異常(または汚染)を含む。
ほとんどのロバストな教師なし異常検出モデルは汚染に対処するために汚染比の情報に依存している。
しかし、実際には汚染率は不正確かもしれない。
頑健な教師なし異常検出における不正確な汚染率情報の影響について検討する。
不正な汚染率に耐性があるかどうかを検証する。
6つのベンチマークデータセットについて検討した結果,これらのモデルが誤情報の暴露による影響を受けないことが判明した。
実際、このような不正確な汚染比を設けると、性能が向上する。
Training data sets intended for unsupervised anomaly detection, typically presumed to be anomaly-free, often contain anomalies (or contamination), a challenge that significantly undermines model performance. Most robust unsupervised anomaly detection models rely on contamination ratio information to tackle contamination. However, in reality, contamination ratio may be inaccurate. We investigate on the impact of inaccurate contamination ratio information in robust unsupervised anomaly detection. We verify whether they are resilient to misinformed contamination ratios. Our investigation on 6 benchmark data sets reveals that such models are not adversely affected by exposure to misinformation. In fact, they can exhibit improved performance when provided with such inaccurate contamination ratios. | 翻訳日:2024-08-16 15:59:30 公開日:2024-08-14 |
# 記号回帰のための演算子特徴ニューラルネットワーク
Operator Feature Neural Network for Symbolic Regression ( http://arxiv.org/abs/2408.07719v1 ) ライセンス: Link先を確認 | Yusong Deng, Min Wu, Lina Yu, Jingyi Liu, Shu Wei, Yanjie Li, Weijun Li, | (参考訳) シンボリック回帰(シンボリックレグレッション、英: Symbolic regression)は、データ中のパターンを識別し、数学的表現を通してそれらを表現することを目的としたタスクである。
多くの手法はいくつかの成功をおさめたが、変数や記号を数学的本質を考慮せずに単に自然言語の文字として扱う。
本稿では,演算子表現を用いた演算子特徴ニューラルネットワーク(OF-Net)を提案する。
演算子の特徴を数値損失に置き換えることで,対象表現の演算子の組み合わせを予測することができる。
提案手法を公開データセット上で評価した結果,より優れた回復率と高いR^2$スコアが得られた。
この結果から,OF-Netのメリットとデメリットを分析し,最適化手法を提案する。
Symbolic regression is a task aimed at identifying patterns in data and representing them through mathematical expressions, generally involving skeleton prediction and constant optimization. Many methods have achieved some success, however they treat variables and symbols merely as characters of natural language without considering their mathematical essence. This paper introduces the operator feature neural network (OF-Net) which employs operator representation for expressions and proposes an implicit feature encoding method for the intrinsic mathematical operational logic of operators. By substituting operator features for numeric loss, we can predict the combination of operators of target expressions. We evaluate the model on public datasets, and the results demonstrate that the model achieves superior recovery rates and high $R^2$ scores. With the discussion of the results, we analyze the merit and demerit of OF-Net and propose optimizing schemes. | 翻訳日:2024-08-16 15:59:30 公開日:2024-08-14 |
# AIエージェント時代のリシンクプロセスマイニング
Re-Thinking Process Mining in the AI-Based Agents Era ( http://arxiv.org/abs/2408.07720v1 ) ライセンス: Link先を確認 | Alessandro Berti, Mayssa Maatallah, Urszula Jessen, Michal Sroka, Sonia Ayachi Ghannouchi, | (参考訳) 大規模言語モデル(LLM)は強力な対話インタフェースとして登場し、プロセスマイニング(PM)タスクにおけるその応用は有望な結果を示している。
しかし、最先端のLSMは高度な推論能力を必要とする複雑なシナリオに苦しむ。
文献では、プロセスマイニングアーティファクトのテキスト抽象化に基づくテキストインサイトの提供と、元のアーティファクト上で実行可能なコード生成という、2つの主要なアプローチがLLMを用いてPMを実装するために提案されている。
本稿では,AIベースのエージェントワークフロー(AgWf)パラダイムを用いて,LPMにおけるPMの有効性を高めることを提案する。
このアプローチは次のようなことが可能です。
一 複雑な作業の簡易なワークフローへの分解
二 LLMの領域知識と決定論的ツールの統合。
我々はAgWfの様々な実装とAIベースのタスクの種類について検討する。
さらに、CrewAIの実装フレームワークとプロセスマイニングに関する実例についても論じる。
Large Language Models (LLMs) have emerged as powerful conversational interfaces, and their application in process mining (PM) tasks has shown promising results. However, state-of-the-art LLMs struggle with complex scenarios that demand advanced reasoning capabilities. In the literature, two primary approaches have been proposed for implementing PM using LLMs: providing textual insights based on a textual abstraction of the process mining artifact, and generating code executable on the original artifact. This paper proposes utilizing the AI-Based Agents Workflow (AgWf) paradigm to enhance the effectiveness of PM on LLMs. This approach allows for: i) the decomposition of complex tasks into simpler workflows, and ii) the integration of deterministic tools with the domain knowledge of LLMs. We examine various implementations of AgWf and the types of AI-based tasks involved. Additionally, we discuss the CrewAI implementation framework and present examples related to process mining. | 翻訳日:2024-08-16 15:59:30 公開日:2024-08-14 |
# 正規化ストレス」は正規化されていない--ストレスを正しく解釈する方法
"Normalized Stress" is Not Normalized: How to Interpret Stress Correctly ( http://arxiv.org/abs/2408.07724v1 ) ライセンス: Link先を確認 | Kiran Smelser, Jacob Miller, Stephen Kobourov, | (参考訳) 応力は、高次元データの次元縮小投影に対して最もよく用いられる品質指標と最適化基準の1つである。
複雑な高次元データは、機械学習、生物学、社会科学など、多くの科学分野にまたがっている。
これらのデータセットを視覚化する主要な方法の1つは、データのいくつかの特性を視覚的にキャプチャする2次元散乱プロットである。
これらのプロットの精度を視覚的に決定することは難しいため、研究者はしばしば、完全なデータに対する予測精度または忠実度を測定するために品質指標を使用する。
最も一般的に用いられる指標の1つ、正規化された応力は、投影に関する意味的な変化がないにもかかわらず、射影の均一なスケーリングに敏感である。
本研究では, 応力およびその他の距離ベース品質指標に対するスケーリングの効果を, 測定値の変化量と寸法低減手法の評価に与える影響を, 解析的に, 実験的に検討した。
正規化応力スケールを不変にするための簡単な手法を導入し、小さなベンチマークで予測された振る舞いを正確に捉えていることを示す。
Stress is among the most commonly employed quality metrics and optimization criteria for dimension reduction projections of high dimensional data. Complex, high dimensional data is ubiquitous across many scientific disciplines, including machine learning, biology, and the social sciences. One of the primary methods of visualizing these datasets is with two dimensional scatter plots that visually capture some properties of the data. Because visually determining the accuracy of these plots is challenging, researchers often use quality metrics to measure projection accuracy or faithfulness to the full data. One of the most commonly employed metrics, normalized stress, is sensitive to uniform scaling of the projection, despite this act not meaningfully changing anything about the projection. We investigate the effect of scaling on stress and other distance based quality metrics analytically and empirically by showing just how much the values change and how this affects dimension reduction technique evaluations. We introduce a simple technique to make normalized stress scale invariant and show that it accurately captures expected behavior on a small benchmark. | 翻訳日:2024-08-16 15:59:30 公開日:2024-08-14 |
# 戦略的輸送計画のためのグラフニューラルネットワークサロゲート
Graph neural network surrogate for strategic transport planning ( http://arxiv.org/abs/2408.07726v1 ) ライセンス: Link先を確認 | Nikita Makarov, Santhanakrishnan Narayanan, Constantinos Antoniou, | (参考訳) 都市環境の複雑さが増し続けており、交通システムのモデリングはますます困難になっている。
本稿では,戦略的輸送計画のための代理モデルとして,高度なグラフニューラルネットワーク(GNN)アーキテクチャの適用について検討する。
グラフ畳み込みネットワーク(GCN: Graph Convolution Network)を基盤とした先行研究に基づいて,より表現力のあるグラフ注意ネットワーク(GAT: Graph Attention Network)と確立されたGCNの比較分析を行った。
さらに,グラフベースモデルにおけるオーバー・スムーシング問題に対処する新しいGAT変種(GATv3)を提案する。
本研究は,GCNアーキテクチャとGATアーキテクチャを併用したハイブリッドモデルの探索を含む。
3つのモデルは、その限界を理解するために様々な実験に適用される。
我々は階層的な回帰設定を分析し、分類と回帰タスクを組み合わせるとともに、出力を正確な値に変換する手法の提案とともにきめ細かい分類を導入する。
その結果、分類タスクにおける新しいGATの優れた性能が明らかとなった。
著者の知識を最大限に活用するために、これは文学における最初のGATモデルであり、より深い深度を達成した。
驚くべきことに、粒度の細かい分類タスクは、追加のトレーニングデータでGCNが予期せぬ優位性を示している。
これは、合成データジェネレータが、モデル性能を改善しながら問題に過度に適合することなく、トレーニングデータを増やすことができることを示している。
結論として,本研究はGNNに基づくサロゲートモデリングを推進し,GNNアーキテクチャの洗練に向けた洞察を提供する。
新たに提案されたGATアーキテクチャの可能性と,他の交通問題に対するモデリング設定について検討する上での道のりが開かれた。
As the complexities of urban environments continue to grow, the modelling of transportation systems become increasingly challenging. This paper explores the application of advanced Graph Neural Network (GNN) architectures as surrogate models for strategic transport planning. Building upon a prior work that laid the foundation with graph convolution networks (GCN), our study delves into the comparative analysis of established GCN with the more expressive Graph Attention Network (GAT). Additionally, we propose a novel GAT variant (namely GATv3) to address over-smoothing issues in graph-based models. Our investigation also includes the exploration of a hybrid model combining both GCN and GAT architectures, aiming to investigate the performance of the mixture. The three models are applied to various experiments to understand their limits. We analyse hierarchical regression setups, combining classification and regression tasks, and introduce fine-grained classification with a proposal of a method to convert outputs to precise values. Results reveal the superior performance of the new GAT in classification tasks. To the best of the authors' knowledge, this is the first GAT model in literature to achieve larger depths. Surprisingly, the fine-grained classification task demonstrates the GCN's unexpected dominance with additional training data. This shows that synthetic data generators can increase the training data, without overfitting issues whilst improving model performance. In conclusion, this research advances GNN based surrogate modelling, providing insights for refining GNN architectures. The findings open avenues for investigating the potential of the newly proposed GAT architecture and the modelling setups for other transportation problems. | 翻訳日:2024-08-16 15:59:30 公開日:2024-08-14 |
# モデレータ: きめ細かいコンテキストベースのポリシーによるテキスト・画像拡散モデルのモデレーション
Moderator: Moderating Text-to-Image Diffusion Models through Fine-grained Context-based Policies ( http://arxiv.org/abs/2408.07728v1 ) ライセンス: Link先を確認 | Peiran Wang, Qiyu Li, Longxuan Yu, Ziyao Wang, Ang Li, Haojian Jin, | (参考訳) ポリシーベースのモデル管理システムであるModeratorは、管理者が細かいコンテンツモデレーションポリシーを指定でき、テキスト・ツー・イメージ(TTI)モデルの重みを変更できる。
関連するコンテキストを考慮せずに概念を学習する既存の汎用モデル編集技術とは対照的に、Moderatorは管理者に対して、どのコンテントを適度に扱うべきか、どのコンテキストの下でどのように調整するか、なぜモデレーションが必要なのかを指定できる。
ポリシーのセットが与えられた後、モデレーターはまずオリジナルのモデルに、適度な画像を生成するように促し、次にこれらの自己生成画像を使用してモデルを逆修正し、モデレーションのためのタスクベクトルを計算し、最後に、元のモデルとタスクベクトルをネゲートして、適度なコンテンツを生成する際のパフォーマンスを低下させる。
私たちはModerratorを14人の参加者で評価し、管理者の役割を担い、約2.29のポリシーイテレーションでユニットテストをパスするために素早く学習し、ポリシーを作成できることがわかった。
安定拡散型ユーザ32名を対象に行った実験では,約65%のユーザが15回の試行で適度なコンテンツの生成を防ぎ,残りのユーザに対して平均8.3倍の望ましくないコンテンツの生成を要求された。
We present Moderator, a policy-based model management system that allows administrators to specify fine-grained content moderation policies and modify the weights of a text-to-image (TTI) model to make it significantly more challenging for users to produce images that violate the policies. In contrast to existing general-purpose model editing techniques, which unlearn concepts without considering the associated contexts, Moderator allows admins to specify what content should be moderated, under which context, how it should be moderated, and why moderation is necessary. Given a set of policies, Moderator first prompts the original model to generate images that need to be moderated, then uses these self-generated images to reverse fine-tune the model to compute task vectors for moderation and finally negates the original model with the task vectors to decrease its performance in generating moderated content. We evaluated Moderator with 14 participants to play the role of admins and found they could quickly learn and author policies to pass unit tests in approximately 2.29 policy iterations. Our experiment with 32 stable diffusion users suggested that Moderator can prevent 65% of users from generating moderated content under 15 attempts and require the remaining users an average of 8.3 times more attempts to generate undesired content. | 翻訳日:2024-08-16 15:59:30 公開日:2024-08-14 |
# 粒子群最適化によるネットワーク侵入検出の高速化
Extending Network Intrusion Detection with Enhanced Particle Swarm Optimization Techniques ( http://arxiv.org/abs/2408.07729v1 ) ライセンス: Link先を確認 | Surasit Songma, Watcharakorn Netharn, Siriluck Lorpunmanee, | (参考訳) 本研究では、機械学習(ML)とディープラーニング(DL)技術を組み合わせて、ネットワーク侵入検知システム(NIDS)を改善する方法について検討し、サイバーセキュリティの脅威の増大に対処する。
クリーニング、正規化、トレーニングとテストセットへのセグメンテーションなどの活動を含む、データ準備のための徹底的なプロセスは、モデルトレーニングと評価のためのフレームワークを配置する。
この研究は、CSE-CIC-IDS 2018とLITNET-2020データセットを使用して、MLメソッド(決定木、ランダムフォレスト、XGBoost)とDLモデル(CNN、RNN、DNN、MLP)と主要なパフォーマンス指標(精度、精度、リコール、F1スコア)を比較している。
Decision Treeモデルでは、EPSO(Enhanced Particle Swarm Optimization)を微調整して、ネットワーク違反を効果的に検出する能力を実証した。
この結果は、サイバーセキュリティのためのML分類器の改善におけるEPSOの重要性を浮き彫りにし、高精度で信頼性の高いNIDSのための強力なフレームワークを提案する。
この広範な分析は、堅牢な侵入検知ソリューションへの道を提供することによってサイバーセキュリティの領域に寄与するだけでなく、ネットワーク脅威の変化する状況に対処するMLモデルを改善するための将来のアプローチも提案している。
The present research investigates how to improve Network Intrusion Detection Systems (NIDS) by combining Machine Learning (ML) and Deep Learning (DL) techniques, addressing the growing challenge of cybersecurity threats. A thorough process for data preparation, comprising activities like cleaning, normalization, and segmentation into training and testing sets, lays the framework for model training and evaluation. The study uses the CSE-CIC-IDS 2018 and LITNET-2020 datasets to compare ML methods (Decision Trees, Random Forest, XGBoost) and DL models (CNNs, RNNs, DNNs, MLP) against key performance metrics (Accuracy, Precision, Recall, and F1-Score). The Decision Tree model performed better across all measures after being fine-tuned with Enhanced Particle Swarm Optimization (EPSO), demonstrating the model's ability to detect network breaches effectively. The findings highlight EPSO's importance in improving ML classifiers for cybersecurity, proposing a strong framework for NIDS with high precision and dependability. This extensive analysis not only contributes to the cybersecurity arena by providing a road to robust intrusion detection solutions, but it also proposes future approaches for improving ML models to combat the changing landscape of network threats. | 翻訳日:2024-08-16 15:59:30 公開日:2024-08-14 |
# パラメータ・アダプティブ・アタックによる敵攻撃の強化
Enhancing Adversarial Attacks via Parameter Adaptive Adversarial Attack ( http://arxiv.org/abs/2408.07733v1 ) ライセンス: Link先を確認 | Zhibo Jin, Jiayu Zhang, Zhiyu Zhu, Chenyu Zhang, Jiahao Huang, Jianlong Zhou, Fang Chen, | (参考訳) 近年、敵攻撃の急速な進化は、特に伝達性や他の性能特性に関して広く注目を集めている。
これらの手法は主にサンプルレベルで実行され、しばしばモデルの本質的なパラメータを見渡す。
このような無視は、敵のサンプルで導入された摂動がさらなる減少の可能性を示唆している。
敵対的攻撃の本質は、元のサンプルに最小限のノイズでモデルの整合性を損なうことであり、そのような摂動の有用性を最大化するための道を探究することが必須である。
このような背景から、我々は敵攻撃アルゴリズムの複雑さを掘り下げ、敵攻撃過程を2つのクリティカルフェーズ(DSPとDOP)に分けた。
DSPは、現在のサンプルとモデルパラメータに基づいて更新の方向を決定するが、既存のモデルパラメータが常に敵の攻撃に対して誘導されるとは限らないことが観察されている。
逆効果に対するモデルの影響は、しばしば現在の研究で見落とされ、DSPの無視につながっている。
特定の条件下では、微調整モデルパラメータはDSPの品質を大幅に向上させることができる。
特定の条件下では、微調整モデルパラメータがDSPの品質を著しく向上させることができることを初めて提案する。
我々は,これらの条件に対する厳密な数学的定義と証明を初めて提供し,DSP内のモデルパラメータを微調整するための複数の方法を紹介した。
提案手法の有効性について検討した。
私たちのコードは、https://anonymous.4open.science/r/P3A-A12C/でアクセスできます。
In recent times, the swift evolution of adversarial attacks has captured widespread attention, particularly concerning their transferability and other performance attributes. These techniques are primarily executed at the sample level, frequently overlooking the intrinsic parameters of models. Such neglect suggests that the perturbations introduced in adversarial samples might have the potential for further reduction. Given the essence of adversarial attacks is to impair model integrity with minimal noise on original samples, exploring avenues to maximize the utility of such perturbations is imperative. Against this backdrop, we have delved into the complexities of adversarial attack algorithms, dissecting the adversarial process into two critical phases: the Directional Supervision Process (DSP) and the Directional Optimization Process (DOP). While DSP determines the direction of updates based on the current samples and model parameters, it has been observed that existing model parameters may not always be conducive to adversarial attacks. The impact of models on adversarial efficacy is often overlooked in current research, leading to the neglect of DSP. We propose that under certain conditions, fine-tuning model parameters can significantly enhance the quality of DSP. For the first time, we propose that under certain conditions, fine-tuning model parameters can significantly improve the quality of the DSP. We provide, for the first time, rigorous mathematical definitions and proofs for these conditions, and introduce multiple methods for fine-tuning model parameters within DSP. Our extensive experiments substantiate the effectiveness of the proposed P3A method. Our code is accessible at: https://anonymous.4open.science/r/P3A-A12C/ | 翻訳日:2024-08-16 15:59:30 公開日:2024-08-14 |
# CMOS 28nmにおけるアナログスパイクニューロンの大規模神経形プロセッサへの応用
Analog Spiking Neuron in CMOS 28 nm Towards Large-Scale Neuromorphic Processors ( http://arxiv.org/abs/2408.07734v1 ) ライセンス: Link先を確認 | Marwan Besrour, Jacob Lavoie, Takwa Omrani, Gabriel Martin-Hardy, Esmaeil Ranjbar Koleibi, Jeremy Menard, Konin Koua, Philippe Marcoux, Mounir Boukadoum, Rejean Fontaine, | (参考訳) ディープラーニングアルゴリズムの計算複雑性は、実行ハードウェアにおいて、大幅なスピードとメモリの問題を引き起こしている。
エネルギーに制限されたポータブルデバイスでは、よりバルクな処理プラットフォームで得られる技術を再現するために、高効率な処理プラットフォームが不可欠である。
本研究では、エネルギー効率の良い混合信号型ニューロモルフィックシステム(NeuroSoC)を構築するための概念実証として、TSMCの28nmCMOS技術で作製された低消費電力Leaky Integrate-and-Fire(LIF)ニューロンについて述べる。
製造されたニューロンは1.61fJ/スパイクを消費し、34$\mu m^{2}$の活性領域を占有し、最大スパイク周波数は250mVで300kHzである。
これらの性能は、スパイキングニューラルネットワーク(SNN)の力学をエミュレートするソフトウェアモデルで使用される。
教師付きバックプロパゲーションとサロゲート勾配法を用いることで、MNISTデータセット上の4ビット後量子化の精度は82.5\%である。
このアプローチは、様々な組み込み機械学習アプリケーションに高性能でエネルギー効率の良いソリューションを提供するために、量子化されたSNNのASIC実装の可能性を強調している。
The computational complexity of deep learning algorithms has given rise to significant speed and memory challenges for the execution hardware. In energy-limited portable devices, highly efficient processing platforms are indispensable for reproducing the prowess afforded by much bulkier processing platforms. In this work, we present a low-power Leaky Integrate-and-Fire (LIF) neuron design fabricated in TSMC's 28 nm CMOS technology as proof of concept to build an energy-efficient mixed-signal Neuromorphic System-on-Chip (NeuroSoC). The fabricated neuron consumes 1.61 fJ/spike and occupies an active area of 34 $\mu m^{2}$, leading to a maximum spiking frequency of 300 kHz at 250 mV power supply. These performances are used in a software model to emulate the dynamics of a Spiking Neural Network (SNN). Employing supervised backpropagation and a surrogate gradient technique, the resulting accuracy on the MNIST dataset, using 4-bit post-training quantization stands at 82.5\%. The approach underscores the potential of such ASIC implementation of quantized SNNs to deliver high-performance, energy-efficient solutions to various embedded machine-learning applications. | 翻訳日:2024-08-16 15:59:30 公開日:2024-08-14 |
# 地球探査による局所属性によるモデル解釈可能性の向上
Enhancing Model Interpretability with Local Attribution over Global Exploration ( http://arxiv.org/abs/2408.07736v1 ) ライセンス: Link先を確認 | Zhiyu Zhu, Zhibo Jin, Jiayu Zhang, Huaming Chen, | (参考訳) 人工知能の分野では、AIモデルは内部メカニズムが不明瞭であるため、しばしば「ブラックボックス」と表現される。
モデル解釈可能性の研究、特にモデル決定の正確な説明を提供する帰属法に着目している。
現在の帰属アルゴリズムは典型的にはサンプル空間を探索することで各パラメータの重要性を評価する。
探索プロセス中に多数の中間状態が導入され、それはモデルのout-of-Distribution(OOD)空間に到達する可能性がある。
このような中間状態は属性の結果に影響を与えるため、特徴の相対的な重要性を理解することは困難である。
本稿では、まず、局所空間とその関連特性を定義し、これらの特性を利用する局所属性(LA)アルゴリズムを提案する。
LAアルゴリズムは、局所空間を完全に包含する帰属状態の中間状態を効果的に生成するために設計された、目標と未目標の探査段階の両方を含む。
提案手法は,最先端の属性手法と比較して平均38.21 %の属性効率向上を実現している。
実験における広範囲なアブレーション研究は,アルゴリズムにおける各成分の重要性も検証した。
私たちのコードは、https://github.com/LMBTough/LA/で利用可能です。
In the field of artificial intelligence, AI models are frequently described as `black boxes' due to the obscurity of their internal mechanisms. It has ignited research interest on model interpretability, especially in attribution methods that offers precise explanations of model decisions. Current attribution algorithms typically evaluate the importance of each parameter by exploring the sample space. A large number of intermediate states are introduced during the exploration process, which may reach the model's Out-of-Distribution (OOD) space. Such intermediate states will impact the attribution results, making it challenging to grasp the relative importance of features. In this paper, we firstly define the local space and its relevant properties, and we propose the Local Attribution (LA) algorithm that leverages these properties. The LA algorithm comprises both targeted and untargeted exploration phases, which are designed to effectively generate intermediate states for attribution that thoroughly encompass the local space. Compared to the state-of-the-art attribution methods, our approach achieves an average improvement of 38.21\% in attribution effectiveness. Extensive ablation studies in our experiments also validate the significance of each component in our algorithm. Our code is available at: https://github.com/LMBTough/LA/ | 翻訳日:2024-08-16 15:59:30 公開日:2024-08-14 |
# ハミルトニアンシミュレーションの線形結合を用いた量子合理変換
Quantum Rational Transformation Using Linear Combinations of Hamiltonian Simulations ( http://arxiv.org/abs/2408.07742v1 ) ライセンス: Link先を確認 | Yizhi Shen, Niel Van Buggenhout, Daan Camps, Katherine Klymko, Roel Van Beeumen, | (参考訳) 論理関数は科学計算において非常に強力なツールであるが、量子アルゴリズムを前進させる能力はいまだにほとんど使われていない。
本稿では,量子ハードウェア上での目標演算子の有理変換を効果的に実装する。
演算子分解剤の適切な積分表現を利用することで、線形結合対ユニタリ (LCU) を用いてハミルトニアンシミュレーションにより有理変換を効率的に行うことができることを示す。
離散時間と連続時間という2つの補的LCUアプローチを定式化し、それぞれがリゾルバの正確な積分表現を分解するためのユニークな戦略を提供する。
エルミート作用素の近似関数のユビキタスなタスクに対する量子有理変換を考える。
実例では、地上への応用と励起状態問題について論じる。
近年開発された雑音耐性量子固有解法において,有理変換と動的モード分解(ODMD)を組み合わせることで,多体スペクトルを解くための完全リアルタイムなアプローチを設計する。
スピンシステムの数値実験により,我々のリアルタイムフレームワークはコンパクトであり,低エネルギーの正確な推定が可能であることが示された。
Rational functions are exceptionally powerful tools in scientific computing, yet their abilities to advance quantum algorithms remain largely untapped. In this paper, we introduce effective implementations of rational transformations of a target operator on quantum hardware. By leveraging suitable integral representations of the operator resolvent, we show that rational transformations can be performed efficiently with Hamiltonian simulations using a linear-combination-of-unitaries (LCU). We formulate two complementary LCU approaches, discrete-time and continuous-time LCU, each providing unique strategies to decomposing the exact integral representations of a resolvent. We consider quantum rational transformation for the ubiquitous task of approximating functions of a Hermitian operator, with particular emphasis on the elementary signum function. For illustration, we discuss its application to the ground and excited state problems. Combining rational transformations with observable dynamic mode decomposition (ODMD), our recently developed noise-resilient quantum eigensolver, we design a fully real-time approach for resolving many-body spectra. Our numerical demonstration on spin systems indicates that our real-time framework is compact and achieves accurate estimation of the low-lying energies. | 翻訳日:2024-08-16 15:48:53 公開日:2024-08-14 |
# 多体局在系における量子ムペンバ効果
Quantum Mpemba effects in many-body localization systems ( http://arxiv.org/abs/2408.07750v1 ) ライセンス: Link先を確認 | Shuo Liu, Hao-Kai Zhang, Shuai Yin, Shi-Xin Zhang, Hong Yao, | (参考訳) 量子多体系の非平衡力学は、平衡物理学に欠落する様々な興味深い現象により、注目を集めている。
有名な例として、量子Mpemba効果があり、サブシステム対称性はより非対称な初期状態から対称クエンチの下でより早く復元される。
量子ムペンバ効果は可積分系とカオス系で広く研究されている。
本稿では,様々な初期状態を持つ多体局在系における対称性の復元と量子ムペンバ効果について検討する。
熱平衡に近づくことなく、多体局在相において対称性が完全に回復できることを明らかにする。
さらに、量子Mpemba効果の存在は、量子Mpemba効果の存在が初期状態の選択に依存するカオス系の場合とは対照的に、任意の初期傾き積状態に対して普遍的であることを示す。
また、多体局在の有効なモデルを用いて、対称性の復元と量子ムペンバ効果の理論解析を行う。
このレターは、量子ムペンバ効果をより非平衡な状態に拡張することに光を当てるだけでなく、多体局在の深い理解にも貢献する。
The nonequilibrium dynamics of quantum many-body systems have attracted growing attention due to various intriguing phenomena absent in equilibrium physics. One famous example is the quantum Mpemba effect, where the subsystem symmetry is restored faster under a symmetric quench from a more asymmetric initial state. The quantum Mpemba effect has been extensively studied in integrable and chaotic systems. In this Letter, we investigate symmetry restoration and quantum Mpemba effect in many-body localized systems with various initial states. We reveal that the symmetry can still be fully restored in many-body localization phases without approaching thermal equilibrium. Furthermore, we demonstrate that the presence of the quantum Mpemba effect is universal for any initial tilted product state, contrasting to the cases in the chaotic systems where the presence of the quantum Mpemba effect relies on the choice of initial states. We also provide a theoretical analysis of symmetry restoration and quantum Mpemba effects with the help of the effective model for many-body localization. This Letter not only sheds light on extending the quantum Mpemba effect to more non-equilibrium settings but also contributes to a deeper understanding of the many-body localization. | 翻訳日:2024-08-16 15:48:53 公開日:2024-08-14 |
# スケーラブル量子ネットワークノードにおけるハイブリッド絡み合いと誤り訂正
Hybrid entanglement and error correction in a scalable quantum network node ( http://arxiv.org/abs/2408.07752v1 ) ライセンス: Link先を確認 | Xiu-Ying Chang, Pan-Yu Hou, Wen-Gang Zhang, Xiang-Qian Meng, Ye-Fei Yu, Ya-Nan Lu, Yan-Qing Liu, Bin-Xiang Qi, Dong-Ling Deng, Lu-Ming Duan, | (参考訳) 近年のブレークスルーにより、量子ネットワークは新たな時代へと移行し、大都市圏の複数のノードに量子情報を保存、転送、処理することが可能になった。
この新時代の重要な課題は、個々のノードの能力を強化し、複数のキュービットの正確かつ堅牢な制御と、スケーラブルな量子ネットワークのための高度な機能を提供することである。
本稿では,ダイヤモンド色中心に基づくハイブリッド量子ノードの高精度かつ複雑な制御について報告する。
光領域からrf領域までの3つの異なる状態にまたがる3種類のクビットのハイブリッドコヒーレント制御を, 界面量子ビットとしての電子スピン, 長い記憶時間を持つ核スピン, 飛行光量子ビットとして示す。
2つの追加メモリ量子ビットを組み込むことで、3ビット繰り返し符号を用いて3つのメモリ量子ビットを論理状態に符号化し、この論理量子ビットをフォトニック量子ビットで絡み合わせる。
ハイブリッド量子ビットと正確な制御を利用して、補助量子ビットとして機能する電子スピンを通して、メモリ量子ビットのエラーシンドロームを繰り返し読み出し、ビットフリップエラーの修正にリアルタイムフィードバック操作を適用した。
最大12ラウンドの能動誤差補正を実施,検証し,未修正ラウンドに対する改善を実証する。
本研究は, 次世代量子リピータにおけるいくつかの重要な機能の実現可能性を示し, 広範囲の実用化に向けて, 本格的な大都市圏量子ネットワークへの道を開いたものである。
Recent breakthroughs have ushered the quantum network into a new era, where quantum information can be stored, transferred, and processed across multiple nodes on a metropolitan scale. A key challenge in this new era is enhancing the capabilities of individual nodes, providing precise and robust control over multiple qubits and advanced functionality for scalable quantum networks. Here, we report on precise and complex control in a hybrid quantum node based on a diamond color center. We demonstrate hybrid coherent control by entangling three types of qubits: an electron spin as an interface qubit, a nuclear spin with long memory time, and a flying photonic qubit, with their qubit frequencies spanning three distinct regimes from the optical domain to the rf domain. By incorporating two additional memory qubits, we encode three memory qubits into a logical state using the three-qubit repetition code and entangle this logical qubit with a photonic qubit. Leveraging hybrid qubits and precise control, we repeatedly read out the error syndromes of memory qubits through the electron spin, serving as an auxiliary qubit, then apply a real-time feedback operation to correct bit-flip errors. We execute and verify active error correction for up to twelve rounds and demonstrate the improvement over the uncorrected counterpart. Our results demonstrate the feasibility of several key functionalities for next-generation quantum repeaters, paving the way towards full-fledged metropolitan-scale quantum networks for a wide range of practical applications. | 翻訳日:2024-08-16 15:48:53 公開日:2024-08-14 |
# オフラインデータセットでコンテキスト目標指向の問題を解決するには?
How to Solve Contextual Goal-Oriented Problems with Offline Datasets? ( http://arxiv.org/abs/2408.07753v1 ) ライセンス: Link先を確認 | Ying Fan, Jingling Li, Adith Swaminathan, Aditya Modi, Ching-An Cheng, | (参考訳) 本研究では,コンテキスト目標指向(CGO)問題を解決するために,ラベル付きトラジェクトリとコンテキスト目標ペアを用いた新しいコンテキスト目標指向データ拡張手法(CODA)を提案する。
元のMDPと同等の動作拡張MDPを慎重に構築することにより、CODAは、追加の近似誤差を伴わずに、トレーニングコンテキスト下で完全にラベル付けされた遷移データセットを生成する。
オフラインデータ設定におけるCGO問題を解決するCODAの能力を実証するために,新しい理論的解析を行った。
また,CODAの有効性が実証され,CGO問題における様々な文脈・目標関係において,他のベースライン手法よりも優れていた。
このアプローチは、オフラインデータセットを使用してCGO問題を解決するための有望な方向を提供する。
We present a novel method, Contextual goal-Oriented Data Augmentation (CODA), which uses commonly available unlabeled trajectories and context-goal pairs to solve Contextual Goal-Oriented (CGO) problems. By carefully constructing an action-augmented MDP that is equivalent to the original MDP, CODA creates a fully labeled transition dataset under training contexts without additional approximation error. We conduct a novel theoretical analysis to demonstrate CODA's capability to solve CGO problems in the offline data setup. Empirical results also showcase the effectiveness of CODA, which outperforms other baseline methods across various context-goal relationships of CGO problem. This approach offers a promising direction to solving CGO problems using offline datasets. | 翻訳日:2024-08-16 15:48:53 公開日:2024-08-14 |
# Recursive Goemans-Williamson MaxCut アルゴリズムによるデータクラスタリングと可視化
Data Clustering and Visualization with Recursive Goemans-Williamson MaxCut Algorithm ( http://arxiv.org/abs/2408.07763v1 ) ライセンス: Link先を確認 | An Ly, Raj Sawhney, Marina Chugunova, | (参考訳) 本稿では,ベクトル化データクラスタリングタスクの性能向上を図った古典的 Goemans-Williamson MaxCut アルゴリズムに対する新たな再帰的修正を提案する。
医療出版物のクラスタリングに焦点をあて,再帰的反復と次元緩和法を併用して,クラスタリング結果の密度を著しく高める。
さらに,より効率的なクラスタリングに条件付き確率を活かした記事のベクトル化手法を提案する。
本手法は計算効率とクラスタリング精度の両面での優位性を提供する。
In this article, we introduce a novel recursive modification to the classical Goemans-Williamson MaxCut algorithm, offering improved performance in vectorized data clustering tasks. Focusing on the clustering of medical publications, we employ recursive iterations in conjunction with a dimension relaxation method to significantly enhance density of clustering results. Furthermore, we propose a unique vectorization technique for articles, leveraging conditional probabilities for more effective clustering. Our methods provide advantages in both computational efficiency and clustering accuracy, substantiated through comprehensive experiments. | 翻訳日:2024-08-16 15:48:53 公開日:2024-08-14 |
# 定オーバーヘッドマジックステート蒸留
Constant-Overhead Magic State Distillation ( http://arxiv.org/abs/2408.07764v1 ) ライセンス: Link先を確認 | Adam Wills, Min-Hsiu Hsieh, Hayata Yamasaki, | (参考訳) マジックステート蒸留は、フォールトトレラント量子計算において重要ながリソース集約的なプロセスである。
プロトコルのオーバーヘッドは、出力マジック状態当たりの入力マジック状態の数として定義され、通常$\mathcal{O}(\log^\gamma(1/\epsilon))$として成長する。
より小さなオーバーヘッド、すなわちより小さな指数である$\gamma$は、非常に望ましいが、既存のすべてのプロトコルは、約$\gamma > 0$で多対数的に成長するオーバーヘッドを必要とし、量子ビットのマジック状態を蒸留するための最小の指数$\gamma$を特定することは、依然として困難である。
この問題に対処するため、我々は$\mathcal{O}(1)$オーバーヘッドを達成できる効率の良い多項式時間復号法を持つキュービットのマジックステート蒸留プロトコルを開発し、これはHastingsとHaahにより以前の最高値である$\gamma \approx 0.678$よりも改善される。
我々の構成では、代数幾何学符号を用いて、クリフォード階層の第3のレベルにおいて、超越的に実装可能な論理ゲートをサポートする2^{10}$-dimensional quditsに対して、漸近的に良い量子符号を明示的に提示する。
非消滅率と相対距離を持つ漸近的に良い符号を使うことは、一定のオーバーヘッドにつながる。
これらの符号は、それぞれ$2^{10}$-dimensional qudit を 10$ qubits の集合として表し、量子ビット上の安定化演算を用いて実現することができる。
これらの符号で蒸留された10ドルキュービットのマジックステートは、制御制御されたZ$(CCZ$)と$T$ゲートに対して通常のマジックステートに変換できるため、クビットの標準的なマジックステートを一定のオーバヘッドで蒸留することができる。
これらの結果は、最適指数によるマジック状態蒸留プロトコルの構築に関する量子情報理論における根本的なオープンな問題を解決している。
Magic state distillation is a crucial yet resource-intensive process in fault-tolerant quantum computation. The protocol's overhead, defined as the number of input magic states required per output magic state with an error rate below $\epsilon$, typically grows as $\mathcal{O}(\log^\gamma(1/\epsilon))$. Achieving smaller overheads, i.e., smaller exponents $\gamma$, is highly desirable; however, all existing protocols require polylogarithmically growing overheads with some $\gamma > 0$, and identifying the smallest achievable exponent $\gamma$ for distilling magic states of qubits has remained challenging. To address this issue, we develop magic state distillation protocols for qubits with efficient, polynomial-time decoding that achieve an $\mathcal{O}(1)$ overhead, meaning the optimal exponent $\gamma = 0$; this improves over the previous best of $\gamma \approx 0.678$ due to Hastings and Haah. In our construction, we employ algebraic geometry codes to explicitly present asymptotically good quantum codes for $2^{10}$-dimensional qudits that support transversally implementable logical gates in the third level of the Clifford hierarchy. The use of asymptotically good codes with non-vanishing rate and relative distance leads to the constant overhead. These codes can be realised by representing each $2^{10}$-dimensional qudit as a set of $10$ qubits, using stabiliser operations on qubits. The $10$-qubit magic states distilled with these codes can be converted to and from conventional magic states for the controlled-controlled-$Z$ ($CCZ$) and $T$ gates on qubits with only a constant overhead loss, making it possible to achieve constant-overhead distillation of such standard magic states for qubits. These results resolve the fundamental open problem in quantum information theory concerning the construction of magic state distillation protocols with the optimal exponent. | 翻訳日:2024-08-16 15:48:53 公開日:2024-08-14 |
# 非コンプライアンスによる治療効果変動に対するベイズ分類木アプローチ
A Bayesian Classification Trees Approach to Treatment Effect Variation with Noncompliance ( http://arxiv.org/abs/2408.07765v1 ) ライセンス: Link先を確認 | Jared D. Fisher, David W. Puelz, Sameer K. Deshpande, | (参考訳) 非コンプライアンスのランダム化試験において、異なる治療効果を推定することは、本質的に困難である。
この設定では、既存の頻繁で柔軟な機械学習手法は、コンプライアンス率が(局所的に)ゼロに近い弱い機器問題に非常に敏感である。
一方、ベイズ的アプローチは自然に計算によって非コンプライアンスを説明できる。
両手法の最良の特徴を組み合わせたベイズ的機械学習手法を提案する。
本研究の主な手法は, 個別のコンプライアンス・タイプを繰り返すことによって, 非コンプライアンスシナリオにおけるバイナリ応答変数に対するベイズ因果フォレストモデルを提案することであり, 適合者間での対応効果の変動を柔軟に推定することができる。
シミュレーション研究は、コンプライアンスと治療効果が不均一である場合のアプローチの有用性を実証する。
本研究では,イリノイワークプレースウェルネス研究における治療効果の不均一性の検出と解析に応用する。
我々は介入から1年後の3つの結果について方法論を実証した。
我々は、慢性的な状態の存在に対する無効効果を確認し、古典的な部分的効果推定において無効となる「悪い健康」結果において有意義な不均一性を発見し、健康と安全のマネジメント優先性に対する個人の認識において、実質的な不均一性を見出す。
Estimating varying treatment effects in randomized trials with noncompliance is inherently challenging since variation comes from two separate sources: variation in the impact itself and variation in the compliance rate. In this setting, existing frequentist and flexible machine learning methods are highly sensitive to the weak instruments problem, in which the compliance rate is (locally) close to zero. Bayesian approaches, on the other hand, can naturally account for noncompliance via imputation. We propose a Bayesian machine learning approach that combines the best features of both approaches. Our main methodological contribution is to present a Bayesian Causal Forest model for binary response variables in scenarios with noncompliance by repeatedly imputing individuals' compliance types, allowing us to flexibly estimate varying treatment effects among compliers. Simulation studies demonstrate the usefulness of our approach when compliance and treatment effects are heterogeneous. We apply the method to detect and analyze heterogeneity in the treatment effects in the Illinois Workplace Wellness Study, which not only features heterogeneous and one-sided compliance but also several binary outcomes of interest. We demonstrate the methodology on three outcomes one year after intervention. We confirm a null effect on the presence of a chronic condition, discover meaningful heterogeneity in a "bad health" outcome that cancels out to null in classical partial effect estimates, and find substantial heterogeneity in individuals' perception of management prioritization of health and safety. | 翻訳日:2024-08-16 15:48:53 公開日:2024-08-14 |
# ファジィ関係方程式系のスゲノ積分の学習能力について
On learning capacities of Sugeno integrals with systems of fuzzy relational equations ( http://arxiv.org/abs/2408.07768v1 ) ライセンス: Link先を確認 | Ismaïl Baaj, | (参考訳) 本稿では,ファジィリレーショナル方程式のシステムに基づくトレーニングデータに基づいて,スゲノ積分の基盤となるキャパシティを学習する手法を提案する。
トレーニングデータには、$\max-\min$システムと$\min-\max$システムという2つの方程式系を関連付ける。
これら2つのシステム(一貫性のある場合)をサンチェスの結果を用いて解くことにより、トレーニングデータを表す極端容量を直接取得できることが示される。
$\max-\min$ (resp) を下げることによって。
$\min-\max$) 濃度の基準のサブセットに対する方程式の体系は、$q$ ($n-q$より大きいか等しい) に等しいが、$n$ は基準の数であり、潜在的な最大解(英語版)(その潜在的最低解)から$q$-maxitive(英語版)($q$-minitive)キャパシティ(英語版)(resp.$q$-minitive)キャパシティ(英語版)(resp.$q$-minitive))を導出するのに十分な条件を与える。
最後に、これらの2つの還元方程式系が矛盾するならば、ファジィ関係方程式系の不整合を扱うために、最も近い$q$-maxitiveキャパシティと最も低い$q$-minitiveキャパシティを得る方法を示す。
In this article, we introduce a method for learning a capacity underlying a Sugeno integral according to training data based on systems of fuzzy relational equations. To the training data, we associate two systems of equations: a $\max-\min$ system and a $\min-\max$ system. By solving these two systems (in the case that they are consistent) using Sanchez's results, we show that we can directly obtain the extremal capacities representing the training data. By reducing the $\max-\min$ (resp. $\min-\max$) system of equations to subsets of criteria of cardinality less than or equal to $q$ (resp. of cardinality greater than or equal to $n-q$), where $n$ is the number of criteria, we give a sufficient condition for deducing, from its potential greatest solution (resp. its potential lowest solution), a $q$-maxitive (resp. $q$-minitive) capacity. Finally, if these two reduced systems of equations are inconsistent, we show how to obtain the greatest approximate $q$-maxitive capacity and the lowest approximate $q$-minitive capacity, using recent results to handle the inconsistency of systems of fuzzy relational equations. | 翻訳日:2024-08-16 15:48:53 公開日:2024-08-14 |
# 線形および非線形絡み合い目撃者を用いてIBM量子プロセッサ上の有界絡み状態の生成と検出
Using linear and nonlinear entanglement witnesses to generate and detect bound entangled states on an IBM quantum processor ( http://arxiv.org/abs/2408.07769v1 ) ライセンス: Link先を確認 | Vaishali Gulati, Gayatri Singh, Kavita Dorai, | (参考訳) グリーンバーガー・ホーネ・ザイリンガー(GHZ)ベースで対角線となる3ビット混合状態における有界絡みについて検討する。
これらの状態の絡み合いは、絡み合いの目撃者を用いて検出され、分析は正の部分的転移(PPT)を示す状態に焦点を当てる。
次に、最適線形および非線形絡み目の検出能力を比較する。
理論上、線形および非線形の証人は、分離可能な状態に対して非負の値と、ある絡み合ったGHZ対角状態に対して、PPTで負の値を生成し、絡み合いの存在を示す。
実験の結果,直線的な絡み合いの目撃者が絡み合いの発見に失敗した場合,非線形な目撃者が常にその存在を識別できることが判明した。
最適線形および非線形の証人はIBMの量子コンピュータ上で生成され、その性能は文献から2つの有界絡み状態(カイ状態とケイ状態)とGHZ対角形のランダムに生成された絡み状態を用いて評価された。
さらに,IBM量子プロセッサ上での6ビット純状態を用いた3量子GHZ対角混合状態を生成するための汎用量子回路を提案する。
3ビット混合状態に対する期待値を得るために回路を実験的に実装し、対応する絡み込み証人を計算した。
We investigate bound entanglement in three-qubit mixed states which are diagonal in the Greenberger-Horne-Zeilinger (GHZ) basis. Entanglement in these states is detected using entanglement witnesses and the analysis focuses on states exhibiting positive partial transpose (PPT). We then compare the detection capabilities of optimal linear and nonlinear entanglement witnesses. In theory, both linear and nonlinear witnesses produce non-negative values for separable states and negative values for some entangled GHZ diagonal states with PPT, indicating the presence of entanglement. Our experimental results reveal that in cases where linear entanglement witnesses fail to detect entanglement, nonlinear witnesses are consistently able to identify its presence. Optimal linear and nonlinear witnesses were generated on an IBM quantum computer and their performance was evaluated using two bound entangled states (Kay and Kye states) from the literature, and randomly generated entangled states in the GHZ diagonal form. Additionally, we propose a general quantum circuit for generating a three-qubit GHZ diagonal mixed state using a six-qubit pure state on the IBM quantum processor. We experimentally implemented the circuit to obtain expectation values for three-qubit mixed states and compute the corresponding entanglement witnesses. | 翻訳日:2024-08-16 15:48:53 公開日:2024-08-14 |
# 人のフィードバックによるアウト・オブ・ディストリビューション学習
Out-of-Distribution Learning with Human Feedback ( http://arxiv.org/abs/2408.07772v1 ) ライセンス: Link先を確認 | Haoyue Bai, Xuefeng Du, Katie Rainey, Shibin Parameswaran, Yixuan Li, | (参考訳) アウト・オブ・ディストリビューション(OOD)学習は、OODデータ分布に関する統計的アプローチや事前定義された仮定に大きく依存することが多く、実際のデプロイメント環境でのOOD一般化とOOD検出の多面的課題に対処する上で、その有効性を妨げている。
本稿では,人的フィードバックによるOOD学習のための新しい枠組みを提案し,OODシフトの性質に関する貴重な洞察を与え,効果的なモデル適応を導く。
筆者らのフレームワークは,環境テスト時のOOD分布を,共変量とセマンティックシフトの両方で捉えた,自由に利用可能な未ラベルデータに便乗している。
このようなデータを活用するためには、人間のフィードバックを選択的に提供し、野生のデータ分布から少数の情報的サンプルをラベル付けして、マルチクラス分類器とOOD検出器を訓練する。
人間のフィードバックを活用することで、機械学習モデルの堅牢性と信頼性を高め、より正確なOODシナリオを処理できる能力を備えています。
アルゴリズムを正当化するために一般化誤差境界に関する理論的知見を提供する。
大規模な実験により,本手法の優位性が示され,現状の最先端を著しく上回った。
Out-of-distribution (OOD) learning often relies heavily on statistical approaches or predefined assumptions about OOD data distributions, hindering their efficacy in addressing multifaceted challenges of OOD generalization and OOD detection in real-world deployment environments. This paper presents a novel framework for OOD learning with human feedback, which can provide invaluable insights into the nature of OOD shifts and guide effective model adaptation. Our framework capitalizes on the freely available unlabeled data in the wild that captures the environmental test-time OOD distributions under both covariate and semantic shifts. To harness such data, our key idea is to selectively provide human feedback and label a small number of informative samples from the wild data distribution, which are then used to train a multi-class classifier and an OOD detector. By exploiting human feedback, we enhance the robustness and reliability of machine learning models, equipping them with the capability to handle OOD scenarios with greater precision. We provide theoretical insights on the generalization error bounds to justify our algorithm. Extensive experiments show the superiority of our method, outperforming the current state-of-the-art by a significant margin. | 翻訳日:2024-08-16 15:48:53 公開日:2024-08-14 |
# MedTsLLM:マルチモーダル医療時系列分析のためのLCMの活用
MedTsLLM: Leveraging LLMs for Multimodal Medical Time Series Analysis ( http://arxiv.org/abs/2408.07773v1 ) ライセンス: Link先を確認 | Nimeesha Chan, Felix Parker, William Bennett, Tianyi Wu, Mung Yao Jia, James Fackler, Kimia Ghobadi, | (参考訳) 多くの実世界のアプリケーションにおけるデータの複雑さと不均一性は、従来の機械学習と信号処理技術に重大な課題をもたらす。
例えば医学では、様々な生理的シグナルを効果的に分析することは、患者のモニタリングと臨床的意思決定に不可欠であるが、非常に困難である。
MedTsLLMは、時系列データとリッチコンテキスト情報をテキスト形式で効率的に統合し、生理的信号を解析し、セマンティックセグメンテーション、境界検出、時系列における異常検出の3つのタスクを実行する、汎用マルチモーダルな大規模言語モデル(LLM)フレームワークである。
これらの重要なタスクは、生理的信号のより深い分析を可能にし、臨床医に実用的な洞察を与えることができる。
我々は,時系列パッチの埋め込みを事前訓練されたLLMの埋め込み空間と整合させ,テキストコンテキストとともに生の時系列を効果的に活用するために,再プログラミング層を利用する。
医療データセットの多変量性を考えると、複数の共変量を扱う方法を開発する。
さらに、患者固有の情報を含むように、テキストプロンプトを調整します。
我々のモデルは、深層学習モデル、その他のLSM、および複数の医療領域、特に心電図や呼吸波形の臨床的手法など、最先端のベースラインよりも優れています。
MedTsLLMは、医療時系列分析にLLMのパワーを活用するための有望なステップを提供する。
The complexity and heterogeneity of data in many real-world applications pose significant challenges for traditional machine learning and signal processing techniques. For instance, in medicine, effective analysis of diverse physiological signals is crucial for patient monitoring and clinical decision-making and yet highly challenging. We introduce MedTsLLM, a general multimodal large language model (LLM) framework that effectively integrates time series data and rich contextual information in the form of text to analyze physiological signals, performing three tasks with clinical relevance: semantic segmentation, boundary detection, and anomaly detection in time series. These critical tasks enable deeper analysis of physiological signals and can provide actionable insights for clinicians. We utilize a reprogramming layer to align embeddings of time series patches with a pretrained LLM's embedding space and make effective use of raw time series, in conjunction with textual context. Given the multivariate nature of medical datasets, we develop methods to handle multiple covariates. We additionally tailor the text prompt to include patient-specific information. Our model outperforms state-of-the-art baselines, including deep learning models, other LLMs, and clinical methods across multiple medical domains, specifically electrocardiograms and respiratory waveforms. MedTsLLM presents a promising step towards harnessing the power of LLMs for medical time series analysis that can elevate data-driven tools for clinicians and improve patient outcomes. | 翻訳日:2024-08-16 15:48:53 公開日:2024-08-14 |
# アダマール試験と近似振幅制約による量子メタヒューリスティックによる多項式最適化
Sum-of-Squares inspired Quantum Metaheuristic for Polynomial Optimization with the Hadamard Test and Approximate Amplitude Constraints ( http://arxiv.org/abs/2408.07774v1 ) ライセンス: Link先を確認 | Iria W. Wang, Robin Brown, Taylor L. Patti, Anima Anandkumar, Marco Pavone, Susanne F. Yelin, | (参考訳) 量子計算は、最適化タスクのような古典的に難解な問題に対処することを約束している。
多くの最適化問題はNPハードであり、問題の大きさで指数関数的にスケールするので、従来の計算パラダイムでは対処できない。
最近提案された量子アルゴリズムarXiv:2206.14999は、いくつかのNPハード問題に対してこの問題に対処し、古典半定値プログラミング(SDP)に基づいている。
本稿では,SDPにインスパイアされた量子アルゴリズムを,より広範な問題集合を対象とする2乗プログラミングに一般化する。
提案アルゴリズムは、$O(nk)$ qubits、$O(k)$ 量子測定、$O(\textrm{poly}(n))$ 古典計算を用いて、$N \leq 2^n$変数(多くのNPハード問題を代表している)による多項式最適化問題に対処する。
提案アルゴリズムを試作したMax-$k$SAT問題に適用し、その性能を古典的な2乗和、最先端のヒューリスティックな解法、ランダムな推測と比較する。
シミュレーションにより, アルゴリズムの性能は, 丸め後の古典的な2乗和より優れていることが示された。
以上の結果から,本アルゴリズムは既知の古典的ヒューリスティックに近似し,問題固有のヒューリスティックに比較してより一般化可能なアプローチを提供する。
Quantum computation shows promise for addressing numerous classically intractable problems, such as optimization tasks. Many optimization problems are NP-hard, meaning that they scale exponentially with problem size and thus cannot be addressed at scale by traditional computing paradigms. The recently proposed quantum algorithm arXiv:2206.14999 addresses this challenge for some NP-hard problems, and is based on classical semidefinite programming (SDP). In this manuscript, we generalize the SDP-inspired quantum algorithm to sum-of-squares programming, which targets a broader problem set. Our proposed algorithm addresses degree-$k$ polynomial optimization problems with $N \leq 2^n$ variables (which are representative of many NP-hard problems) using $O(nk)$ qubits, $O(k)$ quantum measurements, and $O(\textrm{poly}(n))$ classical calculations. We apply the proposed algorithm to the prototypical Max-$k$SAT problem and compare its performance against classical sum-of-squares, state-of-the-art heuristic solvers, and random guessing. Simulations show that the performance of our algorithm surpasses that of classical sum-of-squares after rounding. Our results further demonstrate that our algorithm is suitable for large problems and approximates the best known classical heuristics, while also providing a more generalizable approach compared to problem-specific heuristics. | 翻訳日:2024-08-16 15:48:53 公開日:2024-08-14 |
# コッサートロッド型ソフトロボットの知識に基づくニューラル正規微分方程式
Knowledge-based Neural Ordinary Differential Equations for Cosserat Rod-based Soft Robots ( http://arxiv.org/abs/2408.07776v1 ) ライセンス: Link先を確認 | Tom Z. Jiahao, Ryan Adolf, Cynthia Sung, M. Ani Hsieh, | (参考訳) ソフトロボットは、その適合性と受動的性により、剛性ロボットよりも多くの利点がある。
しかし, ソフトロボットの空間的次元性の高さから, ソフトロボットの力学をモデル化することは一般的に困難であり, ソフトロボットを正確に制御するためのモデルベース手法を用いることは困難である。
ソフトロボットをシミュレートするためには、偏微分方程式を直接数値シミュレーションする必要があることが多い。
これは正確な数値モデルを必要とするだけでなく、ソフトロボットのモデリングを遅くて高価なものにする。
ディープラーニングアルゴリズムは、ソフトロボットのデータ駆動モデリングにおける約束を示している。
しかし、これらのアルゴリズムは通常大量のデータを必要とするため、ソフトロボットのシミュレーションや実世界の実験では入手が困難である。
本研究では、第一原理物理学モデルとニューラル常微分方程式を組み合わせたフレームワークであるKNODE-Cosseratを提案する。
私たちは、物理学に基づくモデルの一般化能力とディープラーニング手法の高速化という、両方の世界から最高のものを活用しています。
シミュレーションと実世界の実験の両方において、我々のフレームワークを検証する。
どちらの場合も、異なる指標の下では、ロボットモデルはベースラインモデルよりも大幅に改善されることを示す。
Soft robots have many advantages over rigid robots thanks to their compliant and passive nature. However, it is generally challenging to model the dynamics of soft robots due to their high spatial dimensionality, making it difficult to use model-based methods to accurately control soft robots. It often requires direct numerical simulation of partial differential equations to simulate soft robots. This not only requires an accurate numerical model, but also makes soft robot modeling slow and expensive. Deep learning algorithms have shown promises in data-driven modeling of soft robots. However, these algorithms usually require a large amount of data, which are difficult to obtain in either simulation or real-world experiments of soft robots. In this work, we propose KNODE-Cosserat, a framework that combines first-principle physics models and neural ordinary differential equations. We leverage the best from both worlds -- the generalization ability of physics-based models and the fast speed of deep learning methods. We validate our framework in both simulation and real-world experiments. In both cases, we show that the robot model significantly improves over the baseline models under different metrics. | 翻訳日:2024-08-16 15:48:53 公開日:2024-08-14 |
# ピエルス置換のためのドットとボックスアルゴリズム:多領域トポロジカル絶縁体への応用
Dots and Boxes Algorithm for Peierls Substitution: Application to Multidomain Topological Insulators ( http://arxiv.org/abs/2408.07778v1 ) ライセンス: Link先を確認 | Ricardo Y. Díaz-Bonifaz, Carlos Ramírez, | (参考訳) 磁場はパイエルス置換によって量子系の離散モデルに導入することができる。
強結合ハミルトニアンに対しては、置換は通常磁気ベクトルポテンシャルから計算される(ピエルス)相の集合が生じる。
ポテンシャルが一意ではないため、幾何学に適合し計算を単純化するために便利なゲージが選択できる。
しかし、磁場が一様でない場合、便利なゲージを見つけることは困難である。
本研究では,ゲージ不変磁束からピエルス相を計算し,ベクトルポテンシャル決定を回避することを提案する。
フェーズは、紙と鉛筆ゲーム「ドットとボックス」を連想させるグラフィックアルゴリズムに従って割り当てることができる。
改良されたアハロノフ・ボーム環の干渉現象を計算し、グラフェン中の半整数量子ホール効果を再現するためにランダウゲージに代わる位相割り当てを提案する。
抵抗および電流量子化における磁壁の影響を調べるために、多領域チャーン絶縁体を考慮し、一様でない磁場の場合に対処する。
モデルにデコヒーレンスと有限温度を加えると、多ドメイン固有のトポロジカル絶縁体を用いた実験とよく一致する量子化抵抗が生じる。
Magnetic fields can be introduced into discrete models of quantum systems by the Peierls substitution. For tight-binding Hamiltonians, the substitution results in a set of (Peierls) phases that are usually calculated from the magnetic vector potential. As the potential is not unique, a convenient gauge can be chosen to fit the geometry and simplify calculations. However, if the magnetic field is non-uniform, finding a convenient gauge is challenging. In this work we propose to bypass the vector potential determination by calculating the Peierls phases exclusively from the gauge-invariant magnetic flux. The phases can be assigned following a graphic algorithm reminiscent of the paper and pencil game "dots and boxes". We showcase the method implementation by calculating the interference phenomenon in a modified Aharonov-Bohm ring and propose a phase assignation alternative to the Landau gauge to reproduce the Half Integer Quantum Hall Effect in graphene. A non-uniform magnetic field case is addressed by considering a multi-domain Chern insulator to study the effects of domain walls in resistance and current quantization. It is found that adding decoherence and a finite temperature into the model results in quantized resistances that are in good agreement with experiments made with multi-domain intrinsic topological insulators. | 翻訳日:2024-08-16 15:48:53 公開日:2024-08-14 |
# NeuroPapyri: 手書きパパリ検索のためのディープアテンション埋め込みネットワーク
NeuroPapyri: A Deep Attention Embedding Network for Handwritten Papyri Retrieval ( http://arxiv.org/abs/2408.07785v1 ) ライセンス: Link先を確認 | Giuseppe De Gregorio, Simon Perrin, Rodrigo C. G. Pena, Isabelle Marthot-Santaniello, Harold Mouchère, | (参考訳) コンピュータビジョンと機械学習の交わりは、歴史研究を進めるための有望な道として現れ、我々の過去をより深く探究することを可能にしている。
しかし、歴史的パレオグラフィーにおける機械学習のアプローチの適用は、その「ブラックボックス」の性質が認識されているため、しばしば批判を浴びる。
この課題に対応するために,古代ギリシアのパピルスを含む画像の分析に特化して設計された,革新的な深層学習モデルであるNeuroPapyriを紹介した。
透明性と解釈可能性に関する懸念に対処するため、モデルには注意機構が組み込まれている。
この注意機構は、モデルの性能を高めるだけでなく、意思決定プロセスに大きく貢献する画像領域の視覚的表現も提供する。
具体的には、パピルス文書の画像を手書きテキストの行で処理するために調整され、個々の注意マップを使用して、入力画像中の特定の文字の有無を通知する。
本稿では,NeuroPapyriモデルとそのアーキテクチャとトレーニング手法について述べる。
評価の結果, 文献検索におけるNeuroPapyriの有効性が示された。
The intersection of computer vision and machine learning has emerged as a promising avenue for advancing historical research, facilitating a more profound exploration of our past. However, the application of machine learning approaches in historical palaeography is often met with criticism due to their perceived ``black box'' nature. In response to this challenge, we introduce NeuroPapyri, an innovative deep learning-based model specifically designed for the analysis of images containing ancient Greek papyri. To address concerns related to transparency and interpretability, the model incorporates an attention mechanism. This attention mechanism not only enhances the model's performance but also provides a visual representation of the image regions that significantly contribute to the decision-making process. Specifically calibrated for processing images of papyrus documents with lines of handwritten text, the model utilizes individual attention maps to inform the presence or absence of specific characters in the input image. This paper presents the NeuroPapyri model, including its architecture and training methodology. Results from the evaluation demonstrate NeuroPapyri's efficacy in document retrieval, showcasing its potential to advance the analysis of historical manuscripts. | 翻訳日:2024-08-16 15:48:53 公開日:2024-08-14 |
# バイオ物理・バイオメディカルデータを用いた深層学習セグメンテーションモデルの比較
Perspectives: Comparison of Deep Learning Segmentation Models on Biophysical and Biomedical Data ( http://arxiv.org/abs/2408.07786v1 ) ライセンス: Link先を確認 | J Shepard Bryan IV, Meyam Tavakoli, Steve Presse, | (参考訳) ディープラーニングベースのアプローチは、画像のセグメンテーション、特徴選択、デコンボリューションなど、さまざまなタスクを自動化するために、バイオ物理学で広く使用されている。
しかし、複数の競合するディープラーニングアーキテクチャの存在は、それぞれ独自のアドバンテージとデメリットを持っているため、特定のアプリケーションに最も適したアーキテクチャを選択することは困難である。
そこで本研究では,共通モデルの包括的比較について述べる。
ここでは,生物物理学実験から得られる,典型的に小さなトレーニングデータセットのサイズを前提としたセグメンテーションの課題に着目し,畳み込みニューラルネットワーク,U-Net,ビジョントランスフォーマー,ビジョン状態空間モデルという,一般的な4つのアーキテクチャを比較した。
そこで我々は,各モデルが優れている最適条件を決定するための基準を確立し,この分野の研究者や実践者に対して実践的なガイドラインを提供する。
Deep learning based approaches are now widely used across biophysics to help automate a variety of tasks including image segmentation, feature selection, and deconvolution. However, the presence of multiple competing deep learning architectures, each with its own unique advantages and disadvantages, makes it challenging to select an architecture best suited for a specific application. As such, we present a comprehensive comparison of common models. Here, we focus on the task of segmentation assuming the typically small training dataset sizes available from biophysics experiments and compare the following four commonly used architectures: convolutional neural networks, U-Nets, vision transformers, and vision state space models. In doing so, we establish criteria for determining optimal conditions under which each model excels, thereby offering practical guidelines for researchers and practitioners in the field. | 翻訳日:2024-08-16 15:38:42 公開日:2024-08-14 |
# タマネギサービスのユーザをフィッシングから保護する
Protecting Onion Service Users Against Phishing ( http://arxiv.org/abs/2408.07787v1 ) ライセンス: Link先を確認 | Benjamin Güldenring, Volker Roth, | (参考訳) フィッシングサイトはTorのタマネギサービスに共通する現象であり、フィッシングを本物のタマネギドメイン名と区別することは極めて困難である。
タマネギサービスのオペレータは、ユーザをフィッシングから守るためのいくつかの戦略を考案した。
しかし、この研究で示したように、訪問したサービスの痕跡を発生させることなく、フィッシングからユーザーを保護するものはありません。
この問題に対処する先行研究を精査し、ハッシュ視覚化とPAKEという2つの既知のアプローチだけがこの問題を解決可能であることを発見した。
ハッシュ視覚化では、大きなハッシュ値を認識する必要がある。
ハッシュビジュアライゼーションをより実用的なものにするために,ユーザが認識しなければならない情報の量を大幅に削減する,認識機能と呼ばれる新しいメカニズムを設計する。
システムのセキュリティとプライバシ特性を解析し,Torブラウザ用のブラウザエクステンションとして実装したプロトタイプについて報告する。
Phishing websites are a common phenomenon among Tor onion services, and phishers exploit that it is tremendously difficult to distinguish phishing from authentic onion domain names. Operators of onion services devised several strategies to protect their users against phishing. But as we show in this work, none protect users against phishing without producing traces about visited services - something that particularly vulnerable users might want to avoid. In search of a solution we review prior research addressing this problem, and find that only two known approaches, hash visualization and PAKE, are capable of solving this problem. Hash visualization requires users to recognize large hash values. In order to make hash visualization more practical we design a novel mechanism called recognizer, which substantially reduces the amount of information that users must recognize. We analyze the security and privacy properties of our system formally, and report on our prototype implementation as a browser extension for the Tor web browser. | 翻訳日:2024-08-16 15:38:42 公開日:2024-08-14 |
# シュワルツシルト時空における三部構造測定の不確実性
Tripartite measurement uncertainty in Schwarzschild space-time ( http://arxiv.org/abs/2408.07789v1 ) ライセンス: Link先を確認 | Hazhir Dolatkhah, Artur Czerwinski, Asad Ali, Saif Al-Kuwari, Saeed Haddadi, | (参考訳) シュワルツシルトブラックホール背景における三分極測定の不確かさに及ぼすホーキング放射の影響を解析した。
第一に、量子メモリ粒子がシュワルツシルトブラックホールに接近し、事象の地平線の近くに位置し、測定される粒子は漸近的に平坦な領域に残っている。
第2のシナリオでは、測定された粒子はブラックホールに向かって移動し、量子記憶は漸近的に平坦な領域に留まる。
この研究は、2つの初期量子状態(GHZとW状態)を考察している。
いずれの場合も,ホーキング温度の上昇とともに測定の不確実性は着実に上昇することがわかった。
GHZ状態とW状態を比較すると、GHZ状態は最初、W状態よりも低いホーキング温度で測定の不確かさを示し、ホーキング放射に対する弾力性を示す。
さらに、測定された粒子がブラックホールに向かって落ちる間、量子記憶が漸近的に平坦な領域に留まると、GHZとW状態の不確かさは高温では一致しない。
GHZ状態は測定の不確実性を一貫して示しており、ホーキング放射に対する優れた堅牢性を示している。
The effect of Hawking radiation on tripartite measurement uncertainty in a Schwarzschild black hole background is analyzed in this study. Two scenarios are examined: in the first, quantum memory particles approach a Schwarzschild black hole and are positioned near the event horizon, while the particle being measured remains in the asymptotically flat region. In the second scenario, the measured particle moves toward the black hole, and the quantum memories stay in the asymptotically flat region. The study considers two initial quantum states: GHZ and W states. The findings reveal that in both cases, measurement uncertainty increases steadily with rising Hawking temperature. When comparing the GHZ and W states, the GHZ state initially exhibits lower measurement uncertainty at low Hawking temperatures than the W state, indicating greater resilience to Hawking radiation. Additionally, when the quantum memories remain in the asymptotically flat region while the measured particle falls toward the black hole, the uncertainties for GHZ and W states do not align at high temperatures. The GHZ state consistently demonstrates lower measurement uncertainty, showcasing its superior robustness against Hawking radiation. | 翻訳日:2024-08-16 15:38:42 公開日:2024-08-14 |
# Cropper: インコンテキスト学習によるイメージクロップのための視覚言語モデル
Cropper: Vision-Language Model for Image Cropping through In-Context Learning ( http://arxiv.org/abs/2408.07790v1 ) ライセンス: Link先を確認 | Seung Hyun Lee, Junjie Ke, Yinxiao Li, Junfeng He, Steven Hickson, Katie Datsenko, Sangpil Kim, Ming-Hsuan Yang, Irfan Essa, Feng Yang, | (参考訳) 画像トリミングの目標は、画像内の視覚的に魅力的な作物を特定することである。
従来の手法では、特定のデータセットでトレーニングされた特殊なアーキテクチャに依存しており、新しい要件に適応するのに苦労している。
近年の大規模視覚言語モデル(VLM)のブレークスルーにより、明示的なトレーニングを伴わずに、コンテキスト内学習が可能になった。
しかし、VLMを用いた視覚下流タスクの効果的な戦略はほとんど不明であり、未解明のままである。
本稿では,VLMを画像トリミングに有効活用する手法を提案する。
まず,画像トリミングのための効率的なプロンプト検索機構を提案する。
第2に、予測された作物を反復的に増強する反復的改良戦略を導入する。
提案したフレームワークはCropperという名前で,自由形態の収穫,主観的な収穫,アスペクト比の収穫など,幅広い種類の収穫作業に適用可能である。
大規模な実験とユーザスタディにより、Cropperはいくつかのベンチマークで最先端の手法を大きく上回っていることが示されている。
The goal of image cropping is to identify visually appealing crops within an image. Conventional methods rely on specialized architectures trained on specific datasets, which struggle to be adapted to new requirements. Recent breakthroughs in large vision-language models (VLMs) have enabled visual in-context learning without explicit training. However, effective strategies for vision downstream tasks with VLMs remain largely unclear and underexplored. In this paper, we propose an effective approach to leverage VLMs for better image cropping. First, we propose an efficient prompt retrieval mechanism for image cropping to automate the selection of in-context examples. Second, we introduce an iterative refinement strategy to iteratively enhance the predicted crops. The proposed framework, named Cropper, is applicable to a wide range of cropping tasks, including free-form cropping, subject-aware cropping, and aspect ratio-aware cropping. Extensive experiments and a user study demonstrate that Cropper significantly outperforms state-of-the-art methods across several benchmarks. | 翻訳日:2024-08-16 15:38:42 公開日:2024-08-14 |
# マルチモーダルオートエンコーダアーキテクチャを用いた効率的な画像・テキストクラスタリングシステム
An Efficient and Explanatory Image and Text Clustering System with Multimodal Autoencoder Architecture ( http://arxiv.org/abs/2408.07791v1 ) ライセンス: Link先を確認 | Tiancheng Shi, Yuanchen Wei, John R. Kender, | (参考訳) 我々は、異なる文化的アプローチを同じ国際ニュースイベントと比較する新しい文脈において、オートエンコーダとLLMインタプリタの共通ツールの拡張の有効性と説明能力を示す。
我々は,ビデオフレームのCNNエンコーディングを並列に埋め込むために,完全に接続された潜在層を用いて,従来のCVAEモデルのモダリティを拡張する新しい畳み込み変分自動符号化(CRVAE)モデルを開発した。
本研究では,フレームキャプションアライメント,潜在空間ベクトルクラスタリング,新しいLCMクラスタインタプリタなどを含む大規模システムにモデルを組み込む。
映像を3から5つの主題クラスタに要約する作業に対して,このシステムを計測,チューニング,適用し,各テーマを10のLLM生成句で記述する。
本システムは,新型コロナウイルスと冬季五輪の2つの話題に応用され,他にも5つの話題が進行中である。
We demonstrate the efficiencies and explanatory abilities of extensions to the common tools of Autoencoders and LLM interpreters, in the novel context of comparing different cultural approaches to the same international news event. We develop a new Convolutional-Recurrent Variational Autoencoder (CRVAE) model that extends the modalities of previous CVAE models, by using fully-connected latent layers to embed in parallel the CNN encodings of video frames, together with the LSTM encodings of their related text derived from audio. We incorporate the model within a larger system that includes frame-caption alignment, latent space vector clustering, and a novel LLM-based cluster interpreter. We measure, tune, and apply this system to the task of summarizing a video into three to five thematic clusters, with each theme described by ten LLM-produced phrases. We apply this system to two news topics, COVID-19 and the Winter Olympics, and five other topics are in progress. | 翻訳日:2024-08-16 15:38:42 公開日:2024-08-14 |
# 雑音ハイブリッド量子近似最適化を用いた大規模QUBO問題の多レベル解法
A Multilevel Approach For Solving Large-Scale QUBO Problems With Noisy Hybrid Quantum Approximate Optimization ( http://arxiv.org/abs/2408.07793v1 ) ライセンス: Link先を確認 | Filip B. Maciejewski, Bao Gia Bach, Maxime Dupont, P. Aaron Lott, Bhuvanesh Sundar, David E. Bernal Neira, Ilya Safro, Davide Venturelli, | (参考訳) 量子近似最適化は有用な量子計算の候補の1つであり、特に擬似非制約二項最適化(QUBO)問題に対する近似解を見つける文脈において有望である。
しかし、既存の量子処理ユニット(QPU)は比較的小さく、IsingモデルによるQUBOの標準マッピングでは1変数あたり1キュービットが必要であり、直接の大規模最適化は不可能である。
古典的最適化において、多くの大規模問題に対処するための一般的な戦略はマルチレベル/マルチグリッド法であり、そこでは、大きな目標問題が反復的に粗くなり、大域的な解は、複数の小規模最適化実行から構築される。
本研究では,このようなマルチレベル戦略において,既存のQPUがサブソルバとしてどのように機能するかを実験的に検証する。
我々は、最近のNoss-Directed Adaptive Remapping (NDAR)アルゴリズムとQuantum Relax $\&$ Round (QRR)アルゴリズムを組み合わせて拡張する。
我々はまず,リゲッティのトランスモンデバイスAnkaa-2におけるヒューリスティック拡張の有効性を実証した。
正規化近似比 (ARs) が$\sim 0.98-1.0$、実数値係数 (ARs $\sim 0.94-1.0$) のクラスが同じである。
次に,拡張NDARアルゴリズムとQRRアルゴリズムを,最大$\sim 27,000$変数を持つ6ドルの大規模グラフに対して,マルチレベルアルゴリズムのサブソルバとして実装する。
QPU(古典的な後処理ステップを持つ)は、数十の問題の近似解を見つけるために使用され、少なくとも82$-qubitは、グローバルなソリューションを構築するために反復的に使用される。
量子最適化の結果は,マルチレベルアプローチにおける解法として用いられる古典的ヒューリスティックスと比較して,解の質に関して競争力がある。
Quantum approximate optimization is one of the promising candidates for useful quantum computation, particularly in the context of finding approximate solutions to Quadratic Unconstrained Binary Optimization (QUBO) problems. However, the existing quantum processing units (QPUs) are relatively small, and canonical mappings of QUBO via the Ising model require one qubit per variable, rendering direct large-scale optimization infeasible. In classical optimization, a general strategy for addressing many large-scale problems is via multilevel/multigrid methods, where the large target problem is iteratively coarsened, and the global solution is constructed from multiple small-scale optimization runs. In this work, we experimentally test how existing QPUs perform as a sub-solver within such a multilevel strategy. We combine and extend (via additional classical processing) the recent Noise-Directed Adaptive Remapping (NDAR) and Quantum Relax $\&$ Round (QRR) algorithms. We first demonstrate the effectiveness of our heuristic extensions on Rigetti's transmon device Ankaa-2. We find approximate solutions to $10$ instances of fully connected $82$-qubit Sherrington-Kirkpatrick graphs with random integer-valued coefficients obtaining normalized approximation ratios (ARs) in the range $\sim 0.98-1.0$, and the same class with real-valued coefficients (ARs $\sim 0.94-1.0$). Then, we implement the extended NDAR and QRR algorithms as subsolvers in the multilevel algorithm for $6$ large-scale graphs with at most $\sim 27,000$ variables. The QPU (with classical post-processing steps) is used to find approximate solutions to dozens of problems, at most $82$-qubit, which are iteratively used to construct the global solution. We observe that quantum optimization results are competitive regarding the quality of solutions compared to classical heuristics used as subsolvers within the multilevel approach. | 翻訳日:2024-08-16 15:38:42 公開日:2024-08-14 |
# 純および準純量子状態の最適速度ユニタリ時間進化のキャラクタリゼーション
Characterizing Optimal-speed unitary time evolution of pure and quasi-pure quantum states ( http://arxiv.org/abs/2408.07794v1 ) ライセンス: Link先を確認 | John A. Mora Rodríguez, Brian Grajales, Marcelo Terra Cunha, Lino Grama, | (参考訳) 我々は、最適速度のユニタリ時間進化と関連する動的軌道を生成するハミルトニアンの特徴づけを示し、初期状態は純粋状態または準純量子状態である。
一次元直交射影の多様体上のリー群 $\SU(n)$ の共役作用の下で、純粋な状態の多様体を軌道として構成し、フラグ多様体 $\SU(n)/\textnormal{S}(\textnormal{U}(1)\times \textnormal{U}(n-1))$ で等距離を得る。
この構成から、最適速度時間進化を生成するハミルトニアンは$\SU(n)/\textnormal{S}(\textnormal{U}(1)\times \textnormal{U}(n-1))$の等時ベクトルによって完全に特徴づけられることを示す。
この結果は後に準純量子状態にまで拡張する。
We present a characterization of the Hamiltonians that generate optimal-speed unitary time evolution and the associated dynamical trajectory, where the initial states are either pure states or quasi-pure quantum states. We construct the manifold of pure states as an orbit under the conjugation action of the Lie group $\SU(n)$ on the manifold of one-dimensional orthogonal projectors, obtaining an isometry with the flag manifold $\SU(n)/\textnormal{S}(\textnormal{U}(1)\times \textnormal{U}(n-1 ))$. From this construction, we show that Hamiltonians generating optimal-speed time evolution are fully characterized by equigeodesic vectors of $\SU(n)/\textnormal{S}(\textnormal{U}(1)\times \textnormal{U}(n-1))$. We later extend that result to quasi-pure quantum states. | 翻訳日:2024-08-16 15:38:42 公開日:2024-08-14 |
# ラベル付きデータのない潜在構造予測スコアのランク付けと組み合わせ
Ranking and Combining Latent Structured Predictive Scores without Labeled Data ( http://arxiv.org/abs/2408.07796v1 ) ライセンス: Link先を確認 | Shiva Afshar, Yinghan Chen, Shizhong Han, Ying Lin, | (参考訳) 分散データソースから得られた複数の予測器と正確なメタラーナーを組み合わせることで、多くの予測問題において性能の向上が期待できる。
予測器の精度は通常不明であるため、より良い性能を達成するために予測器を統合することは困難である。
従来のアンサンブル学習法は,広範囲なラベル付きデータに基づいて予測器の精度を評価する。
しかし、実際的な応用では、ラベル付きデータの取得は困難な作業であることが証明される。
さらに、検討中の予測器は、特にモデルトレーニング中に類似したデータソースや機械学習アルゴリズムを使用した場合、高い相関関係を示す可能性がある。
これらの課題に対応するため、本研究では、連続的な予測スコアを持つ予測器間の依存関係を利用して、ラベル付きデータを持たない予測器をランク付けし、それらを重み付きアンサンブルスコアに組み合わせる、構造化されていないアンサンブル学習モデル(SUEL)を提案する。
SUELモデル、制約付き二次最適化(SUEL.CQO)、行列分解に基づくアプローチ(SUEL.MF)の2つの新しい相関型分解アルゴリズムが提案されている。
提案手法の有効性は、シミュレーション研究とリスク遺伝子発見の現実的応用の両方を通じて厳密に評価されている。
その結果,提案手法は基底真理データを必要としないアンサンブルモデルに依存予測器を効率的に統合できることを示した。
Combining multiple predictors obtained from distributed data sources to an accurate meta-learner is promising to achieve enhanced performance in lots of prediction problems. As the accuracy of each predictor is usually unknown, integrating the predictors to achieve better performance is challenging. Conventional ensemble learning methods assess the accuracy of predictors based on extensive labeled data. In practical applications, however, the acquisition of such labeled data can prove to be an arduous task. Furthermore, the predictors under consideration may exhibit high degrees of correlation, particularly when similar data sources or machine learning algorithms were employed during their model training. In response to these challenges, this paper introduces a novel structured unsupervised ensemble learning model (SUEL) to exploit the dependency between a set of predictors with continuous predictive scores, rank the predictors without labeled data and combine them to an ensembled score with weights. Two novel correlation-based decomposition algorithms are further proposed to estimate the SUEL model, constrained quadratic optimization (SUEL.CQO) and matrix-factorization-based (SUEL.MF) approaches. The efficacy of the proposed methods is rigorously assessed through both simulation studies and real-world application of risk genes discovery. The results compellingly demonstrate that the proposed methods can efficiently integrate the dependent predictors to an ensemble model without the need of ground truth data. | 翻訳日:2024-08-16 15:38:42 公開日:2024-08-14 |
# マルチパス目標動的シンボリック実行
Multi-Pass Targeted Dynamic Symbolic Execution ( http://arxiv.org/abs/2408.07797v1 ) ライセンス: Link先を確認 | Tuba Yavuz, | (参考訳) 動的シンボリック実行(DSE)は、プログラムを分析するための正確な手段を提供し、テストケースの生成や、メモリの脆弱性を含むさまざまなバグの検出に使用できる。
しかし、経路爆発問題は、象徴的な実行者がプログラムの場所や興味ある経路をカバーすることを妨げる可能性がある。
本稿では,対象のプログラム位置から始まり,特定のエントリポイントに到達するまで後退して到達性を確認し,エントリポイントとターゲット間の実行可能なパス上のバグを検出し,コードによってアクセスされるメモリ位置に関する制約を収集するマルチパス動的シンボル実行手法を提案する。
私たちのアプローチは、後方と前方の推論パスの混合を使用します。
これは、後方通過中に集約される抽象アドレス空間を導入し、統一を使用して抽象オブジェクトを具体的なアドレス空間内のオブジェクトに正確にマッピングする。
我々は,DSEツールであるKLEEを用いて,DESTINAと呼ばれるツールにアプローチを実装した。
メモリ安全性と制御フローのカテゴリからSvCompベンチマークを用いてDESTINAを評価した。
結果は、DESTINAがメモリの脆弱性を正確に検出できることを示し、パスの爆発に苦しむ場合、DSEがターゲット位置に到達するのを早くするのに役立つことを示している。
提案手法は,探索経路数の平均4倍の削減と2倍の高速化を実現する。
Dynamic symbolic execution (DSE) provides a precise means to analyze programs and it can be used to generate test cases and to detect a variety of bugs including memory vulnerabilities. However, the path explosion problem may prevent a symbolic executor from covering program locations or paths of interest. In this paper, we present a Multi-Pass Targeted Dynamic Symbolic Execution approach that starts from a target program location and moves backward until it reaches a specified entry point to check for reachability, to detect bugs on the feasible paths between the entry point and the target, and to collect constraints about the memory locations accessed by the code. Our approach uses a mix of backward and forward reasoning passes. It introduces an abstract address space that gets populated during the backward pass and uses unification to precisely map the abstract objects to the objects in the concrete address space. We have implemented our approach in a tool called DESTINA using KLEE, a DSE tool. We have evaluated DESTINA using SvComp benchmarks from the memory safety and control-flow categories. Results show that DESTINA can detect memory vulnerabilities precisely and it can help DSE reach target locations faster when it struggles with the path explosion. Our approach achieves on average 4X reduction in the number of paths explored and 2X speedup. | 翻訳日:2024-08-16 15:38:42 公開日:2024-08-14 |
# スピンオブライトジャイロスコープとスピン回転結合
Spin-of-Light Gyroscope and the Spin-Rotation Coupling ( http://arxiv.org/abs/2408.07799v1 ) ライセンス: Link先を確認 | Bahram Mashhoon, Yuri N. Obukhov, | (参考訳) 我々は、光の内在スピンに基づく精密ジャイロスコープについて、Fedderke et al (arXiv:2406.16178 [physics.optics]) の最近の提案と関連する光子スピンと回転とのカップリングについて論じる。
そこで本研究では,周囲媒質の存在下での波動伝播の方向を均一に回転する物理系における電磁放射の伝搬を解析する。
最後に、このタイプのスピンオブライトジャイロスコープを用いて重力場を測定する可能性を検討する。
We discuss the coupling of photon spin with rotation in connection with a recent proposal of Fedderke et al. [arXiv:2406.16178 [physics.optics]] regarding a precision gyroscope based on the intrinsic spin of light. To this end, we analyze the propagation of electromagnetic radiation in a physical system that uniformly rotates about the direction of wave propagation in the presence of an ambient medium. Finally, we consider the possibility of using this type of spin-of-light gyroscope to measure gravitomagnetic fields. | 翻訳日:2024-08-16 15:38:42 公開日:2024-08-14 |
# Kraken: 効率的なマルチデバイス推論のための並列トランスフォーマー
Kraken: Inherently Parallel Transformers For Efficient Multi-Device Inference ( http://arxiv.org/abs/2408.07802v1 ) ライセンス: Link先を確認 | Rohan Baskar Prabhakar, Hengrui Zhang, David Wentlzaff, | (参考訳) 大規模なTransformerネットワークは、低推論レイテンシがエンドユーザエクスペリエンスを改善し、新しいアプリケーションを可能にするような設定で、ますます利用されている。
しかし、自己回帰推論は資源集約的であり、効率のために並列性を必要とする。
並列通信は高価であり、ハードウェアリソースが未使用のフェーズを表す。
これを軽減するため、クラケンはマルチデバイスシステムにおける効率的な推論のために既存のテンソル並列化スキームを補完するために設計された標準トランスフォーマーアーキテクチャの進化である。
一定の層内モデル並列性を導入することで、計算処理と重なり合うようにし、レイテンシを低減し、ハードウェア利用を増大させることができる。
OpenWebTextでトレーニングすると、Krakenモデルは標準のTransformerと同じような難易度に達し、SuperGLUEベンチマークで評価すると言語モデリング能力も維持される。
重要なのは、TensorRT-LLMエンジンを使用したマルチGPUシステムでのテストにおいて、Krakenはモデルサイズ、コンテキスト長、テンソル並列性の度合いを平均35.6%高速化する。
Large Transformer networks are increasingly used in settings where low inference latency can improve the end-user experience and enable new applications. However, autoregressive inference is resource intensive and requires parallelism for efficiency. Parallelism introduces collective communication that is both expensive and represents a phase when hardware resources are underutilized. Towards mitigating this, Kraken is an evolution of the standard Transformer architecture that is designed to complement existing tensor parallelism schemes for efficient inference on multi-device systems. By introducing a fixed degree of intra-layer model parallelism, the architecture allows collective operations to be overlapped with compute, decreasing latency and increasing hardware utilization. When trained on OpenWebText, Kraken models reach a similar perplexity as standard Transformers while also preserving their language modeling capabilities when evaluated on the SuperGLUE benchmark. Importantly, when tested on multi-GPU systems using TensorRT-LLM engines, Kraken speeds up Time To First Token by a mean of 35.6% across a range of model sizes, context lengths, and degrees of tensor parallelism. | 翻訳日:2024-08-16 15:38:42 公開日:2024-08-14 |
# フィードフォワード量子特異値変換
Feedforward Quantum Singular Value Transformation ( http://arxiv.org/abs/2408.07803v1 ) ライセンス: Link先を確認 | Yulong Dong, Dong An, Murphy Yuezhen Niu, | (参考訳) 本稿では,量子アルゴリズム設計の効率性と堅牢性を大幅に向上させるフレームワークであるFeedforward QSVT(FQSVT)の開発を通じて,量子特異値変換(QSVT)の大幅な進歩を紹介する。
中間測定とフィードフォワード演算を活用することで、FQSVTは従来のQSVTで捨てられた量子情報を再利用し、より効率的な変換を可能にする。
その結果、FQSVTは量子状態のエネルギー部分空間へのプロジェクションを指数関数的に加速し、確率的プロジェクションとアディバティックアルゴリズムより優れた効率とクエリ複雑性の劇的な低減を達成できることを示した。
超伝導量子ビットの文脈では、FQSVTはエネルギーサブスペースを管理し、状態準備とリーク検出の効率を向上させる強力なツールを提供する。
In this paper, we introduce a major advancement in Quantum Singular Value Transformation (QSVT) through the development of Feedforward QSVT (FQSVT), a framework that significantly enhances the efficiency and robustness of quantum algorithm design. By leveraging intermediate measurements and feedforward operations, FQSVTs reclaim quantum information typically discarded in conventional QSVT, enabling more efficient transformations. Our results show that FQSVTs can exponentially accelerate the projection of quantum states onto energy subspaces, outperforming probabilistic projection and adiabatic algorithms with superior efficiency and a drastic reduction in query complexity. In the context of superconducting qubits, FQSVTs offer a powerful tool for managing energy subspaces, improving efficiency for state preparation and leakage detection. | 翻訳日:2024-08-16 15:38:42 公開日:2024-08-14 |
# 非古典ベイズ最適化のための微分法
Differentiating Policies for Non-Myopic Bayesian Optimization ( http://arxiv.org/abs/2408.07812v1 ) ライセンス: Link先を確認 | Darian Nwankwo, David Bindel, | (参考訳) ベイズ最適化 (BO) 法は, 目的物の統計モデルから得られる獲得関数を最適化することにより, サンプル点を選択する。
これらの取得関数は、目的が不確実な探索領域に対して、サンプリング領域と予測された良好な目標値とのバランスをとるために選択される。
標準的な獲得関数は、次のサンプルの影響のみを考慮すると、ミオピックであるが、非ミオピック獲得関数の方が効果的かもしれない。
原則として、マルコフ決定プロセスによってサンプリングをモデル化し、動的プログラミングによって計算される期待報酬を最大化することで、次のサンプルを最適に選択することができるが、これは不可能なほど高価である。
ロールアウトのようなより実践的なアプローチは、サンプリングポリシーのパラメトリックなファミリーを考える。
本稿では,ロールアウト獲得関数とその勾配を効率的に推定する方法を示し,サンプリングポリシーの確率的勾配に基づく最適化を実現する。
Bayesian optimization (BO) methods choose sample points by optimizing an acquisition function derived from a statistical model of the objective. These acquisition functions are chosen to balance sampling regions with predicted good objective values against exploring regions where the objective is uncertain. Standard acquisition functions are myopic, considering only the impact of the next sample, but non-myopic acquisition functions may be more effective. In principle, one could model the sampling by a Markov decision process, and optimally choose the next sample by maximizing an expected reward computed by dynamic programming; however, this is infeasibly expensive. More practical approaches, such as rollout, consider a parametric family of sampling policies. In this paper, we show how to efficiently estimate rollout acquisition functions and their gradients, enabling stochastic gradient-based optimization of sampling policies. | 翻訳日:2024-08-16 15:38:42 公開日:2024-08-14 |
# 畳み込みニューラルネットワークにおけるより高速な予測のための代数的表現
Algebraic Representations for Faster Predictions in Convolutional Neural Networks ( http://arxiv.org/abs/2408.07815v1 ) ライセンス: Link先を確認 | Johnny Joyce, Jan Verschelde, | (参考訳) 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンにおけるタスクのモデルとして一般的な選択肢である。
CNNが多くのレイヤで作成され、ディープニューラルネットワークとなると、モデル表現性を保ちながら、より簡単な勾配最適化問題を生成するために、スキップ接続を追加することができる。
本稿では,スキップ接続を持つ任意の複雑で訓練された線形CNNを単層モデルに単純化し,予測時間における計算要求を大幅に削減できることを示す。
また,予測時間中に計算オーバーヘッドを伴わずにスキップ接続を徐々に除去する非線形モデルをトレーニングする手法を提案する。
これらの結果はResidual Networks (ResNet) アーキテクチャの実践例で実証されている。
Convolutional neural networks (CNNs) are a popular choice of model for tasks in computer vision. When CNNs are made with many layers, resulting in a deep neural network, skip connections may be added to create an easier gradient optimization problem while retaining model expressiveness. In this paper, we show that arbitrarily complex, trained, linear CNNs with skip connections can be simplified into a single-layer model, resulting in greatly reduced computational requirements during prediction time. We also present a method for training nonlinear models with skip connections that are gradually removed throughout training, giving the benefits of skip connections without requiring computational overhead during during prediction time. These results are demonstrated with practical examples on Residual Networks (ResNet) architecture. | 翻訳日:2024-08-16 15:38:42 公開日:2024-08-14 |
# 業界が実行中に異常に対処する - アプローチとキーモニタリングパラメータ
How Industry Tackles Anomalies during Runtime: Approaches and Key Monitoring Parameters ( http://arxiv.org/abs/2408.07816v1 ) ライセンス: Link先を確認 | Monika Steidl, Benedikt Dornauer, Michael Felderer, Rudolf Ramler, Mircea-Cristian Racasan, Marko Gattringer, | (参考訳) 実行時に期待される振る舞いからの逸脱(異常と呼ばれる)は、特にマイクロサービスにおいて、システムの複雑さのためにより一般的になっています。
結果として、ログやマイクロサービスのトレース、メトリクスといったランタイム監視データの解析は、収集された大量のデータのために難しい。
効果的なルールやAIアルゴリズムを開発するには、予期せぬ異常を確実に検出するために、このデータを深く理解する必要がある。
本稿では,様々な産業分野における異常や現在の異常検出手法を理解することを目的とする。
さらに、実行時の監視データを通じて異常を識別するために必要なパラメータをピンポイントすることを目的としている。
そこで,実行中の異常検出に依存する15の業界参加者を対象に,半構造化インタビューを行った。
さらに,本研究では,産業用実生活データセットに適用した異常検出手法に着目した文献レビューを行った。
本稿は,実行中のソフトウェア異常の解釈や例の多様性を実証し,また,自己開発型AIアプローチよりも業界におけるルールベースのアプローチを選択する理由を考察する。
AIベースのアプローチは、過去3年間で業界関連の論文で顕著になっている。
さらに,実行中に収集した重要な監視パラメータ(ログ,トレース,メトリクス)を特定し,不確定なパラメータによる異常検出アプローチのバイアスを発生させることなく,実行中の異常検出を支援する。
Deviations from expected behavior during runtime, known as anomalies, have become more common due to the systems' complexity, especially for microservices. Consequently, analyzing runtime monitoring data, such as logs, traces for microservices, and metrics, is challenging due to the large volume of data collected. Developing effective rules or AI algorithms requires a deep understanding of this data to reliably detect unforeseen anomalies. This paper seeks to comprehend anomalies and current anomaly detection approaches across diverse industrial sectors. Additionally, it aims to pinpoint the parameters necessary for identifying anomalies via runtime monitoring data. Therefore, we conducted semi-structured interviews with fifteen industry participants who rely on anomaly detection during runtime. Additionally, to supplement information from the interviews, we performed a literature review focusing on anomaly detection approaches applied to industrial real-life datasets. Our paper (1) demonstrates the diversity of interpretations and examples of software anomalies during runtime and (2) explores the reasons behind choosing rule-based approaches in the industry over self-developed AI approaches. AI-based approaches have become prominent in published industry-related papers in the last three years. Furthermore, we (3) identified key monitoring parameters collected during runtime (logs, traces, and metrics) that assist practitioners in detecting anomalies during runtime without introducing bias in their anomaly detection approach due to inconclusive parameters. | 翻訳日:2024-08-16 15:38:42 公開日:2024-08-14 |
# CarbonClipper: 時空間負荷管理のための最適アルゴリズム
CarbonClipper: Optimal Algorithms for Carbon-Aware Spatiotemporal Workload Management ( http://arxiv.org/abs/2408.07831v1 ) ライセンス: Link先を確認 | Adam Lechowicz, Nicolas Christianson, Bo Sun, Noman Bashir, Mohammad Hajiesmaili, Adam Wierman, Prashant Shenoy, | (参考訳) 我々は,データセンターの環境への影響の増大に対処すべく,炭素を意識した時空間負荷管理について検討する。
私たちはこれを、期限制約付き時空間オンラインアロケーション($\mathsf{SOAD}$)と呼ばれるオンライン問題として形式化します。
各タイムステップで、例えば、各場所でワークロードをサービスする炭素強度を表すサービスコスト関数が明らかにされ、プレーヤは、現在の割り当てを不当に決定しなければならない。
さらに、プレイヤーがアロケーションを動かすと、計算ジョブを移動させるオーバーヘッドをキャプチャするメトリックスペース$(X,d)$によって定義された移動コストが発生する。
$\mathsf{SOAD}$は、オンラインアルゴリズムの文献における一般的なメトリクスと期限制約を組み合わせたオープンな問題を公式化し、メトリックタスクシステムやオンライン検索のような問題を統一する。
我々は、$\mathsf{SOAD}$に対する競合アルゴリズムと、それが最適であることを証明した一致した下界を提案する。
主なアルゴリズムである${\rm C{\scriptsize ARBON}C{\scriptsize LIPPER}}$は、予測(例えば炭素強度の予測)を活用し、最適整合性のトレードオフを実現する学習拡張アルゴリズムである。
シミュレーションされたグローバルデータセンターネットワーク上での炭素を意識した時空間負荷管理のためのアルゴリズムを評価したところ、${\rm C{\scriptsize ARBON}C{\scriptsize LIPPER}}$はベースライン法と比較して性能を著しく向上し、有意義な炭素削減を実現していることがわかった。
We study carbon-aware spatiotemporal workload management, which seeks to address the growing environmental impact of data centers. We formalize this as an online problem called spatiotemporal online allocation with deadline constraints ($\mathsf{SOAD}$), in which an online player completes a workload (e.g., a batch compute job) by moving and scheduling the workload across a network subject to a deadline $T$. At each time step, a service cost function is revealed, representing, e.g., the carbon intensity of servicing a workload at each location, and the player must irrevocably decide the current allocation. Furthermore, whenever the player moves the allocation, it incurs a movement cost defined by a metric space $(X,d)$ that captures, e.g., the overhead of migrating a compute job. $\mathsf{SOAD}$ formalizes the open problem of combining general metrics and deadline constraints in the online algorithms literature, unifying problems such as metrical task systems and online search. We propose a competitive algorithm for $\mathsf{SOAD}$ along with a matching lower bound that proves it is optimal. Our main algorithm, ${\rm C{\scriptsize ARBON}C{\scriptsize LIPPER}}$, is a learning-augmented algorithm that takes advantage of predictions (e.g., carbon intensity forecasts) and achieves an optimal consistency-robustness trade-off. We evaluate our proposed algorithms for carbon-aware spatiotemporal workload management on a simulated global data center network, showing that ${\rm C{\scriptsize ARBON}C{\scriptsize LIPPER}}$ significantly improves performance compared to baseline methods and delivers meaningful carbon reductions. | 翻訳日:2024-08-16 15:28:57 公開日:2024-08-14 |
# OnSEP: 大規模言語モデルに基づくイベント予測のための新しいオンラインニューラルシンボリックフレームワーク
ONSEP: A Novel Online Neural-Symbolic Framework for Event Prediction Based on Large Language Model ( http://arxiv.org/abs/2408.07840v1 ) ライセンス: Link先を確認 | Xuanqing Yu, Wangtao Sun, Jingwei Li, Kang Liu, Chengbao Liu, Jie Tan, | (参考訳) 事象予測の領域では、時間知識グラフ予測(TKGF)が重要な手法である。
以前のアプローチでは、テスト中に経験を使わず、単一の短期履歴に依存し、進化するデータへの適応を制限するという課題に直面していた。
本稿では、動的因果ルールマイニング(DCRM)と二重履歴拡張生成(DHAG)を統合して革新する、オンラインニューラル・シンボリックイベント予測(ONSEP)フレームワークを紹介する。
DCRMはリアルタイムデータから因果ルールを動的に構築し、新たな因果関係への迅速な適応を可能にする。
並行して、DHAGは短期的および長期的歴史的文脈を統合し、イベント予測を豊かにするバイブランチアプローチを活用する。
我々のフレームワークは、さまざまなデータセット間で顕著なパフォーマンス向上を示し、Hit@k(k=1,3,10)が大幅に改善され、大規模な言語モデル(LLM)を大規模なリトレーニングを必要とせずに、イベント予測に拡張できることが示されています。
ONSEPフレームワークは、TKGFの分野を前進させるだけでなく、動的データ環境への適応におけるニューラルシンボリックアプローチの可能性も強調している。
In the realm of event prediction, temporal knowledge graph forecasting (TKGF) stands as a pivotal technique. Previous approaches face the challenges of not utilizing experience during testing and relying on a single short-term history, which limits adaptation to evolving data. In this paper, we introduce the Online Neural-Symbolic Event Prediction (ONSEP) framework, which innovates by integrating dynamic causal rule mining (DCRM) and dual history augmented generation (DHAG). DCRM dynamically constructs causal rules from real-time data, allowing for swift adaptation to new causal relationships. In parallel, DHAG merges short-term and long-term historical contexts, leveraging a bi-branch approach to enrich event prediction. Our framework demonstrates notable performance enhancements across diverse datasets, with significant Hit@k (k=1,3,10) improvements, showcasing its ability to augment large language models (LLMs) for event prediction without necessitating extensive retraining. The ONSEP framework not only advances the field of TKGF but also underscores the potential of neural-symbolic approaches in adapting to dynamic data environments. | 翻訳日:2024-08-16 15:28:57 公開日:2024-08-14 |
# SustainDC -- 持続可能なデータセンター管理のためのベンチマーク
SustainDC -- Benchmarking for Sustainable Data Center Control ( http://arxiv.org/abs/2408.07841v1 ) ライセンス: Link先を確認 | Avisek Naug, Antonio Guillen, Ricardo Luna, Vineet Gundecha, Desik Rengarajan, Sahand Ghorbanpour, Sajad Mousavi, Ashwin Ramesh Babu, Dejan Markovikj, Lekhapriya D Kashyap, Soumyendu Sarkar, | (参考訳) 機械学習は計算需要を劇的に増加させ、大量のエネルギーを消費し、気候変動に寄与する巨大なデータセンターにつながった。
これにより、持続可能なデータセンタコントロールが優先される。
本稿では、データセンター(DC)のためのマルチエージェント強化学習(MARL)アルゴリズムをベンチマークするためのPython環境であるSustainDCを紹介する。
SustainDCは、ワークロードスケジューリング、冷却最適化、補助バッテリー管理などのカスタムDC設定とタスクをサポートし、複数のエージェントが互いに影響を考慮しながらこれらの操作を管理している。
SustainDC上での各種MARLアルゴリズムの評価を行い, 各種DC設計, 位置, 気象条件, グリッドカーボン強度, 負荷負荷条件などを検討した。
この結果から,MARLアルゴリズムによるデータセンター運用の改善の可能性が示唆された。
AIによるDCの利用の増加を踏まえ、SustainDCは、持続可能なコンピューティングの実現と、他の異種現実の課題への対処に不可欠な高度なアルゴリズムの開発とベンチマークのための重要なプラットフォームを提供する。
Machine learning has driven an exponential increase in computational demand, leading to massive data centers that consume significant amounts of energy and contribute to climate change. This makes sustainable data center control a priority. In this paper, we introduce SustainDC, a set of Python environments for benchmarking multi-agent reinforcement learning (MARL) algorithms for data centers (DC). SustainDC supports custom DC configurations and tasks such as workload scheduling, cooling optimization, and auxiliary battery management, with multiple agents managing these operations while accounting for the effects of each other. We evaluate various MARL algorithms on SustainDC, showing their performance across diverse DC designs, locations, weather conditions, grid carbon intensity, and workload requirements. Our results highlight significant opportunities for improvement of data center operations using MARL algorithms. Given the increasing use of DC due to AI, SustainDC provides a crucial platform for the development and benchmarking of advanced algorithms essential for achieving sustainable computing and addressing other heterogeneous real-world challenges. | 翻訳日:2024-08-16 15:28:57 公開日:2024-08-14 |
# フェデレーションラーニングによる在宅・在宅ケアシステムにおけるAIへの適切なアクセス促進
Enhancing Equitable Access to AI in Housing and Homelessness System of Care through Federated Learning ( http://arxiv.org/abs/2408.07845v1 ) ライセンス: Link先を確認 | Musa Taib, Jiajun Wu, Steve Drew, Geoffrey G. Messier, | (参考訳) ホーム・アンド・ホームレス・システム・オブ・ケア(HHSC)の最優先事項は、ホームレスを経験する人々を支援住宅に結びつけることである。
HHSCは通常、同じ人口に奉仕する多くの機関で構成されている。
情報技術プラットフォームは機関ごとにタイプや品質が異なるため、データは通常、ある機関から別の機関に分離される。
大規模な機関は人工知能(AI)ツールを訓練し、テストするのに十分なデータを持っているかもしれないが、小さな機関は通常そうではない。
このギャップに対処するために、すべての機関が機密データを共有せずに予測モデルを協調的にトレーニングできるフェデレートラーニング(FL)アプローチを導入する。
我々は、HHSC内でFLがどのように使用できるかを示し、高品質なAIへのアクセスを公平に提供し、HHSC内のリソースの割り当てにおいて、人間の意思決定者を支援する。
これは、同意なしに機関間で識別情報を共有しないことによって、データ内の人々のプライバシを保ちながら達成される。
アルバータ州カルガリーの実世界のHHSCデータを用いた実験の結果、我々のFLアプローチは、データを完全に共有し、エージェンシー間でリンクした予測モデルをトレーニングする理想的なシナリオと同等のパフォーマンスを提供することを示した。
The top priority of a Housing and Homelessness System of Care (HHSC) is to connect people experiencing homelessness to supportive housing. An HHSC typically consists of many agencies serving the same population. Information technology platforms differ in type and quality between agencies, so their data are usually isolated from one agency to another. Larger agencies may have sufficient data to train and test artificial intelligence (AI) tools but smaller agencies typically do not. To address this gap, we introduce a Federated Learning (FL) approach enabling all agencies to train a predictive model collaboratively without sharing their sensitive data. We demonstrate how FL can be used within an HHSC to provide all agencies equitable access to quality AI and further assist human decision-makers in the allocation of resources within HHSC. This is achieved while preserving the privacy of the people within the data by not sharing identifying information between agencies without their consent. Our experimental results using real-world HHSC data from Calgary, Alberta, demonstrate that our FL approach offers comparable performance with the idealized scenario of training the predictive model with data fully shared and linked between agencies. | 翻訳日:2024-08-16 15:28:57 公開日:2024-08-14 |
# 大規模言語モデルを用いた自動単体テスト生成システムと生成テストスイートの評価
A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites ( http://arxiv.org/abs/2408.07846v1 ) ライセンス: Link先を確認 | Andrea Lops, Fedelucio Narducci, Azzurra Ragone, Michelantonio Trizio, Claudio Bartolini, | (参考訳) 単体テストは、ソフトウェアテストライフサイクルの中でもっとも基本的なレベルのテストであり、ソフトウェアの正しさを保証するのに不可欠です。
単体テストの設計と作成は、自動化のためのコストと労力のかかるプロセスです。
近年,大規模言語モデル (LLM) は単体テスト生成を含むソフトウェア開発の様々な側面に適用されている。
テストコード生成におけるLLMの機能を評価する実験的な研究はいくつか存在するが、個々のメソッドの単体テストを直接生成するなど、単純なシナリオに重点を置いている。
これらの評価はしばしば独立して小規模なテストユニットを伴い、現実のソフトウェア開発シナリオにおけるLLMのパフォーマンスの限られたビューを提供する。
さらに、従来の研究では、現実の応用に適切なスケールでこの問題にアプローチしていない。
生成したユニットテストは、しばしばオリジナルのプロジェクトへの手動統合を通じて評価される。
これらのギャップに対処するため,我々はより現実的な複雑性テストスイートの生成と評価を行うアプローチを開発した。
本稿では,クラスレベルのテストコード生成に注目し,テスト生成からテストアセスメントまでのプロセス全体を自動化する。
本稿では、Javaプロジェクトのテストスイートを生成する自動化システムであるtextsc{AgoneTest}と、生成されたテストスイートを評価するための総合的で原則化された方法論を提示する。
最先端のデータセット(つまり \textsc{Methods2Test})から始まり、人間の記述したテストとLLMの生成したテストを比較するための新しいデータセットを構築しました。
私たちの重要なコントリビューションには、スケーラブルな自動化ソフトウェアシステム、新しいデータセット、テスト品質を評価するための詳細な方法論が含まれています。
Unit tests represent the most basic level of testing within the software testing lifecycle and are crucial to ensuring software correctness. Designing and creating unit tests is a costly and labor-intensive process that is ripe for automation. Recently, Large Language Models (LLMs) have been applied to various aspects of software development, including unit test generation. Although several empirical studies evaluating LLMs' capabilities in test code generation exist, they primarily focus on simple scenarios, such as the straightforward generation of unit tests for individual methods. These evaluations often involve independent and small-scale test units, providing a limited view of LLMs' performance in real-world software development scenarios. Moreover, previous studies do not approach the problem at a suitable scale for real-life applications. Generated unit tests are often evaluated via manual integration into the original projects, a process that limits the number of tests executed and reduces overall efficiency. To address these gaps, we have developed an approach for generating and evaluating more real-life complexity test suites. Our approach focuses on class-level test code generation and automates the entire process from test generation to test assessment. In this work, we present \textsc{AgoneTest}: an automated system for generating test suites for Java projects and a comprehensive and principled methodology for evaluating the generated test suites. Starting from a state-of-the-art dataset (i.e., \textsc{Methods2Test}), we built a new dataset for comparing human-written tests with those generated by LLMs. Our key contributions include a scalable automated software system, a new dataset, and a detailed methodology for evaluating test quality. | 翻訳日:2024-08-16 15:28:57 公開日:2024-08-14 |
# 不確実性を考慮した潜在進化反転を用いた時空間ビームダイナミクスの時間反転
Time-inversion of spatiotemporal beam dynamics using uncertainty-aware latent evolution reversal ( http://arxiv.org/abs/2408.07847v1 ) ライセンス: Link先を確認 | Mahindra Rautela, Alan Williams, Alexander Scheinker, | (参考訳) 電磁場の影響下での荷電粒子動力学は時空間問題である。
荷電粒子ビームの挙動を予測するための高性能な物理ベースシミュレータの多くは計算コストが高く、オンラインでの逆問題の解法に限界がある。
加速器内の荷電粒子の下流測定により上流6次元位相空間を推定する問題は、増大する重要性の逆問題である。
本稿では、フォワードビームダイナミクスの時間反転を目的としたリバースラテント進化モデル(rLEM)を提案する。
この2段階の自己教師型ディープラーニングフレームワークでは,荷電粒子ビームの6次元位相空間投影を低次元潜在分布に投影するために,条件変分オートエンコーダ(CVAE)を用いる。
その後、Long Short-Term Memory (LSTM) ネットワークを用いて、潜時空間の逆時間力学を自己回帰的に学習する。
結合されたCVAE-LSTMフレームワークは、入力として単一または複数の下流位相空間の測定に基づいて、上流加速区間の6次元位相空間の投影を予測できる。
提案モデルはまた,潜在空間内の高次元入力データのアレータティック不確かさをキャプチャする。
この不確実性は、与えられたモジュールにおける潜在的不確実性の測定を反映し、LSTMを通して全ての上流予測に対する不確実性境界を推定し、入力データの非分布変動に対するLSTMの堅牢性を示す。
Charged particle dynamics under the influence of electromagnetic fields is a challenging spatiotemporal problem. Many high performance physics-based simulators for predicting behavior in a charged particle beam are computationally expensive, limiting their utility for solving inverse problems online. The problem of estimating upstream six-dimensional phase space given downstream measurements of charged particles in an accelerator is an inverse problem of growing importance. This paper introduces a reverse Latent Evolution Model (rLEM) designed for temporal inversion of forward beam dynamics. In this two-step self-supervised deep learning framework, we utilize a Conditional Variational Autoencoder (CVAE) to project 6D phase space projections of a charged particle beam into a lower-dimensional latent distribution. Subsequently, we autoregressively learn the inverse temporal dynamics in the latent space using a Long Short-Term Memory (LSTM) network. The coupled CVAE-LSTM framework can predict 6D phase space projections across all upstream accelerating sections based on single or multiple downstream phase space measurements as inputs. The proposed model also captures the aleatoric uncertainty of the high-dimensional input data within the latent space. This uncertainty, which reflects potential uncertain measurements at a given module, is propagated through the LSTM to estimate uncertainty bounds for all upstream predictions, demonstrating the robustness of the LSTM against in-distribution variations in the input data. | 翻訳日:2024-08-16 15:28:57 公開日:2024-08-14 |
# SER方程式:音声感情認識のためのドメイン内およびドメイン外ベンチマーク
SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition ( http://arxiv.org/abs/2408.07851v1 ) ライセンス: Link先を確認 | Mohamed Osman, Daniel Z. Kaplan, Tamer Nadeem, | (参考訳) 音声感情認識(SER)は、強力な自己教師付き学習(SSL)モデルの出現に大きく貢献している。
しかし、これらのモデルを多様な言語や感情表現に一般化することは依然として課題である。
ドメイン内およびドメイン外設定の両方において、最先端SERモデルの堅牢性と適応性を評価するための大規模ベンチマークを提案する。
我々のベンチマークには多言語データセットの多種多様なセットが含まれており、新しいデータへの一般化を評価するためにあまり使われていないコーパスに焦点を当てている。
クラス分布の変動を考慮したロジット調整と,システム評価のための単一データセットクラスタの構築を行う。
驚いたことに、Whisperモデルは、主に自動音声認識用に設計されており、言語横断SERにおける専用SSLモデルよりも優れています。
我々の結果は、より堅牢で一般化可能なSERモデルの必要性を浮き彫りにし、我々のベンチマークは将来の研究をこの方向に進めるための貴重なリソースとして役立ちます。
Speech emotion recognition (SER) has made significant strides with the advent of powerful self-supervised learning (SSL) models. However, the generalization of these models to diverse languages and emotional expressions remains a challenge. We propose a large-scale benchmark to evaluate the robustness and adaptability of state-of-the-art SER models in both in-domain and out-of-domain settings. Our benchmark includes a diverse set of multilingual datasets, focusing on less commonly used corpora to assess generalization to new data. We employ logit adjustment to account for varying class distributions and establish a single dataset cluster for systematic evaluation. Surprisingly, we find that the Whisper model, primarily designed for automatic speech recognition, outperforms dedicated SSL models in cross-lingual SER. Our results highlight the need for more robust and generalizable SER models, and our benchmark serves as a valuable resource to drive future research in this direction. | 翻訳日:2024-08-16 15:28:57 公開日:2024-08-14 |
# 知識グラフに基づく言語モデルの学習:幻覚とその検出可能性に関する考察
Training Language Models on the Knowledge Graph: Insights on Hallucinations and Their Detectability ( http://arxiv.org/abs/2408.07852v1 ) ライセンス: Link先を確認 | Jiri Hron, Laura Culp, Gamaleldin Elsayed, Rosanne Liu, Ben Adlam, Maxwell Bileschi, Bernd Bohnet, JD Co-Reyes, Noah Fiedel, C. Daniel Freeman, Izzeddin Gur, Kathleen Kenealy, Jaehoon Lee, Peter J. Liu, Gaurav Mishra, Igor Mordatch, Azade Nova, Roman Novak, Aaron Parisi, Jeffrey Pennington, Alex Rizkowsky, Isabelle Simpson, Hanie Sedghi, Jascha Sohl-dickstein, Kevin Swersky, Sharad Vikram, Tris Warkentin, Lechao Xiao, Kelvin Xu, Jasper Snoek, Simon Kornblith, | (参考訳) 言語モデル(LM)の多くの能力は、訓練予算の増大とともに向上するが、幻覚に対するスケールの影響は、まだ完全には理解されていない。
幻覚は様々な形で現れ、普遍的に受け入れられる定義は存在しない。
したがって、トレーニングセットにおいて正しい回答が冗長に現れるような幻覚のみを研究することに集中する。
トレーニングデータの内容を完全に制御するために、知識グラフ(KG)ベースのデータセットを構築し、それを用いて、ますます大きなLMのセットをトレーニングする。
固定されたデータセットの場合、より大きく長く訓練されたLMは幻覚を少なくする。
しかし、トレーニングデータの$\leq5$%の幻覚は、Hoffmann et al (2022)が報告したよりも桁違いに大きいモデルを必要とする。
このコストを考えると、幻覚検知器がスケールにどのように依存するかを研究する。
固定されたLMの出力の検出器サイズが向上するのに対して、LMのスケールと幻覚の検出可能性との間には逆の関係がある。
While many capabilities of language models (LMs) improve with increased training budget, the influence of scale on hallucinations is not yet fully understood. Hallucinations come in many forms, and there is no universally accepted definition. We thus focus on studying only those hallucinations where a correct answer appears verbatim in the training set. To fully control the training data content, we construct a knowledge graph (KG)-based dataset, and use it to train a set of increasingly large LMs. We find that for a fixed dataset, larger and longer-trained LMs hallucinate less. However, hallucinating on $\leq5$% of the training data requires an order of magnitude larger model, and thus an order of magnitude more compute, than Hoffmann et al. (2022) reported was optimal. Given this costliness, we study how hallucination detectors depend on scale. While we see detector size improves performance on fixed LM's outputs, we find an inverse relationship between the scale of the LM and the detectability of its hallucinations. | 翻訳日:2024-08-16 15:28:57 公開日:2024-08-14 |
# CON-FOLD -- 信頼性を備えた説明可能な機械学習
CON-FOLD -- Explainable Machine Learning with Confidence ( http://arxiv.org/abs/2408.07854v1 ) ライセンス: Link先を確認 | Lachlan McGinness, Peter Baumgartner, | (参考訳) FOLD-RMは、トレーニングデータを使用して分類ルールのセットを作成する、説明可能な機械学習分類アルゴリズムである。
本稿では, FOLD-RMを拡張したCON-FOLDについて述べる。
CON-FOLDは、確率ベースの信頼スコアを分類タスクで学んだルールに割り当てる。
これにより、モデルによって予測される自信の度合いを知ることができる。
本稿では、FOLD-RMルールのユニークな構造を用いて、ルールを効率よくプーンし、過度な適合を防ぐ信頼性ベースのプルーニングアルゴリズムを提案する。
さらに、CON-FOLDは、背景知識(固定)または初期ルール候補(変更)であるロジックプログラムルールの形式で、既存の知識を提供することができる。
本稿では,本手法を詳述し,実用実験について報告する。
UCI Machine Learning Repositoryのベンチマークデータセットにおけるアルゴリズムの性能を示す。
そこで我々は,新たに作成した信頼性スコアの精度を評価するために,逆ブライアスコア(Inverse Brier Score)を導入した。
最後に、この拡張を説明可能性を必要とする実世界の例に適用する。
FOLD-RM is an explainable machine learning classification algorithm that uses training data to create a set of classification rules. In this paper we introduce CON-FOLD which extends FOLD-RM in several ways. CON-FOLD assigns probability-based confidence scores to rules learned for a classification task. This allows users to know how confident they should be in a prediction made by the model. We present a confidence-based pruning algorithm that uses the unique structure of FOLD-RM rules to efficiently prune rules and prevent overfitting. Furthermore, CON-FOLD enables the user to provide pre-existing knowledge in the form of logic program rules that are either (fixed) background knowledge or (modifiable) initial rule candidates. The paper describes our method in detail and reports on practical experiments. We demonstrate the performance of the algorithm on benchmark datasets from the UCI Machine Learning Repository. For that, we introduce a new metric, Inverse Brier Score, to evaluate the accuracy of the produced confidence scores. Finally we apply this extension to a real world example that requires explainability: marking of student responses to a short answer question from the Australian Physics Olympiad. | 翻訳日:2024-08-16 15:28:57 公開日:2024-08-14 |
# クエリプラン表現の探索的研究
An Exploratory Case Study of Query Plan Representations ( http://arxiv.org/abs/2408.07857v1 ) ライセンス: Link先を確認 | Jinsheng Ba, Manuel Rigger, | (参考訳) データベースシステムでは、クエリプランはクエリを実行するための一連の具体的な内部ステップである。
複数のテストアプローチでは、クエリプランを使用してバグを見つける。
しかし、クエリプランはデータベース固有の方法で表現されるため、これらのテストアプローチを実装するには、その採用を妨げるような労力が要る。
統合されたクエリプラン表現により,これらの手法の実装が容易になることが期待できる。
本稿では,9つの広く利用されているデータベースシステムにおけるクエリ計画表現の探索的ケーススタディを提案する。
本研究では,クエリ計画表現を3つの概念的要素 – 操作,プロパティ,フォーマット – から構成し,統一的なクエリ計画表現を設計できることを示す。
これに基づいて、既存のテストメソッドを効率的に採用し、17の既知のバグを発見できる。
さらに、統合クエリプラン表現は、他のアプリケーションを容易にします。
既存のビジュアライゼーションツールは、適度な実装による統合クエリ計画表現に基づく複数のデータベースシステムをサポートし、データベースシステム間での統合クエリ計画を比較することで、パフォーマンスを改善するための実用的な洞察を提供する。
統合されたクエリプラン表現により、追加のアプリケーションシナリオの探索が可能になります。
In database systems, a query plan is a series of concrete internal steps to execute a query. Multiple testing approaches utilize query plans for finding bugs. However, query plans are represented in a database-specific manner, so implementing these testing approaches requires a non-trivial effort, hindering their adoption. We envision that a unified query plan representation can facilitate the implementation of these approaches. In this paper, we present an exploratory case study to investigate query plan representations in nine widely-used database systems. Our study shows that query plan representations consist of three conceptual components: operations, properties, and formats, which enable us to design a unified query plan representation. Based on it, existing testing methods can be efficiently adopted, finding 17 previously unknown and unique bugs. Additionally, the unified query plan representation can facilitate other applications. Existing visualization tools can support multiple database systems based on the unified query plan representation with moderate implementation effort, and comparing unified query plans across database systems provides actionable insights to improve their performance. We expect that the unified query plan representation will enable the exploration of additional application scenarios. | 翻訳日:2024-08-16 15:28:57 公開日:2024-08-14 |
# Virchow2: 病理学における自己監督型混合拡大モデルのスケーリング
Virchow2: Scaling Self-Supervised Mixed Magnification Models in Pathology ( http://arxiv.org/abs/2408.00738v2 ) ライセンス: Link先を確認 | Eric Zimmermann, Eugene Vorontsov, Julian Viret, Adam Casson, Michal Zelechowski, George Shaikovski, Neil Tenenholtz, James Hall, David Klimstra, Razik Yousfi, Thomas Fuchs, Nicolo Fusi, Siqi Liu, Kristen Severson, | (参考訳) 基礎モデルは、計算病理学の応用のために急速に開発されている。
しかし、データスケールと多様性、モデルサイズ、トレーニングアルゴリズムなど、ダウンストリームのパフォーマンスにおいて、どの要素がもっとも重要かは、まだ明らかな疑問である。
本研究では,病理学に適したアルゴリズム的修正を提案するとともに,データサイズとモデルサイズの両方をスケールした結果を,両次元の先行研究を超越した結果として提示する。
6億2200万のパラメータ・ビジョン・トランスフォーマーであるVirchow2Gと、19億のパラメータ・ビジョン・トランスフォーマーであるVirchow2Gの2つの新しいモデルを紹介します。
上位の競合モデルと比較して,12のタイルレベルのタスクで最先端のパフォーマンスを実現する。
以上の結果から,データ多様性とドメイン固有の手法は,パラメータ数のみをスケールするモデルよりも優れているが,平均的には,ドメイン固有の手法,データスケール,モデルスケールの組み合わせによるパフォーマンス上のメリットが期待できる。
Foundation models are rapidly being developed for computational pathology applications. However, it remains an open question which factors are most important for downstream performance with data scale and diversity, model size, and training algorithm all playing a role. In this work, we propose algorithmic modifications, tailored for pathology, and we present the result of scaling both data and model size, surpassing previous studies in both dimensions. We introduce two new models: Virchow2, a 632 million parameter vision transformer, and Virchow2G, a 1.9 billion parameter vision transformer, each trained with 3.1 million histopathology whole slide images, with diverse tissues, originating institutions, and stains. We achieve state of the art performance on 12 tile-level tasks, as compared to the top performing competing models. Our results suggest that data diversity and domain-specific methods can outperform models that only scale in the number of parameters, but, on average, performance benefits from the combination of domain-specific methods, data scale, and model scale. | 翻訳日:2024-08-16 12:51:16 公開日:2024-08-14 |
# 数のある表について, 数を持つ表について
On Tables with Numbers, with Numbers ( http://arxiv.org/abs/2408.06062v2 ) ライセンス: Link先を確認 | Konstantinos Kogkalidis, Stergios Chatzikyriakidis, | (参考訳) 本稿では,現代計算言語学のエピステミック・カルチャーに対する批判的考察である。
我々は,その疫学的無関係,環境への影響,社会的不平等の有効化と悪化における役割,商業的応用と利益主導型研究との深い結びつきを踏まえて,数表について論じる。
我々は,過去10年間の計算言語学研究のメタ分析から得られた経験的証拠を用いて,我々の議論を裏付ける。
This paper is a critical reflection on the epistemic culture of contemporary computational linguistics, framed in the context of its growing obsession with tables with numbers. We argue against tables with numbers on the basis of their epistemic irrelevance, their environmental impact, their role in enabling and exacerbating social inequalities, and their deep ties to commercial applications and profit-driven research. We substantiate our arguments with empirical evidence drawn from a meta-analysis of computational linguistics research over the last decade. | 翻訳日:2024-08-16 10:43:38 公開日:2024-08-14 |
# 歴史サンプルを用いた畳み込みニューラルネットワークによるクロス年作物マッピングの実現のための一般化戦略
Generalization Enhancement Strategies to Enable Cross-year Cropland Mapping with Convolutional Neural Networks Trained Using Historical Samples ( http://arxiv.org/abs/2408.06467v2 ) ライセンス: Link先を確認 | Sam Khallaghi, Rahebe Abedi, Hanan Abou Ali, Mary Dziedzorm Asipunu, Ismail Alatise, Nguyen Ha, Boka Luo, Cat Mai, Lei Song, Amos Wussah, Sitian Xiong, Qi Zhang, Lyndon D. Estes, | (参考訳) 田畑が小さく、幾何学的に不規則な地域であっても、高解像度の衛星画像と深層学習(DL)モデルにより、広い地域にわたって農地をマッピングする精度は着実に向上している。
しかし、効果的なDLモデルを開発するには、多くの場合、大きくて高価なラベルデータセットが必要である。
これは、農業の慣行や環境条件の変化により、年と地域の間でドメインシフトが発生するため、農業監視に不可欠な年次マップを作成する能力を制限する。
課題は、年間ラベルを必要とせずに、これらのシフトを考慮するのに十分なフレキシブルなモデルを設計することだ。
ドメイン適応技術や半教師付きトレーニングは一般的なソリューションであるが、モデルの一般化能力の強化について検討した。
本結果は,一般化の方法を組み合わせることによって,全体論的なアプローチが不可欠であることを示唆している。
具体的には、Tversky-focal loss (TFL)のような領域に基づく損失関数を用いて、数年にわたって予測を大幅に改善した。
異なる拡張技術を使用することは、異なるタイプの不変性を符号化する助けとなり、特に光度増大は、光度の変化に対して不変性を符号化するが、偽陽性を増大させた。
光度増大、TFL損失、MCドロップアウトの組み合わせは、最も良い結果をもたらしたが、ドロップアウトだけでは、その後の年次予測では、より偽陰性になった。
さらに、入力正規化の選択は、すべての帯域(ラブとガブ)にわたるデータセット全体または局所的に統計が計算されたときに得られる最良の結果に大きく影響した。
我々は、U-Netモデルを用いて、大規模で効率的な多年作物地図を作成できるワークフローを開発した。
私たちのコードは、https://github.com/agroimpacts/cnn- generalization-enhancementで利用可能で、改善とともに定期的に更新されます。
The accuracy of mapping agricultural fields across large areas is steadily improving with high-resolution satellite imagery and deep learning (DL) models, even in regions where fields are small and geometrically irregular. However, developing effective DL models often requires large, expensive label datasets, typically available only for specific years or locations. This limits the ability to create annual maps essential for agricultural monitoring, as domain shifts occur between years and regions due to changes in farming practices and environmental conditions. The challenge is to design a model flexible enough to account for these shifts without needing yearly labels. While domain adaptation techniques or semi-supervised training are common solutions, we explored enhancing the model's generalization power. Our results indicate that a holistic approach is essential, combining methods to improve generalization. Specifically, using an area-based loss function, such as Tversky-focal loss (TFL), significantly improved predictions across multiple years. The use of different augmentation techniques helped to encode different types of invariance, particularly photometric augmentations encoded invariance to brightness changes, though they increased false positives. The combination of photometric augmentation, TFL loss, and MC-dropout produced the best results, although dropout alone led to more false negatives in subsequent year predictions. Additionally, the choice of input normalization had a significant impact, with the best results obtained when statistics were calculated either locally or across the entire dataset over all bands (lab and gab). We developed a workflow that enabled a U-Net model to generate effective multi-year crop maps over large areas. Our code, available at: https://github.com/agroimpacts/cnn-generalization-enhancement, will be regularly updated with improvements. | 翻訳日:2024-08-16 10:43:38 公開日:2024-08-14 |
# NewsPaLM MBR と QE データセットの導入: 従来の Web クローリングデータより優れた LLM 生成高品質並列データ
Introducing the NewsPaLM MBR and QE Dataset: LLM-Generated High-Quality Parallel Data Outperforms Traditional Web-Crawled Data ( http://arxiv.org/abs/2408.06537v2 ) ライセンス: Link先を確認 | Mara Finkelstein, David Vilar, Markus Freitag, | (参考訳) ニューラルマシン翻訳(NMT)の最近の研究により、高品質なマシン生成データに対するトレーニングは、人為的なデータに対するトレーニングよりも優れていることが示されている。
この研究は、LLM生成、MBRデコード、QE参照のデータセットを初めてリリースし、文レベルと多文の両方の例を示す。
我々は、NMTモデルの性能に対する下流の影響の観点から、データセットの品質を実証するための広範な実験を行った。
我々の(機械生成)データセットのスクラッチからのトレーニングは、(Webcrawled)WMT'23トレーニングデータセット(300倍大きい)でのトレーニングよりも優れており、WMT'23トレーニングデータセットの最高品質サブセットでのトレーニングよりも優れています。
また、このデータセットを生成するLCMを微調整して自己蒸留を行うことで、LSMの強力な数ショットベースラインよりも優れた性能が得られることも見出した。
これらの結果はデータセットの品質を裏付け、NMTモデルの性能向上における高品質なマシン生成データの価値を実証する。
Recent research in neural machine translation (NMT) has shown that training on high-quality machine-generated data can outperform training on human-generated data. This work accompanies the first-ever release of a LLM-generated, MBR-decoded and QE-reranked dataset with both sentence-level and multi-sentence examples. We perform extensive experiments to demonstrate the quality of our dataset in terms of its downstream impact on NMT model performance. We find that training from scratch on our (machine-generated) dataset outperforms training on the (web-crawled) WMT'23 training dataset (which is 300 times larger), and also outperforms training on the top-quality subset of the WMT'23 training dataset. We also find that performing self-distillation by finetuning the LLM which generated this dataset outperforms the LLM's strong few-shot baseline. These findings corroborate the quality of our dataset, and demonstrate the value of high-quality machine-generated data in improving performance of NMT models. | 翻訳日:2024-08-16 10:43:38 公開日:2024-08-14 |
# 対称性と局所性によって課される実現可能なユニタリ演算の制限
Restrictions on realizable unitary operations imposed by symmetry and locality ( http://arxiv.org/abs/2003.05524v3 ) ライセンス: Link先を確認 | Iman Marvian, | (参考訳) 量子コンピューティングの基本的な結果によると、複合系上の任意のユニタリ変換は、2つのサブシステムにのみ作用するいわゆる2局所ユニタリを用いて生成することができる。
局所性は短期力学に様々な制約を課すが、一般の局所ハミルトニアンとの複合系が十分に長い時間で経験できるようなユニタリ進化を制限しない。
ここでは、この普遍性は、保存法や、U(1) や SU(2) のような大域的連続対称性の存在下では有効ではないことを示す。
特に, 局所対称ユニタリを用いて, 概して, 一般対称ユニタリを実装できないことを示す。
このノーゴー定理に基づき,自然界における相互作用の局所性を実験的に検証する手法を提案する。
量子熱力学の文脈では、複合系上の一般エネルギー保存ユニタリ変換は、局所エネルギー保存ユニタリを成分上に組み合わせることだけでは実現できない。
触媒反応によってどのように回避できるかを示す。
According to a fundamental result in quantum computing, any unitary transformation on a composite system can be generated using so-called 2-local unitaries that act only on two subsystems. Beyond its importance in quantum computing, this result can also be regarded as a statement about the dynamics of systems with local Hamiltonians: although locality puts various constraints on the short-term dynamics, it does not restrict the possible unitary evolutions that a composite system with a general local Hamiltonian can experience after a sufficiently long time. Here we show that this universality does not remain valid in the presence of conservation laws and global continuous symmetries such as U(1) and SU(2). In particular, we show that generic symmetric unitaries cannot be implemented, even approximately, using local symmetric unitaries. Based on this no-go theorem, we propose a method for experimentally probing the locality of interactions in nature. In the context of quantum thermodynamics, our results mean that generic energy-conserving unitary transformations on a composite system cannot be realized solely by combining local energy-conserving unitaries on the components. We show how this can be circumvented via catalysis. | 翻訳日:2024-08-15 19:02:51 公開日:2024-08-14 |
# 高次相互作用を考慮したオピニオンダイナミクス
Opinion Dynamics Incorporating Higher-Order Interactions ( http://arxiv.org/abs/2102.03569v3 ) ライセンス: Link先を確認 | Zuobai Zhang, Wanyue Xu, Zhongzhi Zhang, Guanrong Chen, | (参考訳) 意見共有と形成の問題は学術文献で注目されており、この問題を研究するためにいくつかのモデルが提案されている。
しかし、既存のモデルは近隣の2階、3階、3階、高階の隣人を無視しているため、実際のソーシャルネットワークでは高階の相互作用が頻繁に発生するにもかかわらず、近隣の隣人間の相互作用に限られている。
本稿では,高次ランダムウォークに基づく長距離インタラクションを取り入れた意見力学の新しいモデルを開発する。
モデルが高次相互作用を持たないモデルと大きく異なるような固定された意見ベクトルに収束することを証明する。
平衡論の直接計算は大規模行列乗算と逆算の演算を伴う計算コストがかかるので、グラフのエッジ数に関して、平衡論ベクトルをほぼ線形に近似する理論収束保証推定アルゴリズムを設計する。
我々は、様々なソーシャルネットワーク上で広範な実験を行い、新しいアルゴリズムが効率的かつ効果的であることを実証した。
The issue of opinion sharing and formation has received considerable attention in the academic literature, and a few models have been proposed to study this problem. However, existing models are limited to the interactions among nearest neighbors, ignoring those second, third, and higher-order neighbors, despite the fact that higher-order interactions occur frequently in real social networks. In this paper, we develop a new model for opinion dynamics by incorporating long-range interactions based on higher-order random walks. We prove that the model converges to a fixed opinion vector, which may differ greatly from those models without higher-order interactions. Since direct computation of the equilibrium opinion is computationally expensive, which involves the operations of huge-scale matrix multiplication and inversion, we design a theoretically convergence-guaranteed estimation algorithm that approximates the equilibrium opinion vector nearly linearly in both space and time with respect to the number of edges in the graph. We conduct extensive experiments on various social networks, demonstrating that the new algorithm is both highly efficient and effective. | 翻訳日:2024-08-15 19:02:51 公開日:2024-08-14 |
# オープンソースのユーザアクティビティトレースとユーザモビリティ評価・モデリングへの応用に関する研究
A Survey of Open Source User Activity Traces with Applications to User Mobility Characterization and Modeling ( http://arxiv.org/abs/2110.06382v3 ) ライセンス: Link先を確認 | Sinjoni Mukhopadhyay King, Faisal Nawab, Katia Obraczka, | (参考訳) ユーザモビリティ研究における現在の最先端技術は、ユーザーがコネクテッドヘルスケア、ローカライゼーション、ソーシャルメディア、eコマースなど幅広いアプリケーションに従事しているため、歩行者や車内活動から捉えたオープンソースのモビリティトレースに大きく依存している。
これらのトレースのほとんどは機能豊かで多様であり、提供される情報だけでなく、どのように利用され、活用されるかにも当てはまります。
この多様性は、利用可能なモビリティデータセットを利用したい研究者と実践者に2つの大きな課題をもたらす。
まず、鳥の目を見るのにかなりの時間を費やすことなく、利用可能な痕跡を鳥の目で見ることは極めて困難である。
第二に、ひとたびトレースを見つけたら、そのトレースが彼らのニーズに相応しいかどうかを見極める必要がある。
この調査の目的は3つある。
モビリティモード、データソース、収集技術を含むオープンソースのモビリティトレースを分類する分類法を提案する。
そして、提案された分類法を使って、既存のオープンソースのモビリティトレースを分類し、最後に、人気のある公開データセットを使用して3つのケーススタディを強調し、私たちの分類法がトレース内の特徴セットをティーズアウトして、特定のユースケースに適用性を決定する方法を示している。
The current state-of-the-art in user mobility research has extensively relied on open-source mobility traces captured from pedestrian and vehicular activity through a variety of communication technologies as users engage in a wide-range of applications, including connected healthcare, localization, social media, e-commerce, etc. Most of these traces are feature-rich and diverse, not only in the information they provide, but also in how they can be used and leveraged. This diversity poses two main challenges for researchers and practitioners who wish to make use of available mobility datasets. First, it is quite difficult to get a bird's eye view of the available traces without spending considerable time looking them up. Second, once they have found the traces, they still need to figure out whether the traces are adequate to their needs. The purpose of this survey is three-fold. It proposes a taxonomy to classify open-source mobility traces including their mobility mode, data source and collection technology. It then uses the proposed taxonomy to classify existing open-source mobility traces and finally, highlights three case studies using popular publicly available datasets to showcase how our taxonomy can tease out feature sets in traces to help determine their applicability to specific use-cases. | 翻訳日:2024-08-15 19:02:51 公開日:2024-08-14 |
# 半監督・高次元設定における処理効果推定のための一般的な枠組み
A General Framework for Treatment Effect Estimation in Semi-Supervised and High Dimensional Settings ( http://arxiv.org/abs/2201.00468v3 ) ライセンス: Link先を確認 | Abhishek Chakrabortty, Guorong Dai, | (参考訳) 本稿では,治療効果に対する半教師付き(SS)因果推論の一般的かつ完全な理解を目指す。
具体的には,2つの推定法について考察する。
a)平均治療効果と
b) 2つの利用可能なデータセットを特徴とするSS設定における定量化処理効果
i) サイズ$n$のラベル付きデータセットであって、応答と高次元の共変量と二値処理指標のセットの観察を提供するもの
(ii)$n$よりもはるかに大きい$N$のラベル付きデータセットだが、応答は見つからない。
これら2つのデータセットを用いて,(1)より頑健で(2)ラベル付きデータセットのみに基づく教師付きデータセットよりも効率の良いSS推定器のファミリーを開発する。
教師付き手法によって達成できる「標準的」二重ロバスト性結果(一貫性という観点からも)の他に、モデルの正当性スコアが正しく指定されたときに、関係するニュアンス関数の特定の形式を必要とせずに、SS推定器のルート-n整合性と漸近正規性を確立する。
このような堅牢性の改善は、大量のラベルのないデータを使用することによって生じるため、一般的には、純粋に監督された環境では達成できない。
さらに,すべてのニュアンス関数が正しく指定される限り,推定器は半パラメトリックに効率的であることが示されている。
さらに, 未知共変変態機構を含む逆確率重み付け型カーネル平滑化推定器について考察し, その一様収束率に基づく高次元シナリオを新たに確立する。
シミュレーションデータと実データの両方の数値計算結果から,ロバスト性と効率性の両面から,本手法の利点を検証した。
In this article, we aim to provide a general and complete understanding of semi-supervised (SS) causal inference for treatment effects. Specifically, we consider two such estimands: (a) the average treatment effect and (b) the quantile treatment effect, as prototype cases, in an SS setting, characterized by two available data sets: (i) a labeled data set of size $n$, providing observations for a response and a set of high dimensional covariates, as well as a binary treatment indicator; and (ii) an unlabeled data set of size $N$, much larger than $n$, but without the response observed. Using these two data sets, we develop a family of SS estimators which are ensured to be: (1) more robust and (2) more efficient than their supervised counterparts based on the labeled data set only. Beyond the 'standard' double robustness results (in terms of consistency) that can be achieved by supervised methods as well, we further establish root-n consistency and asymptotic normality of our SS estimators whenever the propensity score in the model is correctly specified, without requiring specific forms of the nuisance functions involved. Such an improvement of robustness arises from the use of the massive unlabeled data, so it is generally not attainable in a purely supervised setting. In addition, our estimators are shown to be semi-parametrically efficient as long as all the nuisance functions are correctly specified. Moreover, as an illustration of the nuisance estimators, we consider inverse-probability-weighting type kernel smoothing estimators involving unknown covariate transformation mechanisms, and establish in high dimensional scenarios novel results on their uniform convergence rates, which should be of independent interest. Numerical results on both simulated and real data validate the advantage of our methods over their supervised counterparts with respect to both robustness and efficiency. | 翻訳日:2024-08-15 19:02:51 公開日:2024-08-14 |
# 半監督量子推定:高次元設定におけるロバストと効率的な推論
Semi-Supervised Quantile Estimation: Robust and Efficient Inference in High Dimensional Settings ( http://arxiv.org/abs/2201.10208v2 ) ライセンス: Link先を確認 | Abhishek Chakrabortty, Guorong Dai, Raymond J. Carroll, | (参考訳) 2つの利用可能なデータセットを特徴とする半教師付き環境での量子推定を考える。
一 応答及び潜在的に高次元の共変量の集合の観測を含む小さい又は中程度のラベル付きデータセット及び
(II)共変量のみを観測するより大きなラベル付きデータセット。
本研究では,2つのデータ集合に基づく応答量子化(s)のための半教師付き推定器群を提案し,その推定精度を,教師付き推定器,すなわちラベル付きデータからのサンプル量子化器と比較した。
これらの推定器は、予測方程式に適用されたフレキシブルな計算法とデバイアスのステップを用いて、計算モデルの誤特定に対する完全な堅牢性を実現する。
さらに,本手法の実装が容易な一段階更新戦略を採用し,量子的推定方程式の非線形性質から複雑性を扱えるようにした。
軽微な仮定の下では、根nの一貫性と漸近正規性を常に維持するという意味で、我々の推定器はニュアンス計算モデルの選択に対して完全に堅牢であり、教師付き推定器と比較して効率が向上する。
また、応答と共変量の関係が計算モデルによって正しく特定された場合、半パラメトリック最適性が得られる。
ニュアンス計算関数を推定する図式として,高次元共変体の低次元および潜在的に推定される変換に対するカーネル平滑化型推定器を考察し,関数クラスによってインデックス付けされた応答と次元縮小手法の使用を含む,高次元におけるそれらの一様収束率に関する新しい結果を確立する。
これらの結果は独立した関心事であるかもしれない。
シミュレーションデータと実データの両方の数値計算結果から,推定と推測の両方の観点から,半教師付きアプローチによる性能向上が確認できた。
We consider quantile estimation in a semi-supervised setting, characterized by two available data sets: (i) a small or moderate sized labeled data set containing observations for a response and a set of possibly high dimensional covariates, and (ii) a much larger unlabeled data set where only the covariates are observed. We propose a family of semi-supervised estimators for the response quantile(s) based on the two data sets, to improve the estimation accuracy compared to the supervised estimator, i.e., the sample quantile from the labeled data. These estimators use a flexible imputation strategy applied to the estimating equation along with a debiasing step that allows for full robustness against misspecification of the imputation model. Further, a one-step update strategy is adopted to enable easy implementation of our method and handle the complexity from the non-linear nature of the quantile estimating equation. Under mild assumptions, our estimators are fully robust to the choice of the nuisance imputation model, in the sense of always maintaining root-n consistency and asymptotic normality, while having improved efficiency relative to the supervised estimator. They also attain semi-parametric optimality if the relation between the response and the covariates is correctly specified via the imputation model. As an illustration of estimating the nuisance imputation function, we consider kernel smoothing type estimators on lower dimensional and possibly estimated transformations of the high dimensional covariates, and we establish novel results on their uniform convergence rates in high dimensions, involving responses indexed by a function class and usage of dimension reduction techniques. These results may be of independent interest. Numerical results on both simulated and real data confirm our semi-supervised approach's improved performance, in terms of both estimation and inference. | 翻訳日:2024-08-15 19:02:51 公開日:2024-08-14 |
# Volley Revolver: プライバシ保護ニューラルネットワークのための新しいマトリックスエンコーディング手法(推論)
Volley Revolver: A Novel Matrix-Encoding Method for Privacy-Preserving Neural Networks (Inference) ( http://arxiv.org/abs/2201.12577v5 ) ライセンス: Link先を確認 | John Chiang, | (参考訳) 本稿では,ニューラルネットワークがホモモルフィック暗号を用いて,プライバシ保存方式で予測を行うのに特に便利な,新しい行列符号化手法を提案する。
この符号化手法に基づいて,手書き画像分類のための畳み込みニューラルネットワークを実装した。
2つの行列に対して、同型乗法を実行するために$A$と$B$に対して、その背景にある主要なアイデアは、単純なバージョンで、行列$A$と、行列$B$を2つの暗号文に変換することである。
さらなる演算で、同型行列乗法は暗号化行列上で効率的に計算できる。
畳み込み処理では,各畳み込みカーネルを予め入力画像と同じ大きさの行列空間に分割し,複数の暗号文を生成する。
これらの中間結果を全て蓄積し、畳み込み操作を完了させる。
40のvCPUを持つパブリッククラウドでは、MNISTテストデータセット上の畳み込みニューラルネットワークの実装に$\sim$287秒を要し、32の暗号化画像サイズ228 \times 28$の10の確率を同時に計算します。
データ所有者は、これらの32の画像をパブリッククラウドに暗号化する1つの暗号テキスト($\sim 19.8$ MB)をアップロードするだけでよい。
In this work, we present a novel matrix-encoding method that is particularly convenient for neural networks to make predictions in a privacy-preserving manner using homomorphic encryption. Based on this encoding method, we implement a convolutional neural network for handwritten image classification over encryption. For two matrices $A$ and $B$ to perform homomorphic multiplication, the main idea behind it, in a simple version, is to encrypt matrix $A$ and the transpose of matrix $B$ into two ciphertexts respectively. With additional operations, the homomorphic matrix multiplication can be calculated over encrypted matrices efficiently. For the convolution operation, we in advance span each convolution kernel to a matrix space of the same size as the input image so as to generate several ciphertexts, each of which is later used together with the ciphertext encrypting input images for calculating some of the final convolution results. We accumulate all these intermediate results and thus complete the convolution operation. In a public cloud with 40 vCPUs, our convolutional neural network implementation on the MNIST testing dataset takes $\sim$ 287 seconds to compute ten likelihoods of 32 encrypted images of size $28 \times 28$ simultaneously. The data owner only needs to upload one ciphertext ($\sim 19.8$ MB) encrypting these 32 images to the public cloud. | 翻訳日:2024-08-15 19:02:51 公開日:2024-08-14 |
# エネルギー伝達を考慮した低軌道投射による小型模型の訓練
Compact Model Training by Low-Rank Projection with Energy Transfer ( http://arxiv.org/abs/2204.05566v3 ) ライセンス: Link先を確認 | Kailing Guo, Zhenquan Lin, Canyang Chen, Xiaofen Xing, Fang Liu, Xiangmin Xu, | (参考訳) 低ランクは従来の機械学習において重要な役割を果たすが、ディープラーニングではそれほど人気がない。
従来の低ランクネットワーク圧縮手法は、事前学習されたモデルと再学習を近似してネットワークを圧縮する。
しかし、ユークリッド空間の最適解は低ランク制約を持つ解とは全く異なるかもしれない。
十分に事前訓練されたモデルは、低ランクの制約のあるモデルにとって良い初期化ではありません。
これにより、低ランク圧縮ネットワークの性能は著しく低下する。
プルーニングなどの他のネットワーク圧縮手法と比較すると,近年は低ランク方式が注目されている。
本稿では,低ランク圧縮ネットワークをスクラッチからトレーニングし,競争性能を向上する,新しいトレーニング手法である低ランクプロジェクション・アンド・エネルギ転送(LRPET)を提案する。
本稿では,各重み行列の対応する低ランク多様体への確率勾配降下訓練と投影を交互に行うことを提案する。
コンパクトモデル上の再学習と比較して、これは射影後のユークリッド空間に解空間が緩和されるので、モデルキャパシティのフル活用を可能にする。
射影による行列エネルギー(特異値の二乗の和)の減少はエネルギー移動によって補償される。
切断された特異値のエネルギーを残りの値に均一に転送する。
エネルギー移動が投射による勾配消滅の傾向を緩和することを示す。
現代のネットワークでは、バッチ正規化(BN)層を推論のために前の畳み込み層にマージすることで、前の層の最適低ランク近似に影響を与える。
本稿では,BN補正による最適低ランク近似への影響を低減し,さらなる性能向上を図る。
Low-rankness plays an important role in traditional machine learning, but is not so popular in deep learning. Most previous low-rank network compression methods compress networks by approximating pre-trained models and re-training. However, the optimal solution in the Euclidean space may be quite different from the one with low-rank constraint. A well-pre-trained model is not a good initialization for the model with low-rank constraints. Thus, the performance of a low-rank compressed network degrades significantly. Compared with other network compression methods such as pruning, low-rank methods attract less attention in recent years. In this paper, we devise a new training method, low-rank projection with energy transfer (LRPET), that trains low-rank compressed networks from scratch and achieves competitive performance. We propose to alternately perform stochastic gradient descent training and projection of each weight matrix onto the corresponding low-rank manifold. Compared to re-training on the compact model, this enables full utilization of model capacity since solution space is relaxed back to Euclidean space after projection. The matrix energy (the sum of squares of singular values) reduction caused by projection is compensated by energy transfer. We uniformly transfer the energy of the pruned singular values to the remaining ones. We theoretically show that energy transfer eases the trend of gradient vanishing caused by projection. In modern networks, a batch normalization (BN) layer can be merged into the previous convolution layer for inference, thereby influencing the optimal low-rank approximation of the previous layer. We propose BN rectification to cut off its effect on the optimal low-rank approximation, which further improves the performance. | 翻訳日:2024-08-15 18:56:36 公開日:2024-08-14 |
# 非決定論と機械学習コードの無法性
Non-Determinism and the Lawlessness of Machine Learning Code ( http://arxiv.org/abs/2206.11834v4 ) ライセンス: Link先を確認 | A. Feder Cooper, Jonathan Frankle, Christopher De Sa, | (参考訳) 機械学習(ML)に関する法的文献は、害に焦点をあてる傾向があるため、個々のモデルの結果と要約エラー率について推論する傾向がある。
この焦点は、ランダム性、すなわち確率性と非決定性に依存するMLの重要な側面を隠蔽している。
いくつかの最近の研究は、法的文脈における確率性と仲裁性の関係について推論し始めているが、非決定論の役割は、より広く検討されていない。
本稿では,これら2つの概念の重なり合いと相違を明らかにするとともに,非決定論の影響と,その法則への影響が,ML出力を分布として推定する観点からより明確になることを示す。
この分布的視点は、MLの可能な結果を強調することでランダム性を説明する。
重要なことは、この種の推論は、現在の法的推論に排他的ではなく、特定の自動決定のための個々の具体的な結果に関する分析を補完する(そして、実際に強化することができる)。
非決定論の重要な役割を照らすことで、MLコードは「法則としてのコード」を扱い、このフレームが決定論的であると仮定するサイバー法枠の外側に落ちることを実証する。
我々は、MLが非決定主義の潜在的害をもたらす影響を抑えるために何ができるかを簡潔に議論し、法が現在の個人利益の焦点と我々が推奨する分散的アプローチとのギャップを埋めるためにどこで働くかを示す。
Legal literature on machine learning (ML) tends to focus on harms, and thus tends to reason about individual model outcomes and summary error rates. This focus has masked important aspects of ML that are rooted in its reliance on randomness -- namely, stochasticity and non-determinism. While some recent work has begun to reason about the relationship between stochasticity and arbitrariness in legal contexts, the role of non-determinism more broadly remains unexamined. In this paper, we clarify the overlap and differences between these two concepts, and show that the effects of non-determinism, and consequently its implications for the law, become clearer from the perspective of reasoning about ML outputs as distributions over possible outcomes. This distributional viewpoint accounts for randomness by emphasizing the possible outcomes of ML. Importantly, this type of reasoning is not exclusive with current legal reasoning; it complements (and in fact can strengthen) analyses concerning individual, concrete outcomes for specific automated decisions. By illuminating the important role of non-determinism, we demonstrate that ML code falls outside of the cyberlaw frame of treating ``code as law,'' as this frame assumes that code is deterministic. We conclude with a brief discussion of what work ML can do to constrain the potentially harm-inducing effects of non-determinism, and we indicate where the law must do work to bridge the gap between its current individual-outcome focus and the distributional approach that we recommend. | 翻訳日:2024-08-15 18:56:36 公開日:2024-08-14 |
# コンピュータビジョンにおけるグラフニューラルネットワークとグラフ変換器に関する調査:タスク指向の視点から
A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective ( http://arxiv.org/abs/2209.13232v4 ) ライセンス: Link先を確認 | Chaoqi Chen, Yushuang Wu, Qiyuan Dai, Hong-Yu Zhou, Mutian Xu, Sibei Yang, Xiaoguang Han, Yizhou Yu, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ表現学習において勢いを増し、データマイニング(\emph{e g ,} ソーシャルネットワーク分析とレコメンデーションシステム)、コンピュータビジョン(\emph{e g ,} オブジェクト検出とポイントクラウド学習)、自然言語処理(\emph{e g ,} 関係抽出とシーケンス学習)など、さまざまな分野における最先端技術を強化している。
自然言語処理やコンピュータビジョンにおけるトランスフォーマーの出現に伴い、グラフトランスフォーマーはトランスフォーマーアーキテクチャにグラフ構造を組み込んで、厳密な構造的帰納バイアスを回避しつつ、局所的な近傍集約の限界を克服する。
本稿では,タスク指向の観点から,コンピュータビジョンにおけるGNNとグラフ変換器の総合的なレビューを行う。
具体的には,2次元の自然画像,ビデオ,3次元データ,視覚+言語,医療画像のモダリティに応じて,コンピュータビジョンにおけるそれらの応用を5つのカテゴリに分割する。
各カテゴリにおいて、視覚タスクのセットに応じてアプリケーションをさらに分割する。
このようなタスク指向の分類法により、各タスクが異なるGNNベースのアプローチによってどのように取り組まれているか、そしてこれらのアプローチがいかにうまく機能するかを調べることができる。
必要な前提に基づいて,タスクの定義と課題,代表的アプローチの詳細なカバレッジ,洞察,制限,今後の方向性に関する議論を提供する。
Graph Neural Networks (GNNs) have gained momentum in graph representation learning and boosted the state of the art in a variety of areas, such as data mining (\emph{e.g.,} social network analysis and recommender systems), computer vision (\emph{e.g.,} object detection and point cloud learning), and natural language processing (\emph{e.g.,} relation extraction and sequence learning), to name a few. With the emergence of Transformers in natural language processing and computer vision, graph Transformers embed a graph structure into the Transformer architecture to overcome the limitations of local neighborhood aggregation while avoiding strict structural inductive biases. In this paper, we present a comprehensive review of GNNs and graph Transformers in computer vision from a task-oriented perspective. Specifically, we divide their applications in computer vision into five categories according to the modality of input data, \emph{i.e.,} 2D natural images, videos, 3D data, vision + language, and medical images. In each category, we further divide the applications according to a set of vision tasks. Such a task-oriented taxonomy allows us to examine how each task is tackled by different GNN-based approaches and how well these approaches perform. Based on the necessary preliminaries, we provide the definitions and challenges of the tasks, in-depth coverage of the representative approaches, as well as discussions regarding insights, limitations, and future directions. | 翻訳日:2024-08-15 18:56:36 公開日:2024-08-14 |
# 磁気共鳴画像における教師なし運動アーチファクト低減のための明示的異常抽出
Explicit Abnormality Extraction for Unsupervised Motion Artifact Reduction in Magnetic Resonance Imaging ( http://arxiv.org/abs/2301.01732v6 ) ライセンス: Link先を確認 | Yusheng Zhou, Hao Li, Jianan Liu, Zhengmin Kong, Tao Huang, Euijoon Ahn, Zhihan Lv, Jinman Kim, David Dagan Feng, | (参考訳) 運動アーティファクトはMRI(MRI)の品質を妥協し、診断結果と画像誘導療法の達成に挑戦する。
近年,モーションアーティファクトリダクション(MAR)のソリューションとして,教師付きディープラーニングアプローチが登場している。
これらの手法の欠点の1つは、トレーニング目的のために2組のモーションアーティファクト崩壊(MA崩壊)とモーションアーティファクトフリー(MA無し)MR画像を取得することにある。
このようなイメージペアの取得は難しいため、教師付きトレーニングの適用が制限される。
本稿では,この問題を緩和するためのunsupervised Abnormality extract Network (UNAEN)を提案する。
我々のネットワークは、未ペアMA故障画像やMAフリー画像を扱うことができる。
提案したアーティファクト抽出器を用いて、MA補正された画像から異常を抽出し、MA補正された画像から残留アーティファクトマップを明示的にインターセプトし、MA補正された画像から元の入力を復元する再構成器を用いて、MA補正された画像からMA補正された画像に変換する。
UNAENの性能は、様々な公開MRIデータセットを実験し、最先端の手法と比較することによって評価された。
定量的評価は、代替のMAR法よりもUNAENの方が優れていることを示し、視覚的に残存する遺物が少ないことを示している。
本研究は, 診断精度の向上と画像誘導療法の促進を図り, 現実の臨床環境に適用可能な有望なソリューションとして, UNAENの可能性を裏付けるものである。
私たちのコードはhttps://github.com/YuSheng-Zhou/UNAEN.comで公開されています。
Motion artifacts compromise the quality of magnetic resonance imaging (MRI) and pose challenges to achieving diagnostic outcomes and image-guided therapies. In recent years, supervised deep learning approaches have emerged as successful solutions for motion artifact reduction (MAR). One disadvantage of these methods is their dependency on acquiring paired sets of motion artifact-corrupted (MA-corrupted) and motion artifact-free (MA-free) MR images for training purposes. Obtaining such image pairs is difficult and therefore limits the application of supervised training. In this paper, we propose a novel UNsupervised Abnormality Extraction Network (UNAEN) to alleviate this problem. Our network is capable of working with unpaired MA-corrupted and MA-free images. It converts the MA-corrupted images to MA-reduced images by extracting abnormalities from the MA-corrupted images using a proposed artifact extractor, which intercepts the residual artifact maps from the MA-corrupted MR images explicitly, and a reconstructor to restore the original input from the MA-reduced images. The performance of UNAEN was assessed by experimenting with various publicly available MRI datasets and comparing them with state-of-the-art methods. The quantitative evaluation demonstrates the superiority of UNAEN over alternative MAR methods and visually exhibits fewer residual artifacts. Our results substantiate the potential of UNAEN as a promising solution applicable in real-world clinical environments, with the capability to enhance diagnostic accuracy and facilitate image-guided therapies. Our codes are publicly available at https://github.com/YuSheng-Zhou/UNAEN. | 翻訳日:2024-08-15 18:56:36 公開日:2024-08-14 |
# GHQ: 異種協調型マルチエージェント強化学習のためのグループ型ハイブリッドQ学習
GHQ: Grouped Hybrid Q Learning for Heterogeneous Cooperative Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2303.01070v2 ) ライセンス: Link先を確認 | Xiaoyang Yu, Youfang Lin, Xiangsen Wang, Sheng Han, Kai Lv, | (参考訳) 従来の深層マルチエージェント強化学習(MARL)アルゴリズムは、通常、均質なシナリオにおいて、印象的な結果を得た。
しかし、異種シナリオも非常に一般的であり、通常は解決が困難である。
本稿では,Starcraft Multi-Agent Challenges (SMAC)環境における協調的異種MARL問題について論じる。
まず、SMACにおける異種問題を定義し、記述する。
問題を包括的に明らかにし,研究するために,元のSMACマップに新たなマップを追加する。
ベースラインアルゴリズムは、これらの異種写像ではうまく機能しない。
この問題に対処するために、GIGM(Grouped Individual-Global-Max Consistency)と新しいMARLアルゴリズム、Grouped Hybrid Q Learning(GHQ)を提案する。
GHQはエージェントを複数のグループに分割し、各グループごとに個別のパラメータを保持する。
グループ間の協調を強化するため,グループ間の相互情報(IGMI)を最大化する。
オリジナルおよび新しいヘテロジニアスマップの実験は、他の最先端のアルゴリズムと比較して、GHQの素晴らしい性能を示している。
Previous deep multi-agent reinforcement learning (MARL) algorithms have achieved impressive results, typically in homogeneous scenarios. However, heterogeneous scenarios are also very common and usually harder to solve. In this paper, we mainly discuss cooperative heterogeneous MARL problems in Starcraft Multi-Agent Challenges (SMAC) environment. We firstly define and describe the heterogeneous problems in SMAC. In order to comprehensively reveal and study the problem, we make new maps added to the original SMAC maps. We find that baseline algorithms fail to perform well in those heterogeneous maps. To address this issue, we propose the Grouped Individual-Global-Max Consistency (GIGM) and a novel MARL algorithm, Grouped Hybrid Q Learning (GHQ). GHQ separates agents into several groups and keeps individual parameters for each group, along with a novel hybrid structure for factorization. To enhance coordination between groups, we maximize the Inter-group Mutual Information (IGMI) between groups' trajectories. Experiments on original and new heterogeneous maps show the fabulous performance of GHQ compared to other state-of-the-art algorithms. | 翻訳日:2024-08-15 18:56:36 公開日:2024-08-14 |
# エージェントベース市場モデルと相互作用する多くの学習エージェント
Many learning agents interacting with an agent-based market model ( http://arxiv.org/abs/2303.07393v4 ) ライセンス: Link先を確認 | Matthew Dicks, Andrew Paskaramoorthy, Tim Gebbie, | (参考訳) 我々は,金融市場のリアクティブエージェントベースモデル(ABM)とイベント時に相互作用する複数の強化学習最適実行取引エージェントのダイナミクスと相互作用を考察する。
このモデルは、最適な実行学習エージェント、最小限の知的流動性テイカー、高速な電子流動性プロバイダによって表される3つの栄養レベルを持つ市場エコロジーを表している。
最適な実行エージェントクラスには、限定注文と市場注文の組み合わせを使用することができるエージェントの購入と販売、または市場注文を使用した取引のみを含む。
報酬関数は、注文をタイムリーに実行しないペナルティに対して、取引実行スリップを明示的にバランスさせる。
この研究は、エージェントの数、エージェントの初期注文のサイズ、学習に使用される状態空間の関数として、複数の競合する学習エージェントが、最小限のインテリジェントな市場シミュレーションにどのように影響するかを示す。
学習エージェントの様々な仕様が組み込まれている場合、位相空間プロットを用いてABMのダイナミクスを調べる。
さらに、学習可能な最適な実行エージェントを組み込むことで、経験的データと同じ複雑さで動的に生成できるかどうかを検討する。
最適な実行エージェントを組み込むことで、ABMが作り出したスタイル化された事実を経験的データに適合させることができ、市場マイクロ構造を調査する上で必要となるものとなる。
しかし, 実験データから得られた複雑性を回復するには, チャート-基礎-ノイズABMへの実行エージェントを含めるには不十分である。
We consider the dynamics and the interactions of multiple reinforcement learning optimal execution trading agents interacting with a reactive Agent-Based Model (ABM) of a financial market in event time. The model represents a market ecology with 3-trophic levels represented by: optimal execution learning agents, minimally intelligent liquidity takers, and fast electronic liquidity providers. The optimal execution agent classes include buying and selling agents that can either use a combination of limit orders and market orders, or only trade using market orders. The reward function explicitly balances trade execution slippage against the penalty of not executing the order timeously. This work demonstrates how multiple competing learning agents impact a minimally intelligent market simulation as functions of the number of agents, the size of agents' initial orders, and the state spaces used for learning. We use phase space plots to examine the dynamics of the ABM, when various specifications of learning agents are included. Further, we examine whether the inclusion of optimal execution agents that can learn is able to produce dynamics with the same complexity as empirical data. We find that the inclusion of optimal execution agents changes the stylised facts produced by ABM to conform more with empirical data, and are a necessary inclusion for ABMs investigating market micro-structure. However, including execution agents to chartist-fundamentalist-noise ABMs is insufficient to recover the complexity observed in empirical data. | 翻訳日:2024-08-15 18:56:36 公開日:2024-08-14 |
# SRFormerV2:画像の超解像のための変化した自己認識をよりよく見る
SRFormerV2: Taking a Closer Look at Permuted Self-Attention for Image Super-Resolution ( http://arxiv.org/abs/2303.09735v2 ) ライセンス: Link先を確認 | Yupeng Zhou, Zhen Li, Chun-Le Guo, Li Liu, Ming-Ming Cheng, Qibin Hou, | (参考訳) 従来の研究によると、トランスフォーマーベースの超解像モデル(例えばSwinIR)のウィンドウサイズを増大させることで、モデル性能が大幅に向上することが示されている。
それでも、ウィンドウサイズが徐々に大きくなると、計算オーバーヘッドもかなり大きくなる。
本稿では,SRFormerを提案する。SRFormerは,大きなウィンドウ自己注意の利点を享受できるが,計算負担を低減できる簡易な手法である。
SRFormerのコアとなるのは、チャネルと空間情報の適切なバランスを保ちながら自己認識を行うpermuted self-attention (PSA) である。
我々のSRFormerは、SwinIRよりも0.46dB高いUrban100データセット上で33.86dBのPSNRスコアを達成しているが、パラメータや計算は少ない。
さらに、トランスフォーマーモデルの可能性を探るため、ウィンドウサイズとチャネル番号をさらに大きくすることで、モデルのスケールアップも試みている。
実験により, SRFormerV2と呼ばれるスケールモデルにより, 結果がさらに向上し, 最先端の達成が期待できることがわかった。
超高解像度モデル設計における今後の研究に、我々のシンプルで効果的なアプローチが役立つことを願っている。
ホームページはhttps://z-yupeng.github.io/SRFormer/。
Previous works have shown that increasing the window size for Transformer-based image super-resolution models (e.g., SwinIR) can significantly improve the model performance. Still, the computation overhead is also considerable when the window size gradually increases. In this paper, we present SRFormer, a simple but novel method that can enjoy the benefit of large window self-attention but introduces even less computational burden. The core of our SRFormer is the permuted self-attention (PSA), which strikes an appropriate balance between the channel and spatial information for self-attention. Without any bells and whistles, we show that our SRFormer achieves a 33.86dB PSNR score on the Urban100 dataset, which is 0.46dB higher than that of SwinIR but uses fewer parameters and computations. In addition, we also attempt to scale up the model by further enlarging the window size and channel numbers to explore the potential of Transformer-based models. Experiments show that our scaled model, named SRFormerV2, can further improve the results and achieves state-of-the-art. We hope our simple and effective approach could be useful for future research in super-resolution model design. The homepage is https://z-yupeng.github.io/SRFormer/. | 翻訳日:2024-08-15 18:56:36 公開日:2024-08-14 |
# インスタンスアソシエーションの展開:オーディオ・ビジュアル・セグメンテーションの概観
Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation ( http://arxiv.org/abs/2304.02970v7 ) ライセンス: Link先を確認 | Yuanhong Chen, Yuyuan Liu, Hu Wang, Fengbei Liu, Chong Wang, Helen Frazer, Gustavo Carneiro, | (参考訳) 音声視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
音声・視覚学習の有効性は、音と視覚オブジェクトの正確な相互アライメントの実現に大きく依存する。
健全な視覚学習には2つの重要な要素が必要である。
1)高品質な画素レベルのマルチクラスアノテート画像とオーディオファイルに関連付けられた課題データセット
2)音声情報とそれに対応する視覚オブジェクトとの強いつながりを確立できるモデル。
しかしながら、これらの要件は、偏りのあるオーディオ視覚データを含むトレーニングセットや、偏りのあるトレーニングセットをはるかに越えたモデルなど、現在の手法によって部分的に解決されているだけである。
本研究では,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための費用対効果の新たな手法を提案する。
また,音声・視覚指導型コントラスト学習のための新たな情報的サンプルマイニング手法を提案し,識別的コントラスト的サンプルを利用してモーダル間理解を実現する。
ベンチマークの有効性を示す実験結果を示す。
さらに,既存のAVSデータセットおよび新しいベンチマークを用いて行った実験により,本手法が最先端(SOTA)セグメンテーション精度を実現することを示す。
Audio-visual segmentation (AVS) is a challenging task that involves accurately segmenting sounding objects based on audio-visual cues. The effectiveness of audio-visual learning critically depends on achieving accurate cross-modal alignment between sound and visual objects. Successful audio-visual learning requires two essential components: 1) a challenging dataset with high-quality pixel-level multi-class annotated images associated with audio files, and 2) a model that can establish strong links between audio information and its corresponding visual object. However, these requirements are only partially addressed by current methods, with training sets containing biased audio-visual data, and models that generalise poorly beyond this biased training set. In this work, we propose a new cost-effective strategy to build challenging and relatively unbiased high-quality audio-visual segmentation benchmarks. We also propose a new informative sample mining method for audio-visual supervised contrastive learning to leverage discriminative contrastive samples to enforce cross-modal understanding. We show empirical results that demonstrate the effectiveness of our benchmark. Furthermore, experiments conducted on existing AVS datasets and on our new benchmark show that our method achieves state-of-the-art (SOTA) segmentation accuracy. | 翻訳日:2024-08-15 18:56:36 公開日:2024-08-14 |
# ユーザ認証によるデバイス非依存の量子セキュアダイレクト通信
Device-Independent Quantum Secure Direct Communication with User Authentication ( http://arxiv.org/abs/2304.03201v2 ) ライセンス: Link先を確認 | Nayana Das, Goutam Paul, | (参考訳) QSDC(Quantum Secure Direct Communication)は、量子暗号の重要な分岐であり、鍵暗号を使わずにメッセージのセキュアな送信を可能にする。
しかし、従来の量子通信プロトコルは、攻撃を受けやすいプロトコルを実装するために使用されるデバイスのセキュリティと信頼性に依存している。
一方、デバイス非依存(DI)量子プロトコルは、量子力学の基本原理を活用することによって使用されるデバイスに依存しない量子通信を確保することを目的としている。
本稿では,メッセージ交換前の送信者および受信者の認証を確立するために,ユーザID認証を含む最初のDI-QSDCプロトコルを提案する。
また、この手法をDI量子対話(QD)プロトコルに拡張し、双方が相互認証に基づいて秘密メッセージを送信できるようにする。
Quantum Secure Direct Communication (QSDC) is an important branch of quantum cryptography, which enables the secure transmission of messages without prior key encryption. However, traditional quantum communication protocols rely on the security and trustworthiness of the devices employed to implement the protocols, which can be susceptible to attacks. Device-independent (DI) quantum protocols, on the other hand, aim to secure quantum communication independent of the devices used by leveraging fundamental principles of quantum mechanics. In this research paper, we introduce the first DI-QSDC protocol that includes user identity authentication to establish the authenticity of both sender and receiver before message exchange. We also extend this approach to a DI Quantum Dialogue (QD) protocol where both parties can send secret messages upon mutual authentication. | 翻訳日:2024-08-15 18:56:36 公開日:2024-08-14 |
# GTree: GPUフレンドリなプライバシ保護決定木トレーニングと推論
GTree: GPU-Friendly Privacy-preserving Decision Tree Training and Inference ( http://arxiv.org/abs/2305.00645v2 ) ライセンス: Link先を確認 | Qifan Wang, Shujie Cui, Lei Zhou, Ye Dong, Jianli Bai, Yun Sing Koh, Giovanni Russello, | (参考訳) 決定木(Decision Tree, DT)は、その汎用性、速度、解釈性から広く使われている機械学習モデルである。
しかし、プライバシに敏感なアプリケーションでは、DTトレーニングとクラウドプラットフォームへの推論をアウトソーシングすることで、データのプライバシに関する懸念が高まる。
研究者は、セキュアマルチパーティ計算(MPC)のような暗号化プリミティブを使用して、DTトレーニングと推論のためのプライバシ保護アプローチを開発した。
これらのアプローチは進歩しているものの、それでも重い計算と通信のオーバーヘッドに悩まされている。
MPCで保護されたディープラーニングの性能を改善するために、GPU(Graphical Processing Units)を使用した最近の研究はほとんどない。
textit{can MPCで保護されたDTトレーニングと推論はGPUによって加速されるのか?
We present GTree, the first scheme that using GPU to accelerate MPC-proofed secure DT training and inference。
GTreeは、DTトレーニングの各ステップとGPUによる推論を安全かつ共同で実行する3つのパーティで構成されている。
GTreeの各MPCプロトコルはGPUフレンドリーなバージョンで設計されている。
パフォーマンス評価は、GTreeが以前の最も効率的なCPUベースの作業と比較して、SPECTとアダルトデータセットのトレーニングにおいて、${\thicksim}11{\times}$と${\thicksim}21{\times}$の改善を達成したことを示している。
推論では、GTreeはDTが10レベル未満の場合に優れた効率を示し、これは7レベルのツリーを持つ10^4$インスタンスを推測する場合、以前の最も効率的な作業よりも126\times$高速である。
GTreeはまた、以前のソリューションよりも強力なセキュリティ保証を実現している。これは、データサンプルの深さとサイズだけをリークする一方で、以前のソリューションもツリー構造をリークする。
textit{oblivious array access} では、GPU上のアクセスパターンも保護される。
Decision tree (DT) is a widely used machine learning model due to its versatility, speed, and interpretability. However, for privacy-sensitive applications, outsourcing DT training and inference to cloud platforms raise concerns about data privacy. Researchers have developed privacy-preserving approaches for DT training and inference using cryptographic primitives, such as Secure Multi-Party Computation (MPC). While these approaches have shown progress, they still suffer from heavy computation and communication overheads. Few recent works employ Graphical Processing Units (GPU) to improve the performance of MPC-protected deep learning. This raises a natural question: \textit{can MPC-protected DT training and inference be accelerated by GPU?} We present GTree, the first scheme that uses GPU to accelerate MPC-protected secure DT training and inference. GTree is built across 3 parties who securely and jointly perform each step of DT training and inference with GPU. Each MPC protocol in GTree is designed in a GPU-friendly version. The performance evaluation shows that GTree achieves ${\thicksim}11{\times}$ and ${\thicksim}21{\times}$ improvements in training SPECT and Adult datasets, compared to the prior most efficient CPU-based work. For inference, GTree shows its superior efficiency when the DT has less than 10 levels, which is $126\times$ faster than the prior most efficient work when inferring $10^4$ instances with a tree of 7 levels. GTree also achieves a stronger security guarantee than prior solutions, which only leaks the tree depth and size of data samples while prior solutions also leak the tree structure. With \textit{oblivious array access}, the access pattern on GPU is also protected. | 翻訳日:2024-08-15 18:56:36 公開日:2024-08-14 |
# フェデレーション学習に対するエッジケースモデル攻撃に対するデータ駆動防御
A Data-Driven Defense against Edge-case Model Poisoning Attacks on Federated Learning ( http://arxiv.org/abs/2305.02022v2 ) ライセンス: Link先を確認 | Kiran Purohit, Soumi Das, Sourangshu Bhattacharya, Santu Rana, | (参考訳) フェデレーテッド・ラーニング・システムは、顧客からのモデル中毒攻撃の度合いが増している。
これらのうち、入力空間のごく一部を標的とするエッジケース攻撃は、既存の防御技術を用いて検出することはほぼ不可能であり、高い攻撃成功率をもたらす。
本稿では,攻撃対象に関する情報を提供する外部防衛データセットを用いた効果的な防御手法を提案する。
防衛データセットには毒とクリーンなサンプルが混在しており、クリーンであることが知られているのはごくわずかである。
提案手法であるDataDefenseは、このデータセットを使用して、防衛データセットの各例を毒または清潔とマークする有毒データ検出モデルを学ぶ。
また、クライアントの更新が悪意がある確率を見積もるクライアントの重要度モデルも学習する。
グローバルモデルは、クライアントモデルの更新の重み付け平均として更新される。
有毒データ検出器とクライアント重要モデルパラメータは、フェデレートラーニングラウンドの交互最小化戦略を用いて更新される。
標準的な攻撃シナリオに関する大規模な実験は、DataDefenseが他の最先端の防御が失敗するモデル中毒攻撃に対して防御できることを示している。
特に、DataDefenseは、標準的な攻撃設定では少なくとも40%、いくつかの設定では80%以上、攻撃成功率を下げることができます。
さらに、DataDefenseは攻撃成功率をほぼ最適に下げるために、防衛上の例(5つまで)をほとんど必要としない。
Federated Learning systems are increasingly subjected to a multitude of model poisoning attacks from clients. Among these, edge-case attacks that target a small fraction of the input space are nearly impossible to detect using existing defenses, leading to a high attack success rate. We propose an effective defense using an external defense dataset, which provides information about the attack target. The defense dataset contains a mix of poisoned and clean examples, with only a few known to be clean. The proposed method, DataDefense, uses this dataset to learn a poisoned data detector model which marks each example in the defense dataset as poisoned or clean. It also learns a client importance model that estimates the probability of a client update being malicious. The global model is then updated as a weighted average of the client models' updates. The poisoned data detector and the client importance model parameters are updated using an alternating minimization strategy over the Federated Learning rounds. Extensive experiments on standard attack scenarios demonstrate that DataDefense can defend against model poisoning attacks where other state-of-the-art defenses fail. In particular, DataDefense is able to reduce the attack success rate by at least ~ 40% on standard attack setups and by more than 80% on some setups. Furthermore, DataDefense requires very few defense examples (as few as five) to achieve a near-optimal reduction in attack success rate. | 翻訳日:2024-08-15 18:56:36 公開日:2024-08-14 |
# 大規模マルチモーダルモデルにおけるOCRの隠れミステリーについて
On the Hidden Mystery of OCR in Large Multimodal Models ( http://arxiv.org/abs/2305.07895v6 ) ライセンス: Link先を確認 | Yuliang Liu, Zhang Li, Mingxin Huang, Biao Yang, Wenwen Yu, Chunyuan Li, Xucheng Yin, Cheng-lin Liu, Lianwen Jin, Xiang Bai, | (参考訳) 大規模モデルは近年,自然言語処理やマルチモーダル視覚言語学習において重要な役割を担っている。
しかし、テキスト関連視覚課題におけるそれらの効果は、いまだに未解明のままである。
本稿では,テキスト認識,Scene Text-Centric Visual Question Answering (VQA), Document-Oriented VQA, Key Information extract (KIE), Handwriting Mathematical Expression Recognition (HMER) などのテキスト関連視覚タスクにおいて,GPT4VやGeminiなどの大規模マルチモーダルモデルの包括的評価を行った。
大規模マルチモーダルモデルにおける光学文字認識(OCR)機能の評価を容易にするため,包括的評価ベンチマークであるOCRBenchを提案する。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
さらに本研究では,これらのモデルの長所と短所,特に多言語テキスト,手書きテキスト,非意味テキスト,数学的表現認識を扱う際の長所と短所を明らかにした。
最も重要なことは、この研究で示されたベースラインの結果は、ゼロショットマルチモーダル技法の強化を目的とした革新的な戦略の構想と評価のための基礎的な枠組みを提供する可能性があることである。
評価パイプラインとベンチマークはhttps://github.com/Yuliang-Liu/MultimodalOCRで公開されている。
Large models have recently played a dominant role in natural language processing and multimodal vision-language learning. However, their effectiveness in text-related visual tasks remains relatively unexplored. In this paper, we conducted a comprehensive evaluation of Large Multimodal Models, such as GPT4V and Gemini, in various text-related visual tasks including Text Recognition, Scene Text-Centric Visual Question Answering (VQA), Document-Oriented VQA, Key Information Extraction (KIE), and Handwritten Mathematical Expression Recognition (HMER). To facilitate the assessment of Optical Character Recognition (OCR) capabilities in Large Multimodal Models, we propose OCRBench, a comprehensive evaluation benchmark. OCRBench contains 29 datasets, making it the most comprehensive OCR evaluation benchmark available. Furthermore, our study reveals both the strengths and weaknesses of these models, particularly in handling multilingual text, handwritten text, non-semantic text, and mathematical expression recognition. Most importantly, the baseline results presented in this study could provide a foundational framework for the conception and assessment of innovative strategies targeted at enhancing zero-shot multimodal techniques. The evaluation pipeline and benchmark are available at https://github.com/Yuliang-Liu/MultimodalOCR. | 翻訳日:2024-08-15 18:56:36 公開日:2024-08-14 |
# SCP:空中ビデオ行動認識のためのソフト・コンディショナル・プロンプト学習
SCP: Soft Conditional Prompt Learning for Aerial Video Action Recognition ( http://arxiv.org/abs/2305.12437v3 ) ライセンス: Link先を確認 | Xijun Wang, Ruiqi Xian, Tianrui Guan, Fuxiao Liu, Dinesh Manocha, | (参考訳) 本稿では,航空映像行動認識において,迅速な学習の強みを生かした新しい学習手法であるSoft Conditional Prompt Learning(SCP)を提案する。
本手法は,航空機/ロボットの視覚知覚のための入力ビデオにおける動作に関する記述や指示に,モデルが焦点を当てることによって,各エージェントの動作を予測するように設計されている。
我々の定式化は、学習可能なプロンプト、補助的な視覚情報、認識性能を改善するための大きな視覚モデルなど、様々なプロンプトをサポートする。
本稿では,映像入力の異なるプロンプト専門家のプールからプロンプトを動的に生成するソフト条件プロンプト法を提案する。
同じ目的をタスクと共有することにより、提案したSCPは、入力不変性(プロンプトエキスパートプール)と入力固有性(データ依存)のプロンプト知識を明示的に学習しながら、モデルの予測を導くプロンプトを最適化することができる。
実際には、単エージェントと複数エージェントのアクションからなるシーンからなる空中ビデオデータセット(Okutama, NECDrone)の3.17-10.2%の精度向上が観察されている。
さらに,地上カメラ映像に対するアプローチを評価し,その有効性と一般化を検証し,データセットSSV2の1.0~3.6%の改善を実現した。
当社のメソッドもROS2に統合しています。
We present a new learning approach, Soft Conditional Prompt Learning (SCP), which leverages the strengths of prompt learning for aerial video action recognition. Our approach is designed to predict the action of each agent by helping the models focus on the descriptions or instructions associated with actions in the input videos for aerial/robot visual perception. Our formulation supports various prompts, including learnable prompts, auxiliary visual information, and large vision models to improve the recognition performance. We present a soft conditional prompt method that learns to dynamically generate prompts from a pool of prompt experts under different video inputs. By sharing the same objective with the task, our proposed SCP can optimize prompts that guide the model's predictions while explicitly learning input-invariant (prompt experts pool) and input-specific (data-dependent) prompt knowledge. In practice, we observe a 3.17-10.2% accuracy improvement on the aerial video datasets (Okutama, NECDrone), which consist of scenes with single-agent and multi-agent actions. We further evaluate our approach on ground camera videos to verify the effectiveness and generalization and achieve a 1.0-3.6% improvement on dataset SSV2. We integrate our method into the ROS2 as well. | 翻訳日:2024-08-15 18:56:36 公開日:2024-08-14 |
# Dual expectile-Quantile Regressionを用いた分散強化学習
Distributional Reinforcement Learning with Dual Expectile-Quantile Regression ( http://arxiv.org/abs/2305.16877v3 ) ライセンス: Link先を確認 | Sami Jullien, Romain Deffayet, Jean-Michel Renders, Paul Groth, Maarten de Rijke, | (参考訳) 分散強化学習(RL)は,リターンの完全な分布を近似し,環境サンプルをよりよく活用できるため,複数のベンチマークで有用であることが証明されている。
非対称な$L_1$損失に基づく分布RLに対する一般的な量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
実際には、量子レグレッションのためにより効率的でハイブリッドな$L_1$-$L_2$ Huber損失を使用することで、しばしば改善される。
しかし, 分布推定は消滅し, 推定分布が急速に崩壊するのを実証的に観察する。
実際、期待回帰に対応する非対称$L_2$損失は、分布時間差分学習では容易には利用できない。
本研究は,$L_2$ベースの学習を効率よく行うことにより,返却分布の予測値と量子化値とを協調的に学習し,返却分布の完全な分布を推定し,効率的な学習を可能にすることを提案する。
提案手法は, 正解分布を概ね学習し, おもちゃの例と規模で実践的な実装をベンチマークする。
Atari ベンチマークでは,2M のトレーニングフレームの後に Huber ベースの IQN-1 ベースラインの性能にマッチするが,分布の崩壊を回避し,リターンの完全な分布を推定する。
Distributional reinforcement learning (RL) has proven useful in multiple benchmarks as it enables approximating the full distribution of returns and makes a better use of environment samples. The commonly used quantile regression approach to distributional RL -- based on asymmetric $L_1$ losses -- provides a flexible and effective way of learning arbitrary return distributions. In practice, it is often improved by using a more efficient, hybrid asymmetric $L_1$-$L_2$ Huber loss for quantile regression. However, by doing so, distributional estimation guarantees vanish, and we empirically observe that the estimated distribution rapidly collapses to its mean. Indeed, asymmetric $L_2$ losses, corresponding to expectile regression, cannot be readily used for distributional temporal difference learning. Motivated by the efficiency of $L_2$-based learning, we propose to jointly learn expectiles and quantiles of the return distribution in a way that allows efficient learning while keeping an estimate of the full distribution of returns. We prove that our approach approximately learns the correct return distribution, and we benchmark a practical implementation on a toy example and at scale. On the Atari benchmark, our approach matches the performance of the Huber-based IQN-1 baseline after $200$M training frames but avoids distributional collapse and keeps estimates of the full distribution of returns. | 翻訳日:2024-08-15 18:46:43 公開日:2024-08-14 |
# Graph Agent Network: 敵レジリエンスのための推論機能を備えたノードの強化
Graph Agent Network: Empowering Nodes with Inference Capabilities for Adversarial Resilience ( http://arxiv.org/abs/2306.06909v3 ) ライセンス: Link先を確認 | Ao Liu, Wenshan Li, Tao Li, Beibei Li, Guangquan Xu, Pan Zhou, Wengang Ma, Hanyuan Huang, | (参考訳) グローバル最適化によるエンドツーエンドトレーニングは、ノード分類のためのグラフニューラルネットワーク(GNN)を普及させた。
敵はGNNの入力と出力の本質的にオープンなインターフェースを利用して、重要なエッジを摂動させ、分類結果を操作できる。
現在の防衛は、グローバル最適化に基づくエンドツーエンドのトレーニングスキームを継続的に活用しているため、本質的にはGNNの脆弱性をカプセル化している。
これは、標的とする二次攻撃に対して防御できないことが特に証明されている。
本稿では,前述のGNNの脆弱性に対処するグラフエージェントネットワーク(GAgN)を提案する。
GAgNはグラフ構造化エージェントネットワークであり、各ノードは1-hop-viewエージェントとして設計されている。
エージェント間の分散的な相互作用を通じて、グローバルな知覚を推論して、特定のノードに対する埋め込み、次数、隣接関係などのタスクを実行することができる。
これによりノードは、分類タスクを実行しながら、敵のエッジをフィルタリングすることが可能になる。
さらに、エージェントの限定的な見解は、悪意のあるメッセージがGAgNでグローバルに伝播するのを防ぎ、グローバル最適化ベースの二次攻撃に抵抗する。
単層多層パーセプトロン(MLP)は理論的にこれらの機能を達成するのに十分であることを示す。
実験の結果,GAgNは意図したすべての機能を効果的に実装し,最先端の防御技術と比較して,摂動データセットの最適な分類精度を実現することがわかった。
End-to-end training with global optimization have popularized graph neural networks (GNNs) for node classification, yet inadvertently introduced vulnerabilities to adversarial edge-perturbing attacks. Adversaries can exploit the inherent opened interfaces of GNNs' input and output, perturbing critical edges and thus manipulating the classification results. Current defenses, due to their persistent utilization of global-optimization-based end-to-end training schemes, inherently encapsulate the vulnerabilities of GNNs. This is specifically evidenced in their inability to defend against targeted secondary attacks. In this paper, we propose the Graph Agent Network (GAgN) to address the aforementioned vulnerabilities of GNNs. GAgN is a graph-structured agent network in which each node is designed as an 1-hop-view agent. Through the decentralized interactions between agents, they can learn to infer global perceptions to perform tasks including inferring embeddings, degrees and neighbor relationships for given nodes. This empowers nodes to filtering adversarial edges while carrying out classification tasks. Furthermore, agents' limited view prevents malicious messages from propagating globally in GAgN, thereby resisting global-optimization-based secondary attacks. We prove that single-hidden-layer multilayer perceptrons (MLPs) are theoretically sufficient to achieve these functionalities. Experimental results show that GAgN effectively implements all its intended capabilities and, compared to state-of-the-art defenses, achieves optimal classification accuracy on the perturbed datasets. | 翻訳日:2024-08-15 18:46:43 公開日:2024-08-14 |
# AROID: オンラインインスタンス単位のデータ拡張による対向ロバスト性の改善
AROID: Improving Adversarial Robustness Through Online Instance-Wise Data Augmentation ( http://arxiv.org/abs/2306.07197v2 ) ライセンス: Link先を確認 | Lin Li, Jianing Qiu, Michael Spratling, | (参考訳) ディープニューラルネットワークは敵の例に弱い。
対戦訓練(英語: Adversarial Training、AT)は、敵の例に対する効果的な防御である。
しかし、ATは頑丈さを著しく低下させる過度な適合をしがちである。
近年、データ強化(DA)はAT向けに適切に設計され最適化された場合、堅牢なオーバーフィッティングの軽減に有効であることが示されている。
本研究は、ATの堅牢な一般化を改善するために、オンライン、例えばDAポリシーを自動的に学習する新しい方法を提案する。
これは、堅牢性に特化した最初の自動DAメソッドである。
脆弱性,親和性,多様性からなる新しい政策学習目標を提案し,ATにおける自動DA生成の実現に十分な効率と効率性を示した。
重要なこととして,本手法は,5,000時間のAutoAugmentと412時間のIDBHから9時間までのポリシー検索コストを劇的に削減する。
これにより、より効果的なDAポリシーを求めて大規模な検索空間を効率的に探索し、訓練が進むにつれてポリシーを進化させることができる。
実験により,本手法は様々なモデルアーキテクチャやデータセットにおいて,競争力のあるDA手法よりも優れていることを示す。
当社のDAポリシーは、バニラATを精度と堅牢性の両方に関して、最先端のAT手法を超越するように強化しました。
また、より堅牢性を高めるために、これらの先進的なAT手法と組み合わせることもできる。
コードと事前トレーニングされたモデルはhttps://github.com/TreeLLi/AROID.comで入手できる。
Deep neural networks are vulnerable to adversarial examples. Adversarial training (AT) is an effective defense against adversarial examples. However, AT is prone to overfitting which degrades robustness substantially. Recently, data augmentation (DA) was shown to be effective in mitigating robust overfitting if appropriately designed and optimized for AT. This work proposes a new method to automatically learn online, instance-wise, DA policies to improve robust generalization for AT. This is the first automated DA method specific for robustness. A novel policy learning objective, consisting of Vulnerability, Affinity and Diversity, is proposed and shown to be sufficiently effective and efficient to be practical for automatic DA generation during AT. Importantly, our method dramatically reduces the cost of policy search from the 5000 hours of AutoAugment and the 412 hours of IDBH to 9 hours, making automated DA more practical to use for adversarial robustness. This allows our method to efficiently explore a large search space for a more effective DA policy and evolve the policy as training progresses. Empirically, our method is shown to outperform all competitive DA methods across various model architectures and datasets. Our DA policy reinforced vanilla AT to surpass several state-of-the-art AT methods regarding both accuracy and robustness. It can also be combined with those advanced AT methods to further boost robustness. Code and pre-trained models are available at https://github.com/TreeLLi/AROID. | 翻訳日:2024-08-15 18:46:43 公開日:2024-08-14 |
# 最適性保証付き逆ロバストクラスタリング
Adversarially robust clustering with optimality guarantees ( http://arxiv.org/abs/2306.09977v2 ) ライセンス: Link先を確認 | Soham Jana, Kun Yang, Sanjeev Kulkarni, | (参考訳) 我々はガウス以下の混合系から得られるデータポイントをクラスタリングする問題を考察する。
ロイドアルゴリズムのような最適ラベル誤りを確実に達成する既存の手法は、通常、外れ値に対して脆弱である。
対照的に、対向摂動に頑健であるように見えるクラスタリング法は、最適な統計的保証を満たすことは分かっていない。
本稿では, 対数外乱が存在する場合でも, 座標中央値に基づく単純なロバストアルゴリズムを提案する。
本アルゴリズムは, 弱い初期化条件が満たされた場合, 一定繰り返しにおける最適誤差率を達成する。
外れ値がない場合、固定次元では、我々の理論的保証はロイドアルゴリズムと類似している。
提案手法の理論的保証を支援するために, 様々なシミュレーションおよび公開データセットに関する大規模な実験を行った。
We consider the problem of clustering data points coming from sub-Gaussian mixtures. Existing methods that provably achieve the optimal mislabeling error, such as the Lloyd algorithm, are usually vulnerable to outliers. In contrast, clustering methods seemingly robust to adversarial perturbations are not known to satisfy the optimal statistical guarantees. We propose a simple robust algorithm based on the coordinatewise median that obtains the optimal mislabeling rate even when we allow adversarial outliers to be present. Our algorithm achieves the optimal error rate in constant iterations when a weak initialization condition is satisfied. In the absence of outliers, in fixed dimensions, our theoretical guarantees are similar to that of the Lloyd algorithm. Extensive experiments on various simulated and public datasets are conducted to support the theoretical guarantees of our method. | 翻訳日:2024-08-15 18:46:43 公開日:2024-08-14 |
# MedAugment: 医用画像解析のためのユニバーサル自動データ拡張プラグイン
MedAugment: Universal Automatic Data Augmentation Plug-in for Medical Image Analysis ( http://arxiv.org/abs/2306.17466v4 ) ライセンス: Link先を確認 | Zhaoshan Liu, Qiujie Lv, Yifan Li, Ziduo Yang, Lei Shen, | (参考訳) データ拡張(DA)は、データ不足を軽減するためにコンピュータビジョンで広く活用されているが、医療画像分析(MIA)におけるDAは、複数の課題に直面している。
MIAにおける一般的なDAアプローチは、従来のDA、合成DA、自動DAを含む。
しかし、これらの手法を利用することで、経験駆動設計や集中的な計算コストといった様々な課題が生じる。
本稿では,MedAugmentと呼ばれる,効率的かつ効果的な自動DA手法を提案する。
画像診断の精度を損なうような重度の色歪みや構造変化などの医学的詳細や特徴を損なうことができる操作を除外し,ピクセル増量空間と空間増量空間を提案する。
さらに,2つの空間から限られた数の操作をサンプリングすることで,新しいサンプリング手法を提案する。
さらに,MedAugmentを1つのハイパーパラメータで完全に制御可能にし,合理的な拡張レベルを生成するために,ハイパーパラメータマッピング関係を提案する。
これらの構成は、輝度やポスター化などの特定の属性に対する感度が高いなど、自然画像と医療画像の違いを解決している。
4つの分類と4つのセグメンテーションデータセットの大規模な実験結果は、MedAugmentの優位性を示している。
既存のアプローチと比較して、提案されたMedAugmentは、色歪みや構造変化を発生させることなく、無視可能な計算オーバーヘッドを伴わずに、医療画像のより適切な一般的な処理パイプラインとして機能する。
本手法は追加の訓練段階を伴わずに任意のプロジェクトのためのプラグインとして機能し,医学分野,特に深層学習の基盤が確立されていない医療専門家に有用な貢献を行う可能性を秘めている。
コードはhttps://github.com/NUS-Tim/MedAugment.comで入手できる。
Data augmentation (DA) has been widely leveraged in computer vision to alleviate the data shortage, whereas the DA in medical image analysis (MIA) faces multiple challenges. The prevalent DA approaches in MIA encompass conventional DA, synthetic DA, and automatic DA. However, utilizing these approaches poses various challenges such as experience-driven design and intensive computation cost. Here, we propose an efficient and effective automatic DA method termed MedAugment. We propose a pixel augmentation space and spatial augmentation space and exclude the operations that can break medical details and features, such as severe color distortions or structural alterations that can compromise image diagnostic value. Besides, we propose a novel sampling strategy by sampling a limited number of operations from the two spaces. Moreover, we present a hyperparameter mapping relationship to produce a rational augmentation level and make the MedAugment fully controllable using a single hyperparameter. These configurations settle the differences between natural and medical images, such as high sensitivity to certain attributes such as brightness and posterize. Extensive experimental results on four classification and four segmentation datasets demonstrate the superiority of MedAugment. Compared with existing approaches, the proposed MedAugment serves as a more suitable yet general processing pipeline for medical images without producing color distortions or structural alterations and involving negligible computational overhead. We emphasize that our method can serve as a plugin for arbitrary projects without any extra training stage, thereby holding the potential to make a valuable contribution to the medical field, particularly for medical experts without a solid foundation in deep learning. Code is available at https://github.com/NUS-Tim/MedAugment. | 翻訳日:2024-08-15 18:46:43 公開日:2024-08-14 |
# スティフェル多様体上の半教師付きラプラス学習
Semi-Supervised Laplace Learning on Stiefel Manifolds ( http://arxiv.org/abs/2308.00142v2 ) ライセンス: Link先を確認 | Chester Holtz, Pengwen Chen, Alexander Cloninger, Chung-Kuan Cheng, Gal Mishne, | (参考訳) 低ラベルレートでの標準ラプラス学習アルゴリズムのデジェネリティーに対処する必要性から,我々はグラフに基づく半教師付き学習を,非凸な一般化である \emph{Trust-Region Subproblem} (TRS) の一般化として再構成することを提案する。
この再構成は、無限ラベルなしデータの極限におけるラプラシアン固有ベクトルの正当性によって動機付けられている。
この問題を解決するために、一階条件は多様体アライメント問題の解を暗示し、古典的な \emph{Orthogonal Procrustes} 問題に対する解は、さらなる洗練に寄与する優れた分類器を効率的に見つけるために利用できることを示す。
改良に取り組むため,グラフベースのSSLのための逐次部分空間最適化フレームワークを開発した。
次に、低ラベルレートで教師付きサンプルを選択することの臨界性について述べる。
グラフラプラシアンのある部分行列の主固有ベクトルから導かれる新しい集中度尺度で情報的サンプルを特徴づける。
本稿では,近年の最先端・古典的半教師あり学習手法と比較して,極めて低,中,高ラベル率で分類誤差が低いことを実証する。
Motivated by the need to address the degeneracy of canonical Laplace learning algorithms in low label rates, we propose to reformulate graph-based semi-supervised learning as a nonconvex generalization of a \emph{Trust-Region Subproblem} (TRS). This reformulation is motivated by the well-posedness of Laplacian eigenvectors in the limit of infinite unlabeled data. To solve this problem, we first show that a first-order condition implies the solution of a manifold alignment problem and that solutions to the classical \emph{Orthogonal Procrustes} problem can be used to efficiently find good classifiers that are amenable to further refinement. To tackle refinement, we develop the framework of Sequential Subspace Optimization for graph-based SSL. Next, we address the criticality of selecting supervised samples at low-label rates. We characterize informative samples with a novel measure of centrality derived from the principal eigenvectors of a certain submatrix of the graph Laplacian. We demonstrate that our framework achieves lower classification error compared to recent state-of-the-art and classical semi-supervised learning methods at extremely low, medium, and high label rates. | 翻訳日:2024-08-15 18:46:43 公開日:2024-08-14 |
# 視覚異常検出のためのパッチワイズ自動エンコーダ
Patch-wise Auto-Encoder for Visual Anomaly Detection ( http://arxiv.org/abs/2308.00429v2 ) ライセンス: Link先を確認 | Yajie Cui, Zhaoxiang Liu, Shiguo Lian, | (参考訳) 異常の前兆のない異常検出は困難である。
教師なし異常検出の分野では、従来のオートエンコーダ(AE)は、通常の画像のみをトレーニングすることで、異常画像を正しく再構成できないという仮定に基づいて失敗する傾向にある。
これに対し,パッチワイド自動エンコーダ(パッチAE)フレームワークを提案する。
画像の各パッチは、学習した特徴表現の空間分布の特徴ベクトル、すなわちパッチワイド再構成によって再構成され、AEの異常感度が保証される。
私たちの方法はシンプルで効率的です。
Mvtec ADベンチマークの最先端性能を向上し,本モデルの有効性を実証する。
これは、実用的な産業応用シナリオにおいて大きな可能性を示しています。
Anomaly detection without priors of the anomalies is challenging. In the field of unsupervised anomaly detection, traditional auto-encoder (AE) tends to fail based on the assumption that by training only on normal images, the model will not be able to reconstruct abnormal images correctly. On the contrary, we propose a novel patch-wise auto-encoder (Patch AE) framework, which aims at enhancing the reconstruction ability of AE to anomalies instead of weakening it. Each patch of image is reconstructed by corresponding spatially distributed feature vector of the learned feature representation, i.e., patch-wise reconstruction, which ensures anomaly-sensitivity of AE. Our method is simple and efficient. It advances the state-of-the-art performances on Mvtec AD benchmark, which proves the effectiveness of our model. It shows great potential in practical industrial application scenarios. | 翻訳日:2024-08-15 18:46:43 公開日:2024-08-14 |
# 4次元エネルギー-モーメント空間におけるヴェイユ単極子のローレンツ不変性とガウスの法則によるベリー・マクスウェル方程式の構成
Constructing Berry-Maxwell equations with Lorentz invariance and Gauss' law of Weyl monopoles in 4D energy-momentum space ( http://arxiv.org/abs/2308.00612v2 ) ライセンス: Link先を確認 | Yiming Pan, Ruoyu Yin, | (参考訳) 本稿では,Berry曲率を4次元(4次元)エネルギー-モーメント空間に拡張した相互電磁場の構築について述べる。
ベリー・マクスウェル方程式(英: Berry-Maxwell equations)は、エネルギー運動量のパラメータ空間を制約するためにローレンツ不変性(英語版)(Lorentz invariance)を組み込むことによって導かれる方程式である。
特に、これらのベリー・マクスウェル方程式はマクスウェル方程式と比較して双対構造と自己双対構造を示す。
ベリー・マクスウェル方程式の真の存在は、物質波の幾何学的位相とは独立であり、時間依存のシュリンガー方程式から直接は導出できないことを意味する。
実際、この相互電磁場の物理的現実は、特殊相対性理論の基本原理とワイル・モノポールのガウスの法則に根ざしている。
我々の理論を実験的に検証するために、検証の3つの効果を概説する。
(i)ワイルモノポールのローレンツブースト
(二 互恵的Thouless pumping,及び
3)ベリー・マクスウェル方程式の平面波解。
We present the construction of a reciprocal electromagnetic field by extending the Berry curvatures into four-dimensional (4D) energy-momentum space. The resulting governing equations, termed Berry-Maxwell equations, are derived, by incorporating Lorentz invariance to constrain the parameter space of energy-momentum. Notably, these Berry-Maxwell equations exhibit dual and self-dual structures compared to the Maxwell equations. The very existence of Berry-Maxwell equations is independent of the geometrical phase of matter waves, implying that they cannot be directly derived from the time-dependent Schr\"odinger equation. Indeed, we find that the physical reality of this reciprocal electromagnetic field is rooted in the fundamental principles of special relativity and Gauss's law of Weyl monopoles. To validate our theory experimentally, we outline three effects for verification: (i) Lorentz boost of a Weyl monopole, (ii) reciprocal Thouless pumping, and (iii) plane-wave solutions of Berry-Maxwell's equations. | 翻訳日:2024-08-15 18:46:43 公開日:2024-08-14 |
# SSL-SoilNet:大規模土壌有機炭素予測のための自己監督学習型ハイブリッドトランスフォーマーベースフレームワーク
SSL-SoilNet: A Hybrid Transformer-based Framework with Self-Supervised Learning for Large-scale Soil Organic Carbon Prediction ( http://arxiv.org/abs/2308.03586v3 ) ライセンス: Link先を確認 | Nafiseh Kakhani, Moien Rangzan, Ali Jamali, Sara Attarchi, Seyed Kazem Alavipanah, Michael Mommert, Nikolaos Tziolas, Thomas Scholten, | (参考訳) 土壌有機炭素(SOC)は地球生態系の機能の基本的な構成要素であり、栄養循環、水力収支、浸食緩和において重要な役割を担っている。
SOC分布の精密マッピングは生態系サービスの定量化に不可欠である。
デジタル土壌マッピング(DSM)は、機械学習(ML)を含む統計モデルと先進技術を活用して、衛星画像、地形、リモートセンシング指標、気候系列などの多様なデータソースを活用して、SOCのような土壌特性を正確にマッピングする。
MLの領域内では、ラベルのないデータを活用する自己教師付き学習(SSL)が近年人気を集めている。
本研究では,自己指導型コントラスト学習によるマルチモーダル特徴の地理的関係の学習を目的とした,事前学習型視覚変換器(ViT)と気候データ型変換器(Transformer)を併用する手法を提案する。
提案手法は、ラベル付きデータのみに依存する従来の教師付き学習モデルよりも優れていることを示すとともに、2つの異なる大規模データセットに対して厳密なテストを行っている。
さらに,様々な評価指標(例えば,RMSE,MAE,CCなど)を活用することにより,ランダムフォレストや勾配向上といった従来のMLアルゴリズムと比較して精度が向上する。
このモデルは、SOC予測のための堅牢なツールであり、DSM技術の進歩に寄与し、正確な情報に基づく土地管理と意思決定プロセスを容易にする。
Soil Organic Carbon (SOC) constitutes a fundamental component of terrestrial ecosystem functionality, playing a pivotal role in nutrient cycling, hydrological balance, and erosion mitigation. Precise mapping of SOC distribution is imperative for the quantification of ecosystem services, notably carbon sequestration and soil fertility enhancement. Digital soil mapping (DSM) leverages statistical models and advanced technologies, including machine learning (ML), to accurately map soil properties, such as SOC, utilizing diverse data sources like satellite imagery, topography, remote sensing indices, and climate series. Within the domain of ML, self-supervised learning (SSL), which exploits unlabeled data, has gained prominence in recent years. This study introduces a novel approach that aims to learn the geographical link between multimodal features via self-supervised contrastive learning, employing pretrained Vision Transformers (ViT) for image inputs and Transformers for climate data, before fine-tuning the model with ground reference samples. The proposed approach has undergone rigorous testing on two distinct large-scale datasets, with results indicating its superiority over traditional supervised learning models, which depends solely on labeled data. Furthermore, through the utilization of various evaluation metrics (e.g., RMSE, MAE, CCC, etc.), the proposed model exhibits higher accuracy when compared to other conventional ML algorithms like random forest and gradient boosting. This model is a robust tool for predicting SOC and contributes to the advancement of DSM techniques, thereby facilitating land management and decision-making processes based on accurate information. | 翻訳日:2024-08-15 18:46:43 公開日:2024-08-14 |
# MM-GEF:Multi-modal representation meet collaboration filtering
MM-GEF: Multi-modal representation meet collaborative filtering ( http://arxiv.org/abs/2308.07222v2 ) ライセンス: Link先を確認 | Hao Wu, Alejandro Ariza-Casabona, Bartłomiej Twardowski, Tri Kurniawan Wijaya, | (参考訳) 現代のeコマースでは、様々なモダリティのアイテムコンテンツ機能は、正確かつ包括的な情報をレコメンデーターシステムに提供します。
これまでの研究の大部分は、ユーザとイテムの相互作用をモデル化する際の効果的なアイテム表現の学習や、マルチモーダルな特徴の分析によるアイテムとイテムの関係の探索に重点を置いていた。
しかし、これらの手法は、協調的なアイテム-ユーザ-イテム関係をマルチモーダルな特徴ベースのアイテム構造に組み込むことができない。
本研究は,グラフに基づく項目構造拡張手法MM-GEFの提案である。グラフアーリーフュージョンを用いたマルチモーダルレコメンデーションは,複数モーダルコンテンツに基づく潜在項目構造と協調的な信号とを効果的に結合する。
異なるモダリティでコンテンツ特徴を個別に処理する代わりに、マルチモーダル機能の早期融合が大きな改善をもたらすことを示す。
MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。
公開されている4つのデータセットに対する広範な実験を通じて、最先端のマルチモーダルレコメンデーション手法よりも、提案手法の体系的な改善を実証する。
In modern e-commerce, item content features in various modalities offer accurate yet comprehensive information to recommender systems. The majority of previous work either focuses on learning effective item representation during modelling user-item interactions, or exploring item-item relationships by analysing multi-modal features. Those methods, however, fail to incorporate the collaborative item-user-item relationships into the multi-modal feature-based item structure. In this work, we propose a graph-based item structure enhancement method MM-GEF: Multi-Modal recommendation with Graph Early-Fusion, which effectively combines the latent item structure underlying multi-modal contents with the collaborative signals. Instead of processing the content feature in different modalities separately, we show that the early-fusion of multi-modal features provides significant improvement. MM-GEF learns refined item representations by injecting structural information obtained from both multi-modal and collaborative signals. Through extensive experiments on four publicly available datasets, we demonstrate systematical improvements of our method over state-of-the-art multi-modal recommendation methods. | 翻訳日:2024-08-15 18:46:43 公開日:2024-08-14 |
# モニタリングされていない場所での時系列予測:水資源における機械学習技術の調査
Time Series Predictions in Unmonitored Sites: A Survey of Machine Learning Techniques in Water Resources ( http://arxiv.org/abs/2308.09766v3 ) ライセンス: Link先を確認 | Jared D. Willard, Charuleka Varadharajan, Xiaowei Jia, Vipin Kumar, | (参考訳) モニタリングされていない場所での動的環境変数の予測は、水資源科学の長年の課題である。
世界の淡水資源の大部分は、管理に必要な重要な環境変数のモニタリングが不十分である。
しかし、過去数十年間の気候・土地利用の変化とそれに伴う水資源への影響により、河川流動や水質などの水文学変数の広範な予測の必要性がますます急激化している。
現代の機械学習手法は、大規模で多様なデータセットから情報を抽出する能力によって、水文時系列予測のためのプロセスベースで経験的なモデルよりも、ますます優れている。
流れ,水質,その他の水資源予測のための機械学習の最先端技術応用について検討し,深層学習モデルへの流域特性の組み込み,伝達学習,機械学習モデルへのプロセス知識の組み込みといった新たな手法により,機械学習の利用を改善する機会について論じる。
この分析は、米国の日々の時間スケールでの予測のために多くのサイト上に構築されたディープラーニング学習フレームワークに、これまでのほとんどの取り組みが焦点を当てていることを示唆している。
我々は、動的入力とサイト特性、機械的理解と空間的文脈、現代の機械学習フレームワークにおける説明可能なAI技術を含む、監視されていないサイトの時系列予測に関するいくつかのオープンな質問を識別する。
Prediction of dynamic environmental variables in unmonitored sites remains a long-standing challenge for water resources science. The majority of the world's freshwater resources have inadequate monitoring of critical environmental variables needed for management. Yet, the need to have widespread predictions of hydrological variables such as river flow and water quality has become increasingly urgent due to climate and land use change over the past decades, and their associated impacts on water resources. Modern machine learning methods increasingly outperform their process-based and empirical model counterparts for hydrologic time series prediction with their ability to extract information from large, diverse data sets. We review relevant state-of-the art applications of machine learning for streamflow, water quality, and other water resources prediction and discuss opportunities to improve the use of machine learning with emerging methods for incorporating watershed characteristics into deep learning models, transfer learning, and incorporating process knowledge into machine learning models. The analysis here suggests most prior efforts have been focused on deep learning learning frameworks built on many sites for predictions at daily time scales in the United States, but that comparisons between different classes of machine learning methods are few and inadequate. We identify several open questions for time series predictions in unmonitored sites that include incorporating dynamic inputs and site characteristics, mechanistic understanding and spatial context, and explainable AI techniques in modern machine learning frameworks. | 翻訳日:2024-08-15 18:46:43 公開日:2024-08-14 |
# 組織像分割のための変圧器モデルのロバストトレーニングのための切替補助損失
Switched auxiliary loss for robust training of transformer models for histopathological image segmentation ( http://arxiv.org/abs/2308.10994v2 ) ライセンス: Link先を確認 | Mustaffa Hussain, Saharsh Barve, | (参考訳) 機能組織ユニット(FTU)は、その機能を行う特定の臓器に局所的な細胞集団である。FTUは、細胞レベルで情報を提供することで、特定の臓器に影響を及ぼす疾患を理解する上で、病理学者に重要な情報を提供する。我々は、「HuBMAP+HPA-HuBMAP-HPA-HPA-HuBMAP-HPA-HuBMAP+HPA-HuBMAP+HPA-HuBMAP-HuBMAP+HPA-HuBMAP-HuBMAP+HPA-HuBMAP-HuBMAP+HPA-HuBMAP-HuBMAP-HuBMAP-HuBMAP+HPA-HuBMAP-HuBMAP-HuBMAP+HPA-HuBMAP-HuBMAP-HuBMAP-HuBMAP-HuBMAP-HPA-HuBMAP-HuBMAP-HuBMAP-HuBMAP-HuBMAP-HuBMAP-HuBMAP-HuBMAP-H uBMAP-HPA-HPA-HuBMAP-HuBMAP-HPA-HuBMAP-HPA-HuBMAP)を用いて、多臓器FTUを5臓器に分割するモデルを開発した。
Functional tissue Units (FTUs) are cell population neighborhoods local to a particular organ performing its main function.The FTUs provide crucial information to the pathologist in understanding the disease affecting a particular organ by providing information at the cellular level.In our research, we have developed a model to segment multi-organ FTUs across 5 organs namely: the kidney, large intestine, lung, prostate and spleen by utilizing the 'HuBMAP + HPA - Hacking the Human Body' competition dataset.We propose adding switched auxiliary loss for training models like the transformers to overcome the diminishing gradient problem which poses a challenge towards optimal training of deep models.Overall, our model achieved a dice score of 0.793 on the public dataset and 0.778 on the private dataset.The results supports the robustness of the proposed training methodology.The findings also bolster the use of transformers models for dense prediction tasks in the field of medical image analysis.The study assists in understanding the relationships between cell and tissue organization thereby providing a useful medium to look at the impact of cellular functions on human health. | 翻訳日:2024-08-15 18:36:49 公開日:2024-08-14 |
# ギャップを埋める: 高品質アニメーション・スケッチインタイニングのためのスケッチ対応補間ネットワーク
Bridging the Gap: Sketch-Aware Interpolation Network for High-Quality Animation Sketch Inbetweening ( http://arxiv.org/abs/2308.13273v2 ) ライセンス: Link先を確認 | Jiaming Shen, Kun Hu, Wei Bao, Chang Wen Chen, Zhiyong Wang, | (参考訳) 手書きの2Dアニメーションワークフローは、通常、スケッチキーフレームの作成から始まる。
その後のマニュアルインベンツは、労働集約的なプロセスである滑らかさのために製作され、自動アニメーションスケッチ補間が注目されている。
しかし、一般的なフレーム補間法は一般的に2つの主要な問題によって妨げられている。
1)スケッチにおけるテクスチャと色の詳細の制限
2)2つのスケッチキーフレーム間の大げさな変更。
これらの課題を克服するために,新しい深層学習手法であるSketch-Aware Interpolation Network (SAIN)を提案する。
このアプローチには、領域レベルの対応、ストロークレベルの対応、ピクセルレベルのダイナミクスを定式化するマルチレベルガイダンスが組み込まれている。
マルチストリームのU-Transformerは、自己/クロスアテンション機構の統合により、これらのマルチレベルガイドを使用して、スケッチ間のインテンションパターンを特徴付けるように設計されている。
さらに,アニメーションのスケッチを取り入れた将来的な研究を促進するために,30のスケッチアニメーションシリーズを多種多様な芸術スタイルで構成した大規模データセットSTD-12Kを構築した。
このデータセットに関する総合的な実験により、提案したSAINが最先端の補間法を超越したことを示す。
Hand-drawn 2D animation workflow is typically initiated with the creation of sketch keyframes. Subsequent manual inbetweens are crafted for smoothness, which is a labor-intensive process and the prospect of automatic animation sketch interpolation has become highly appealing. Yet, common frame interpolation methods are generally hindered by two key issues: 1) limited texture and colour details in sketches, and 2) exaggerated alterations between two sketch keyframes. To overcome these issues, we propose a novel deep learning method - Sketch-Aware Interpolation Network (SAIN). This approach incorporates multi-level guidance that formulates region-level correspondence, stroke-level correspondence and pixel-level dynamics. A multi-stream U-Transformer is then devised to characterize sketch inbetweening patterns using these multi-level guides through the integration of self / cross-attention mechanisms. Additionally, to facilitate future research on animation sketch inbetweening, we constructed a large-scale dataset - STD-12K, comprising 30 sketch animation series in diverse artistic styles. Comprehensive experiments on this dataset convincingly show that our proposed SAIN surpasses the state-of-the-art interpolation methods. | 翻訳日:2024-08-15 18:36:49 公開日:2024-08-14 |
# 自己監督型スケーラブルディープ圧縮センシング
Self-Supervised Scalable Deep Compressed Sensing ( http://arxiv.org/abs/2308.13777v2 ) ライセンス: Link先を確認 | Bin Chen, Xuanyu Zhang, Shuai Liu, Yongbing Zhang, Jian Zhang, | (参考訳) 圧縮センシング(CS)はサンプリングコストを削減するための有望なツールである。
現在のディープニューラルネットワーク(NN)ベースのCS手法は、ラベル付き測定地上真実(GT)データを収集し、実際のアプリケーションに一般化するという課題に直面している。
本稿では、$\mathbf{S}$elf-supervised s$\mathbf{C}$alable deep CS methodを提案し、$\mathbf{L}$earning scheme called $\mathbf{SCL}$と$\mathbf{Net}$worksのファミリーからなる。
我々のSCLは二重ドメイン損失と4段階回復戦略を含んでいる。
前者は、データ/情報利用を最大化するために、2つの測定部における交差一貫性と、任意の比率と行列に関するサンプリング・再構成サイクル一貫性を奨励する。
後者は、テストサンプルと学習NNの内部特性の外部測定に先立って、共通信号を徐々に活用して精度を向上させることができる。
SCNetは最適化アルゴリズムからの明示的なガイダンスと高度なNNブロックからの暗黙の正規化を組み合わせて、協調的な信号表現を学ぶ。
1-/2-/3-Dの自然および科学的な信号をカバーする実捕集データに関する理論的解析と実験により,既存の自己監督手法に対する手法の有効性,優れた性能,柔軟性,一般化能力を実証し,最先端の監視手法と競合する大きな可能性を示した。
コードはhttps://github.com/Guaishou74851/SCNetで入手できる。
Compressed sensing (CS) is a promising tool for reducing sampling costs. Current deep neural network (NN)-based CS methods face the challenges of collecting labeled measurement-ground truth (GT) data and generalizing to real applications. This paper proposes a novel $\mathbf{S}$elf-supervised s$\mathbf{C}$alable deep CS method, comprising a deep $\mathbf{L}$earning scheme called $\mathbf{SCL}$ and a family of $\mathbf{Net}$works named $\mathbf{SCNet}$, which does not require GT and can handle arbitrary sampling ratios and matrices once trained on a partial measurement set. Our SCL contains a dual-domain loss and a four-stage recovery strategy. The former encourages a cross-consistency on two measurement parts and a sampling-reconstruction cycle-consistency regarding arbitrary ratios and matrices to maximize data/information utilization. The latter can progressively leverage common signal prior in external measurements and internal characteristics of test samples and learned NNs to improve accuracy. SCNet combines both the explicit guidance from optimization algorithms with implicit regularization from advanced NN blocks to learn a collaborative signal representation. Our theoretical analyses and experiments on simulated and real captured data, covering 1-/2-/3-D natural and scientific signals, demonstrate the effectiveness, superior performance, flexibility, and generalization ability of our method over existing self-supervised methods and its significant potential in competing against state-of-the-art supervised methods. Code is available at https://github.com/Guaishou74851/SCNet. | 翻訳日:2024-08-15 18:36:49 公開日:2024-08-14 |
# 機械学習による山の天気予報の補間
Interpolation of mountain weather forecasts by machine learning ( http://arxiv.org/abs/2308.13983v3 ) ライセンス: Link先を確認 | Kazuma Iwase, Tomoyuki Takenawa, | (参考訳) 物理モデルに基づく数値シミュレーション手法の進歩と機械学習の組み合わせにより,天気予報の精度が向上した。
しかし、これらの手法は通常、数km2の格子と単純な機械学習モデルを使用するため、山岳地帯のような複雑な地形では精度が低下する。
近年,ディープラーニングも大きな進歩を遂げているが,シミュレーションで使用する物理知識の活用は困難である。
本研究では,山間地域の天気予報データと過去の観測データを用いて,機械学習を用いて山間地域の天気予報を補間する手法を提案する。
本研究は,日本の山岳地域に着目し,主に光GBMを機械学習モデルとして,気温と降水量の予測を行う。
少数のデータセットを用いても,機能工学やモデルチューニングを通じて,RMSEの改良を部分的に達成し,トレーニング時間を大幅に短縮する。
Recent advances in numerical simulation methods based on physical models and their combination with machine learning have improved the accuracy of weather forecasts. However, the accuracy decreases in complex terrains such as mountainous regions because these methods usually use grids of several kilometers square and simple machine learning models. While deep learning has also made significant progress in recent years, its direct application is difficult to utilize the physical knowledge used in the simulation. This paper proposes a method that uses machine learning to interpolate future weather in mountainous regions using forecast data from surrounding plains and past observed data to improve weather forecasts in mountainous regions. We focus on mountainous regions in Japan and predict temperature and precipitation mainly using LightGBM as a machine learning model. Despite the use of a small dataset, through feature engineering and model tuning, our method partially achieves improvements in the RMSE with significantly less training time. | 翻訳日:2024-08-15 18:36:49 公開日:2024-08-14 |
# マジック角度ツイスト二層グラフェンの動的相関と秩序
Dynamical correlations and order in magic-angle twisted bilayer graphene ( http://arxiv.org/abs/2309.08529v2 ) ライセンス: Link先を確認 | Gautam Rai, Lorenzo Crippa, Dumitru Călugăru, Haoyu Hu, Francesca Paoletti, Luca de' Medici, Antoine Georges, B. Andrei Bernevig, Roser Valentí, Giorgio Sangiovanni, Tim Wehling, | (参考訳) マジック角度ツイストされた二層グラフェンでは、輸送、熱力学および分光実験は、電子秩序と非電子秩序の異なる低エネルギー状態の競合に目を向ける。
我々は、ねじれた二層グラフェンのトポロジカル重フェルミオン(THF)モデル上で、動的平均場理論(DMFT)を用いて、ひずみのない電子相関と長距離秩序の出現を調査する。
我々は,モーメント形成,近藤検定,秩序を温度ベースで比較し,三つの中心現象に基づく創発的相関状態の性質を説明する。
(i)100K前後の局所スピンと谷のアイソスピンモーメントの形成
(二)近藤検定を先取りする10K前後の局所的なイソスピンモーメントの順序
三 ドーピング時に、局所化された電子状態と非局在化された電子状態との間の電荷の再分配
整数充填では、低エネルギースペクトルの重量が対称相で減少するのに対して、ゼロひずみ秩序相の交換結合によって増強されたギャップを持つ絶縁状態が見つかる。
崩壊した局所モーメントの散乱によって電子的コヒーレンスが抑制される「バッドメタル」と、イソスピン秩序によって促進される準粒子のコヒーレンスを伴う秩序状態の「グッドメタル」である。
この発見は、実験で観察されたポメラヌク効果の背後にある顕微鏡メカニズムとしての秩序からのコヒーレンスを明らかにする。
ドーピングの際には、ドーピング誘起リフシッツ転移のカスケードにつながる局在電子軌道と非局在電子軌道の間に周期的な電荷リシャフリングが存在する。
本研究は, 走査トンネル分光法, 輸送法, 圧縮性実験の最も厄介な側面を統一的に把握するものである。
In magic angle twisted bilayer graphene, transport, thermodynamic and spectroscopic experiments pinpoint at a competition between distinct low-energy states with and without electronic order. We use Dynamical Mean Field Theory (DMFT) on the topological heavy Fermion (THF) model of twisted bilayer graphene to investigate the emergence of electronic correlations and long-range order in the absence of strain. We contrast moment formation, Kondo screening and ordering on a temperature basis and explain the nature of emergent correlated states based on three central phenomena: (i) the formation of local spin and valley isospin moments around 100K, (ii) the ordering of the local isospin moments around 10K preempting Kondo screening, and (iii) a cascadic redistribution of charge between localized and delocalized electronic states upon doping. At integer fillings, we find that low energy spectral weight is depleted in the symmetric phase, while we find insulating states with gaps enhanced by exchange coupling in the zero-strain ordered phases. Doping away from integer filling results in distinct metallic states: a "bad metal" above the ordering temperature, where scattering off the disordered local moments suppresses electronic coherence, and a "good metal" in the ordered states with coherence of quasiparticles facilitated by isospin order. This finding reveals coherence from order as the microscopic mechanism behind the Pomeranchuk effect observed experimentally. Upon doping, there is a periodic charge reshuffling between localized and delocalized electronic orbitals leading to cascades of doping-induced Lifshitz transitions, local spectral weight redistributions and periodic variations of the electronic compressibility. Our findings provide a unified understanding of the most puzzling aspects of scanning tunneling spectroscopy, transport, and compressibility experiments. | 翻訳日:2024-08-15 18:36:49 公開日:2024-08-14 |
# DynaMoN:動的ニューラルラジアンス場のための高速かつロバストなカメラローカライゼーション
DynaMoN: Motion-Aware Fast and Robust Camera Localization for Dynamic Neural Radiance Fields ( http://arxiv.org/abs/2309.08927v3 ) ライセンス: Link先を確認 | Nicolas Schischka, Hannah Schieber, Mert Asim Karaoglu, Melih Görgülü, Florian Grötzner, Alexander Ladikos, Daniel Roth, Nassir Navab, Benjamin Busam, | (参考訳) ニューラルレイディアンス場を用いた動的シーンの正確な再構成は、カメラポーズの推定に大きく依存する。
広範に使用されている移動パイプラインは、シーンの内容とカメラの動きの異なるダイナミクスに直面した場合に、カメラ軌跡を正確に追跡することが困難である。
この課題に対処するために、動的ニューラルレージアンスフィールド(DynaMoN)のためのダイナミックモーション対応高速・ロバストカメラローカライゼーションを提案する。
DynaMoNは、セマンティックセグメンテーションとジェネリックモーションマスクを使用して、動的コンテンツを扱う。
我々の新しい反復学習方式は、NeRFのトレーニングとポーズパラメータの更新を切り替えて、改良された再構成と軌道推定の品質を向上する。
提案したパイプラインは,トレーニングプロセスの大幅な加速を示す。
我々は,TUM RGB-DデータセットとBONN RGB-D Dynamicデータセットの2つの実世界の動的データセットに対するアプローチを広く評価した。
DynaMoNは、再構築品質と軌道精度の両面で最先端の技術を向上する。
この分野での研究を強化するために、コードを公開する予定です。
The accurate reconstruction of dynamic scenes with neural radiance fields is significantly dependent on the estimation of camera poses. Widely used structure-from-motion pipelines encounter difficulties in accurately tracking the camera trajectory when faced with separate dynamics of the scene content and the camera movement. To address this challenge, we propose Dynamic Motion-Aware Fast and Robust Camera Localization for Dynamic Neural Radiance Fields (DynaMoN). DynaMoN utilizes semantic segmentation and generic motion masks to handle dynamic content for initial camera pose estimation and statics-focused ray sampling for fast and accurate novel-view synthesis. Our novel iterative learning scheme switches between training the NeRF and updating the pose parameters for an improved reconstruction and trajectory estimation quality. The proposed pipeline shows significant acceleration of the training process. We extensively evaluate our approach on two real-world dynamic datasets, the TUM RGB-D dataset and the BONN RGB-D Dynamic dataset. DynaMoN improves over the state-of-the-art both in terms of reconstruction quality and trajectory accuracy. We plan to make our code public to enhance research in this area. | 翻訳日:2024-08-15 18:36:49 公開日:2024-08-14 |
# RL-I2IT:深層強化学習による画像間翻訳
RL-I2IT: Image-to-Image Translation with Deep Reinforcement Learning ( http://arxiv.org/abs/2309.13672v6 ) ライセンス: Link先を確認 | Xin Wang, Ziwei Luo, Jing Hu, Chengming Feng, Shu Hu, Bin Zhu, Xi Wu, Hongtu Zhu, Xin Li, Siwei Lyu, | (参考訳) 既存の画像から画像への変換(I2IT)手法は、ディープラーニング(DL)モデルの単一実行で画像を生成する。
しかし、そのような単一ステップモデルの設計は常に困難であり、大量のパラメータが必要であり、すぐに悪いグローバルな最小値に陥り、過度に適合する。
本稿では,深部強化学習(DRL)による段階的意思決定問題としてI2ITを再構成し,RLに基づくI2IT(RL-I2IT)を実現する新しいフレームワークを提案する。
RL-I2ITフレームワークのキーとなる特徴は、モノリシックな学習プロセスを軽量なモデルで小さなステップに分解して、ソースイメージをターゲットイメージに順次変換することである。
従来のRLフレームワークでは,高次元連続状態やアクション空間の扱いが困難なことを考えると,従来のイメージよりも低次元で,かつ,引き込み可能な高次元アクションを生成することができる標準的なアクター・クライブモデルに対して,新しい概念プランによるメタポリシーを導入する。
RL-I2ITフレームワークでは、トレーニングプロセスを安定させ、対応するタスクの性能を向上させるために、タスク固有の補助学習戦略も採用している。
いくつかのI2ITタスクの実験は、高次元連続行動空間問題に直面する際の提案手法の有効性とロバスト性を示している。
RL-I2ITフレームワークの実装はhttps://github.com/Algolzw/SPAC-Deformable-Registrationで公開しています。
Most existing Image-to-Image Translation (I2IT) methods generate images in a single run of a deep learning (DL) model. However, designing such a single-step model is always challenging, requiring a huge number of parameters and easily falling into bad global minimums and overfitting. In this work, we reformulate I2IT as a step-wise decision-making problem via deep reinforcement learning (DRL) and propose a novel framework that performs RL-based I2IT (RL-I2IT). The key feature in the RL-I2IT framework is to decompose a monolithic learning process into small steps with a lightweight model to progressively transform a source image successively to a target image. Considering that it is challenging to handle high dimensional continuous state and action spaces in the conventional RL framework, we introduce meta policy with a new concept Plan to the standard Actor-Critic model, which is of a lower dimension than the original image and can facilitate the actor to generate a tractable high dimensional action. In the RL-I2IT framework, we also employ a task-specific auxiliary learning strategy to stabilize the training process and improve the performance of the corresponding task. Experiments on several I2IT tasks demonstrate the effectiveness and robustness of the proposed method when facing high-dimensional continuous action space problems. Our implementation of the RL-I2IT framework is available at https://github.com/Algolzw/SPAC-Deformable-Registration. | 翻訳日:2024-08-15 18:36:49 公開日:2024-08-14 |
# Choi-proximity regularization による非マルコフ量子力学の完全正則の復元
Recovering complete positivity of non-Markovian quantum dynamics with Choi-proximity regularization ( http://arxiv.org/abs/2309.16320v2 ) ライセンス: Link先を確認 | Antonio D'Abbruzzo, Donato Farina, Vittorio Giovannetti, | (参考訳) 開量子系の理論における関連する問題は、弱カップリング近似の後に得られる力学写像の完全正則性の欠如であり、有名な例がレッドフィールド・マスター方程式である。
追加のマルコフの仮定の下で、明確に定義された進化を取り戻すための多くのアプローチが存在するが、この体制を超えては知られていない。
ここでは、任意の原動力学写像のマルコフ的でない特徴を保ちながら、全正則違反問題を解決する数値的な方法を提案する。
このアイデアは、量子プロセストモグラフィーに関する最近の研究を模倣して、非物理的Choi演算子を最も近い物理演算子に置き換えることである。
また、正則化力学は、正確な力学を再現するという点でより正確であることも示している。これにより、正則化の損失が関連する影響を与える中等結合状態において、これらのマスター方程式の利用をヒューリスティックに推し進めることができる。
A relevant problem in the theory of open quantum systems is the lack of complete positivity of dynamical maps obtained after weak-coupling approximations, a famous example being the Redfield master equation. A number of approaches exist to recover well-defined evolutions under additional Markovian assumptions, but much less is known beyond this regime. Here we propose a numerical method to cure the complete-positivity violation issue while preserving the non-Markovian features of an arbitrary original dynamical map. The idea is to replace its unphysical Choi operator with its closest physical one, mimicking recent work on quantum process tomography. We also show that the regularized dynamics is more accurate in terms of reproducing the exact dynamics: this allows to heuristically push the utilization of these master equations in moderate coupling regimes, where the loss of positivity can have relevant impact. | 翻訳日:2024-08-15 18:36:49 公開日:2024-08-14 |
# AutoCLIP:視覚言語モデルのための自動調整ゼロショット分類器
AutoCLIP: Auto-tuning Zero-Shot Classifiers for Vision-Language Models ( http://arxiv.org/abs/2309.16414v3 ) ライセンス: Link先を確認 | Jan Hendrik Metzen, Piyapat Saranrittichai, Chaithanya Kumar Mummadi, | (参考訳) CLIPのような視覚言語モデル上に構築された分類器は、幅広い画像分類タスクで顕著なゼロショット性能を示している。
従来の研究では、プロンプトテンプレートに基づいた各クラス用の記述子セットを自動生成する方法が研究されており、手作業によるテンプレートから、大きな言語モデルから得られたテンプレートから、ランダムな単語や文字で構築されたテンプレートまで、さまざまな方法が研究されている。
これまで、各エンコードされたクラス記述子からゼロショットの分類子を導出することは、ほとんど変わらない、すなわち、平均エンコードされたクラス記述子と画像符号化子のコサイン類似性を最大化するクラスに分類された。
しかし、全てのクラス記述子を等しく重み付けすることは、ある記述子は、ある画像上の視覚的手がかりと、他の画像よりも良く一致した場合に最適である。
本研究では,ゼロショット分類器の自動チューニング手法であるAutoCLIPを提案する。
AutoCLIPは、クラス記述子-画像類似性の統計に基づいて、推論時に各プロンプトテンプレートに画像毎の重みをチューニングする。
AutoCLIPは完全に教師なしで、わずかな計算オーバーヘッドしか持たず、数行のコードで簡単に実装できる。
AutoCLIPは、幅広いビジョン言語モデル、データセットでベースラインを上回り、テンプレートを一貫して、最大3%精度でプロンプトすることを示す。
Classifiers built upon vision-language models such as CLIP have shown remarkable zero-shot performance across a broad range of image classification tasks. Prior work has studied different ways of automatically creating descriptor sets for every class based on prompt templates, ranging from manually engineered templates over templates obtained from a large language model to templates built from random words and characters. Up until now, deriving zero-shot classifiers from the respective encoded class descriptors has remained nearly unchanged, i.e., classify to the class that maximizes cosine similarity between its averaged encoded class descriptors and the image encoding. However, weighing all class descriptors equally can be suboptimal when certain descriptors match visual clues on a given image better than others. In this work, we propose AutoCLIP, a method for auto-tuning zero-shot classifiers. AutoCLIP tunes per-image weights to each prompt template at inference time, based on statistics of class descriptor-image similarities. AutoCLIP is fully unsupervised, has only a minor additional computation overhead, and can be easily implemented in few lines of code. We show that AutoCLIP outperforms baselines across a broad range of vision-language models, datasets, and prompt templates consistently and by up to 3 percent point accuracy. | 翻訳日:2024-08-15 18:36:49 公開日:2024-08-14 |
# 有界離散時系列における周期点の普遍性
Universality of periodic points in bounded discrete time series ( http://arxiv.org/abs/2310.00290v6 ) ライセンス: Link先を確認 | Chikara Nakayama, Tsuyoshi Yoneda, | (参考訳) 力学系から導かれる任意の有界離散時系列を考える。
フーリエ変換を一切使わずに、対応する時系列を適切に特徴づける周期点(すなわち、リャプノフ指数とは独立)を見つける。
特に、自己回帰モデル(ホワイトノイズを伴わない)によって生成される有界離散時系列は準周期関数と等価である。
We consider arbitrary bounded discrete time series originating from dynamical system. Without any use of the Fourier transform, we find periodic points which suitably characterizes (i.e. independent of Lyapunov exponent) the corresponding time series. In particular, bounded discrete time series generated by the autoregressive model (without the white noise) is equivalent to a quasi periodic function. | 翻訳日:2024-08-15 18:36:49 公開日:2024-08-14 |
# エージェントが大規模言語モデルにジェネラルゼロショット推論を指示
Agent Instructs Large Language Models to be General Zero-Shot Reasoners ( http://arxiv.org/abs/2310.03710v2 ) ライセンス: Link先を確認 | Nicholas Crispino, Kyle Montgomery, Fankun Zeng, Dawn Song, Chenguang Wang, | (参考訳) 汎用言語理解タスクにおいて,大規模言語モデルのゼロショット推論能力を向上させる手法を提案する。
具体的には,大規模言語モデルの推論過程を指示する自律エージェントを構築する。
このアプローチにより、大規模言語モデルのゼロショット推論能力がより多くのタスクに開放されることを示す。
本研究では,生成,分類,推論にまたがる幅広いデータセットに対して,本手法の性能について検討する。
提案手法は,多くのタスクに一般化され,評価した29のデータセットのうち20の最先端のゼロショット性能が得られることを示す。
例えば、Vicuna-13b (13.3%)、Llama-2-70b-chat (23.2%)、GPT-3.5 Turbo (17.0%)など、最先端の大規模言語モデルの性能が大幅に向上する。
ゼロショットの思考に比べれば、推論の改善は目覚ましいもので、平均して10.5%の増加です。
Llama-2-70b-chat はゼロショット GPT-3.5 Turbo を 10.2% 向上させる。
We introduce a method to improve the zero-shot reasoning abilities of large language models on general language understanding tasks. Specifically, we build an autonomous agent to instruct the reasoning process of large language models. We show this approach further unleashes the zero-shot reasoning abilities of large language models to more tasks. We study the performance of our method on a wide set of datasets spanning generation, classification, and reasoning. We show that our method generalizes to most tasks and obtains state-of-the-art zero-shot performance on 20 of the 29 datasets that we evaluate. For instance, our method boosts the performance of state-of-the-art large language models by a large margin, including Vicuna-13b (13.3%), Llama-2-70b-chat (23.2%), and GPT-3.5 Turbo (17.0%). Compared to zero-shot chain of thought, our improvement in reasoning is striking, with an average increase of 10.5%. With our method, Llama-2-70b-chat outperforms zero-shot GPT-3.5 Turbo by 10.2%. | 翻訳日:2024-08-15 18:36:49 公開日:2024-08-14 |
# プログラマブル量子アニールを用いたかごめ格子上の横界等方性モデルのシミュレーション
Simulating the Transverse Field Ising Model on the Kagome Lattice using a Programmable Quantum Annealer ( http://arxiv.org/abs/2310.06698v4 ) ライセンス: Link先を確認 | Pratyankara Narasimhan, Stephan Humeniuk, Ananda Roy, Victor Drouin-Touchette, | (参考訳) 幾何学による競合する相互作用の存在は、量子スピンモデルにフラストレーションをもたらす。
その結果、このような系の基底状態は、しばしば熱効果や量子効果によって持ち上げることができる大きな縮退性を示す。
そのような例の1つは、カゴメ格子上の反強磁性イジングモデルである。
三角格子上の同じモデルが、障害機構による秩序によって小さな横磁場に対してゼロ温度で順序付けられているのに対し、加護目格子はそのような効果に抵抗し、短距離スピン相関と自明な常磁性相のみを示す。
このモデルをD-Waveの量子アニールの最新のアーキテクチャであるAdvantage2のプロトタイプに埋め込む。
高度な埋め込みと校正技術を用いて、現在利用可能なプロトタイプの全グラフ上に231箇所の開かつ周期的な境界条件が混在する加護目格子を埋め込むことができる。
前方焼鈍実験により, 有限長手場下では, エントロピーが減少する古典的なスピン液体状態と整合した3分の1の磁化プラトーが得られた。
次に、アニール・ポーズ・クエンチプロトコルを用いて、有限横方向および長手方向でのモデルの平衡から生じる実験的な状態のアンサンブルを抽出する。
これにより、部分位相図を構築し、システムが古典的なスピン液体の制約されたヒルベルト空間を、横方向の場に従えば出ることを確認できる。
この結果と従来の理論結果と量子モンテカルロシミュレーションを結びつけることで、ここで実現した量子シミュレーションの有効性の確認に役立ち、非自明な平衡量子系をシミュレートするために、D-Wave量子アニールの性能に関する洞察を抽出する。
The presence of competing interactions due to geometry leads to frustration in quantum spin models. As a consequence, the ground state of such systems often displays a large degeneracy that can be lifted due to thermal or quantum effects. One such example is the antiferromagnetic Ising model on the Kagome lattice. It was shown that while the same model on the triangular lattice is ordered at zero temperature for small transverse field due to an order by disorder mechanism, the Kagome lattice resists any such effects and exhibits only short range spin correlations and a trivial paramagnetic phase. We embed this model on the latest architecture of D-Wave's quantum annealer, the Advantage2 prototype, which uses the highly connected Zephyr graph. Using advanced embedding and calibration techniques, we are able to embed a Kagome lattice with mixed open and periodic boundary conditions of 231 sites on the full graph of the currently available prototype. Through forward annealing experiments, we show that under a finite longitudinal field the system exhibits a one-third magnetization plateau, consistent with a classical spin liquid state of reduced entropy. An anneal-pause-quench protocol is then used to extract an experimental ensemble of states resulting from the equilibration of the model at finite transverse and longitudinal field. This allows us to construct a partial phase diagram and confirm that the system exits the constrained Hilbert space of the classical spin liquid when subjected to a transverse field. We connect our results to previous theoretical results and quantum Monte Carlo simulation, which helps us confirm the validity of the quantum simulation realized here, thereby extracting insight into the performance of the D-Wave quantum annealer to simulate non-trivial quantum systems in equilibrium. | 翻訳日:2024-08-15 18:36:49 公開日:2024-08-14 |
# Idea2Img:自動画像設計と生成のためのGPT-4V(ision)による反復自己精製
Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation ( http://arxiv.org/abs/2310.08541v2 ) ライセンス: Link先を確認 | Zhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, | (参考訳) 本稿では,GPT-4V(ision)を用いたマルチモーダル反復自己複製システム「Idea to Image」を紹介し,画像の自動設計と生成を行う。
人間は反復探索により、異なるテキスト・ツー・イメージ(T2I)モデルの特徴を素早く特定できる。
これにより、高レベルのアイデアを効率的なT2Iプロンプトに変換することができ、優れた画像を生成することができる。
大規模マルチモーダルモデル(LMM)に基づくシステムを用いて,未知のモデルや環境を自己精製によって探索できる類似のマルチモーダル自己精製能力を実現することができるかを検討する。
Idea2Imgは、修正されたT2Iを周期的に生成し、ドラフト画像を合成し、探究されたT2Iモデルの特性のメモリに条件付けされた、迅速な修正のための方向性フィードバックを提供する。
反復的な自己精製により、Idean2ImgはバニラT2Iモデルに対して様々な利点をもたらす。
特に、Idean2Imgは、インターリーブされた画像テキストシーケンスで入力アイデアを処理し、設計指示でアイデアをフォローし、よりセマンティックで視覚的な品質のイメージを生成することができる。
ユーザの嗜好調査は、自動画像設計と生成におけるマルチモーダル反復自己修正の有効性を検証する。
We introduce ``Idea to Image,'' a system that enables multimodal iterative self-refinement with GPT-4V(ision) for automatic image design and generation. Humans can quickly identify the characteristics of different text-to-image (T2I) models via iterative explorations. This enables them to efficiently convert their high-level generation ideas into effective T2I prompts that can produce good images. We investigate if systems based on large multimodal models (LMMs) can develop analogous multimodal self-refinement abilities that enable exploring unknown models or environments via self-refining tries. Idea2Img cyclically generates revised T2I prompts to synthesize draft images, and provides directional feedback for prompt revision, both conditioned on its memory of the probed T2I model's characteristics. The iterative self-refinement brings Idea2Img various advantages over vanilla T2I models. Notably, Idea2Img can process input ideas with interleaved image-text sequences, follow ideas with design instructions, and generate images of better semantic and visual qualities. The user preference study validates the efficacy of multimodal iterative self-refinement on automatic image design and generation. | 翻訳日:2024-08-15 18:36:49 公開日:2024-08-14 |
# Chain-of-Factors Paper-Reviewer Matching
Chain-of-Factors Paper-Reviewer Matching ( http://arxiv.org/abs/2310.14483v2 ) ライセンス: Link先を確認 | Yu Zhang, Yanzhen Shen, SeongKu Kang, Xiusi Chen, Bowen Jin, Jiawei Han, | (参考訳) 学術会議への論文提出の急激な増加に伴い、自動的かつ正確な論文レビュアーマッチングの必要性は、これまで以上に深刻である。
この領域における従来の取り組みは、論文に対するレビュアーの専門知識の関連性を評価するための様々な要因として、セマンティックな類似性、共有トピック、論文とレビュアーの以前の著作間の引用接続などを検討した。
しかし、これらの研究のほとんどは1つの要因にのみ焦点をあてており、結果として論文レビューの妥当性が不完全である。
そこで本研究では,意味的・話題的・引用的要因を協調的に考慮した,論文レビュー者マッチングのための統一モデルを提案する。
具体的に、トレーニング中は、共通性と特徴を捉えるために、すべての要因で共有される文脈的言語モデルを指示-チューニングし、推論中は、3つの要素をチェーンして、応募された適格なレビュアーのステップバイステップで粗い検索を可能にします。
機械学習,コンピュータビジョン,情報検索,データマイニングなど,さまざまな分野にまたがる4つのデータセット(そのうちの1つは私たちによって新たに寄贈された)に関する実験は,最先端のペーパーリビューアマッチング手法や科学的事前学習言語モデルと比較して,提案したChain-of-Factorsモデルの有効性を一貫して実証している。
With the rapid increase in paper submissions to academic conferences, the need for automated and accurate paper-reviewer matching is more critical than ever. Previous efforts in this area have considered various factors to assess the relevance of a reviewer's expertise to a paper, such as the semantic similarity, shared topics, and citation connections between the paper and the reviewer's previous works. However, most of these studies focus on only one factor, resulting in an incomplete evaluation of the paper-reviewer relevance. To address this issue, we propose a unified model for paper-reviewer matching that jointly considers semantic, topic, and citation factors. To be specific, during training, we instruction-tune a contextualized language model shared across all factors to capture their commonalities and characteristics; during inference, we chain the three factors to enable step-by-step, coarse-to-fine search for qualified reviewers given a submission. Experiments on four datasets (one of which is newly contributed by us) spanning various fields such as machine learning, computer vision, information retrieval, and data mining consistently demonstrate the effectiveness of our proposed Chain-of-Factors model in comparison with state-of-the-art paper-reviewer matching methods and scientific pre-trained language models. | 翻訳日:2024-08-15 18:36:49 公開日:2024-08-14 |
# 2チャネル近藤効果への多体量子干渉経路:分子接合と量子ドットデバイスのための逆設計
Many-body quantum interference route to the two-channel Kondo effect: Inverse design for molecular junctions and quantum dot devices ( http://arxiv.org/abs/2310.14775v2 ) ライセンス: Link先を確認 | Sudeshna Sen, Andrew K. Mitchell, | (参考訳) 分子接合 -- ナノワイヤの実際の単一分子と、結合した量子ドットデバイスで実現された人工分子であれ -- は、その軌道の複雑さ、強い電子相互作用、ゲート制御、外部電子回路とのハイブリダイゼーションによる多くの身体効果など、ユニークな機能を提供する。
逆設計は、望ましい関数を最適に実行する候補構造を見つけることを伴う。
ここでは、分子接合を記述する一般化量子不純物モデルのための逆設計戦略を開発し、その例として、多体量子干渉を利用して、単純な4部位または5部位の分子構造において、2チャネルの近藤臨界点を実現することを実証する。
極めて高いコンド温度を達成できることを示し,エントロピーと輸送シグネチャを実験的に利用すべきであることを示す。
Molecular junctions -- whether actual single molecules in nanowire break junctions or artificial molecules realized in coupled quantum dot devices -- offer unique functionality due to their orbital complexity, strong electron interactions, gate control, and many-body effects from hybridization with the external electronic circuit. Inverse design involves finding candidate structures that perform a desired function optimally. Here we develop an inverse design strategy for generalized quantum impurity models describing molecular junctions, and as an example, use it to demonstrate that many-body quantum interference can be leveraged to realize the two-channel Kondo critical point in simple 4- or 5-site molecular moieties. We show that remarkably high Kondo temperatures can be achieved, meaning that entropy and transport signatures should be experimentally accessible. | 翻訳日:2024-08-15 18:26:43 公開日:2024-08-14 |
# XY表面コードにおける時間的脆弱性の緩和
Mitigating Temporal Fragility in the XY Surface Code ( http://arxiv.org/abs/2310.17697v2 ) ライセンス: Link先を確認 | Pei-Kai Tsai, Yue Wu, Shruti Puri, | (参考訳) 偏りのあるパウリノイズを補正するためにXY面コードを十分に活用するために克服しなければならない重要な課題は、標準的な論理状態の準備と測定プロトコルの間に生じる脆弱な時間境界の現象である。
この課題に対処するために、我々は、XY符号状態に配置する安定化器の測定を行う前に、局所的量子ビットを小さなグリーンベルガー・ホルン・ザイリンガー状態にエンタングする新しい論理状態準備プロトコルを提案する。
この新たな手順では、1つの格子境界に沿った高レートエラーが論理的故障を引き起こすことが証明され、標準的な状態準備手法と比較して、故障数はほぼ2次減少する。
さらに、コードは高いレートエラーの繰り返し符号と等価となり、無限にバイアスのあるノイズに対する状態準備中に50%のコード容量閾値が保証される。
単純な整合デコーダを用いて, 測定が信頼性に欠け, 実験的に現実的なバイアスが生じるフォールトトレラント体制において, しきい値, 論理誤差の両面で, 標準プロトコルよりも優れていることを確認した。
また、我々の状態準備プロトコルが、同様の脆弱な境界緩和論理状態測定にどのように逆化できるかについても論じる。
An important outstanding challenge that must be overcome in order to fully utilize the XY surface code for correcting biased Pauli noise is the phenomena of fragile temporal boundaries that arise during the standard logical state preparation and measurement protocols. To address this challenge we propose a new logical state preparation protocol based on locally entangling qubits into small Greenberger-Horne-Zeilinger-like states prior to making the stabilizer measurements that place them in the XY-code state. We prove that in this new procedure $O(\sqrt{n})$ high-rate errors along a single lattice boundary can cause a logical failure, leading to an almost quadratic reduction in the number of fault-configurations compared to the standard state-preparation approach. Moreover, the code becomes equivalent to a repetition code for high-rate errors, guaranteeing a 50% code-capacity threshold during state preparation for infinitely biased noise. With a simple matching decoder we confirm that our preparation protocol outperforms the standard one in terms of both threshold and logical error rate in the fault-tolerant regime where measurements are unreliable and at experimentally realistic biases. We also discuss how our state-preparation protocol can be inverted for similar fragile-boundary-mitigated logical-state measurement. | 翻訳日:2024-08-15 18:26:43 公開日:2024-08-14 |
# Node2Vecが学習した埋め込みを用いたコミュニティ検出保証
Community Detection Guarantees Using Embeddings Learned by Node2Vec ( http://arxiv.org/abs/2310.17712v2 ) ライセンス: Link先を確認 | Andrew Davison, S. Carlyle Morgan, Owen G. Ward, | (参考訳) 大規模なネットワークのノードをユークリッド空間に埋め込むことは、現代の機械学習において共通の目的であり、さまざまなツールが利用可能である。
これらの埋め込みは、コミュニティの検出/ノードクラスタリングやリンク予測といったタスクの機能として利用でき、最先端のパフォーマンスを達成することができる。
スペクトルクラスタリング法を除くと、埋め込みの学習によく使われる手法に関する理論的理解はほとんどない。
本研究では node2vec で学習した埋め込みの理論的性質について検討する。
本研究の主な成果は, node2vec が生成する埋め込みベクトルに$k$-means クラスタリングを使用することで, (次補正) 確率ブロックモデルにおけるノードのコミュニティリカバリが弱くなることである。
また、これらの埋め込みをノードおよびリンク予測タスクに利用することについても論じる。
この結果を実証的に実証し,ネットワークデータに対する他の埋め込みツールとの関係について検討する。
Embedding the nodes of a large network into an Euclidean space is a common objective in modern machine learning, with a variety of tools available. These embeddings can then be used as features for tasks such as community detection/node clustering or link prediction, where they achieve state of the art performance. With the exception of spectral clustering methods, there is little theoretical understanding for commonly used approaches to learning embeddings. In this work we examine the theoretical properties of the embeddings learned by node2vec. Our main result shows that the use of $k$-means clustering on the embedding vectors produced by node2vec gives weakly consistent community recovery for the nodes in (degree corrected) stochastic block models. We also discuss the use of these embeddings for node and link prediction tasks. We demonstrate this result empirically, and examine how this relates to other embedding tools for network data. | 翻訳日:2024-08-15 18:26:43 公開日:2024-08-14 |
# 伝達情報を用いた異方性表現学習
Disentangled Representation Learning with Transmitted Information Bottleneck ( http://arxiv.org/abs/2311.01686v2 ) ライセンス: Link先を確認 | Zhuohang Dang, Minnan Luo, Chengyou Jia, Guang Dai, Jihong Wang, Xiaojun Chang, Jingdong Wang, | (参考訳) 原データからのタスク関連情報のみを符号化する,非絡み合い表現学習(disentangled representation learning)は,モデルの堅牢性と一般化性に大きく寄与する。
情報理論による表現における情報の正規化によって、大きな進歩があったが、2つの大きな課題が残っている。
1) 表現圧縮は必然的に性能低下につながる。
2)表現上の絡み合いの制約は複雑な最適化である。
これらの問題に対して,情報伝達を伴うベイズネットワークを導入し,アンタングル化時の入力と表現間の相互作用を定式化する。
この枠組みに基づいて,情報圧縮と保存のバランスを保ちつつ,新たな目的である「textbf{DisTIB}(\textbf{T}ransmitted \textbf{I}nformation \textbf{B}ottleneck for \textbf{Dis}entangled representation learning)」を提案する。
DisTIBのトラクタブルな推定を導出するために、変分推論を用いる。
この推定は、再パラメータ化トリックを用いて、標準勾配降下によって簡単に最適化できる。
さらに,DisTIBが最適解離を達成できることを理論的に証明し,その有効性を裏付ける。
そこで我々は,DisTIBの魅力ある有効性を実証し,我々の理論解析を検証するために,様々な下流タスクに関する広範な実験を行った。
Encoding only the task-related information from the raw data, \ie, disentangled representation learning, can greatly contribute to the robustness and generalizability of models. Although significant advances have been made by regularizing the information in representations with information theory, two major challenges remain: 1) the representation compression inevitably leads to performance drop; 2) the disentanglement constraints on representations are in complicated optimization. To these issues, we introduce Bayesian networks with transmitted information to formulate the interaction among input and representations during disentanglement. Building upon this framework, we propose \textbf{DisTIB} (\textbf{T}ransmitted \textbf{I}nformation \textbf{B}ottleneck for \textbf{Dis}entangled representation learning), a novel objective that navigates the balance between information compression and preservation. We employ variational inference to derive a tractable estimation for DisTIB. This estimation can be simply optimized via standard gradient descent with a reparameterization trick. Moreover, we theoretically prove that DisTIB can achieve optimal disentanglement, underscoring its superior efficacy. To solidify our claims, we conduct extensive experiments on various downstream tasks to demonstrate the appealing efficacy of DisTIB and validate our theoretical analyses. | 翻訳日:2024-08-15 18:26:43 公開日:2024-08-14 |
# トポロジカル量子場理論を超えるトポロジカル秩序
Topological Orders Beyond Topological Quantum Field Theories ( http://arxiv.org/abs/2311.03353v4 ) ライセンス: Link先を確認 | P. Vojta, G. Ortiz, Z. Nussinov, | (参考訳) 量子トポロジカル秩序を示すシステムは、量子コンピューティングスキームに非常に魅力的なロバストな特性を持つ。
トポロジカル場の理論は、トポロジカルな順序を示す系の4つの性質を捉えるのに強力であることが証明されている。
ここでは、この共通パースペクティブの外にあるシステムについて検討し、任意の粒子間の距離依存相互作用を持つトポロジカルな順序を示すモデルのリッチなクラスを示す。
示すように、いくつかのケースでは、空白の低エネルギー励起は、システム全体を密にカバーするエノンから成り立っている。
このことは、一般にトポロジカル場の量子論では説明されない振る舞いをもたらす。
従来の(ランダウ)命令を表示するシステムに対して,厳密な双対性を持たせることにより,これらのモデルを検証した。
提案手法は,一般ランドウ型理論を同じ空間次元の位相次数を持つ双対モデルにマッピングする一般的な手法を可能にする。
我々のモデルの低エネルギー部分空間は、表面符号よりも熱的効果に対してより弾力性を持たせることができる。
Systems displaying quantum topological order feature robust characteristics that are very attractive to quantum computing schemes. Topological quantum field theories have proven to be powerful in capturing the quintessential attributes of systems displaying topological order including, in particular, their anyon excitations. Here, we investigate systems that lie outside this common purview, and present a rich class of models exhibiting topological orders with distance-dependent interactions between anyons. As we illustrate, in some instances, the gapped lowest-energy excitations are comprised of anyons that densely cover the entire system. This leads to behaviors not typically described by topological quantum field theories. We examine these models by performing exact dualities to systems displaying conventional (i.e., Landau) orders. Our approach enables a general method for mapping generic Landau-type theories to dual models with topological order of the same spatial dimension. The low-energy subspaces of our models can be made more resilient to thermal effects than those of surface codes. | 翻訳日:2024-08-15 18:26:43 公開日:2024-08-14 |
# 支払い不要な資源配分メカニズムの学習
Learning Payment-Free Resource Allocation Mechanisms ( http://arxiv.org/abs/2311.10927v3 ) ライセンス: Link先を確認 | Sihan Zeng, Sujay Bhatt, Eleonora Kreacic, Parisa Hassanzadeh, Alec Koppel, Sumitra Ganesh, | (参考訳) ニューラルネットワークを用いた自己関心エージェント間で限られたリソースを割り当てる機構の設計について検討する。
オークションにおける収益の最大化に機械学習を活用している最近の研究とは異なり、福祉の最大化は支払い不要な環境において重要な目標であると考えている。
支払い交換がなければ、エージェントのインセンティブを調整して真理と社会福祉の目的を同時に達成できるかは、近似に頼らずに明らかではない。
本研究は, 社会的福祉と誠実さを両立させる, およそのメカニズムを設計することによって, 新たな貢献を行う。
具体的には
i)新たなエンドツーエンドニューラルネットワークアーキテクチャであるExS-Netにコントリビュートする。
(ii)~有限サンプル下での学習時の機構性能を保証する一般化境界を提供する。
(三)提案機構のメリットを実験的に実証する。
We consider the design of mechanisms that allocate limited resources among self-interested agents using neural networks. Unlike the recent works that leverage machine learning for revenue maximization in auctions, we consider welfare maximization as the key objective in the payment-free setting. Without payment exchange, it is unclear how we can align agents' incentives to achieve the desired objectives of truthfulness and social welfare simultaneously, without resorting to approximations. Our work makes novel contributions by designing an approximate mechanism that desirably trade-off social welfare with truthfulness. Specifically, (i) we contribute a new end-to-end neural network architecture, ExS-Net, that accommodates the idea of "money-burning" for mechanism design without payments; (ii)~we provide a generalization bound that guarantees the mechanism performance when trained under finite samples; and (iii) we provide an experimental demonstration of the merits of the proposed mechanism. | 翻訳日:2024-08-15 18:26:43 公開日:2024-08-14 |
# Fair Enough? 公正なアルゴリズムを持つための要件の現在の制限のマップ
Fair Enough? A map of the current limitations of the requirements to have fair algorithms ( http://arxiv.org/abs/2311.12435v3 ) ライセンス: Link先を確認 | Daniele Regoli, Alessandro Castelnovo, Nicole Inverardi, Gabriele Nanino, Ilaria Penco, | (参考訳) 近年、人工知能の利用と効率の向上、そしてより一般的には、自動意思決定システムの利用が増加し、そのようなシステムに関連するリスクに対する認識が増加し、歓迎されている。
このようなリスクの1つは、バイアスを永続的に、あるいは増幅する、あるいは不公平な格差を、これらのシステムの多くが自分たちの決定を調整し、最適化することを学習するデータから得ることである。
この認識は、いくつかの科学コミュニティに、そのようなバイアスや格差を評価、定量化、あるいは軽減するための、より適切な方法や方法を考え出すことを奨励している。
一方で、政策立案者を含む社会の層が、公正なアルゴリズムを求めるようになった。
現在、多くの優れた学際的な研究が実施されているが、いまだ根本的に欠けているのは、公正なアルゴリズムを持つことは、行動可能な多くの社会的選択を補完する必要があるほとんど無意味な要件である、という認識である、と我々は信じている。
すなわち、社会が自動意思決定システムから要求しているものと、現実のシナリオにおいて実際にこの要求が意味するものとの間には、行き詰まりがある。
本研究は, 自動意思決定システムにおける公正性の増大に具体的な意味を与えるために, 社会として取り組むべき重要なオープンポイントの集合を, 確保する上で重要な特徴を概説するものである。
In recent years, the increase in the usage and efficiency of Artificial Intelligence and, more in general, of Automated Decision-Making systems has brought with it an increasing and welcome awareness of the risks associated with such systems. One of such risks is that of perpetuating or even amplifying bias and unjust disparities present in the data from which many of these systems learn to adjust and optimise their decisions. This awareness has on the one hand encouraged several scientific communities to come up with more and more appropriate ways and methods to assess, quantify, and possibly mitigate such biases and disparities. On the other hand, it has prompted more and more layers of society, including policy makers, to call for fair algorithms. We believe that while many excellent and multidisciplinary research is currently being conducted, what is still fundamentally missing is the awareness that having fair algorithms is per se a nearly meaningless requirement that needs to be complemented with many additional social choices to become actionable. Namely, there is a hiatus between what the society is demanding from Automated Decision-Making systems, and what this demand actually means in real-world scenarios. In this work, we outline the key features of such a hiatus and pinpoint a set of crucial open points that we as a society must address in order to give a concrete meaning to the increasing demand of fairness in Automated Decision-Making systems. | 翻訳日:2024-08-15 18:26:43 公開日:2024-08-14 |
# AI誘導型逆設計とリサイクル可能な三量体高分子の発見
AI-guided inverse design and discovery of recyclable vitrimeric polymers ( http://arxiv.org/abs/2312.03690v3 ) ライセンス: Link先を確認 | Yiwen Zheng, Prakash Thakolkaran, Agni K. Biswal, Jake A. Smith, Ziheng Lu, Shuxin Zheng, Bichlien H. Nguyen, Siddhant Kumar, Aniruddh Vashisth, | (参考訳) ビトリマー(Vitrimer)は、アソシアティブな再配列反応を通すダイナミックな共有結合適応ネットワークによって、修復する能力を持つ、持続可能なポリマーの新しいクラスである。
しかしながら、構成分子の限られた選択は、それらの性質空間を制限し、それらの潜在的な応用の完全な実現を禁止している。
この課題を克服するために、分子動力学シミュレーションと、ガラス転移温度(Tg)を所望とするビトリマーケミストリーの逆設計のための新しいグラフ変分オートエンコーダ(VAE)機械学習モデルを組み合わせて、新しいビトリマーポリマーを合成する。
我々は,100万個の化学薬品からなる最初のビトリマーデータセットを構築し,その中の8,424個のTgをガウス過程モデルで校正した高スループットMDシミュレーションにより計算する。
提案する新規なVAEは、二重グラフエンコーダと、多成分ビトリマーの個々の表現を可能にする潜在次元重なり合うスキームを用いる。
ウィトリマーの必要な情報を含む連続潜伏空間を構築することにより、トレーニング体制を超えて望ましいTgを持つ新しいヴィトリマーを発見するための枠組みの精度と効率性を実証する。
化学直観を取り入れ, 311-317 KのTgを添加したビトリマーを合成し, 修復性と流動性を実験的に実証した。
提案フレームワークは, 高分子化学者が新規で持続可能なビトリマーポリマーを設計し, 合成するためのエキサイティングなツールを提供する。
Vitrimer is a new, exciting class of sustainable polymers with the ability to heal due to their dynamic covalent adaptive network that can go through associative rearrangement reactions. However, a limited choice of constituent molecules restricts their property space, prohibiting full realization of their potential applications. To overcome this challenge, we couple molecular dynamics (MD) simulations and a novel graph variational autoencoder (VAE) machine learning model for inverse design of vitrimer chemistries with desired glass transition temperature (Tg) and synthesize a novel vitrimer polymer. We build the first vitrimer dataset of one million chemistries and calculate Tg on 8,424 of them by high-throughput MD simulations calibrated by a Gaussian process model. The proposed novel VAE employs dual graph encoders and a latent dimension overlapping scheme which allows for individual representation of multi-component vitrimers. By constructing a continuous latent space containing necessary information of vitrimers, we demonstrate high accuracy and efficiency of our framework in discovering novel vitrimers with desirable Tg beyond the training regime. To validate the effectiveness of our framework in experiments, we generate novel vitrimer chemistries with a target Tg = 323 K. By incorporating chemical intuition, we synthesize a vitrimer with Tg of 311-317 K, and experimentally demonstrate healability and flowability. The proposed framework offers an exciting tool for polymer chemists to design and synthesize novel, sustainable vitrimer polymers for a facet of applications. | 翻訳日:2024-08-15 18:26:43 公開日:2024-08-14 |
# R2Human:1枚の画像からリアルタイムの3D画像表示
R2Human: Real-Time 3D Human Appearance Rendering from a Single Image ( http://arxiv.org/abs/2312.05826v4 ) ライセンス: Link先を確認 | Yuanwang Yang, Qiao Feng, Yu-Kun Lai, Kun Li, | (参考訳) ホログラム通信と没入型VR/ARを実現するためには,1枚の画像からリアルタイムに3D人間の外観をレンダリングすることが不可欠である。
既存のメソッドはマルチカメラのセットアップに依存するか、オフライン操作に制約される。
本稿では,R2Humanを提案する。R2Humanは,1枚の画像からリアルな3次元人間の外見をリアルタイムに推論し,レンダリングする手法である。
我々のアプローチの中核は、暗黙のテクスチャフィールドと明示的なニューラルレンダリングの強みと、新しい表現であるZマップを組み合わせることである。
そこで本研究では,可視領域の高忠実度な色再現を行うエンド・ツー・エンド・ネットワークを提案する。
ネットワークの3次元知覚能力をさらに高めるために,テクスチャフィールドを生成し,レンダリング段階でサンプリング面を提供するために,フーリエ占有場を先行として活用する。
また,多視点コヒーレンスを保証するために,整合性損失と空間融合戦略を提案する。
実験結果から,本手法は,合成データと実世界の課題の画像の両面において,リアルタイムに最先端の手法より優れていることがわかった。
プロジェクトのページはhttp://cic.tju.edu.cn/faculty/likun/projects/R2Humanにある。
Rendering 3D human appearance from a single image in real-time is crucial for achieving holographic communication and immersive VR/AR. Existing methods either rely on multi-camera setups or are constrained to offline operations. In this paper, we propose R2Human, the first approach for real-time inference and rendering of photorealistic 3D human appearance from a single image. The core of our approach is to combine the strengths of implicit texture fields and explicit neural rendering with our novel representation, namely Z-map. Based on this, we present an end-to-end network that performs high-fidelity color reconstruction of visible areas and provides reliable color inference for occluded regions. To further enhance the 3D perception ability of our network, we leverage the Fourier occupancy field as a prior for generating the texture field and providing a sampling surface in the rendering stage. We also propose a consistency loss and a spatial fusion strategy to ensure the multi-view coherence. Experimental results show that our method outperforms the state-of-the-art methods on both synthetic data and challenging real-world images, in real-time. The project page can be found at http://cic.tju.edu.cn/faculty/likun/projects/R2Human. | 翻訳日:2024-08-15 18:26:43 公開日:2024-08-14 |
# FOSS:クエリ最適化のためのセルフラーニングドキュメンテーション
FOSS: A Self-Learned Doctor for Query Optimizer ( http://arxiv.org/abs/2312.06357v2 ) ライセンス: Link先を確認 | Kai Zhong, Luming Sun, Tao Ji, Cuiping Li, Hong Chen, | (参考訳) データベースシステムにおける問合せ最適化問題に対処するために,様々な研究がディープラーニングを活用している。
彼らはボトムアップの方法でゼロから計画を構築することを学ぶか、ヒントを使って従来のオプティマイザのプラン生成の振る舞いを操縦する。
これらの手法はいくつかの成功を収めてきたが、訓練効率の低さや限られた計画探索空間の難しさに直面している。
これらの課題に対処するために、深層強化学習に基づくクエリ最適化のための新しいフレームワークであるFOSSを紹介する。
FOSSは、従来のオプティマイザによって生成された当初の計画から最適化を開始し、一連のアクションを通じて計画の最適下ノードを漸進的に洗練する。
さらに,2つの計画間の優位性を評価するために,非対称な優位性モデルを提案する。
従来のオプティマイザと統合してシミュレートされた環境を作ります。
このシミュレートされた環境を活用することで、FOSSは自らをブートストラップして、大量の高品質なシミュレートされたエクスペリエンスを迅速に生成することができる。
FOSSはこれらの経験から学び、最適化能力を改善する。
結合順序ベンチマーク, TPC-DS, Stack OverflowにおけるFOSSの性能評価を行った。
実験の結果、FOSSは遅延性能の点で最先端の手法よりも優れていることが示された。
PostgreSQLと比較して、FOSSは異なるベンチマークで合計1.15倍から8.33倍のレイテンシを実現する。
Various works have utilized deep learning to address the query optimization problem in database system. They either learn to construct plans from scratch in a bottom-up manner or steer the plan generation behavior of traditional optimizer using hints. While these methods have achieved some success, they face challenges in either low training efficiency or limited plan search space. To address these challenges, we introduce FOSS, a novel framework for query optimization based on deep reinforcement learning. FOSS initiates optimization from the original plan generated by a traditional optimizer and incrementally refines suboptimal nodes of the plan through a sequence of actions. Additionally, we devise an asymmetric advantage model to evaluate the advantage between two plans. We integrate it with a traditional optimizer to form a simulated environment. Leveraging this simulated environment, FOSS can bootstrap itself to rapidly generate a large amount of high-quality simulated experiences. FOSS then learns from these experiences to improve its optimization capability. We evaluate the performance of FOSS on Join Order Benchmark, TPC-DS, and Stack Overflow. The experimental results demonstrate that FOSS outperforms the state-of-the-art methods in terms of latency performance. Compared to PostgreSQL, FOSS achieves speedup ranging from 1.15x to 8.33x in total latency across different benchmarks. | 翻訳日:2024-08-15 18:26:43 公開日:2024-08-14 |
# Perseus:大規模モデルトレーニングにおけるエネルギー消費削減
Perseus: Reducing Energy Bloat in Large Model Training ( http://arxiv.org/abs/2312.06902v2 ) ライセンス: Link先を確認 | Jae-Won Chung, Yile Gu, Insu Jang, Luoxi Meng, Nikhil Bansal, Mosharaf Chowdhury, | (参考訳) 多数のGPU上で大規模なAIモデルをトレーニングすることは、大量のエネルギーを消費する。
しかし、トレーニング中に消費されるすべてのエネルギーが、エンドツーエンドのスループットに直接寄与するわけではない。
本研究では,大規模モデルトレーニングにおける2つの独立したエネルギー肥大源を特定し,両者を緩和するトレーニングシステムであるPerseusを提案する。
これを実現するために、ペルセウスは効率的なグラフカットベースのアルゴリズムを用いて、任意の大きなモデルのトレーニング作業の「定時エネルギー」パレートフロンティアを取得し、時間をかけて計算のエネルギー消費をスケジュールし、両方の種類のエネルギー肥大を除去する。
GPT-3やBloomを含む大型モデルの評価によると、Perseusはスループットの低下やハードウェアの変更なしに、大規模なモデルのトレーニングのエネルギー消費を最大30%削減し、エネルギー削減を可能にする。
Training large AI models on numerous GPUs consumes a massive amount of energy, making power delivery one of the largest limiting factors in building and operating datacenters for AI workloads. However, we observe that not all energy consumed during training directly contributes to end-to-end throughput, and a significant portion can be removed without slowing down training, which we call energy bloat. In this work, we identify two independent sources of energy bloat in large model training and propose Perseus, a training system that mitigates both. To do this, Perseus obtains the "iteration time-energy" Pareto frontier of any large model training job using an efficient graph cut-based algorithm and schedules the energy consumption of computations across time to remove both types of energy bloat. Evaluation on large models including GPT-3 and Bloom shows that Perseus reduces the energy consumption of large model training by up to 30% without any throughput loss or hardware modification, enabling energy reduction -- and therefore cost savings -- otherwise unattainable before. | 翻訳日:2024-08-15 18:26:43 公開日:2024-08-14 |
# 制約付き最適化からの脱却:発電機座標法による量子化学の量子計算
Unleashed from Constrained Optimization: Quantum Computing for Quantum Chemistry Employing Generator Coordinate Method ( http://arxiv.org/abs/2312.07691v2 ) ライセンス: Link先を確認 | Muqing Zheng, Bo Peng, Ang Li, Xiu Yang, Karol Kowalski, | (参考訳) ハイブリッド量子古典的アプローチは、量子化学問題に対する潜在的な解決策を提供するが、問題も導入する。
これらの課題には、バレン高原への対処や、制約付き最適化問題としてしばしば現れる ans\"{a}tze の精度を保証することが含まれる。
本研究では,制約付き最適化と一般化固有値問題との相互関係を,単元結合クラスタ(UCC)励起発生器を用いて検討する。
これらのジェネレータは、変分量子固有解法 (VQE) における ans\"{a}tze と適応微分合成擬似トロッターVQE (ADAPT-VQE) シミュレーションを構成するビルディングブロックとして機能する。
ここでは、ジェネレータ座標法に着想を得て、これらのUCC励起発生器を用いて非直交多体生成関数を構築し、ハミルトニアン系を実用的な作業部分空間に投影する。
このアプローチは、VQE/ADAPT-VQEエネルギに厳密な下界を与える一般化固有値問題であり、標準VQE法に典型的なバレンプラトーやヒューリスティック数値最小値に関する問題を効果的に回避する。
従来の量子部分空間展開法と異なり,UCC励起発生器のプールから多体基底集合を頑健に構築する適応型スキームを導入する。
このスキームは階層的なADAPT量子古典戦略の発展をサポートし、サブスペース展開とアンサッツ最適化のバランスの取れた相互作用を可能にし、複雑で強い相関の量子化学システムに効率よくコスト効率よく対処する。
提案手法により生成された有効ハミルトニアンは励起状態と動的性質の計算もサポートし、化学におけるより高度な量子シミュレーションのステージを設定できる。
Hybrid quantum-classical approaches offer potential solutions to quantum chemistry problems, yet they also introduce challenges. These challenges include addressing the barren plateau and ensuring the accuracy of the ans\"{a}tze, which often manifest as constrained optimization problems. In this work, we explore the interconnection between constrained optimization and generalized eigenvalue problems through \textcolor{black}{the Unitary Coupled Cluster (UCC) excitation generators. These generators often serve as building blocks constituting the ans\"{a}tze in variational quantum eigensolver (VQE) and adaptive derivative-assembled pseudo-Trotter VQE (ADAPT-VQE) simulations. Here, inspired by the generator coordinate method, we employ these UCC excitation generators to construct non-orthogonal, overcomplete many-body generating functions, projecting the system Hamiltonian into a practical working subspace. This approach results in a generalized eigenvalue problem that provides rigorous lower bounds to VQE/ADAPT-VQE energies, effectively bypassing issues related to barren plateaus and heuristic numerical minimizers typical in standard VQE methods. Diverging from conventional quantum subspace expansion methods, we introduce an adaptive scheme that robustly constructs many-body basis sets from a pool of the UCC excitation generators. This scheme supports the development of a hierarchical ADAPT quantum-classical strategy, enabling a balanced interplay between subspace expansion and ansatz optimization to address complex, strongly correlated quantum chemical systems efficiently and cost-effectively. The effective Hamiltonian generated by our approach also supports the computation of excited states and dynamic properties, setting the stage for more advanced quantum simulations in chemistry. | 翻訳日:2024-08-15 18:26:43 公開日:2024-08-14 |
# セマンティック空間は256の言語記述に価値がある:記述特性を持つより強いセグメンテーションモデルを作る
A Semantic Space is Worth 256 Language Descriptions: Make Stronger Segmentation Models with Descriptive Properties ( http://arxiv.org/abs/2312.13764v2 ) ライセンス: Link先を確認 | Junfei Xiao, Ziqi Zhou, Wenxuan Li, Shiyi Lan, Jieru Mei, Zhiding Yu, Alan Yuille, Yuyin Zhou, Cihang Xie, | (参考訳) 本稿では、プロパティレベルラベル空間を用いた強力な解釈可能なセグメンテーションモデルを作成するための新しいアプローチであるProLabを紹介する。
ProLabは、カテゴリ固有のアノテーションのみに頼る代わりに、セグメンテーションモデルを監督するために、常識知識に基づく記述的プロパティを使用する。
2つの基本設計に基づいている。
まず、Large Language Models(LLM)を用いて、意味のある常識知識を持ち、構造化されたフォーマットに従うすべての関連カテゴリの記述を慎重に作成する。
第2に、記述間の意味的相関を保った記述埋め込みモデルを導入し、K-Meansを用いて記述的特性(例えば256)にクラスタ化する。
これらの特性は、人間の認識理論と一致する解釈可能な常識知識に基づいている。
当社のアプローチは,5つの古典的ベンチマーク(ADE20K,COCO-Stuff,Pascal Context,Cityscapes,BDDなど)において,セグメンテーションモデルをより強固に動作させることを実証的に示しています。
また,本手法は,カテゴリレベルの監視よりも拡張トレーニングステップによるスケーラビリティも向上する。
我々の解釈可能なセグメンテーションフレームワークは、ドメイン内記述プロパティのみを使用して、ドメイン外または未知のカテゴリをセグメンテーションする一般化能力を持つ。
コードはhttps://github.com/lambert-x/ProLab.comで入手できる。
This paper introduces ProLab, a novel approach using property-level label space for creating strong interpretable segmentation models. Instead of relying solely on category-specific annotations, ProLab uses descriptive properties grounded in common sense knowledge for supervising segmentation models. It is based on two core designs. First, we employ Large Language Models (LLMs) and carefully crafted prompts to generate descriptions of all involved categories that carry meaningful common sense knowledge and follow a structured format. Second, we introduce a description embedding model preserving semantic correlation across descriptions and then cluster them into a set of descriptive properties (e.g., 256) using K-Means. These properties are based on interpretable common sense knowledge consistent with theories of human recognition. We empirically show that our approach makes segmentation models perform stronger on five classic benchmarks (e.g., ADE20K, COCO-Stuff, Pascal Context, Cityscapes, and BDD). Our method also shows better scalability with extended training steps than category-level supervision. Our interpretable segmentation framework also emerges with the generalization ability to segment out-of-domain or unknown categories using only in-domain descriptive properties. Code is available at https://github.com/lambert-x/ProLab. | 翻訳日:2024-08-15 18:26:43 公開日:2024-08-14 |
# ツイスト波面を持つ光による自由電子トポロジカルバウンド状態
Free electron topological bound state induced by light beam with a twisted wavefront ( http://arxiv.org/abs/2401.00723v2 ) ライセンス: Link先を確認 | Yiming Pan, Ruoyu Yin, Yongcheng Ding, Huaiqiang Wang, Daniel Podolsky, Bin Zhang, | (参考訳) 超高速電子放出、顕微鏡、回折の最近の進歩は、光線を用いて量子コヒーレンスで自由電子を操作する素晴らしい能力を示している。
本稿では,超高速電子-光相互作用における自由電子量子数探索の枠組みについて述べる。
我々は、時空間的にねじれたレーザー場を受ける低エネルギー自由電子波動関数に対する明示的なジャッキー・レビ解を導出し、結果として、量子数 e/2 の空飛ぶ位相的に保護された有界状態が「半電子」と呼ばれる。
このフライングバウンド状態は、そのトポロジカルな性質のため、分散しない。
自由空間における半電子のトポロジカル閉じ込めと対生成機構を実証し、その領域は一般に固体やフォトニクスに見られるトポロジカル状態を超えて拡張する。
この進歩は、エキゾチックな量子と低エネルギー自由電子によるトポロジカル効果をエミュレートする理解を深める。
Recent advances in ultrafast electron emission, microscopy, and diffraction have demonstrated a remarkable ability to manipulate free electrons with quantum coherence using light beams. Here, we present a framework for exploring free electron quantum number in ultrafast electron-light interactions. We derive an explicit Jackiw-Rebbi solution for a low-energy free electron wavefunction subjected to a spatiotemporally twisted laser field, resulting in a flying topologically protected bound state with a quantum number of e/2 - termed a "half-electron". This flying bound state is dispersion-free due to its topological nature. We demonstrate the topological confinement and pair generation mechanism of half-electrons in free space, expanding their domain beyond the topological states typically found in solids and photonics. This advancement enhances our understanding of emulating exotic quantum and topological effects with low-energy free electrons. | 翻訳日:2024-08-15 18:16:52 公開日:2024-08-14 |
# 回転共分散は利用可能な量子状態を制限する
Rotational covariance restricts available quantum states ( http://arxiv.org/abs/2401.06064v2 ) ライセンス: Link先を確認 | Fynn Otto, Konrad Szymański, | (参考訳) 角運動量とスピンの量子状態は、一般に基準フレームの回転の下で不変ではない。
したがって、それらは、考慮中の状態の非対称性にエンコードされる相対配向の資源として使用できる。
本稿では,群特性関数を多項式関数でパラメータ化することにより,回転情報の解析的特徴付けを提案する。
これにより、参照フレーム(回転的に共変したもの)を欠いた変換によって達成可能な状態の集合が解析的特徴を認め、半定値最適化手法を用いて研究できることが示される。
提案手法を例に示すとともに,光干渉計感度を向上する光の状態を後処理のステップとして実現し,参照非依存の操作が気象学的に有用な操作を行う物理シナリオを提案する。
Quantum states of angular momentum and spin generally are not invariant under rotations of the reference frame. Therefore, they can be used as a resource of relative orientation, which is encoded in the asymmetry of the state under consideration. In this paper we introduce the analytical characterization of the rotational information by parameterizing the group characteristic function by polynomial functions. By doing so, we show that the set of states achievable through transformations lacking a reference frame (rotationally covariant ones) admits an analytical characterization and can be studied through the use of semidefinite optimization techniques. We demonstrate the developed methods via examples, and provide a physical scenario in which a reference-independent operation performs a metrologically useful operation: the preparation of a state of light improving interferometer sensitivity, which equivalently can be realized as a postprocessing step. | 翻訳日:2024-08-15 18:16:52 公開日:2024-08-14 |
# SymbolNet:適応型動的プルーニングを用いたニューラルシンボリック回帰
SymbolNet: Neural Symbolic Regression with Adaptive Dynamic Pruning ( http://arxiv.org/abs/2401.09949v2 ) ライセンス: Link先を確認 | Ho Fung Tsoi, Vladimir Loncar, Sridhara Dasu, Philip Harris, | (参考訳) 遺伝的プログラミングとは対照的に、記号回帰に対するニューラルネットワークアプローチは、高次元入力を効率的に処理し、より高速な方程式探索に勾配法を利用することができる。
表現の複雑さを制約する一般的な方法は、微調整によるマルチステージプルーニングを伴い、性能が著しく低下する可能性がある。
本研究では,モデル重み,入力特徴,数学的演算子の動的プルーニングを単一トレーニングプロセスで実現し,学習損失と表現複雑性を同時に最適化する,新しいフレームワークにおける記号回帰に対するニューラルネットワークアプローチである$\tt{SymbolNet}$を提案する。
本研究では,各プルーニング型に対して,その強度を適応的に調整し,目標のスペーシティ比で収束するスペーシティ正規化項を導入する。
LHCジェットタグタスク(16入力)、MNIST(784入力)、SVHN(3072入力)において、$\mathcal{O}(10)$入力を含むデータセットと競合する既存のシンボリック回帰法とは異なり、我々のモデルの有効性を実証する。
提案手法は,LHCにおける高エネルギー物理実験などの厳密な計算資源制約のある環境下で,FPGAのナノ秒スケール遅延による高速推論を実現する。
Contrary to genetic programming, the neural network approach to symbolic regression can efficiently handle high-dimensional inputs and leverage gradient methods for faster equation searching. Common ways of constraining expression complexity often involve multistage pruning with fine-tuning, which can result in significant performance loss. In this work, we propose $\tt{SymbolNet}$, a neural network approach to symbolic regression in a novel framework that allows dynamic pruning of model weights, input features, and mathematical operators in a single training process, where both training loss and expression complexity are optimized simultaneously. We introduce a sparsity regularization term for each pruning type, which can adaptively adjust its strength, leading to convergence at a target sparsity ratio. Unlike most existing symbolic regression methods that struggle with datasets containing more than $\mathcal{O}(10)$ inputs, we demonstrate the effectiveness of our model on the LHC jet tagging task (16 inputs), MNIST (784 inputs), and SVHN (3072 inputs). Our approach enables symbolic regression to achieve fast inference with nanosecond-scale latency on FPGAs for high-dimensional datasets in environments with stringent computational resource constraints, such as the high-energy physics experiments at the LHC. | 翻訳日:2024-08-15 18:16:52 公開日:2024-08-14 |
# 分布誘導型Mapperアルゴリズム
A distribution-guided Mapper algorithm ( http://arxiv.org/abs/2401.12237v2 ) ライセンス: Link先を確認 | Yuyang Tao, Shufei Ge, | (参考訳) モチベーション: Mapperアルゴリズムは、トポロジデータ解析におけるデータの形状を探索するための重要なツールである。
Mapperアルゴリズムはデータセットを入力として、データセット全体のトポロジ的特徴を表すグラフを出力する。
このグラフは、しばしばデータのリーブグラフの近似と見なされる。
古典的なMapperアルゴリズムは、固定間隔の長さと重なり合う比率を使い、特に基礎構造が複雑である場合、データの微妙な特徴を明らかにするのに失敗する可能性がある。
結果: 本研究では, 確率モデルの特性とデータ固有の特性を利用して, 密度誘導被覆を生成し, トポロジ特性を向上した分布案内型MapperアルゴリズムD-Mapperを導入する。
提案アルゴリズムは確率的モデルに基づく手法であり,非確率的手法の代替となる可能性がある。
さらに,重なり合うクラスタリングの品質と拡張持続性ホモロジーの両方を指標として,Mapper型アルゴリズムの性能を計測する手法を提案する。
数値実験により,D-Mapperは様々なシナリオにおいて従来のMapperアルゴリズムより優れていることが示された。
また、D-MapperをSARS-COV-2ウイルスRNA配列データセットに適用し、異なるウイルス変異体のトポロジー構造を探索する。
その結果,D-Mapperアルゴリズムはウイルスの垂直および水平の進化過程を明らかにすることができることがわかった。
可用性: 私たちのパッケージはhttps://github.com/ShufeiGe/D-Mapper.comから入手可能です。
Motivation: The Mapper algorithm is an essential tool to explore shape of data in topology data analysis. With a dataset as an input, the Mapper algorithm outputs a graph representing the topological features of the whole dataset. This graph is often regarded as an approximation of a reeb graph of data. The classic Mapper algorithm uses fixed interval lengths and overlapping ratios, which might fail to reveal subtle features of data, especially when the underlying structure is complex. Results: In this work, we introduce a distribution guided Mapper algorithm named D-Mapper, that utilizes the property of the probability model and data intrinsic characteristics to generate density guided covers and provides enhanced topological features. Our proposed algorithm is a probabilistic model-based approach, which could serve as an alternative to non-prababilistic ones. Moreover, we introduce a metric accounting for both the quality of overlap clustering and extended persistence homology to measure the performance of Mapper type algorithm. Our numerical experiments indicate that the D-Mapper outperforms the classical Mapper algorithm in various scenarios. We also apply the D-Mapper to a SARS-COV-2 coronavirus RNA sequences dataset to explore the topological structure of different virus variants. The results indicate that the D-Mapper algorithm can reveal both vertical and horizontal evolution processes of the viruses. Availability: Our package is available at https://github.com/ShufeiGe/D-Mapper. | 翻訳日:2024-08-15 18:16:52 公開日:2024-08-14 |
# 量子カオスシステムのための一般化自由キューマント
Generalized Free Cumulants for Quantum Chaotic Systems ( http://arxiv.org/abs/2401.13829v3 ) ライセンス: Link先を確認 | Siddharth Jindal, Pavan Hosur, | (参考訳) 固有状態熱化仮説(英: eigenstate thermalization hypothesis、ETH)は、一般孤立量子系における統計力学の出現の先行予想であり、作用素の行列要素の項で定式化されている。
エルゴード二分法(EB)として知られる類似物は絡み合いと局所性を記述し、固有状態の成分の項で定式化されている。
本稿では,EBを著しく一般化し,ETHと統一し,EBを拡張して高い相関関係と平衡状態からシステムを研究する。
我々の主な結果は、ETHと自由確率理論の間の最近発見された関係に基づいて固有状態と作用素の間の任意の相関を計算する図式形式である。
ダイアグラムの連結成分を一般化自由累積と呼ぶ。
我々は形式主義をいくつかの方法で適用する。
まず、カオス固有状態に着目し、構築の結果として、いわゆるサブシステムETHとページ曲線を確立する。
また, 熱還元密度行列の既知計算を改善し, 蒸発するブラックホールのページ曲線の計算において, エンタングルメントエントロピーへのレプリカアプローチの本質的に自由な確率的側面についてコメントする。
次に、カオス量子力学に目を向け、ETHを一般的に熱化の十分なメカニズムとして実証する。
特に, 密度行列の減少は平衡に緩和され, システムは後期のページ曲線に従うことを示した。
また, エンタングルメント成長の異なる相が, EBの高相関にエンコードされていることも実証した。
最後に,固有状態と演算子のカオス構造について検討し,これまで見過ごされていた相関関係を明らかにする。
これらの相関は、相互作用する量子系のよく知られた力学特性である蝶の速度を符号化する。
The eigenstate thermalization hypothesis (ETH) is the leading conjecture for the emergence of statistical mechanics in generic isolated quantum systems and is formulated in terms of the matrix elements of operators. An analog known as the ergodic bipartition (EB) describes entanglement and locality and is formulated in terms of the components of eigenstates. In this paper, we significantly generalize the EB and unify it with the ETH, extending the EB to study higher correlations and systems out of equilibrium. Our main result is a diagrammatic formalism that computes arbitrary correlations between eigenstates and operators based on a recently uncovered connection between the ETH and free probability theory. We refer to the connected components of our diagrams as generalized free cumulants. We apply our formalism in several ways. First, we focus on chaotic eigenstates and establish the so-called subsystem ETH and the Page curve as consequences of our construction. We also improve known calculations for thermal reduced density matrices and comment on an inherently free probabilistic aspect of the replica approach to entanglement entropy previously noticed in a calculation for the Page curve of an evaporating black hole. Next, we turn to chaotic quantum dynamics and demonstrate the ETH as a sufficient mechanism for thermalization, in general. In particular, we show that reduced density matrices relax to their equilibrium form and that systems obey the Page curve at late times. We also demonstrate that the different phases of entanglement growth are encoded in higher correlations of the EB. Lastly, we examine the chaotic structure of eigenstates and operators together and reveal previously overlooked correlations between them. Crucially, these correlations encode butterfly velocities, a well-known dynamical property of interacting quantum systems. | 翻訳日:2024-08-15 18:16:52 公開日:2024-08-14 |
# Elephantsは忘れない: プライバシ予算のための状態継続を伴う差別的プライバシ
Elephants Do Not Forget: Differential Privacy with State Continuity for Privacy Budget ( http://arxiv.org/abs/2401.17628v2 ) ライセンス: Link先を確認 | Jiankai Jin, Chitchanok Chuengsatiansup, Toby Murray, Benjamin I. P. Rubinstein, Yuval Yarom, Olga Ohrimenko, | (参考訳) 差分的プライベート(DP)システムの現在の実装では、データセットで消費されるグローバルプライバシ予算を追跡するためのサポートが欠如しているか、あるいは、この予算の状態を忠実に維持できないかのいずれかである。
プライバシ予算の維持に失敗したことで、対戦相手がリプレイやロールバック、フォーク攻撃をマウントできるようになります。
その結果、攻撃者はDPが保護しようとする秘密データを再構築することができる。
本研究では,グローバルDPモデルにおいて,信頼できるキュレーターと同じ保証を提供するシステムであるElephantDPを提案する。
我々のシステムは、プライバシー予算を保護するための状態継続モジュールと、DPコードを忠実に実行し、予算を更新するTEEに依存しています。
セキュリティを確保するため,提案プロトコルは,永続状態の内容や,予算更新とクエリ応答の順序など,いくつかの設計上の選択を行う。
我々は、ElephantDPがライブ性(すなわち、プロトコルが正しい状態から再起動し、予算を越えない限りクエリに応答できる)とDPの機密性(すなわち、攻撃者は信頼できるキュレーターと対話するのと同じくらいデータセットについて学習する)を提供することを証明した。
このプロトコルの実装と評価では、TEEとしてIntel SGXを使用してDPコードとTEEのネットワークを実行し、状態継続性を維持する。
安全でないベースラインと比較して、複雑なDPクエリの1.1-3.2$\times$オーバーヘッドと低い相対オーバーヘッドを観測する。
Current implementations of differentially-private (DP) systems either lack support to track the global privacy budget consumed on a dataset, or fail to faithfully maintain the state continuity of this budget. We show that failure to maintain a privacy budget enables an adversary to mount replay, rollback and fork attacks - obtaining answers to many more queries than what a secure system would allow. As a result the attacker can reconstruct secret data that DP aims to protect - even if DP code runs in a Trusted Execution Environment (TEE). We propose ElephantDP, a system that aims to provide the same guarantees as a trusted curator in the global DP model would, albeit set in an untrusted environment. Our system relies on a state continuity module to provide protection for the privacy budget and a TEE to faithfully execute DP code and update the budget. To provide security, our protocol makes several design choices including the content of the persistent state and the order between budget updates and query answers. We prove that ElephantDP provides liveness (i.e., the protocol can restart from a correct state and respond to queries as long as the budget is not exceeded) and DP confidentiality (i.e., an attacker learns about a dataset as much as it would from interacting with a trusted curator). Our implementation and evaluation of the protocol use Intel SGX as a TEE to run the DP code and a network of TEEs to maintain state continuity. Compared to an insecure baseline, we observe 1.1-3.2$\times$ overheads and lower relative overheads for complex DP queries. | 翻訳日:2024-08-15 18:16:52 公開日:2024-08-14 |
# 脳波を用いた感情認識におけるグラフニューラルネットワーク
Graph Neural Networks in EEG-based Emotion Recognition: A Survey ( http://arxiv.org/abs/2402.01138v2 ) ライセンス: Link先を確認 | Chenyu Liu, Xinliang Zhou, Yihao Wu, Ruizhi Yang, Zhongruo Wang, Liming Zhai, Ziyu Jia, Yang Liu, | (参考訳) 他のモダリティと比較すると、脳波に基づく感情認識は人間の脳の感情パターンに直感的に反応し、脳とコンピュータのインターフェイスの分野で最も関係のあるタスクの1つになっている。
脳領域内の依存関係は感情と密接に関連しているため、脳波に基づく感情認識のためのグラフニューラルネットワーク(GNN)を開発することが大きなトレンドである。
しかし、感情脳波の脳領域依存性は、他の時系列フィールドのものとGNNを区別する生理的基盤を持つ。
さらに、脳波に基づく感情認識において、GNNを構築するための包括的なレビューやガイダンスは存在しない。
本調査では,グラフ構築の統一的枠組みの下での既存手法の共通点と相違点を明らかにする。
脳波を用いた感情認識におけるGNN構築のための明確なガイダンスを提供するために,フレームワークの3段階から手法を分析し,分類する。
さらに,時間的全連結グラフやグラフ凝縮など,オープンな課題や今後の方向性についても論じる。
Compared to other modalities, EEG-based emotion recognition can intuitively respond to the emotional patterns in the human brain and, therefore, has become one of the most concerning tasks in the brain-computer interfaces field. Since dependencies within brain regions are closely related to emotion, a significant trend is to develop Graph Neural Networks (GNNs) for EEG-based emotion recognition. However, brain region dependencies in emotional EEG have physiological bases that distinguish GNNs in this field from those in other time series fields. Besides, there is neither a comprehensive review nor guidance for constructing GNNs in EEG-based emotion recognition. In the survey, our categorization reveals the commonalities and differences of existing approaches under a unified framework of graph construction. We analyze and categorize methods from three stages in the framework to provide clear guidance on constructing GNNs in EEG-based emotion recognition. In addition, we discuss several open challenges and future directions, such as Temporal full-connected graph and Graph condensation. | 翻訳日:2024-08-15 18:16:52 公開日:2024-08-14 |
# LLM投票:人間の選択とAIによる集団決定
LLM Voting: Human Choices and AI Collective Decision Making ( http://arxiv.org/abs/2402.01766v3 ) ライセンス: Link先を確認 | Joshua C. Yang, Damian Dailisan, Marcin Korecki, Carina I. Hausladen, Dirk Helbing, | (参考訳) 本稿では,大規模言語モデル (LLM) の投票行動,特に GPT-4 と LLaMA-2 の偏り,人間の投票パターンとの整合性について検討する。
提案手法では,人間の投票実験から得られたデータセットを用いて人選好のベースラインを確立し,LLMエージェントを用いて対応する実験を行った。
投票方法の選択と提示順序がLLM投票結果に影響を及ぼすことがわかった。
さまざまな人格がこれらのバイアスの一部を減らし、人間の選択との整合性を高めることができることがわかった。
Chain-of-Thoughtアプローチは予測精度を向上しなかったが、投票プロセスにおけるAI説明可能性の可能性がある。
また,LLMにおける好みの多様性とアライメント精度のトレードオフを,異なる温度設定の影響で確認した。
以上の結果から, LLM は, 投票シナリオにおいて, 多様な集団的結果や偏見が得られず, 民主的プロセスへの慎重な統合の必要性が強調された。
This paper investigates the voting behaviors of Large Language Models (LLMs), specifically GPT-4 and LLaMA-2, their biases, and how they align with human voting patterns. Our methodology involved using a dataset from a human voting experiment to establish a baseline for human preferences and conducting a corresponding experiment with LLM agents. We observed that the choice of voting methods and the presentation order influenced LLM voting outcomes. We found that varying the persona can reduce some of these biases and enhance alignment with human choices. While the Chain-of-Thought approach did not improve prediction accuracy, it has potential for AI explainability in the voting process. We also identified a trade-off between preference diversity and alignment accuracy in LLMs, influenced by different temperature settings. Our findings indicate that LLMs may lead to less diverse collective outcomes and biased assumptions when used in voting scenarios, emphasizing the need for cautious integration of LLMs into democratic processes. | 翻訳日:2024-08-15 18:16:52 公開日:2024-08-14 |
# オンライン一様割当:デジタルヘルスに応用したランダム化学習強化近似アルゴリズム
Online Uniform Allocation:Randomized Learning-Augmented Approximation Algorithms with Application to Digital Health ( http://arxiv.org/abs/2402.01995v5 ) ライセンス: Link先を確認 | Xueqing Liu, Kyra Gan, Esmaeil Keyvanshokooh, Susan Murphy, | (参考訳) デジタルヘルスの応用によって動機づけられたこの研究は、未知の意思決定時間に一様に予算を分配することを目的として、オンライン一様割当(OUA)という新たな問題を研究する。
OUA問題では、アルゴリズムに予算$b$とタイムホライズン$T$が与えられ、敵が$\tau^* \in [b,T]$を選択し、それをオンラインに公開する。
決定時間$i \in [\tau^*]$で、アルゴリズムは、予算の制約である$b$を尊重しながら、水平線全体で費やされた予算を最大化する確率を決定する必要がある。
この問題に対して設計された最初のランダム化アルゴリズムを提示し、その後、学習拡張を組み込むように拡張する。
両アルゴリズムの最悪の近似保証を提供し、人工実験とHeartStepsモバイルアプリケーションを含む実世界のケーススタディの両方を通して、アルゴリズムの有用性を説明する。
提案手法は,従来提案されていたヒューリスティック解に対して,ランダム化アルゴリズムの強い経験的平均性能を示す。
Motivated by applications in digital health, this work studies the novel problem of online uniform allocation (OUA), where the goal is to distribute a budget uniformly across unknown decision times. In the OUA problem, the algorithm is given a budget $b$ and a time horizon $T$, and an adversary then chooses a value $\tau^* \in [b,T]$, which is revealed to the algorithm online. At each decision time $i \in [\tau^*]$, the algorithm must determine a probability that maximizes the budget spent throughout the horizon, respecting budget constraint $b$, while achieving as uniform a distribution as possible over $\tau^*$. We present the first randomized algorithm designed for this problem and subsequently extend it to incorporate learning augmentation. We provide worst-case approximation guarantees for both algorithms, and illustrate the utility of the algorithms through both synthetic experiments and a real-world case study involving the HeartSteps mobile application. Our numerical results show strong empirical average performance of our proposed randomized algorithms against previously proposed heuristic solutions. | 翻訳日:2024-08-15 18:16:52 公開日:2024-08-14 |
# V-STaR:自己学習型共振器の訓練検証器
V-STaR: Training Verifiers for Self-Taught Reasoners ( http://arxiv.org/abs/2402.06457v2 ) ライセンス: Link先を確認 | Arian Hosseini, Xingdi Yuan, Nikolay Malkin, Aaron Courville, Alessandro Sordoni, Rishabh Agarwal, | (参考訳) STaRのような大規模言語モデル(LLM)に対する共通的な自己改善アプローチは、問題解決能力を改善するために、自己生成ソリューション上で反復的に微調整のLSMを使用する。
しかし、これらの手法は、この過程で生成される大量の誤った解を捨て、そのような解の貴重な情報を無視する可能性がある。
そこで本研究では,自己改善プロセス中に生成した正解と誤解の両方を利用するV-STaRを提案し,モデル生成解の正解を判定するDPOを用いて検証器を訓練する。
この検証器は推論時に多くの候補解の中から1つの解を選択するために用いられる。
複数のイテレーションでV-STaRを実行すると、徐々により良い推論器と検証器が得られ、LLaMA2モデルを用いた共通コード生成および数学推論ベンチマークにおける既存の自己改善および検証アプローチよりも4%から17%の精度が向上する。
Common self-improvement approaches for large language models (LLMs), such as STaR, iteratively fine-tune LLMs on self-generated solutions to improve their problem-solving ability. However, these approaches discard the large amounts of incorrect solutions generated during this process, potentially neglecting valuable information in such solutions. To address this shortcoming, we propose V-STaR that utilizes both the correct and incorrect solutions generated during the self-improvement process to train a verifier using DPO that judges correctness of model-generated solutions. This verifier is used at inference time to select one solution among many candidate solutions. Running V-STaR for multiple iterations results in progressively better reasoners and verifiers, delivering a 4% to 17% test accuracy improvement over existing self-improvement and verification approaches on common code generation and math reasoning benchmarks with LLaMA2 models. | 翻訳日:2024-08-15 18:16:52 公開日:2024-08-14 |
# 切り換え可能なメカニズムによる暗黙の因果表現学習
Implicit Causal Representation Learning via Switchable Mechanisms ( http://arxiv.org/abs/2402.11124v3 ) ライセンス: Link先を確認 | Shayan Shirahmad Gale Bagi, Zahra Gharaee, Oliver Schulte, Mark Crowley, | (参考訳) 観測データと介入データからの因果表現の学習には,暗黙の潜伏因果表現学習が必要である。
因果的メカニズムの暗黙的な学習は通常、ハードとソフトの介入という2つの介入データを含む。
現実のシナリオでは、ソフトな介入はハードな介入よりも現実的であることが多い。
因果変化を直接強制するハード介入とは異なり、ソフト介入は因果機構に影響を与えることによって間接的に影響を与える。
しかし、ソフト介入の微妙さは因果モデルの学習にいくつかの課題を課している。
1つの課題は、親関係はそのままであり、ソフト介入の効果が曖昧であることである。
本稿では,ソフト介入を用いた因果モデル学習の課題に対処し,暗黙的モデリングを継続する。
ICLR-SMは,異なる因果メカニズム間を切り替えるように設計された因果メカニズムスイッチ変数を用いて,ソフト介入の効果をモデル化する。
実験では,ベースラインアプローチと比較して,同定可能な因果表現の学習の改善を一貫して観察した。
Learning causal representations from observational and interventional data in the absence of known ground-truth graph structures necessitates implicit latent causal representation learning. Implicit learning of causal mechanisms typically involves two categories of interventional data: hard and soft interventions. In real-world scenarios, soft interventions are often more realistic than hard interventions, as the latter require fully controlled environments. Unlike hard interventions, which directly force changes in a causal variable, soft interventions exert influence indirectly by affecting the causal mechanism. However, the subtlety of soft interventions impose several challenges for learning causal models. One challenge is that soft intervention's effects are ambiguous, since parental relations remain intact. In this paper, we tackle the challenges of learning causal models using soft interventions while retaining implicit modelling. We propose ICLR-SM, which models the effects of soft interventions by employing a causal mechanism switch variable designed to toggle between different causal mechanisms. In our experiments, we consistently observe improved learning of identifiable, causal representations, compared to baseline approaches. | 翻訳日:2024-08-15 18:16:52 公開日:2024-08-14 |
# FIPO: 優先度データセットとモジュールファインチューニングスキーマを用いた自由形式命令指向プロンプト最適化
FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema ( http://arxiv.org/abs/2402.11811v3 ) ライセンス: Link先を確認 | Junru Lu, Siyu An, Min Zhang, Yulan He, Di Yin, Xing Sun, | (参考訳) ナイーブプロンプトの品質が人間の専門家によって慎重に最適化されると、大規模言語モデル(LLM)のタスク性能が大幅に向上する。
しかし、エキスパートベースのプロンプト最適化は高価である。
ここでは、ある箱内試験モデルのタスク出力に応じて、アドホックな方法で高度なLCM(例えば、GPT-4)の助けを借りて、自然なプロンプトを最適化する自動プロンプト最適化(APO)を提案する研究がある。
効果はあるものの、既存のスキームは一般化能力の低下とプライバシーリスクに悩まされている。
この目的のために、我々は、POP(Prompt Optimization Preference dataset)の最初の大規模プロンプト最適化データセットを収集した。
提案手法では, モデルに依存しない方法で, コアタスク命令部分の正確な最適化が可能であり, 提案手法はFIPO (Free-from Instruction-oriented Prompt Optimization) と呼ばれる。
具体的には、FIPOはモジュール型APOテンプレートを使用して、単純タスク命令、任意命令応答、オプション基底真理を動的に統合し、微調整されたプロンプトを生成する。
POPデータセットは高度なLCMを用いて慎重に構築され、人間の専門家や分析モデルによる厳密なクロスバリデーションが実施されている。
Tulu2モデルとさまざまな微調整戦略によるデータからの洞察を活用して、5つの公開ベンチマークと6つのテストモデルでFIPOフレームワークの有効性を検証する。
https://github.com/LuJunru/FIPO_Project.com/FIPO_Project.com/FIPO_Project.com/FIPO_Project.com/FIPO_ Project.com/FIPO_Project
When the quality of naive prompts is carefully optimized by human experts, the task performance of large language models (LLMs) can be significantly improved. However, expert-based prompt optimizations are expensive. Herein, some works have proposed Automatic Prompt Optimization (APO), to optimize naive prompts according to task outputs of given in-box testing models, with the help of advanced LLMs (e.g., GPT-4) in an ad-hoc way. Although effective, existing schemes suffer from poor generalization ability and privacy risk. To this end, we collect the first large-scale Prompt Optimization Preference dataset (POP), fine-tune offline local LLM-based optimizers, then fairly test with various downstream models. Our method allows accurate optimization of the core task instruction part within the naive prompt in a model-agnostic manner, and thus is named Free-from Instruction-oriented Prompt Optimization (FIPO). In specific, FIPO uses a modular APO template that dynamically integrate the naive task instruction, optional instruction responses, and optional ground truth to produce finely optimized prompts. The POP dataset is meticulously constructed using advanced LLMs, undergoing rigorous cross-validation by human experts and analytical models. Leveraging insights from the data with Tulu2 models and diverse fine-tuning strategies, we validate the efficacy of FIPO framework across five public benchmarks and six testing models. Check codes and data here: https://github.com/LuJunru/FIPO_Project. | 翻訳日:2024-08-15 18:06:42 公開日:2024-08-14 |
# 非整数多元論理を用いた3Vプログラマブルジョセフソン接合アレイの実証
Demonstration of 3 V Programmable Josephson Junction Arrays Using Non-Integer-Multiple Logic ( http://arxiv.org/abs/2402.16072v2 ) ライセンス: Link先を確認 | Wenhui Cao, Erkun Yang, Jinjin Li, Guanhua She, Yuan Zhong, Qing Zhong, Da Xu, Xueshen Wang, Xiaolong Xu, Shijian Wang, Jian Chen, | (参考訳) 本稿では、プログラマブルなジョセフソン電圧標準に使用できる整数表現のための新しい種類のプログラマブル論理を実証する。
これは、ほとんどのビットにおけるジャンクションの数を、通常のバイナリ論理や三項論理とは異なる可変整数値にすることができる。
したがって、超伝導短絡によるジャンクションの欠如は、この論理の下で許容される。
この論理は三次論理とほぼ同じセグメンテーション効率を持つ。
この論理を用いたシーケンスの完全性は,本論文の数学における再帰的手法によって証明される。
その後、証明されたプロセスに従って整数表現のための新しいアルゴリズムを示し、各ビットに対する耐故障ジャンクションの数の解析を行う。
第1および第2のビットはジャンクションの欠如に寛容ではないが、これら以外のビットは1から数百のジャンクションの欠落を許容する。
シーケンスのビット間の固定されていない多重性のため、この論理は非整数多重論理(non-integer-multiple logic)と呼ばれる。
最後に、この論理を用いた3Vプログラマブルジョセフソン接合配列の設計と作成について述べ、特性パラメータの測定と解析について述べる。
This article demonstrates a new kind of programmable logic for the representation of an integer that can be used for the programmable Josephson voltage standard. It can enable the numbers of junctions in most bits to be variable integer values, which is different from normal binary logic or ternary logic. Consequently, missing junctions due to superconducting short circuits can be tolerated under this logic. This logic can also have nearly the same segmentation efficiency as ternary logic. The completeness of the sequences using this logic is proven by the recursive method in mathematics in this paper. After that, a new algorithm for the representation of integers is presented according to the proven process, and an analysis of the number of fault-tolerant junctions for each bit is provided. Although the first and second bits are not tolerant to missing junctions, bits beyond these can tolerate one to hundreds of missing junctions. Due to the non-fixed multiples between the bits of the sequence, this logic is called non-integer-multiple logic. Finally, the design and fabrication of a 3 V programmable Josephson junction array using this logic are described, and the measurements and analysis of the characteristic parameters are presented. | 翻訳日:2024-08-15 18:06:42 公開日:2024-08-14 |
# BlockFUL: ブロックチェーンフェデレーション学習におけるアンラーニングの実現
BlockFUL: Enabling Unlearning in Blockchained Federated Learning ( http://arxiv.org/abs/2402.16294v2 ) ライセンス: Link先を確認 | Xiao Liu, Mingyuan Li, Xu Wang, Guangsheng Yu, Wei Ni, Lixiang Li, Haipeng Peng, Renping Liu, | (参考訳) フェデレートラーニング(FL)におけるアンラーニングは、モデルが複雑な継承関係を持って成長し進化するにつれて、大きな課題を提起する。
本稿では、Blockchained Federated Unlearning(BlockFUL)を紹介します。Blockchained FL内での非学習機能を実現するための、ライブチェーンとアーカイブチェーンで構成される、二重チェーン構造を持つ新しいフレームワークです。
BlockFULは2つの新しいアンラーニングパラダイム、すなわち並列パラダイムとシーケンシャルパラダイムを導入している。
これらの方法は、効率的なコンセンサス演算を実現し、計算コストを削減し、複数の継承モデルにわたる未学習プロセスを強化する。
CIFAR-10におけるBlockFULとFashion-MNISTデータセットにおいて、AlexNet、ResNet18、MobileNetV2モデルを用いて、これらの手法がデータ依存性と運用上のオーバーヘッドを効果的に低減し、学習されていない継承モデルの全体的な性能を向上させることを検証する。
Unlearning in Federated Learning (FL) presents significant challenges, as models grow and evolve with complex inheritance relationships. This complexity is amplified when blockchain is employed to ensure the integrity and traceability of FL, where the need to edit multiple interlinked blockchain records and update all inherited models complicates the process.In this paper, we introduce Blockchained Federated Unlearning (BlockFUL), a novel framework with a dual-chain structure comprising a live chain and an archive chain for enabling unlearning capabilities within Blockchained FL. BlockFUL introduces two new unlearning paradigms, i.e., parallel and sequential paradigms, which can be effectively implemented through gradient-ascent-based and re-training-based unlearning methods. These methods enhance the unlearning process across multiple inherited models by enabling efficient consensus operations and reducing computational costs. Our extensive experiments validate that these methods effectively reduce data dependency and operational overhead, thereby boosting the overall performance of unlearning inherited models within BlockFUL on CIFAR-10 and Fashion-MNIST datasets using AlexNet, ResNet18, and MobileNetV2 models. | 翻訳日:2024-08-15 18:06:42 公開日:2024-08-14 |
# 大規模言語モデルにおける大規模活性化
Massive Activations in Large Language Models ( http://arxiv.org/abs/2402.17762v2 ) ライセンス: Link先を確認 | Mingjie Sun, Xinlei Chen, J. Zico Kolter, Zhuang Liu, | (参考訳) 大規模言語モデル(LLM)では経験的な現象が観測されており、他のもの(例えば10万倍)よりもはるかに大きな値を示すアクティベーションはほとんどありません。
それらは大規模な活性化と呼ばれます。
まず,多種多様なLDMにまたがる大規模活性化の存在を実証し,その位置を特徴付ける。
第二に、それらの値は入力によらずほぼ一定であり、LLMでは必須のバイアス項として機能する。
第3に、これらの大きな活性化は、対応するトークンに対する注意確率の集中、さらに自己注意出力における暗黙のバイアス項をもたらす。
最後に、視覚変換器の大規模な活性化についても検討する。
コードはhttps://github.com/locuslab/massive-activationsで入手できる。
We observe an empirical phenomenon in Large Language Models (LLMs) -- very few activations exhibit significantly larger values than others (e.g., 100,000 times larger). We call them massive activations. First, we demonstrate the widespread existence of massive activations across various LLMs and characterize their locations. Second, we find their values largely stay constant regardless of the input, and they function as indispensable bias terms in LLMs. Third, these massive activations lead to the concentration of attention probabilities to their corresponding tokens, and further, implicit bias terms in the self-attention output. Last, we also study massive activations in Vision Transformers. Code is available at https://github.com/locuslab/massive-activations. | 翻訳日:2024-08-15 18:06:42 公開日:2024-08-14 |
# $\texttt{COSMIC}$:タスクに依存しない要約評価のための相互情報
$\texttt{COSMIC}$: Mutual Information for Task-Agnostic Summarization Evaluation ( http://arxiv.org/abs/2402.19457v3 ) ライセンス: Link先を確認 | Maxime Darrin, Philippe Formont, Jackie Chi Kit Cheung, Pablo Piantanida, | (参考訳) 要約の質を評価することは大きな課題となる。
そこで本研究では,ダウンストリームタスクに有用な要約を生成するために,その能力に基づいて要約者を評価するタスク指向評価手法を提案する。
理論的には、これらのタスクの結果の誤り確率と、ソーステキストと生成された要約との間の相互情報との直接的な関係を確立する。
我々は,この指標の実践的実装として$\texttt{COSMIC}$を導入し,人間の判断に基づく指標との強い相関と下流タスク性能の予測の有効性を実証した。
$\textt{BERTScore}$と$\textt{ROUGE}$のような確立されたメトリクスとの比較分析は、$\textt{COSMIC}$の競合性能を強調します。
Assessing the quality of summarizers poses significant challenges. In response, we propose a novel task-oriented evaluation approach that assesses summarizers based on their capacity to produce summaries that are useful for downstream tasks, while preserving task outcomes. We theoretically establish a direct relationship between the resulting error probability of these tasks and the mutual information between source texts and generated summaries. We introduce $\texttt{COSMIC}$ as a practical implementation of this metric, demonstrating its strong correlation with human judgment-based metrics and its effectiveness in predicting downstream task performance. Comparative analyses against established metrics like $\texttt{BERTScore}$ and $\texttt{ROUGE}$ highlight the competitive performance of $\texttt{COSMIC}$. | 翻訳日:2024-08-15 18:06:42 公開日:2024-08-14 |
# Read and Think: 文書理解と推論のためのステップワイド多モーダル言語モデル
Read and Think: An Efficient Step-wise Multimodal Language Model for Document Understanding and Reasoning ( http://arxiv.org/abs/2403.00816v3 ) ライセンス: Link先を確認 | Jinxu Zhang, | (参考訳) マルチモーダル文書の内容を理解することは、関連する証拠を正確に抽出し、推論に利用する上で不可欠である。
既存の文書理解モデルは、1つの単語やフレーズで直接回答を生成する傾向があり、ソース文書の証拠を無視し、解釈性に欠ける。
本研究では、データ拡張と拡張によるステップワイズ機能の欠如に対処する。
具体的には,マルチモーダル大言語モデル(MLLM)を用いて,文書画像の段階的問合せペアを生成するデータジェネレータとして,ノイズを除去するエラー検出器として高性能LLMを用いる。
このステップワイズなデータ生成パイプラインはテンプレートベースと少数ショットメソッドの両方を使って実装されている。
次に、生成した高品質なデータを使用して、人間化された文書理解と推論モデルをトレーニングし、特にDocAssistantと呼ばれる、推論やマルチホップの質問応答を必要とする複雑な質問を解決するように設計されています。
実験の結果、ステップワイズ生成の有効性と応用価値が示され、複雑なレイアウトでInfoVQAが5改善、複雑な推論でChartQAが7改善された。
我々は、合成データの可能性を強調し、マルチモーダルな文書推論機能をさらに探求することを願っている。
Understanding the contents of multimodal documents is essential to accurately extract relevant evidence and use it for reasoning. Existing document understanding models tend to generate answers with a single word or phrase directly, ignoring the source document's evidence and lacking interpretability. In this work, we address the lack of step-wise capabilities through data augmentation and extension. Specifically, We use Multi-modal Large Language Models (MLLMs), which have strong visual understanding and reasoning abilities, as data generators to generate step-wise question-and-answer pairs for document images and use a high-performance LLM as the error detector to filter out noisy data. This step-wise data generation pipeline is implemented using both template-based and few-shot methods. We then use the generated high-quality data to train a humanized document understanding and reasoning model, specifically designed to solve complex questions that require reasoning or multi-hop question answering, dubbed DocAssistant. Experimental results demonstrate the effectiveness and application value of step-wise generation, showing a 5 improvement on InfoVQA with complex layouts and a 7 improvement on ChartQA with complex reasoning, compared to directly generated answers. We hope our work highlights the potential of synthetic data and encourages further exploration of multi-modal document reasoning capabilities. | 翻訳日:2024-08-15 18:06:42 公開日:2024-08-14 |
# 不完全なテレポーテーション下における量子臨界
Quantum criticality under imperfect teleportation ( http://arxiv.org/abs/2403.04843v2 ) ライセンス: Link先を確認 | Pablo Sala, Sara Murciano, Yue Liu, Jason Alicea, | (参考訳) 絡み合い、測定、古典的なコミュニケーションは、原理的には完全な忠実さで、遠くのパーティ間で量子状態のテレポーテーションを可能にする。
不完全なテレポーテーションプロトコル下での多体波動関数伝達の相関と絡み合いの程度について
本稿では,不完全伝送された量子臨界波動関数に対して,臨界イジング鎖の基底状態に着目し,この問題に対処する。
提案手法では,特定のプロトコルで採用されているエンタングゲートにおける不完全性(例えば,エンタングゲートにおける不完全性)が,非定常的に放送される臨界状態に作用する弱い測定値として効果的に表されることを示す。
この観点から、我々は、臨界状態のテレポーテーションのレジリエンスを定量化するために、測定式量子臨界理論を活用、さらに発展させます。
不完全性を$とするテレポーテーションプロトコルのクラスを識別する。
(i)$は、元の量子臨界状態の普遍的長距離絡み合いと相関の両方を保存する。
(ii)$はこれらの量をそれらの普遍値から弱め、$
(iii)$は、新しい指数の集合であるにもかかわらず、権力-法則の相関を保ちながら、長距離の絡みを完全に消し去る。
また,一連の連続不完全なテレポーテーションイベントの平均を記述する混合状態は,各プロトコルの実行時と同様の誤差に依存するが,'組込み'復号アルゴリズムによるプリスタント・パワー・ローの相関が保たれていることを示す。
これらの結果は、エラーに対して最適化するテレポーテーションプロトコルを設計することを可能にします。
Entanglement, measurement, and classical communication together enable teleportation of quantum states between distant parties, in principle with perfect fidelity. To what extent do correlations and entanglement of a many-body wavefunction transfer under imperfect teleportation protocols? We address this question for the case of an imperfectly teleported quantum critical wavefunction, focusing on the ground state of a critical Ising chain. We demonstrate that imperfections, e.g., in the entangling gate adopted for a given protocol, effectively manifest as weak measurements acting on the otherwise pristinely teleported critical state. Armed with this perspective, we leverage and further develop the theory of measurement-altered quantum criticality to quantify the resilience of critical-state teleportation. We identify classes of teleportation protocols for which imperfection $(i)$ preserves both the universal long-range entanglement and correlations of the original quantum critical state, $(ii)$ weakly modifies these quantities away from their universal values, and $(iii)$ obliterates long-range entanglement altogether while preserving power-law correlations, albeit with a new set of exponents. We also show that mixed states describing the average over a series of sequential imperfect teleportation events retain pristine power-law correlations due to a `built-in' decoding algorithm, though their entanglement structure measured by the negativity depends on errors similarly to individual protocol runs. These results may allow one to design teleportation protocols that optimize against errors -- highlighting a potential practical application of measurement-altered criticality. | 翻訳日:2024-08-15 18:06:42 公開日:2024-08-14 |
# Reset & Distill: 継続的な強化学習における否定的伝達を克服するためのレシピ
Reset & Distill: A Recipe for Overcoming Negative Transfer in Continual Reinforcement Learning ( http://arxiv.org/abs/2403.05066v2 ) ライセンス: Link先を確認 | Hongjoon Ahn, Jinu Hyeon, Youngmin Oh, Bosun Hwang, Taesup Moon, | (参考訳) 我々は,学習すべき新しいタスクが到着したときに生じる負の伝達問題は,効果的な継続強化学習(CRL)アルゴリズムを開発する際には見過ごさなくてもよい重要な問題であると主張している。
総合的な実験的検証を通じて、このような問題はCRLに頻繁に存在し、RL剤の可塑性損失軽減に関する最近の研究によって効果的に対処できないことを示す。
そこで我々は, CRLにおける負の伝達問題を克服するため, 単純かつ高効率なReset & Distill (R&D) を開発した。
R&Dは、エージェントのオンラインアクターと批評家ネットワークをリセットして新しいタスクを学ぶ戦略と、オンラインアクターと以前の専門家の行動確率から知識を抽出するオフライン学習ステップを組み合わせる。
我々は,Meta Worldタスクの長いシーケンスについて広範な実験を行い,本手法が最近のベースラインを一貫して上回り,タスクの範囲で成功率を著しく向上させることを示した。
本研究は,CRLの陰性移行を検討することの重要性を強調し,その有害性を軽減するためにR&Dのような堅牢な戦略の必要性を強調した。
We argue that the negative transfer problem occurring when the new task to learn arrives is an important problem that needs not be overlooked when developing effective Continual Reinforcement Learning (CRL) algorithms. Through comprehensive experimental validation, we demonstrate that such issue frequently exists in CRL and cannot be effectively addressed by several recent work on mitigating plasticity loss of RL agents. To that end, we develop Reset & Distill (R&D), a simple yet highly effective method, to overcome the negative transfer problem in CRL. R&D combines a strategy of resetting the agent's online actor and critic networks to learn a new task and an offline learning step for distilling the knowledge from the online actor and previous expert's action probabilities. We carried out extensive experiments on long sequence of Meta World tasks and show that our method consistently outperforms recent baselines, achieving significantly higher success rates across a range of tasks. Our findings highlight the importance of considering negative transfer in CRL and emphasize the need for robust strategies like R&D to mitigate its detrimental effects. | 翻訳日:2024-08-15 18:06:42 公開日:2024-08-14 |
# RepoHyper: Repository-Levelコード補完のためのセマンティックグラフの検索拡張
RepoHyper: Search-Expand-Refine on Semantic Graphs for Repository-Level Code Completion ( http://arxiv.org/abs/2403.06095v4 ) ライセンス: Link先を確認 | Huy N. Phan, Hoang N. Phan, Tien N. Nguyen, Nghi D. Q. Bui, | (参考訳) Code Large Language Models (CodeLLMs) は、コード補完タスクにおいて、驚くほどの熟練度を示している。
しかしながら、関係するファイルやクラス階層の複雑さなど、プロジェクトリポジトリの広範なコンテキストを完全に理解するに足りず、その結果、より正確でない補完が得られます。
これらの制限を克服するため、リポジトリレベルのコード補完に関連する複雑な問題に対処するために設計された多面的フレームワークである \tool を提示する。
RepoHYPERの中心は、コードリポジトリの広大なコンテキストをカプセル化する新しいセマンティックグラフ構造である、RSG(Repo-level Semantic Graph)である。
さらに、RepoHyperは、グラフ拡張とRSGに適用されるリンク予測アルゴリズムを含むExpand and Refine検索手法を活用し、関連するコードスニペットの効率的な検索と優先順位付けを可能にする。
評価の結果,<tool>はリポジトリレベルのコード補完において既存の手法よりも優れており,複数の強力なベースラインと比較して,さまざまなデータセットの精度が向上していることがわかった。
RepoHYPERの実装はhttps://github.com/FSoft-AI4Code/RepoHyperで確認できます。
Code Large Language Models (CodeLLMs) have demonstrated impressive proficiency in code completion tasks. However, they often fall short of fully understanding the extensive context of a project repository, such as the intricacies of relevant files and class hierarchies, which can result in less precise completions. To overcome these limitations, we present \tool, a multifaceted framework designed to address the complex challenges associated with repository-level code completion. Central to RepoHYPER is the {\em Repo-level Semantic Graph} (RSG), a novel semantic graph structure that encapsulates the vast context of code repositories. Furthermore, RepoHyper leverages Expand and Refine retrieval method, including a graph expansion and a link prediction algorithm applied to the RSG, enabling the effective retrieval and prioritization of relevant code snippets. Our evaluations show that \tool markedly outperforms existing techniques in repository-level code completion, showcasing enhanced accuracy across various datasets when compared to several strong baselines. Our implementation of RepoHYPER can be found at https://github.com/FSoft-AI4Code/RepoHyper. | 翻訳日:2024-08-15 18:06:42 公開日:2024-08-14 |
# 軌道制御可能な拡散を伴う高調波群コレオグラフィー
Harmonious Group Choreography with Trajectory-Controllable Diffusion ( http://arxiv.org/abs/2403.06189v3 ) ライセンス: Link先を確認 | Yuqin Dai, Wanlu Zhu, Ronghui Li, Zeping Ren, Xiangzheng Zhou, Xiu Li, Jun Li, Jian Yang, | (参考訳) 音楽からグループ振付を作成することは、視覚的に結束的で多様なグループの動きを協調することを目的として、文化的エンターテイメントやバーチャルリアリティーにおいて注目を集めている。
興味の高まりにもかかわらず、近年の作品は、主にマルチダンサーの衝突とシングルダンサーのフットスライドという2つの主要な問題に対して、美学的に魅力的な振付の達成という課題に直面している。
これらの問題に対処するために,非重なり合うトラジェクトリを利用してコヒーレントなダンスの動きを促進する新しい手法であるトラジェクトリ・コンストラクタブル・ディフュージョン(TCDiff)を提案する。
具体的には、ダンス・ビート・ナビゲータを用いて、音楽に基づいて複数のダンサーのトラジェクトリを生成可能なダンス・ビート・ナビゲータを導入し、適切な閾値内でのトラジェクトリ間の適切な間隔を維持するために、距離・一貫性の損失を補足する。
そこで我々は,隣接するフレームからの軌道変位を利用してフレキシブルなフットワークを実現するフットワーク・アダプタを提案する。
大規模な実験により,本手法は最先端の結果が得られることが示された。
Creating group choreography from music has gained attention in cultural entertainment and virtual reality, aiming to coordinate visually cohesive and diverse group movements. Despite increasing interest, recent works face challenges in achieving aesthetically appealing choreography, primarily for two key issues: multi-dancer collision and single-dancer foot slide. To address these issues, we propose a Trajectory-Controllable Diffusion (TCDiff), a novel approach that harnesses non-overlapping trajectories to facilitate coherent dance movements. Specifically, to tackle dancer collisions, we introduce a Dance-Beat Navigator capable of generating trajectories for multiple dancers based on the music, complemented by a Distance-Consistency loss to maintain appropriate spacing among trajectories within a reasonable threshold. To mitigate foot sliding, we present a Footwork Adaptor that utilizes trajectory displacement from adjacent frames to enable flexible footwork, coupled with a Relative Forward-Kinematic loss to adjust the positioning of individual dancers' root nodes and joints. Extensive experiments demonstrate that our method achieves state-of-the-art results. | 翻訳日:2024-08-15 18:06:42 公開日:2024-08-14 |
# 長距離量子系におけるアンサンブル不等式
Ensemble inequivalence in long-range quantum systems ( http://arxiv.org/abs/2403.06673v2 ) ライセンス: Link先を確認 | Nicolò Defenu, David Mukamel, Stefano Ruffo, | (参考訳) エンサンブル不等式(エンサンブル不等式、すなわち、システムを記述する統計アンサンブルに依存する異なる熱力学特性を観測する可能性)は、多くの古典的システムで実証された長距離物理学の目印の一つである。
ここでは、長距離量子強磁性体のアンサンブル非等価性の例を示す。
T=0$のマイクロカノニカル量子位相図は標準アンサンブルと一致するが、2つのアンサンブルの位相図は有限温度で異なる。
これは、熱力学特性が異なるアンサンブルによって記述されるマクロ力学系と一致するような短距離相互作用を持つ系の統計力学の一般的な軌跡とは対照的である。
原子、分子、光学(AMO)セットアップの文脈におけるこれらの発見の結果は、明らかにされている。
Ensemble inequivalence, i.e. the possibility of observing different thermodynamic properties depending on the statistical ensemble which describes the system, is one of the hallmarks of long-range physics, which has been demonstrated in numerous classical systems. Here, an example of ensemble inequivalence of a long-range quantum ferromagnet is presented. While the $T=0$ microcanonical quantum phase-diagram coincides with that of the canonical ensemble, the phase-diagrams of the two ensembles are different at finite temperature. This is in contrast with the common lore of statistical mechanics of systems with short-range interactions where thermodynamic properties are bound to coincide for macroscopic systems described by different ensembles. The consequences of these findings in the context of atomic, molecular and optical (AMO) setups are delineated. | 翻訳日:2024-08-15 18:06:42 公開日:2024-08-14 |
# データ処理における知識の希薄化
Distilling the Knowledge in Data Pruning ( http://arxiv.org/abs/2403.07854v2 ) ライセンス: Link先を確認 | Emanuel Ben-Baruch, Adam Botach, Igor Kviatkovsky, Manoj Aggarwal, Gérard Medioni, | (参考訳) ニューラルネットワークのトレーニングに使用されるデータセットのサイズが大きくなるにつれ、データプルーニングは研究の魅力的な分野となる。
しかしながら、現在のデータプルーニングアルゴリズムのほとんどは、特に高いプルーニングレジームにおいて、フルデータでトレーニングされたモデルと比較して、正確性を維持する能力に制限がある。
本稿では,刈り込みサブセットのトレーニングにおいて,知識蒸留(KD)を取り入れたデータ刈り込みの適用について検討する。
つまり、地平線ラベルにのみ依存するのではなく、教師ネットワークからのソフトな予測を、完全なデータに基づいて事前学習する。
KDをトレーニングに統合することにより、データセット、プルーニング方法、およびすべてのプルーニング率において、大幅な改善が示される。
まず, 精錬データの訓練を改善するために, 自己蒸留を用いた理論的動機付けを確立する。
KDを用いることで、単純なランダムプルーニングは、すべてのプルーニング体制における洗練されたプルーニング手法に匹敵するか、あるいは優れている。
例えば、ImageNetでは、データの50%のランダムなサブセットをトレーニングしても、精度が優れています。
さらに, プルーニング係数と最適知識蒸留量との間に重要な関係性を示す。
これにより、一般的なプルーニングアルゴリズムで保持されるノイズの多いラベルと低品質の画像によるサンプルの影響を軽減することができる。
最後に、我々は興味深い観察を行い、より低いプルーニング率を使用すると、より大きな教師が精度を低下させ、驚くべきことに、学生よりも少ない能力の教師を雇うことで、結果が向上する可能性がある。
私たちのコードは利用可能になります。
With the increasing size of datasets used for training neural networks, data pruning becomes an attractive field of research. However, most current data pruning algorithms are limited in their ability to preserve accuracy compared to models trained on the full data, especially in high pruning regimes. In this paper we explore the application of data pruning while incorporating knowledge distillation (KD) when training on a pruned subset. That is, rather than relying solely on ground-truth labels, we also use the soft predictions from a teacher network pre-trained on the complete data. By integrating KD into training, we demonstrate significant improvement across datasets, pruning methods, and on all pruning fractions. We first establish a theoretical motivation for employing self-distillation to improve training on pruned data. Then, we empirically make a compelling and highly practical observation: using KD, simple random pruning is comparable or superior to sophisticated pruning methods across all pruning regimes. On ImageNet for example, we achieve superior accuracy despite training on a random subset of only 50% of the data. Additionally, we demonstrate a crucial connection between the pruning factor and the optimal knowledge distillation weight. This helps mitigate the impact of samples with noisy labels and low-quality images retained by typical pruning algorithms. Finally, we make an intriguing observation: when using lower pruning fractions, larger teachers lead to accuracy degradation, while surprisingly, employing teachers with a smaller capacity than the student's may improve results. Our code will be made available. | 翻訳日:2024-08-15 18:06:42 公開日:2024-08-14 |
# HAIFIT:人間とAIのファッション画像翻訳
HAIFIT: Human-to-AI Fashion Image Translation ( http://arxiv.org/abs/2403.08651v5 ) ライセンス: Link先を確認 | Jianan Jiang, Xinglin Li, Weiren Yu, Di Wu, | (参考訳) ファッションデザインの領域では、スケッチはアーティストの独特のドローイングスタイルと創造的なビジョンを表現するためのキャンバスとして機能し、ストロークのバリエーションやテクスチャのニュアンスといった複雑な詳細を捉えている。
スケッチ・ツー・イメージのクロスモーダル翻訳技術の出現は、デザイナを特に助けてきた。
しかし、既存の手法はしばしばこれらのスケッチの詳細を画像生成中に妥協し、設計者の意図した概念から逸脱する結果となる。
この制限は、デザイナーに最終的な出力の正確なプレビューを提供する能力を損なう。
この課題を克服するために,マルチスケール機能を統合し,多様な視点から広範な特徴マップ依存性をキャプチャすることで,スケッチを高忠実なライフライクな衣料品画像に変換する新しいアプローチであるHAIFITを導入する。
本手法は,我々の自己収集データセット上で行った定性的,定量的な評価を通じて,既存のフォトリアリスティックな衣料品画像生成手法と比較して,優れた性能を示す。
本手法は, ファッションデザインに欠かせない, 独特のスタイルの保存に優れ, 細部が複雑である。
さらに,本手法は,設計者の時間的コスト低減と設計効率の向上に寄与し,モデルトレーニングと推論速度において明らかな優位性を有する。
In the realm of fashion design, sketches serve as the canvas for expressing an artist's distinctive drawing style and creative vision, capturing intricate details like stroke variations and texture nuances. The advent of sketch-to-image cross-modal translation technology has notably aided designers. However, existing methods often compromise these sketch details during image generation, resulting in images that deviate from the designer's intended concept. This limitation hampers the ability to offer designers a precise preview of the final output. To overcome this challenge, we introduce HAIFIT, a novel approach that transforms sketches into high-fidelity, lifelike clothing images by integrating multi-scale features and capturing extensive feature map dependencies from diverse perspectives. Through extensive qualitative and quantitative evaluations conducted on our self-collected dataset, our method demonstrates superior performance compared to existing methods in generating photorealistic clothing images. Our method excels in preserving the distinctive style and intricate details essential for fashion design applications. In addition, our method also has obvious advantages in model training and inference speed, contributing to reducing designers' time costs and improving design efficiency. | 翻訳日:2024-08-15 18:06:42 公開日:2024-08-14 |
# ADEdgeDrop:ロバストグラフニューラルネットワークの逆エッジドロップ
ADEdgeDrop: Adversarial Edge Dropping for Robust Graph Neural Networks ( http://arxiv.org/abs/2403.09171v2 ) ライセンス: Link先を確認 | Zhaoliang Chen, Zhihao Wu, Ylli Sadikaj, Claudia Plant, Hong-Ning Dai, Shiping Wang, Yiu-Ming Cheung, Wenzhong Guo, | (参考訳) グラフニューラルネットワーク(GNN)は,様々なメッセージパッシング機構を通じて周辺ノードからグラフ構造化情報を収集する強力な能力を示したが,ノイズや冗長なグラフデータによって生じる一般化の貧弱さと脆弱な堅牢性により,GNNの性能は制限されている。
目立った解決策として、グラフ強化学習(GAL)が最近注目を集めている。
従来のGAL手法の中で、学習中にグラフからエッジをランダムに除去するエッジドロップ法は、GNNの堅牢性を改善する効果的な手法である。
しかし、ランダムにエッジを落とすと、しばしばクリティカルエッジをバイパスし、メッセージパッシングの有効性を弱める。
本稿では,異なるGNNバックボーンに柔軟に組み込むことができる,エッジの除去を導く対向エッジ予測器を活用する新しい対向エッジドロップ法(ADEdgeDrop)を提案する。
エッジ予測器は、逆トレーニングフレームワークを用いて、元のグラフから変換された線グラフを利用して、ドロップするエッジを推定し、エッジドロップ方式の解釈性を向上させる。
提案したADEdgeDropは,確率勾配勾配と投影勾配勾配とを交互に最適化する。
6つのグラフベンチマークデータセットに関する総合的な実験により、提案されたADEdgeDropは、様々なGNNバックボーンで最先端のベースラインよりも優れ、一般化とロバスト性の向上が示されている。
Although Graph Neural Networks (GNNs) have exhibited the powerful ability to gather graph-structured information from neighborhood nodes via various message-passing mechanisms, the performance of GNNs is limited by poor generalization and fragile robustness caused by noisy and redundant graph data. As a prominent solution, Graph Augmentation Learning (GAL) has recently received increasing attention. Among prior GAL approaches, edge-dropping methods that randomly remove edges from a graph during training are effective techniques to improve the robustness of GNNs. However, randomly dropping edges often results in bypassing critical edges, consequently weakening the effectiveness of message passing. In this paper, we propose a novel adversarial edge-dropping method (ADEdgeDrop) that leverages an adversarial edge predictor guiding the removal of edges, which can be flexibly incorporated into diverse GNN backbones. Employing an adversarial training framework, the edge predictor utilizes the line graph transformed from the original graph to estimate the edges to be dropped, which improves the interpretability of the edge-dropping method. The proposed ADEdgeDrop is optimized alternately by stochastic gradient descent and projected gradient descent. Comprehensive experiments on six graph benchmark datasets demonstrate that the proposed ADEdgeDrop outperforms state-of-the-art baselines across various GNN backbones, demonstrating improved generalization and robustness. | 翻訳日:2024-08-15 18:06:42 公開日:2024-08-14 |
# 量子コンピューティングと差分プライバシのブリッジ:量子コンピューティングプライバシに関する考察
Bridging Quantum Computing and Differential Privacy: Insights into Quantum Computing Privacy ( http://arxiv.org/abs/2403.09173v3 ) ライセンス: Link先を確認 | Yusheng Zhao, Hui Zhong, Xinyue Zhang, Yuqing Li, Chi Zhang, Miao Pan, | (参考訳) 量子コンピューティングは、データ駆動の分野で大きな可能性を秘めているが、量子アルゴリズムに関わる機密情報や貴重な情報のプライバシーの問題を考慮する必要がある。
古典的なシナリオで広く使われている基本プライバシーツールである微分プライバシー(DP)は量子ドメイン、すなわち量子微分プライバシー(QDP)に拡張されている。
QDPは、従来のDPメカニズムと互換性があるだけでなく、ノイズの多い中間スケール量子(NISQ)デバイスで避けられない量子ノイズを利用することでプライバシー保護を実現するため、プライバシ保存量子コンピューティングに対する最も有望なアプローチの1つである。
本稿では,QDPの各種実装とその性能を,DP設定下でのプライバシパラメータの観点から概説する。
具体的には、QDP手法の分類法を提案し、内部ランダム化と外部ランダム化がQDPを実現するために使用されるか、量子アルゴリズムの各フェーズにどのように適用されるかという文献を分類する。
また,QDPの課題と今後の方向性についても論じる。
近年の進歩を要約することで、この分野を探求する研究者に対して、包括的で最新のレビューを提供したいと思っています。
While quantum computing has strong potential in data-driven fields, the privacy issue of sensitive or valuable information involved in the quantum algorithm should be considered. Differential privacy (DP), which is a fundamental privacy tool widely used in the classical scenario, has been extended to the quantum domain, i.e., quantum differential privacy (QDP). QDP may become one of the most promising approaches toward privacy-preserving quantum computing since it is not only compatible with classical DP mechanisms but also achieves privacy protection by exploiting unavoidable quantum noise in noisy intermediate-scale quantum (NISQ) devices. This paper provides an overview of the various implementations of QDP and their performance in terms of privacy parameters under the DP setting. Specifically, we propose a taxonomy of QDP techniques, categorizing the literature on whether internal or external randomization is used as a source to achieve QDP and how these implementations are applied to each phase of the quantum algorithm. We also discuss challenges and future directions for QDP. By summarizing recent advancements, we hope to provide a comprehensive, up-to-date review for researchers venturing into this field. | 翻訳日:2024-08-15 18:06:42 公開日:2024-08-14 |
# VIRUS-NeRF --視覚・赤外・超音速ベースニューラルラジアンスフィールド
VIRUS-NeRF -- Vision, InfraRed and UltraSonic based Neural Radiance Fields ( http://arxiv.org/abs/2403.09477v2 ) ライセンス: Link先を確認 | Nicolaj Schmid, Cornelius von Einem, Cesar Cadena, Roland Siegwart, Lorenz Hruby, Florian Tschopp, | (参考訳) 自律型移動ロボットは、現代の工場や倉庫業務において、ますます不可欠な存在になりつつある。
障害物検出、回避、経路計画は、しばしば高価なLiDARセンサーと深度カメラを用いて解決される安全関連タスクである。
VIRUS-NeRF-Vision, InfraRed, UltraSonic-based Neural Radiance Fields を開発した。
Instant Neural Graphics Primitives with a Multi resolution Hash Encoding (Instant-NGP) をベースとして、VIRUS-NeRFは超音波と赤外線センサーの深さ測定を取り入れ、光線マーキングに使用される占有格子を更新する。
2Dの実験的評価は、VIRUS-NeRFがカバー範囲に関するLiDAR点雲に匹敵するマッピング性能を達成していることを示している。
特に小さな環境では、その精度はLiDARの測定値と一致しているが、より大きな環境では、利用した超音波センサーによって拘束される。
In-depth ablation studyによると、スパースデータと低視野変動を扱う場合、超音波と赤外線センサーの追加は極めて効果的である。
さらに、VIRUS-NeRFの占有グリッドは、Instant-NGPと比較してマッピング能力を改善し、トレーニング速度を46%向上させる。
全体として、VIRUS-NeRFはモバイルロボティクスにおけるコスト効率の良いローカルマッピングのための有望なアプローチを示し、安全性とナビゲーションタスクに潜在的に適用できる可能性がある。
コードはhttps://github.com/ethz-asl/virus nerfで見ることができる。
Autonomous mobile robots are an increasingly integral part of modern factory and warehouse operations. Obstacle detection, avoidance and path planning are critical safety-relevant tasks, which are often solved using expensive LiDAR sensors and depth cameras. We propose to use cost-effective low-resolution ranging sensors, such as ultrasonic and infrared time-of-flight sensors by developing VIRUS-NeRF - Vision, InfraRed, and UltraSonic based Neural Radiance Fields. Building upon Instant Neural Graphics Primitives with a Multiresolution Hash Encoding (Instant-NGP), VIRUS-NeRF incorporates depth measurements from ultrasonic and infrared sensors and utilizes them to update the occupancy grid used for ray marching. Experimental evaluation in 2D demonstrates that VIRUS-NeRF achieves comparable mapping performance to LiDAR point clouds regarding coverage. Notably, in small environments, its accuracy aligns with that of LiDAR measurements, while in larger ones, it is bounded by the utilized ultrasonic sensors. An in-depth ablation study reveals that adding ultrasonic and infrared sensors is highly effective when dealing with sparse data and low view variation. Further, the proposed occupancy grid of VIRUS-NeRF improves the mapping capabilities and increases the training speed by 46% compared to Instant-NGP. Overall, VIRUS-NeRF presents a promising approach for cost-effective local mapping in mobile robotics, with potential applications in safety and navigation tasks. The code can be found at https://github.com/ethz-asl/virus nerf. | 翻訳日:2024-08-15 17:56:46 公開日:2024-08-14 |
# 行動認識のための3次元ハンドケースの有用性について
On the Utility of 3D Hand Poses for Action Recognition ( http://arxiv.org/abs/2403.09805v2 ) ライセンス: Link先を確認 | Md Salman Shamil, Dibyadip Chatterjee, Fadime Sener, Shugao Ma, Angela Yao, | (参考訳) 3Dハンドポーズは、アクション認識のための未発見のモダリティである。
ケースはコンパクトだが有益であり、計算予算が限られているアプリケーションには大きなメリットがある。
しかし、ポーズだけでは、人間が相互作用する物体や環境を完全に捉えることができないため、アクションに対する不完全な理解を提供する。
我々は,手動物体の相互作用を効率的にモデル化する新しいマルチモーダルトランスであるハンドホルダーを提案する。
HandFormerは、細かな動きモデリングのための高時間分解能の3Dハンドポーズと、シーンセマンティクスを符号化するスパースサンプルのRGBフレームを組み合わせる。
ポーズのユニークな特徴を観察し、手の動きを時間的に分解し、各関節をその短期的軌跡で表現する。
この分解されたポーズ表現とスパースRGBサンプルを組み合わせることは極めて効率的で高精度である。
手しか持たないUnimodal HandFormerは、既存のスケルトンベースのメソッドを5倍のFLOPで上回ります。
RGBでは,アセンブラ101とH2Oの最先端性能が向上し,エゴセントリックな動作認識が大幅に向上した。
3D hand pose is an underexplored modality for action recognition. Poses are compact yet informative and can greatly benefit applications with limited compute budgets. However, poses alone offer an incomplete understanding of actions, as they cannot fully capture objects and environments with which humans interact. We propose HandFormer, a novel multimodal transformer, to efficiently model hand-object interactions. HandFormer combines 3D hand poses at a high temporal resolution for fine-grained motion modeling with sparsely sampled RGB frames for encoding scene semantics. Observing the unique characteristics of hand poses, we temporally factorize hand modeling and represent each joint by its short-term trajectories. This factorized pose representation combined with sparse RGB samples is remarkably efficient and highly accurate. Unimodal HandFormer with only hand poses outperforms existing skeleton-based methods at 5x fewer FLOPs. With RGB, we achieve new state-of-the-art performance on Assembly101 and H2O with significant improvements in egocentric action recognition. | 翻訳日:2024-08-15 17:56:46 公開日:2024-08-14 |
# オーバーラップによる損失 - LLMにおける透かし衝突の探索
Lost in Overlap: Exploring Watermark Collision in LLMs ( http://arxiv.org/abs/2403.10020v2 ) ライセンス: Link先を確認 | Yiyang Luo, Ke Lin, Chao Gu, | (参考訳) コンテンツ生成における大きな言語モデル(LLM)の拡散は、テキスト著作権に対する懸念を高めている。
ウォーターマーキング、特にロジットベースのアプローチは、これらの課題に対処するために、認識不能な識別子をテキストに埋め込む。
しかし、多種多様なLSMにまたがる透かしの広範な使用は、パラフレーズや翻訳などの一般的な作業において、透かし衝突と呼ばれる必然的な問題を引き起こしている。
本稿では,他の攻撃手法上での攻撃性能の向上を目的とした,透かし攻撃の新規かつ一般的な哲学として透かし衝突を導入する。
我々はまた、透かし衝突が全てのロジットベースの透かしアルゴリズムに脅威を与え、特定の攻撃シナリオだけでなく、下流アプリケーションにも影響を及ぼすという包括的なデモンストレーションも提供する。
The proliferation of large language models (LLMs) in generating content raises concerns about text copyright. Watermarking methods, particularly logit-based approaches, embed imperceptible identifiers into text to address these challenges. However, the widespread usage of watermarking across diverse LLMs has led to an inevitable issue known as watermark collision during common tasks, such as paraphrasing or translation. In this paper, we introduce watermark collision as a novel and general philosophy for watermark attacks, aimed at enhancing attack performance on top of any other attacking methods. We also provide a comprehensive demonstration that watermark collision poses a threat to all logit-based watermark algorithms, impacting not only specific attack scenarios but also downstream applications. | 翻訳日:2024-08-15 17:56:45 公開日:2024-08-14 |
# GS-Pose:3次元ガウス平滑化を用いた一般化可能なセグメンテーションに基づく6次元オブジェクトポース推定
GS-Pose: Generalizable Segmentation-based 6D Object Pose Estimation with 3D Gaussian Splatting ( http://arxiv.org/abs/2403.10683v2 ) ライセンス: Link先を確認 | Dingding Cai, Janne Heikkilä, Esa Rahtu, | (参考訳) 本稿では,新しいオブジェクトの6次元ポーズをローカライズし,推定するための統一的なフレームワークであるGS-Poseを紹介する。
GS-Poseは、以前は目に見えないオブジェクトの配置されたRGBイメージから始まり、3つの異なる表現をデータベースに格納する。
推論において、GS-Poseは、入力画像中のオブジェクトの位置を推定し、検索手法を用いて初期6Dポーズを推定し、レンダリング・アンド・コンペア法でポーズを精算することにより順次動作する。
重要な洞察は、プロセスの各段階で適切なオブジェクト表現を適用することである。
特に,高レンダリング速度と比較的低い最適化時間を実現する新しい微分可能レンダリング技術である3D Gaussian splatting を利用する。
市販のツールチェーンや携帯電話などのコモディティハードウェアを使用して、データベースに追加される新しいオブジェクトをキャプチャすることができる。
LINEMODとOnePose-LowTextureデータセットの大規模な評価は優れたパフォーマンスを示し、新しい最先端技術を確立している。
プロジェクトページ: https://dingcai.github.io/gs-pose
This paper introduces GS-Pose, a unified framework for localizing and estimating the 6D pose of novel objects. GS-Pose begins with a set of posed RGB images of a previously unseen object and builds three distinct representations stored in a database. At inference, GS-Pose operates sequentially by locating the object in the input image, estimating its initial 6D pose using a retrieval approach, and refining the pose with a render-and-compare method. The key insight is the application of the appropriate object representation at each stage of the process. In particular, for the refinement step, we leverage 3D Gaussian splatting, a novel differentiable rendering technique that offers high rendering speed and relatively low optimization time. Off-the-shelf toolchains and commodity hardware, such as mobile phones, can be used to capture new objects to be added to the database. Extensive evaluations on the LINEMOD and OnePose-LowTexture datasets demonstrate excellent performance, establishing the new state-of-the-art. Project page: https://dingdingcai.github.io/gs-pose. | 翻訳日:2024-08-15 17:56:45 公開日:2024-08-14 |
# InternVideo2:マルチモーダルビデオ理解のための基盤モデルのスケーリング
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding ( http://arxiv.org/abs/2403.15377v4 ) ライセンス: Link先を確認 | Yi Wang, Kunchang Li, Xinhao Li, Jiashuo Yu, Yinan He, Chenting Wang, Guo Chen, Baoqi Pei, Ziang Yan, Rongkun Zheng, Jilan Xu, Zun Wang, Yansong Shi, Tianxiang Jiang, Songze Li, Hongjie Zhang, Yifei Huang, Yu Qiao, Yali Wang, Limin Wang, | (参考訳) InternVideo2はビデオファウンデーションモデル(ViFM)の新たなファミリーで、ビデオ認識、ビデオテキストタスク、ビデオ中心対話の最先端結果を実現する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスモーダルコントラスト学習、および次のトークン予測を統合し、ビデオエンコーダのサイズを6Bパラメータにスケールアップするプログレッシブトレーニングアプローチです。
データレベルでは、ビデオのセグメンテーションと音声・音声のキャプションの生成により、時空間の一貫性を優先する。
これにより、ビデオとテキストのアライメントが改善される。
広範にわたる実験を通じて,60以上のビデオおよびオーディオタスクにおいて,設計を検証し,優れた性能を示す。
特に,我々のモデルは,様々なビデオ関連対話や長いビデオ理解ベンチマークにおいて他者より優れており,より長い文脈を推論し理解する能力を強調している。
コードとモデルはhttps://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/で入手できる。
We introduce InternVideo2, a new family of video foundation models (ViFM) that achieve the state-of-the-art results in video recognition, video-text tasks, and video-centric dialogue. Our core design is a progressive training approach that unifies the masked video modeling, crossmodal contrastive learning, and next token prediction, scaling up the video encoder size to 6B parameters. At the data level, we prioritize spatiotemporal consistency by semantically segmenting videos and generating video-audio-speech captions. This improves the alignment between video and text. Through extensive experiments, we validate our designs and demonstrate superior performance on over 60 video and audio tasks. Notably, our model outperforms others on various video-related dialogue and long video understanding benchmarks, highlighting its ability to reason and comprehend longer contexts. Code and models are available at https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/. | 翻訳日:2024-08-15 17:56:45 公開日:2024-08-14 |
# グラフ色問題に対する部分順序付けモデルのSAT符号化
SAT Encoding of Partial Ordering Models for Graph Coloring Problems ( http://arxiv.org/abs/2403.15961v3 ) ライセンス: Link先を確認 | Daniel Faber, Adalat Jabrayilov, Petra Mutzel, | (参考訳) 本稿では,グラフ着色問題 (GCP) と帯域幅着色問題 (BCP) に対する部分順序付けベースLPモデルの新たなSAT符号化を提案する。
GCPは、与えられたグラフの頂点に割り当てられる最小の色数を求め、隣接する2つの頂点はそれぞれ異なる色を得る。
BCPは一般化であり、各エッジは、割り当てられた色の間に最小の「距離」を強制する重みを持ち、その目標は、使用される「最大の」色を最小化することである。
広く研究されているGCPでは、新しいSATエンコーディングとDIMACSベンチマークセットの最先端アプローチを実験的に比較する。
評価の結果、このSAT符号化はスパースグラフに有効であり、DIMACSインスタンスの最先端よりも優れていたことが確認された。
BCP では,部分順序付きSAT と ILP の定式化が古典的代入ベースモデルよりも漸近的に小さいことを示す。
実際の評価では,代入ベースの符号化よりも,ベンチマークインスタンスの集合に対する最先端のアプローチの方が優位であることが確認されている。
私たちの知る限り、BCPのいくつかのオープンな事例を文献から初めて解決しました。
In this paper, we suggest new SAT encodings of the partial-ordering based ILP model for the graph coloring problem (GCP) and the bandwidth coloring problem (BCP). The GCP asks for the minimum number of colors that can be assigned to the vertices of a given graph such that each two adjacent vertices get different colors. The BCP is a generalization, where each edge has a weight that enforces a minimal "distance" between the assigned colors, and the goal is to minimize the "largest" color used. For the widely studied GCP, we experimentally compare our new SAT encoding to the state-of-the-art approaches on the DIMACS benchmark set. Our evaluation confirms that this SAT encoding is effective for sparse graphs and even outperforms the state-of-the-art on some DIMACS instances. For the BCP, our theoretical analysis shows that the partial-ordering based SAT and ILP formulations have an asymptotically smaller size than that of the classical assignment-based model. Our practical evaluation confirms not only a dominance compared to the assignment-based encodings but also to the state-of-the-art approaches on a set of benchmark instances. Up to our knowledge, we have solved several open instances of the BCP from the literature for the first time. | 翻訳日:2024-08-15 17:56:45 公開日:2024-08-14 |
# 例外点における量子状態挙動と量子相転移
Quantum State Behavior at Exceptional Points and Quantum Phase Transitions ( http://arxiv.org/abs/2403.16503v2 ) ライセンス: Link先を確認 | Chia-Yi Ju, Fu-Hsiang Huang, | (参考訳) 量子相転移における例外点と臨界点の量子状態の挙動は、まだ興味をそそられる。
本研究では,アディバティック近似を適用することなく,これらの臨界点を越えて進化する量子状態によってもたらされる情報が破壊されないことを示す。
代わりに、量子状態は、ブラックホールの事象の地平線を通過する物体のように、臨界点の影響を受けないままである。
本研究では、例外点、量子相転移、ブラックホール事象の地平線とのさらなる類似性について検討する。
The behavior of quantum states at exceptional points and critical points in quantum phase transitions is intriguing yet puzzling. In this study, we demonstrate, without applying the adiabatic approximation, that the information carried by quantum states evolving across these critical points is not destroyed. Instead, the quantum states remain unaffected by the critical points, much like an object passing through a black hole's event horizon. Further similarities between exceptional points, quantum phase transitions, and black hole event horizons are explored in this work. | 翻訳日:2024-08-15 17:56:45 公開日:2024-08-14 |
# NIGHT -- 飛行データからの非視線イメージング
NIGHT -- Non-Line-of-Sight Imaging from Indirect Time of Flight Data ( http://arxiv.org/abs/2403.19376v2 ) ライセンス: Link先を確認 | Matteo Caligiuri, Adriano Simonetto, Pietro Zanuttigh, | (参考訳) カメラのLine-of-Sightの外にある物体の取得は、非常に興味深いが、非常に難しい研究テーマでもある。
最近の研究は、このアイデアが、カスタム直接飛行時センサーによって生成された一過性のイメージングデータを活用する可能性を示した。
本稿では,この問題を解決するために,市販のタイム・オブ・フライトセンサーのデータのみを用いて,ハードウェアのさらなる要求を伴わずに,この問題に対処する。
私たちは、仮想ミラーとして光が反射する表面を再構成できるDeep Learningモデルを導入しました。
このモデリングにより、タスクの処理が容易になり、アノテーション付きトレーニングデータの構築も容易になる。
得られたデータから、隠されたシーンの深さ情報を取得することができる。
また,本課題に対する一級合成データセットも提供し,提案手法の有効性を実証する。
The acquisition of objects outside the Line-of-Sight of cameras is a very intriguing but also extremely challenging research topic. Recent works showed the feasibility of this idea exploiting transient imaging data produced by custom direct Time of Flight sensors. In this paper, for the first time, we tackle this problem using only data from an off-the-shelf indirect Time of Flight sensor without any further hardware requirement. We introduced a Deep Learning model able to re-frame the surfaces where light bounces happen as a virtual mirror. This modeling makes the task easier to handle and also facilitates the construction of annotated training data. From the obtained data it is possible to retrieve the depth information of the hidden scene. We also provide a first-in-its-kind synthetic dataset for the task and demonstrate the feasibility of the proposed idea over it. | 翻訳日:2024-08-15 17:56:45 公開日:2024-08-14 |
# WavLLM:ロバストで適応的な音声大言語モデルを目指して
WavLLM: Towards Robust and Adaptive Speech Large Language Model ( http://arxiv.org/abs/2404.00656v2 ) ライセンス: Link先を確認 | Shujie Hu, Long Zhou, Shujie Liu, Sanyuan Chen, Lingwei Meng, Hongkun Hao, Jing Pan, Xunying Liu, Jinyu Li, Sunit Sivasankaran, Linquan Liu, Furu Wei, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然言語処理の分野に革命をもたらし、その範囲をマルチモーダルな知覚と生成へと徐々に広げている。
しかし, 聴取能力をLLMに効果的に統合することは, 様々なコンテキストをまたいだ一般化や複雑な聴覚タスクの実行において, 重要な課題となる。
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,2段階のカリキュラム学習アプローチによって最適化されたプロンプト対応のLoRA重み付けアダプタを紹介する。
デュアルエンコーダを利用することで、Whisperエンコーダを用いて音声のセマンティックな内容を処理し、WavLMエンコーダを用いて話者のアイデンティティのユニークな特徴を捉え、異なるタイプの音声情報を分離する。
カリキュラム学習フレームワークの中で、WavLLMは、まず、混合基本単一タスクを最適化し、続いて、基本タスクの組み合わせのようなより複雑なタスクに関する高度なマルチタスクトレーニングによって基礎的能力を構築する。
異なるタスクや命令に対する柔軟性と順応性を高めるため、第2の高度なマルチタスク訓練段階において、プロンプト対応のLoRA重み付けアダプタが導入された。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
実験により,提案モデルが同一のモデルサイズでの音声タスクにまたがる最先端性能を実現し,CoTアプローチによる複雑なタスクの実行において,堅牢な一般化能力を示すことが示された。
さらに,本モデルでは,専門訓練を伴わずにガオカオのタスクを完了させることに成功した。
コード、モデル、オーディオ、ガオカオの評価セットは \url{aka.ms/wavllm} でアクセスすることができる。
The recent advancements in large language models (LLMs) have revolutionized the field of natural language processing, progressively broadening their scope to multimodal perception and generation. However, effectively integrating listening capabilities into LLMs poses significant challenges, particularly with respect to generalizing across varied contexts and executing complex auditory tasks. In this work, we introduce WavLLM, a robust and adaptive speech large language model with dual encoders, and a prompt-aware LoRA weight adapter, optimized by a two-stage curriculum learning approach. Leveraging dual encoders, we decouple different types of speech information, utilizing a Whisper encoder to process the semantic content of speech, and a WavLM encoder to capture the unique characteristics of the speaker's identity. Within the curriculum learning framework, WavLLM first builds its foundational capabilities by optimizing on mixed elementary single tasks, followed by advanced multi-task training on more complex tasks such as combinations of the elementary tasks. To enhance the flexibility and adherence to different tasks and instructions, a prompt-aware LoRA weight adapter is introduced in the second advanced multi-task training stage. We validate the proposed model on universal speech benchmarks including tasks such as ASR, ST, SV, ER, and also apply it to specialized datasets like Gaokao English listening comprehension set for SQA, and speech Chain-of-Thought (CoT) evaluation set. Experiments demonstrate that the proposed model achieves state-of-the-art performance across a range of speech tasks on the same model size, exhibiting robust generalization capabilities in executing complex tasks using CoT approach. Furthermore, our model successfully completes Gaokao tasks without specialized training. The codes, models, audio, and Gaokao evaluation set can be accessed at \url{aka.ms/wavllm}. | 翻訳日:2024-08-15 17:56:45 公開日:2024-08-14 |
# 最適時間依存性を持つ低エネルギー状態に対するハミルトンシミュレーション
Hamiltonian simulation for low-energy states with optimal time dependence ( http://arxiv.org/abs/2404.03644v2 ) ライセンス: Link先を確認 | Alexander Zlokapa, Rolando D. Somma, | (参考訳) 低エネルギー部分空間内のハミルトン$H$の下で時間発展をシミュレートする作業を考える。
ブロックエンコーディングを$H'=(H-E)/\lambda$ for some $E \in \mathbb R$と仮定すると、初期状態が固有値$[-1, -1+\Delta/\lambda]$のサブスペースに制限されたときに、$\epsilon$-approximation to $e^{-itH}$を実装することが目標である。
我々は、$O(t\sqrt{\lambda\Gamma} + \sqrt{\lambda/\Gamma}\log(1/\epsilon))$のブロックエンコーディングに対して$\Gamma$を$\Delta \leq \Gamma \lambda$とする量子アルゴリズムを提案する。
$\log(1/\epsilon) = o(t\lambda)$ と $\Delta/\lambda = o(1)$ とすると、クエリ複雑性を持つジェネリックメソッドよりも改善される。
我々の量子アルゴリズムはスペクトルギャップ増幅と量子特異値変換を利用する。
H$の標準的なアクセスモデルを用いて、$H'$を効率的にブロックエンコードする能力は、"ギャップアンプリケート"ハミルトニアンと呼ばれるものと同じであることを示す。
これにはフラストレーションのないシステムのような物理的に関係のある例が含まれており、これまで考慮されていた低エネルギーシミュレーションアルゴリズムのすべての設定を含んでいる。
また、低エネルギーシミュレーションのための下限も提供する。
最悪の場合、ハミルトニアンシミュレーションのランタイムを改善するために低エネルギー状態は利用できない。
ギャップを増幅するハミルトニアンに対しては、我々のアルゴリズムが$t$, $\Delta$, $\lambda$に関するクエリモデルに密着していることを証明する。
例えば、$\log (1/\epsilon) = o(t\Delta)$ と $\Delta/\lambda = o(1)$ は、ゲートの複雑さ(ログファクタまで)が一致することを証明する。
クエリの下界を確立するために、$\mathrm{PARITY}\circ\mathrm{OR}$ および三角多項式上の次数境界を考える。
ゲート複雑性の低い境界を確立するために、低エネルギー状態に作用するサーキット・ト・ハミルトニアン還元を用いる。
We consider the task of simulating time evolution under a Hamiltonian $H$ within its low-energy subspace. Assuming access to a block-encoding of $H'=(H-E)/\lambda$ for some $E \in \mathbb R$, the goal is to implement an $\epsilon$-approximation to $e^{-itH}$ when the initial state is confined to the subspace corresponding to eigenvalues $[-1, -1+\Delta/\lambda]$ of $H'$. We present a quantum algorithm that uses $O(t\sqrt{\lambda\Gamma} + \sqrt{\lambda/\Gamma}\log(1/\epsilon))$ queries to the block-encoding for any $\Gamma$ such that $\Delta \leq \Gamma \leq \lambda$. When $\log(1/\epsilon) = o(t\lambda)$ and $\Delta/\lambda = o(1)$, this result improves over generic methods with query complexity $\Omega(t\lambda)$. Our quantum algorithm leverages spectral gap amplification and the quantum singular value transform. Using standard access models for $H$, we show that the ability to efficiently block-encode $H'$ is equivalent to $H$ being what we refer to as a "gap-amplifiable" Hamiltonian. This includes physically relevant examples such as frustration-free systems, and it encompasses all previously considered settings of low-energy simulation algorithms. We also provide lower bounds for low-energy simulation. In the worst case, we show that the low-energy condition cannot be used to improve the runtime of Hamiltonian simulation. For gap-amplifiable Hamiltonians, we prove that our algorithm is tight in the query model with respect to $t$, $\Delta$, and $\lambda$. In the practically relevant regime where $\log (1/\epsilon) = o(t\Delta)$ and $\Delta/\lambda = o(1)$, we also prove a matching lower bound in gate complexity (up to log factors). To establish the query lower bounds, we consider $\mathrm{PARITY}\circ\mathrm{OR}$ and degree bounds on trigonometric polynomials. To establish the lower bound on gate complexity, we use a circuit-to-Hamiltonian reduction acting on a low-energy state. | 翻訳日:2024-08-15 17:56:45 公開日:2024-08-14 |
# SC4D:Sparse-Controlled Video-to-4D Generation and Motion Transfer
SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer ( http://arxiv.org/abs/2404.03736v2 ) ライセンス: Link先を確認 | Zijie Wu, Chaohui Yu, Yanqin Jiang, Chenjie Cao, Fan Wang, Xiang Bai, | (参考訳) 2D/3D生成モデルの最近の進歩により、シングルビュービデオから動的3Dオブジェクトを生成することができる。
既存のアプローチでは、スコア蒸留サンプリングを使用してダイナミックなNeRFや密度の高い3Dガウスとして動的シーンを形成する。
しかし、これらの手法は、NeRFの暗黙的な性質や複雑な高密度ガウス運動予測のため、単一視点条件下での参照ビューアライメント、時空間整合性、動きの忠実さのバランスをとるのに苦労する。
これらの課題に対処するため, SC4D という高効率でスパース制御されたビデオ・トゥ・4D フレームワークを提案し, 映像・4D 生成に優れる動作と外観を分離する。
さらに,適応ガウス初期化(AG)とガウスアライメント(GA)の損失を導入し,形状劣化問題を緩和し,学習運動と形状の忠実性を確保する。
総合的な実験結果から,本手法は品質と効率の両面で既存手法を超越していることが明らかとなった。
さらに、SC4Dの動作と外観の非絡み合いモデリングにより、テキストによる記述に基づき、学習した動作を多種多様な4Dエンティティにシームレスに転送するアプリケーションを考案した。
Recent advances in 2D/3D generative models enable the generation of dynamic 3D objects from a single-view video. Existing approaches utilize score distillation sampling to form the dynamic scene as dynamic NeRF or dense 3D Gaussians. However, these methods struggle to strike a balance among reference view alignment, spatio-temporal consistency, and motion fidelity under single-view conditions due to the implicit nature of NeRF or the intricate dense Gaussian motion prediction. To address these issues, this paper proposes an efficient, sparse-controlled video-to-4D framework named SC4D, that decouples motion and appearance to achieve superior video-to-4D generation. Moreover, we introduce Adaptive Gaussian (AG) initialization and Gaussian Alignment (GA) loss to mitigate shape degeneration issue, ensuring the fidelity of the learned motion and shape. Comprehensive experimental results demonstrate that our method surpasses existing methods in both quality and efficiency. In addition, facilitated by the disentangled modeling of motion and appearance of SC4D, we devise a novel application that seamlessly transfers the learned motion onto a diverse array of 4D entities according to textual descriptions. | 翻訳日:2024-08-15 17:56:45 公開日:2024-08-14 |
# 地理情報システムのためのデータサイエンス
Data Science for Geographic Information Systems ( http://arxiv.org/abs/2404.03754v2 ) ライセンス: Link先を確認 | Afonso Oliveira, Nuno Fachada, João P. Matos-Carvalho, | (参考訳) データサイエンスを地理情報システム(GIS)に統合することで、これらのツールの完全な空間分析プラットフォームへの進化が促進された。
機械学習とビッグデータ技術の採用により、これらのプラットフォームはますます複雑なデータを扱う能力を備えており、より伝統的なアプローチの限界を超越している。
この研究は、研究分野としてのデータサイエンスとGISの歴史的および技術的な進化を辿り、ドメイン間の収束の重要なポイントを強調し、この統合に依存する多くの分野を基盤にしている。
災害管理分野におけるGIS適用事例として,ポルトガルのTr\oiaの航空データを用いて,生データからの洞察抽出のプロセスを強調した。
本稿では,これらの分野の総合的な統合における今後の研究の展望,特に先進的な応用について概説する。
The integration of data science into Geographic Information Systems (GIS) has facilitated the evolution of these tools into complete spatial analysis platforms. The adoption of machine learning and big data techniques has equipped these platforms with the capacity to handle larger amounts of increasingly complex data, transcending the limitations of more traditional approaches. This work traces the historical and technical evolution of data science and GIS as fields of study, highlighting the critical points of convergence between domains, and underlining the many sectors that rely on this integration. A GIS application is presented as a case study in the disaster management sector where we utilize aerial data from Tr\'oia, Portugal, to emphasize the process of insight extraction from raw data. We conclude by outlining prospects for future research in integration of these fields in general, and the developed application in particular. | 翻訳日:2024-08-15 17:46:37 公開日:2024-08-14 |
# 可視域における量子鍵分布系の脆弱性
Vulnerabilities of quantum key distribution systems in visible range ( http://arxiv.org/abs/2404.03956v2 ) ライセンス: Link先を確認 | Boris Nasedkin, Azat Ismagilov, Vladimir Chistiakov, Andrei Gaidash, Aleksandr Shimko, Alexei D. Kiselev, Anton Tcypkin, Vladimir Egorov, Anton Kozubov, | (参考訳) 1000-2100nmの範囲のスペクトルループホールは、量子鍵分布系における脆弱性の探索と除去を目的とした量子ハッキング研究の焦点となっている。
本研究は、400nmから800nmまでの短波長に焦点をあて、多数の光ファイバ部品の挿入損失スペクトルを実験的に研究し、その実装のポテンシャルを対策として評価する。
通信網におけるハッキング攻撃に対する対策として一般的に用いられる要素の効率は、可視範囲において著しく損なわれる可能性があることを示す。
この範囲で検出された脆弱性は、波長が減少すると効率が向上する誘導光屈折攻撃のようなハッキング戦略において、ますます重要な役割を担っていることが判明した。
Spectral loopholes in the 1000-2100 nm range have been the focus of attention of quantum hacking research aimed at searching and elimination of vulnerabilities in quantum key distribution systems. In this work, we concentrate on shorter wavelengths ranged from 400 nm up to 800 nm and experimentally study spectra of insertion losses for a number of fiber optical components to assess potentials for their implementation as countermeasures. We show that efficiency of the elements commonly used as countermeasures against hacking attacks in the telecom range can be significantly impaired in the visible range. It is found that the vulnerabilities detected in this range play an increasingly important role for hacking strategies such as the induced-photorefraction attack whose efficiency improves when the wavelength decreases. | 翻訳日:2024-08-15 17:46:37 公開日:2024-08-14 |
# LU等価度までの2および3量子状態の密度行列の分類
Classifying Density Matrices of 2 and 3 Qubit States Up To LU Equivalence ( http://arxiv.org/abs/2404.07338v3 ) ライセンス: Link先を確認 | Isaac Dobes, Naihuan Jing, | (参考訳) 本稿では,Jing-Yang-Zhao の論文 "Local Unitary Equivalence of Quantum States and Simultaneous Orthogonal Equivalence" の修正版について述べる。
修正された証明はハイパー行列代数フレームワークを利用しており、このフレームワークを通じてこの対応を3$-qubitsに一般化することができる。
最後に、V. Futorney, R. A. Horn, V. V. Sergeichuk の "Specht's Criterion for Systems of Linear Mappings" で最初に証明された) の一般化を適用し、局所ユニタリ同値(英語版)の問題を3$-qubits の局所ユニタリ同値(英語版)で減らし、トレース恒等性(英語版)やいくつかの簡易チェック特性(英語版)をチェックする。
また、上記の論文で定義されているように、これらの結果はすべて、LU同値の概念を準LU同値に緩和すれば、$2 および$3 qudits に拡張することができることに留意する。
In this paper we present a modified version of the proof given Jing-Yang-Zhao's paper titled "Local Unitary Equivalence of Quantum States and Simultaneous Orthogonal Equivalence," which established the correspondance between local unitary equivalence and simultaneous orthogonal equivalence of $2$-qubits. Our modified proof utilizes a hypermatrix algebra framework, and through this framework we are able to generalize this correspondence to $3$-qubits. Finally, we apply a generalization of Specht's criterion (first proved in "Specht's Criterion for Systems of Linear Mappings" by V. Futorney, R. A. Horn, and V. V. Sergeichuk) to reduce the problem of local unitary equivalence of $3$-qubits to checking trace identities and a few other easy-to-check properties. We also note that all of these results can be extended to $2$ and $3$ qudits if we relax the notion of LU equivalence to quasi-LU equivalence, as defined in the aforementioned paper by Jing et. al. | 翻訳日:2024-08-15 17:46:37 公開日:2024-08-14 |
# 量子エントロピー対の幾何学的問題
Quantum entropy couples matter with geometry ( http://arxiv.org/abs/2404.08556v4 ) ライセンス: Link先を確認 | Ginestra Bianconi, | (参考訳) 我々は、高次ネットワーク上の離散幾何学、すなわちセルコンプレックス上の物質場を結合する理論を提案する。
このアプローチの鍵となる考え方は、その計量の量子エントロピーを高次のネットワークに関連付けることである。
具体的には2つのコントリビューションを持つアクションを提案する。
最初の寄与は、計量による高次ネットワークに関連する体積の対数に比例する。
真空中で、この寄与は幾何学のエントロピーを決定する。
第二の寄与は、高次ネットワークの計量と物質とゲージ場によって誘導される計量の間の量子相対エントロピーである。
誘導計量はトポロジカルスピノルと離散ディラック作用素の項で定義される。
ノード、エッジ、高次元セルで定義されたトポロジカルスピノルは、物質場を符号化する。
離散ディラック作用素はトポロジカルスピノル上で作用し、高階ネットワークの計量と極小置換の離散版によるゲージ場に依存する。
距離、物質およびゲージ場に対する結合力学方程式を導出し、離散曲線空間における場理論方程式を得るための情報理論の原理を提供する。
We propose a theory for coupling matter fields with discrete geometry on higher-order networks, i.e. cell complexes. The key idea of the approach is to associate to a higher-order network the quantum entropy of its metric. Specifically we propose an action having two contributions. The first contribution is proportional to the logarithm of the volume associated to the higher-order network by the metric. In the vacuum this contribution determines the entropy of the geometry. The second contribution is the quantum relative entropy between the metric of the higher-order network and the metric induced by the matter and gauge fields. The induced metric is defined in terms of the topological spinors and the discrete Dirac operators. The topological spinors, defined on nodes, edges and higher-dimensional cells, encode for the matter fields. The discrete Dirac operators act on topological spinors, and depend on the metric of the higher-order network as well as on the gauge fields via a discrete version of the minimal substitution. We derive the coupled dynamical equations for the metric, the matter and the gauge fields, providing an information theory principle to obtain the field theory equations in discrete curved space. | 翻訳日:2024-08-15 17:46:37 公開日:2024-08-14 |
# 説明としてのインタラクション: 画像分類モデルの記述のためのユーザインタラクションに基づく方法
Interaction as Explanation: A User Interaction-based Method for Explaining Image Classification Models ( http://arxiv.org/abs/2404.09828v2 ) ライセンス: Link先を確認 | Hyeonggeun Yun, | (参考訳) コンピュータビジョンにおいて、説明可能なAI(xAI)手法は、ディープラーニングモデルの意思決定プロセスをより解釈可能で透明にすることで、"ブラックボックス"問題を緩和しようとする。
従来のxAI手法は、モデル予測に影響を与える入力特徴を可視化することに集中しており、主に専門家に適した洞察を提供する。
本研究では,画像分類モデルのユーザ理解を深める対話型xAI手法を提案する。
そこで我々は,ユーザが絵や消去によって画像を修正できるWebベースのプロトタイプを開発し,分類結果の変化を観察した。
我々のアプローチは、ユーザーがモデルの意思決定プロセスに影響を及ぼす重要な特徴を識別し、メンタルモデルをモデルの論理と整合させることを可能にします。
5枚の画像を用いて行った実験は,ユーザインタラクションによる特徴の重要度を明らかにする手法の可能性を示した。
私たちの研究は、エンドユーザのエンゲージメントと理解に集中し、AIシステムにおいてより直感的でアクセスしやすい説明可能性を実現することによって、xAIに新たな視点をもたらします。
In computer vision, explainable AI (xAI) methods seek to mitigate the 'black-box' problem by making the decision-making process of deep learning models more interpretable and transparent. Traditional xAI methods concentrate on visualizing input features that influence model predictions, providing insights primarily suited for experts. In this work, we present an interaction-based xAI method that enhances user comprehension of image classification models through their interaction. Thus, we developed a web-based prototype allowing users to modify images via painting and erasing, thereby observing changes in classification results. Our approach enables users to discern critical features influencing the model's decision-making process, aligning their mental models with the model's logic. Experiments conducted with five images demonstrate the potential of the method to reveal feature importance through user interaction. Our work contributes a novel perspective to xAI by centering on end-user engagement and understanding, paving the way for more intuitive and accessible explainability in AI systems. | 翻訳日:2024-08-15 17:46:37 公開日:2024-08-14 |
# AIプログラマは、効率的なコード生成に向けてプログラミング言語文法を再考する
AI Coders Are Among Us: Rethinking Programming Language Grammar Towards Efficient Code Generation ( http://arxiv.org/abs/2404.16333v2 ) ライセンス: Link先を確認 | Zhensu Sun, Xiaoning Du, Zhou Yang, Li Li, David Lo, | (参考訳) 人工知能(AI)モデルは、大規模言語モデル(LLM)の時代に入るにつれて、人間や機械と共にプログラミング言語の別の重要なオーディエンスとして登場した。
LLMは、コーディング競争でうまく機能し、数学的問題を含む様々な課題を解決するために開発者のようなプログラムを書けるようになった。
しかしながら、現在のプログラムの文法とレイアウトは、人間の開発者のニーズを満たすように設計されている。
これは有用であるが、このような設計はLLMに不要な計算作業を加味し、それぞれのトークンが使用するか、消費される計算資源を生産する。
推論効率の向上と計算コストの削減を目的として,AI指向文法の概念を提案する。
これは、AIモデルの動作メカニズムにより良い方法でコードを表現することを目的としています。
AI指向文法で書かれたコードはフォーマットを捨て、コードのセマンティクスを効果的に伝達するために最小限のトークンを使用する。
この概念の実現可能性を示すため、SimPyというPythonの最初のAI指向文法を探索し、実装する。
SimPyは、一連のヒューリスティックなルールを通じて、オリジナルのPython文法を改訂することで開発されている。
SimPyで書かれたプログラムは、標準Pythonと同じAST構造を維持している。
これにより、修正されたASTパーサによる実行だけでなく、Pythonで書かれたプログラムとSimPyで書かれたプログラム間のシームレスな変換が可能になる。
実験では、Pythonと比較して、SimPyはコード関連タスクのセットを完了すると、それぞれCodeLlamaとGPT-4で13.5%と10.4%のトークン使用量を削減できる。
さらに、これらのモデルでは、これらのタスクにPythonの代わりにSimPyを使用する場合のパフォーマンスを維持または改善することができる。
Artificial Intelligence (AI) models have emerged as another important audience for programming languages alongside humans and machines, as we enter the era of large language models (LLMs). LLMs can now perform well in coding competitions and even write programs like developers to solve various tasks, including mathematical problems. However, the grammar and layout of current programs are designed to cater the needs of human developers -- with many grammar tokens and formatting tokens being used to make the code easier for humans to read. While this is helpful, such a design adds unnecessary computational work for LLMs, as each token they either use or produce consumes computational resources. To improve inference efficiency and reduce computational costs, we propose the concept of AI-oriented grammar. This aims to represent code in a way that better suits the working mechanism of AI models. Code written with AI-oriented grammar discards formats and uses a minimum number of tokens to convey code semantics effectively. To demonstrate the feasibility of this concept, we explore and implement the first AI-oriented grammar for Python, named SimPy. SimPy is crafted by revising the original Python grammar through a series of heuristic rules. Programs written in SimPy maintain identical AST structures to those in standard Python. This allows for not only execution via a modified AST parser, but also seamless transformation between programs written in Python and SimPy, enabling human developers and LLMs to use Python and SimPy, respectively, when they need to collaborate. In the experiments, compared with Python, SimPy enables a reduction in token usage by 13.5% and 10.4% for CodeLlama and GPT-4, respectively, when completing the same set of code-related tasks. Additionally, these models can maintain or even improve their performance when using SimPy instead of Python for these tasks. | 翻訳日:2024-08-15 17:46:37 公開日:2024-08-14 |
# 自然言語からVerilogへ:大規模言語モデルとChatGPTを用いた繰り返しスパイクニューラルネットワークの設計
Natural Language to Verilog: Design of a Recurrent Spiking Neural Network using Large Language Models and ChatGPT ( http://arxiv.org/abs/2405.01419v2 ) ライセンス: Link先を確認 | Paola Vitolo, George Psaltakis, Michael Tomlinson, Gian Domenico Licciardo, Andreas G. Andreou, | (参考訳) 本稿では,ハードウェア記述コードの自動生成におけるLarge Language Models (LLMs) の利用について検討する。
これまでの研究に基づいて、我々はOpenAIのChatGPT4と自然言語のプロンプトを用いて、プログラマブルリカレントスパイクニューラルネットワークのRTL Verilogモジュールを合成するとともに、システムの正しさを評価するためのテストベンチを生成する。
得られた設計は、排他的OR、IRIS花分類、MNIST手書き桁分類の3つのケーススタディで検証され、96.6%の精度を達成した。
合成性と実装性を検証するため、フィールドプログラマブルゲートアレイで試作され、オープンソースの電子設計自動化フローを用いてSkyWater 130nm技術で実装された。
さらに,Tiny Tapeout 6チップ製造プログラムに提案し,将来的なオンチップ性能の評価を行った。
This paper investigates the use of Large Language Models (LLMs) for automating the generation of hardware description code, aiming to explore their potential in supporting and enhancing the development of efficient neuromorphic computing architectures. Building on our prior work, we employ OpenAI's ChatGPT4 and natural language prompts to synthesize a RTL Verilog module of a programmable recurrent spiking neural network, while also generating test benches to assess the system's correctness. The resultant design was validated in three case studies, the exclusive OR,the IRIS flower classification and the MNIST hand-written digit classification, achieving accuracies of up to 96.6%. To verify its synthesizability and implementability, the design was prototyped on a field-programmable gate array and implemented on SkyWater 130 nm technology by using an open-source electronic design automation flow. Additionally, we have submitted it to Tiny Tapeout 6 chip fabrication program to further evaluate the system on-chip performance in the future. | 翻訳日:2024-08-15 17:46:37 公開日:2024-08-14 |
# オフポリティコンテキスト帯域に対する最適ベースライン補正
Optimal Baseline Corrections for Off-Policy Contextual Bandits ( http://arxiv.org/abs/2405.05736v2 ) ライセンス: Link先を確認 | Shashank Gupta, Olivier Jeunen, Harrie Oosterhuis, Maarten de Rijke, | (参考訳) オフ政治学習パラダイムにより、リコメンデータシステムと一般的なランキングアプリケーションは、意思決定の問題として枠を組むことができ、オンライン報酬メトリックのバイアスのないオフライン見積を最適化する決定ポリシーを学習することを目指している。
偏見のない場合、潜在的に高い分散が生じ、推定分散を減らすために一般的な方法が存在する。
これらの方法は典型的には、加法(ベースライン補正または二重ロバストな方法)または乗法(自己正規化)のいずれかの制御変数を使用する。
我々の研究は、学習シナリオにおける等価性に基づいて構築された単一のフレームワークを提案することによって、これらのアプローチを統一する。
我々のフレームワークの基礎は、既存の制御変数すべてに対する等価なベースライン補正の導出である。
したがって, このフレームワークは, 分散最適アンバイアス推定器を特徴付けることができ, クローズドフォームの解が得られる。
この最適推定器は、評価と学習の両方のパフォーマンスを大幅に改善し、データ要求を最小化する。
経験的観察は我々の理論的な発見を裏付ける。
The off-policy learning paradigm allows for recommender systems and general ranking applications to be framed as decision-making problems, where we aim to learn decision policies that optimize an unbiased offline estimate of an online reward metric. With unbiasedness comes potentially high variance, and prevalent methods exist to reduce estimation variance. These methods typically make use of control variates, either additive (i.e., baseline corrections or doubly robust methods) or multiplicative (i.e., self-normalisation). Our work unifies these approaches by proposing a single framework built on their equivalence in learning scenarios. The foundation of our framework is the derivation of an equivalent baseline correction for all of the existing control variates. Consequently, our framework enables us to characterize the variance-optimal unbiased estimator and provide a closed-form solution for it. This optimal estimator brings significantly improved performance in both evaluation and learning, and minimizes data requirements. Empirical observations corroborate our theoretical findings. | 翻訳日:2024-08-15 17:46:37 公開日:2024-08-14 |
# ニューラルネットワークガウス過程のウィルソン正規化
Wilsonian Renormalization of Neural Network Gaussian Processes ( http://arxiv.org/abs/2405.06008v2 ) ライセンス: Link先を確認 | Jessica N. Howard, Ro Jefferson, Anindita Maiti, Zohar Ringel, | (参考訳) 関連する情報と無関係な情報を分離することは、あらゆるモデリングプロセスや科学的調査の鍵となる。
理論物理学は、これを再正規化群(RG)の形で達成するための強力なツールを提供する。
ここでは,ガウス過程(GP)回帰の文脈でWilsonian RGを実行するための実践的なアプローチを示す。
GPカーネルの未学習モードを体系的に統合し,データをIRスケールに設定したGPのRGフローを得る。
単純な場合、これはリッジパラメータの普遍フローとなり、非ガウス性を含むよりリッチなシナリオに入力依存となる。
解析的に抽出可能なことに加えて、このアプローチはRGフローと学習不可能モードと学習不能モードとの自然な接続を提供することによって、RGとニューラルネットワークの間の構造的な類似点を越えている。
このような流れを研究することで、ディープニューラルネットワークにおける特徴学習の理解が向上し、これらのモデルにおける潜在的普遍性クラスを特定できるかもしれない。
Separating relevant and irrelevant information is key to any modeling process or scientific inquiry. Theoretical physics offers a powerful tool for achieving this in the form of the renormalization group (RG). Here we demonstrate a practical approach to performing Wilsonian RG in the context of Gaussian Process (GP) Regression. We systematically integrate out the unlearnable modes of the GP kernel, thereby obtaining an RG flow of the GP in which the data sets the IR scale. In simple cases, this results in a universal flow of the ridge parameter, which becomes input-dependent in the richer scenario in which non-Gaussianities are included. In addition to being analytically tractable, this approach goes beyond structural analogies between RG and neural networks by providing a natural connection between RG flow and learnable vs. unlearnable modes. Studying such flows may improve our understanding of feature learning in deep neural networks, and enable us to identify potential universality classes in these models. | 翻訳日:2024-08-15 17:46:37 公開日:2024-08-14 |
# 医用画像翻訳のためのカスケードマルチパスショートカット拡散モデル
Cascaded Multi-path Shortcut Diffusion Model for Medical Image Translation ( http://arxiv.org/abs/2405.12223v3 ) ライセンス: Link先を確認 | Yinchi Zhou, Tianqi Chen, Jun Hou, Huidong Xie, Nicha C. Dvornek, S. Kevin Zhou, David L. Wilson, James S. Duncan, Chi Liu, Bo Zhou, | (参考訳) 画像から画像への変換は、医療画像処理において重要な要素であり、様々な画像モダリティや臨床シナリオに多くの用途がある。
従来の手法としては、GAN(Generative Adversarial Networks)やDM(Diffusion Models)がある。
医用画像翻訳作業において, GAN と DM の両手法が個別にその能力を示したが, GAN と DM を組み合わせて翻訳性能を向上し,不確実性評価を可能にする可能性はほとんど未検討のままである。
本稿では,高品質な医用画像翻訳と不確実性推定のためのカスケードマルチパスショートカット拡散モデル(CMDM)を提案することで,これらの課題に対処する。
所要回数の削減とロバストな性能を確保するため,本手法はまず,DMによる効率的な逆変換に使用される条件付きGAN生成先行画像を得る。
さらに、翻訳結果を洗練し、不確実性を推定するために、マルチパスショートカット拡散戦略を用いる。
カスケードパイプラインは、カスケード間の残留平均化を組み込んだ翻訳品質をさらに向上させる。
それぞれのデータセットに2つのサブタスクを持つ3つの異なる医用画像データセットを収集し、アプローチの一般化性を検証する。
実験の結果,CMDMは最先端の手法に匹敵する高品質な翻訳を生成できることがわかった。
Image-to-image translation is a vital component in medical imaging processing, with many uses in a wide range of imaging modalities and clinical scenarios. Previous methods include Generative Adversarial Networks (GANs) and Diffusion Models (DMs), which offer realism but suffer from instability and lack uncertainty estimation. Even though both GAN and DM methods have individually exhibited their capability in medical image translation tasks, the potential of combining a GAN and DM to further improve translation performance and to enable uncertainty estimation remains largely unexplored. In this work, we address these challenges by proposing a Cascade Multi-path Shortcut Diffusion Model (CMDM) for high-quality medical image translation and uncertainty estimation. To reduce the required number of iterations and ensure robust performance, our method first obtains a conditional GAN-generated prior image that will be used for the efficient reverse translation with a DM in the subsequent step. Additionally, a multi-path shortcut diffusion strategy is employed to refine translation results and estimate uncertainty. A cascaded pipeline further enhances translation quality, incorporating residual averaging between cascades. We collected three different medical image datasets with two sub-tasks for each dataset to test the generalizability of our approach. Our experimental results found that CMDM can produce high-quality translations comparable to state-of-the-art methods while providing reasonable uncertainty estimations that correlate well with the translation error. | 翻訳日:2024-08-15 17:46:37 公開日:2024-08-14 |
# データ適応型ノイズフィルタにおけるFusing Conditional VAEによるSMOTEの改善
Improving SMOTE via Fusing Conditional VAE for Data-adaptive Noise Filtering ( http://arxiv.org/abs/2405.19757v2 ) ライセンス: Link先を確認 | Sungchul Hong, Seunghwan An, Jong-June Jeon, | (参考訳) 生成ニューラルネットワークモデルの最近の進歩は、データ拡張手法の開発を拡張している。
しかし, 最新の生成モデルに基づく拡張手法は, 従来のモデルであるSMOTEと比較して, クラス不均衡データに対する顕著な性能を達成するには至らなかった。
不均衡な分類のための生成モデルの問題点を考察し、変分オートエンコーダ(VAE)を用いたSMOTEアルゴリズムを強化する枠組みを導入する。
本稿では,VAEを用いて低次元潜在空間におけるデータ点密度を体系的に定量化し,クラスラベル情報と分類困難度を同時に統合する手法を提案する。
そして、増大する可能性のあるデータポイントを体系的に排除し、そのデータ空間に隣接した観測を直接拡張する。
いくつかの不均衡データセットに関する実証的研究は、この単純なプロセスが、ディープラーニングモデルよりも従来のSMOTEアルゴリズムを革新的に改善することを示している。
その結果、少数データの選択とデータ空間の補間は、比較的少数のデータポイントを持つ不均衡な分類問題に有効であると結論付けている。
Recent advances in a generative neural network model extend the development of data augmentation methods. However, the augmentation methods based on the modern generative models fail to achieve notable performance for class imbalance data compared to the conventional model, Synthetic Minority Oversampling Technique (SMOTE). We investigate the problem of the generative model for imbalanced classification and introduce a framework to enhance the SMOTE algorithm using Variational Autoencoders (VAE). Our approach systematically quantifies the density of data points in a low-dimensional latent space using the VAE, simultaneously incorporating information on class labels and classification difficulty. Then, the data points potentially degrading the augmentation are systematically excluded, and the neighboring observations are directly augmented on the data space. Empirical studies on several imbalanced datasets represent that this simple process innovatively improves the conventional SMOTE algorithm over the deep learning models. Consequently, we conclude that the selection of minority data and the interpolation in the data space are beneficial for imbalanced classification problems with a relatively small number of data points. | 翻訳日:2024-08-15 17:36:35 公開日:2024-08-14 |
# ステアブルCNNにおける等分散度学習のための確率論的アプローチ
A Probabilistic Approach to Learning the Degree of Equivariance in Steerable CNNs ( http://arxiv.org/abs/2406.03946v2 ) ライセンス: Link先を確認 | Lars Veefkind, Gabriele Cesa, | (参考訳) ステアブル畳み込みニューラルネットワーク(SCNN)は、重みの等分散制約を通じて幾何対称性をモデル化することによりタスク性能を向上させる。
しかし、未知あるいは様々な対称性は、過剰に制約された重量と性能を低下させる可能性がある。
そこで本研究では,SCNNにおける等価度を学習するための確率的手法を提案する。
フーリエ係数を用いて変換群上の確率分布として同値の度合いをパラメータ化し、層状および共有同値をモデル化するオプションを提供する。
これらの可能性分布は、ネットワーク全体での解釈可能な等式を保証するために規則化される。
利点としては、SCNNのフレキシブルな枠組みを通じて、多くの種類の同変ネットワークに適用可能であり、任意のコンパクト群の任意の部分群に対して、追加の層を必要とせずに同変を学習できる能力がある。
本実験は, 混合対称性を持つデータセット上で, 基礎となる等値度を表す学習確率分布を用いて, 競合性能を示すものである。
Steerable convolutional neural networks (SCNNs) enhance task performance by modelling geometric symmetries through equivariance constraints on weights. Yet, unknown or varying symmetries can lead to overconstrained weights and decreased performance. To address this, this paper introduces a probabilistic method to learn the degree of equivariance in SCNNs. We parameterise the degree of equivariance as a likelihood distribution over the transformation group using Fourier coefficients, offering the option to model layer-wise and shared equivariance. These likelihood distributions are regularised to ensure an interpretable degree of equivariance across the network. Advantages include the applicability to many types of equivariant networks through the flexible framework of SCNNs and the ability to learn equivariance with respect to any subgroup of any compact group without requiring additional layers. Our experiments reveal competitive performance on datasets with mixed symmetries, with learnt likelihood distributions that are representative of the underlying degree of equivariance. | 翻訳日:2024-08-15 17:36:35 公開日:2024-08-14 |
# フラジイルモデル透かしに関する調査
A Survey of Fragile Model Watermarking ( http://arxiv.org/abs/2406.04809v5 ) ライセンス: Link先を確認 | Zhenzhe Gao, Yu Cheng, Zhaoxia Yin, | (参考訳) ニューラルネットワークに対する敵の攻撃と従来のマルチメディアの脆弱な透かしの両方から着想を得たモデル脆弱な透かしは、改ざんを検出する強力なツールとして徐々に現れ、近年の急速な発展を目撃している。
モデル著作権の特定に広く使われている堅牢な透かしとは異なり、モデルの脆弱な透かしは、バックドア、中毒、圧縮などの予期せぬ変更を受けたかどうかを特定するように設計されている。
これらの変更は、古典的な自動運転シナリオにおける速度制限標識として停止標識を誤識別するなど、モデルユーザーに未知のリスクをもたらす可能性がある。
本稿では, モデル脆性透かしの開始以来の分野における関連研究の概要を概説し, モデル脆性透かしにおける今後の取り組みについて概説する。
Model fragile watermarking, inspired by both the field of adversarial attacks on neural networks and traditional multimedia fragile watermarking, has gradually emerged as a potent tool for detecting tampering, and has witnessed rapid development in recent years. Unlike robust watermarks, which are widely used for identifying model copyrights, fragile watermarks for models are designed to identify whether models have been subjected to unexpected alterations such as backdoors, poisoning, compression, among others. These alterations can pose unknown risks to model users, such as misidentifying stop signs as speed limit signs in classic autonomous driving scenarios. This paper provides an overview of the relevant work in the field of model fragile watermarking since its inception, categorizing them and revealing the developmental trajectory of the field, thus offering a comprehensive survey for future endeavors in model fragile watermarking. | 翻訳日:2024-08-15 17:36:35 公開日:2024-08-14 |
# Bipartite Reweight-Annealingアルゴリズムによる絡み合いエントロピーとその誘導体の大規模データを高精度に抽出する
Bipartite reweight-annealing algorithm to extract large-scale data of entanglement entropy and its derivative in high precision ( http://arxiv.org/abs/2406.05324v4 ) ライセンス: Link先を確認 | Zhe Wang, Zhiyan Wang, Yi-Ming Ding, Bin-Bin Mao, Zheng Yan, | (参考訳) 本稿では,量子モンテカルロ法(QMC)を用いて,エンタングルメントエントロピー(EE)とその誘導体の大規模データを高精度かつ低い技術的障壁で抽出する手法を提案する。
我々は、異なる時空多様体内の2つの分割関数の重なりの直接計算を回避し、代わりにreweight-annealingスキームを介してそれらを別々に得る。
インクリメンタルなプロセスはこのフレームの実際の物理パラメータの経路に沿って設計することができ、全ての中間子は対応するパラメータのEEであり、アルゴリズムの効率は10^4$以上改善される。
EEの計算はずっと安くなり、より簡単になります。
2次元および高次元系の広いパラメータ領域でEEを走査することで、新しい位相と位相遷移を数値的に検出する手段を開く。
次に、EEとそのデリバティブを用いて位相遷移点を見つけ、新しい位相を探索する可能性を示す。
We propose a quantum Monte Carlo (QMC) scheme able to extract large-scale data of entanglement entropy (EE) and its derivative with high precision and low technical barrier. We avoid directly computing the overlap of two partition functions within different spacetime manifolds and instead obtain them separately via reweight-annealing scheme. The incremental process can be designed along the path of real physical parameters in this frame, and all intermediates are EEs of corresponding parameters, so the algorithm efficiency is improved by more than $10^4$ of times. The calculation of EE becomes much cheaper and simpler. It opens a way to numerically detect the novel phases and phase transitions by scanning EE in a wide parameter-region in two and higher dimensional systems. We then show the feasibility of using EE and its derivative to find phase transition points and to probe novel phases. | 翻訳日:2024-08-15 17:36:35 公開日:2024-08-14 |
# SYM3D:GANの3次元認識性向上のための対称三葉機学習
SYM3D: Learning Symmetric Triplanes for Better 3D-Awareness of GANs ( http://arxiv.org/abs/2406.06432v2 ) ライセンス: Link先を確認 | Jing Yang, Kyle Fogarty, Fangcheng Zhong, Cengiz Oztireli, | (参考訳) 高品質な3Dアセットを生成するために2Dイメージでトレーニングできる3D対応のGANは、ますます成功している。
しかし、キャリブレーションされたマルチビュー画像データセットの可用性は、特にシングルビュー画像と比較して低いため、3D GANの可能性は制限されている。
さらに,カメラ分布制約によるアノテーションの回避は,正確なカメラパラメータへの依存を減少させるが,それでも3Dアセットの一貫した配向を生成するのに苦慮している。
そこで本研究では,自然物や人工物に見られる反射対称構造を利用した新しい3D対応GANであるSYM3Dを提案する。
SYM3Dを合成(ShapeNet Chairs, Cars, Airplanes)と実世界のデータセット(ABO-Chairs)の両方で評価し、単視点画像のみを用いて訓練しても、詳細な形状やテクスチャを捉える上で優れた性能を示す。
最後に, テキスト・ツー・3Dタスクにおける3Dアセットのモデリングにおいて, アーチファクトの削減を支援するために, 対称性の正則化を取り入れることの有効性を実証する。
Project is at \url{https://jingyang2017.github.io/sym3d.github.io/}
Despite the growing success of 3D-aware GANs, which can be trained on 2D images to generate high-quality 3D assets, they still rely on multi-view images with camera annotations to synthesize sufficient details from all viewing directions. However, the scarce availability of calibrated multi-view image datasets, especially in comparison to single-view images, has limited the potential of 3D GANs. Moreover, while bypassing camera pose annotations with a camera distribution constraint reduces dependence on exact camera parameters, it still struggles to generate a consistent orientation of 3D assets. To this end, we propose SYM3D, a novel 3D-aware GAN designed to leverage the prevalent reflectional symmetry structure found in natural and man-made objects, alongside a proposed view-aware spatial attention mechanism in learning the 3D representation. We evaluate SYM3D on both synthetic (ShapeNet Chairs, Cars, and Airplanes) and real-world datasets (ABO-Chair), demonstrating its superior performance in capturing detailed geometry and texture, even when trained on only single-view images. Finally, we demonstrate the effectiveness of incorporating symmetry regularization in helping reduce artifacts in the modeling of 3D assets in the text-to-3D task. Project is at \url{https://jingyang2017.github.io/sym3d.github.io/} | 翻訳日:2024-08-15 17:36:35 公開日:2024-08-14 |
# 単一モーダルから多モーダル顔面深度検出への展開:調査
Evolving from Single-modal to Multi-modal Facial Deepfake Detection: A Survey ( http://arxiv.org/abs/2406.06965v3 ) ライセンス: Link先を確認 | Ping Liu, Qiqi Tao, Joey Tianyi Zhou, | (参考訳) この調査は、人工知能の急速な進歩の中で、ディープフェイク検出の重要な課題に対処する。
ビデオ、音声、テキストを含むAI生成メディアがより現実的になるにつれて、誤情報を拡散したり、身元確認詐欺を犯すリスクが高まる。
顔中心のディープフェイクに焦点を当てたこの研究は、従来の単一モダリティ手法から、オーディオ視覚とテキスト視覚のシナリオを扱う高度なマルチモーダルアプローチへの進化を辿る。
本稿では,検出手法の包括的分類法を提供し,自動エンコーダやGANから拡散モデルへの生成手法の進化を論じ,それらの特性によってこれらの技術を分類する。
私たちの知る限りでは、この種の調査はこれが初めてである。
また、新しい生成モデルに検出手法を適用することの課題や、ディープフェイク検出器の信頼性と堅牢性の向上、今後の研究に向けての方向性についても検討する。
この調査は研究者に詳細なロードマップを提供し、メディア生成、特に顔の偽造にAIを欺くことに対処する技術開発を支援している。
すべての関連論文のキュレートされたリストは \href{https://github.com/qiqitao77/Comprehensive-Advances-in-Deepfake-Detection-Spanning-Diverse-Modalitie s}{https://github.com/qiqitao77/Awesome-Comprehensive-Deepfake-Detection} にある。
This survey addresses the critical challenge of deepfake detection amidst the rapid advancements in artificial intelligence. As AI-generated media, including video, audio and text, become more realistic, the risk of misuse to spread misinformation and commit identity fraud increases. Focused on face-centric deepfakes, this work traces the evolution from traditional single-modality methods to sophisticated multi-modal approaches that handle audio-visual and text-visual scenarios. We provide comprehensive taxonomies of detection techniques, discuss the evolution of generative methods from auto-encoders and GANs to diffusion models, and categorize these technologies by their unique attributes. To our knowledge, this is the first survey of its kind. We also explore the challenges of adapting detection methods to new generative models and enhancing the reliability and robustness of deepfake detectors, proposing directions for future research. This survey offers a detailed roadmap for researchers, supporting the development of technologies to counter the deceptive use of AI in media creation, particularly facial forgery. A curated list of all related papers can be found at \href{https://github.com/qiqitao77/Comprehensive-Advances-in-Deepfake-Detection-Spanning-Diverse-Modalitie s}{https://github.com/qiqitao77/Awesome-Comprehensive-Deepfake-Detection}. | 翻訳日:2024-08-15 17:36:35 公開日:2024-08-14 |
# BSRBF-KAN:コルモゴロフ・アルノルドネットワークにおけるB-スプラインと放射基底関数の組み合わせ
BSRBF-KAN: A combination of B-splines and Radial Basis Functions in Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2406.11173v4 ) ライセンス: Link先を確認 | Hoang-Thang Ta, | (参考訳) 本稿では,B-splines と radial basis function (RBF) を組み合わせたコルモゴロフ・アーノルド・ネットワーク (KAN) のBSRBF-KANについて述べる。
我々は、MNISTおよびFashion-MNISTデータセット上で、BSRBF-KAN、MLP、およびEfficientKAN、FastKAN、FasterKAN、GottliebKANなどの一般的なKANを用いて実験を行った。
BSRBF-KANは、MNISTで97.55%、Fashion-MNISTで89.33%の競争平均精度で5回のトレーニングの安定性を示し、他のネットワークよりもコンバージェンスを得る。
我々は,BSRBF-KANが数理関数の組み合わせを多数開き,kanを設計することを期待している。
私たちのリポジトリは、https://github.com/hoangthangta/BSRBF_KANで公開されています。
In this paper, we introduce BSRBF-KAN, a Kolmogorov Arnold Network (KAN) that combines B-splines and radial basis functions (RBFs) to fit input vectors during data training. We perform experiments with BSRBF-KAN, multi-layer perception (MLP), and other popular KANs, including EfficientKAN, FastKAN, FasterKAN, and GottliebKAN over the MNIST and Fashion-MNIST datasets. BSRBF-KAN shows stability in 5 training runs with a competitive average accuracy of 97.55% on MNIST and 89.33% on Fashion-MNIST and obtains convergence better than other networks. We expect BSRBF-KAN to open many combinations of mathematical functions to design KANs. Our repo is publicly available at: https://github.com/hoangthangta/BSRBF_KAN. | 翻訳日:2024-08-15 17:36:35 公開日:2024-08-14 |
# 表現ジェスチャの自動生成説明への統合とその理解と相互作用品質への影響
Integrating Representational Gestures into Automatically Generated Embodied Explanations and its Effects on Understanding and Interaction Quality ( http://arxiv.org/abs/2406.12544v2 ) ライセンス: Link先を確認 | Amelie Sophie Robrecht, Hendric Voss, Lisa Gottschalk, Stefan Kopp, | (参考訳) ヒューマンインタラクションでは、ジェスチャーは、音声リズムのマーキング、キー要素のハイライト、情報補完といった様々な機能を提供します。
これらの動作は説明的文脈でも観察される。
しかし、仮想エージェントが提供する説明に対するジェスチャーの影響は未解明のままである。
対話の質と聴取者の理解に異なる種類のジェスチャーがどのような影響を及ぼすかを調べるために,ユーザスタディを行った。
本研究では,ビートジェスチャーと象徴的ジェスチャーを一体化して,自動生成した音声説明を強化する仮想説明器を開発することで,説明におけるジェスチャーの効果を考察する。
本モデルでは,学習した音声駆動合成モジュールが生成したビートジェスチャーと手動でキャプチャしたアイコン的ジェスチャーを組み合わせることで,ボードゲームQuarto!に関するエージェントの言葉表現を説明シナリオとしてサポートする。
発見は、象徴的なジェスチャー単独の使用もビートジェスチャーの組み合わせも、理解の観点からはベースラインやビートのみの状態よりも優れていることを示している。
それにもかかわらず、先行研究と比較して、エンボディ化剤は理解を著しく向上させる。
In human interaction, gestures serve various functions such as marking speech rhythm, highlighting key elements, and supplementing information. These gestures are also observed in explanatory contexts. However, the impact of gestures on explanations provided by virtual agents remains underexplored. A user study was carried out to investigate how different types of gestures influence perceived interaction quality and listener understanding. This study addresses the effect of gestures in explanation by developing an embodied virtual explainer integrating both beat gestures and iconic gestures to enhance its automatically generated verbal explanations. Our model combines beat gestures generated by a learned speech-driven synthesis module with manually captured iconic gestures, supporting the agent's verbal expressions about the board game Quarto! as an explanation scenario. Findings indicate that neither the use of iconic gestures alone nor their combination with beat gestures outperforms the baseline or beat-only conditions in terms of understanding. Nonetheless, compared to prior research, the embodied agent significantly enhances understanding. | 翻訳日:2024-08-15 17:36:35 公開日:2024-08-14 |
# 大規模データセットを用いたプライバシー保護ロジスティック回帰トレーニング
Privacy-Preserving Logistic Regression Training on Large Datasets ( http://arxiv.org/abs/2406.13221v2 ) ライセンス: Link先を確認 | John Chiang, | (参考訳) プライバシ保存機械学習は、大規模な暗号化データに対する同型ロジスティック回帰トレーニングなど、プライバシを維持しながらプライベートおよび機密データを解析することを目的とした、暗号化手法の1つのクラスである。
本稿では,より高速な勾配変種である $\texttt{quadratic gradient}$ を用いて,最近の手法のミニバッチ版であるhomomorphic Encryption (HE) を用いて,大規模暗号化データのロジスティック回帰学習を行うアルゴリズムを提案する。
$\texttt{quadratic gradient}$ は曲線情報(ヘッセン行列)を勾配に統合することができ、従って1階勾配アルゴリズムを効果的に加速することができる。
また、暗号化されたデータセットがあまりに大きく、ミニバッチ方式で暗号化する必要がある場合に、それらのメソッドのフルバッチバージョンを実装する。
我々は,200個の関数を持つ422,108個のサンプルからなる実財務データに対して,私たちのミニバッチアルゴリズムとフルバッチ実装手法を比較した。
%Nesterovの加速勾配(NAG)はHEの非効率性から,大規模な暗号化データセット上でのロジスティック回帰トレーニングは現実的な実現可能性を示し,私たちの理解において重要なマイルストーンとなっている。
Privacy-preserving machine learning is one class of cryptographic methods that aim to analyze private and sensitive data while keeping privacy, such as homomorphic logistic regression training over large encrypted data. In this paper, we propose an efficient algorithm for logistic regression training on large encrypted data using Homomorphic Encryption (HE), which is the mini-batch version of recent methods using a faster gradient variant called $\texttt{quadratic gradient}$. It is claimed that $\texttt{quadratic gradient}$ can integrate curve information (Hessian matrix) into the gradient and therefore can effectively accelerate the first-order gradient (descent) algorithms. We also implement the full-batch version of their method when the encrypted dataset is so large that it has to be encrypted in the mini-batch manner. We compare our mini-batch algorithm with our full-batch implementation method on real financial data consisting of 422,108 samples with 200 freatures. %Our experiments show that Nesterov's accelerated gradient (NAG) Given the inefficiency of HEs, our results are inspiring and demonstrate that the logistic regression training on large encrypted dataset is of practical feasibility, marking a significant milestone in our understanding. | 翻訳日:2024-08-15 17:36:35 公開日:2024-08-14 |
# シークエンシャルキャリブレーションのための$T^{2/3}$バリアを壊す
Breaking the $T^{2/3}$ Barrier for Sequential Calibration ( http://arxiv.org/abs/2406.13668v2 ) ライセンス: Link先を確認 | Yuval Dagan, Constantinos Daskalakis, Maxwell Fishelson, Noah Golowich, Robert Kleinberg, Princewill Okoroafor, | (参考訳) 予測器の各予測が、その予測がなされた時間ステップのサブセットにおける結果の経験的分布を近似すると、確率予測のセットを校正する。
本稿では、Foster & Vohra (1998) が最初に研究した2進数列のオンライン校正予測の基本的な問題について考察する。
彼らは、$O(T^{2/3})$キャリブレーション誤差を、$T$タイムステップ後に引き起こし、$\Omega(T^{1/2})$の低い境界を示した。
これらの境界は2021年にQiao & Valiant(英語版)が$\Omega(T^{0.528})$に下限を改良するまで20年間停滞し続けた。
本稿では,Foster & Vohraのキャリブレーション誤差の上限値である$O(T^{2/3})$を初めて改善する。
我々はQiao & Valiantのゲームを再利用による手形保存(SPR)と呼ぶ変種を導入することでこれを実現している。
我々は、SPRとキャリブレーション予測の関係が双方向であることを証明する。SPRの下位境界はキャリブレーションの下位境界に変換されるだけでなく、SPRのアルゴリズムはキャリブレーション予測の新しいアルゴリズムにも変換される。
次に、SPRゲームに対して改良された 'emph{upper bound} を与える。これは、我々の同値性を通して、キャリブレーション誤差$O(T^{2/3 - \varepsilon})$を、ある$\varepsilon > 0$ に対して、フォスター・アンド・ボーラの上界を初めて改善する予測アルゴリズムである。
類似のアイデアを用いることで、カイオ・アンド・ヴァリアントのそれよりもわずかに強い下界、すなわち$\Omega(T^{0.54389})$を証明できる。
我々の下限は難解な敵によって得られ、最初の$\omega(T^{1/2})$ calibration lower bound for oblivious adversariesである。
A set of probabilistic forecasts is calibrated if each prediction of the forecaster closely approximates the empirical distribution of outcomes on the subset of timesteps where that prediction was made. We study the fundamental problem of online calibrated forecasting of binary sequences, which was initially studied by Foster & Vohra (1998). They derived an algorithm with $O(T^{2/3})$ calibration error after $T$ time steps, and showed a lower bound of $\Omega(T^{1/2})$. These bounds remained stagnant for two decades, until Qiao & Valiant (2021) improved the lower bound to $\Omega(T^{0.528})$ by introducing a combinatorial game called sign preservation and showing that lower bounds for this game imply lower bounds for calibration. In this paper, we give the first improvement to the $O(T^{2/3})$ upper bound on calibration error of Foster & Vohra. We do this by introducing a variant of Qiao & Valiant's game that we call sign preservation with reuse (SPR). We prove that the relationship between SPR and calibrated forecasting is bidirectional: not only do lower bounds for SPR translate into lower bounds for calibration, but algorithms for SPR also translate into new algorithms for calibrated forecasting. We then give an improved \emph{upper bound} for the SPR game, which implies, via our equivalence, a forecasting algorithm with calibration error $O(T^{2/3 - \varepsilon})$ for some $\varepsilon > 0$, improving Foster & Vohra's upper bound for the first time. Using similar ideas, we then prove a slightly stronger lower bound than that of Qiao & Valiant, namely $\Omega(T^{0.54389})$. Our lower bound is obtained by an oblivious adversary, marking the first $\omega(T^{1/2})$ calibration lower bound for oblivious adversaries. | 翻訳日:2024-08-15 17:36:35 公開日:2024-08-14 |
# ICD符号化のためのLLMマルチエージェントの探索
Exploring LLM Multi-Agents for ICD Coding ( http://arxiv.org/abs/2406.15363v2 ) ライセンス: Link先を確認 | Rumeng Li, Xun Wang, Hong Yu, | (参考訳) 国際疾患分類(ICD)コーディングタスクにおけるLLM(Large Language Models)の限界に対処するため、ICD符号の高次元かつ歪んだ分布による不正確で不完全な予測結果がしばしば得られ、解釈可能性や信頼性も欠落する。
我々は,ICDのコーディング代行手順を実環境で模倣する,革新的なマルチエージェント・アプローチを導入し,患者,医師,コーダ,レビュアー,調整者という5つの異なるエージェントを構成。
各エージェントは、コーディングプロセス内の特定の役割に合わせてLLMベースのモデルを使用する。
また、パフォーマンスを高めるために、Electronic Health Record(HER)のSOAP構造(主観的、客観的、評価、計画)とシステムを統合する。
我々は,LSMと他の強力なベースラインのみで設計されたエージェントシステムと比較し,MIMIC-IIIデータセットを用いた評価を行った。
我々のマルチエージェントコーディングフレームワークは、共通および稀なICD符号のコーディングにおいて、Zero-shot Chain of Thought(CoT)とCoT(CoT-SC)の自己整合性を著しく向上させる。
アブレーション研究は、指定されたエージェントの役割の有効性を検証する。
また、LLMが設計したエージェントシステムよりも優れています。
さらに,本手法は,事前学習や微調整を必要とする最先端のICD符号化手法に匹敵する結果が得られ,希少なコード精度,説明可能性で性能が向上する。
さらに,ICD符号の制約に制約されず,実世界の符号化プロセスを効果的に模倣し,一般的な符号と稀な符号の両方の性能を向上させることで,本手法の実用性を示す。
To address the limitations of Large Language Models (LLMs) in the International Classification of Diseases (ICD) coding task, where they often produce inaccurate and incomplete prediction results due to the high-dimensional and skewed distribution of the ICD codes, and often lack interpretability and reliability as well. We introduce an innovative multi-agent approach for ICD coding which mimics the ICD coding assignment procedure in real-world settings, comprising five distinct agents: the patient, physician, coder, reviewer, and adjuster. Each agent utilizes an LLM-based model tailored to their specific role within the coding process. We also integrate the system with Electronic Health Record (HER)'s SOAP (subjective, objective, assessment and plan) structure to boost the performances. We compare our method with a system of agents designed solely by LLMs and other strong baselines and evaluate it using the Medical Information Mart for Intensive Care III (MIMIC-III) dataset. Our multi-agent coding framework significantly outperforms Zero-shot Chain of Thought (CoT) prompting and self-consistency with CoT (CoT-SC) in coding common and rare ICD codes. An ablation study validates the effectiveness of the designated agent roles. it also outperforms the LLM-designed agent system. Moreover, our method achieves comparable results to state-of-the-art ICD coding methods that require extensive pre-training or fine-tuning, and outperforms them in rare code accuracy, and explainability. Additionally, we demonstrate the method's practical applicability by presenting its performance in scenarios not limited by the common or rare ICD code constraints.The proposed multi-agent method for ICD coding effectively mimics the real-world coding process and improves performance on both common and rare codes. | 翻訳日:2024-08-15 17:36:35 公開日:2024-08-14 |
# 説明可能なAIを用いた脳波を用いた低分子量モンタージュ新生児静注検出
Using Explainable AI for EEG-based Reduced Montage Neonatal Seizure Detection ( http://arxiv.org/abs/2406.16908v3 ) ライセンス: Link先を確認 | Dinuka Sandun Udayantha, Kavindu Weerasinghe, Nima Wickramasinghe, Akila Abeyratne, Kithmin Wickremasinghe, Jithangi Wanigasinghe, Anjula De Silva, Chamira U. S. Edussooriya, | (参考訳) 新生児期は発作発生の最も脆弱な時期である。
未熟な脳の青斑は有害な結果をもたらすため、早期診断が必要である。
現在、新生児発作検出のゴールドスタンダードは、新生児集中治療室(NICU)内でのリアルタイムビデオモニタリングと並行して、多チャンネル脳波(EEG)を記録することを含む、連続的なビデオEEGモニタリングに依存している。
しかし、ビデオEEGモニタリング技術は臨床専門知識を必要としており、技術的に高度で資源に富んだ設定に限られることが多い。
費用対効果の高い新しい技術は、医療の友愛会が正確な診断を行い、遅滞なく治療を提唱するのに役立つ。
本研究では, 畳み込み網, グラフアテンション層, および完全連結層を用いて, 脳波モンタージュを低減した新生児発作検出プロセスを自動化する新しいディープラーニングモデルを提案する。
モンタージュを減らしてリアルタイムに発作を検出する能力に加えて、このモデルはリアルタイムの解釈可能性の独特な利点を提供する。
10倍のクロスバリデーションでZenodoデータセットの性能を評価することにより,曲線下面積(AUC)とリコールにおける絶対的な改善率8.31%と42.86%を達成した。
The neonatal period is the most vulnerable time for the development of seizures. Seizures in the immature brain lead to detrimental consequences, therefore require early diagnosis. The gold-standard for neonatal seizure detection currently relies on continuous video-EEG monitoring; which involves recording multi-channel electroencephalogram (EEG) alongside real-time video monitoring within a neonatal intensive care unit (NICU). However, video-EEG monitoring technology requires clinical expertise and is often limited to technologically advanced and resourceful settings. Cost-effective new techniques could help the medical fraternity make an accurate diagnosis and advocate treatment without delay. In this work, a novel explainable deep learning model to automate the neonatal seizure detection process with a reduced EEG montage is proposed, which employs convolutional nets, graph attention layers, and fully connected layers. Beyond its ability to detect seizures in real-time with a reduced montage, this model offers the unique advantage of real-time interpretability. By evaluating the performance on the Zenodo dataset with 10-fold cross-validation, the presented model achieves an absolute improvement of 8.31% and 42.86% in area under curve (AUC) and recall, respectively. | 翻訳日:2024-08-15 17:36:35 公開日:2024-08-14 |
# 強化学習に基づく自律ロボットナビゲーションに関する研究
Research on Autonomous Robots Navigation based on Reinforcement Learning ( http://arxiv.org/abs/2407.02539v3 ) ライセンス: Link先を確認 | Zixiang Wang, Hao Yan, Yining Wang, Zhengjia Xu, Zhuoyue Wang, Zhizhong Wu, | (参考訳) 強化学習は、環境との継続的な相互作用を通じてリアルタイムフィードバック報酬信号に基づいて意思決定を継続的に最適化し、適応性と自己学習能力を示す。
近年,ロボットの自律的なナビゲーションを実現するための重要な手法の1つとなっている。
本研究では,強化学習に基づく自律型ロボットナビゲーション手法を提案する。
本稿では,DQNとPPOモデルを用いて,ロボットと環境の継続的な相互作用による経路計画と意思決定プロセスの最適化と,リアルタイムフィードバックによる報酬信号について述べる。
Q値関数とディープニューラルネットワークを組み合わせることで、ディープQネットワークは高次元の状態空間を処理し、複雑な環境で経路計画を実現することができる。
ポリシー関数を最適化することで、ロボットが環境情報をより効率的に探索・活用できる戦略勾配に基づく手法である。
これらの方法は、未知の環境におけるロボットのナビゲーション能力を改善するだけでなく、適応性と自己学習能力を向上させる。
複数のトレーニングとシミュレーション実験を通じて,これらのモデルの有効性とロバスト性を様々な複雑なシナリオで検証した。
Reinforcement learning continuously optimizes decision-making based on real-time feedback reward signals through continuous interaction with the environment, demonstrating strong adaptive and self-learning capabilities. In recent years, it has become one of the key methods to achieve autonomous navigation of robots. In this work, an autonomous robot navigation method based on reinforcement learning is introduced. We use the Deep Q Network (DQN) and Proximal Policy Optimization (PPO) models to optimize the path planning and decision-making process through the continuous interaction between the robot and the environment, and the reward signals with real-time feedback. By combining the Q-value function with the deep neural network, deep Q network can handle high-dimensional state space, so as to realize path planning in complex environments. Proximal policy optimization is a strategy gradient-based method, which enables robots to explore and utilize environmental information more efficiently by optimizing policy functions. These methods not only improve the robot's navigation ability in the unknown environment, but also enhance its adaptive and self-learning capabilities. Through multiple training and simulation experiments, we have verified the effectiveness and robustness of these models in various complex scenarios. | 翻訳日:2024-08-15 17:36:35 公開日:2024-08-14 |
# MEEGとAT-DGNN:音楽導入とグラフ学習による脳波認識の改善
MEEG and AT-DGNN: Improving EEG Emotion Recognition with Music Introducing and Graph-based Learning ( http://arxiv.org/abs/2407.05550v3 ) ライセンス: Link先を確認 | Minghao Xiao, Zhengxi Zhu, Bin Jiang, Meixia Qu, Wenyu Wang, | (参考訳) MEEGデータセットは音楽誘発脳波 (EEG) 記録のマルチモーダルな収集であり, 様々な音楽刺激に対する感情的反応を, 様々な原子価と覚醒レベルにわたって捉えたものである。
このパブリックデータセットは、音楽的文脈における脳波パターンの詳細な調査を促進し、感情的な処理中に脳ネットワークトポロジーを研究するための堅牢な基盤を提供する。
MEEGデータセットを活用することで、脳波に基づく感情認識の新しいフレームワークである動的グラフニューラルネットワーク(AT-DGNN)による注意に基づくテンポラルラーナーを導入する。
このモデルは、注意機構と動的グラフニューラルネットワーク(DGNN)を組み合わせて、複雑な脳波のダイナミクスを捉える。
AT-DGNNは、83.74%の刺激認識と86.01%の精度で最先端(SOTA)性能を達成し、既存のSOTA法より優れている。
DEAPのような従来のデータセットとの比較分析は、モデルの有効性をさらに検証し、感情的な刺激として音楽の有効性を強調している。
本研究では,脳-コンピュータインタフェース(BCI)におけるグラフベースの学習手法を進歩させ,脳波による感情認識の精度を大幅に向上させる。
MEEGデータセットとソースコードはhttps://github.com/xmh1011/AT-DGNNで公開されている。
We present the MEEG dataset, a multi-modal collection of music-induced electroencephalogram (EEG) recordings designed to capture emotional responses to various musical stimuli across different valence and arousal levels. This public dataset facilitates an in-depth examination of brainwave patterns within musical contexts, providing a robust foundation for studying brain network topology during emotional processing. Leveraging the MEEG dataset, we introduce the Attention-based Temporal Learner with Dynamic Graph Neural Network (AT-DGNN), a novel framework for EEG-based emotion recognition. This model combines an attention mechanism with a dynamic graph neural network (DGNN) to capture intricate EEG dynamics. The AT-DGNN achieves state-of-the-art (SOTA) performance with an accuracy of 83.74% in arousal recognition and 86.01% in valence recognition, outperforming existing SOTA methods. Comparative analysis with traditional datasets, such as DEAP, further validates the model's effectiveness and underscores the potency of music as an emotional stimulus. This study advances graph-based learning methodology in brain-computer interfaces (BCI), significantly improving the accuracy of EEG-based emotion recognition. The MEEG dataset and source code are publicly available at https://github.com/xmh1011/AT-DGNN. | 翻訳日:2024-08-15 17:26:11 公開日:2024-08-14 |
# ViTime: 時系列予測のためのビジュアルインテリジェンスベースの基礎モデル
ViTime: A Visual Intelligence-Based Foundation Model for Time Series Forecasting ( http://arxiv.org/abs/2407.07311v2 ) ライセンス: Link先を確認 | Luoxiao Yang, Yun Wang, Xinqi Fan, Israel Cohen, Jingdong Chen, Yue Zhao, Zijun Zhang, | (参考訳) 自然言語処理(NLP)とコンピュータビジョン(CV)における大規模事前学習モデルの成功は、時系列予測(TSF)の基礎モデルを構築するための新たな道を開いた。
伝統的なTSFファンデーションモデルは数値データフィッティングに大きく依存している。
対照的に、人間の脳は視覚情報を処理するのに本質的に熟練しており、可視化されたシーケンスを観察することで将来のトレンドを予測することを好む。
生体模倣の観点からは、数値シーケンスを直接処理するモデルを活用することは、人工知能(AGI)を実現するための最も効果的な方法ではないかもしれない。
本稿では,TSFのための新しいビジュアルインテリジェンスベース基盤モデルであるViTimeを提案する。
ViTimeは、ビジュアルデータ処理パラダイムを活用することで、数値時系列データフィッティングの限界を克服し、Real Time Series (RealTS)と呼ばれるトレーニング中に革新的なデータ合成手法を採用する。
これまで目にしなかったさまざまな予測データセットの実験は、ViTimeが最先端のゼロショットのパフォーマンスを達成し、いくつかの状況において最高のトレーニングを受けた教師付きモデルを超えていることを示している。
これらの結果は、視覚知能は時系列解析と予測を大幅に向上させ、現場におけるより高度で多目的なモデルへの道を開くことを示唆している。
私たちのフレームワークのコードはhttps://github.com/IkeYang/ViTime.comでアクセスできます。
The success of large pretrained models in natural language processing (NLP) and computer vision (CV) has opened new avenues for constructing foundation models for time series forecasting (TSF). Traditional TSF foundation models rely heavily on numerical data fitting. In contrast, the human brain is inherently skilled at processing visual information, prefer predicting future trends by observing visualized sequences. From a biomimetic perspective, utilizing models to directly process numerical sequences might not be the most effective route to achieving Artificial General Intelligence (AGI). This paper proposes ViTime, a novel Visual Intelligence-based foundation model for TSF. ViTime overcomes the limitations of numerical time series data fitting by utilizing visual data processing paradigms and employs a innovative data synthesis method during training, called Real Time Series (RealTS). Experiments on a diverse set of previously unseen forecasting datasets demonstrate that ViTime achieves state-of-the-art zero-shot performance, even surpassing the best individually trained supervised models in some situations. These findings suggest that visual intelligence can significantly enhance time series analysis and forecasting, paving the way for more advanced and versatile models in the field. The code for our framework is accessible at https://github.com/IkeYang/ViTime. | 翻訳日:2024-08-15 17:26:11 公開日:2024-08-14 |
# Ramsey理論と'Private Learning Implies Online Learning'理論
Ramsey Theorems for Trees and a General 'Private Learning Implies Online Learning' Theorem ( http://arxiv.org/abs/2407.07765v2 ) ライセンス: Link先を確認 | Simone Fioravanti, Steve Hanneke, Shay Moran, Hilla Schefler, Iska Tsubari, | (参考訳) この研究は、差分プライベート(DP)とオンライン学習との関係について研究を続けている。
Alon, Livni, Malliaris, and Moran (2019) は、二進概念クラスでは、与えられたクラスのDP可学習性は、有限のリトルストーン次元を持つことを意味することを示した。
それらの証明は Hodges (1997) によるモデル理論の結果に依存しており、これは大きなリトルストーン次元を持つ任意の二項概念クラスが大きな閾値のサブクラスを含むことを証明している。
Jung, Kim, and Tewari (2020) はこの証明を、有界なラベルを持つ多クラスPAC学習に拡張した。
残念なことに、Hodgesの結果は、有界ラベル空間を持つマルチクラスPAC学習や部分概念クラスのPAC学習など、他の自然環境には適用されない。
事実、Alon, Hanneke, Holzman, and Moran (2021) は、それを部分的な概念クラスの文脈におけるオープンな質問として明示的に残しており、同じ質問が一般的なマルチクラス設定で開かれている。
本稿では,これらの質問に対する肯定的な回答として,一般分類タスクにおいて,DP学習性はオンライン学習性を意味することを示す。
私たちの証明は、閾値に頼らずに、リトルストーンの木について直接的に理由を定めています。
我々は、木に対していくつかのラムゼー型定理を確立することでこれを達成し、これは独立した関心を持つかもしれない。
This work continues to investigate the link between differentially private (DP) and online learning. Alon, Livni, Malliaris, and Moran (2019) showed that for binary concept classes, DP learnability of a given class implies that it has a finite Littlestone dimension (equivalently, that it is online learnable). Their proof relies on a model-theoretic result by Hodges (1997), which demonstrates that any binary concept class with a large Littlestone dimension contains a large subclass of thresholds. In a follow-up work, Jung, Kim, and Tewari (2020) extended this proof to multiclass PAC learning with a bounded number of labels. Unfortunately, Hodges's result does not apply in other natural settings such as multiclass PAC learning with an unbounded label space, and PAC learning of partial concept classes. This naturally raises the question of whether DP learnability continues to imply online learnability in more general scenarios: indeed, Alon, Hanneke, Holzman, and Moran (2021) explicitly leave it as an open question in the context of partial concept classes, and the same question is open in the general multiclass setting. In this work, we give a positive answer to these questions showing that for general classification tasks, DP learnability implies online learnability. Our proof reasons directly about Littlestone trees, without relying on thresholds. We achieve this by establishing several Ramsey-type theorems for trees, which might be of independent interest. | 翻訳日:2024-08-15 17:26:11 公開日:2024-08-14 |
# BiEquiFormer: グローバルポイントクラウド登録のためのバイ平等表現
BiEquiFormer: Bi-Equivariant Representations for Global Point Cloud Registration ( http://arxiv.org/abs/2407.08729v2 ) ライセンス: Link先を確認 | Stefanos Pertigkiozoglou, Evangelos Chatzipantazis, Kostas Daniilidis, | (参考訳) 本研究の目的は, スキャンの初歩によらず, ポイントクラウド間の最適アライメントを求める, PCR(グローバルポイントクラウド登録)の問題に対処することである。
この問題は、計算の制約によって古典的な最適化手法が難しいことで有名である。
まず、最先端のディープラーニング手法は、点雲を任意に空間に配置した場合、大きな性能劣化に悩まされることを示す。
そこで本研究では,この課題の解決に同変深層学習を活用すべきであり,PCRの比類型を特徴付けることを提案する。
そこで,我々はBiEquiformerを,入力点雲の独立変換に同値な新規でスケーラブルな二変量パイプラインとして設計する。
単純なアプローチでポイントクラウドを独立に処理する一方で、両方のポイントクラウドから情報を融合する表現力のあるバイ平等なレイヤを設計します。
これにより,高品質なスーパーポイント対応を抽出し,ロバストなポイントクラウド登録を行うことができる。
本手法は,3DMatchと3DLoMatchデータセットの両方のロバストな設定において,標準設定において同等の性能と優れた性能を達成することを示す。
The goal of this paper is to address the problem of global point cloud registration (PCR) i.e., finding the optimal alignment between point clouds irrespective of the initial poses of the scans. This problem is notoriously challenging for classical optimization methods due to computational constraints. First, we show that state-of-the-art deep learning methods suffer from huge performance degradation when the point clouds are arbitrarily placed in space. We propose that equivariant deep learning should be utilized for solving this task and we characterize the specific type of bi-equivariance of PCR. Then, we design BiEquiformer a novel and scalable bi-equivariant pipeline i.e. equivariant to the independent transformations of the input point clouds. While a naive approach would process the point clouds independently we design expressive bi-equivariant layers that fuse the information from both point clouds. This allows us to extract high-quality superpoint correspondences and in turn, robust point-cloud registration. Extensive comparisons against state-of-the-art methods show that our method achieves comparable performance in the canonical setting and superior performance in the robust setting in both the 3DMatch and the challenging low-overlap 3DLoMatch dataset. | 翻訳日:2024-08-15 17:26:11 公開日:2024-08-14 |
# ワッサーシュタイン空間における生成モデルによるブラックボックス関数のグローバル最適化
Global Optimisation of Black-Box Functions with Generative Models in the Wasserstein Space ( http://arxiv.org/abs/2407.11917v2 ) ライセンス: Link先を確認 | Tigran Ramazyan, Mikhail Hushchyn, Denis Derkach, | (参考訳) 深部生成代理モデルを用いたブラックボックスシミュレータの勾配自由度最適化のための新しい不確実性推定器を提案する。
これらのシミュレータの最適化は特に確率的シミュレータや高次元のシミュレータでは困難である。
これらの問題に対処するために、パラメータ空間全体のブラックボックス応答をモデル化するために、深い生成的サロゲートアプローチを利用する。
この知識を利用して、ワッサーシュタイン距離、すなわちワッサーシュタインの不確実性に基づいて提案された不確かさを推定する。
このアプローチは、パラメータ空間全体の後悔を最小限に抑える、後続の非依存勾配自由最適化アルゴリズムに採用されている。
提案手法は,最先端の手法よりもブラックボックス関数とブラックボックスの確率的応答の双方の形状に対して,より堅牢であることを示すための一連の実験を行った。
We propose a new uncertainty estimator for gradient-free optimisation of black-box simulators using deep generative surrogate models. Optimisation of these simulators is especially challenging for stochastic simulators and higher dimensions. To address these issues, we utilise a deep generative surrogate approach to model the black box response for the entire parameter space. We then leverage this knowledge to estimate the proposed uncertainty based on the Wasserstein distance - the Wasserstein uncertainty. This approach is employed in a posterior agnostic gradient-free optimisation algorithm that minimises regret over the entire parameter space. A series of tests were conducted to demonstrate that our method is more robust to the shape of both the black box function and the stochastic response of the black box than state-of-the-art methods, such as efficient global optimisation with a deep Gaussian process surrogate. | 翻訳日:2024-08-15 17:26:11 公開日:2024-08-14 |
# 学習類似性を考慮した効率的な検索法
Efficient Retrieval with Learned Similarities ( http://arxiv.org/abs/2407.15462v2 ) ライセンス: Link先を確認 | Bailu Ding, Jiaqi Zhai, | (参考訳) Retrievalはリコメンデーションシステム、検索、自然言語処理において、クエリが与えられた大きなコーパスから関連項目を効率的に見つけることによって、基本的な役割を担っている。
ドット製品に基づく効率的な検索を可能にするMIPS(Maximum Inner Product Search)のおかげで、ドット製品はこのような検索タスクにおける類似機能として広く利用されている。
しかし、最先端の検索アルゴリズムは、学習した類似点に移行した。
クエリは複数の埋め込みで表現でき、複雑なニューラルネットワークをデプロイでき、アイテムIDはビームサーチを使用してクエリから直接デコードでき、複数のアプローチをハイブリッドソリューションで組み合わせることができる。
残念なことに、これらの最先端のセットアップでは、検索のための効率的なソリューションが欠如しています。
本研究は,学習類似度関数を用いた近接探索手法について検討する。
最初に、Mixture-of-Logits (MoL) が普遍近似であり、学習されたすべての類似性関数を表現できることを証明した。
次に, タイトな境界を持つMoLを用いて, 近似トップK値を求める手法を提案する。
提案手法を既存の手法と比較し,MoLが推薦検索タスクに新たな最先端結果を設定することを示し,学習類似性を持つ近似トップk検索は,精度の高いアルゴリズムの.99リコール率を達成しつつ,最大2桁のレイテンシでベースラインを上回った。
Retrieval plays a fundamental role in recommendation systems, search, and natural language processing by efficiently finding relevant items from a large corpus given a query. Dot products have been widely used as the similarity function in such retrieval tasks, thanks to Maximum Inner Product Search (MIPS) that enabled efficient retrieval based on dot products. However, state-of-the-art retrieval algorithms have migrated to learned similarities. Such algorithms vary in form; the queries can be represented with multiple embeddings, complex neural networks can be deployed, the item ids can be decoded directly from queries using beam search, and multiple approaches can be combined in hybrid solutions. Unfortunately, we lack efficient solutions for retrieval in these state-of-the-art setups. Our work investigates techniques for approximate nearest neighbor search with learned similarity functions. We first prove that Mixture-of-Logits (MoL) is a universal approximator, and can express all learned similarity functions. We next propose techniques to retrieve the approximate top K results using MoL with a tight bound. We finally compare our techniques with existing approaches, showing that MoL sets new state-of-the-art results on recommendation retrieval tasks, and our approximate top-k retrieval with learned similarities outperforms baselines by up to two orders of magnitude in latency, while achieving > .99 recall rate of exact algorithms. | 翻訳日:2024-08-15 17:26:11 公開日:2024-08-14 |
# CLIP - インクリメンタルラーニングのための強力なベースライン
CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning ( http://arxiv.org/abs/2407.15793v3 ) ライセンス: Link先を確認 | Emanuele Frascaroli, Aniello Panariello, Pietro Buzzega, Lorenzo Bonicelli, Angelo Porrello, Simone Calderara, | (参考訳) CLIPのようなトランスフォーマーやビジョン・ランゲージ・モデル(VLM)の出現に伴い、微調整された大規模な事前学習モデルは、近年、継続的な学習において一般的な戦略となっている。
このことが、破滅的な忘れを招かずにトランスフォーマーベースのモデルに適応するための多くの急進的戦略の開発につながった。
しかしながら、これらの戦略は、事前トレーニングされたCLIPモデルの元々のゼロショット能力を損なうことが多く、事前トレーニングされたデータから著しく逸脱したドメインへの適応に苦慮する。
本稿では,CLIPを適応させながら忘れを軽減するためのシンプルで斬新な手法であるインクリメンタル・プロンプト学習のための連続的生成学習を提案する。
簡単に言えば、視覚エンコーダの埋め込み空間内のクラス条件分布を学習するために、変分オートエンコーダ(VAE)を用いる。
次に、これらの分布を利用して、新しい合成視覚埋め込みをサンプリングし、その後のタスク中に対応するクラス固有のテキストプロンプトをトレーニングする。
異なる領域に関する広範な実験を通して、このような生成的再生アプローチはゼロショット能力を改善しつつ新しいタスクに適応できることを示し、CLシナリオに適した新しいメトリクスを用いて評価する。
さらなる分析により,我々の手法は,ジョイント・プロンプト・チューニングによってギャップを埋めることができることが明らかとなった。
コードベースはhttps://github.com/aimagelab/mammoth.comで公開されている。
With the emergence of Transformers and Vision-Language Models (VLMs) such as CLIP, fine-tuning large pre-trained models has recently become a prevalent strategy in Continual Learning. This has led to the development of numerous prompting strategies to adapt transformer-based models without incurring catastrophic forgetting. However, these strategies often compromise the original zero-shot capabilities of the pre-trained CLIP model and struggle to adapt to domains that significantly deviate from the pre-training data. In this work, we propose Continual Generative training for Incremental prompt-Learning, a simple and novel approach to mitigate forgetting while adapting CLIP. Briefly, we employ Variational Autoencoders (VAEs) to learn class-conditioned distributions within the embedding space of the visual encoder. We then exploit these distributions to sample new synthetic visual embeddings and train the corresponding class-specific textual prompts during subsequent tasks. Through extensive experiments on different domains, we show that such a generative replay approach can adapt to new tasks while improving zero-shot capabilities, evaluated using a novel metric tailored for CL scenarios. Notably, further analysis reveals that our approach can bridge the gap with joint prompt tuning. The codebase is available at https://github.com/aimagelab/mammoth. | 翻訳日:2024-08-15 17:26:11 公開日:2024-08-14 |
# 2つのDLシティの物語:ライブラリーテストがコンパイラに遭遇した時
A Tale of Two DL Cities: When Library Tests Meet Compiler ( http://arxiv.org/abs/2407.16626v2 ) ライセンス: Link先を確認 | Qingchao Shen, Yongqiang Tian, Haoyang Ma, Junjie Chen, Lili Huang, Ruifeng Fu, Shing-Chi Cheung, Zan Wang, | (参考訳) DL(Deep Learning)コンパイラは通常、DLモデルをロードして中間表現で最適化するが、既存のDLコンパイラテスト技術は主にモデルの最適化段階に焦点を当てているが、モデルローディング段階でバグ検出を検討することはめったにない。
モデルローディングステージを効果的にテストするには、DLライブラリテストと共通の目的を共有し、DLライブラリテストに組み込まれた知識が、DLコンパイラのモデルローディングステージをテストするのに有用であることを示している。
本稿では,DLライブラリのテストインプットから,そのようなドメイン知識を抽出するOPERAを提案する。
OPERAは、DLライブラリの様々なテストインプット(DLライブラリで文書化されたテストインプットや、最近のファズーによって生成されたテストインプットを含む)から様々なテストを構築する。
さらに、多様なバグを早期に検出する可能性が高いテストインプットを移行して実行する、多様性ベースのテスト優先順位付け戦略も組み込まれている。
我々は,DLライブラリの3つのソースについて検討し,3つのDLコンパイラ(例えば,TVM,TensorRT,OpenVINO)から8つのフロントエンドを用いて評価を行った。
OPERAは、合計で170の既知のバグを検出し、90のバグが開発者によって確認・修正され、そのような移行ベースのアイデアの有効性が実証された。
OPERAのテスト優先戦略は、一般的なテスト優先戦略と比較して、移行テストによるテスト効率を平均で11.9%〜47.4%向上させる。
Deep Learning (DL) compilers typically load a DL model and optimize it with intermediate representation.Existing DL compiler testing techniques mainly focus on model optimization stages, but rarely explore bug detection at the model loading stage. Effectively testing the model loading stage requires covering diverse usages of each DL operator from various DL libraries, which shares a common objective with DL library testing, indicating that the embedded knowledge in DL library tests is beneficial for testing the model loading stage of DL compilers. In this work, we propose OPERA to extract such domain knowledge from the test inputs for DL libraries. OPERA constructs diverse tests from the various test inputs for DL libraries (including the test inputs documented in DL libraries and those generated by recent fuzzers). In addition, it incorporates a diversity-based test prioritization strategy to migrate and execute those test inputs that are more likely to detect diverse bugs earlier. We considered three sources of tests in DL libraries for migration and used eight frontends from three DL compilers (e.g., TVM, TensorRT, and OpenVINO) for evaluation. OPERA detected 170 previously unknown bugs in total, 90 of which have been confirmed/fixed by developers, demonstrating the effectiveness of such the migration-based idea. The test prioritization strategy in OPERA improves testing efficiency with migrated tests by 11.9%~47.4% on average compared to general test prioritization strategies. | 翻訳日:2024-08-15 17:26:11 公開日:2024-08-14 |
# 反事実や抽象分布を導入しない因果モデリング
Causal modelling without introducing counterfactuals or abstract distributions ( http://arxiv.org/abs/2407.17385v2 ) ライセンス: Link先を確認 | Benedikt Höltgen, Robert C. Williamson, | (参考訳) 因果モデリングにおける最も一般的なアプローチは、NeymanとRubinによる潜在的な結果フレームワークである。
この枠組みでは、カウンターファクト処理の結果が適切に定義されていると仮定される。
このメタ物理的な仮定は、しばしば問題であるが不可欠であると考えられている。
従来の手法は、反事実だけでなく、直接的に検証できない分布や独立性の仮定の抽象的な概念にも依存している。
本稿では,すべての仮定が検証可能な有限集団に対する治療的予測として因果推論を解釈する。これは,予測自体を(基本的な問題なく)テストできるだけでなく,失敗してもエラーの原因を調査できることを意味している。
この新しい枠組みは、因果関係のモデル依存性と、統計的および科学的推論の違いを強調している。
The most common approach to causal modelling is the potential outcomes framework due to Neyman and Rubin. In this framework, outcomes of counterfactual treatments are assumed to be well-defined. This metaphysical assumption is often thought to be problematic yet indispensable. The conventional approach relies not only on counterfactuals but also on abstract notions of distributions and assumptions of independence that are not directly testable. In this paper, we construe causal inference as treatment-wise predictions for finite populations where all assumptions are testable; this means that one can not only test predictions themselves (without any fundamental problem) but also investigate sources of error when they fail. The new framework highlights the model-dependence of causal claims as well as the difference between statistical and scientific inference. | 翻訳日:2024-08-15 17:26:11 公開日:2024-08-14 |
# 機械学習でデータ生成を前提にすべきでない理由
Why we should not (always) assume data generating distributions in Machine Learning ( http://arxiv.org/abs/2407.17395v2 ) ライセンス: Link先を確認 | Benedikt Höltgen, Robert C. Williamson, | (参考訳) 機械学習の研究は統計学のほとんどと同様に、データ生成確率分布の概念に大きく依存している。
このような分布からデータポイントをサンプリングすると、この分布に関する観測データから学習でき、そこから引き出された将来のデータポイントを(ある程度の確率で)予測することができる。
専門分野にまたがる奨学金に基づいて、我々はこのフレームワークが必ずしも良いモデルであるとは限らないと論じている。
このような真の確率分布は存在しないだけでなく、フレームワークは選択と機械学習の実践で追求された目標の両方を誤解させ、曖昧にすることができる。
抽象分布よりも有限集団に着目した代替フレームワークを提案するが、古典的学習理論はほとんど変わらないが、特にモデルサンプリングにおいて新たな機会が開かれる。
我々はこれらの考察を、生成的分布よりも有限分布で機械学習をモデル化する5つの理由にまとめる。
Machine Learning research, as most of Statistics, heavily relies on the concept of a data-generating probability distribution. As data points are thought to be sampled from such a distribution, we can learn from observed data about this distribution and, thus, predict future data points drawn from it (with some probability of success). Drawing on scholarship across disciplines, we here argue that this framework is not always a good model. Not only do such true probability distributions not exist; the framework can also be misleading and obscure both the choices made and the goals pursued in machine learning practice. We suggest an alternative framework that focuses on finite populations rather than abstract distributions; while classical learning theory can be left almost unchanged, it opens new opportunities, especially to model sampling. We compile these considerations into five reasons for modelling machine learning -- in some settings -- with finite distributions rather than generative distributions, both to be more faithful to practice and to provide novel theoretical insights. | 翻訳日:2024-08-15 17:26:11 公開日:2024-08-14 |
# 量子調和振動子バージョン3における隠れオントロジー変数
The Hidden Ontological Variable in Quantum Harmonic Oscillators version 3 ( http://arxiv.org/abs/2407.18153v2 ) ライセンス: Link先を確認 | Gerard t Hooft, | (参考訳) すべての量子調和振動子は、古典論理の観点から解釈できるような存在論的変数を持つ。
多くの量子モデルは量子調和振動子に基づいているため、この観測は量子力学の解釈方法の理解を深める道を開く可能性がある。
All quantum harmonic oscillators possess an ontological variable, which implies that they may be interpreted in terms of classical logic. Since many quantum models are based on quantum harmonic oscillators, this observation may open pathways towards a better understanding of how to interpret quantum mechanics. | 翻訳日:2024-08-15 17:26:11 公開日:2024-08-14 |
# ML-Mamba:Mamba-2を利用したマルチモーダル大言語モデル
ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2 ( http://arxiv.org/abs/2407.19832v2 ) ライセンス: Link先を確認 | Wenjun Huang, Jianguo Hu, | (参考訳) MLLM(Multimodal Large Language Models)はその多機能性に対して多くの注目を集めている。
しかし、従来のTransformerアーキテクチャは二次計算の複雑さのために大きなオーバーヘッドを発生させる。
この問題に対処するために,ML-Mambaを導入した。ML-Mambaは,最新の効率的なMamba-2モデルを用いて推論を行うマルチモーダル言語モデルである。
Mamba-2はその線形スケーラビリティと長いシーケンスの高速処理で知られている。
トランスフォーマーをベースとしたバックボーンを事前訓練したMamba-2モデルに置き換え、マルチモーダル学習に2次元視覚選択的スキャン機構を統合する方法を検討するとともに、様々なビジュアルエンコーダやMamba-2モデルの変種を試す。
各種マルチモーダルベンチマーク実験において,ML-Mambaの競合性能を実証し,マルチモーダルタスクにおける状態空間モデルの可能性を明らかにする。
1)マルチモーダル学習に2次元視覚選択走査機構を効果的に適用する方法を実証的に検討した。
本稿では,Mamba-2 Scan Connector (MSC) と呼ばれる新しいマルチモーダルコネクタを提案する。
2) ML-Mamba は,TinyLaVA や MobileVLM v2 などの最先端手法に匹敵する性能を実現し,その線形逐次モデリングを高速な推論速度で実現し,また,Mamba-1 を用いたマルチモーダルモデルと比較すると,Mamba-2 ベースの ML-Mamba の方が優れた推論性能と有効性を示す。
Multimodal Large Language Models (MLLMs) have attracted much attention for their multifunctionality. However, traditional Transformer architectures incur significant overhead due to their secondary computational complexity. To address this issue, we introduce ML-Mamba, a multimodal language model, which utilizes the latest and efficient Mamba-2 model for inference. Mamba-2 is known for its linear scalability and fast processing of long sequences. We replace the Transformer-based backbone with a pre-trained Mamba-2 model and explore methods for integrating 2D visual selective scanning mechanisms into multimodal learning while also trying various visual encoders and Mamba-2 model variants. Our extensive experiments in various multimodal benchmark tests demonstrate the competitive performance of ML-Mamba and highlight the potential of state space models in multimodal tasks. The experimental results show that: (1) we empirically explore how to effectively apply the 2D vision selective scan mechanism for multimodal learning. We propose a novel multimodal connector called the Mamba-2 Scan Connector (MSC), which enhances representational capabilities. (2) ML-Mamba achieves performance comparable to state-of-the-art methods such as TinyLaVA and MobileVLM v2 through its linear sequential modeling while faster inference speed; (3) Compared to multimodal models utilizing Mamba-1, the Mamba-2-based ML-Mamba exhibits superior inference performance and effectiveness. | 翻訳日:2024-08-15 15:28:26 公開日:2024-08-14 |
# 透かしレコメンダシステム
Watermarking Recommender Systems ( http://arxiv.org/abs/2407.21034v2 ) ライセンス: Link先を確認 | Sixiao Zhang, Cheng Long, Wei Yuan, Hongxu Chen, Hongzhi Yin, | (参考訳) レコメンダシステムは重要な商業価値を具現化し、重要な知的財産を代表している。
しかし、これらのシステムの完全性は、根底にあるモデルを盗もうとする悪意あるアクターによって常に問題視されている。
このような脅威に対する保護は、モデル所有者の権利と利益を維持するために最重要である。
モデル透かしは、様々な領域において強力な防御機構として現れてきたが、推奨システムへの直接的な適用は未探索であり、非自明である。
本稿では,レコメンダシステムに特化した新しい手法であるAutoregressive Out-of-distriion Watermarking (AOW)を導入することで,このギャップに対処する。
提案手法では,初期項目の選択とオラクルモデルによるクエリを行い,その後に予測スコアの小さい項目を選択する。
この反復的プロセスは、自動的にウォーターマークシーケンスを生成し、トレーニングを通じてモデルのメモリに浸透する。
透かしの有効性を評価するため、このモデルでは、切り捨てられた透かしシーケンスが与えられた後続の項目を予測することを課題とする。
実験と解析を通じて,AOWの優れた性能とロバスト性を示す。
特に, この透かし技術は, 高信頼抽出能力を示し, 蒸留や微調整プロセスの面でも有効性を維持する。
Recommender systems embody significant commercial value and represent crucial intellectual property. However, the integrity of these systems is constantly challenged by malicious actors seeking to steal their underlying models. Safeguarding against such threats is paramount to upholding the rights and interests of the model owner. While model watermarking has emerged as a potent defense mechanism in various domains, its direct application to recommender systems remains unexplored and non-trivial. In this paper, we address this gap by introducing Autoregressive Out-of-distribution Watermarking (AOW), a novel technique tailored specifically for recommender systems. Our approach entails selecting an initial item and querying it through the oracle model, followed by the selection of subsequent items with small prediction scores. This iterative process generates a watermark sequence autoregressively, which is then ingrained into the model's memory through training. To assess the efficacy of the watermark, the model is tasked with predicting the subsequent item given a truncated watermark sequence. Through extensive experimentation and analysis, we demonstrate the superior performance and robust properties of AOW. Notably, our watermarking technique exhibits high-confidence extraction capabilities and maintains effectiveness even in the face of distillation and fine-tuning processes. | 翻訳日:2024-08-15 15:28:26 公開日:2024-08-14 |
# 最適信号時間論理決定木を学習して分類する:最大フローMILP定式化
Learning Optimal Signal Temporal Logic Decision Trees for Classification: A Max-Flow MILP Formulation ( http://arxiv.org/abs/2407.21090v2 ) ライセンス: Link先を確認 | Kaier Liang, Gustavo A. Cardona, Disha Kamale, Cristian-Ioan Vasile, | (参考訳) 本稿では,データから時間的時間的論理特性を推定するための新しい枠組みを提案する。
このデータセットは、有限時間システムトレースと対応するラベルのペアで構成されており、船が安全な経路をたどるかどうかなど、トレースが特定の望ましい振る舞いを示すかどうかを示している。
提案手法は,信号時間論理分類器をプリミティブ式を用いて推定するために決定木に基づく手法を利用する。
我々は、データ分類と木構造の両方を決定するために制約を再帰的に生成する混合整数線形プログラミング最適化問題として推論過程を定式化する。
結果木に最大フローアルゴリズムを適用すると、この問題はグローバルな最適化課題に変換され、従来の手法と比較して分類率が改善される。
さらに,STLプリミティブに固有の対称性を利用して制約数を減らし,アルゴリズムの時間性能と解釈可能性を向上させる手法を提案する。
アルゴリズムの有効性と分類性能を評価するために,2クラス,複数クラス,複雑な式分類シナリオを含む3つのケーススタディを行った。
This paper presents a novel framework for inferring timed temporal logic properties from data. The dataset comprises pairs of finite-time system traces and corresponding labels, denoting whether the traces demonstrate specific desired behaviors, e.g. whether the ship follows a safe route or not. Our proposed approach leverages decision-tree-based methods to infer Signal Temporal Logic classifiers using primitive formulae. We formulate the inference process as a mixed integer linear programming optimization problem, recursively generating constraints to determine both data classification and tree structure. Applying a max-flow algorithm on the resultant tree transforms the problem into a global optimization challenge, leading to improved classification rates compared to prior methodologies. Moreover, we introduce a technique to reduce the number of constraints by exploiting the symmetry inherent in STL primitives, which enhances the algorithm's time performance and interpretability. To assess our algorithm's effectiveness and classification performance, we conduct three case studies involving two-class, multi-class, and complex formula classification scenarios. | 翻訳日:2024-08-15 15:28:26 公開日:2024-08-14 |
# LLM生成情報におけるモデル属性:教師付きコントラスト学習を用いた領域一般化手法
Model Attribution in LLM-Generated Disinformation: A Domain Generalization Approach with Supervised Contrastive Learning ( http://arxiv.org/abs/2407.21264v2 ) ライセンス: Link先を確認 | Alimohammad Beigi, Zhen Tan, Nivedh Mudiam, Canyu Chen, Kai Shu, Huan Liu, | (参考訳) LLM生成情報に対するモデル帰属は、その起源を理解し、その拡散を緩和する上で重要な課題となる。
現代の大規模言語モデル(LLM)は、人間のような品質の偽情報を生成するため、この課題は特に困難である。
さらに、偽情報を生成するための方法の多様性は、正確な情報源の属性を複雑にする。
これらの手法は、モデルの基本的特徴を隠蔽できるドメイン固有の特徴を導入している。
本稿では,各プロンプト法が一意なドメインを表す領域一般化問題として,モデル帰属の概念を紹介する。
我々は、効果的な帰属モデルはこれらのドメイン固有の特徴に不変でなければならないと論じる。
また、すべてのシナリオにまたがって発生モデルを識別し、実世界の検出課題を反映することにも長けるべきである。
そこで我々は,教師付きコントラスト学習に基づく新しいアプローチを提案する。
本手法は,プロンプトの変動に対するモデルのロバスト性を高めるために設計され,異なるソースLLMの識別に重点を置いている。
提案手法は,「open-ended'」,「`rewriting'」,「`paraphrasing'」,「`llama 2'」,「`chatgpt'」,「`vicuna'」の3つの先進LDMを含む厳密な実験によって評価される。
本結果は,モデル帰属タスクにおけるアプローチの有効性を実証し,多種多様な未知のデータセットにまたがって最先端のパフォーマンスを実現する。
Model attribution for LLM-generated disinformation poses a significant challenge in understanding its origins and mitigating its spread. This task is especially challenging because modern large language models (LLMs) produce disinformation with human-like quality. Additionally, the diversity in prompting methods used to generate disinformation complicates accurate source attribution. These methods introduce domain-specific features that can mask the fundamental characteristics of the models. In this paper, we introduce the concept of model attribution as a domain generalization problem, where each prompting method represents a unique domain. We argue that an effective attribution model must be invariant to these domain-specific features. It should also be proficient in identifying the originating models across all scenarios, reflecting real-world detection challenges. To address this, we introduce a novel approach based on Supervised Contrastive Learning. This method is designed to enhance the model's robustness to variations in prompts and focuses on distinguishing between different source LLMs. We evaluate our model through rigorous experiments involving three common prompting methods: ``open-ended'', ``rewriting'', and ``paraphrasing'', and three advanced LLMs: ``llama 2'', ``chatgpt'', and ``vicuna''. Our results demonstrate the effectiveness of our approach in model attribution tasks, achieving state-of-the-art performance across diverse and unseen datasets. | 翻訳日:2024-08-15 15:28:26 公開日:2024-08-14 |
# 曲面時空における量子場の量子情報の伝送
Transmission of quantum information through quantum fields in curved spacetimes ( http://arxiv.org/abs/2408.00518v2 ) ライセンス: Link先を確認 | Michael Kasprzak, Erickson Tjoa, | (参考訳) 我々は、Unruh-DeWitt検出器形式を用いて、任意の曲線時空における量子容量の理論的最大値を達成することができる、相対論的量子場を介する2つの局所量子ビット系間の相対論的量子通信チャネルを構築する。
代数量子場理論の手法を用いて、場の相関関数と波動方程式の因果プロパゲータの観点から純粋に量子通信チャネルの量子容量を表現する。
したがって、結果として生じる量子チャネル、すなわち量子容量は、明らかに微分同相不変であり、時空の因果構造を尊重し、背景幾何学、位相、および場のヒルベルト空間(準自由)表現の詳細な部分から独立である。
We construct a relativistic quantum communication channel between two localized qubit systems, mediated by a relativistic quantum field, that can achieve the theoretical maximum for the quantum capacity in arbitrary curved spacetimes using the Unruh-DeWitt detector formalism. Using techniques from algebraic quantum field theory, we express the quantum capacity of the quantum communication channel purely in terms of the correlation functions of the field and the causal propagator for the wave equation. Consequently, the resulting quantum channel, and hence the quantum capacity, are by construction manifestly diffeomorphism-invariant, respect the causal structure of spacetime, and are independent of the details of the background geometry, topology, and the choice of Hilbert space (quasifree) representations of the field. | 翻訳日:2024-08-15 15:28:26 公開日:2024-08-14 |
# SentenceVAE: 高速,高精度,コンテキストの長い大規模言語モデルの次文予測を可能にする
SentenceVAE: Enable Next-sentence Prediction for Large Language Models with Faster Speed, Higher Accuracy and Longer Context ( http://arxiv.org/abs/2408.00655v5 ) ライセンス: Link先を確認 | Hongjun An, Yifan Chen, Zhe Sun, Xuelong Li, | (参考訳) 現在の大規模言語モデル (LLM) は、主に推論に次トーケン予測法を用いており、処理速度を著しく損なう。
本稿では,LLMの推論効率を向上させることを目的とした,次世代予測と呼ばれる新しい推論手法を提案する。
本稿では,文中の複数のトークンを1つのトークンに圧縮する文変分自動エンコーダ(文変分自動エンコーダ(文変分自動エンコーダ)と,それを再構成する文変分自動エンコーダ(文変分自動エンコーダ)を提案する。
LLMの入力層と出力層にSentenceVAEを組み込むことで,文ごとの推論手法を用いたSLLM(Sentence-level LLM)を開発する。
さらに、SLLMのSentenceVAEモジュールは、コンテキストを文にセグメント化することで、元の意味内容の完全性を維持することができ、推論速度を向上しながら精度を向上させることができる。
さらに、従来のLLMと比較して、SLLMは等価コンテキスト長よりも少ないトークンを処理し、自己アテンション計算のメモリ要求を著しく低減し、より長いコンテキストの処理を容易にする。
Wanjuanデータセットの大規模な実験により、提案手法は推論速度を204~365%高速化し、パープレキシティ(PPL)を46~75%削減し、メモリオーバーヘッドを86~91%削減できることが明らかになった。
Current large language models (LLMs) primarily utilize next-token prediction method for inference, which significantly impedes their processing speed. In this paper, we introduce a novel inference methodology termed next-sentence prediction, aiming at enhancing the inference efficiency of LLMs. We present Sentence Variational Autoencoder (SentenceVAE), which includes a Sentence Encoder to compress multiple tokens in a sentence into a single token, and a Sentence Decoder to reconstruct it. By integrating SentenceVAE into the input and output layers of LLMs, we develop Sentence-level LLMs (SLLMs) that employ a sentence-by-sentence inference method. In addition, the SentenceVAE module of SLLMs can maintain the integrity of the original semantic content by segmenting the context into sentences, thereby improving accuracy while boosting inference speed. Moreover, compared to previous LLMs, SLLMs process fewer tokens over equivalent context length, significantly reducing memory demands for self-attention computation and facilitating the handling of longer context. Extensive experiments on Wanjuan dataset have revealed that the proposed method can accelerate inference speed by 204~365%, reduce perplexity (PPL) to 46~75% of its original metric, and decrease memory overhead by 86~91% for the equivalent context length, compared to previous token-by-token methods. | 翻訳日:2024-08-15 15:28:26 公開日:2024-08-14 |
# BioRAG: 生物学的質問応答のためのRAG-LLMフレームワーク
BioRAG: A RAG-LLM Framework for Biological Question Reasoning ( http://arxiv.org/abs/2408.01107v2 ) ライセンス: Link先を確認 | Chengrui Wang, Qingqing Long, Meng Xiao, Xunxin Cai, Chengjun Wu, Zhen Meng, Xuezhi Wang, Yuanchun Zhou, | (参考訳) 生命科学研究のための質問答えシステムは、発見の急激なペース、洞察の進化、知識エンティティ間の複雑な相互作用を特徴とし、総合的な知識倉庫と正確な情報検索を維持する上で、ユニークな課題を提示する。
このような問題に対処するために,我々は,Large Language Models (LLMs) フレームワークを備えた新しいレトリーバル拡張生成(RAG)であるBioRAGを紹介した。
このアプローチは、基本的な知識として2200万の科学論文を解析、索引付け、セグメント化することから始まり、続いて、このドメインに適した特別な埋め込みモデルをトレーニングします。
さらに、各クエリとコンテキスト間の複雑な相互関係のモデル化を支援するドメイン固有の知識階層を組み込むことで、ベクトル検索プロセスを強化する。
最新の情報を必要とするクエリに対して、BioRAGは質問を分解し、検索エンジンに組み込まれた反復的な検索プロセスを用いてステップバイステップの推論を行う。
厳密な実験により、我々のモデルは、複数のライフサイエンス質問応答タスクにおいて、微調整 LLM や LLM 、検索エンジン、その他の科学的RAG フレームワークよりも優れていることが示された。
The question-answering system for Life science research, which is characterized by the rapid pace of discovery, evolving insights, and complex interactions among knowledge entities, presents unique challenges in maintaining a comprehensive knowledge warehouse and accurate information retrieval. To address these issues, we introduce BioRAG, a novel Retrieval-Augmented Generation (RAG) with the Large Language Models (LLMs) framework. Our approach starts with parsing, indexing, and segmenting an extensive collection of 22 million scientific papers as the basic knowledge, followed by training a specialized embedding model tailored to this domain. Additionally, we enhance the vector retrieval process by incorporating a domain-specific knowledge hierarchy, which aids in modeling the intricate interrelationships among each query and context. For queries requiring the most current information, BioRAG deconstructs the question and employs an iterative retrieval process incorporated with the search engine for step-by-step reasoning. Rigorous experiments have demonstrated that our model outperforms fine-tuned LLM, LLM with search engines, and other scientific RAG frameworks across multiple life science question-answering tasks. | 翻訳日:2024-08-15 15:28:26 公開日:2024-08-14 |
# 運動野を用いたボリューム医用画像のロバストカーブ検出
Robust Curve Detection in Volumetric Medical Imaging via Attraction Field ( http://arxiv.org/abs/2408.01159v2 ) ライセンス: Link先を確認 | Farukh Yaushev, Daria Nogina, Valentin Samokhin, Mariya Dugova, Ekaterina Petrash, Dmitry Sevryukov, Mikhail Belyaev, Maxim Pisov, | (参考訳) 身体部分の幾何学を理解することは、正確な診断に不可欠である。
カーブは解剖学的構造を効果的に記述し、心血管疾患、呼吸障害、骨格疾患に関連する医療画像の分野で広く用いられている。
従来の曲線検出手法は、しばしばタスク固有のものであり、ドメイン固有の特徴に大きく依存し、適用範囲を制限している。
本稿では, 物体の向き, 形状, 位置に関する事前の知識を必要としない非分岐曲線の検出手法を提案する。
提案手法は,(1)サブピクセル精度を提供するアトラクション場,(2)関心領域を制限し,所望の曲線から外れたアウトリーチを本質的に排除するクローズネスマップをニューラルネットワークで予測する。
各種形態の異なるいくつかの臨床的タスクに対して曲線検出器を試験し,既存の手法を超越した印象的なサブピクセルレベルの精度を達成し,その汎用性と堅牢性を強調した。
さらに、この分野でさらなる進歩をサポートするために、大動脈中心線とマスクのプライベートアノテーションを提供し、将来の研究のベンチマークとして機能する。
データセットはhttps://github.com/neuro-ml/curve-detectionで見ることができる。
Understanding body part geometry is crucial for precise medical diagnostics. Curves effectively describe anatomical structures and are widely used in medical imaging applications related to cardiovascular, respiratory, and skeletal diseases. Traditional curve detection methods are often task-specific, relying heavily on domain-specific features, limiting their broader applicability. This paper introduces a novel approach for detecting non-branching curves, which does not require prior knowledge of the object's orientation, shape, or position. Our method uses neural networks to predict (1) an attraction field, which offers subpixel accuracy, and (2) a closeness map, which limits the region of interest and essentially eliminates outliers far from the desired curve. We tested our curve detector on several clinically relevant tasks with diverse morphologies and achieved impressive subpixel-level accuracy results that surpass existing methods, highlighting its versatility and robustness. Additionally, to support further advancements in this field, we provide our private annotations of aortic centerlines and masks, which can serve as a benchmark for future research. The dataset can be found at https://github.com/neuro-ml/curve-detection. | 翻訳日:2024-08-15 15:28:26 公開日:2024-08-14 |
# 基礎モデルの翻訳と臨床統合のための倫理的で信頼できるバイオメディカルAIエコシステムの構築
Building an Ethical and Trustworthy Biomedical AI Ecosystem for the Translational and Clinical Integration of Foundational Models ( http://arxiv.org/abs/2408.01431v2 ) ライセンス: Link先を確認 | Simha Sankar Baradwaj, Destiny Gilliland, Jack Rincon, Henning Hermjakob, Yu Yan, Irsyad Adam, Gwyneth Lemaster, Dean Wang, Karol Watson, Alex Bui, Wei Wang, Peipei Ping, | (参考訳) 基礎モデル(FM)は、マルチモーダルなバイオメディカルデータの表現とコンテキスト化能力によって、バイオメディカルAIエコシステムにおいて注目を集めている。
これらの能力により、FMは、生物医学的推論、仮説生成、複雑な画像データの解釈など、様々なタスクに有用なツールとなる。
本稿では,倫理的かつ信頼性の高いバイオメディカルAIエコシステムの構築に関わる,ユニークな課題について論じる。
我々は、これらの課題に効果的に対処するために、バイオメディカルAIパイプライン全体を通して実装可能な戦略を検討し、これらのFMが臨床的および翻訳的な設定に責任を持って翻訳されることを保証する。
さらに、ロバストな規制を確保するだけでなく、すべての利害関係者の利益、特にこれらの臨床および翻訳アプリケーションに影響を及ぼす関係者の利益が適切に表現されることを保証するキースチュワードシップと共同設計原則の重要性を強調します。
我々は、バイオメディカルなAIコミュニティがこれらのモデルに責任を負い、効果的に活用することを目指している。
このエキサイティングなフロンティアを旅する中で、倫理的スチュワードシップ、共同設計、そして責任ある翻訳に対する我々の集団的なコミットメントは、FMの進化が患者のケアと医療的意思決定を真に強化し、最終的にはより公平で信頼性の高いバイオメディカルAIエコシステムへとつながることを保証するのに役立ちます。
Foundational Models (FMs) are gaining increasing attention in the biomedical AI ecosystem due to their ability to represent and contextualize multimodal biomedical data. These capabilities make FMs a valuable tool for a variety of tasks, including biomedical reasoning, hypothesis generation, and interpreting complex imaging data. In this review paper, we address the unique challenges associated with establishing an ethical and trustworthy biomedical AI ecosystem, with a particular focus on the development of FMs and their downstream applications. We explore strategies that can be implemented throughout the biomedical AI pipeline to effectively tackle these challenges, ensuring that these FMs are translated responsibly into clinical and translational settings. Additionally, we emphasize the importance of key stewardship and co-design principles that not only ensure robust regulation but also guarantee that the interests of all stakeholders, especially those involved in or affected by these clinical and translational applications are adequately represented. We aim to empower the biomedical AI community to harness these models responsibly and effectively. As we navigate this exciting frontier, our collective commitment to ethical stewardship, co-design, and responsible translation will be instrumental in ensuring that the evolution of FMs truly enhances patient care and medical decision making, ultimately leading to a more equitable and trustworthy biomedical AI ecosystem. | 翻訳日:2024-08-15 15:28:26 公開日:2024-08-14 |
# 音楽における感情と一般音の同時学習
Joint Learning of Emotions in Music and Generalized Sounds ( http://arxiv.org/abs/2408.02009v2 ) ライセンス: Link先を確認 | Federico Simonetta, Francesca Certo, Stavros Ntalampiras, | (参考訳) 本研究では、一般化された音と音楽が共通の感情空間を共有できるかどうかを判断し、覚醒的・無効性の観点から感情の予測を改善することを目的とする。
マルチドメイン学習手法として複数のデータセットを提案する。
我々のアプローチは、一般的な音と音楽の両方を特徴付ける特徴を包含する共通空間を作ることである。
これを実現するために、IADS-EとPMEmoという2つの公開データセットを標準化された実験プロトコルに従って利用した。
我々は、スペクトル、エネルギー、発声のキーパラメータを含む、オーディオ構造の様々な側面を捉える様々な特徴を取り入れた。
その後、異種モデルアーキテクチャを活用し、共通特徴空間で共同学習を行った。
興味深いことに、このシナジスティックなスキームは、音と音楽の感情の予測において最先端の手法よりも優れています。
提案された実験パイプラインの完全なレプリケーションを可能にするコードはhttps://github.com/LIMUNIMI/MusicSoundEmotions.comで公開されている。
In this study, we aim to determine if generalized sounds and music can share a common emotional space, improving predictions of emotion in terms of arousal and valence. We propose the use of multiple datasets as a multi-domain learning technique. Our approach involves creating a common space encompassing features that characterize both generalized sounds and music, as they can evoke emotions in a similar manner. To achieve this, we utilized two publicly available datasets, namely IADS-E and PMEmo, following a standardized experimental protocol. We employed a wide variety of features that capture diverse aspects of the audio structure including key parameters of spectrum, energy, and voicing. Subsequently, we performed joint learning on the common feature space, leveraging heterogeneous model architectures. Interestingly, this synergistic scheme outperforms the state-of-the-art in both sound and music emotion prediction. The code enabling full replication of the presented experimental pipeline is available at https://github.com/LIMUNIMI/MusicSoundEmotions. | 翻訳日:2024-08-15 15:28:26 公開日:2024-08-14 |
# 価値に基づく合理化は社会体験を改善する:マルチエージェントシミュレーションによる研究
Value-Based Rationales Improve Social Experience: A Multiagent Simulation Study ( http://arxiv.org/abs/2408.02117v2 ) ライセンス: Link先を確認 | Sz-Ting Tzeng, Nirav Ajmeri, Munindar P. Singh, | (参考訳) 意思決定に価値を取り入れたエージェントを実現するためのフレームワークであるExannaを提案する。
Exannaagentは、行動に対する合理性を提供し、他者が提供する合理性を評価する際に、自分自身と他者の価値を考える。
マルチエージェント・シミュレーションにより,意思決定や合理性,特に規範決定行動においては,(1)紛争解決度の向上,(2)社会経験の向上,(3)プライバシーの向上,(4)柔軟性の向上が示される。
We propose Exanna, a framework to realize agents that incorporate values in decision making. An Exannaagent considers the values of itself and others when providing rationales for its actions and evaluating the rationales provided by others. Via multiagent simulation, we demonstrate that considering values in decision making and producing rationales, especially for norm-deviating actions, leads to (1) higher conflict resolution, (2) better social experience, (3) higher privacy, and (4) higher flexibility. | 翻訳日:2024-08-15 15:28:26 公開日:2024-08-14 |
# RECE: 大規模シーケンスレコメンダにおけるクロスエントロピー損失の低減
RECE: Reduced Cross-Entropy Loss for Large-Catalogue Sequential Recommenders ( http://arxiv.org/abs/2408.02354v3 ) ライセンス: Link先を確認 | Danil Gusak, Gleb Mezentsev, Ivan Oseledets, Evgeny Frolov, | (参考訳) スケーラビリティは現代のレコメンデータシステムにおいて大きな課題です。
シーケンシャルなレコメンデーションでは、完全なクロスエントロピー(CE)損失は最先端のレコメンデーション品質を達成するが、大量のアイテムカタログを持つ過剰なGPUメモリを消費し、実用性を制限する。
本稿では,GPUの局所性に敏感なハッシュ型アルゴリズムを用いて,新たなRECE(Reduced Cross-Entropy)ロスを提案する。
RECEは、完全なCE損失の最先端性能を享受しながら、メモリ消費を大幅に削減する。
さまざまなデータセットの実験結果から、RECEはCE損失のパフォーマンス指標を維持したり、超えたりしながら、既存の手法に比べて最大12倍のピークメモリ使用率のトレーニングを削減している。
このアプローチは、他のドメインにおける大規模アプリケーションに対する新たな可能性を開く。
Scalability is a major challenge in modern recommender systems. In sequential recommendations, full Cross-Entropy (CE) loss achieves state-of-the-art recommendation quality but consumes excessive GPU memory with large item catalogs, limiting its practicality. Using a GPU-efficient locality-sensitive hashing-like algorithm for approximating large tensor of logits, this paper introduces a novel RECE (REduced Cross-Entropy) loss. RECE significantly reduces memory consumption while allowing one to enjoy the state-of-the-art performance of full CE loss. Experimental results on various datasets show that RECE cuts training peak memory usage by up to 12 times compared to existing methods while retaining or exceeding performance metrics of CE loss. The approach also opens up new possibilities for large-scale applications in other domains. | 翻訳日:2024-08-15 15:18:29 公開日:2024-08-14 |
# 多部系における最小濃度の強い非局所集合
Strongest nonlocal sets with minimum cardinality in multipartite systems ( http://arxiv.org/abs/2408.02894v2 ) ライセンス: Link先を確認 | Hong-Run Li, Hui-Juan Zuo, Fei Shi, Shao-Ming Fei, | (参考訳) 状態判別に基づく量子非局所性は、直交状態の集合のグローバルな性質を記述し、量子暗号プロトコルにおける幅広い応用を持つ。
強い非局所性は、最近多部量子系において提示された量子非局所性の最も強い形式である: 直交多部量子状態の集合が最強非局所性であるなら、すべての分割のサブシステムにおける唯一の直交保存局所測定が自明である。
この研究により、$\mathbb{C}^{d_{1}}\otimes \mathbb{C}^{d_{2}}\otimes \mathbb{C}^{d_{3}}$$(2\leq d_{1}\leq d_{2}\leq d_{3})$ of size $d_2d_3+1$。
すると、$d^3+1$ 四部系において最も強い非局所集合が得られ、$\mathbb{C}^d\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}$ $(d\geq2)$ および$d_{2}d_{3}d_{4}+1 の直交状態が $\mathbb{C}^{d_{2}}\otimes \mathbb{C}^{d_{2}}\otimes \mathbb{C}^{d_{3}}\otimes \mathbb{C}^{d_{4}}$ $(2\leq d_{1}\leq d_{2}\leq d_{3}\leq d_{4}$) となる。
驚いたことに、上記の構成のすべての要素の数は、最近予想された下界に完全に到達し、$\mathbb{C}^{d}\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}$ of [\href{https://doi.org/10.1103/PhysRevA.108.062407}{Physにおける最強非局所集合のサイズを減少させる。
A \textbf{108}, 062407 (2023)}] by $d-2$.
特に、4粒子系における最強非局所集合の一般的な最適構成は、初めて完全に解決され、状態判別の観点から量子非局所性の理論をさらに強調する。
Quantum nonlocality based on state discrimination describes the global property of the set of orthogonal states and has a wide range of applications in quantum cryptographic protocols. Strongest nonlocality is the strongest form of quantum nonlocality recently presented in multipartite quantum systems: a set of orthogonal multipartite quantum states is strongest nonlocal if the only orthogonality-preserving local measurements on the subsystems in every bipartition are trivial. In this work, we found a construction of strongest nonlocal sets in $\mathbb{C}^{d_{1}}\otimes \mathbb{C}^{d_{2}}\otimes \mathbb{C}^{d_{3}}$ $(2\leq d_{1}\leq d_{2}\leq d_{3})$ of size $d_2d_3+1$ without stopper states. Then we obtain the strongest nonlocal sets in four-partite systems with $d^3+1$ orthogonal states in $\mathbb{C}^d\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}$ $(d\geq2)$ and $d_{2}d_{3}d_{4}+1$ orthogonal states in $\mathbb{C}^{d_{1}}\otimes \mathbb{C}^{d_{2}}\otimes \mathbb{C}^{d_{3}}\otimes \mathbb{C}^{d_{4}}$ $(2\leq d_{1}\leq d_{2}\leq d_{3}\leq d_{4})$. Surprisingly, the number of the elements in all above constructions perfectly reaches the recent conjectured lower bound and reduces the size of the strongest nonlocal set in $\mathbb{C}^{d}\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}\otimes \mathbb{C}^{d}$ of [\href{https://doi.org/10.1103/PhysRevA.108.062407}{Phys. Rev. A \textbf{108}, 062407 (2023)}] by $d-2$. In particular, the general optimal construction of the strongest nonlocal set in four-partite system is completely solved for the first time, which further highlights the theory of quantum nonlocality from the perspective of state discrimination. | 翻訳日:2024-08-15 15:18:29 公開日:2024-08-14 |
# 注意を使わずに学ぶこと
Learning to Learn without Forgetting using Attention ( http://arxiv.org/abs/2408.03219v2 ) ライセンス: Link先を確認 | Anna Vettoruzzo, Joaquin Vanschoren, Mohamed-Rafik Bouguelia, Thorsteinn Rögnvaldsson, | (参考訳) 継続学習(きゅうがく、Continuous Learning, CL)とは、学習経験を維持しつつ、新たな知識を付加することで、時間とともに継続的に学習する能力である。
この概念は人間の学習に固有のものだが、現在の機械学習手法は、以前に学んだパターンを上書きし、過去の経験を忘れやすい。
その代わり、モデルパラメータを選択的に慎重に更新し、不要な忘れを回避しつつ、学習済みのパターンを最適活用して将来の学習を加速する。
手作りの効果的な更新機構は難しいため,変圧器をベースとした最適化手法のメタラーニングを提案する。
このメタ学習オプティマイザは、タスクのストリーム全体にわたるモデルパラメータ間の複雑な関係を学習するために注意を払っており、これまで遭遇したタスクの破滅的な忘れを防ぎながら、現在のタスクに対して効果的な重み更新を生成するように設計されている。
SplitMNIST、RotatedMNIST、SplitCIFAR-100といったベンチマークデータセットの評価では、ラベル付きデータの小さなセットであっても、前と後の両方で提案されたアプローチの有効性を確認し、継続学習フレームワークにメタ学習オプティマイザを統合するというメリットを強調している。
Continual learning (CL) refers to the ability to continually learn over time by accommodating new knowledge while retaining previously learned experience. While this concept is inherent in human learning, current machine learning methods are highly prone to overwrite previously learned patterns and thus forget past experience. Instead, model parameters should be updated selectively and carefully, avoiding unnecessary forgetting while optimally leveraging previously learned patterns to accelerate future learning. Since hand-crafting effective update mechanisms is difficult, we propose meta-learning a transformer-based optimizer to enhance CL. This meta-learned optimizer uses attention to learn the complex relationships between model parameters across a stream of tasks, and is designed to generate effective weight updates for the current task while preventing catastrophic forgetting on previously encountered tasks. Evaluations on benchmark datasets like SplitMNIST, RotatedMNIST, and SplitCIFAR-100 affirm the efficacy of the proposed approach in terms of both forward and backward transfer, even on small sets of labeled data, highlighting the advantages of integrating a meta-learned optimizer within the continual learning framework. | 翻訳日:2024-08-15 15:18:29 公開日:2024-08-14 |
# PsyDI: 心理測定のためのパーソナライズド・プログレッシブ・イン・ディープス・チャットボットを目指して
PsyDI: Towards a Personalized and Progressively In-depth Chatbot for Psychological Measurements ( http://arxiv.org/abs/2408.03337v2 ) ライセンス: Link先を確認 | Xueyan Li, Xinyan Chen, Yazhe Niu, Shuai Hu, Yu Liu, | (参考訳) 心理学の分野では、標準化された尺度のような伝統的な評価手法は、静的な性質、パーソナライゼーションの欠如、エンゲージメントの減少など、しばしば批判されるが、包括的カウンセリング評価はしばしばアクセスできない。
心理的特徴の定量化の複雑さにより、これらの方法はさらに制限される。
大規模言語モデル(LLM)の進歩にもかかわらず、その多くは依然として単一ラウンドの質問と回答のインタラクションに依存している。
このギャップを埋めるために,Mers-Briggs Type Indicator (MBTI) フレームワークを応用した,心理学的測定のために設計された,パーソナライズされた,段階的に詳細なチャットボットである PsyDI を紹介した。
PsyDIは、ユーザ関連のマルチモーダル情報を活用し、カスタマイズされたマルチターンインタラクションを実行し、パーソナライズされ、容易にアクセス可能な測定結果を提供しながら、正確なMBTI型判定を保証する。
本研究では,これらの特徴に関連付けられたプロキシ変数のランク付けを学習し,MBTI測定のためのロバストスコアモデルを構築することを含む,新たなトレーニングパラダイムを導入する。
スコアモデルにより、PsyDIは統合された推定コンテキスト内でマルチターン相互作用を通じて包括的かつ正確な測定を行うことができる。
様々な実験を通じて、スコアモデルとPsyDIパイプラインの有効性を検証し、心理測定の一般的な枠組みとして機能する可能性を示した。
さらに、PsyDIのオンライン展開は、3000以上の訪問でかなりのユーザエンゲージメントを獲得し、MBTIタイプに注釈付けされた多数のマルチターンダイアログが収集され、さらなる研究が進められている。
In the field of psychology, traditional assessment methods, such as standardized scales, are frequently critiqued for their static nature, lack of personalization, and reduced participant engagement, while comprehensive counseling evaluations are often inaccessible. The complexity of quantifying psychological traits further limits these methods. Despite advances with large language models (LLMs), many still depend on single-round Question-and-Answer interactions. To bridge this gap, we introduce PsyDI, a personalized and progressively in-depth chatbot designed for psychological measurements, exemplified by its application in the Myers-Briggs Type Indicator (MBTI) framework. PsyDI leverages user-related multi-modal information and engages in customized, multi-turn interactions to provide personalized, easily accessible measurements, while ensuring precise MBTI type determination. To address the challenge of unquantifiable psychological traits, we introduce a novel training paradigm that involves learning the ranking of proxy variables associated with these traits, culminating in a robust score model for MBTI measurements. The score model enables PsyDI to conduct comprehensive and precise measurements through multi-turn interactions within a unified estimation context. Through various experiments, we validate the efficacy of both the score model and the PsyDI pipeline, demonstrating its potential to serve as a general framework for psychological measurements. Furthermore, the online deployment of PsyDI has garnered substantial user engagement, with over 3,000 visits, resulting in the collection of numerous multi-turn dialogues annotated with MBTI types, which facilitates further research. | 翻訳日:2024-08-15 15:18:29 公開日:2024-08-14 |
# トリーアテンション:GPUクラスタ上での長期アテンションのためのトポロジ対応デコーディング
Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters ( http://arxiv.org/abs/2408.04093v3 ) ライセンス: Link先を確認 | Vasudev Shyam, Jonathan Pilault, Emily Shepperd, Quentin Anthony, Beren Millidge, | (参考訳) 自己注意(Self-attention)は、現代のトランスフォーマーアーキテクチャの中核的な数学的操作であり、シーケンス長の2次複雑さのため、重要な計算ボトルネックでもある。
本研究では、勾配が自己アテンションブロックを計算するスカラーエネルギー関数を導出し、したがって自己アテンションの理論的基盤を解明し、その操作のベイズ的解釈を提供し、ホップフィールドネットワークのようなエネルギーベースモデルと密接に関連付ける。
我々の定式化により,木伐採により,配列軸を横断する還元を効率的に並列に計算できることが判明した。
複数のGPU間でのアテンション計算を並列化するアルゴリズムにより、Ring Attentionのような代替手法よりもデバイス間デコーディングを漸近的に(実験では最大8倍)高速に行うことができ、通信量も大幅に少なくなり、ピークメモリも2倍少ない。
私たちのコードは、以下に公開されています。
Self-attention is the core mathematical operation of modern transformer architectures and is also a significant computational bottleneck due to its quadratic complexity in the sequence length. In this work, we derive the scalar energy function whose gradient computes the self-attention block, thus elucidating the theoretical underpinnings of self-attention, providing a Bayesian interpretation of the operation and linking it closely with energy-based models such as Hopfield Networks. Our formulation reveals that the reduction across the sequence axis can be efficiently computed in parallel through a tree reduction. Our algorithm, for parallelizing attention computation across multiple GPUs enables cross-device decoding to be performed asymptotically faster (up to 8x faster in our experiments) than alternative approaches such as Ring Attention, while also requiring significantly less communication volume and incurring 2x less peak memory. Our code is publicly available here: \url{https://github.com/Zyphra/tree_attention}. | 翻訳日:2024-08-15 15:18:29 公開日:2024-08-14 |
# ComKD-CLIP:コントラスト言語画像前処理モデルのための包括的知識蒸留
ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language-Image Pre-traning Model ( http://arxiv.org/abs/2408.04145v2 ) ライセンス: Link先を確認 | Yifan Chen, Xiaozhen Qiao, Zhe Sun, Xuelong Li, | (参考訳) コントラスト言語-画像事前学習(CLIP)モデルは、コントラスト学習技術を通じて画像とテキスト間の意味情報の統合に優れる。
様々なマルチモーダルタスクにおいて顕著なパフォーマンスを達成した。
しかし、大規模なCLIPモデルの展開はリソース制限された環境では妨げられ、小さなモデルは実用アプリケーションに必要なパフォーマンスベンチマークに適合しないことが多い。
本稿では,ComKD-CLIP: ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language- Image Pre-traning Modelを提案する。
ComKD-CLIPは、画像特徴アライメント(IFAlign)と教育意識(EduAttention)の2つの主要なメカニズムで構成されている。
IFAlignは、教師モデルで抽出した画像特徴と教師モデルで抽出した画像特徴とを密に一致させ、教師のイメージ特徴抽出に関する知識を学習できるようにする。
EduAttentionは、教師モデルによって抽出されたテキスト特徴と学生モデルによって抽出された画像特徴との間の相互関係を探索し、生徒モデルが教師モデルがテキストイメージの特徴をどのように統合するかを学習できるようにする。
さらに、ComKD-CLIPは、教師モデルのテキスト画像特徴融合結果を活用することにより、IFAlignとEduAttentionから抽出した知識を洗練し、生徒モデルが教師の知識を正確に吸収することを保証する。
11個のデータセットに対して行われた大規模な実験は,提案手法の優位性を実証した。
Contrastive Language-Image Pre-training (CLIP) model excels in integrating semantic information between images and text through contrastive learning techniques. It has achieved remarkable performance in various multimodal tasks. However, the deployment of large CLIP models is hindered in resource-limited environments, while smaller models frequently fail to meet the performance benchmarks required for practical applications. In this paper, we propose a novel approach, ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language-Image Pre-traning Model, which aims to comprehensively distill the knowledge from a large teacher CLIP model into a smaller student model, ensuring comparable performance with significantly reduced parameters. ComKD-CLIP is composed of two key mechanisms: Image Feature Alignment (IFAlign) and Educational Attention (EduAttention). IFAlign makes the image features extracted by the student model closely match those extracted by the teacher model, enabling the student to learn teacher's knowledge of extracting image features. EduAttention explores the cross-relationships between text features extracted by the teacher model and image features extracted by the student model, enabling the student model to learn how the teacher model integrates text-image features. In addition, ComKD-CLIP can refine the knowledge distilled from IFAlign and EduAttention by leveraging the text-image feature fusion results of the teacher model, ensuring the student model accurately absorbs the teacher's knowledge. Extensive experiments conducted on 11 datasets have demonstrated the superiority of the proposed method. | 翻訳日:2024-08-15 15:18:29 公開日:2024-08-14 |
# セマンティックセグメンテーション訓練中の画像増強による逆気象下での自律走行車両知覚の促進
Enhancing Autonomous Vehicle Perception in Adverse Weather through Image Augmentation during Semantic Segmentation Training ( http://arxiv.org/abs/2408.07239v1 ) ライセンス: Link先を確認 | Ethan Kou, Noah Curran, | (参考訳) 自動運転車のナビゲーションとローカライゼーションには、ロバストな認識が不可欠だ。
セマンティックセグメンテーションのような視覚処理タスクは、異なる天候条件と異なる時間帯で機能するべきである。
セマンティックセグメンテーション(Semantic segmentation)とは,各ピクセルがクラスに割り当てられる部分である。
セグメンテーションモデルのトレーニングには大量のデータが必要であり、セグメンテーションデータのラベル付けプロセスは特に面倒である。
加えて、多くの大きなデータセットには、晴れた天候で撮影された画像のみが含まれる。
これは、澄んだ気象データのみにモデルを訓練することは、霧や雨のような悪天候下での性能を妨げるためである。
トレーニング中の画像増強(ランダム雨、霧、明るさなど)を適用することで、さまざまな気象条件にドメインが適応できるという仮説を立てる。
我々は、CARLAという3次元現実的な自動運転車シミュレータを用いて、10の異なる町から29のクラスからなる晴天時の1200枚の画像を収集した((2))。
また,無作為な気象効果の1200枚の画像も収集した。
セマンティックセグメンテーションを行うために,エンコーダデコーダUNetモデルを訓練した。
降雨条件下でのセグメンテーションは有意に改善した(p < 0.001)。
しかし、天気データに基づいてトレーニングされたモデルは、晴れた日を除いて、すべての条件でトレーニングされたデータよりも著しく損失が小さい。
これは、ドメイン適応アプローチを改善する余地があることを示しています。
今後の作業では、より多くの種類の拡張をテストし、CARLAの代わりに実際のイメージを使用する予定だ。
理想的には、拡張モデルは気象モデルの性能を満たすか超える。
Robust perception is crucial in autonomous vehicle navigation and localization. Visual processing tasks, like semantic segmentation, should work in varying weather conditions and during different times of day. Semantic segmentation is where each pixel is assigned a class, which is useful for locating overall features (1). Training a segmentation model requires large amounts of data, and the labeling process for segmentation data is especially tedious. Additionally, many large datasets include only images taken in clear weather. This is a problem because training a model exclusively on clear weather data hinders performance in adverse weather conditions like fog or rain. We hypothesize that given a dataset of only clear days images, applying image augmentation (such as random rain, fog, and brightness) during training allows for domain adaptation to diverse weather conditions. We used CARLA, a 3D realistic autonomous vehicle simulator, to collect 1200 images in clear weather composed of 29 classes from 10 different towns (2). We also collected 1200 images of random weather effects. We trained encoder-decoder UNet models to perform semantic segmentation. Applying augmentations significantly improved segmentation under weathered night conditions (p < 0.001). However, models trained on weather data have significantly lower losses than those trained on augmented data in all conditions except for clear days. This shows there is room for improvement in the domain adaptation approach. Future work should test more types of augmentations and also use real-life images instead of CARLA. Ideally, the augmented model meets or exceeds the performance of the weather model. | 翻訳日:2024-08-15 14:35:46 公開日:2024-08-14 |
# コンピュータビジョンタスクにおけるデータセットプルーニングのための知覚スコアの活用
Leveraging Perceptual Scores for Dataset Pruning in Computer Vision Tasks ( http://arxiv.org/abs/2408.07243v1 ) ライセンス: Link先を確認 | Raghavendra Singh, | (参考訳) 本稿では,画像分類とセマンティックセグメンテーションタスクにおいて,コアセット選択に使用する画像のスコアを提案する。
スコアは画像のエントロピーであり、圧縮されたバージョンのビット単位のピクセルによって近似される。
したがって、スコアは画像に固有のものであり、監督や訓練を必要としない。
すべての画像が圧縮されたフォーマットに格納されているため、計算は非常に簡単で、容易に利用できる。
私たちのスコアの選択の背後にある動機は、文献で提案されている他のほとんどのスコアは計算に費用がかかることです。
さらに重要なのは、画像の知覚的複雑さを捉えるスコアが欲しいということです。
エントロピーはそのような尺度の一つであり、クラッタを持つ画像はより高いエントロピーを持つ傾向がある。
しかし、例えば、低エントロピーのアイコン画像のみをサンプリングすると、バイアス学習や、現在のディープラーニングモデルによるテスト性能の全体的な低下につながる。
バイアスを軽減するために、選択したサンプルの空間的多様性を高めるグラフベースの手法を用いる。
この単純なスコアは、特にセマンティックセグメンテーションタスクにおいて良い結果をもたらすことを示す。
In this paper we propose a score of an image to use for coreset selection in image classification and semantic segmentation tasks. The score is the entropy of an image as approximated by the bits-per-pixel of its compressed version. Thus the score is intrinsic to an image and does not require supervision or training. It is very simple to compute and readily available as all images are stored in a compressed format. The motivation behind our choice of score is that most other scores proposed in literature are expensive to compute. More importantly, we want a score that captures the perceptual complexity of an image. Entropy is one such measure, images with clutter tend to have a higher entropy. However sampling only low entropy iconic images, for example, leads to biased learning and an overall decrease in test performance with current deep learning models. To mitigate the bias we use a graph based method that increases the spatial diversity of the selected samples. We show that this simple score yields good results, particularly for semantic segmentation tasks. | 翻訳日:2024-08-15 14:35:46 公開日:2024-08-14 |
# ディープラーニングと低コスト手作り記述子に基づく手話認識
Sign language recognition based on deep learning and low-cost handcrafted descriptors ( http://arxiv.org/abs/2408.07244v1 ) ライセンス: Link先を確認 | Alvaro Leandro Cavalcante Carneiro, Denis Henrique Pinheiro Salvadeo, Lucas de Brito Silva, | (参考訳) 近年、ディープラーニング技術は手話認識システムの開発に使われており、世界中の何百万人もの聴覚障害者のためのコミュニケーションツールとして機能している可能性がある。
しかし、そのようなシステムを作る際には固有の課題がある。
まず、単語間のあいまいさを避けるために、ジェスチャー実行においてできるだけ多くの言語パラメータを考慮することが重要である。
さらに、生成したソリューションの現実的な採用を促進するためには、高い計算要求を課す非常に複雑なディープラーニングアーキテクチャと同様に、選択した技術がリアルであることを保証することが不可欠である。
そこで本研究では,低コストなセンサと技術を用いた手話認識システムを提案する。
この目的のために、オブジェクト検出モデルは、インタプリタの顔と手の検出、画像の最も関連性の高い領域へのフォーカスの確保、および分類器のセマンティック値の高い入力の生成に特化して訓練された。
さらに,有界箱の位置から得られる空間情報を活用して手の位置や動きを表す特徴を求める手法を導入し,手話の識別を向上した。
その結果,AUTSLデータセットの精度は7.96%向上し,700万未満のパラメータを追加し,さらに10ミリ秒未満の推論時間を発生させることができた。
これらの結果は,計算コストと精度のバランスを保ち,実用的な手話認識アプリケーションとして有望なアプローチであることを示す。
In recent years, deep learning techniques have been used to develop sign language recognition systems, potentially serving as a communication tool for millions of hearing-impaired individuals worldwide. However, there are inherent challenges in creating such systems. Firstly, it is important to consider as many linguistic parameters as possible in gesture execution to avoid ambiguity between words. Moreover, to facilitate the real-world adoption of the created solution, it is essential to ensure that the chosen technology is realistic, avoiding expensive, intrusive, or low-mobility sensors, as well as very complex deep learning architectures that impose high computational requirements. Based on this, our work aims to propose an efficient sign language recognition system that utilizes low-cost sensors and techniques. To this end, an object detection model was trained specifically for detecting the interpreter's face and hands, ensuring focus on the most relevant regions of the image and generating inputs with higher semantic value for the classifier. Additionally, we introduced a novel approach to obtain features representing hand location and movement by leveraging spatial information derived from centroid positions of bounding boxes, thereby enhancing sign discrimination. The results demonstrate the efficiency of our handcrafted features, increasing accuracy by 7.96% on the AUTSL dataset, while adding fewer than 700 thousand parameters and incurring less than 10 milliseconds of additional inference time. These findings highlight the potential of our technique to strike a favorable balance between computational cost and accuracy, making it a promising approach for practical sign language recognition applications. | 翻訳日:2024-08-15 14:35:46 公開日:2024-08-14 |
# 政策最適化のためのq-exponential family
q-exponential family for policy optimization ( http://arxiv.org/abs/2408.07245v1 ) ライセンス: Link先を確認 | Lingwei Zhu, Haseeb Shah, Han Wang, Martha White, | (参考訳) ポリシー最適化手法は単純かつトラクタブルなポリシー関数(通常は連続作用空間のガウス函数)の恩恵を受ける。
本稿では、より広範な政策ファミリーについて検討する:$q$-exponential family。
このポリシーのファミリはフレキシブルで、ヘビーテールのポリシー(q>1$)とライトテールのポリシー(q<1$)の両方を仕様化できる。
本稿では,オンライン問題とオフライン問題の両方で実行されるアクター批判アルゴリズムに対する$q$-exponential Policyの相互作用について検討する。
ヘビーテールの政策は一般的により効果的であり、常にガウシアンを改善することができる。
特に,Tsallis Advantage Weighted Actor-Critic の高額な$q$-Gaussian は,オフラインベンチマーク問題において常に良好に動作する。
私たちのコードは \url{https://github.com/lingweizhu/qexp} で利用可能です。
Policy optimization methods benefit from a simple and tractable policy functional, usually the Gaussian for continuous action spaces. In this paper, we consider a broader policy family that remains tractable: the $q$-exponential family. This family of policies is flexible, allowing the specification of both heavy-tailed policies ($q>1$) and light-tailed policies ($q<1$). This paper examines the interplay between $q$-exponential policies for several actor-critic algorithms conducted on both online and offline problems. We find that heavy-tailed policies are more effective in general and can consistently improve on Gaussian. In particular, we find the Student's t-distribution to be more stable than the Gaussian across settings and that a heavy-tailed $q$-Gaussian for Tsallis Advantage Weighted Actor-Critic consistently performs well in offline benchmark problems. Our code is available at \url{https://github.com/lingweizhu/qexp}. | 翻訳日:2024-08-15 14:35:46 公開日:2024-08-14 |
# 観察と理解 - ChemVLMによる化学知識によるブリッジングビジョン
Seeing and Understanding: Bridging Vision with Chemical Knowledge Via ChemVLM ( http://arxiv.org/abs/2408.07246v1 ) ライセンス: Link先を確認 | Junxian Li, Di Zhang, Xunzhi Wang, Zeying Hao, Jingdi Lei, Qian Tan, Cai Zhou, Wei Liu, Weiyun Wang, Zhe Chen, Wenhai Wang, Wei Li, Shufei Zhang, Mao Su, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou, | (参考訳) 本稿では,ケミカルイメージ理解とテキスト解析の不整合性に対処するために,化学分野に特化した初のオープンソースマルチモーダル大規模言語モデルであるChemVLMを提案する。
VIT-MLP-LLMアーキテクチャを基盤として,ChemLLM-20Bを基礎となる大規模モデルとして活用し,化学テキスト知識の理解と活用に堅牢な能力を備えたモデルを構築した。
また、強力な画像エンコーダとしてInternVIT-6Bを用いる。
分子,反応公式,化学試験データなど,化学領域からの高品質なデータを収集し,バイリンガル・マルチモーダル質問応答データセットにコンパイルした。
複数のオープンソースベンチマークと3つのカスタム評価セットで,本モデルの性能を検証した。
実験結果から,6つのタスクのうち5つのタスクにおいて,本モデルが優れた性能を達成できることが確認された。
私たちのモデルはhttps://huggingface.co/AI4Chem/ChemVLM-26Bで確認できます。
In this technical report, we propose ChemVLM, the first open-source multimodal large language model dedicated to the fields of chemistry, designed to address the incompatibility between chemical image understanding and text analysis. Built upon the VIT-MLP-LLM architecture, we leverage ChemLLM-20B as the foundational large model, endowing our model with robust capabilities in understanding and utilizing chemical text knowledge. Additionally, we employ InternVIT-6B as a powerful image encoder. We have curated high-quality data from the chemical domain, including molecules, reaction formulas, and chemistry examination data, and compiled these into a bilingual multimodal question-answering dataset. We test the performance of our model on multiple open-source benchmarks and three custom evaluation sets. Experimental results demonstrate that our model achieves excellent performance, securing state-of-the-art results in five out of six involved tasks. Our model can be found at https://huggingface.co/AI4Chem/ChemVLM-26B. | 翻訳日:2024-08-15 14:35:46 公開日:2024-08-14 |
# BiLSTMとアテンションに基づくリアル無線信号の変調分類
BiLSTM and Attention-Based Modulation Classification of Realistic Wireless Signals ( http://arxiv.org/abs/2408.07247v1 ) ライセンス: Link先を確認 | Rohit Udaiwal, Nayan Baishya, Yash Gupta, B. R. Manoj, | (参考訳) 本研究は、無線信号の堅牢な自動変調分類(AMC)のために、QSLAネットワークと呼ばれる新規で効率的なクアッドストリームBiLSTM-Attentionネットワークを提案する。
提案モデルでは,無線信号の複数の表現をネットワークへの入力として利用し,信号の空間的特徴と時間的特徴をそれぞれ処理するための畳み込み層とBiLSTM層を組み合わせて特徴抽出を行う。
BiLSTM層の後、重要な時間的特徴を強調するために注意層が使用される。
最近のリアルなRML22データセットの実験結果は、提案モデルの性能が99%の精度で向上したことを示している。
提案手法の有効性を示すため, 分類精度, 計算複雑性, メモリ使用量, トレーニング時間の観点から他のベンチマークモデルと比較した。
This work proposes a novel and efficient quadstream BiLSTM-Attention network, abbreviated as QSLA network, for robust automatic modulation classification (AMC) of wireless signals. The proposed model exploits multiple representations of the wireless signal as inputs to the network and the feature extraction process combines convolutional and BiLSTM layers for processing the spatial and temporal features of the signal, respectively. An attention layer is used after the BiLSTM layer to emphasize the important temporal features. The experimental results on the recent and realistic RML22 dataset demonstrate the superior performance of the proposed model with an accuracy up to around 99%. The model is compared with other benchmark models in the literature in terms of classification accuracy, computational complexity, memory usage, and training time to show the effectiveness of our proposed approach. | 翻訳日:2024-08-15 14:25:40 公開日:2024-08-14 |
# GQE: 拡張テキストビデオ検索のための汎用クエリ拡張
GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval ( http://arxiv.org/abs/2408.07249v1 ) ライセンス: Link先を確認 | Zechen Bai, Tianjun Xiao, Tong He, Pichao Wang, Zheng Zhang, Thomas Brox, Mike Zheng Shou, | (参考訳) ウェブビデオコンテンツの領域が急速に拡大する中で、テキスト・ビデオ検索の課題はますます重要になってきており、テキストクエリとビデオデータのセマンティックなギャップを埋めている。
本稿では,テキストとビデオ間の不均衡に対処し,テキスト・ビデオ検索システムの有効性を高めるために,新たなデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
複雑なクロスモーダルなインタラクションメカニズムの設計に重点を置く従来のモデル中心の手法とは異なり、GQEはトレーニングとテストフェーズの両方でビデオに関連するテキストクエリを拡張することを目的としている。
ビデオを短いクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを包括的なシーン記述で強化し、データ不均衡のギャップを効果的に埋める。
さらに,検索においてGQEはLarge Language Models(LLM)を用いてクエリの多様なセットとクエリ選択モジュールを生成し,関連性と多様性に基づいてこれらのクエリをフィルタリングし,計算オーバーヘッドを低減しながら検索性能を最適化する。
コントリビューションには、情報不均衡課題の詳細な検証、ビデオテキストデータセットのクエリ拡張に対する新しいアプローチ、計算コストを増大させることなく検索精度を向上させるクエリ選択戦略の導入が含まれる。
GQEは、MSR-VTT、MSVD、LSMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現し、データ中心の観点からテキストビデオ検索に対処するの有効性を実証している。
In the rapidly expanding domain of web video content, the task of text-video retrieval has become increasingly critical, bridging the semantic gap between textual queries and video data. This paper introduces a novel data-centric approach, Generalized Query Expansion (GQE), to address the inherent information imbalance between text and video, enhancing the effectiveness of text-video retrieval systems. Unlike traditional model-centric methods that focus on designing intricate cross-modal interaction mechanisms, GQE aims to expand the text queries associated with videos both during training and testing phases. By adaptively segmenting videos into short clips and employing zero-shot captioning, GQE enriches the training dataset with comprehensive scene descriptions, effectively bridging the data imbalance gap. Furthermore, during retrieval, GQE utilizes Large Language Models (LLM) to generate a diverse set of queries and a query selection module to filter these queries based on relevance and diversity, thus optimizing retrieval performance while reducing computational overhead. Our contributions include a detailed examination of the information imbalance challenge, a novel approach to query expansion in video-text datasets, and the introduction of a query selection strategy that enhances retrieval accuracy without increasing computational costs. GQE achieves state-of-the-art performance on several benchmarks, including MSR-VTT, MSVD, LSMDC, and VATEX, demonstrating the effectiveness of addressing text-video retrieval from a data-centric perspective. | 翻訳日:2024-08-15 14:25:40 公開日:2024-08-14 |
# 不均衡分類のための全周神経崩壊
All-around Neural Collapse for Imbalanced Classification ( http://arxiv.org/abs/2408.07253v1 ) ライセンス: Link先を確認 | Enhao Zhang, Chaohua Li, Chuanxing Geng, Songcan Chen, | (参考訳) Neural Collapse (NC) は、個々のアクティベーション(機能)、クラス平均、および分類器(重み)ベクトルが \textit{optimal} のクラス間セパビリティに到達することができるエレガントな幾何学的構造を提供する。
一度不均衡な分類に移行すると、これらのNCの最適構造は悪名高い \textit{minority collapse} によって容易に破壊される。
応答として、既存のワークは、典型的には分類器を最適化することでNCを回復するために努力する。
しかし、このスクイージング現象は分類子ベクトルに限らず、類平均とともに起こることが判明した。
これにより、特徴手段が圧縮されたままであり、NCにおける固有の \textit{self-duality} の違反(つまり、クラス平均と分類器ベクトルは相互に収束する)につながるため、分類器面のみにNCを再構成することは無駄になり、個々のアクティベーションが対応するクラス平均に向かって不満足に崩壊する。
これらのジレンマを揺るがすために、個々のアクティベーション、クラス平均、分類器ベクトルを含む複数の側面にわたるNCを包括的に復元することを目的とした、統一された \textbf{All}-around \textbf{N}eural \textbf{C}ollapse framework (AllNC) を提案する。
我々は、その効果を徹底的に分析し、バランスの取れた設定と不均衡な設定の両方で最先端を達成する複数のベンチマークデータセットで検証する。
Neural Collapse (NC) presents an elegant geometric structure that enables individual activations (features), class means and classifier (weights) vectors to reach \textit{optimal} inter-class separability during the terminal phase of training on a \textit{balanced} dataset. Once shifted to imbalanced classification, such an optimal structure of NC can be readily destroyed by the notorious \textit{minority collapse}, where the classifier vectors corresponding to the minority classes are squeezed. In response, existing works endeavor to recover NC typically by optimizing classifiers. However, we discover that this squeezing phenomenon is not only confined to classifier vectors but also occurs with class means. Consequently, reconstructing NC solely at the classifier aspect may be futile, as the feature means remain compressed, leading to the violation of inherent \textit{self-duality} in NC (\textit{i.e.}, class means and classifier vectors converge mutually) and incidentally, resulting in an unsatisfactory collapse of individual activations towards the corresponding class means. To shake off these dilemmas, we present a unified \textbf{All}-around \textbf{N}eural \textbf{C}ollapse framework (AllNC), aiming to comprehensively restore NC across multiple aspects including individual activations, class means and classifier vectors. We thoroughly analyze its effectiveness and verify on multiple benchmark datasets that it achieves state-of-the-art in both balanced and imbalanced settings. | 翻訳日:2024-08-15 14:25:40 公開日:2024-08-14 |
# 平均場ランゲヴィンダイナミクスを用いたニューラルネットワークを用いたマルチインデックスモデルの学習
Learning Multi-Index Models with Neural Networks via Mean-Field Langevin Dynamics ( http://arxiv.org/abs/2408.07254v1 ) ライセンス: Link先を確認 | Alireza Mousavi-Hosseini, Denny Wu, Murat A. Erdogdu, | (参考訳) 平均場ランゲヴィンアルゴリズムを用いて学習した2層ニューラルネットワークを用いて,高次元のマルチインデックスモデルを学習する問題について検討する。
ニューラルネットワークの潜伏低次元構造への適応性を利用して,サンプルと計算の複雑さを制御できる実効次元 $d_{\mathrm{eff}}$ を特徴付ける。
データがそのような構造を示すとき、$d_{\mathrm{eff}}$は周囲の次元よりもかなり小さい。
我々は,最近の勾配に基づく特徴学習の分析で現れる情報や生成指数の制限を回避して,サンプルの複雑さが$d_{\mathrm{eff}}$でほぼ直線的に増加することを証明した。
一方、計算複雑性は必然的に、最悪のシナリオでは$d_{\mathrm{eff}}$で指数関数的に増加する。
計算複雑性を改善することにより動機付けされ、超球面のような正のリッチ曲率を持つコンパクト多様体上の重みが制約されるような環境で、平均場ランゲヴィンアルゴリズムの多項式時間収束に向けた第一歩を踏み出す。
そこで、多項式時間収束が達成可能な仮定について検討する一方、ユークリッド設定における同様の仮定は指数時間複雑性をもたらす。
We study the problem of learning multi-index models in high-dimensions using a two-layer neural network trained with the mean-field Langevin algorithm. Under mild distributional assumptions on the data, we characterize the effective dimension $d_{\mathrm{eff}}$ that controls both sample and computational complexity by utilizing the adaptivity of neural networks to latent low-dimensional structures. When the data exhibit such a structure, $d_{\mathrm{eff}}$ can be significantly smaller than the ambient dimension. We prove that the sample complexity grows almost linearly with $d_{\mathrm{eff}}$, bypassing the limitations of the information and generative exponents that appeared in recent analyses of gradient-based feature learning. On the other hand, the computational complexity may inevitably grow exponentially with $d_{\mathrm{eff}}$ in the worst-case scenario. Motivated by improving computational complexity, we take the first steps towards polynomial time convergence of the mean-field Langevin algorithm by investigating a setting where the weights are constrained to be on a compact manifold with positive Ricci curvature, such as the hypersphere. There, we study assumptions under which polynomial time convergence is achievable, whereas similar assumptions in the Euclidean setting lead to exponential time complexity. | 翻訳日:2024-08-15 14:25:40 公開日:2024-08-14 |
# GRIF-DM:拡散モデルを用いたリッチ印象フォントの生成
GRIF-DM: Generation of Rich Impression Fonts using Diffusion Models ( http://arxiv.org/abs/2408.07259v1 ) ライセンス: Link先を確認 | Lei Kang, Fei Yang, Kai Wang, Mohamed Ali Souibgui, Lluis Gomez, Alicia Fornés, Ernest Valveny, Dimosthenis Karatzas, | (参考訳) フォントは創造的努力、デザインプロセス、芸術作品に不可欠なものである。
フォントの適切な選択は、高い表現性で、アートワークや広告を著しく向上させることができる。
多様なフォントデザインがオンラインで利用可能であるにもかかわらず、従来の検索ベースのフォント選択手法は世代ベースのアプローチに取って代わられつつある。
これらの新しい方法は柔軟性を向上し、特定のユーザの好みに適応し、ユニークなスタイルの印象をキャプチャする。
しかし、GAN(Generative Adversarial Networks)に基づく現在の印象フォント技術は、生成中のガイダンスを提供するために、複数の補助的な損失を利用する必要がある。
さらに、これらの手法は印象関連キーワードの融合に重み付け和を用いるのが一般的である。
これにより、より印象的なキーワードを追加することでジェネリックベクターが生まれ、最終的には詳細生成能力が欠如する。
本稿では,特定の印象を鮮明に具現化したフォントを生成するための拡散法である‘ourmethod’を導入する。
このモジュールは文字と印象キーワードの特徴を独立に処理するが、相乗的に両方の情報の効果的な統合を保証する。
MyFontsデータセットを用いて行った実験結果から,本手法はユーザ仕様に忠実に適合した,現実的で活気があり,高忠実なフォントを生成することができることを確認した。
これは、ユーザ主導設計の幅広い要求を調節することで、フォント生成に革命をもたらすアプローチの可能性を確認します。
我々のコードは \url{https://github.com/leitro/GRIF-DM} で公開されている。
Fonts are integral to creative endeavors, design processes, and artistic productions. The appropriate selection of a font can significantly enhance artwork and endow advertisements with a higher level of expressivity. Despite the availability of numerous diverse font designs online, traditional retrieval-based methods for font selection are increasingly being supplanted by generation-based approaches. These newer methods offer enhanced flexibility, catering to specific user preferences and capturing unique stylistic impressions. However, current impression font techniques based on Generative Adversarial Networks (GANs) necessitate the utilization of multiple auxiliary losses to provide guidance during generation. Furthermore, these methods commonly employ weighted summation for the fusion of impression-related keywords. This leads to generic vectors with the addition of more impression keywords, ultimately lacking in detail generation capacity. In this paper, we introduce a diffusion-based method, termed \ourmethod, to generate fonts that vividly embody specific impressions, utilizing an input consisting of a single letter and a set of descriptive impression keywords. The core innovation of \ourmethod lies in the development of dual cross-attention modules, which process the characteristics of the letters and impression keywords independently but synergistically, ensuring effective integration of both types of information. Our experimental results, conducted on the MyFonts dataset, affirm that this method is capable of producing realistic, vibrant, and high-fidelity fonts that are closely aligned with user specifications. This confirms the potential of our approach to revolutionize font generation by accommodating a broad spectrum of user-driven design requirements. Our code is publicly available at \url{https://github.com/leitro/GRIF-DM}. | 翻訳日:2024-08-15 14:25:40 公開日:2024-08-14 |
# ポリプセグメンテーションにおけるアンサンブルアーキテクチャ
Ensemble architecture in polyp segmentation ( http://arxiv.org/abs/2408.07262v1 ) ライセンス: Link先を確認 | Hao-Yun Hsu, Yi-Ching Cheng, Guan-Hua Huang, | (参考訳) 本研究では,意味的セグメンテーションのアーキテクチャを再検討し,ポリプセグメンテーションに優れたモデルを評価する。
最適な結果を得るために、異なるモデルの利点を利用する統合フレームワークを導入します。
より具体的には、予測のための畳み込みモデルと変圧器モデルから学習した特徴を融合させ、モデル性能を向上させるためのアンサンブル手法として、このアプローチを考察する。
ポリプセグメンテーション実験により,提案アーキテクチャは他のトップモデルを超え,学習能力とレジリエンスの向上が示された。
コードはhttps://github.com/HuangDLab/EnFormer.comで入手できる。
In this research, we revisit the architecture of semantic segmentation and evaluate the models excelling in polyp segmentation. We introduce an integrated framework that harnesses the advantages of different models to attain an optimal outcome. More specifically, we fuse the learned features from convolutional and transformer models for prediction, and we view this approach as an ensemble technique to enhance model performance. Our experiments on polyp segmentation reveal that the proposed architecture surpasses other top models, exhibiting improved learning capacity and resilience. The code is available at https://github.com/HuangDLab/EnFormer. | 翻訳日:2024-08-15 14:25:40 公開日:2024-08-14 |
# オープンワールドにおけるワイヤレストラフィックによるモバイルアプリとアクションの盗聴
Eavesdropping Mobile Apps and Actions through Wireless Traffic in the Open World ( http://arxiv.org/abs/2408.07263v1 ) ライセンス: Link先を確認 | Xiaoguang Yang, Yong Huang, Junli Guo, Dalong Zhang, Qingxian Wang, | (参考訳) スマートフォンとWiFiネットワークは、人々の生活に多くのポジティブな変化をもたらしているが、それらは、暗号化されたトラフィックからユーザーの個人情報を推測するトラフィック分析攻撃の影響を受けやすい。
既存のトラフィック分析攻撃は主にTCP/IP層をターゲットにしているか、あるいはすべての可能なアプリやアクションがモデルトレーニングに関与しているクローズドワールドの仮定に限定されている。
これらの制限を克服するために,オープンワールド環境におけるWiFi MAC層トラフィックに基づいてモバイルアプリとアプリ内アクションを推論するMACPrintを提案する。
MACPrintはまず、暗号化された無線トラフィックのリッチな統計的特徴とコンテキスト的特徴を抽出する。
次に,自動ラベリングアプリであるラベルレコーダを開発し,トレーニングフェーズにおけるラベリング精度を向上させる。
最後に、OpenMax関数を備えたTCLモデルは、オープン世界のモバイルアプリとアクションを正確に認識するために使用される。
システムを評価するために,40以上のアプリから125時間以上のMAC層トラフィックデータを収集した。
実験の結果,MAC-Printはクローズドワールド設定におけるアプリや動作の認識において96%以上の精度を達成でき,オープンワールド設定では86%以上の精度が得られることがわかった。
While smartphones and WiFi networks are bringing many positive changes to people's lives, they are susceptible to traffic analysis attacks, which infer user's private information from encrypted traffic. Existing traffic analysis attacks mainly target TCP/IP layers or are limited to the closed-world assumption, where all possible apps and actions have been involved in the model training. To overcome these limitations, we propose MACPrint, a novel system that infers mobile apps and in-app actions based on WiFi MAC layer traffic in the open-world setting. MACPrint first extracts rich statistical and contextual features of encrypted wireless traffic. Then, we develop Label Recorder, an automatic traffic labeling app, to improve labeling accuracy in the training phase. Finally, TCN models with OpenMax functions are used to recognize mobile apps and actions in the open world accurately. To evaluate our system, we collect MAC layer traffic data over 125 hours from more than 40 apps. The experimental results show that MAC-Print can achieve an accuracy of over 96% for recognizing apps and actions in the closed-world setting, and obtains an accuracy of over 86% in the open-world setting. | 翻訳日:2024-08-15 14:25:39 公開日:2024-08-14 |
# 糖尿病網膜症診断のための病変認識ネットワーク
Lesion-aware network for diabetic retinopathy diagnosis ( http://arxiv.org/abs/2408.07264v1 ) ライセンス: Link先を確認 | Xue Xia, Kun Zhan, Yuming Fang, Wenhui Jiang, Fei Shen, | (参考訳) 深層学習は、自動糖尿病網膜症(DR)の診断を後押しし、眼科医が早期の疾患検出に大いに役立ち、最終的に失明につながる疾患の悪化を防ぐのに寄与した。
畳み込みニューラルネットワーク(CNN)による病変の同定やセグメンテーションがオートDRスクリーニングに有効であることが証明されている。
1)小さな病変に敏感でDR非関連な干渉に対して頑健な特徴を抽出し,(2)極端に不均衡なデータ分布下で病変位置を復元するためにエンコードされた情報を利用・再利用する。
そこで本研究では,病変認識ネットワークと呼ばれる注意機構を備えたCNNベースのDR診断ネットワークを提案する。
具体的には,より深い層にまたがるノイズ様病変領域を捕捉する病変認識モジュール (LAM) と,浅層から深層までの機能融合を支援する特徴保存モジュール (FPM) を設計する。
その後、DR関連の情報利用のために、LAMとFPMをCNNデコーダに埋め込むことで、病変認識ネットワーク(LANet)を構築する。
提案したLANetは、分類層を追加してDRスクリーニングネットワークにさらに拡張される。
画素レベルのアノテーションを用いた3つの公開ファンドデータセットの実験により,DR検定では0.967の曲線の領域で主流の手法を上回り,全体の平均精度を3つのデータセットで7.6%,2.1%,1.2%向上させた。
さらに、アブレーション研究は提案したサブモジュールの有効性を検証する。
Deep learning brought boosts to auto diabetic retinopathy (DR) diagnosis, thus, greatly helping ophthalmologists for early disease detection, which contributes to preventing disease deterioration that may eventually lead to blindness. It has been proved that convolutional neural network (CNN)-aided lesion identifying or segmentation benefits auto DR screening. The key to fine-grained lesion tasks mainly lies in: (1) extracting features being both sensitive to tiny lesions and robust against DR-irrelevant interference, and (2) exploiting and re-using encoded information to restore lesion locations under extremely imbalanced data distribution. To this end, we propose a CNN-based DR diagnosis network with attention mechanism involved, termed lesion-aware network, to better capture lesion information from imbalanced data. Specifically, we design the lesion-aware module (LAM) to capture noise-like lesion areas across deeper layers, and the feature-preserve module (FPM) to assist shallow-to-deep feature fusion. Afterward, the proposed lesion-aware network (LANet) is constructed by embedding the LAM and FPM into the CNN decoders for DR-related information utilization. The proposed LANet is then further extended to a DR screening network by adding a classification layer. Through experiments on three public fundus datasets with pixel-level annotations, our method outperforms the mainstream methods with an area under curve of 0.967 in DR screening, and increases the overall average precision by 7.6%, 2.1%, and 1.2% in lesion segmentation on three datasets. Besides, the ablation study validates the effectiveness of the proposed sub-modules. | 翻訳日:2024-08-15 14:25:39 公開日:2024-08-14 |
# x+y フロケ符号:経路積分法における位相量子計算の簡単な例
The x+y Floquet code: A simple example for topological quantum computation in the path integral approach ( http://arxiv.org/abs/2408.07265v1 ) ライセンス: Link先を確認 | Andreas Bauer, | (参考訳) 位相的量子誤差補正に対する経路積分的アプローチは、時空におけるフォールトトレラント回路の構築と解析に統一的な方法を提供する。
本研究は, トリック符号位相に対する新しい耐故障性回路を構築し, パス積分を$(x,y,z)$3次格子上に, $x+y$方向にトラバースすることで, その実用性と汎用性を実証する。
回路は正方形格子上の量子ビットに作用し、水平近傍の$CX$ゲートと垂直近傍の$ZZ$と$XX$の測定を交互に行う。
フォールトトレラント回路に境界とコーナーを組み込む方法と、位相的に保護された論理ゲートを実行する方法を示す。
特定の例として、フォールトトレラントな論理的ZZ$の測定を、フォールトトレラント回路の2つの空間的矩形ブロックの格子手術によって行うことを検討する。
The path-integral approach to topological quantum error correction provides a unified way to construct and analyze fault-tolerant circuits in spacetime. In this work, we demonstrate its utility and versatility at hand of a simple example: We construct a new fault-tolerant circuit for the toric-code phase by traversing its path integral on a $(x,y,z)$ cubic lattice in the $x+y$ direction. The circuit acts on qubits on a square lattice, and alternates between horizontal nearest-neighbor $CX$ gates and vertical nearest-neighbor $ZZ$ and $XX$ measurements. We show how to incorporate boundaries and corners into the fault-tolerant circuit and how to perform topologically protected logic gates. As a specific example, we consider performing a fault-tolerant logical $ZZ$ measurement via lattice surgery of two spatial rectangular blocks of our fault-tolerant circuit. | 翻訳日:2024-08-15 14:25:39 公開日:2024-08-14 |
# 幾何学的モデリングによる単眼内視鏡的シーンのスケール認識深度推定
Enhanced Scale-aware Depth Estimation for Monocular Endoscopic Scenes with Geometric Modeling ( http://arxiv.org/abs/2408.07266v1 ) ライセンス: Link先を確認 | Ruofeng Wei, Bin Li, Kai Chen, Yiyao Ma, Yunhui Liu, Qi Dou, | (参考訳) スケール対応単眼深度推定は,コンピュータ支援型内視鏡ナビゲーションにおいて重要な課題となる。
しかし、幾何学的先行を考慮しない既存の深度推定法は、単眼内視鏡によるトレーニングから絶対スケールを学ぶのに苦労している。
さらに、従来の手法では組織や楽器の境界の詳細を正確に推定することが困難である。
本稿では,幾何学的モデリングによる深度推定を行うモノクロ画像のみを用いた拡張スケールアウェアフレームワークを提案することにより,これらの課題に対処する。
具体的には、まず、単分子深度推定の品質を高めるための多分解能深度融合戦略を提案する。
画像のみの幾何学的プリミティブ(つまり、楽器の境界と先端)に基づく幾何学的幾何学的手法により、内視鏡的シーンにおける楽器の3次元ポーズを再現する。
その後、手術器具の3Dポーズにより、相対深度マップのスケール回復が可能となる。
スケール係数と相対深度推定を結合することにより、単眼内視鏡シーンのスケール認識深度を推定できる。
室内内視鏡手術ビデオとシミュレーションデータを用いたパイプラインの評価を行った。
その結果,本手法は幾何学的モデリングにより絶対スケールを学習し,モノクロシーンのスケール認識深度を正確に推定できることが示唆された。
Scale-aware monocular depth estimation poses a significant challenge in computer-aided endoscopic navigation. However, existing depth estimation methods that do not consider the geometric priors struggle to learn the absolute scale from training with monocular endoscopic sequences. Additionally, conventional methods face difficulties in accurately estimating details on tissue and instruments boundaries. In this paper, we tackle these problems by proposing a novel enhanced scale-aware framework that only uses monocular images with geometric modeling for depth estimation. Specifically, we first propose a multi-resolution depth fusion strategy to enhance the quality of monocular depth estimation. To recover the precise scale between relative depth and real-world values, we further calculate the 3D poses of instruments in the endoscopic scenes by algebraic geometry based on the image-only geometric primitives (i.e., boundaries and tip of instruments). Afterwards, the 3D poses of surgical instruments enable the scale recovery of relative depth maps. By coupling scale factors and relative depth estimation, the scale-aware depth of the monocular endoscopic scenes can be estimated. We evaluate the pipeline on in-house endoscopic surgery videos and simulated data. The results demonstrate that our method can learn the absolute scale with geometric modeling and accurately estimate scale-aware depth for monocular scenes. | 翻訳日:2024-08-15 14:25:39 公開日:2024-08-14 |
# ヘッセン平均化と適応型勾配サンプリング法による高速非拘束最適化
Fast Unconstrained Optimization via Hessian Averaging and Adaptive Gradient Sampling Methods ( http://arxiv.org/abs/2408.07268v1 ) ライセンス: Link先を確認 | Thomas O'Leary-Roseberry, Raghu Bollapragada, | (参考訳) 我々はヘシアン・アブラッシングに基づくサブサンプルニュートン法による有限サム関数と期待対象関数の最小化を検討する。
これらの手法は勾配の不等式を許容し、ヘッセン近似の固定コストを持つ。
最近の研究 (Na et al 2023) では、ヘッセン平均化は高速な$\mathcal{O}\left(\sqrt {\tfrac {\log k}{k}}\right)$局所超線型収束を高い確率で実現し、固定された点当たりのヘッセンコストを維持できることを示した。
しかし、これらの手法は勾配の正確さと強い凸性を必要とし、実際的な実装に挑戦する。
この問題に対処するために、標準条件に基づく適応サンプリング戦略を通した勾配不完全性を許容するヘッセン平均法を考える。
有限サム問題に対して、強い凸関数と非凸関数に対する大域線型収束率と部分線型収束率をもたらす決定論的サンプリング手法を用いる。
この設定では、改善された決定論的局所超線型収束率$\mathcal{O}\left(\tfrac{1}{k}\right)$を導出することができる。
%予測されるリスク予測問題に対して、確率的サンプリング手法を用い、強い凸関数と非凸関数に対する大域線型および部分線型率を導出し、$\mathcal{O}\left(\tfrac{1}{\sqrt{k}}\right)$局所超線型収束率を期待して導出する。
本稿では,従来の確率的結果とは異なる新しい解析手法を提案する。
さらに, 対角近似を用いて, これらの手法のスケーラブルかつ効率的なバリエーションを提案し, 大規模問題に対する新しい対角平均ニュートン法(Dan)を導出する。
数値計算の結果,ヘッセン平均化は収束の助けとなるだけでなく,CIFAR100 の ResNets を用いた分類のような難解な問題に対して,最先端の性能をもたらす可能性が示唆された。
We consider minimizing finite-sum and expectation objective functions via Hessian-averaging based subsampled Newton methods. These methods allow for gradient inexactness and have fixed per-iteration Hessian approximation costs. The recent work (Na et al. 2023) demonstrated that Hessian averaging can be utilized to achieve fast $\mathcal{O}\left(\sqrt{\tfrac{\log k}{k}}\right)$ local superlinear convergence for strongly convex functions in high probability, while maintaining fixed per-iteration Hessian costs. These methods, however, require gradient exactness and strong convexity, which poses challenges for their practical implementation. To address this concern we consider Hessian-averaged methods that allow gradient inexactness via norm condition based adaptive-sampling strategies. For the finite-sum problem we utilize deterministic sampling techniques which lead to global linear and sublinear convergence rates for strongly convex and nonconvex functions respectively. In this setting we are able to derive an improved deterministic local superlinear convergence rate of $\mathcal{O}\left(\tfrac{1}{k}\right)$. For the %expected risk expectation problem we utilize stochastic sampling techniques, and derive global linear and sublinear rates for strongly convex and nonconvex functions, as well as a $\mathcal{O}\left(\tfrac{1}{\sqrt{k}}\right)$ local superlinear convergence rate, all in expectation. We present novel analysis techniques that differ from the previous probabilistic results. Additionally, we propose scalable and efficient variations of these methods via diagonal approximations and derive the novel diagonally-averaged Newton (Dan) method for large-scale problems. Our numerical results demonstrate that the Hessian averaging not only helps with convergence, but can lead to state-of-the-art performance on difficult problems such as CIFAR100 classification with ResNets. | 翻訳日:2024-08-15 14:25:39 公開日:2024-08-14 |
# 画像に基づくLeopardシール認識:現在の自動化システムにおけるアプローチと課題
Image-Based Leopard Seal Recognition: Approaches and Challenges in Current Automated Systems ( http://arxiv.org/abs/2408.07269v1 ) ライセンス: Link先を確認 | Jorge Yero Salazar, Pablo Rivas, Renato Borras-Chavez, Sarah Kienle, | (参考訳) 本稿では,機械学習技術の出現を背景として,従来の写真を用いた自然の生息地におけるアザラシ認識の課題と進歩について考察する。
南極の生態系における重要な種であるヒョウアザラシ \emph{Hydrurga leptonyx} を用いて、発見された様々な方法について検討した。
アペックス捕食者として、レオパルドのアザラシは生態系の健康を理解するのに不可欠である。
従来のアザラシのモニタリング方法は、データ収集に必要な労働集約的かつ時間を要するプロセスによって制約されることが多い。
機械学習の出現、特にビジョントランスフォーマーの応用は、種のモニタリングにおける効率性と精度の新しい時代を告げている。
本稿では,デジタル画像における検出,セグメンテーション,認識における最先端のアプローチを活用することで,最先端の手法と写真データによるアザラシの正確な識別に直面する主な課題を取り上げ,現在の景観の合成について述べる。
This paper examines the challenges and advancements in recognizing seals within their natural habitats using conventional photography, underscored by the emergence of machine learning technologies. We used the leopard seal, \emph{Hydrurga leptonyx}, a key species within Antarctic ecosystems, to review the different available methods found. As apex predators, Leopard seals are characterized by their significant ecological role and elusive nature so studying them is crucial to understand the health of their ecosystem. Traditional methods of monitoring seal species are often constrained by the labor-intensive and time-consuming processes required for collecting data, compounded by the limited insights these methods provide. The advent of machine learning, particularly through the application of vision transformers, heralds a new era of efficiency and precision in species monitoring. By leveraging state-of-the-art approaches in detection, segmentation, and recognition within digital imaging, this paper presents a synthesis of the current landscape, highlighting both the cutting-edge methodologies and the predominant challenges faced in accurately identifying seals through photographic data. | 翻訳日:2024-08-15 14:25:39 公開日:2024-08-14 |
# NL2OR:自然言語入力を用いた複雑な操作研究問題の解法
NL2OR: Solve Complex Operations Research Problems Using Natural Language Inputs ( http://arxiv.org/abs/2408.07272v1 ) ライセンス: Link先を確認 | Junxuan Li, Ryan Wickman, Sahil Bhatnagar, Raj Kumar Maity, Arko Mukherjee, | (参考訳) オペレーションリサーチ(OR)は、数学的モデルを使用して意思決定を強化するが、これらのモデルを開発するには専門家の知識が必要であり、時間を要する可能性がある。
自動数学的プログラミング(AMP)はこのプロセスを単純化するために登場したが、既存のシステムには制限がある。
本稿では,Large Language Model (LLM) の最近の進歩を利用して,自然言語を用いて表現された非専門的ユーザクエリからORソリューションを作成し,編集する手法を提案する。
これにより、ドメインの専門知識と問題を定式化する時間を減らすことができる。
本稿では,自然言語入力からOR問題の解を生成するNL2ORというエンドツーエンドパイプラインを提案し,いくつかの重要なOR問題に対して実験結果を共有する。
Operations research (OR) uses mathematical models to enhance decision-making, but developing these models requires expert knowledge and can be time-consuming. Automated mathematical programming (AMP) has emerged to simplify this process, but existing systems have limitations. This paper introduces a novel methodology that uses recent advances in Large Language Model (LLM) to create and edit OR solutions from non-expert user queries expressed using Natural Language. This reduces the need for domain expertise and the time to formulate a problem. The paper presents an end-to-end pipeline, named NL2OR, that generates solutions to OR problems from natural language input, and shares experimental results on several important OR problems. | 翻訳日:2024-08-15 14:25:39 公開日:2024-08-14 |
# 単原子磁石を用いたスピン量子ビットの効率的な駆動
Efficient driving of a spin-qubit using single-atom magnets ( http://arxiv.org/abs/2408.07289v1 ) ライセンス: Link先を確認 | Jose Reina-Gálvez, Hoang-Anh Le, Hong Thi Bui, Soo-hyon Phark, Nicolás Lorente, Christoph Wolf, | (参考訳) 走査トンネル顕微鏡による単一原子レベルでの電子スピン共鳴の実現により、コヒーレント量子センシングと量子状態操作を極大の限界で行う新たな道が開かれた。
これにより、多くの身体を持つハミルトン派と、その複雑な物理的振る舞いの研究が構築できる。
近年、この分野から新しい量子ビットプラットフォームが出現し、単原子磁石からの駆動機構に関する疑問が持ち上がっている。
本研究では, 実験パラメータの最適化に関わる重要な側面に対処しつつ, 近接する単一スピン量子ビットを効率的に駆動するために, 単原子磁石がどのように使用できるかを実証する。
The realization of electron-spin resonance at the single-atom level using scanning tunneling microscopy has opened new avenues for coherent quantum sensing and quantum state manipulation at the ultimate size limit. This allows to build many-body Hamiltonians and the study of their complex physical behavior. Recently, a novel qubit platform has emerged from this field, raising questions about the driving mechanism from single-atom magnets. In this work, we demonstrate how single-atom magnets can be used to drive a nearby single spin qubit efficiently, while also addressing critical aspects related to the optimization of experimental parameters. | 翻訳日:2024-08-15 14:25:39 公開日:2024-08-14 |
# 個人情報抽出と対策による大規模言語モデルの評価
Evaluating Large Language Model based Personal Information Extraction and Countermeasures ( http://arxiv.org/abs/2408.07291v1 ) ライセンス: Link先を確認 | Yupei Liu, Yuqi Jia, Jinyuan Jia, Neil Zhenqiang Gong, | (参考訳) 個人情報(名前、電話番号、メールアドレスなど)を大規模に公開しているプロフィールから自動的に抽出することは、槍のフィッシングを含む他の多くのセキュリティ攻撃の足掛かりとなる。
従来の手法(正規表現、キーワード検索、エンティティ検出など)は、そのような個人情報抽出において限られた成功を収めた。
本研究では,大規模言語モデル(LLM)に基づく個人情報抽出と対策のベンチマークを行う。
本研究の目的は,LSMによる抽出攻撃の枠組み,GPT-4で生成された合成データセットと,手動でラベル付けされた8つの個人情報を含む2つの実世界のデータセットを含む3つのデータセットの収集,emph{prompt Injection}に基づく新たな緩和戦略の導入,LSMベースの攻撃と対策を10LLMと我々の3つのデータセットを用いて体系的にベンチマークすることである。
LLMは、個人プロファイルから様々な個人情報を正確に抽出するために、攻撃者によって誤用され得ること、LLMは、そのような抽出において従来の方法より優れていること、迅速な注射は、そのようなリスクを広範囲に軽減し、従来の対策より優れていること、などである。
コードとデータは以下の通りである。 \url{https://github.com/liu00222/LLM-Based-Personal-Profile-Extraction}。
Automatically extracting personal information--such as name, phone number, and email address--from publicly available profiles at a large scale is a stepstone to many other security attacks including spear phishing. Traditional methods--such as regular expression, keyword search, and entity detection--achieve limited success at such personal information extraction. In this work, we perform a systematic measurement study to benchmark large language model (LLM) based personal information extraction and countermeasures. Towards this goal, we present a framework for LLM-based extraction attacks; collect three datasets including a synthetic dataset generated by GPT-4 and two real-world datasets with manually labeled 8 categories of personal information; introduce a novel mitigation strategy based on \emph{prompt injection}; and systematically benchmark LLM-based attacks and countermeasures using 10 LLMs and our 3 datasets. Our key findings include: LLM can be misused by attackers to accurately extract various personal information from personal profiles; LLM outperforms conventional methods at such extraction; and prompt injection can mitigate such risk to a large extent and outperforms conventional countermeasures. Our code and data are available at: \url{https://github.com/liu00222/LLM-Based-Personal-Profile-Extraction}. | 翻訳日:2024-08-15 14:13:57 公開日:2024-08-14 |
# LiPCoT:言語モデルによる時系列データの自己教師付き学習のための線形予測符号化に基づくトケナイザ
LiPCoT: Linear Predictive Coding based Tokenizer for Self-supervised Learning of Time Series Data via Language Models ( http://arxiv.org/abs/2408.07292v1 ) ライセンス: Link先を確認 | Md Fahim Anjum, | (参考訳) 言語モデルは様々な自然言語処理タスクにおいて顕著な成功を収めた。
しかし、多くの領域において重要なコンポーネントである時系列データへのそれらの適用は、依然として限られている。
本稿では,時系列データを一連のトークンにエンコードし,BERTなどの既存の言語モデルアーキテクチャを用いて時系列の自己教師型学習を可能にする新しいトークンであるLiPCoT(Linear Predictive Coding based Tokenizer for Time series)を提案する。
時系列特徴生成のためにCNNエンコーダに大きく依存する伝統的な時系列トークンとは異なり、LiPCoTは線形予測符号化による確率的モデリングを用いて、データ固有の確率的性質のコンパクトでリッチな表現を提供する時系列の潜在空間を作成する。
さらに、LiPCoTは計算効率が良く、サンプリングレートや長さの異なる時系列データを効果的に処理でき、既存の時系列トークンの共通的な制限を克服できる。
本研究は,パーキンソン病(PD)の分類におけるLiPCoTの有効性を示す。
特に、LiPCoTを用いて、脳波データをトークンの小さな語彙にエンコードし、自己教師付き学習やPD分類の下流タスクにBERTを使用する。
我々は、PD検出のための最先端CNNベースのディープラーニングアーキテクチャに対して、我々のアプローチをベンチマークする。
その結果,自己教師あり学習を用いたBERTモデルは,精度7.1%,リコール2.3%,精度5.5%,AUC4%,F1スコア5%で,自己教師あり学習の可能性を強調した。
我々の研究は、今後の時系列の基礎モデル、特に自己教師型学習に役立ちます。
Language models have achieved remarkable success in various natural language processing tasks. However, their application to time series data, a crucial component in many domains, remains limited. This paper proposes LiPCoT (Linear Predictive Coding based Tokenizer for time series), a novel tokenizer that encodes time series data into a sequence of tokens, enabling self-supervised learning of time series using existing Language model architectures such as BERT. Unlike traditional time series tokenizers that rely heavily on CNN encoder for time series feature generation, LiPCoT employs stochastic modeling through linear predictive coding to create a latent space for time series providing a compact yet rich representation of the inherent stochastic nature of the data. Furthermore, LiPCoT is computationally efficient and can effectively handle time series data with varying sampling rates and lengths, overcoming common limitations of existing time series tokenizers. In this proof-of-concept work, we present the effectiveness of LiPCoT in classifying Parkinson's disease (PD) using an EEG dataset from 46 participants. In particular, we utilize LiPCoT to encode EEG data into a small vocabulary of tokens and then use BERT for self-supervised learning and the downstream task of PD classification. We benchmark our approach against several state-of-the-art CNN-based deep learning architectures for PD detection. Our results reveal that BERT models utilizing self-supervised learning outperformed the best-performing existing method by 7.1% in precision, 2.3% in recall, 5.5% in accuracy, 4% in AUC, and 5% in F1-score highlighting the potential for self-supervised learning even on small datasets. Our work will inform future foundational models for time series, particularly for self-supervised learning. | 翻訳日:2024-08-15 14:13:57 公開日:2024-08-14 |
# ランク付けに基づくハイブリッドトレーニングとマルチモーダルフュージョンによる視覚的質問応答の強化
Enhancing Visual Question Answering through Ranking-Based Hybrid Training and Multimodal Fusion ( http://arxiv.org/abs/2408.07303v1 ) ライセンス: Link先を確認 | Peiyuan Chen, Zecheng Zhang, Yiping Dong, Li Zhou, Han Wang, | (参考訳) VQA(Visual Question Answering)は、画像の内容に基づいた質問に対する正確な回答をシステムに要求する課題である。
現在のVQAモデルは、マルチモーダル情報の捕捉と統合に制限があるため、複雑な問題に悩まされている。
これらの課題に対処するために、ランキングにインスパイアされたハイブリッドトレーニング戦略を活用してVQA性能を向上させるランクVQAモデルを提案する。
Rank VQAモデルは、Faster R-CNNモデルと、事前訓練されたBERTモデルから得られたリッチセマンティックテキスト特徴を用いて抽出された高品質な視覚特徴を統合する。
これらの特徴は、マルチヘッド自己保持機構を用いた高度なマルチモーダル融合技術によって融合される。
さらに、回答の相対ランク付けを最適化するためにランキング学習モジュールが組み込まれ、回答精度が向上する。
ハイブリッドトレーニング戦略は、分類とランキングの損失を組み合わせ、モデルの一般化能力と多様なデータセット間の堅牢性を高める。
実験結果はランクVQAモデルの有効性を示した。
我々のモデルは、VQA v2.0やCOCO-QAを含む標準VQAデータセット上で、精度と平均相反ランク(MRR)の両方において、既存の最先端モデルよりも大幅に優れています。
ランクVQAの優れた性能は、ニュアンスの詳細を理解し、画像とテキストから洗練された推論を行う複雑な問題を扱う能力において明らかである。
本研究は、VQA性能向上におけるランキングベースのハイブリッドトレーニング戦略の有効性を強調し、マルチモーダル学習手法のさらなる研究の基盤となる。
Visual Question Answering (VQA) is a challenging task that requires systems to provide accurate answers to questions based on image content. Current VQA models struggle with complex questions due to limitations in capturing and integrating multimodal information effectively. To address these challenges, we propose the Rank VQA model, which leverages a ranking-inspired hybrid training strategy to enhance VQA performance. The Rank VQA model integrates high-quality visual features extracted using the Faster R-CNN model and rich semantic text features obtained from a pre-trained BERT model. These features are fused through a sophisticated multimodal fusion technique employing multi-head self-attention mechanisms. Additionally, a ranking learning module is incorporated to optimize the relative ranking of answers, thus improving answer accuracy. The hybrid training strategy combines classification and ranking losses, enhancing the model's generalization ability and robustness across diverse datasets. Experimental results demonstrate the effectiveness of the Rank VQA model. Our model significantly outperforms existing state-of-the-art models on standard VQA datasets, including VQA v2.0 and COCO-QA, in terms of both accuracy and Mean Reciprocal Rank (MRR). The superior performance of Rank VQA is evident in its ability to handle complex questions that require understanding nuanced details and making sophisticated inferences from the image and text. This work highlights the effectiveness of a ranking-based hybrid training strategy in improving VQA performance and lays the groundwork for further research in multimodal learning methods. | 翻訳日:2024-08-15 14:13:57 公開日:2024-08-14 |
# RWLEに基づく同型暗号化における最小2要素最適化
At Least Factor-of-Two Optimization for RWLE-Based Homomorphic Encryption ( http://arxiv.org/abs/2408.07304v1 ) ライセンス: Link先を確認 | Jonathan Ly, | (参考訳) 医療や政府サービスなど、機密性の高いデータを扱う最新のアプリケーションの多くは、クラウドプラットフォームへのアウトソース計算である。
このような信頼できない環境では、プライバシーは極めて重要である。
この問題の1つの解決策は、暗号化データの特定の代数的操作をサポートする暗号スキームのファミリーである、同型暗号化(HE)である。
しかし、大きな進歩にもかかわらず、現代のHEスキームの暗号化には、データ集約的なワークロードを妨げるような、非自明な計算オーバーヘッドが伴っている。
これを解決するために、Racheのようなキャッシュ技術を活用することで、セキュリティを維持しながらHEスキームの性能を大幅に向上させることができることが最近の研究で示されている。
残念なことに、Racheはキャッシング手順の時間的複雑さに重要な制限を表示している。
Smucheは、キャッシュ処理のスケーラビリティを同時に改善し、単一のスカラー乗算のみを利用して、暗号化プロセスを一定時間動作に変換するキャッシュ方式である。
それでも、もっと多くのことができる。
本稿では,「Zinc」と呼ぶ暗号化手法を提案する。これは,複数のキャッシュ処理を完全に禁止し,単一のスカラー加算に置き換えて,平文空間に対して一定の時間を要するランダム性を注入する。
このランダムな注入はSmucheと似ており、Racheからの大幅な改善により、セキュリティを損なうことなく、Zincが効率を上げることができる。
提案手法をMicrosoft SEALを用いて実装し,その性能をバニラCKKSと比較する。
Many modern applications that deal with sensitive data, such as healthcare and government services, outsource computation to cloud platforms. In such untrusted environments, privacy is of vital importance. One solution to this problem is homomorphic encryption (HE), a family of cryptographic schemes that support certain algebraic operations on encrypted data without the need for decryption. However, despite major advancements, encryption in modern HE schemes still comes with a non-trivial computational overhead that can hamper data-intensive workloads. To resolve this, recent research has shown that leveraging caching techniques, such as Rache, can significantly enhance the performance of HE schemes while maintaining security. Rache unfortunately displays a key limitation in the time complexity of its caching procedure, which scales with the size of the plaintext space. Smuche is another caching scheme that simultaneously improves the scalability of the caching procedure and turns the encryption process into a constant-time operation, utilizing only a single scalar multiplication. Even still, more can be done. In this paper, we present an encryption method we call ``Zinc" which entirely forgoes the multiple caching process, replacing it with a single scalar addition, and then injecting randomness that takes constant time with respect to the plaintext space. This injection of randomness is similar to Smuche, and a great improvement from Rache, allowing Zinc to achieve efficiency without compromising security. We implement the scheme using Microsoft SEAL and compare its performance to vanilla CKKS. | 翻訳日:2024-08-15 14:13:57 公開日:2024-08-14 |
# ε非感受性操作コストによるセンサ観測からのオフライン学習
Learning Decisions Offline from Censored Observations with ε-insensitive Operational Costs ( http://arxiv.org/abs/2408.07305v1 ) ライセンス: Link先を確認 | Minxia Chen, Ke Fu, Teng Huang, Miao Bai, | (参考訳) 多くの重要な管理上の決定は検閲された観察に基づいてなされる。
検閲を適切に扱わずに決定を下すと、結果は劣る。
本研究では、特徴データを含むオフラインデータセットと、興味のある変数の検閲履歴データによるデータ駆動決定問題について、検閲指標を使わずに検討する。
基礎となるディストリビューションを仮定せずに、オフラインのデータ駆動方式で、観測されていない検閲に対処するために、不感な運用コストを設計し、活用します。
本稿では,ニュースベンダ問題に対する不感な運用コストのカスタマイズを実演し,線形回帰(LR)モデルとニューラルネットワーク(NN)を含む2つの代表的なMLモデルをトレーニングするために,そのようなコストを使用する。
我々は、正規化のないカスタムLRモデル(LR-{\epsilon}NVC)と正規化(LR-{\epsilon}NVC-R)の厳密な一般化バウンダリと、確率勾配勾配で訓練されたカスタムNN(NN-{\epsilon}NVC)の高確率一般化バウンダリを導出した。
理論結果は, LR-{\epsilon}NVC, LR-{\epsilon}NVC-R, NN-{\epsilon}NVCの安定性と学習性を明らかにする。
我々は、LR-{\epsilon}NVC-RとNN-{\epsilon}NVCを、推定解法(EAS)と統合推定最適化(IEO)の2つの既存手法と比較するために、広範な数値実験を行った。
その結果, LR-{\epsilon}NVC-R とNN-{\epsilon}NVC は EAS と IEO のどちらよりも優れており, 既存の2つのアプローチの最低コストに比べて最大14.40% と 12.21% のコスト削減が可能であった。
さらに、LR-{\epsilon}NVC-R'sとNN-{\epsilon}NVCの位数は、基礎となる分布が知られている場合、最適解に統計的にかなり近い。
Many important managerial decisions are made based on censored observations. Making decisions without adequately handling the censoring leads to inferior outcomes. We investigate the data-driven decision-making problem with an offline dataset containing the feature data and the censored historical data of the variable of interest without the censoring indicators. Without assuming the underlying distribution, we design and leverage {\epsilon}-insensitive operational costs to deal with the unobserved censoring in an offline data-driven fashion. We demonstrate the customization of the {\epsilon}-insensitive operational costs for a newsvendor problem and use such costs to train two representative ML models, including linear regression (LR) models and neural networks (NNs). We derive tight generalization bounds for the custom LR model without regularization (LR-{\epsilon}NVC) and with regularization (LR-{\epsilon}NVC-R), and a high-probability generalization bound for the custom NN (NN-{\epsilon}NVC) trained by stochastic gradient descent. The theoretical results reveal the stability and learnability of LR-{\epsilon}NVC, LR-{\epsilon}NVC-R and NN-{\epsilon}NVC. We conduct extensive numerical experiments to compare LR-{\epsilon}NVC-R and NN-{\epsilon}NVC with two existing approaches, estimate-as-solution (EAS) and integrated estimation and optimization (IEO). The results show that LR-{\epsilon}NVC-R and NN-{\epsilon}NVC outperform both EAS and IEO, with maximum cost savings up to 14.40% and 12.21% compared to the lowest cost generated by the two existing approaches. In addition, LR-{\epsilon}NVC-R's and NN-{\epsilon}NVC's order quantities are statistically significantly closer to the optimal solutions should the underlying distribution be known. | 翻訳日:2024-08-15 14:13:57 公開日:2024-08-14 |
# 非局所的注意オペレーター:解釈可能な物理発見に向けて隠れた知識を物質化する
Nonlocal Attention Operator: Materializing Hidden Knowledge Towards Interpretable Physics Discovery ( http://arxiv.org/abs/2408.07307v1 ) ライセンス: Link先を確認 | Yue Yu, Ning Liu, Fei Lu, Tian Gao, Siavash Jafarzadeh, Stewart Silling, | (参考訳) 自然言語処理(NLP)やコンピュータビジョン(CV)といったコアAI分野における注目ベースのニューラルアーキテクチャの近年の人気にもかかわらず、複雑な物理システムのモデリングにおけるそのポテンシャルはいまだ探索されていない。
物理系における学習問題は、関数対のいくつかのインスタンスに基づいて関数空間間をマッピングする演算子を発見するとしばしば特徴づけられる。
このタスクは、しばしば深刻な不適切なPDE逆問題を示す。
本研究では,非局所注意演算子(Nonlocal Attention Operator,NAO)を造語するアテンション機構に基づく新しいニューラル演算子アーキテクチャを提案する。
特に、アテンション機構は空間トークン間の非局所的な相互作用を可能にする二重積分演算子と等価であることを示し、データからの逆写像を基本演算子の隠れパラメータフィールドに特徴付けるデータ依存カーネルを特徴付ける。
このように、アテンションメカニズムは、複数のシステムによって生成されたトレーニングデータからグローバルな事前情報を抽出し、非線形カーネルマップの形で探索空間を提案する。
その結果、NAOは正規化を符号化し、一般化性を達成することにより、逆PDE問題における不備やランク不足に対処することができる。
我々は,データ解像度やシステム状態に対する一般化性の観点から,ベースラインニューラルモデルよりもNAOの利点を実証的に示す。
我々の研究は、物理的システムの解釈可能な基礎モデルを学ぶための新しい神経オペレーターアーキテクチャを提案するだけでなく、注意機構を理解するための新しい視点を提供する。
Despite the recent popularity of attention-based neural architectures in core AI fields like natural language processing (NLP) and computer vision (CV), their potential in modeling complex physical systems remains under-explored. Learning problems in physical systems are often characterized as discovering operators that map between function spaces based on a few instances of function pairs. This task frequently presents a severely ill-posed PDE inverse problem. In this work, we propose a novel neural operator architecture based on the attention mechanism, which we coin Nonlocal Attention Operator (NAO), and explore its capability towards developing a foundation physical model. In particular, we show that the attention mechanism is equivalent to a double integral operator that enables nonlocal interactions among spatial tokens, with a data-dependent kernel characterizing the inverse mapping from data to the hidden parameter field of the underlying operator. As such, the attention mechanism extracts global prior information from training data generated by multiple systems, and suggests the exploratory space in the form of a nonlinear kernel map. Consequently, NAO can address ill-posedness and rank deficiency in inverse PDE problems by encoding regularization and achieving generalizability. We empirically demonstrate the advantages of NAO over baseline neural models in terms of generalizability to unseen data resolutions and system states. Our work not only suggests a novel neural operator architecture for learning interpretable foundation models of physical systems, but also offers a new perspective towards understanding the attention mechanism. | 翻訳日:2024-08-15 14:13:57 公開日:2024-08-14 |
# Kolmogorov-Arnold Networks (KAN) による時系列分類とロバスト解析
Kolmogorov-Arnold Networks (KAN) for Time Series Classification and Robust Analysis ( http://arxiv.org/abs/2408.07314v1 ) ライセンス: Link先を確認 | Chang Dong, Liangwei Zheng, Weitong Chen, | (参考訳) Kolmogorov-Arnold Networks (KAN)は、MLP(Multi-Layer Perceptrons)に代わる有望な代替品として、最近大きな注目を集めている。
理論上は魅力的だが、Kaninは大規模なベンチマークデータセットの検証を必要とする。
近年ますます普及している時系列データ,特に単変量時系列は,カンの検証に自然に適している。
そこで我々はkan, MLP, 混合構造の比較を行った。
結果から,kanは128の時系列データセットにまたがるMPPに匹敵する,あるいはやや優れた性能を達成できることが示唆された。
また,Kanに対するアブレーション実験を行い,b-スプライン関数の代わりに基成分によって出力が決定されることを明らかにした。
さらに, これらのモデルのロバスト性を評価した結果, カンとハイブリッド構造 MLP\_KAN はリプシッツ定数が低いため, 高いロバスト性を持つことがわかった。
これは、カン層とカン層がロバストモデルである可能性や、他のモデルの対角的ロバスト性を改善する可能性を持っていることを示唆している。
Kolmogorov-Arnold Networks (KAN) has recently attracted significant attention as a promising alternative to traditional Multi-Layer Perceptrons (MLP). Despite their theoretical appeal, KAN require validation on large-scale benchmark datasets. Time series data, which has become increasingly prevalent in recent years, especially univariate time series are naturally suited for validating KAN. Therefore, we conducted a fair comparison among KAN, MLP, and mixed structures. The results indicate that KAN can achieve performance comparable to, or even slightly better than, MLP across 128 time series datasets. We also performed an ablation study on KAN, revealing that the output is primarily determined by the base component instead of b-spline function. Furthermore, we assessed the robustness of these models and found that KAN and the hybrid structure MLP\_KAN exhibit significant robustness advantages, attributed to their lower Lipschitz constants. This suggests that KAN and KAN layers hold strong potential to be robust models or to improve the adversarial robustness of other models. | 翻訳日:2024-08-15 14:13:57 公開日:2024-08-14 |
# データ駆動型自動車空気力学に応用した系統的データセット生成手法
A systematic dataset generation technique applied to data-driven automotive aerodynamics ( http://arxiv.org/abs/2408.07318v1 ) ライセンス: Link先を確認 | Mark Benjamin, Gianluca Iaccarino, | (参考訳) ニューラルネットワークを用いた自動車測地におけるドラッグ予測の文脈内で、データセットを生成するための新しい戦略が開発されている。
この分野の主な課題は、十分なサイズと多様性のトレーニングデータセットを構築することだ。
提案手法は,少数の開始データポイントに頼り,それらを体系的に補間し,任意の数のサンプルを所望の品質で生成するレシピを提供する。
現実的な自動車形状を用いてこの戦略を検証し、畳み込みニューラルネットワークがドラッグ係数や表面圧力を予測するのに非常に優れていることを示す。
推定結果は外挿性能の試験において得られる。
本手法は空気力学的形状最適化の他の問題にも適用可能である。
A novel strategy for generating datasets is developed within the context of drag prediction for automotive geometries using neural networks. A primary challenge in this space is constructing a training databse of sufficient size and diversity. Our method relies on a small number of starting data points, and provides a recipe to interpolate systematically between them, generating an arbitrary number of samples at the desired quality. We test this strategy using a realistic automotive geometry, and demonstrate that convolutional neural networks perform exceedingly well at predicting drag coefficients and surface pressures. Promising results are obtained in testing extrapolation performance. Our method can be applied to other problems of aerodynamic shape optimization. | 翻訳日:2024-08-15 14:13:57 公開日:2024-08-14 |
# ベンゼンの永続分子リング電流に及ぼすJahn-Teller歪みの影響
Impact of Jahn-Teller distortions on persistent molecular ring current in benzene ( http://arxiv.org/abs/2408.07319v1 ) ライセンス: Link先を確認 | T. Joyce, A. Jaron, | (参考訳) 円偏光フェムト秒紫外レーザーパルスは、残孔がカチオンの周囲を永続的なリング電流として循環するように、ベンゼンから電子を除去することができる。
分子が中性体のD6h対称性からカチオンのD2h対称性へ緩和するときの電流の時間依存性強度について検討する。
ベンゼンカチオンの持続的なリング電流に対する自発対称性の破れの影響について検討する。
Circularly polarized femtosecond UV laser pulse can remove a {\pi} electron from benzene in such a way that the leftover hole circulates around the cation as a persistent ring current. We investigate the time dependent strength of the current as the molecule relaxes from the D6h symmetry of the neutral to the D2h symmetry of the cation due to the Jahn-Teller effect. We explore the effect of spontaneous symmetry breaking on persistent ring currents for benzene cation, because it is one of the most comprehensively studied examples of the Jahn-Teller effect. | 翻訳日:2024-08-15 14:13:57 公開日:2024-08-14 |
# 可変OSSバージョンの高精度同定のためのLCM拡張静的解析
LLM-Enhanced Static Analysis for Precise Identification of Vulnerable OSS Versions ( http://arxiv.org/abs/2408.07321v1 ) ライセンス: Link先を確認 | Yiran Cheng, Lwin Khin Shar, Ting Zhang, Shouguo Yang, Chaopeng Dong, David Lo, Shichao Lv, Zhiqiang Shi, Limin Sun, | (参考訳) オープンソースソフトウェア(OSS)は、そのコラボレーティブな開発モデルとコスト効果の性質から、人気が高まっている。
しかしながら、開発プロジェクトにおける特定のソフトウェアバージョンの採用は、これらのバージョンが脆弱性をもたらす場合にセキュリティリスクをもたらす可能性がある。
脆弱性のあるバージョンを識別する現在の方法は、通常、事前に定義されたルールで静的解析を使用して、脆弱性パッチに関わるコードを分析してトレースする。
次に、セマンティックレベルのコードクローン検出を使用して、脆弱性のあるバージョンを識別する。
これらの手法は,(1) 解析に脆弱性のないコードを含めること,(2) 構文レベルのコードクローン検出が不十分であることによる不正確さによって阻害される。
本稿では,C/C++で記述されたOSSの脆弱なバージョンを特定するために,Vercationを提案する。
VercationはプログラムスライシングとLarge Language Model(LLM)を組み合わせることで、脆弱性パッチから脆弱性関連コードを識別する。
その後、過去のコミットをバックトレースして、特定された脆弱性関連コードの以前の修正を収集する。
本研究では,修正前コードと修正後コードの違いを比較し,脆弱性導入コミット(vic)を特定し,パッチコミットとビック間の脆弱性バージョンを識別する意味レベルコードクローン検出を提案する。
Vercationを評価するために、74のOSS脆弱性と1013バージョンをリンクするデータセットをキュレートする。
このデータセットでは、F1スコア92.4%を達成し、現在の最先端手法よりも優れています。
さらに重要なことに、VercationはNVDレポートで134の誤ったOSSバージョンを検出した。
Open-source software (OSS) has experienced a surge in popularity, attributed to its collaborative development model and cost-effective nature. However, the adoption of specific software versions in development projects may introduce security risks when these versions bring along vulnerabilities. Current methods of identifying vulnerable versions typically analyze and trace the code involved in vulnerability patches using static analysis with pre-defined rules. They then use syntactic-level code clone detection to identify the vulnerable versions. These methods are hindered by imprecisions due to (1) the inclusion of vulnerability-irrelevant code in the analysis and (2) the inadequacy of syntactic-level code clone detection. This paper presents Vercation, an approach designed to identify vulnerable versions of OSS written in C/C++. Vercation combines program slicing with a Large Language Model (LLM) to identify vulnerability-relevant code from vulnerability patches. It then backtraces historical commits to gather previous modifications of identified vulnerability-relevant code. We propose semantic-level code clone detection to compare the differences between pre-modification and post-modification code, thereby locating the vulnerability-introducing commit (vic) and enabling to identify the vulnerable versions between the patch commit and the vic. We curate a dataset linking 74 OSS vulnerabilities and 1013 versions to evaluate Vercation. On this dataset, our approach achieves the F1 score of 92.4%, outperforming current state-of-the-art methods. More importantly, Vercation detected 134 incorrect vulnerable OSS versions in NVD reports. | 翻訳日:2024-08-15 14:13:57 公開日:2024-08-14 |
# 有限トレース上のTLLのオンザフライ合成:有効解法
On-the-fly Synthesis for LTL over Finite Traces: An Efficient Approach that Counts ( http://arxiv.org/abs/2408.07324v1 ) ライセンス: Link先を確認 | Shengping Xiao, Yongkang Li, Shufang Zhu, Jun Sun, Jianwen Li, Geguang Pu, Moshe Y. Vardi, | (参考訳) トップダウン決定論的オートマトン構築に基づく有限トレース(LTLf)上での線形時間論理のオンザフライ合成フレームワークを提案する。
既存のアプローチでは、LTLf仕様に対応する完全な決定論的有限オートマトン(DFA)の構築に依存している。
この場合、DFA全体を構築するまで合成処理は行えない。
この非効率性は、既存のアプローチの主なボトルネックです。
この課題に対処するため,LTLfをトランジッションベースDFA(TDFA)に変換する手法として,LTLfのセマンティクスを直接活用し,中間結果を最終オートマティクスの直接成分として組み込んで並列化合成と自動構築を実現する手法を提案する。
次に,LTLf合成とTDFAゲームの関係について検討し,その後,オンザフライTDFAゲーム解決を用いたTLf合成を行うアルゴリズムを開発した。
このアルゴリズムは、強い連結成分の検出とともに、局所的後方法と組み合わせて、大域的に状態空間を横断する。
さらに,本手法の実用性を高めるため,モデル誘導合成と状態付与という2つの最適化手法を導入する。
実験結果から,我々のオンザフライアプローチは,テストベンチマーク上で最高のパフォーマンスを実現し,既存のツールやアプローチを効果的に補完することを示す。
We present an on-the-fly synthesis framework for Linear Temporal Logic over finite traces (LTLf) based on top-down deterministic automata construction. Existing approaches rely on constructing a complete Deterministic Finite Automaton (DFA) corresponding to the LTLf specification, a process with doubly exponential complexity relative to the formula size in the worst case. In this case, the synthesis procedure cannot be conducted until the entire DFA is constructed. This inefficiency is the main bottleneck of existing approaches. To address this challenge, we first present a method for converting LTLf into Transition-based DFA (TDFA) by directly leveraging LTLf semantics, incorporating intermediate results as direct components of the final automaton to enable parallelized synthesis and automata construction. We then explore the relationship between LTLf synthesis and TDFA games and subsequently develop an algorithm for performing LTLf synthesis using on-the-fly TDFA game solving. This algorithm traverses the state space in a global forward manner combined with a local backward method, along with the detection of strongly connected components. Moreover, we introduce two optimization techniques -- model-guided synthesis and state entailment -- to enhance the practical efficiency of our approach. Experimental results demonstrate that our on-the-fly approach achieves the best performance on the tested benchmarks and effectively complements existing tools and approaches. | 翻訳日:2024-08-15 14:13:57 公開日:2024-08-14 |
# 都市交通光管理システムの適応設計のためのオフラインメタブラックボックス最適化フレームワーク
An Offline Meta Black-box Optimization Framework for Adaptive Design of Urban Traffic Light Management Systems ( http://arxiv.org/abs/2408.07327v1 ) ライセンス: Link先を確認 | Taeyoung Yun, Kanghoon Lee, Sujin Yun, Ilmyung Kim, Won-Woo Jung, Min-Cheol Kwon, Kyujin Choi, Yoohyeon Lee, Jinkyoo Park, | (参考訳) 自動車の占有率が高い複雑な都市道路網は、しばしば交通渋滞に直面している。
複数の信号機を管理するための効果的な戦略を設計することは、混雑を管理する上で重要な役割を担っている。
しかし、現在の交通信号管理システムは人為的な意思決定に依存しており、多様な交通パターンに適応できない可能性がある。
本稿では,様々な交通条件に合わせて動的に調整できる交通信号管理システムの2つの重要な設計要素を探索する。
多くの研究が信号を管理するための効率的な戦略を模索しているが、これらの手法の多くは固定的な交通パターンを考慮し、比較的小さな道路網に限られている。
これらの制約を克服するために、オフラインのメタブラックボックス最適化を用いて、そのような設計コンポーネントの最適化を定式化するための、新しく実用的なフレームワークを導入する。
次に、上記の問題の解を効率的に見つけるための、単純で効果的な方法を提案する。
本フレームワークでは、まず、設計選択のペアと、各種トラフィックパターンからの渋滞対策からなるオフラインメタデータセットを収集する。
データセットを収集した後、Attentive Neural Process (ANP) を用いて、適切に校正された不確実性のある様々なトラフィックパターンにわたる渋滞に対する提案された設計の影響を予測する。
最後に、ANPを代理モデルとしたベイジアン最適化を用いて、限定的なオンラインシミュレーションにより、目に見えない交通パターンの最適設計を求める。
提案手法は,待ち車数の観点から,複雑な道路網上での最先端のベースラインよりも優れていることを示す。
驚いたことに,本手法を現実の交通システムに展開することで,当初の戦略に比べてトラフィックスループットを4.80 %向上することができた。
Complex urban road networks with high vehicle occupancy frequently face severe traffic congestion. Designing an effective strategy for managing multiple traffic lights plays a crucial role in managing congestion. However, most current traffic light management systems rely on human-crafted decisions, which may not adapt well to diverse traffic patterns. In this paper, we delve into two pivotal design components of the traffic light management system that can be dynamically adjusted to various traffic conditions: phase combination and phase time allocation. While numerous studies have sought an efficient strategy for managing traffic lights, most of these approaches consider a fixed traffic pattern and are limited to relatively small road networks. To overcome these limitations, we introduce a novel and practical framework to formulate the optimization of such design components using an offline meta black-box optimization. We then present a simple yet effective method to efficiently find a solution for the aforementioned problem. In our framework, we first collect an offline meta dataset consisting of pairs of design choices and corresponding congestion measures from various traffic patterns. After collecting the dataset, we employ the Attentive Neural Process (ANP) to predict the impact of the proposed design on congestion across various traffic patterns with well-calibrated uncertainty. Finally, Bayesian optimization, with ANP as a surrogate model, is utilized to find an optimal design for unseen traffic patterns through limited online simulations. Our experiment results show that our method outperforms state-of-the-art baselines on complex road networks in terms of the number of waiting vehicles. Surprisingly, the deployment of our method into a real-world traffic system was able to improve traffic throughput by 4.80\% compared to the original strategy. | 翻訳日:2024-08-15 14:13:57 公開日:2024-08-14 |
# RSEA-MVGNN:信頼性の高い構造強化と集約を備えたマルチビューグラフニューラルネットワーク
RSEA-MVGNN: Multi-View Graph Neural Network with Reliable Structural Enhancement and Aggregation ( http://arxiv.org/abs/2408.07331v1 ) ライセンス: Link先を確認 | Junyu Chen, Long Shi, Badong Chen, | (参考訳) グラフニューラルネットワーク(GNN)は,多視点グラフデータから学習において顕著な効果を示した。
マルチビューグラフニューラルネットワークのフレームワークでは、各ビューが異なるグラフ構造特徴(GSF)を持つ多様なビューを効果的に組み合わせることが重要な課題である。
この課題に対する既存のアプローチは、主に2つの側面に焦点を当てています。
1)最も重要なGSFの優先順位付け。
2) 特徴集約にGNNを利用する。
しかし、最も重要なGSFの優先順位付けは、機能の多様性を制限し、既存のGNNベースのアグリゲーション戦略は、ビューの品質を考慮せずに、それぞれのビューを等しく扱う。
これらの課題に対処するために,信頼性の高い構造強化・集約型マルチビューグラフニューラルネットワーク(RSEA-MVGNN)を提案する。
まず、主観的論理を用いた視点特異的不確実性を推定する。
この不確実性に基づいて,特徴デコリレーションアルゴリズムによる信頼性の高い構造拡張を設計する。
このアプローチにより、各エンハンスメントは異なるGSFにフォーカスでき、それによって拡張構造における多様な特徴表現が達成できる。
第2に、ビュー固有の信念と不確実性を意見として学習し、ビュー品質を評価する。
これらの意見に基づき、このモデルにより、高品質なビューがGNNアグリゲーションを支配し、表現学習を容易にすることができる。
5つの実世界のデータセットで実施された実験の結果、RSEA-MVGNNは最先端のGNNベースの手法よりも優れていた。
Graph Neural Networks (GNNs) have exhibited remarkable efficacy in learning from multi-view graph data. In the framework of multi-view graph neural networks, a critical challenge lies in effectively combining diverse views, where each view has distinct graph structure features (GSFs). Existing approaches to this challenge primarily focus on two aspects: 1) prioritizing the most important GSFs, 2) utilizing GNNs for feature aggregation. However, prioritizing the most important GSFs can lead to limited feature diversity, and existing GNN-based aggregation strategies equally treat each view without considering view quality. To address these issues, we propose a novel Multi-View Graph Neural Network with Reliable Structural Enhancement and Aggregation (RSEA-MVGNN). Firstly, we estimate view-specific uncertainty employing subjective logic. Based on this uncertainty, we design reliable structural enhancement by feature de-correlation algorithm. This approach enables each enhancement to focus on different GSFs, thereby achieving diverse feature representation in the enhanced structure. Secondly, the model learns view-specific beliefs and uncertainty as opinions, which are utilized to evaluate view quality. Based on these opinions, the model enables high-quality views to dominate GNN aggregation, thereby facilitating representation learning. Experimental results conducted on five real-world datasets demonstrate that RSEA-MVGNN outperforms several state-of-the-art GNN-based methods. | 翻訳日:2024-08-15 14:13:57 公開日:2024-08-14 |
# KIND:拡散モデルにおける知識統合と拡散
KIND: Knowledge Integration and Diversion in Diffusion Models ( http://arxiv.org/abs/2408.07337v1 ) ライセンス: Link先を確認 | Yucheng Xie, Fu Feng, Jing Wang, Xin Geng, Yong Rui, | (参考訳) モデルパラメータの拡張により、事前学習されたモデルが好まれるバックボーンとなり、パラメータ効率の良いファインチューニング(PEFT)のようなテクニックが典型的にはこれらのモデルのパラメータを固定している。
しかしながら、トレーニング済みのモデルは常に最適であるとは限らない。特に、トレーニングタスクとターゲットタスクの間に不一致がある場合、負の転送が発生する可能性がある。
これを解決するために、拡散モデルにおける \textbf{K}nowledge \textbf{IN}tegration と \textbf{D}iversion を実行する \textbf{KIND} を導入する。
KINDはまず、$U$、$\Sigma$、$V$行列を用いてモデルのパラメータ行列を分解することで知識を統合する。
次に、これらの行列のコンポーネントを、クラスゲートを通じて共通知識とクラス固有の知識を凝縮するために、明示的に \textbf{learngenes} と \textbf{tailors} に分割する。
このように、KINDは、現在のタスクにおけるモデルパフォーマンスの最大化から、転送可能な共通知識の凝縮まで、トレーニング目標を調整することで、従来の事前トレーニングメソッドを再定義し、 \textit{Learngene}フレームワークを活用する。
我々は ImageNet-1K 上で実験を行い、KIND とPEFT や他の学習方法との比較を行った。
その結果,KINDは,他のPEFT法や学習遺伝子法と比較して最先端の性能を達成できることが示唆された。
具体的には、KIND が生成した画像は DiT-L/2 上の FID と sFID の6.54 以上と 1.07 以上減少し、45.4M のトレーニング可能なパラメータしか利用せず、計算コストで少なくとも 35.4G FLOP を節約している。
Pre-trained models have become the preferred backbone due to the expansion of model parameters, with techniques like Parameter-Efficient Fine-Tuning (PEFTs) typically fixing the parameters of these models. However, pre-trained models may not always be optimal, especially when there are discrepancies between training tasks and target tasks, potentially resulting in negative transfer. To address this, we introduce \textbf{KIND}, which performs \textbf{K}nowledge \textbf{IN}tegration and \textbf{D}iversion in diffusion models. KIND first integrates knowledge by decomposing parameter matrices of models using $U$, $\Sigma$, and $V$ matrices, formally inspired by singular value decomposition (SVD). Then it explicitly partitions the components of these matrices into \textbf{learngenes} and \textbf{tailors} to condense common and class-specific knowledge, respectively, through a class gate. In this way, KIND redefines traditional pre-training methods by adjusting training objectives from maximizing model performance on current tasks to condensing transferable common knowledge, leveraging the \textit{Learngene} framework. We conduct experiments on ImageNet-1K and compare KIND with PEFT and other learngene methods. Results indicate that KIND achieves state-of-the-art performance compared to other PEFT and learngene methods. Specifically, the images generated by KIND achieves more than 6.54 and 1.07 decrease in FID and sFID on DiT-L/2, utilizing only 45.4M trainable parameters and saving at least 35.4G FLOPs in computational cost. | 翻訳日:2024-08-15 14:13:57 公開日:2024-08-14 |
# 自己説明型グラフニューラルネットワークの実現に向けて
Towards Few-shot Self-explaining Graph Neural Networks ( http://arxiv.org/abs/2408.07340v1 ) ライセンス: Link先を確認 | Jingyu Peng, Qi Liu, Linan Yue, Zaixi Zhang, Kai Zhang, Yunhao Sha, | (参考訳) グラフニューラルネットワーク(GNN)の最近の進歩は、特に医学などの重要な領域において、GNNの説明可能性を高めるための研究が急増している。
有望なアプローチは自己説明法であり、予測とともに説明を出力する。
しかし、既存の自己説明モデルは大量のトレーニングデータを必要としており、数ショットのシナリオでは利用できない。
本稿では,メタ学習型自己説明型GNN(MSE-GNN)を提案する。
MSE-GNNは説明器と予測器からなる2段階の自己説明構造を採用している。
具体的には、まず人間の注意機構を模倣して説明文を選択し、重要な特徴を有する領域に自然に注意を払う。
その後、予測者は、生成された説明に基づいて予測を行う決定過程を模倣する。
さらに,タスク情報を活用する新しいメタトレーニングプロセスと設計機構により,MSE-GNNは,新しい数発タスクにおいて顕著なパフォーマンスを実現することができる。
4つのデータセットの大規模な実験結果から、MSE-GNNは予測タスクにおいて、既存の手法と比較して高品質な説明を生成しながら、優れた性能を達成できることが示されている。
コードはhttps://github.com/jypeng28/MSE-GNNで公開されている。
Recent advancements in Graph Neural Networks (GNNs) have spurred an upsurge of research dedicated to enhancing the explainability of GNNs, particularly in critical domains such as medicine. A promising approach is the self-explaining method, which outputs explanations along with predictions. However, existing self-explaining models require a large amount of training data, rendering them unavailable in few-shot scenarios. To address this challenge, in this paper, we propose a Meta-learned Self-Explaining GNN (MSE-GNN), a novel framework that generates explanations to support predictions in few-shot settings. MSE-GNN adopts a two-stage self-explaining structure, consisting of an explainer and a predictor. Specifically, the explainer first imitates the attention mechanism of humans to select the explanation subgraph, whereby attention is naturally paid to regions containing important characteristics. Subsequently, the predictor mimics the decision-making process, which makes predictions based on the generated explanation. Moreover, with a novel meta-training process and a designed mechanism that exploits task information, MSE-GNN can achieve remarkable performance on new few-shot tasks. Extensive experimental results on four datasets demonstrate that MSE-GNN can achieve superior performance on prediction tasks while generating high-quality explanations compared with existing methods. The code is publicly available at https://github.com/jypeng28/MSE-GNN. | 翻訳日:2024-08-15 14:13:57 公開日:2024-08-14 |
# クロスモーダルコラボレーションによるロバスト半監督型マルチモーダル医用画像分割
Robust Semi-supervised Multimodal Medical Image Segmentation via Cross Modality Collaboration ( http://arxiv.org/abs/2408.07341v1 ) ライセンス: Link先を確認 | Xiaogen Zhon, Yiyou Sun, Min Deng, Winnie Chiu Wing Chu, Qi Dou, | (参考訳) マルチモーダル学習は、異なるモーダルから派生した補完情報を活用し、医用画像セグメンテーションの性能を向上させる。
しかし,従来のマルチモーダル学習手法は,精度の高いセグメンテーション性能を実現するために,様々なモダリティからの十分な注釈付きデータに大きく依存している。
この依存は、そのようなデータの入手が限られているため、臨床環境においてしばしば課題となる。
さらに、異なる画像モダリティ間の固有の解剖学的ミスアライメントは、セグメンテーション性能を高めるためにさらに努力を複雑にする。
この問題に対処するために,ラベル付きデータが少なく,不整合性も少ない,半教師付きマルチモーダルセグメンテーションフレームワークを提案する。
本フレームワークでは,各モダリティに固有のモダリティ非依存の知識を蒸留するために,新しいクロスモーダル協調戦略を採用し,この情報を統合融合層に統合して特徴量アマルガメーションを実現する。
チャネルワイドなセマンティックな一貫性の喪失により、我々のフレームワークは、モダリティを横断する機能的な視点から、モダリティに依存しない情報のアライメントを保証し、マルチモーダルなシナリオにおけるミスアライメントを防ぎます。
さらに,本フレームワークは,半教師付きセグメンテーションタスクにおいて,非ラベルデータに対する解剖学的予測アライメントを容易にし,解剖学的構造を制御するためのコントラスト的一貫した学習を効果的に統合する。
本手法は, 心臓, 腹部多臓器, 甲状腺関連眼窩病の3つの課題にまたがる他のマルチモーダル法と比較して, 競合性能が向上する。
また、ラベル付きデータの不足やモダリティの不一致といったシナリオにおいて、顕著な堅牢性を示す。
Multimodal learning leverages complementary information derived from different modalities, thereby enhancing performance in medical image segmentation. However, prevailing multimodal learning methods heavily rely on extensive well-annotated data from various modalities to achieve accurate segmentation performance. This dependence often poses a challenge in clinical settings due to limited availability of such data. Moreover, the inherent anatomical misalignment between different imaging modalities further complicates the endeavor to enhance segmentation performance. To address this problem, we propose a novel semi-supervised multimodal segmentation framework that is robust to scarce labeled data and misaligned modalities. Our framework employs a novel cross modality collaboration strategy to distill modality-independent knowledge, which is inherently associated with each modality, and integrates this information into a unified fusion layer for feature amalgamation. With a channel-wise semantic consistency loss, our framework ensures alignment of modality-independent information from a feature-wise perspective across modalities, thereby fortifying it against misalignments in multimodal scenarios. Furthermore, our framework effectively integrates contrastive consistent learning to regulate anatomical structures, facilitating anatomical-wise prediction alignment on unlabeled data in semi-supervised segmentation tasks. Our method achieves competitive performance compared to other multimodal methods across three tasks: cardiac, abdominal multi-organ, and thyroid-associated orbitopathy segmentations. It also demonstrates outstanding robustness in scenarios involving scarce labeled data and misaligned modalities. | 翻訳日:2024-08-15 14:04:00 公開日:2024-08-14 |
# K2Cr3As3超伝導体における位相感度測定によるP波ペアリングの証拠
Evidence of P-wave Pairing in K2Cr3As3 Superconductors from Phase-sensitive Measurement ( http://arxiv.org/abs/2408.07342v1 ) ライセンス: Link先を確認 | Zhiyuan Zhang, Ziwei Dou, Anqi Wang, Cuiwei Zhang, Yu Hong, Xincheng Lei, Yue Pan, Zhongchen Xu, Zhipeng Xu, Yupeng Li, Guoan Li, Xiaofan Shi, Xingchen Guo, Xiao Deng, Zhaozheng Lyu, Peiling Li, Faming Qu, Guangtong Liu, Dong Su, Kun Jiang, Youguo Shi, Li Lu, Jie Shen, Jiangping Hu, | (参考訳) P波超伝導体は、その異常なペアリング対称性と潜在的トポロジカル超伝導性のために、基礎物理学と実用の両方に非常に有望である。
しかし、p波超伝導体の探査は複雑な試みであることが判明した。
自然界では珍しいだけでなく、p波超伝導体の同定も歴史的に困難な課題である。
例えば、相感度測定(英語版)は、従来と異なるペアリングの確定的な証拠を提供する実験手法であり、p波超伝導体を特定するためにうまく実装されていない。
本稿では,最近発見された超伝導体A2Cr3As3(A = K, Rb, Cs)を,理論上,p波超伝導体の候補として提案した。
超伝導量子干渉素子(SQUID)を剥離したK2Cr3As3上に作製し, 位相感度測定を行う。
これらのSQUIDは、電流-位相関係において2階の高調波成分 sin(2{\phi}) を顕著に示し、0相と3相の混和を示唆している。
マイクロ波照射下での臨界電流とシャピロステップの振動パターンの磁場依存性を慎重に調べることで、0--\\pi}-支配相状態からの交叉を明らかにし、K2Cr3As3のp-波対対称の存在が好ましいと結論付ける。
P-wave superconductors hold immense promise for both fundamental physics and practical applications due to their unusual pairing symmetry and potential topological superconductivity. However, the exploration of the p-wave superconductors has proved to be a complex endeavor. Not only are they rare in nature but also the identification of p-wave superconductors has been an arduous task in history. For example, phase-sensitive measurement, an experimental technique which can provide conclusive evidence for unconventional pairing, has not been implemented successfully to identify p-wave superconductors. Here, we study a recently discovered family of superconductors, A2Cr3As3 (A = K, Rb, Cs), which were proposed theoretically to be a candidate of p-wave superconductors. We fabricate superconducting quantum interference devices (SQUIDs) on exfoliated K2Cr3As3, and perform the phase-sensitive measurement. We observe that such SQUIDs exhibit a pronounced second-order harmonic component sin(2{\phi}) in the current-phase relation, suggesting the admixture of 0- and {\pi}-phase. By carefully examining the magnetic field dependence of the oscillation patterns of critical current and Shapiro steps under microwave irradiation, we reveal a crossover from 0- to {\pi}-dominating phase state and conclude that the existence of the {\pi}-phase is in favor of the p-wave pairing symmetry in K2Cr3As3. | 翻訳日:2024-08-15 14:04:00 公開日:2024-08-14 |
# グラディエントアライメントによる医用画像分割のためのテスト時間適応の改善
Gradient Alignment Improves Test-Time Adaptation for Medical Image Segmentation ( http://arxiv.org/abs/2408.07343v1 ) ライセンス: Link先を確認 | Ziyang Chen, Yiwen Ye, Yongsheng Pan, Yong Xia, | (参考訳) 近年、医用画像のセグメンテーションが著しく進歩しているのを目の当たりにしているが、様々なセンターからの医用画像における領域シフトの広範化は、事前訓練されたモデルの効果的な展開を妨げる。
多くのテスト時間適応(TTA)手法が、推論中にテストデータを持つ事前学習モデルの微調整によってこの問題に対処するために提案されている。
しかしながら、これらの手法は、最適以下の最適化方向(勾配によって予測される)と固定ステップサイズ(学習速度に基づいて予測される)によって、満足度の低い最適化に悩まされることが多い。
本稿では,グラディエントアライメントに基づくテスト時間適応法(GraTa)を提案する。
自己監督対象から導出される擬似勾配を最適化する従来のTTA法とは異なり,本手法は擬似勾配を組み込んで勾配調整を容易にする。
このような勾配アライメントにより、モデルは異なる勾配間の類似性を発掘し、勾配方向を補正し、現在のセグメント化タスクに関連する経験的勾配を近似することができる。
さらに、擬似勾配と補助勾配のコサイン類似性に基づいて動的学習率を設計し、様々なテストデータに基づいて事前学習したモデルの適応微調整を行う。
広汎な実験により、提案した勾配アライメントと動的学習率の有効性を確立し、ベンチマーク医用画像セグメンテーションタスクにおける他の最先端TTA法よりもGraTa法の方が優れていることを実証した。
事前トレーニングされたソースモデルのコードと重みが利用可能になる。
Although recent years have witnessed significant advancements in medical image segmentation, the pervasive issue of domain shift among medical images from diverse centres hinders the effective deployment of pre-trained models. Many Test-time Adaptation (TTA) methods have been proposed to address this issue by fine-tuning pre-trained models with test data during inference. These methods, however, often suffer from less-satisfactory optimization due to suboptimal optimization direction (dictated by the gradient) and fixed step-size (predicated on the learning rate). In this paper, we propose the Gradient alignment-based Test-time adaptation (GraTa) method to improve both the gradient direction and learning rate in the optimization procedure. Unlike conventional TTA methods, which primarily optimize the pseudo gradient derived from a self-supervised objective, our method incorporates an auxiliary gradient with the pseudo one to facilitate gradient alignment. Such gradient alignment enables the model to excavate the similarities between different gradients and correct the gradient direction to approximate the empirical gradient related to the current segmentation task. Additionally, we design a dynamic learning rate based on the cosine similarity between the pseudo and auxiliary gradients, thereby empowering the adaptive fine-tuning of pre-trained models on diverse test data. Extensive experiments establish the effectiveness of the proposed gradient alignment and dynamic learning rate and substantiate the superiority of our GraTa method over other state-of-the-art TTA methods on a benchmark medical image segmentation task. The code and weights of pre-trained source models will be available. | 翻訳日:2024-08-15 14:04:00 公開日:2024-08-14 |
# RTAT:マルチオブジェクトトラッキングのためのロバストな2段階アソシエーショントラッカー
RTAT: A Robust Two-stage Association Tracker for Multi-Object Tracking ( http://arxiv.org/abs/2408.07344v1 ) ライセンス: Link先を確認 | Song Guo, Rujie Liu, Narishige Abe, | (参考訳) データアソシエーションは、トラッキング・バイ・検出ベースのマルチオブジェクト・トラッキング(MOT)において不可欠な部分である。
ほとんどのトラッカーは、トラッキングパフォーマンスを改善するために、より良いデータアソシエーション戦略を設計する方法に重点を置いている。
ルールに基づく手作りアソシエーション法は単純で効率的であるが、複雑なシーンを扱うための一般化能力は欠如している。
学習したアソシエーション手法は、様々な複雑なシーンを扱うために高次文脈情報を学ぶことができるが、それらには複雑さとコストの制限がある。
これらの制約に対処するため,RTAT というロバスト2段アソシエーショントラッカーを提案する。
第1段のアソシエーションは、トラックレットと検出の間で行われ、高い純度でトラックレットを生成し、第2段のアソシエーションはトラックレット間で行われ、完全なトラジェクトリを形成する。
第1段階のアソシエーションでは、簡単なデータアソシエーション戦略を用いて、割り当てプロセスにおけるマッチングコストの閾値を低く設定することで、高純度トラックレットを生成する。
我々は、メッセージパッシングGNNの枠組みに基づいて、第2段階のトラックレットアソシエーションを行う。
提案手法は,トラックレット関連を階層グラフにおける一連のエッジ分類問題としてモデル化し,ショートトラックレットをより長いトラックレットに再帰的にマージする。
私たちのトラッカーRTATは、主要なMOT指標であるHOTA、IDF1、AssAのMOT17およびMOT20ベンチマークテストセットで第1位です。
67.2 HOTA,84.7 IDF1,69.7 AssA,66.2 HOTA,82.5 IDF1,68.1 AssAをMOT20上で達成した。
Data association is an essential part in the tracking-by-detection based Multi-Object Tracking (MOT). Most trackers focus on how to design a better data association strategy to improve the tracking performance. The rule-based handcrafted association methods are simple and highly efficient but lack generalization capability to deal with complex scenes. While the learnt association methods can learn high-order contextual information to deal with various complex scenes, but they have the limitations of higher complexity and cost. To address these limitations, we propose a Robust Two-stage Association Tracker, named RTAT. The first-stage association is performed between tracklets and detections to generate tracklets with high purity, and the second-stage association is performed between tracklets to form complete trajectories. For the first-stage association, we use a simple data association strategy to generate tracklets with high purity by setting a low threshold for the matching cost in the assignment process. We conduct the tracklet association in the second-stage based on the framework of message-passing GNN. Our method models the tracklet association as a series of edge classification problem in hierarchical graphs, which can recursively merge short tracklets into longer ones. Our tracker RTAT ranks first on the test set of MOT17 and MOT20 benchmarks in most of the main MOT metrics: HOTA, IDF1, and AssA. We achieve 67.2 HOTA, 84.7 IDF1, and 69.7 AssA on MOT17, and 66.2 HOTA, 82.5 IDF1, and 68.1 AssA on MOT20. | 翻訳日:2024-08-15 14:04:00 公開日:2024-08-14 |
# 深層学習による網膜画像の自動解析と医療報告生成
Automated Retinal Image Analysis and Medical Report Generation through Deep Learning ( http://arxiv.org/abs/2408.07349v1 ) ライセンス: Link先を確認 | Jia-Hong Huang, | (参考訳) 網膜疾患の増加は、眼科医の需要が労働力を上回っているため、医療システムにとって大きな課題となる。
この不均衡は診断と治療のボトルネックを生じさせ、致命的な治療を遅らせる可能性がある。
網膜画像から医療報告を生成する従来の方法は、手動による解釈に依存しており、これは時間を要するため、眼科医の限られた資源を圧迫する。
この論文は、網膜画像の医療レポート生成を自動化する人工知能(AI)の可能性について考察する。
AIは大量の画像データを素早く分析し、正確な診断に必要な微妙なパターンを特定する。
このプロセスを自動化することで、AIシステムは網膜疾患の診断の効率を大幅に向上し、医師のワークロードを削減し、より複雑なケースに集中することができる。
提案手法は, 自動レポート生成において重要な課題に対処する: (1) 医療用語表現の改善により, 医療用語におけるニュアンスを捉える能力が向上する; (2) テキストキーワードと網膜画像の相互作用を捉えるマルチモーダルディープラーニングアプローチにより, より包括的な医療報告が得られ, (3) AIベースのレポート生成システムの解釈可能性を高める技術, 臨床実践における信頼と受容を促進する。
これらの手法は様々なメトリクスを用いて厳密に評価され、最先端の性能を達成する。
この論文は、医療報告生成を自動化し、最終的に臨床効率、診断精度、患者のケアを改善することで、AIが網膜疾患の診断に革命をもたらす可能性を実証している。
[https://github.com/Jhhuangkay/DeepOpht-Medical-Report-Generation-for-Retinal-Images-via-Deep-Models- and-Visual-Explanation]
The increasing prevalence of retinal diseases poses a significant challenge to the healthcare system, as the demand for ophthalmologists surpasses the available workforce. This imbalance creates a bottleneck in diagnosis and treatment, potentially delaying critical care. Traditional methods of generating medical reports from retinal images rely on manual interpretation, which is time-consuming and prone to errors, further straining ophthalmologists' limited resources. This thesis investigates the potential of Artificial Intelligence (AI) to automate medical report generation for retinal images. AI can quickly analyze large volumes of image data, identifying subtle patterns essential for accurate diagnosis. By automating this process, AI systems can greatly enhance the efficiency of retinal disease diagnosis, reducing doctors' workloads and enabling them to focus on more complex cases. The proposed AI-based methods address key challenges in automated report generation: (1) Improved methods for medical keyword representation enhance the system's ability to capture nuances in medical terminology; (2) A multi-modal deep learning approach captures interactions between textual keywords and retinal images, resulting in more comprehensive medical reports; (3) Techniques to enhance the interpretability of the AI-based report generation system, fostering trust and acceptance in clinical practice. These methods are rigorously evaluated using various metrics and achieve state-of-the-art performance. This thesis demonstrates AI's potential to revolutionize retinal disease diagnosis by automating medical report generation, ultimately improving clinical efficiency, diagnostic accuracy, and patient care. [https://github.com/Jhhuangkay/DeepOpht-Medical-Report-Generation-for-Retinal-Images-via-Deep-Models- and-Visual-Explanation] | 翻訳日:2024-08-15 14:04:00 公開日:2024-08-14 |
# 一つの関係のみの可能性 : 事象の時間的関係抽出におけるあいまいさのモデル化
Only One Relation Possible? Modeling the Ambiguity in Event Temporal Relation Extraction ( http://arxiv.org/abs/2408.07353v1 ) ライセンス: Link先を確認 | Yutong Hu, Quzhe Huang, Yansong Feng, | (参考訳) イベント時間関係抽出(ETRE)は、自然言語理解において重要な役割を果たす2つのイベント間の時間的関係を特定することを目的としている。
イベントペアを特定の時間関係(例: g , \textit{Before}, \textit{After})または、ペア間に複数の時間関係が存在する場合の特別なラベル \textit{Vague} のいずれかに分類する。
本研究では, ETRE (METRE) に対して, 直接予測を行う代わりに, 時間的関係の確率を独立に推定するマルチラベル分類法を提案する。
我々は,潜伏情報を効率的に利用するための推測機構を設計し,隠れた関係を探索する。
TB-Dense, MATRES, UDS-Tを用いた実験により,本手法は特定の時間的関係の認識を改善し,最先端の手法よりも優れていることを示す。
Event Temporal Relation Extraction (ETRE) aims to identify the temporal relationship between two events, which plays an important role in natural language understanding. Most previous works follow a single-label classification style, classifying an event pair into either a specific temporal relation (e.g., \textit{Before}, \textit{After}), or a special label \textit{Vague} when there may be multiple possible temporal relations between the pair. In our work, instead of directly making predictions on \textit{Vague}, we propose a multi-label classification solution for ETRE (METRE) to infer the possibility of each temporal relation independently, where we treat \textit{Vague} as the cases when there is more than one possible relation between two events. We design a speculation mechanism to explore the possible relations hidden behind \textit{Vague}, which enables the latent information to be used efficiently. Experiments on TB-Dense, MATRES and UDS-T show that our method can effectively utilize the \textit{Vague} instances to improve the recognition for specific temporal relations and outperforms most state-of-the-art methods. | 翻訳日:2024-08-15 14:04:00 公開日:2024-08-14 |
# BadMerging: モデルマージに対するバックドア攻撃
BadMerging: Backdoor Attacks Against Model Merging ( http://arxiv.org/abs/2408.07362v1 ) ライセンス: Link先を確認 | Jinghuai Zhang, Jianfeng Chi, Zheng Li, Kunlin Cai, Yang Zhang, Yuan Tian, | (参考訳) 下流タスクのための微調整済みモデルが、オープンソースのタスク固有モデルの普及につながっている。
近年,モデルマージング (MM) は,これら独立に調整されたモデル間の知識伝達を促進する効果的な手法として出現している。
MMは、複数の微調整されたタスク固有モデルを追加のトレーニングなしでマージモデルに直接結合し、その結果、複数のタスクで強化された機能を示す。
MMは優れたユーティリティを提供するが、敵が複数の下流タスクに影響を与えるためにMMを利用することができるため、セキュリティ上のリスクが伴う可能性がある。
しかし、MMのセキュリティリスクはほとんど研究されていない。
本稿では,新たな学習パラダイムとして,統合プロセスによる既存のバックドア攻撃に固有の課題を導入することを最初に見出した。
これらの課題に対処するために、MM用に特別に設計された最初のバックドアアタックであるBadMergingを紹介します。
特に、BadMergingは、1つのバックドアタスク固有のモデルへのコントリビュートによって、敵がマージされたモデル全体を妥協することを可能にする。
BadMergingは、2段階の攻撃機構と、異なるマージパラメータの変化に対する組込みバックドアの堅牢性を高めるために、新しい特徴補間ベースの損失を含む。
統合モデルは異なるドメインからのタスクを組み込むことができるため、BadMergingは敵(オンタスクアタック)や他のコントリビュータ(オフタスクアタック)によって提供されるタスクを共同で妥協し、新しいアタックデザインで対応する固有の課題を解決することができる。
大規模な実験により、BadMergingは様々なMMアルゴリズムに対する顕著な攻撃を達成している。
本研究は,提案した攻撃設計が攻撃性能に段階的に寄与することを示すものである。
最後に,従来の防衛機構が我々の攻撃に対して防御に失敗することを示し,より先進的な防衛の必要性を強調した。
Fine-tuning pre-trained models for downstream tasks has led to a proliferation of open-sourced task-specific models. Recently, Model Merging (MM) has emerged as an effective approach to facilitate knowledge transfer among these independently fine-tuned models. MM directly combines multiple fine-tuned task-specific models into a merged model without additional training, and the resulting model shows enhanced capabilities in multiple tasks. Although MM provides great utility, it may come with security risks because an adversary can exploit MM to affect multiple downstream tasks. However, the security risks of MM have barely been studied. In this paper, we first find that MM, as a new learning paradigm, introduces unique challenges for existing backdoor attacks due to the merging process. To address these challenges, we introduce BadMerging, the first backdoor attack specifically designed for MM. Notably, BadMerging allows an adversary to compromise the entire merged model by contributing as few as one backdoored task-specific model. BadMerging comprises a two-stage attack mechanism and a novel feature-interpolation-based loss to enhance the robustness of embedded backdoors against the changes of different merging parameters. Considering that a merged model may incorporate tasks from different domains, BadMerging can jointly compromise the tasks provided by the adversary (on-task attack) and other contributors (off-task attack) and solve the corresponding unique challenges with novel attack designs. Extensive experiments show that BadMerging achieves remarkable attacks against various MM algorithms. Our ablation study demonstrates that the proposed attack designs can progressively contribute to the attack performance. Finally, we show that prior defense mechanisms fail to defend against our attacks, highlighting the need for more advanced defense. | 翻訳日:2024-08-15 14:04:00 公開日:2024-08-14 |
# スケーラブルスピン量子ビットアレイの分子P注入に関する考察
Insights on molecular P implantation for scalable spin-qubit arrays ( http://arxiv.org/abs/2408.07363v1 ) ライセンス: Link先を確認 | Tomás Fernández Bouvier, Ville Jantunen, Saana Vihuri, Alvaro López Cazalilla, Flyura Djurabekova, | (参考訳) 量子情報技術は大きな可能性を秘めており、量子コンピュータは問題解決能力に革命をもたらす可能性がある。
特にリン酸ドナー(31P)のスピンを利用する固体スピン量子ビットが主要な候補である。
量子コヒーレンスと量子ビット制御の強化には大きな進歩があったが、特にSi基板における正確でスケーラブルなP配置の実現には課題が続いている。
本稿では, 分子動力学を用いて, 分子PF2イオンを注入用として使用し, 検出効率を維持しつつ, 配置不確かさを低減することを目的とした。
エネルギー伝達,分子の完全性,埋め込みプロファイル,電子信号成分,安定した損傷について検討した。
とりわけ、結晶表面のa-SiO2層の存在によって分子がすぐに崩壊するという仮定と、イオン-固体相互作用からの電子信号の強度は、必ずしもPの浸透深さと相関しない。
Quantum information technologies hold immense promise, with quantum computers poised to revolutionize problem-solving capabilities. Among the leading contenders are solid-state spin-qubits, particularly those utilizing the spin of phosphorous donors (31 P ). While significant progress has been made in enhancing quantum coherence and qubit control, challenges persist, notably in achieving precise and scalable P placement in Si substrate. This paper investigates by means of molecular dynamics the use of molecular PF2 ions for implantation, aiming to reduce placement uncertainty while maintaining detection efficiency. We examine energy transfer, molecule integrity, implantation profiles, electronic signal components, and stable damage. Among other things we find that the assumption that the molecule only breaks apart immediately due to the presence of an a-SiO2 layer on the surface of the crystal and that the intensity of the electronic signal from ion-solid interactions does not correlate necessarily with the penetration depth of P. | 翻訳日:2024-08-15 14:04:00 公開日:2024-08-14 |
# ロバストアクティブラーニング(RoAL) - 弾性重み強化によるアクティブラーニングにおける動的アドバーナの対応
Robust Active Learning (RoAL): Countering Dynamic Adversaries in Active Learning with Elastic Weight Consolidation ( http://arxiv.org/abs/2408.07364v1 ) ライセンス: Link先を確認 | Ricky Maulana Fajri, Yulong Pei, Lu Yin, Mykola Pechenizkiy, | (参考訳) 活発な学習と敵対的攻撃の著しい進歩にもかかわらず、これらの2つの分野の交わりは未解明のままであり、特に動的敵対的脅威に対する堅牢な学習フレームワークの開発において重要である。
動的敵攻撃の下で堅牢なアクティブラーニングフレームワークを開発することの課題は、これらの攻撃がアクティブラーニングサイクル内で破滅的な忘れを招きかねないため、非常に重要である。
本稿では,ロバスト・アクティブ・ラーニング(RoAL)について紹介する。これは,弾性ウェイト・コンソリデーション(EWC)をアクティブ・ラーニング・プロセスに統合することにより,この問題に対処するための新しいアプローチである。
まず、アクティブな学習フレームワークに重大な脅威をもたらす新しい動的敵攻撃を提案する。
次に、EWCとアクティブラーニングを組み合わせることで、動的逆境攻撃による破滅的な忘れを軽減できる新しい手法を提案する。
最後に,本手法の有効性を実証するため,広範囲な実験的評価を行った。
その結果,RoALは動的敵対的脅威に対して効果的に対処するだけでなく,破滅的忘れ込みの影響を著しく低減し,敵的環境における能動的学習システムの堅牢性と性能を向上させることが示唆された。
Despite significant advancements in active learning and adversarial attacks, the intersection of these two fields remains underexplored, particularly in developing robust active learning frameworks against dynamic adversarial threats. The challenge of developing robust active learning frameworks under dynamic adversarial attacks is critical, as these attacks can lead to catastrophic forgetting within the active learning cycle. This paper introduces Robust Active Learning (RoAL), a novel approach designed to address this issue by integrating Elastic Weight Consolidation (EWC) into the active learning process. Our contributions are threefold: First, we propose a new dynamic adversarial attack that poses significant threats to active learning frameworks. Second, we introduce a novel method that combines EWC with active learning to mitigate catastrophic forgetting caused by dynamic adversarial attacks. Finally, we conduct extensive experimental evaluations to demonstrate the efficacy of our approach. The results show that RoAL not only effectively counters dynamic adversarial threats but also significantly reduces the impact of catastrophic forgetting, thereby enhancing the robustness and performance of active learning systems in adversarial environments. | 翻訳日:2024-08-15 14:04:00 公開日:2024-08-14 |
# グラフ上のk-Coalitional Gamesの操作の複雑さ
The Complexity of Manipulation of k-Coalitional Games on Graphs ( http://arxiv.org/abs/2408.07368v1 ) ライセンス: Link先を確認 | Hodaya Barr, Yohai Trabelsi, Sarit Kraus, Liam Roditty, Noam Hazon, | (参考訳) 多くの設定において、一組のエージェントを$k$の連立に分割したい組織があり、それぞれの連立内の友情に気を配っている。
具体的には、実用的社会福祉の最大化、平等的社会福祉の最大化、あるいは全てのエージェントが自分の連合の中に少なくとも1人の友人を持つことを単に保証したいかもしれない。
しかし、多くの場合、主催者は友情関係に精通せず、エージェントからそれらを入手する必要がある。
この設定では、操作エージェントは、有用性を高めるために友情関係を誤って報告することができる。
本稿では,グラフ上のこのような$k$-coalitionalゲームにおける操作の複雑さを解析する。
また,社会福祉を低下させることなく,マニピュレータが有効性を高めたい,新たなタイプの操作,社会的に意識した操作を導入する。
次に、社会的に認識された操作を見つける複雑さについて研究する。
最後に、シミュレーション結果を用いて、社会的に認識された操作の頻度とアルゴリズムの実行時間について検討する。
In many settings, there is an organizer who would like to divide a set of agents into $k$ coalitions, and cares about the friendships within each coalition. Specifically, the organizer might want to maximize utilitarian social welfare, maximize egalitarian social welfare, or simply guarantee that every agent will have at least one friend within his coalition. However, in many situations, the organizer is not familiar with the friendship connections, and he needs to obtain them from the agents. In this setting, a manipulative agent may falsely report friendship connections in order to increase his utility. In this paper, we analyze the complexity of finding manipulation in such $k$-coalitional games on graphs. We also introduce a new type of manipulation, socially-aware manipulation, in which the manipulator would like to increase his utility without decreasing the social welfare. We then study the complexity of finding socially-aware manipulation in our setting. Finally, we examine the frequency of socially-aware manipulation and the running time of our algorithms via simulation results. | 翻訳日:2024-08-15 14:04:00 公開日:2024-08-14 |
# 局所安定点プロセスにおける適応的重要度サンプリング
An Adaptive Importance Sampling for Locally Stable Point Processes ( http://arxiv.org/abs/2408.07372v1 ) ライセンス: Link先を確認 | Hee-Geon Kang, Sunggon Kim, | (参考訳) 境界領域における局所安定点過程の統計量の期待値を求める問題に対処する。
この問題を解決するために,適応的な重要度サンプリングを提案する。
本提案では,同種ポアソン点過程の族に重要点過程を限定し,重要点過程の素早い独立サンプルを生成する。
重要点過程の最適強度は、クロスエントロピー最小化法を適用することにより得られる。
提案手法では,関数の期待値と最適強度を適応的に反復的に推定する。
提案した推定器は,ほぼ確実に目標値に収束し,その漸近正規性を証明する。
定常対相互作用点過程の強度推定に提案手法を適用する方法について説明する。
提案手法の性能をマルコフ連鎖モンテカルロシミュレーションと完全サンプリングと比較した。
The problem of finding the expected value of a statistic of a locally stable point process in a bounded region is addressed. We propose an adaptive importance sampling for solving the problem. In our proposal, we restrict the importance point process to the family of homogeneous Poisson point processes, which enables us to generate quickly independent samples of the importance point process. The optimal intensity of the importance point process is found by applying the cross-entropy minimization method. In the proposed scheme, the expected value of the function and the optimal intensity are iteratively estimated in an adaptive manner. We show that the proposed estimator converges to the target value almost surely, and prove the asymptotic normality of it. We explain how to apply the proposed scheme to the estimation of the intensity of a stationary pairwise interaction point process. The performance of the proposed scheme is compared numerically with the Markov chain Monte Carlo simulation and the perfect sampling. | 翻訳日:2024-08-15 14:04:00 公開日:2024-08-14 |
# GPT言語モデルは分裂性パーソナリティ障害によって引き起こされるか?
Do GPT Language Models Suffer From Split Personality Disorder? The Advent Of Substrate-Free Psychometrics ( http://arxiv.org/abs/2408.07377v1 ) ライセンス: Link先を確認 | Peter Romero, Stephen Fitz, Teruo Nakatsuma, | (参考訳) 大規模言語モデルにおける出現に関するこれまでの研究は、これらが明らかに人間のような能力と心理的潜伏特性を示すことを示している。
しかしながら、これらの潜伏形質の表現と大きさには一部矛盾があるが、ナルシシズム、サイコパシー、マキアベリアン主義のダークトライアドに高い得点を与えるという不安な傾向には同意しており、脱線記録とともに、これらのモデルの安全性についてより厳密な研究を要求している。
我々は,9言語で同一のパーソナリティ質問紙を用いた最先端の言語モデルを提供し,ガウス混合モデルのベイズ解析を行い,より根深い課題の証拠を見出した。
本研究は,言語間不安定性と言語内不安定性の両方を示唆し,現在の言語モデルが一貫した中核的性格を発達しないことを示す。
これは、これらの基礎モデルに基づく人工知能システムの安全でない振る舞いをもたらし、人間の生活にますます統合されている。
その後、現代心理学の欠点について議論し、それを抽象化し、その種ニュートラルで基質のない定式化のための枠組みを提供する。
Previous research on emergence in large language models shows these display apparent human-like abilities and psychological latent traits. However, results are partly contradicting in expression and magnitude of these latent traits, yet agree on the worrisome tendencies to score high on the Dark Triad of narcissism, psychopathy, and Machiavellianism, which, together with a track record of derailments, demands more rigorous research on safety of these models. We provided a state of the art language model with the same personality questionnaire in nine languages, and performed Bayesian analysis of Gaussian Mixture Model, finding evidence for a deeper-rooted issue. Our results suggest both interlingual and intralingual instabilities, which indicate that current language models do not develop a consistent core personality. This can lead to unsafe behaviour of artificial intelligence systems that are based on these foundation models, and are increasingly integrated in human life. We subsequently discuss the shortcomings of modern psychometrics, abstract it, and provide a framework for its species-neutral, substrate-free formulation. | 翻訳日:2024-08-15 14:04:00 公開日:2024-08-14 |
# ガウス過程における後続共分散構造
Posterior Covariance Structures in Gaussian Processes ( http://arxiv.org/abs/2408.07379v1 ) ライセンス: Link先を確認 | Difeng Cai, Edmond Chow, Yuanzhe Xi, | (参考訳) 本稿では,ガウス過程における後共分散場の包括的解析と後共分散行列への応用について述べる。
この解析はガウス以前の共分散に基づいているが、アプローチは他の共分散核にも適用される。
幾何学的解析により,ガウス核の帯域幅パラメータと観測の空間分布が後方共分散と対応する共分散行列にどのように影響するかを明らかにする。
また,適応有限要素法における後部誤差推定手法からインスピレーションを得るとともに,絶対的後部共分散場を効率的に測定する推定器を提案し,共分散行列の効率的な近似とプレコンディショニングに利用できる。
我々は、理論的な発見とその実践的応用を説明するために、幅広い実験を行っている。
In this paper, we present a comprehensive analysis of the posterior covariance field in Gaussian processes, with applications to the posterior covariance matrix. The analysis is based on the Gaussian prior covariance but the approach also applies to other covariance kernels. Our geometric analysis reveals how the Gaussian kernel's bandwidth parameter and the spatial distribution of the observations influence the posterior covariance as well as the corresponding covariance matrix, enabling straightforward identification of areas with high or low covariance in magnitude. Drawing inspiration from the a posteriori error estimation techniques in adaptive finite element methods, we also propose several estimators to efficiently measure the absolute posterior covariance field, which can be used for efficient covariance matrix approximation and preconditioning. We conduct a wide range of experiments to illustrate our theoretical findings and their practical applications. | 翻訳日:2024-08-15 14:04:00 公開日:2024-08-14 |
# YbIIにおける4つの準安定状態クリアアウト遷移の単一イオン分光:同位体シフトと超微細構造
Single ion spectroscopy of four metastable state clear-out transitions in Yb II: isotope shifts and hyperfine structure ( http://arxiv.org/abs/2408.07380v1 ) ライセンス: Link先を確認 | N. A. Diepeveen, C. Robalo Pereira, M. Mazzanti, Z. E. D. Ackerman, L. P. H. Gallagher, T. Timmerman, R. Gerritsma, R. X. Schüssler, | (参考訳) 我々は,Yb$^+$の長寿命同位体と,Yb$^+$の超微細構造に対して,399nmから412nmの4つの準安定状態クリアアウト遷移の分光データを示す。
強い$^2 \rm{D}_{3/2} \rightarrow {}^1[1/2]_{1/2}$ transition at 412 nmは冷却とトラップ実験に使用される標準935 nm reumperの魅力的な代替であり、$^3[3/2]_{3/2}$ state at 411 nmへの遷移は$^2 $F$_{7/2}$ stateをクリアする。
これら2つの代替遷移は、Yb$^+$を冷却・操作する赤外線光学の必要を排除し、実験的なセットアップを単純化する。
また、399nmで$^2 $D$_{3/2} \rightarrow {}^3[1/2]_{3/2}$、励起状態の崩壊分岐比を含む410nmで$^2 $D$_{3/2} \rightarrow {}^1[5/2]_{5/2}$の遷移のデータも提示する。
We present spectroscopic data for four metastable state clear-out transitions between 399 nm and 412 nm for all even long-lived isotopes of Yb$^+$ as well as their hyperfine structure in $^{171}$Yb$^+$. The strong $^2 \rm{D}_{3/2} \rightarrow {}^1[1/2]_{1/2}$ transition at 412 nm represents an attractive alternative for the standard 935 nm repumper used in cooling and trapping experiments, while the transition to the $^3[3/2]_{3/2}$ state at 411 nm clears out the $^2 $F$_{7/2}$ state, for which typically 638 nm or 760 nm are used. These two alternative transitions simplify the experimental setup by removing the need for infrared optics to cool and manipulate Yb$^+$ and may be of particular interest when considering integrated photonics solutions. We also present data for the transitions $^2 $D$_{3/2} \rightarrow {}^3[1/2]_{3/2}$ at 399 nm, and $^2 $D$_{3/2} \rightarrow {}^1[5/2]_{5/2}$ at 410 nm including decay branching ratios of the excited states. | 翻訳日:2024-08-15 14:04:00 公開日:2024-08-14 |
# 不動手外骨格設計のための最適化手法の強化
Enhanced Optimization Strategies to Design an Underactuated Hand Exoskeleton ( http://arxiv.org/abs/2408.07384v1 ) ライセンス: Link先を確認 | Baris Akbas, Huseyin Taner Yuksel, Aleyna Soylemez, Mine Sarac, Fabio Stroppa, | (参考訳) 外骨格は人間の強さを高め、身体障害を持つ個人に補助を与える。
しかし、その設計における安全性と最適性能を保証することは、重大な課題となる。
本研究は,まず1つの目的(最大力伝達)を含む不動手外骨格(U-HEx)の設計プロセスを示し,次に多目的(トルク分散とアクチュエータ変位の最小化)に展開する。
この最適化は、遺伝的アルゴリズム、ビッグバン・ビッグCrunchアルゴリズム、および多目的最適化のためのそれらのバージョンに依存している。
分析により、Big Bang-Big Crunchを使用することで、収束時間の低い最適性の観点から、高い、より一貫性のある結果が得られることが明らかになった。
さらに、より多くの目的を追加することで、デザイナはさまざまなトレードオフソリューションを提供します。彼らは後に、最適化アルゴリズムと計算負担の複雑さを犠牲にして、プロセスを繰り返すことなく、目的のために優先順位を設定するかもしれません。
これらの知見は、外骨格を設計しながら適切な最適化を行うことの重要性と、この特定のロボット設計に大幅な改善をもたらすことを明確に示している。
Exoskeletons can boost human strength and provide assistance to individuals with physical disabilities. However, ensuring safety and optimal performance in their design poses substantial challenges. This study presents the design process for an underactuated hand exoskeleton (U-HEx), first including a single objective (maximizing force transmission), then expanding into multi objective (also minimizing torque variance and actuator displacement). The optimization relies on a Genetic Algorithm, the Big Bang-Big Crunch Algorithm, and their versions for multi-objective optimization. Analyses revealed that using Big Bang-Big Crunch provides high and more consistent results in terms of optimality with lower convergence time. In addition, adding more objectives offers a variety of trade-off solutions to the designers, who might later set priorities for the objectives without repeating the process - at the cost of complicating the optimization algorithm and computational burden. These findings underline the importance of performing proper optimization while designing exoskeletons, as well as providing a significant improvement to this specific robotic design. | 翻訳日:2024-08-15 14:04:00 公開日:2024-08-14 |
# フェーディングメモリと畳み込み定理
Fading memory and the convolution theorem ( http://arxiv.org/abs/2408.07386v1 ) ライセンス: Link先を確認 | Juan-Pablo Ortega, Florian Rossmannek, | (参考訳) 因果フィルタと時間不変フィルタの連続性とフェードメモリの位相的および解析的概念を導入し,それらの関係を解析する。
減少するメモリ特性と線形フィルタの畳み込み表現の可利用性との等価性を確立する畳み込み定理の有意な一般化が証明された。
この結果は、フェードメモリ特性の定義における重み付けされたノルムの完全な配列に、そのような特徴を拡張します。
さらに、主定理は畳み込み表現の可用性を、少なくとも共領域が有限次元であるとき、フェーディングメモリ特性だけでなく、最小連続性と最小のフェーディングメモリ特性と呼ばれる2つの純粋トポロジカルな概念の再結合によって特徴づけることができることを示している。
最後に、線形汎函数の入力空間と余領域がヒルベルト空間であるとき、最小の連続性と最小のフェードメモリ特性は、関連する再生カーネルヒルベルト空間の興味深い埋め込みの存在を保証し、有限データセットの存在下でのカーネル回帰の解の近似結果を与えることを示した。
Several topological and analytical notions of continuity and fading memory for causal and time-invariant filters are introduced, and the relations between them are analysed. A significant generalization of the convolution theorem that establishes the equivalence between the fading memory property and the availability of convolution representations of linear filters is proved. This result extends a previous such characterization to a complete array of weighted norms in the definition of the fading memory property. Additionally, the main theorem shows that the availability of convolution representations can be characterized, at least when the codomain is finite-dimensional, not only by the fading memory property but also by the reunion of two purely topological notions that are called minimal continuity and minimal fading memory property. Finally, when the input space and the codomain of a linear functional are Hilbert spaces, it is shown that minimal continuity and the minimal fading memory property guarantee the existence of interesting embeddings of the associated reproducing kernel Hilbert spaces and approximation results of solutions of kernel regressions in the presence of finite data sets. | 翻訳日:2024-08-15 13:54:15 公開日:2024-08-14 |
# DPSNN:低レイテンシストリーム音声強調のためのスパイクニューラルネットワーク
DPSNN: Spiking Neural Network for Low-Latency Streaming Speech Enhancement ( http://arxiv.org/abs/2408.07388v1 ) ライセンス: Link先を確認 | Tao Sun, Sander Bohté, | (参考訳) 音声強調(SE)は、ノイズの多い環境でのコミュニケーションを改善し、自動音声認識、補聴器、電気通信などの分野に影響を与える。
これらのドメインは通常、低レイテンシを必要とする一方で、電力制約とイベントベースのため、スパイキングニューラルネットワーク(SNN)という形でニューロモルフィックアルゴリズムには大きな可能性がある。
しかし、現在の効果的なSNNソリューションは、多くのアプリケーションでは長すぎる32ミリ秒の遅延を、コンテキスト的にサンプリングするウィンドウを必要とする。
従来のニューラルネットワークではDual-Path Spiking Neural Networks(DPSNN)にヒントを得て,Dual-Path Spiking Neural Network(DPSNN)と呼ばれる2フェーズのタイムドメインストリーミングSNNフレームワークを開発した。
DPSNNでは、第1フェーズはSpyking Convolutional Neural Networks(SCNN)を使用してグローバルなコンテキスト情報をキャプチャし、第2フェーズはSpiking Recurrent Neural Networks(SRNN)を使用して周波数関連機能にフォーカスする。
さらに、レギュレータは活性化を抑制し、DPSNNのエネルギー効率をさらに高めます。
VCTKとIntel DNSデータセットに基づいて,本手法は補聴器などのアプリケーションに必要な非常に低レイテンシ(約5ms)を実現するとともに,優れた信号対雑音比(SNR),知覚品質,エネルギー効率を示す。
Speech enhancement (SE) improves communication in noisy environments, affecting areas such as automatic speech recognition, hearing aids, and telecommunications. With these domains typically being power-constrained and event-based while requiring low latency, neuromorphic algorithms in the form of spiking neural networks (SNNs) have great potential. Yet, current effective SNN solutions require a contextual sampling window imposing substantial latency, typically around 32ms, too long for many applications. Inspired by Dual-Path Spiking Neural Networks (DPSNNs) in classical neural networks, we develop a two-phase time-domain streaming SNN framework -- the Dual-Path Spiking Neural Network (DPSNN). In the DPSNN, the first phase uses Spiking Convolutional Neural Networks (SCNNs) to capture global contextual information, while the second phase uses Spiking Recurrent Neural Networks (SRNNs) to focus on frequency-related features. In addition, the regularizer suppresses activation to further enhance energy efficiency of our DPSNNs. Evaluating on the VCTK and Intel DNS Datasets, we demonstrate that our approach achieves the very low latency (approximately 5ms) required for applications like hearing aids, while demonstrating excellent signal-to-noise ratio (SNR), perceptual quality, and energy efficiency. | 翻訳日:2024-08-15 13:54:15 公開日:2024-08-14 |
# たった1つの例によるセグメンテーション
Segment Using Just One Example ( http://arxiv.org/abs/2408.07393v1 ) ライセンス: Link先を確認 | Pratik Vora, Sudipan Saha, | (参考訳) セマンティックセグメンテーションはコンピュータビジョンにおいて重要なトピックであり、地球観測に多くの関連する応用がある。
教師なし手法は存在するが、制限付きアノテートデータの制約により教師なし手法の開発が促進されている。
しかし、既存の教師なしメソッドはクラスタリングに似ているため、明示的なターゲットクラスに直接マッピングすることはできない。
本稿では,単一ショットセマンティックセマンティックセマンティクスを扱い,対象クラスの1つの例をクエリ/テスト画像から対象クラスのセマンティフィケーションに使用する。
我々のアプローチは、最近人気になったSegment Anything(SAM)を利用しています。
具体的には、サンプル/キー画像とクエリ/テスト画像の縫合や結合においてセグメンテーションが成功するように、唯一の例/キー画像からプロンプトを自動的に生成するいくつかのテクニックを設計する。
提案されたテクニックはトレーニングフェーズを含まないため、概念を理解するのに1つのサンプルイメージが必要である。
また,提案手法ではテキストベースのプロンプトは不要である。
提案手法を建築と自動車の授業で評価した。
Semantic segmentation is an important topic in computer vision with many relevant application in Earth observation. While supervised methods exist, the constraints of limited annotated data has encouraged development of unsupervised approaches. However, existing unsupervised methods resemble clustering and cannot be directly mapped to explicit target classes. In this paper, we deal with single shot semantic segmentation, where one example for the target class is provided, which is used to segment the target class from query/test images. Our approach exploits recently popular Segment Anything (SAM), a promptable foundation model. We specifically design several techniques to automatically generate prompts from the only example/key image in such a way that the segmentation is successfully achieved on a stitch or concatenation of the example/key and query/test images. Proposed technique does not involve any training phase and just requires one example image to grasp the concept. Furthermore, no text-based prompt is required for the proposed method. We evaluated the proposed techniques on building and car classes. | 翻訳日:2024-08-15 13:54:15 公開日:2024-08-14 |
# Sum-Product-Set Networks
Sum-Product-Set Networks ( http://arxiv.org/abs/2408.07394v1 ) ライセンス: Link先を確認 | Milan Papež, Martin Rektoris, Tomáš Pevný, Václav Šmídl, | (参考訳) 毎日のインターネット通信は木構造グラフに大きく依存しており、XMLやJSONといった一般的なデータフォーマットが具体化している。
しかし、近年の多くの生成的(確率論的)モデルでは、ニューラルネットワークを用いて、無向巡回グラフ上の確率分布を学習している。
この一般的なグラフ構造の仮定は、様々な計算上の課題をもたらし、さらに重要なのは、ニューラルネットワークに非線形性が存在することは、抽出可能な確率的推論を許さないことである。
本研究では,非構造テンソルデータから木構造グラフデータへの確率回路の拡張であるSum-product-set Networkを提案する。
この目的のために、ランダム有限集合を用いて、グラフ内の可変数のノードとエッジを反映し、正確かつ効率的な推論を可能にする。
我々は,ニューラルネットワークに基づく様々な抽出可能なモデルに対して,抽出可能なモデルが比較可能であることを実証した。
Daily internet communication relies heavily on tree-structured graphs, embodied by popular data formats such as XML and JSON. However, many recent generative (probabilistic) models utilize neural networks to learn a probability distribution over undirected cyclic graphs. This assumption of a generic graph structure brings various computational challenges, and, more importantly, the presence of non-linearities in neural networks does not permit tractable probabilistic inference. We address these problems by proposing sum-product-set networks, an extension of probabilistic circuits from unstructured tensor data to tree-structured graph data. To this end, we use random finite sets to reflect a variable number of nodes and edges in the graph and to allow for exact and efficient inference. We demonstrate that our tractable model performs comparably to various intractable models based on neural networks. | 翻訳日:2024-08-15 13:54:15 公開日:2024-08-14 |
# 統一行動空間を用いた物理不均一なマルチエージェント強化学習におけるグローバルパラメータ共有の改善
Improving Global Parameter-sharing in Physically Heterogeneous Multi-agent Reinforcement Learning with Unified Action Space ( http://arxiv.org/abs/2408.07395v1 ) ライセンス: Link先を確認 | Xiaoyang Yu, Youfang Lin, Shuo Wang, Kai Lv, Sheng Han, | (参考訳) マルチエージェントシステム(MAS)では、アクションセマンティクスはエージェントの他のエンティティに対する作用の異なる影響を示し、エージェントを物理的に不均一なMAS内のグループに分割するために使用することができる。
従来のマルチエージェント強化学習(MARL)アルゴリズムは、異なるアクションセマンティクスを慎重に識別することなく、異なる種類の異種エージェント間でグローバルパラメータ共有を適用する。
この共通実装は複雑な状況下でのエージェント間の協調と協調を減少させる。
しかし、完全に独立したエージェントパラメータは、計算コストとトレーニングの難しさを劇的に向上させる。
適切なパラメータ共有構造を維持しつつ、異なるアクションセマンティクスの使用の恩恵を受けるため、要求を満たすために統一アクション空間(UAS)を導入する。
UASは、異なる意味を持つすべてのエージェントアクションの連合集合である。
すべてのエージェントはまずUASで統一表現を計算し、異なる利用可能なアクションマスクを使用して不均一なアクションポリシーを生成する。
付加的なUASパラメータのトレーニングを改善するために,他のグループのエージェントポリシーを軌跡情報で予測するクロスグループ反転(CGI)損失を導入する。
物理不均一なMARL問題の解法として、値ベースとポリシーベースのMARLアルゴリズムに付加するUASを実装し、U-QMIXとU-MAPPOの2つの実用的なアルゴリズムを提案する。
SMAC環境における実験結果から,U-QMIXとU-MAPPOの両方の有効性が証明された。
In a multi-agent system (MAS), action semantics indicates the different influences of agents' actions toward other entities, and can be used to divide agents into groups in a physically heterogeneous MAS. Previous multi-agent reinforcement learning (MARL) algorithms apply global parameter-sharing across different types of heterogeneous agents without careful discrimination of different action semantics. This common implementation decreases the cooperation and coordination between agents in complex situations. However, fully independent agent parameters dramatically increase the computational cost and training difficulty. In order to benefit from the usage of different action semantics while also maintaining a proper parameter-sharing structure, we introduce the Unified Action Space (UAS) to fulfill the requirement. The UAS is the union set of all agent actions with different semantics. All agents first calculate their unified representation in the UAS, and then generate their heterogeneous action policies using different available-action-masks. To further improve the training of extra UAS parameters, we introduce a Cross-Group Inverse (CGI) loss to predict other groups' agent policies with the trajectory information. As a universal method for solving the physically heterogeneous MARL problem, we implement the UAS adding to both value-based and policy-based MARL algorithms, and propose two practical algorithms: U-QMIX and U-MAPPO. Experimental results in the SMAC environment prove the effectiveness of both U-QMIX and U-MAPPO compared with several state-of-the-art MARL methods. | 翻訳日:2024-08-15 13:54:15 公開日:2024-08-14 |
# DataVisT5: テキストとデータの可視化を共同で理解するための事前学習型言語モデル
DataVisT5: A Pre-trained Language Model for Jointly Understanding Text and Data Visualization ( http://arxiv.org/abs/2408.07401v1 ) ライセンス: Link先を確認 | Zhuoyue Wan, Yuanfeng Song, Shuaimin Li, Chen Jason Zhang, Raymond Chi-Wing Wong, | (参考訳) データビジュアライゼーション(DV)は、既存のデータ駆動の世界で広く受け入れられているビッグデータの背後にある洞察を伝える上で、効率を向上させるための基本的かつ前提的ツールである。
例えば、自然言語クエリをビジュアライゼーションに変換すること(例えば、テキストからビジュアライゼーション)、ビジュアライゼーションから説明を生成すること(例えば、vis-to-text)、自由形式のDV関連質問に答えること(例えば、FeVisQA)、表データ(すなわち、テーブルからテキスト)を抽出することなど、DVにおけるタスク自動化は、フィールドを前進させる上で不可欠である。
これらの可能性にもかかわらず、T5やBERTのような事前訓練された言語モデル(PLM)をDVに適用することは、クロスモーダル情報を扱う上でのコストと課題によって制限されており、DVのためのPLMの研究はほとんど行われていない。
テキストとDVデータセットを統合して、相互モーダルなセマンティクスを効果的に解釈し、T5アーキテクチャを強化した新しいPLMである \textbf{DataVisT5}を紹介した。
公開データセットの大規模な評価は、DataVisT5がさまざまなDV関連タスクにおける現在の最先端モデルよりも一貫して優れていることを示している。
我々は、DataVisT5が垂直PLMのさらなる研究を刺激するだけでなく、PLMの応用範囲を広げることを期待している。
Data visualization (DV) is the fundamental and premise tool to improve the efficiency in conveying the insights behind the big data, which has been widely accepted in existing data-driven world. Task automation in DV, such as converting natural language queries to visualizations (i.e., text-to-vis), generating explanations from visualizations (i.e., vis-to-text), answering DV-related questions in free form (i.e. FeVisQA), and explicating tabular data (i.e., table-to-text), is vital for advancing the field. Despite their potential, the application of pre-trained language models (PLMs) like T5 and BERT in DV has been limited by high costs and challenges in handling cross-modal information, leading to few studies on PLMs for DV. We introduce \textbf{DataVisT5}, a novel PLM tailored for DV that enhances the T5 architecture through a hybrid objective pre-training and multi-task fine-tuning strategy, integrating text and DV datasets to effectively interpret cross-modal semantics. Extensive evaluations on public datasets show that DataVisT5 consistently outperforms current state-of-the-art models on various DV-related tasks. We anticipate that DataVisT5 will not only inspire further research on vertical PLMs but also expand the range of applications for PLMs. | 翻訳日:2024-08-15 13:54:15 公開日:2024-08-14 |
# 量子インスピレーションによる人間の曖昧化過程の解析
A Quantum-Inspired Analysis of Human Disambiguation Processes ( http://arxiv.org/abs/2408.07402v1 ) ライセンス: Link先を確認 | Daphne Wang, | (参考訳) フォーマル言語はコンピュータプログラミングに必須であり、コンピュータで容易に処理できるように構築されている。
対照的に、自然言語はより困難であり、自然言語処理(NLP)の分野を扇動している。
最大の障害はあいまいさの普遍性である。
NLPの最近の進歩は、あいまいさを高精度に解決できる大規模な言語モデルの開発につながっている。
同時に、量子コンピュータは古典的コンピュータよりも高速に計算問題を解くことができるため、近年多くの注目を集めている。
この新しいコンピューティングパラダイムは、ハイブリッド古典量子学習アルゴリズムが出現する機械学習とNLPの分野に到達した。
しかし、どのNLPタスクが真に量子的優位性から恩恵を受けるかを特定するためには、さらなる研究が必要である。
この論文では、文脈性や因果性などの基礎量子力学から生じる形式主義を言語学から生じる曖昧さの研究に適用した。
また,人間の曖昧性に関する心理言語学的結果も再現した。
これらの結果はその後の人間の行動予測や現在のNLP法よりも優れていた。
Formal languages are essential for computer programming and are constructed to be easily processed by computers. In contrast, natural languages are much more challenging and instigated the field of Natural Language Processing (NLP). One major obstacle is the ubiquity of ambiguities. Recent advances in NLP have led to the development of large language models, which can resolve ambiguities with high accuracy. At the same time, quantum computers have gained much attention in recent years as they can solve some computational problems faster than classical computers. This new computing paradigm has reached the fields of machine learning and NLP, where hybrid classical-quantum learning algorithms have emerged. However, more research is needed to identify which NLP tasks could benefit from a genuine quantum advantage. In this thesis, we applied formalisms arising from foundational quantum mechanics, such as contextuality and causality, to study ambiguities arising from linguistics. By doing so, we also reproduced psycholinguistic results relating to the human disambiguation process. These results were subsequently used to predict human behaviour and outperformed current NLP methods. | 翻訳日:2024-08-15 13:54:15 公開日:2024-08-14 |
# 量子計測によるコヒーレント状態からのフォック状態重畳の生成
Generating Fock-state superposition from coherent state by quantum measurement ( http://arxiv.org/abs/2408.07403v1 ) ライセンス: Link先を確認 | Chen-yi Zhang, Jun Jing, | (参考訳) 高レベルのフォック状態とその重ね合わせは、本質的には非古典物理学のためのエキゾチックなテストベッドであり、量子技術のための貴重な資源である。
我々は、任意のフォック状態と選択された重畳されたフォック状態を生成するための量子計測の簡単なプロトコルを、ターゲット共振器のコヒーレント状態から、慎重に調整された外部駆動なしに提供する。
この条件付きプロトコルは、Jaynes-Cummings相互作用を介して結合された共振器とAcillary qubitの連成自由進化シーケンスと、qubit上の射影測定によって効率的に構築することができる。
各展開測定サイクルと共振器の初期状態の期間を適切に選択することにより、所望のフォック状態 $|n\rangle$ と重畳されたフォック状態 $(|0\rangle+|n\rangle)/\sqrt{2}$, $n\sim10$ を30ドル未満で生成できる。
さらに、このプロトコルは二重共振器系において、多重励起ベル状態 $(|00\rangle+|nn\rangle)/\sqrt{2}$ に簡単に拡張できる。
High-level Fock states and their superpositions are essentially exotic testbeds for nonclassical physics and valuable resources for quantum technologies. We provide a simple protocol on quantum measurement to generate an arbitrary Fock state and selected superposed Fock states from a coherent state of a target resonator, without any carefully tailored external driving. This conditional protocol can be efficiently constructed by a sequence of joint free-evolution of the resonator and an ancillary qubit, that are coupled via a Jaynes-Cummings interaction, and projective measurements on the qubit. By properly choosing the duration of each evolution-measurement cycle and the initial state of the resonator, we can generate a desired Fock state $|n\rangle$ and a superposed Fock state $(|0\rangle+|n\rangle)/\sqrt{2}$, $n\sim10$, with a fidelity over $99\%$ in less than $30$ measurements. Moreover, our protocol can be straightforwardly extended to the generation of a multi-excitation Bell state $(|00\rangle+|nn\rangle)/\sqrt{2}$ in a double-resonator system. | 翻訳日:2024-08-15 13:54:15 公開日:2024-08-14 |
# 効率的なエッジAI:Gemmini Acceleratorを使ってFPGAに畳み込みニューラルネットワークをデプロイする
Efficient Edge AI: Deploying Convolutional Neural Networks on FPGA with the Gemmini Accelerator ( http://arxiv.org/abs/2408.07404v1 ) ライセンス: Link先を確認 | Federico Nicolas Peccia, Svetlana Pavlitska, Tobias Fleck, Oliver Bringmann, | (参考訳) エネルギー消費とプライバシに関する懸念が高まっているため、エッジにデプロイ可能なAIソリューションの開発が進められ、クラウドサーバに関連するCO2排出量を回避し、機密データの共有に関わるリスクを軽減している。
しかし、非既製のエッジデバイスに畳み込みニューラルネットワーク(CNN)をデプロイするのは、複雑で労働集約的な作業である。
本稿では、Gemminiアクセラレータを用いて、CNNをFPGA上に配置するためのエンドツーエンドワークフローを提示し、FPGA上での効率的な実装のために修正した。
デプロイメントプロセスの各最適化ステップにおいて、オープンソースソフトウェアの使用をどのように活用するか、それらに追加したカスタマイズと、最終的なシステムのパフォーマンスへの影響を説明します。
Xilinx ZCU102 FPGA 上で YOLOv7 モデルを36.5 GOP/s/W のエネルギー効率で実装することにより,リアルタイムな性能を実現することができた。
我々のFPGAベースのソリューションは、他の組み込みハードウェアデバイスよりも優れた電力効率を示し、FPGAのリファレンス実装よりも優れています。
最後に,提案するプラットフォームをトラフィック監視シナリオでテストすることにより,このようなソリューションをより広範なシステムに統合する方法について述べる。
The growing concerns regarding energy consumption and privacy have prompted the development of AI solutions deployable on the edge, circumventing the substantial CO2 emissions associated with cloud servers and mitigating risks related to sharing sensitive data. But deploying Convolutional Neural Networks (CNNs) on non-off-the-shelf edge devices remains a complex and labor-intensive task. In this paper, we present and end-to-end workflow for deployment of CNNs on Field Programmable Gate Arrays (FPGAs) using the Gemmini accelerator, which we modified for efficient implementation on FPGAs. We describe how we leverage the use of open source software on each optimization step of the deployment process, the customizations we added to them and its impact on the final system's performance. We were able to achieve real-time performance by deploying a YOLOv7 model on a Xilinx ZCU102 FPGA with an energy efficiency of 36.5 GOP/s/W. Our FPGA-based solution demonstrates superior power efficiency compared with other embedded hardware devices, and even outperforms other FPGA reference implementations. Finally, we present how this kind of solution can be integrated into a wider system, by testing our proposed platform in a traffic monitoring scenario. | 翻訳日:2024-08-15 13:54:15 公開日:2024-08-14 |
# Aquila2技術報告
Aquila2 Technical Report ( http://arxiv.org/abs/2408.07410v1 ) ライセンス: Link先を確認 | Bo-Wen Zhang, Liangdong Wang, Jijie Li, Shuhao Gu, Xinya Wu, Zhengduo Zhang, Boyan Gao, Yulong Ao, Guang Liu, | (参考訳) 本稿では,パラメータサイズ7,34,70億の幅広いバイリンガルモデルからなるAquila2シリーズを紹介する。
これらのモデルは、モデル収束に関するリアルタイム洞察を提供し、トレーニングプロセスとデータ管理を強化する、HeuriMentor(HM)と呼ばれる革新的なフレームワークに基づいてトレーニングされる。
適応訓練エンジン(ATE)、訓練状態モニター(TSM)、データ管理ユニット(DMU)で構成されるHMシステムは、モデルのトレーニング進捗を正確に監視し、データ分散の効率的な最適化を可能にし、トレーニングの有効性を高める。
広範囲な評価の結果、Aquila2モデルシリーズは英語と中国語のベンチマークで比較可能な性能を示した。
具体的には、Aquila2-34BはInt4に量子化されるとわずかに性能が低下する。
さらに、トレーニングコード (https://github.com/FlagOpen/FlagScale) とモデルウェイト (https://github.com/FlagAI-Open/Aquila2) も公開して、現在進行中の研究とアプリケーションの開発を支援しています。
This paper introduces the Aquila2 series, which comprises a wide range of bilingual models with parameter sizes of 7, 34, and 70 billion. These models are trained based on an innovative framework named HeuriMentor (HM), which offers real-time insights into model convergence and enhances the training process and data management. The HM System, comprising the Adaptive Training Engine (ATE), Training State Monitor (TSM), and Data Management Unit (DMU), allows for precise monitoring of the model's training progress and enables efficient optimization of data distribution, thereby enhancing training effectiveness. Extensive evaluations show that the Aquila2 model series performs comparably well on both English and Chinese benchmarks. Specifically, Aquila2-34B demonstrates only a slight decrease in performance when quantized to Int4. Furthermore, we have made our training code (https://github.com/FlagOpen/FlagScale) and model weights (https://github.com/FlagAI-Open/Aquila2) publicly available to support ongoing research and the development of applications. | 翻訳日:2024-08-15 13:54:15 公開日:2024-08-14 |
# 重ね合わせにおける知識:大規模言語モデルのための生涯的知識編集の失敗を回避する
Knowledge in Superposition: Unveiling the Failures of Lifelong Knowledge Editing for Large Language Models ( http://arxiv.org/abs/2408.07413v1 ) ライセンス: Link先を確認 | Chenhui Hu, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao, | (参考訳) 知識編集は、大規模言語モデル(LLM)において、時代遅れまたは誤った知識を更新することを目的としている。
しかし、現在の知識編集手法は生涯編集のスケーラビリティに限界がある。
本研究は,生涯編集において知識編集が失敗する根本的な理由を考察する。
まず、線形連想メモリから得られる閉形式解から始め、最先端の知識編集手法の基盤となる。
我々は、単一編集から生涯編集まで、厳密な数学的導出を通じて最終解における干渉項を特定し、編集知識が無関係な知識に影響を与えることを示唆する。
干渉項のさらなる解析により、知識表現間の重ね合わせと密接な関係が明らかになる。
言語モデルに知識重畳が存在しない場合、干渉項は消滅し、損失のない知識編集が可能となる。
多くの言語モデルに対する実験により、知識重畳は普遍的であり、高い曲率、平均ゼロ、明確なスケーリング法則を持つ重み付き分布を示すことが明らかになった。
最終的に、理論と実験を組み合わせることで、知識の重ね合わせが生涯の編集に失敗する根本的な理由であることを実証する。
さらに、重ね合わせの観点から知識編集を調査する最初の研究であり、多くの実世界の言語モデルにまたがる重ね合わせを包括的に観察する。
コードはhttps://github.com/ChenhuiHu/knowledge_in_superpositionで公開されている。
Knowledge editing aims to update outdated or incorrect knowledge in large language models (LLMs). However, current knowledge editing methods have limited scalability for lifelong editing. This study explores the fundamental reason why knowledge editing fails in lifelong editing. We begin with the closed-form solution derived from linear associative memory, which underpins state-of-the-art knowledge editing methods. We extend the solution from single editing to lifelong editing, and through rigorous mathematical derivation, identify an interference term in the final solution, suggesting that editing knowledge may impact irrelevant knowledge. Further analysis of the interference term reveals a close relationship with superposition between knowledge representations. When knowledge superposition does not exist in language models, the interference term vanishes, allowing for lossless knowledge editing. Experiments across numerous language models reveal that knowledge superposition is universal, exhibiting high kurtosis, zero mean, and heavy-tailed distributions with clear scaling laws. Ultimately, by combining theory and experiments, we demonstrate that knowledge superposition is the fundamental reason for the failure of lifelong editing. Moreover, this is the first study to investigate knowledge editing from the perspective of superposition and provides a comprehensive observation of superposition across numerous real-world language models. Code available at https://github.com/ChenhuiHu/knowledge_in_superposition. | 翻訳日:2024-08-15 13:54:15 公開日:2024-08-14 |
# 3次元空間におけるラジアンス場の開語彙セグメンテーションの再考
Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space ( http://arxiv.org/abs/2408.07416v1 ) ライセンス: Link先を確認 | Hyunjee Lee, Youngsik Yun, Jeongmin Bae, Seoha Kim, Youngjung Uh, | (参考訳) シーンの3Dセマンティクスを理解することは、エンボディエージェントのような様々なシナリオの基本的な問題である。
NeRFと3DGSは新規合成において優れているが、それらの意味を理解するための従来の方法は不完全な3D理解に限られている。
本稿では,NeRF と 3DGS がモデル化したシーンの3次元理解を改善するために設定した問題点を再考する。
1)言語埋め込みフィールドをトレーニングするために,直接3Dポイントを監督する。
マルチスケールの言語埋め込みに頼ることなく、最先端の精度を実現する。
2)事前学習した言語フィールドを3DGSに転送し,トレーニング時間や精度を犠牲にすることなく,最初のリアルタイムレンダリング速度を達成する。
3)再構成された幾何と意味論を一緒に評価するための3Dクエリーおよび評価プロトコルを導入する。
コード、チェックポイント、アノテーションはオンラインで入手できる。
プロジェクトページ:https://hyunji12.github.io/Open3DRF
Understanding the 3D semantics of a scene is a fundamental problem for various scenarios such as embodied agents. While NeRFs and 3DGS excel at novel-view synthesis, previous methods for understanding their semantics have been limited to incomplete 3D understanding: their segmentation results are 2D masks and their supervision is anchored at 2D pixels. This paper revisits the problem set to pursue a better 3D understanding of a scene modeled by NeRFs and 3DGS as follows. 1) We directly supervise the 3D points to train the language embedding field. It achieves state-of-the-art accuracy without relying on multi-scale language embeddings. 2) We transfer the pre-trained language field to 3DGS, achieving the first real-time rendering speed without sacrificing training time or accuracy. 3) We introduce a 3D querying and evaluation protocol for assessing the reconstructed geometry and semantics together. Code, checkpoints, and annotations will be available online. Project page: https://hyunji12.github.io/Open3DRF | 翻訳日:2024-08-15 13:54:15 公開日:2024-08-14 |
# ゴーストキッチンによるレストランの食肉配達問題
The Restaurant Meal Delivery Problem with Ghost Kitchens ( http://arxiv.org/abs/2408.07417v1 ) ライセンス: Link先を確認 | Gal Neria, Florentin D Hildebrandt, Michal Tzur, Marlin W Ulmer, | (参考訳) レストランの食事の配達はここ数年急速に増えている。
運用上の主な課題は、時間的・空間的に分散した確率的需要であり、街中の顧客からやってくるだけでなく、顧客がタイムリーで新鮮な配送を期待していることである。
これらの課題を克服するため、新しいビジネスコンセプト「ゴーストキッチン」が誕生した。
この概念は、コンソリデーションの恩恵を生かして、中央の複合施設にある複数のレストランの同期食品準備を提案する。
しかし, 食品の調理・配達の動的スケジューリングは困難であり, ゴーストキッチンの運用を効果的に行うための運用戦略を提案する。
私たちは問題をシーケンシャルな意思決定プロセスとしてモデル化します。
注文準備のスケジューリング,旅行への注文の統合,旅行旅行のスケジューリングといった複雑な複合的・複合的決定空間に対して,部分的決定に基づく大規模近傍探索手法を提案し,解析的性質によって駆動する。
大きな近所の探索では、決定は値関数近似によって評価され、予測とリアルタイムの意思決定を可能にする。
本手法の有効性を示し,従来の食事デリバリーシステムと比較してゴーストキッチンの価値を示す。
我々は,料理のスケジューリングと車両の派遣を統合的に最適化するだけでなく,今後の需要や意思決定の予測も成功に欠かせないことを示す。
さらに、早産と生鮮食品のトレードオフを慎重に検討すべきという、いくつかの管理上の洞察を導き出します。
Restaurant meal delivery has been rapidly growing in the last few years. The main challenges in operating it are the temporally and spatially dispersed stochastic demand that arrives from customers all over town as well as the customers' expectation of timely and fresh delivery. To overcome these challenges a new business concept emerged, "Ghost kitchens". This concept proposes synchronized food preparation of several restaurants in a central complex, exploiting consolidation benefits. However, dynamically scheduling food preparation and delivery is challenging and we propose operational strategies for the effective operations of ghost kitchens. We model the problem as a sequential decision process. For the complex, combinatorial decision space of scheduling order preparations, consolidating orders to trips, and scheduling trip departures, we propose a large neighborhood search procedure based on partial decisions and driven by analytical properties. Within the large neighborhood search, decisions are evaluated via a value function approximation, enabling anticipatory and real-time decision making. We show the effectiveness of our method and demonstrate the value of ghost kitchens compared to conventional meal delivery systems. We show that both integrated optimization of cook scheduling and vehicle dispatching, as well as anticipation of future demand and decisions, are essential for successful operations. We further derive several managerial insights, amongst others, that companies should carefully consider the trade-off between fast delivery and fresh food. | 翻訳日:2024-08-15 13:54:15 公開日:2024-08-14 |
# 誤差予測に基づくVHRリモートセンシング画像のための教師なしステレオマッチングネットワーク
Unsupervised Stereo Matching Network For VHR Remote Sensing Images Based On Error Prediction ( http://arxiv.org/abs/2408.07419v1 ) ライセンス: Link先を確認 | Liting Jiang, Yuming Xiang, Feng Wang, Hongjian You, | (参考訳) リモートセンシングにおけるステレオマッチングは、主に教師付き学習に焦点をあてて、近年注目を集めている。
しかし、高価なリダルによって生成された地上の真実を持つデータセットは、限られた量と多様性を示し、教師付きネットワークの有効性を制限している。
対照的に、教師なし学習手法は、超高解像度(VHR)リモートセンシング画像の高可用性を生かし、ステレオマッチングの領域でかなりの可能性を秘めている。
そこで本研究では,VHRリモートセンシング画像のための非教師なしステレオマッチングネットワークを提案する。
予測誤差で信頼性をブリッジする軽量モジュールを導入し、コアモデルを洗練する。
ネットワーク収束を高めるために、ロバストな教師なし損失が定式化される。
US3DおよびWHU-Stereoデータセットの実験結果から,提案したネットワークは他の教師なしネットワークと比較して精度が高く,教師付きモデルよりも優れた一般化能力を示すことが示された。
私たちのコードはhttps://github.com/Elenairene/CBEM.comで公開されます。
Stereo matching in remote sensing has recently garnered increased attention, primarily focusing on supervised learning. However, datasets with ground truth generated by expensive airbone Lidar exhibit limited quantity and diversity, constraining the effectiveness of supervised networks. In contrast, unsupervised learning methods can leverage the increasing availability of very-high-resolution (VHR) remote sensing images, offering considerable potential in the realm of stereo matching. Motivated by this intuition, we propose a novel unsupervised stereo matching network for VHR remote sensing images. A light-weight module to bridge confidence with predicted error is introduced to refine the core model. Robust unsupervised losses are formulated to enhance network convergence. The experimental results on US3D and WHU-Stereo datasets demonstrate that the proposed network achieves superior accuracy compared to other unsupervised networks and exhibits better generalization capabilities than supervised models. Our code will be available at https://github.com/Elenairene/CBEM. | 翻訳日:2024-08-15 13:54:15 公開日:2024-08-14 |
# LLMI3D: 単一2次元画像からの3次元知覚によるLLMの強化
LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image ( http://arxiv.org/abs/2408.07422v1 ) ライセンス: Link先を確認 | Fan Yang, Sicheng Zhao, Yanhao Zhang, Haoxiang Chen, Hui Chen, Wenbo Tang, Haonan Lu, Pengfei Xu, Zhenyu Yang, Jungong Han, Guiguang Ding, | (参考訳) 自律運転、拡張現実、ロボット工学、そして具現化された知能の最近の進歩は、3D知覚アルゴリズムを必要としている。
しかし、現在の3D認識手法、特に小さなモデルでは、論理的推論、質問応答、オープンシナリオカテゴリの処理に苦労している。
一方、生成型マルチモーダル大言語モデル(MLLM)は、空間的・局所的な物体認識の弱さ、テキストベースの幾何学的数値出力の低さ、カメラ焦点の変動に対処できないことなどから、一般的な能力では優れるが、3次元タスクでは不十分である。
これらの課題に対処するため,空間的特徴抽出のための空間的局所的特徴抽出法,精密な幾何学的回帰のための3次元問合せ情報復号法,カメラ焦点長変動を扱う幾何学的投影に基づく3次元推論法を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
さらに,詳細な記述と質問応答アノテーションを提供するIG3Dデータセットを構築した。
LLMI3Dは最先端の性能を実現し,既存手法よりも優れていた。
Recent advancements in autonomous driving, augmented reality, robotics, and embodied intelligence have necessitated 3D perception algorithms. However, current 3D perception methods, particularly small models, struggle with processing logical reasoning, question-answering, and handling open scenario categories. On the other hand, generative multimodal large language models (MLLMs) excel in general capacity but underperform in 3D tasks, due to weak spatial and local object perception, poor text-based geometric numerical output, and inability to handle camera focal variations. To address these challenges, we propose the following solutions: Spatial-Enhanced Local Feature Mining for better spatial feature extraction, 3D Query Token-Derived Info Decoding for precise geometric regression, and Geometry Projection-Based 3D Reasoning for handling camera focal length variations. We employ parameter-efficient fine-tuning for a pre-trained MLLM and develop LLMI3D, a powerful 3D perception MLLM. Additionally, we have constructed the IG3D dataset, which provides fine-grained descriptions and question-answer annotations. Extensive experiments demonstrate that our LLMI3D achieves state-of-the-art performance, significantly outperforming existing methods. | 翻訳日:2024-08-15 13:54:15 公開日:2024-08-14 |
# アラビアにおける検索能力向上の探究
Exploring Retrieval Augmented Generation in Arabic ( http://arxiv.org/abs/2408.07425v1 ) ライセンス: Link先を確認 | Samhaa R. El-Beltagy, Mohamed A. Abdallah, | (参考訳) 近年,検索ベースモデルと生成ベースモデルの強みを融合してテキスト生成タスクを向上する,自然言語処理における強力な手法として,検索型拡張生成(RAG)が登場している。
しかしながら、独自の特徴とリソース制約を持つ言語であるアラビア語でのRAGの適用については、未検討のままである。
本稿ではアラビア文字に対するRAGの実装と評価に関する包括的ケーススタディを提案する。
この研究は、アラビア語の文脈で何が機能し、何が機能しないかを調査するために、検索段階における様々なセマンティック埋め込みモデルと世代段階における複数のLCMを探索することに焦点を当てている。
この研究は、検索段階における文書方言とクエリ方言のバリエーションの問題にも触れている。
その結果,既存のセマンティック埋め込みモデルとLLMを効果的に利用してアラビアRAGパイプラインを構築することが可能であることが示唆された。
Recently, Retrieval Augmented Generation (RAG) has emerged as a powerful technique in natural language processing, combining the strengths of retrieval-based and generation-based models to enhance text generation tasks. However, the application of RAG in Arabic, a language with unique characteristics and resource constraints, remains underexplored. This paper presents a comprehensive case study on the implementation and evaluation of RAG for Arabic text. The work focuses on exploring various semantic embedding models in the retrieval stage and several LLMs in the generation stage, in order to investigate what works and what doesn't in the context of Arabic. The work also touches upon the issue of variations between document dialect and query dialect in the retrieval stage. Results show that existing semantic embedding models and LLMs can be effectively employed to build Arabic RAG pipelines. | 翻訳日:2024-08-15 13:44:31 公開日:2024-08-14 |
# UAHOI: HOI検出のための不確かさを意識したロバストインタラクション学習
UAHOI: Uncertainty-aware Robust Interaction Learning for HOI Detection ( http://arxiv.org/abs/2408.07430v1 ) ライセンス: Link先を確認 | Mu Chen, Minghan Chen, Yi Yang, | (参考訳) 本稿では,画像やビデオフレーム内の人間と物体の相互作用を識別し,理解することの難しさに対処する。
Detection Transformer (DETR) に先んじられた最近の開発は、学習可能なクエリセットによって従来のリージョン提案を置き換えることで、大幅に改善されている。
しかし、トランスフォーマーが提供する強力な表現能力にもかかわらず、既存のHuman-Object Interaction (HOI) 検出手法は、複雑なインタラクションを扱う際には信頼度が低く、対話的なアクションを見渡す傾向にある。
これらの課題に対処するために,学習過程における予測の不確実性を明示的に推定し,検出と相互作用の予測の両方を洗練させる,不確実性を考慮したロバスト・ヒューマン・オブジェクト・インタラクション・ラーニングを提案する。
我々のモデルはHOI三重項を予測するだけでなく、これらの予測の不確実性も定量化する。
具体的には、予測の分散を通じてこの不確実性をモデル化し、最適化目標に組み込むことにより、予測分散に基づいて信頼閾値を適応的に調整することができる。
この統合は、手作業で設計したコンポーネントを使わずに、従来手法で一般的であった不正または曖昧な予測の悪影響を軽減し、自動的な信頼しきい値として機能する。
本手法は既存のHOI検出法に柔軟であり,精度が向上している。
V-COCO と HICO-DET の 2 つの標準ベンチマークで \textsc{UAHOI} を評価する。
実験により, 既存の最先端手法よりも精度が向上し, HOI検出の精度とロバスト性が向上することが実証された。
This paper focuses on Human-Object Interaction (HOI) detection, addressing the challenge of identifying and understanding the interactions between humans and objects within a given image or video frame. Spearheaded by Detection Transformer (DETR), recent developments lead to significant improvements by replacing traditional region proposals by a set of learnable queries. However, despite the powerful representation capabilities provided by Transformers, existing Human-Object Interaction (HOI) detection methods still yield low confidence levels when dealing with complex interactions and are prone to overlooking interactive actions. To address these issues, we propose a novel approach \textsc{UAHOI}, Uncertainty-aware Robust Human-Object Interaction Learning that explicitly estimates prediction uncertainty during the training process to refine both detection and interaction predictions. Our model not only predicts the HOI triplets but also quantifies the uncertainty of these predictions. Specifically, we model this uncertainty through the variance of predictions and incorporate it into the optimization objective, allowing the model to adaptively adjust its confidence threshold based on prediction variance. This integration helps in mitigating the adverse effects of incorrect or ambiguous predictions that are common in traditional methods without any hand-designed components, serving as an automatic confidence threshold. Our method is flexible to existing HOI detection methods and demonstrates improved accuracy. We evaluate \textsc{UAHOI} on two standard benchmarks in the field: V-COCO and HICO-DET, which represent challenging scenarios for HOI detection. Through extensive experiments, we demonstrate that \textsc{UAHOI} achieves significant improvements over existing state-of-the-art methods, enhancing both the accuracy and robustness of HOI detection. | 翻訳日:2024-08-15 13:44:31 公開日:2024-08-14 |
# ダブルブラケット量子アルゴリズムの最適化手法
Strategies for optimizing double-bracket quantum algorithms ( http://arxiv.org/abs/2408.07431v1 ) ライセンス: Link先を確認 | Li Xiaoyue, Matteo Robbiati, Andrea Pasquale, Edoardo Pedicillo, Andrew Wright, Stefano Carrazza, Marek Gluza, | (参考訳) 近年、固有状態を近似する回路をコンパイルする方法としてダブルブラケット量子アルゴリズムが提案されている。
物理的には、これらは入力ハミルトニアンの下で適切な構成の進化と対角展開からなる。
ここでは、対角化効率を高めるために、ダブルブラケット進化の選択を最適化する戦略を提案する。
これは、最適な生成物と進化の期間を見つけることで実現できる。
アルゴリズムのセットアップが解析収束保証を提供する理想的な場合と、よりヒューリスティックな場合の両方において、進化のジェネレータを最適化するために適応的かつ変動的なアプローチを用いる場合の両方において、ダブルブラケットのイテレーションの作成に関する数値的な結果を示す。
一例として、スピン鎖ハミルトニアンを対象とする際の最適化戦略の有効性について論じる。
量子技術の限界を十分に認識し,今日から実行可能なアルゴリズムを提案するため,CNOTやシングルキュービット回転ゲートに直接コンパイル可能な対角展開パラメトリゼーションの選定を提案する。
本稿では,このコンパイルの利点と限界について論じ,既存の手法と相乗効果を併用する手法を提案する。
Recently double-bracket quantum algorithms have been proposed as a way to compile circuits for approximating eigenstates. Physically, they consist of appropriately composing evolutions under an input Hamiltonian together with diagonal evolutions. Here, we present strategies to optimize the choice of the double-bracket evolutions to enhance the diagonalization efficiency. This can be done by finding optimal generators and durations of the evolutions. We present numerical results regarding the preparation of double-bracket iterations, both in ideal cases where the algorithm's setup provides analytical convergence guarantees and in more heuristic cases, where we use an adaptive and variational approach to optimize the generators of the evolutions. As an example, we discuss the efficacy of these optimization strategies when considering a spin-chain Hamiltonian as the target. To propose algorithms that can be executed starting today, fully aware of the limitations of the quantum technologies at our disposal, we finally present a selection of diagonal evolution parametrizations that can be directly compiled into CNOTs and single-qubit rotation gates. We discuss the advantages and limitations of this compilation and propose a way to take advantage of this approach when used in synergy with other existing methods. | 翻訳日:2024-08-15 13:44:31 公開日:2024-08-14 |
# MagicFace: トレーニング不要のユニバーサルスタイルの人体画像カスタマイズ合成
MagicFace: Training-free Universal-Style Human Image Customized Synthesis ( http://arxiv.org/abs/2408.07433v1 ) ライセンス: Link先を確認 | Yibin Wang, Weizhong Zhang, Cheng Jin, | (参考訳) 既存の画像パーソナライズされた生成方法は、いくつかのイメージで微調整するか、大規模なデータセットで再トレーニングするといった面倒なトレーニングを必要とすることが多い。
このような場合、様々なスタイルの個人をパーソナライズする場合、これらの手法は過度に適合し、困難に遭遇する傾向にある。
さらに、これらのトレーニングベースのアプローチは、マルチコンセプトのヒューマンイメージのカスタマイズにも苦労する。
そこで本研究では,任意のスタイルの人間に対して,学習自由な方法で単一/複数概念のカスタマイズを可能にする,ユニバーサルスタイルの人体画像パーソナライズ合成の最初の方法であるMagicFaceを提案する。
MagicFaceは、セマンティックシーンの構築とコンセプト機能インジェクションという、2つのシーケンシャルステージを含む粗大な生成パイプラインを導入している。
これは、参照認識自己注意(RSA)と地域グループブレンド注意(RBA)機構によって達成される。
特に、第1段階では、RSAにより、潜在画像が参照概念から特徴を同時にクエリすることができ、粗い全体意味理解を抽出して、初期意味的レイアウトの設定を容易にする。
第2段階では、各ステップで潜在画像中のすべての概念の生成された領域をピンポイントするアテンションベースのセマンティックセマンティックセマンティックセマンティクス法を用いる。
その後、RAAは潜像のピクセルをセマンティックグループに分割し、各グループが参照概念から細かな特徴をクエリし、正確な属性アライメントと特徴注入を保証する。
2段階のプロセスを通じて、モデルが参照概念をより重視するように、ウェイトマスク戦略が採用されている。
広汎な実験は、人間中心の被写体画像合成とマルチコンセプトのヒト画像カスタマイズの両方において、我々の優位性を実証している。
我々の手法はテクスチャ変換にも適用でき、その汎用性と適用性をさらに向上させることができる。
Existing human image personalized generation methods often require tedious training: either fine-tuning with a few images or retraining on large-scale datasets. In such cases, these methods are prone to overfitting and encounter difficulties when personalizing individuals of diverse styles. Moreover, these training-based approaches also struggle with multi-concept human image customizing. To this end, we propose MagicFace, the first method for universal-style human image personalized synthesis that enables single/multi-concept customization for humans of any style in a training-free manner. MagicFace introduces a coarse-to-fine generation pipeline, involving two sequential stages: semantic scene construction and concept feature injection. This is achieved by our Reference-aware Self-Attention (RSA) and Region-grouped Blend Attention (RBA) mechanisms. Specifically, in the first stage, RSA enables the latent image to query features from reference concepts simultaneously, extracting the coarse-grained overall semantic understanding to facilitate the initial semantic layout establishment. In the second stage, we employ an attention-based semantic segmentation method to pinpoint the generated regions of all concepts in the latent image at each step. Following this, RBA divides the pixels of the latent image into semantic groups, with each group querying fine-grained features from its reference concept, which ensures precise attribute alignment and feature injection. Throughout the two-stage process, a weight mask strategy is employed to ensure the model focuses more on the reference concepts. Extensive experiments demonstrate our superiority in both human-centric subject-to-image synthesis and multi-concept human image customization. Our approach also can be applied to texture transformation, further enhancing its versatility and applicability. | 翻訳日:2024-08-15 13:44:31 公開日:2024-08-14 |
# 安全強化学習、モデル予測制御および決定木に基づく家庭エネルギー管理システムの現実的検証
Real-world validation of safe reinforcement learning, model predictive control and decision tree-based home energy management systems ( http://arxiv.org/abs/2408.07435v1 ) ライセンス: Link先を確認 | Julian Ruddick, Glenn Ceusters, Gilles Van Kriekinge, Evgenii Genov, Thierry Coosemans, Maarten Messagie, | (参考訳) 機械学習に基づくエネルギー管理手法の最近の進歩、特に安全層(OptLayerPolicy)と決定木制御ポリシー(TreeC)を生成するメタヒューリスティックアルゴリズムによる強化学習が約束されている。
しかし、それらの効果はコンピュータシミュレーションでのみ実証されている。
本稿では,これらの手法の現実的検証について,モデル予測制御と単純なルールベース制御ベンチマークとの比較を行った。
本実験は, 自家用蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式蓄電式
その結果、単純なルール、TreeC、モデル予測制御に基づく手法が同様のコストを達成し、差はわずか0.6%であった。
この強化学習法は、まだ訓練段階にあるが、他の方法よりも25.5倍高いコストが得られた。
追加のシミュレーションでは、TreeCのより代表的なトレーニングデータセットを使用して、さまざまなソースからの正確なデータに依存するモデル予測制御実装におけるエラーに対処することにより、コストをさらに削減できることが示されている。
OptLayerPolicyセーフティレイヤは、正確な制約関数の定式化を前提として、現実世界の強化学習エージェントの安全なオンライントレーニングを可能にする。
提案した安全層法は, 誤差が発生しやすいが, いずれの方法においても有用であることがわかった。
訓練のための現実的なシミュレーションを構築する必要があるTreeC法は、強化学習のための593.9 Whに比べて、グリッド限界をわずか27.1 Whで越え、最も安全な運用性能を示す。
Recent advancements in machine learning based energy management approaches, specifically reinforcement learning with a safety layer (OptLayerPolicy) and a metaheuristic algorithm generating a decision tree control policy (TreeC), have shown promise. However, their effectiveness has only been demonstrated in computer simulations. This paper presents the real-world validation of these methods, comparing against model predictive control and simple rule-based control benchmark. The experiments were conducted on the electrical installation of 4 reproductions of residential houses, which all have their own battery, photovoltaic and dynamic load system emulating a non-controllable electrical load and a controllable electric vehicle charger. The results show that the simple rules, TreeC, and model predictive control-based methods achieved similar costs, with a difference of only 0.6%. The reinforcement learning based method, still in its training phase, obtained a cost 25.5\% higher to the other methods. Additional simulations show that the costs can be further reduced by using a more representative training dataset for TreeC and addressing errors in the model predictive control implementation caused by its reliance on accurate data from various sources. The OptLayerPolicy safety layer allows safe online training of a reinforcement learning agent in the real-world, given an accurate constraint function formulation. The proposed safety layer method remains error-prone, nonetheless, it is found beneficial for all investigated methods. The TreeC method, which does require building a realistic simulation for training, exhibits the safest operational performance, exceeding the grid limit by only 27.1 Wh compared to 593.9 Wh for reinforcement learning. | 翻訳日:2024-08-15 13:44:31 公開日:2024-08-14 |
# ハイブリッド概念モデルによるデータ効率の良いニューラルネットワークの実現
Achieving Data Efficient Neural Networks with Hybrid Concept-based Models ( http://arxiv.org/abs/2408.07438v1 ) ライセンス: Link先を確認 | Tobias A. Opsahl, Vegard Antun, | (参考訳) 教師付き機械学習に使用されるほとんどのデータセットは、データポイント毎に1つのラベルで構成されている。
しかし、単にクラスラベル以上の情報が得られている場合、モデルをより効率的にトレーニングできるだろうか?
2つの新しいモデルアーキテクチャを導入し、これをハイブリッド概念ベースモデルと呼び、クラスラベルと概念と呼ばれるデータセットの付加情報をトレーニングする。
それらの性能を徹底的に評価するために,概念ラベル付きオープンで柔軟なデータセットのクラスであるConceptShapesを紹介した。
本稿では,従来のコンピュータビジョンモデルと従来提案されていたコンセプトベースモデルとを,特にスパースデータ設定において比較した。
また,概念ベースモデルの概念予測を変更せずに,クラス予測を変更する方法で,画像が摂動されるような,敵対的概念攻撃を行うアルゴリズムも導入する。
このような敵対的な例の存在は、概念に基づくモデルによって約束される解釈可能な品質に関する疑問を提起する。
Most datasets used for supervised machine learning consist of a single label per data point. However, in cases where more information than just the class label is available, would it be possible to train models more efficiently? We introduce two novel model architectures, which we call hybrid concept-based models, that train using both class labels and additional information in the dataset referred to as concepts. In order to thoroughly assess their performance, we introduce ConceptShapes, an open and flexible class of datasets with concept labels. We show that the hybrid concept-based models outperform standard computer vision models and previously proposed concept-based models with respect to accuracy, especially in sparse data settings. We also introduce an algorithm for performing adversarial concept attacks, where an image is perturbed in a way that does not change a concept-based model's concept predictions, but changes the class prediction. The existence of such adversarial examples raises questions about the interpretable qualities promised by concept-based models. | 翻訳日:2024-08-15 13:44:31 公開日:2024-08-14 |
# 超伝導量子コンピュータ上でのエコー検証クリフォードデータ回帰によるイジングモデルの時間進化の正確なシミュレーション
Accurately Simulating the Time Evolution of an Ising Model with Echo Verified Clifford Data Regression on a Superconducting Quantum Computer ( http://arxiv.org/abs/2408.07439v1 ) ライセンス: Link先を確認 | Tim Weaving, Alexis Ralli, Peter J. Love, Sauro Succi, Peter V. Coveney, | (参考訳) 本稿では,Echo Verification (EV) とClifford Data Regression (CDR) を組み合わせた誤差低減戦略を提案する。
我々は, 脱分極チャネル下での手法の挙動を解析し, 脱分極率の推定を, アンシラ純度とポストセレクション確率の観点から導出した。
また、この手法の潜在的なボトルネックであるノイズに対するこの確率の感度も強調する。
その後、任意のパウリ誤差からなるより一般的なノイズチャネルを考察し、誤差率と予測値の線形関係を明らかにし、回帰手法によるEVにおけるノイズの学習可能性を示す。
最後に、超伝導量子コンピュータ上でのEcho Verified Clifford Data Regression(EVCDR)の実演を行い、最大35のサイトと1000以上の回路深度からなるスピン格子上でのIsingモデルの時間進化の正確な結果を観察する。
We present an error mitigation strategy composed of Echo Verification (EV) and Clifford Data Regression (CDR), the combination of which allows one to learn the effect of the quantum noise channel to extract error mitigated estimates for the expectation value of Pauli observables. We analyse the behaviour of the method under the depolarizing channel and derive an estimator for the depolarization rate in terms of the ancilla purity and postselection probability. We also highlight the sensitivity of this probability to noise, a potential bottleneck for the technique. We subsequently consider a more general noise channel consisting of arbitrary Pauli errors, which reveals a linear relationship between the error rates and the estimation of expectation values, suggesting the learnability of noise in EV by regression techniques. Finally, we present a practical demonstration of Echo Verified Clifford Data Regression (EVCDR) on a superconducting quantum computer and observe accurate results for the time evolution of an Ising model over a spin-lattice consisting of up to 35 sites and circuit depths in excess of 1,000. | 翻訳日:2024-08-15 13:44:31 公開日:2024-08-14 |
# BAPLe:Prompt Learningを用いた医療基礎モデルに対するバックドアアタック
BAPLe: Backdoor Attacks on Medical Foundational Models using Prompt Learning ( http://arxiv.org/abs/2408.07440v1 ) ライセンス: Link先を確認 | Asif Hanif, Fahad Shamshad, Muhammad Awais, Muzammal Naseer, Fahad Shahbaz Khan, Karthik Nandakumar, Salman Khan, Rao Muhammad Anwer, | (参考訳) 医療ファウンデーションモデルは、医用画像とテキストのペアの広範なコレクションから一般的な表現を導き出す能力によって、医療コミュニティで注目を集めている。
最近の研究では、これらのモデルがバックドア攻撃の影響を受けやすいことが示されており、クリーンな画像を正確に分類できるが、特定のトリガーが導入されると失敗する。
しかし、従来のバックドア攻撃は、悪意のある事前トレーニングを行うために、かなりの量の追加データを必要とする。
この要件は、通常のデータ不足のため、医用画像の応用では実用的ではないことが多い。
この研究は、学びやすいプロンプトの最新の発展に触発され、迅速な学習期間中に医療基盤モデルにバックドアを埋め込む方法を紹介した。
テキストエンコーダに学習可能なプロンプトを組み込み,入力画像に認識不能な学習可能なノイズトリガーを導入することにより,医療基盤モデル(Med-FM)のフル機能を活用する。
我々の手法であるBAPLeは、ノイズトリガを調整するために最小限のデータサブセットしか必要とせず、テキストは下流のタスクにプロンプトし、効果的なバックドアアタックを作成できる。
4つの医療基盤モデルによる広範囲な実験を行い、それぞれ異なるモードで事前学習し、6つの下流データセットで評価することで、我々のアプローチの有効性を実証した。
BAPLeは、すべてのモデルとデータセットで高いバックドア成功率を実現し、ベースラインのバックドアアタックメソッドよりも優れています。
我々の研究は、バックドア攻撃に対するMed-FMsの脆弱性を強調し、現実世界のアプリケーションにデプロイする前に、Med-FMsの安全な採用を促進するために努力している。
コードはhttps://asif-hanif.github.io/baple/で公開されている。
Medical foundation models are gaining prominence in the medical community for their ability to derive general representations from extensive collections of medical image-text pairs. Recent research indicates that these models are susceptible to backdoor attacks, which allow them to classify clean images accurately but fail when specific triggers are introduced. However, traditional backdoor attacks necessitate a considerable amount of additional data to maliciously pre-train a model. This requirement is often impractical in medical imaging applications due to the usual scarcity of data. Inspired by the latest developments in learnable prompts, this work introduces a method to embed a backdoor into the medical foundation model during the prompt learning phase. By incorporating learnable prompts within the text encoder and introducing imperceptible learnable noise trigger to the input images, we exploit the full capabilities of the medical foundation models (Med-FM). Our method, BAPLe, requires only a minimal subset of data to adjust the noise trigger and the text prompts for downstream tasks, enabling the creation of an effective backdoor attack. Through extensive experiments with four medical foundation models, each pre-trained on different modalities and evaluated across six downstream datasets, we demonstrate the efficacy of our approach. BAPLe achieves a high backdoor success rate across all models and datasets, outperforming the baseline backdoor attack methods. Our work highlights the vulnerability of Med-FMs towards backdoor attacks and strives to promote the safe adoption of Med-FMs before their deployment in real-world applications. Code is available at https://asif-hanif.github.io/baple/. | 翻訳日:2024-08-15 13:44:31 公開日:2024-08-14 |
# トポロジーガイドによる変形性マンバを用いた軟骨切開法とベンチマーク
Costal Cartilage Segmentation with Topology Guided Deformable Mamba: Method and Benchmark ( http://arxiv.org/abs/2408.07444v1 ) ライセンス: Link先を確認 | Senmao Wang, Haifan Gong, Runmeng Cui, Boyao Wan, Yicheng Liu, Zhonglin Hu, Haiqing Yang, Jingyang Zhou, Bo Pan, Lin Lin, Haiyue Jiang, | (参考訳) コスト軟骨の分節化は様々な医学的応用に不可欠であり、複雑な解剖学と正確な診断と手術計画の重要性により、正確で信頼性の高い技術を必要とする。
本稿では,TGDM (Topology-Guided deformable Mamba) と呼ばれる新しい深層学習手法を提案する。
TGDMは、複雑な長距離の軟骨関係を捉えるために調整されている。
本手法は, トポロジカルな事前情報を統合し, セグメンテーションプロセスの適応性と精度を向上させる変形可能なモデルを利用する。
さらに,コスト軟骨セグメンテーションの165例を含む包括的ベンチマークを開発した。
本ベンチマークは,コスト軟骨分割技術を評価するための新しい基準を設定し,今後の研究に有用な資源を提供する。
ドメイン内ベンチマークとドメイン外テストセットの両方で実施された大規模な実験は、既存の手法よりもアプローチの優位性を示し、セグメンテーション精度とロバスト性を大幅に改善した。
Costal cartilage segmentation is crucial to various medical applications, necessitating precise and reliable techniques due to its complex anatomy and the importance of accurate diagnosis and surgical planning. We propose a novel deep learning-based approach called topology-guided deformable Mamba (TGDM) for costal cartilage segmentation. The TGDM is tailored to capture the intricate long-range costal cartilage relationships. Our method leverages a deformable model that integrates topological priors to enhance the adaptability and accuracy of the segmentation process. Furthermore, we developed a comprehensive benchmark that contains 165 cases for costal cartilage segmentation. This benchmark sets a new standard for evaluating costal cartilage segmentation techniques and provides a valuable resource for future research. Extensive experiments conducted on both in-domain benchmarks and out-of domain test sets demonstrate the superiority of our approach over existing methods, showing significant improvements in segmentation precision and robustness. | 翻訳日:2024-08-15 13:44:31 公開日:2024-08-14 |
# モダリティの欠如に対処するモダリティ不変なマルチモーダル学習 : シングルブランチアプローチ
Modality Invariant Multimodal Learning to Handle Missing Modalities: A Single-Branch Approach ( http://arxiv.org/abs/2408.07445v1 ) ライセンス: Link先を確認 | Muhammad Saad Saeed, Shah Nawaz, Muhammad Zaigham Zaheer, Muhammad Haris Khan, Karthik Nandakumar, Muhammad Haroon Yousaf, Hassan Sajjad, Tom De Schepper, Markus Schedl, | (参考訳) マルチモーダルネットワークは、その単調なネットワークよりも顕著な性能向上を示した。
既存のマルチモーダルネットワークは、融合戦略に依存したマルチブランチ方式で設計されており、1つ以上のモダリティが欠如している場合、性能が劣化している。
本研究では,モダリティの欠如による影響を受けにくいマルチモーダル学習手法を提案する。
複数のモダリティにまたがる重みを共有する単一ブランチネットワークで構成され、モダリティ間の表現を学習し、パフォーマンスを最大化し、モダリティの欠如に対して堅牢性を持つ。
テキスト・ヴィジュアル(UPMC Food-101, Hateful Memes, Ferramenta)とオーディオ・ヴィジュアル・モダリティ(VoxCeleb1)の4つの挑戦的なデータセット上で、大規模な実験が行われた。
提案手法は,すべてのモダリティが存在する場合や,既存の最先端手法と比較して,トレーニングやテスト中にモダリティが欠落する場合に優れた性能が得られる。
Multimodal networks have demonstrated remarkable performance improvements over their unimodal counterparts. Existing multimodal networks are designed in a multi-branch fashion that, due to the reliance on fusion strategies, exhibit deteriorated performance if one or more modalities are missing. In this work, we propose a modality invariant multimodal learning method, which is less susceptible to the impact of missing modalities. It consists of a single-branch network sharing weights across multiple modalities to learn inter-modality representations to maximize performance as well as robustness to missing modalities. Extensive experiments are performed on four challenging datasets including textual-visual (UPMC Food-101, Hateful Memes, Ferramenta) and audio-visual modalities (VoxCeleb1). Our proposed method achieves superior performance when all modalities are present as well as in the case of missing modalities during training or testing compared to the existing state-of-the-art methods. | 翻訳日:2024-08-15 13:44:31 公開日:2024-08-14 |
# LiveFC: オーディオストリームのライブFact-Checkingシステム
LiveFC: A System for Live Fact-Checking of Audio Streams ( http://arxiv.org/abs/2408.07448v1 ) ライセンス: Link先を確認 | Venktesh V, Vinay Setty, | (参考訳) デジタル時代の進歩は情報を急速に広めた。
また、偽情報や偽情報の拡散も激化している。
これは市民の不安のような深刻な結果をもたらす可能性がある。
事実チェックは、これと戦うことを目的としているが、手動の事実チェックは面倒で、スケーラブルではない。
自動ファクトチェックアプローチは存在するが、リアルタイムに動作せず、異なるモダリティによる誤情報拡散を必ずしも考慮していない。
これは、リアルタイムのライブストリームのプロアクティブな事実チェックが、人々が偽の物語を知らされ、市民の不安を引き起こす破滅的な結果を防ぐのに役立つため、特に重要である。
これは特に、ソーシャルメディアプラットフォームや政治集会や討論のような他のストリームでのビデオを通じて情報を急速に広めることに関連している。
そこで本研究では,リアルタイムにライブオーディオストリームの事実チェックを支援する,‘name{}’というプラットフォームを開発した。
\name{}はユーザフレンドリーなインターフェースを持ち、検出されたクレームとその正確性、および各セグメントからのクレームに関する関連する話者とのライブストリームのエビデンスを表示する。
アプリはhttp://livefc.factiverse.aiでアクセスでき、デモのスクリーン録画はhttps://bit.ly/3WVAoIwで見ることができる。
The advances in the digital era have led to rapid dissemination of information. This has also aggravated the spread of misinformation and disinformation. This has potentially serious consequences, such as civil unrest. While fact-checking aims to combat this, manual fact-checking is cumbersome and not scalable. While automated fact-checking approaches exist, they do not operate in real-time and do not always account for spread of misinformation through different modalities. This is particularly important as proactive fact-checking on live streams in real-time can help people be informed of false narratives and prevent catastrophic consequences that may cause civil unrest. This is particularly relevant with the rapid dissemination of information through video on social media platforms or other streams like political rallies and debates. Hence, in this work we develop a platform named \name{}, that can aid in fact-checking live audio streams in real-time. \name{} has a user-friendly interface that displays the claims detected along with their veracity and evidence for live streams with associated speakers for claims from respective segments. The app can be accessed at http://livefc.factiverse.ai and a screen recording of the demo can be found at https://bit.ly/3WVAoIw. | 翻訳日:2024-08-15 13:44:31 公開日:2024-08-14 |
# CMUのIWSLT 2024同時音声翻訳システム
CMU's IWSLT 2024 Simultaneous Speech Translation System ( http://arxiv.org/abs/2408.07452v1 ) ライセンス: Link先を確認 | Xi Xu, Siqi Ouyang, Brian Yan, Patrick Fernandes, William Chen, Lei Li, Graham Neubig, Shinji Watanabe, | (参考訳) 本稿では,CMU による IWSLT 2024 Simultaneous Speech Translation (SST) タスクへの提案について述べる。
本システムでは,WavLM音声エンコーダ,モダリティアダプタ,Llama2-7B-Baseモデルをデコーダとして統合する。
最初は、音声とテキストの表現を整列させ、次に完全な微調整を行う。
どちらのステージも、クロスエントロピー損失を伴う MuST-c v2 データに基づいてトレーニングされている。
我々は、単純な固定ホールドnポリシーを用いて、オフラインSTモデルをSSTに適用する。
実験の結果,MST-C-v2 tst-COMMONでは,オフラインのBLEUスコアが31.1,BLEUスコアが29.5であった。
This paper describes CMU's submission to the IWSLT 2024 Simultaneous Speech Translation (SST) task for translating English speech to German text in a streaming manner. Our end-to-end speech-to-text (ST) system integrates the WavLM speech encoder, a modality adapter, and the Llama2-7B-Base model as the decoder. We employ a two-stage training approach: initially, we align the representations of speech and text, followed by full fine-tuning. Both stages are trained on MuST-c v2 data with cross-entropy loss. We adapt our offline ST model for SST using a simple fixed hold-n policy. Experiments show that our model obtains an offline BLEU score of 31.1 and a BLEU score of 29.5 under 2 seconds latency on the MuST-C-v2 tst-COMMON. | 翻訳日:2024-08-15 13:44:31 公開日:2024-08-14 |
# Fact or Fiction? 単純部分グラフ検索による知識グラフによるFact Verificationの改善
Fact or Fiction? Improving Fact Verification with Knowledge Graphs through Simplified Subgraph Retrievals ( http://arxiv.org/abs/2408.07453v1 ) ライセンス: Link先を確認 | Tobias A. Opsahl, | (参考訳) 近年の自然言語処理(NLP)の成功にもかかわらず、事実検証は依然として難しい課題である。
誤報が急速に広まりつつあるため、クレームの正当性の自動検証に注意が向けられている。
NLPの領域では、通常は、信頼できるコーパスからの証拠を利用してクレームを検証するために、教師付き機械学習モデルのトレーニングによって行われる。
本稿では, 証拠が構造化知識グラフの形で存在するデータセット上で, クレームを検証するための効率的な方法を提案する。
ウィキペディアから抽出したDBpedia知識グラフから構築したFactKGデータセットを使用する。
詳細な言語モデルから単純な論理的検索まで,エビデンス検索プロセスを単純化することにより,計算資源の削減とテストセットの精度の向上を両立できる。
Despite recent success in natural language processing (NLP), fact verification still remains a difficult task. Due to misinformation spreading increasingly fast, attention has been directed towards automatically verifying the correctness of claims. In the domain of NLP, this is usually done by training supervised machine learning models to verify claims by utilizing evidence from trustworthy corpora. We present efficient methods for verifying claims on a dataset where the evidence is in the form of structured knowledge graphs. We use the FactKG dataset, which is constructed from the DBpedia knowledge graph extracted from Wikipedia. By simplifying the evidence retrieval process, from fine-tuned language models to simple logical retrievals, we are able to construct models that both require less computational resources and achieve better test-set accuracy. | 翻訳日:2024-08-15 13:44:31 公開日:2024-08-14 |
# 実時間赤外小物体検出のためのモデル圧縮を用いた高能率ニューラルネットワーク構造
Infra-YOLO: Efficient Neural Network Structure with Model Compression for Real-Time Infrared Small Object Detection ( http://arxiv.org/abs/2408.07455v1 ) ライセンス: Link先を確認 | Zhonglin Chen, Anyu Geng, Jianan Jiang, Jiwu Lu, Di Wu, | (参考訳) 畳み込みニューラルネットワークは、可視光目標検出において顕著な成果を上げてきたが、信号対雑音比の低い、不完全なオブジェクト構造、信頼性のある赤外線小オブジェクトデータセットの欠如など、赤外線小オブジェクト検出には依然として多くの課題がある。
赤外線の小さなオブジェクトデータセットの制限を解決するために、InfraTinyという新しいデータセットが構築され、85%以上のバウンディングボックスは32x32ピクセル未満である(3218の画像と合計20,893バウンディングボックス)。
マルチスケールアテンション機構モジュール (MSAM) とFeature Fusion Augmentation Pyramid Module (FFAFPM) が提案され,組込みデバイスに展開された。
MSAMは、背景雑音情報を抑え、特徴抽出能力を高めるとともに、異なる受容場を取得することにより、ネットワークがスケール知覚情報を得ることを可能にする。
提案したFFAFPMは意味情報を豊かにし, 浅部特徴と深部特徴の融合を促進できるため, 偽陽性は著しく減少した。
提案手法をInfra-YOLOと呼ばれるYOLOモデルに統合することにより、赤外線小物体検出性能が向上した。
ヨロブ3と比較すると、mAP@0.5は2.7%改善されており、ヨロブ4と比較して2.5%改善されている。
提案したInfra-YOLOは、実際の応用シナリオのために無人航空機(UAV)の組込み装置に転送され、FLOPの低減と速度と精度のトレードオフを実現するためにチャネルプルーニング法が採用された。
Infra-YOLOのパラメータがプルーニング法で88%減少しても、mAP@0.5ではヨロブ3に比べて0.7%上昇し、ヨロブ4に比べて0.5%上昇する。
実験の結果,提案手法は従来のベンチマーク法と比較して,赤外線小物体検出性能を向上させることができることがわかった。
Although convolutional neural networks have made outstanding achievements in visible light target detection, there are still many challenges in infrared small object detection because of the low signal-to-noise ratio, incomplete object structure, and a lack of reliable infrared small object dataset. To resolve limitations of the infrared small object dataset, a new dataset named InfraTiny was constructed, and more than 85% bounding box is less than 32x32 pixels (3218 images and a total of 20,893 bounding boxes). A multi-scale attention mechanism module (MSAM) and a Feature Fusion Augmentation Pyramid Module (FFAFPM) were proposed and deployed onto embedded devices. The MSAM enables the network to obtain scale perception information by acquiring different receptive fields, while the background noise information is suppressed to enhance feature extraction ability. The proposed FFAFPM can enrich semantic information, and enhance the fusion of shallow feature and deep feature, thus false positive results have been significantly reduced. By integrating the proposed methods into the YOLO model, which is named Infra-YOLO, infrared small object detection performance has been improved. Compared to yolov3, mAP@0.5 has been improved by 2.7%; and compared to yolov4, that by 2.5% on the InfraTiny dataset. The proposed Infra-YOLO was also transferred onto the embedded device in the unmanned aerial vehicle (UAV) for real application scenarios, where the channel pruning method is adopted to reduce FLOPs and to achieve a tradeoff between speed and accuracy. Even if the parameters of Infra-YOLO are reduced by 88% with the pruning method, a gain of 0.7% is still achieved on mAP@0.5 compared to yolov3, and a gain of 0.5% compared to yolov4. Experimental results show that the proposed MSAM and FFAFPM method can improve infrared small object detection performance compared with the previous benchmark method. | 翻訳日:2024-08-15 13:44:31 公開日:2024-08-14 |
# 没入型サイバー状況認識システムに関する調査
A Survey on Immersive Cyber Situational Awareness Systems ( http://arxiv.org/abs/2408.07456v1 ) ライセンス: Link先を確認 | Hussain Ahmad, Faheem Ullah, Rehan Jafri, | (参考訳) サイバー状況認識システムは、サイバーセキュリティ分析と教育のためのサイバー共通運用画像の作成にますます利用されている。
しかし、これらのシステムは、エンドユーザのサイバー状況認識(SA)を損なうサイバーセキュリティデータの急激な複雑さ、次元性、および不均一性のために、データの閉塞と畳み込みの問題に直面している。
さらに、マウスやキーボードのような従来の人間とコンピュータのインタラクションは、大規模インフラのサイバー状況を分析する際に、サイバーセキュリティ実践者の精神的努力と認知負荷を増加させる。
したがって、仮想現実、拡張現実、混合現実のような没入型技術は、直感的で魅力的でインタラクティブなサイバー共通操作画像を作成するためにサイバーセキュリティ領域に採用されている。
Immersive Cyber situational Awareness (ICSA) システムは、サイバーSAの認識、理解、投影のために、いくつかのユニークな可視化技術と相互作用機能を提供する。
しかし、サイバーSAの没入型技術の使用において、既存の最先端技術について包括的に調査し、分類する試みは行われていない。
そこで本研究では,ICSAシステムにおける既存の知識体系を収集,解析,合成した。
特に、ICSAシステムにおける可視化・インタラクション技術、評価メカニズム、および様々なレベルのサイバーSA(知覚、理解、投射)を特定した。
その結果、我々の調査により、我々はこう提案できた。
一 ICSAの異なるレベルに没入型可視化及びインタラクション技術をマッピングし、ICSAシステムを設計・解析するための基準枠組み
二 ICSAシステムの最先端化に向けた今後の研究の方向性
三 サイバーセキュリティ業務を強化するためのICSAシステムの産業的意味を詳細に分析すること。
Cyber situational awareness systems are increasingly used for creating cyber common operating pictures for cybersecurity analysis and education. However, these systems face data occlusion and convolution issues due to the burgeoning complexity, dimensionality, and heterogeneity of cybersecurity data, which damages cyber Situational Awareness (SA) of end-users. Moreover, conventional ways of human-computer interactions, such as mouse and keyboard, increase the mental effort and cognitive load of cybersecurity practitioners, when analyzing cyber situations of large-scale infrastructures. Therefore, immersive technologies, such as virtual reality, augmented reality, and mixed reality, are employed in the cybersecurity realm to create intuitive, engaging, and interactive cyber common operating pictures. The Immersive Cyber Situational Awareness (ICSA) systems provide several unique visualization techniques and interaction features for the perception, comprehension, and projection of cyber SA. However, there has been no attempt to comprehensively investigate and classify the existing state of the art in the use of immersive technologies for cyber SA. Therefore, in this paper, we have gathered, analyzed, and synthesized the existing body of knowledge on ICSA systems. In particular, our survey has identified visualization and interaction techniques, evaluation mechanisms, and different levels of cyber SA (i.e., perception, comprehension, and projection) for ICSA systems. Consequently, our survey has enabled us to propose: (i) a reference framework for designing and analyzing ICSA systems by mapping immersive visualization and interaction techniques to the different levels of ICSA; (ii) future research directions for advancing the state-of-the-art on ICSA systems; and (iii) an in-depth analysis of the industrial implications of ICSA systems to enhance cybersecurity operations. | 翻訳日:2024-08-15 13:44:31 公開日:2024-08-14 |
# ブラジルポルトガル語からヨーロッパポルトガル語へ
From Brazilian Portuguese to European Portuguese ( http://arxiv.org/abs/2408.07457v1 ) ライセンス: Link先を確認 | João Sanches, Rui Ribeiro, Luísa Coheur, | (参考訳) ブラジル・ポルトガル語とヨーロッパ・ポルトガル語は同じ言語の2つの変種であり、その類似性にも拘わらず、いくつかの相違が見られる。
しかし、ブラジルのポルトガルはより豊富な資源を持っているため、この2つの変種の間で資源の入手が困難である。
この不平等は、ヨーロッパのポルトガル語話者が利用できる翻訳サービスの質に影響を与える可能性がある。
この問題に対処するため、我々は、近年のニューラルアーキテクチャとモデルの発展を活用して、ブラジルからヨーロッパへのポルトガル語翻訳システムの開発を提案する。
これらのシステムの性能を評価するために,5つのトピックにまたがる500文からなるゴールドテストセットを手作業でキュレートした。
ゴールドテストセットの各文は2つの異なる参照を持ち、将来の翻訳モデルを簡単に評価するのに役立つ。
ブラジル語とヨーロッパのポルトガル語で映画字幕とTEDトークの文字起こしから抽出した並行データを用いて,既存のLarge Language Modelsを微調整し,様々なモデルを実験した。
評価には,従来の自動測定と人的評価が関与した。
さらに、全てのモデルがChatGPT 3.5ターボと比較され、現在最高の結果が得られた。
Brazilian Portuguese and European Portuguese are two varieties of the same language and, despite their close similarities, they exhibit several differences. However, there is a significant disproportion in the availability of resources between the two variants, with Brazilian Portuguese having more abundant resources. This inequity can impact the quality of translation services accessible to European Portuguese speakers. To address this issue, we propose the development of a Brazilian Portuguese to European Portuguese translation system, leveraging recent advancements in neural architectures and models. To evaluate the performance of such systems, we manually curated a gold test set comprising 500 sentences across five different topics. Each sentence in the gold test set has two distinct references, facilitating a straightforward evaluation of future translation models. We experimented with various models by fine-tuning existing Large Language Models using parallel data extracted from movie subtitles and TED Talks transcripts in both Brazilian and European Portuguese. Our evaluation involved the use of conventional automatic metrics as well as a human evaluation. In addition, all models were compared against ChatGPT 3.5 Turbo, which currently yields the best results. | 翻訳日:2024-08-15 13:34:28 公開日:2024-08-14 |
# 人間とAIの嗜好に基づく協調による問題解決
Problem Solving Through Human-AI Preference-Based Cooperation ( http://arxiv.org/abs/2408.07461v1 ) ライセンス: Link先を確認 | Subhabrata Dutta, Timo Kaufmann, Goran Glavaš, Ivan Habernal, Kristian Kersting, Frauke Kreuter, Mira Mezini, Iryna Gurevych, Eyke Hüllermeier, Hinrich Schuetze, | (参考訳) 人工知能(AGI)や超人的AI(超人的AI)が差し迫っていると広く信じられているが、専門家ドメインの複雑な問題は解決されるには程遠い。
このような問題には人間とAIの協力が必要であり、複雑なソリューションアーティファクト(例えばソフトウェアプログラム)の追跡ができないことや、多目的な人間の嗜好表現へのサポートの制限、対話的な環境での人間の嗜好に適応できないことなど、数多くの欠点により、生成AIにおける現在の最先端技術は信頼できるパートナーの役割を果たせないと我々は主張する。
これらの課題に対処するため,人間とAIの新たな共同構築フレームワークであるHAI-Co2を提案する。
我々は、HAI-Co2を形式化し、それが直面する困難なオープンリサーチ問題について議論する。
最後に,HAI-Co2のケーススタディを示し,モノリシックな生成型AIモデルと比較して有効性を示した。
While there is a widespread belief that artificial general intelligence (AGI) -- or even superhuman AI -- is imminent, complex problems in expert domains are far from being solved. We argue that such problems require human-AI cooperation and that the current state of the art in generative AI is unable to play the role of a reliable partner due to a multitude of shortcomings, including inability to keep track of a complex solution artifact (e.g., a software program), limited support for versatile human preference expression and lack of adapting to human preference in an interactive setting. To address these challenges, we propose HAI-Co2, a novel human-AI co-construction framework. We formalize HAI-Co2 and discuss the difficult open research problems that it faces. Finally, we present a case study of HAI-Co2 and demonstrate its efficacy compared to monolithic generative AI models. | 翻訳日:2024-08-15 13:34:28 公開日:2024-08-14 |
# エピソード記憶を用いた大規模言語モデル
Large Language Models Prompting With Episodic Memory ( http://arxiv.org/abs/2408.07465v1 ) ライセンス: Link先を確認 | Dai Do, Quan Tran, Svetha Venkatesh, Hung Le, | (参考訳) プロンプト最適化は,自然言語処理(NLP)タスクにおける大規模言語モデル(LLM)の性能向上に不可欠である。
わずかな例でプロンプトを最適化することへの関心が高まっているにもかかわらず、プロンプト最適化のための既存の手法はリソース集約的あるいは不十分に実行されることが多い。
本研究では,POEM(PrOmpting with Episodic Memory)を提案する。
本稿では,Reinforcement Learning (RL) 課題として,入力データの組み合わせ,少数ショット例の置換,トレーニング中に観察された報酬をエピソードメモリでアーカイブする手法を提案する。
テストフェーズでは、各テストクエリのサンプルのシーケンスを最適化し、エピソードメモリにおけるトップkで最も類似したトレーニング例から最も高い合計報酬を得るシーケンスを選択する。
その結果,POEMはテキスト分類タスクにおいてTEMPERAやRLPromptといった最近の技術よりも5.3%向上していることがわかった。
さらに,本手法はより広範な言語理解タスクに適応し,従来手法よりずっと優れている。
Prompt optimization is essential for enhancing the performance of Large Language Models (LLMs) in a range of Natural Language Processing (NLP) tasks, particularly in scenarios of few-shot learning where training examples are incorporated directly into the prompt. Despite the growing interest in optimizing prompts with few-shot examples, existing methods for prompt optimization are often resource-intensive or perform inadequately. In this work, we propose PrOmpting with Episodic Memory (POEM), a novel prompt optimization technique that is simple, efficient, and demonstrates strong generalization capabilities. We approach prompt optimization as a Reinforcement Learning (RL) challenge, using episodic memory to archive combinations of input data, permutations of few-shot examples, and the rewards observed during training. In the testing phase, we optimize the sequence of examples for each test query by selecting the sequence that yields the highest total rewards from the top-k most similar training examples in the episodic memory. Our results show that POEM outperforms recent techniques like TEMPERA and RLPrompt by over 5.3% in various text classification tasks. Furthermore, our approach adapts well to broader language understanding tasks, consistently outperforming conventional heuristic methods for ordering examples. | 翻訳日:2024-08-15 13:34:28 公開日:2024-08-14 |
# 血液細胞分類のためのセグメンテーションモデルによるドメイン不変表現学習
Domain-invariant Representation Learning via Segment Anything Model for Blood Cell Classification ( http://arxiv.org/abs/2408.07467v1 ) ライセンス: Link先を確認 | Yongcheng Li, Lingcong Cai, Ying Lu, Cheng Lin, Yupeng Zhang, Jingyan Jiang, Genan Dai, Bowen Zhang, Jingzhou Cao, Xiangzhong Zhang, Xiaomao Fan, | (参考訳) 血液細胞の正確な分類は、血液疾患の診断において極めて重要である。
しかし、実世界のシナリオでは、実験室の手順や設定の変動に起因するドメインシフトにより、モデルの一般化性能が急速に低下する。
そこで本研究では,血液細胞分類のための領域不変表現学習(DoRL)の新たな枠組みを提案する。
DoRLは、LoRAベースのSAM(LoRA-SAM)とクロスドメインオートエンコーダ(CAE)の2つの主要コンポーネントから構成される。
DoRLの利点は、教師なしの方法で様々な血液細胞データセットからドメイン不変表現を抽出できることである。
具体的には、LoRAで微調整したSAMの大規模基盤モデルを用いて、一般的な画像埋め込みと血液細胞分画を学習する。
さらに、画像のアーティファクトを緩和しながら、異なるドメインデータセット間でのドメイン不変表現を学習するためにCAEを導入します。
ドメイン不変表現の有効性を検証するため、5つの機械学習分類器を用いて血液細胞分類モデルを構築した。
2つの公開血液細胞データセットと1つのプライベートリアルデータセットの実験結果から、提案したDoRLは、最先端のクロスドメインパフォーマンスを達成し、既存の手法をかなり上回る結果となった。
ソースコードはURLで入手できる(https://github.com/AnoK3111/DoRL)。
Accurate classification of blood cells is of vital significance in the diagnosis of hematological disorders. However, in real-world scenarios, domain shifts caused by the variability in laboratory procedures and settings, result in a rapid deterioration of the model's generalization performance. To address this issue, we propose a novel framework of domain-invariant representation learning (DoRL) via segment anything model (SAM) for blood cell classification. The DoRL comprises two main components: a LoRA-based SAM (LoRA-SAM) and a cross-domain autoencoder (CAE). The advantage of DoRL is that it can extract domain-invariant representations from various blood cell datasets in an unsupervised manner. Specifically, we first leverage the large-scale foundation model of SAM, fine-tuned with LoRA, to learn general image embeddings and segment blood cells. Additionally, we introduce CAE to learn domain-invariant representations across different-domain datasets while mitigating images' artifacts. To validate the effectiveness of domain-invariant representations, we employ five widely used machine learning classifiers to construct blood cell classification models. Experimental results on two public blood cell datasets and a private real dataset demonstrate that our proposed DoRL achieves a new state-of-the-art cross-domain performance, surpassing existing methods by a significant margin. The source code can be available at the URL (https://github.com/AnoK3111/DoRL). | 翻訳日:2024-08-15 13:34:28 公開日:2024-08-14 |
# 直接選好最適化のためのペアワイズデータのブリッジとモデリング相関
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization ( http://arxiv.org/abs/2408.07471v1 ) ライセンス: Link先を確認 | Yuxin Jiang, Bo Huang, Yufei Wang, Xingshan Zeng, Liangyou Li, Yasheng Wang, Xin Jiang, Lifeng Shang, Ruiming Tang, Wei Wang, | (参考訳) オフライン選好最適化アルゴリズムとして広く採用されているDPOは,大規模言語モデル(LLM)を,ペアワイズ選好データを用いて人為的行動と整合させることを目的としている。
しかし、ペアデータ内の勝利応答と敗応答は孤立的に生成され、両者の相関が弱くなり、最適下アライメント性能が低下する。
この問題に対処するために,BMC というフレームワークを提案する。
まず、目的の修正によってペアの選好信号の一貫性と情報性が向上し、擬似入賞応答を合成し、入賞応答に基づく敗戦応答を改善する。
第二に、DPOだけではこれらの相関をモデル化し、微妙な変動を捉えるには不十分である。
そこで本研究では,訓練中の政策モデルの信頼度を動的に活用し,トークンレベルの相関関係の学習を提案する。
QA,数学,命令追従タスクに関する総合的な実験は,DPOを含む競争ベースラインをはるかに超えて,我々のアプローチの有効性を実証している。
さらに,本手法がDPOよりも優れている理由を明らかにし,他のDPOよりも汎用性を示す。
Direct preference optimization (DPO), a widely adopted offline preference optimization algorithm, aims to align large language models (LLMs) with human-desired behaviors using pairwise preference data. However, the winning response and the losing response within pairwise data are generated isolatedly, leading to weak correlations between them as well as suboptimal alignment performance. To address this issue, we propose an effective framework named BMC, for bridging and modeling correlations in pairwise data. Firstly, we increase the consistency and informativeness of the pairwise preference signals by targeted modifications, synthesizing a pseudo winning response through improving the losing response based on the winning response. Secondly, we identify that DPO alone is insufficient to model these correlations and capture nuanced variations. Therefore, we propose learning token-level correlations by dynamically leveraging the policy model's confidence during training. Comprehensive experiments on QA, math, and instruction-following tasks demonstrate the effectiveness of our approach, significantly surpassing competitive baselines, including DPO. Additionally, our in-depth quantitative analysis reveals the reasons behind our method's superior performance over DPO and showcases its versatility to other DPO variants. | 翻訳日:2024-08-15 13:34:28 公開日:2024-08-14 |
# 拡散モデルを用いた非教師付きブラインド継手残響と室内音響推定
Unsupervised Blind Joint Dereverberation and Room Acoustics Estimation with Diffusion Models ( http://arxiv.org/abs/2408.07472v1 ) ライセンス: Link先を確認 | Jean-Marie Lemercier, Eloi Moliner, Simon Welker, Vesa Välimäki, Timo Gerkmann, | (参考訳) 本稿では,BUDDy と呼ばれる単一チャネルブラインド除去と室内インパルス応答 (RIR) 推定のための教師なし手法を提案する。
このアルゴリズムは、残響測定に忠実度を強制する確率モデルと、無条件拡散モデルで事前に実装された無響音声とを結合したベイズ後部サンプリングに根ざしている。
周波数サブバンド毎に指数減衰したRIRを表すパラメトリックフィルタを設計する。
フィルタパラメータを反復的に推定し、逆拡散軌道に沿って音声発声を洗練することにより、室内音響推定と音声発声を共同で行う。
室内インパルス応答が不明な視覚的シナリオでは、BUDDyは様々な音響的シナリオで音声の発声を成功させ、他の視覚的教師なしベースラインを著しく上回ります。
一般化に苦しむ教師付き手法とは異なり、BUDDyは異なる音響条件にシームレスに適応する。
本稿では,アルゴリズムの性能と汎用性に関する新たな実験結果と知見を提供することにより,これまでの研究を拡張した。
まず,RIR推定誤差に対するインフォームド・デバーベレーション手法の頑健さについて検討し,共同音響推定とデバーベレーション・パラダイムの動機付けを行った。
そして,高分解能な歌声の発声への適応性を実証し,RIR推定におけるその性能について検討し,主観評価実験を行い,結果の知覚的品質を検証した。
オーディオサンプルとコードはオンラインで見ることができる。
This paper presents an unsupervised method for single-channel blind dereverberation and room impulse response (RIR) estimation, called BUDDy. The algorithm is rooted in Bayesian posterior sampling: it combines a likelihood model enforcing fidelity to the reverberant measurement, and an anechoic speech prior implemented by an unconditional diffusion model. We design a parametric filter representing the RIR, with exponential decay for each frequency subband. Room acoustics estimation and speech dereverberation are jointly carried out, as the filter parameters are iteratively estimated and the speech utterance refined along the reverse diffusion trajectory. In a blind scenario where the room impulse response is unknown, BUDDy successfully performs speech dereverberation in various acoustic scenarios, significantly outperforming other blind unsupervised baselines. Unlike supervised methods, which often struggle to generalize, BUDDy seamlessly adapts to different acoustic conditions. This paper extends our previous work by offering new experimental results and insights into the algorithm's performance and versatility. We first investigate the robustness of informed dereverberation methods to RIR estimation errors, to motivate the joint acoustic estimation and dereverberation paradigm. Then, we demonstrate the adaptability of our method to high-resolution singing voice dereverberation, study its performance in RIR estimation, and conduct subjective evaluation experiments to validate the perceptual quality of the results, among other contributions. Audio samples and code can be found online. | 翻訳日:2024-08-15 13:34:28 公開日:2024-08-14 |
# 2つの散乱体と相互作用する粒子の量子相関干渉における閾値
Threshold in quantum correlated interference for a particle interacting with two scatterers ( http://arxiv.org/abs/2408.07473v1 ) ライセンス: Link先を確認 | F. V. Kowalski, | (参考訳) この1次元干渉計と干渉計の部品を横切る粒子の位置が不確かであり、これら3つは量子体として扱われる。
粒子のみの測定における干渉は、量子古典遷移とは対照的に、顕微鏡上は消えるが、メソスコピック散乱器に現れる。
この閾値の測定は、逆反射型微粒子のみを測定することで、多体系の量子相関を検証できる。
メソスコピック散乱器のデコヒーレンスを、スリットやビームスプリッターを横切ることなく、この閾値で決定する。
Correlated interference is calculated for a microscopic particle retro-reflecting from two spatially separated scatterers that are free to move, all three of which are treated as quantum bodies: the positions of the particle traversing this one-dimensional interferometer and those of the interferometer components are all uncertain. Interference in a measurement of only the particle is shown to disappear for microscopic yet appear for mesoscopic scatterers, contrary to that of a quantum-classical transition. A measurement of this threshold can verify quantum correlations in many-body systems by measuring only the retro-reflected microscopic particle. The decoherence of a mesoscopic scatterer is determined by this threshold without it having to traverse slits or beamsplitters. | 翻訳日:2024-08-15 13:34:28 公開日:2024-08-14 |
# 時間的蒸留による1ステップ拡散型超解法
One Step Diffusion-based Super-Resolution with Time-Aware Distillation ( http://arxiv.org/abs/2408.07476v1 ) ライセンス: Link先を確認 | Xiao He, Huaao Tang, Zhijun Tu, Junchao Zhang, Kun Cheng, Hanting Chen, Yong Guo, Mingrui Zhu, Nannan Wang, Xinbo Gao, Jie Hu, | (参考訳) 拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで細部まで高解像度画像の再構成において有望であることを示す。
しかしながら、これらのアプローチは通常、数十から数百の反復的なサンプリングを必要とし、結果として大きな遅延が発生する。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率を向上させる技術が開発されている。
それでも、学生モデルと教師モデルの知識を整合させる場合、これらのソリューションはピクセルレベルの損失制約のみに依存するか、拡散モデルが異なる時間ステップで様々なレベルの情報を優先するという事実を無視する。
効率的な画像超解像を実現するため,TAD-SRと呼ばれる時間認識拡散蒸留法を提案する。
具体的には,小雑音摂動後の教師モデルと生徒の出力と教師モデルのデータ分布を整合させる新しいスコア蒸留手法を提案する。
この蒸留戦略により、学生ネットワークはより高周波の詳細に集中することができる。
さらに, 蒸留による性能限界を緩和するため, 遅延対向損失を解消し, 拡散先行を生かした時間認識判別器を考案し, 実画像と生成画像とを効果的に識別する。
提案手法は,従来のSOTA(State-of-the-art)手法と教師モデルに比較して,1つのサンプリングステップで同等あるいはそれ以上の性能を達成可能であることを示す。
コードはhttps://github.com/LearningHx/TAD-SRで公開されている。
Diffusion-based image super-resolution (SR) methods have shown promise in reconstructing high-resolution images with fine details from low-resolution counterparts. However, these approaches typically require tens or even hundreds of iterative samplings, resulting in significant latency. Recently, techniques have been devised to enhance the sampling efficiency of diffusion-based SR models via knowledge distillation. Nonetheless, when aligning the knowledge of student and teacher models, these solutions either solely rely on pixel-level loss constraints or neglect the fact that diffusion models prioritize varying levels of information at different time steps. To accomplish effective and efficient image super-resolution, we propose a time-aware diffusion distillation method, named TAD-SR. Specifically, we introduce a novel score distillation strategy to align the data distribution between the outputs of the student and teacher models after minor noise perturbation. This distillation strategy enables the student network to concentrate more on the high-frequency details. Furthermore, to mitigate performance limitations stemming from distillation, we integrate a latent adversarial loss and devise a time-aware discriminator that leverages diffusion priors to effectively distinguish between real images and generated images. Extensive experiments conducted on synthetic and real-world datasets demonstrate that the proposed method achieves comparable or even superior performance compared to both previous state-of-the-art (SOTA) methods and the teacher model in just one sampling step. Codes are available at https://github.com/LearningHx/TAD-SR. | 翻訳日:2024-08-15 13:34:28 公開日:2024-08-14 |
# 自然言語処理におけるバイアス検出と分類に関する研究
A Study on Bias Detection and Classification in Natural Language Processing ( http://arxiv.org/abs/2408.07479v1 ) ライセンス: Link先を確認 | Ana Sofia Evans, Helena Moniz, Luísa Coheur, | (参考訳) 人間のバイアスは自然言語処理を含む様々な分野におけるモデルとアルゴリズムのパフォーマンスに影響を与えることが示されている。
この現象の研究は近年注目されているが、利用可能な資源は比較的乏しく、しばしば異なる形態やバイアスの顕在化に焦点を当てている。
私たちの仕事の目的は2つあります。
1) 公開データセットを収集し、それらをうまく組み合わせて、ヘイトスピーチの検出及び分類のタスクにおいて、モデルを効果的に訓練する方法を決定する。
2)これらのデータセットの主な問題、例えば不足、歪んだリソース、非永続的なデータへの依存を分析します。
我々は,これらの課題を実験の展開と合わせて議論し,異なるデータセットの組み合わせがモデルの性能に大きな影響を及ぼすことを示す。
Human biases have been shown to influence the performance of models and algorithms in various fields, including Natural Language Processing. While the study of this phenomenon is garnering focus in recent years, the available resources are still relatively scarce, often focusing on different forms or manifestations of biases. The aim of our work is twofold: 1) gather publicly-available datasets and determine how to better combine them to effectively train models in the task of hate speech detection and classification; 2) analyse the main issues with these datasets, such as scarcity, skewed resources, and reliance on non-persistent data. We discuss these issues in tandem with the development of our experiments, in which we show that the combinations of different datasets greatly impact the models' performance. | 翻訳日:2024-08-15 13:34:28 公開日:2024-08-14 |
# 計算効率の良い予測のための適応基底関数の選択
Adaptive Basis Function Selection for Computationally Efficient Predictions ( http://arxiv.org/abs/2408.07480v1 ) ライセンス: Link先を確認 | Anton Kullberg, Frida Viset, Isaac Skog, Gustaf Hendeby, | (参考訳) 基底関数(BF)拡張は、ニューラルネットワークとガウス過程の両方との接続を共有する計算関数近似のための、任意のエンジニアのツールボックスの基盤である。
BF拡張は直感的で直感的なモデルであるが、予測分散が計算される場合、BFの数の2次計算複雑性に悩まされる。
モデル領域のサブドメインにおける予測において,最も重要なBFを自動的に選択する手法を開発した。
これにより、予測精度を維持しながら、計算予測の計算複雑性を著しく低減できる。
提案手法は,予測精度を大幅に低下させることなく,最大50~75%の削減が可能となる2つの数値例を用いて実証した。
Basis Function (BF) expansions are a cornerstone of any engineer's toolbox for computational function approximation which shares connections with both neural networks and Gaussian processes. Even though BF expansions are an intuitive and straightforward model to use, they suffer from quadratic computational complexity in the number of BFs if the predictive variance is to be computed. We develop a method to automatically select the most important BFs for prediction in a sub-domain of the model domain. This significantly reduces the computational complexity of computing predictions while maintaining predictive accuracy. The proposed method is demonstrated using two numerical examples, where reductions up to 50-75% are possible without significantly reducing the predictive accuracy. | 翻訳日:2024-08-15 13:34:28 公開日:2024-08-14 |
# DeCo:人間中心の拡散ビデオ編集をモーション一貫性で分離
DeCo: Decoupled Human-Centered Diffusion Video Editing with Motion Consistency ( http://arxiv.org/abs/2408.07481v1 ) ライセンス: Link先を確認 | Xiaojing Zhong, Xinyi Huang, Xiaofeng Yang, Guosheng Lin, Qingyao Wu, | (参考訳) 拡散モデルにより、ビデオ編集の新しい時代が到来し、動画コンテンツをテキストプロンプトで柔軟に操作する。
人間中心のビデオを編集するアプリケーションの需要は広いが、これらのモデルは人間のような複雑なオブジェクトを扱う上で大きな課題に直面している。
本稿では,人間と背景を別々に編集可能なターゲットとして扱うための新しいビデオ編集フレームワークであるDeCoを紹介し,各コンポーネントのコヒーレンスを維持することにより,グローバルな空間的時間的一貫性を確保する。
具体的には,原ビデオとして一貫した動きを保ちながら,人体をパラメトリックに利用して調整された人体を生成する,疎結合な動的人間表現を提案する。
さらに,背景を層状アトラスとみなし,テキスト誘導画像編集手法を適用した。
最適化時のヒトの形状とテクスチャをさらに高めるため,通常の空間と画像空間にスコア蒸留サンプリングの計算を拡張した。
さらに,従来は分解・編集・組み合わせのアプローチでは見過ごされていた照明対応ビデオハーモナイザの活用により,編集対象間の一貫性のない照明に対処する。
大規模な定性的および数値的な実験は、DeCoが人間中心のビデオ、特に長いビデオにおいて、以前のビデオ編集方法より優れていることを示している。
Diffusion models usher a new era of video editing, flexibly manipulating the video contents with text prompts. Despite the widespread application demand in editing human-centered videos, these models face significant challenges in handling complex objects like humans. In this paper, we introduce DeCo, a novel video editing framework specifically designed to treat humans and the background as separate editable targets, ensuring global spatial-temporal consistency by maintaining the coherence of each individual component. Specifically, we propose a decoupled dynamic human representation that utilizes a parametric human body prior to generate tailored humans while preserving the consistent motions as the original video. In addition, we consider the background as a layered atlas to apply text-guided image editing approaches on it. To further enhance the geometry and texture of humans during the optimization, we extend the calculation of score distillation sampling into normal space and image space. Moreover, we tackle inconsistent lighting between the edited targets by leveraging a lighting-aware video harmonizer, a problem previously overlooked in decompose-edit-combine approaches. Extensive qualitative and numerical experiments demonstrate that DeCo outperforms prior video editing methods in human-centered videos, especially in longer videos. | 翻訳日:2024-08-15 13:34:28 公開日:2024-08-14 |
# トレーニングオーバーヘッド比率:大規模言語モデルトレーニングシステムのための実践的信頼性指標
Training Overhead Ratio: A Practical Reliability Metric for Large Language Model Training Systems ( http://arxiv.org/abs/2408.07482v1 ) ライセンス: Link先を確認 | Ning Lu, Qian Xie, Hao Zhang, Wenyi Fang, Yang Zheng, Jiantao Ma, | (参考訳) 大規模言語モデル(LLM)は、優れた能力でAI産業に革命をもたらしている。
これらのモデルのトレーニングには、大規模なGPUクラスタと大きな計算時間が必要です。
その重要性にもかかわらず、この分野は信頼性を評価するための指標が欠けている。
本研究では,耐故障性LLMトレーニングシステムの信頼性を評価するために,新しい信頼性指標である \emph{Training Overhead Ratio} (TOR) を導入する。
TORは、観測されたシステムのトレーニング時間に対する最適なトレーニング時間の割合として定義され、あるシステム上でLLMのトレーニングに要する実際の時間を推定するための実用的なツールとして機能する。
さらに,本研究では,信頼性向上の鍵となる要因と,実際に遭遇した各種障害に対するTOR式について検討した。
Large Language Models (LLMs) are revolutionizing the AI industry with their superior capabilities. Training these models requires large-scale GPU clusters and significant computing time, leading to frequent failures that significantly increase training costs. Despite its significance, this field lacks a metric for evaluating reliability. In this work, we introduce a novel reliability metric called \emph{Training Overhead Ratio} (TOR) to evaluate the reliability of fault-tolerant LLM training systems. TOR is defined as the ratio of optimal training time to the observed training time of a system, serving as a practical tool for users to estimate the actual time required to train an LLM on a given system. Furthermore, our investigation identifies the key factor for enhancing reliability and present TOR equations for various types of failures encountered in practice. | 翻訳日:2024-08-15 13:34:28 公開日:2024-08-14 |
# GRFormer:軽量シングルイメージ超解像のためのグループ化された残像自己認識
GRFormer: Grouped Residual Self-Attention for Lightweight Single Image Super-Resolution ( http://arxiv.org/abs/2408.07484v1 ) ライセンス: Link先を確認 | Yuzhen Li, Zehang Deng, Yuxin Cao, Lihua Liu, | (参考訳) 従来の研究では、トランスフォーマーベースのシングルイメージ超解像(SISR)モデル(例えばSwinIR)のパラメータオーバーヘッドの削減と計算が、通常、性能の低下につながることが示されている。
本稿では,パラメータのオーバーヘッドと計算量を削減するだけでなく,性能も大幅に向上する,効率的で軽量なGRFormerを提案する。
GRFormer の中核は Grouped Residual Self-Attention (GRSA) である。
まず、クエリ、キー、バリュー(QKV)線形層を自己注意で置き換える、新しいグループ化された残留層(GRL)を導入する。
第二に、コンパクトな指数空間相対位置バイアス(ES-RPB)を元の相対位置バイアスの代用として統合し、パラメータ数をさらに最小化しながら位置情報を表現する能力を向上させる。
GRFormerは、DIV2Kデータセットでトレーニングされた場合、最大PSNR0.23dBでSOTAを上回り、パラメータとMACの数を約 \textbf{60\%} と \textbf{49\% } でそれぞれ減らした。
ウィンドウ分割自己アテンションに基づくSRモデルに容易に適用可能な,単純かつ効果的な手法が,画像超解像のさらなる研究に役立つことを期待する。
コードは \url{https://github.com/sisrformer/GRFormer} で公開されている。
Previous works have shown that reducing parameter overhead and computations for transformer-based single image super-resolution (SISR) models (e.g., SwinIR) usually leads to a reduction of performance. In this paper, we present GRFormer, an efficient and lightweight method, which not only reduces the parameter overhead and computations, but also greatly improves performance. The core of GRFormer is Grouped Residual Self-Attention (GRSA), which is specifically oriented towards two fundamental components. Firstly, it introduces a novel grouped residual layer (GRL) to replace the Query, Key, Value (QKV) linear layer in self-attention, aimed at efficiently reducing parameter overhead, computations, and performance loss at the same time. Secondly, it integrates a compact Exponential-Space Relative Position Bias (ES-RPB) as a substitute for the original relative position bias to improve the ability to represent position information while further minimizing the parameter count. Extensive experimental results demonstrate that GRFormer outperforms state-of-the-art transformer-based methods for $\times$2, $\times$3 and $\times$4 SISR tasks, notably outperforming SOTA by a maximum PSNR of 0.23dB when trained on the DIV2K dataset, while reducing the number of parameter and MACs by about \textbf{60\%} and \textbf{49\% } in only self-attention module respectively. We hope that our simple and effective method that can easily applied to SR models based on window-division self-attention can serve as a useful tool for further research in image super-resolution. The code is available at \url{https://github.com/sisrformer/GRFormer}. | 翻訳日:2024-08-15 13:34:28 公開日:2024-08-14 |
# OMR:Occlusion-Aware Memory-based Refinement for Video Lane Detection
OMR: Occlusion-Aware Memory-Based Refinement for Video Lane Detection ( http://arxiv.org/abs/2408.07486v1 ) ライセンス: Link先を確認 | Dongkwon Jin, Chang-Su Kim, | (参考訳) 本稿では,ビデオレーン検出のための新しいアルゴリズムを提案する。
まず、現在のフレームの特徴マップを抽出し、レーンを含む障害物に対する潜時マスクを検出する。
そこで我々は,OMR(Occlusion-aware memory-based refinement)モジュールを開発した。
障害物マスクと特徴マップを現在のフレームから取り出し、以前の出力とメモリ情報を入力として、ビデオ内で再帰的に処理する。
さらに,OMRモジュールを効果的に訓練するための新しいデータ拡張手法を適用した。
実験の結果,提案アルゴリズムはビデオレーンデータセット上で既存の手法よりも優れていた。
私たちのコードはhttps://github.com/dongkwonjin/OMR.comで公開されています。
A novel algorithm for video lane detection is proposed in this paper. First, we extract a feature map for a current frame and detect a latent mask for obstacles occluding lanes. Then, we enhance the feature map by developing an occlusion-aware memory-based refinement (OMR) module. It takes the obstacle mask and feature map from the current frame, previous output, and memory information as input, and processes them recursively in a video. Moreover, we apply a novel data augmentation scheme for training the OMR module effectively. Experimental results show that the proposed algorithm outperforms existing techniques on video lane datasets. Our codes are available at https://github.com/dongkwonjin/OMR. | 翻訳日:2024-08-15 13:34:28 公開日:2024-08-14 |
# 教師なし画像異常検出のための注意誘導摂動法
Attention-Guided Perturbation for Unsupervised Image Anomaly Detection ( http://arxiv.org/abs/2408.07490v1 ) ライセンス: Link先を確認 | Tingfeng Huang, Yuxuan Cheng, Jingbo Xia, Rui Yu, Yuxuan Cai, Jinhai Xiang, Xinwei He, Xiang Bai, | (参考訳) レコンストラクションに基づく手法は、最新の非教師なし異常検出を著しく進歩させた。
しかし、ニューラルネットワークの強い能力は、しばしば異常なサンプルをうまく再構成することで基礎となる仮定に反する。
この問題を軽減するために,注意マスクによる摂動雑音を学習し,教師なしの異常検出を高精度に行う,AGPNet(Attention-Guided Pertuation Network)というシンプルな再構築フレームワークを提案する。
具体的には2つの枝(大家)、平らな再建枝、補助的な注意に基づく摂動枝)から構成される。
再建部は単に通常のサンプルの復元を学習するプレーンな再構築ネットワークであり、補助部は通常のサンプルのノイズ摂動過程を誘導するアテンションマスクを作成することを目的としている。
これにより、再建部は、包括的かつ効率的に重要な正規パターンを学習することが可能になる。
MVTec-AD, VisA, MVTec-3Dを網羅した3つの一般的なベンチマーク実験を行い, 本フレームワークは, ショット数, ワンクラス数, マルチクラス数など, 様々な設定において, 先行する異常検出性能が得られることを示す。
Reconstruction-based methods have significantly advanced modern unsupervised anomaly detection. However, the strong capacity of neural networks often violates the underlying assumptions by reconstructing abnormal samples well. To alleviate this issue, we present a simple yet effective reconstruction framework named Attention-Guided Pertuation Network (AGPNet), which learns to add perturbation noise with an attention mask, for accurate unsupervised anomaly detection. Specifically, it consists of two branches, \ie, a plain reconstruction branch and an auxiliary attention-based perturbation branch. The reconstruction branch is simply a plain reconstruction network that learns to reconstruct normal samples, while the auxiliary branch aims to produce attention masks to guide the noise perturbation process for normal samples from easy to hard. By doing so, we are expecting to synthesize hard yet more informative anomalies for training, which enable the reconstruction branch to learn important inherent normal patterns both comprehensively and efficiently. Extensive experiments are conducted on three popular benchmarks covering MVTec-AD, VisA, and MVTec-3D, and show that our framework obtains leading anomaly detection performance under various setups including few-shot, one-class, and multi-class setups. | 翻訳日:2024-08-15 13:34:28 公開日:2024-08-14 |
# 最適フィードバック制御による自由空間における相互作用質量の定常絡み合い
Steady-state entanglement of interacting masses in free space through optimal feedback control ( http://arxiv.org/abs/2408.07492v1 ) ライセンス: Link先を確認 | Klemens Winkler, Anton V. Zasedatelev, Benjamin A. Stickler, Uroš Delić, Andreas Deutschmann-Olek, Markus Aspelmeyer, | (参考訳) ガウス系に対する最適量子フィードバック制御に基づくフィードバック戦略を開発し、2つの直接相互作用する質量間の定常絡み検出の可能性を最大化する。
線形二次ガウス(LQG)制御を用いて、2つの質量の位相空間ダイナミクスを設計し、非条件エンタングルメント生成を容易にするフィードバックに対してアインシュタイン-ポドルスキー-ローゼン型分散最小化制約を提案する。
このスキームは、総エネルギー最小化(クーリング$)に基づく戦略が失敗するパラメータ体系における定常的な絡み合いを可能にする。
このフィードバック戦略は、2つの質量を駆動する熱平衡(arXiv:2408.06251)の系に適用することで、現実的な実験条件下での無条件の絡み合いの発生を可能にする。
We develop a feedback strategy based on optimal quantum feedback control for Gaussian systems to maximise the likelihood of steady-state entanglement detection between two directly interacting masses. We employ linear quadratic Gaussian (LQG) control to engineer the phase space dynamics of the two masses and propose Einstein-Podolsky-Rosen (EPR)-type variance minimisation constraints for the feedback to facilitate unconditional entanglement generation. This scheme allows for stationary entanglement in parameter regimes where strategies based on total energy minimisation ($cooling$) would fail. This feedback strategy, applied to the system of two masses driven out-of-thermal equilibrium [arXiv:2408.06251] enables unconditional entanglement generation under realistic experimental conditions. | 翻訳日:2024-08-15 13:24:15 公開日:2024-08-14 |
# QirK:知識グラフの中間表現による質問応答
QirK: Question Answering via Intermediate Representation on Knowledge Graphs ( http://arxiv.org/abs/2408.07494v1 ) ライセンス: Link先を確認 | Jan Luca Scheerer, Anton Lykov, Moe Kayali, Ilias Fountalis, Dan Olteanu, Nikolaos Vasiloglou, Dan Suciu, | (参考訳) 本稿では,知識グラフ(KG)上で自然言語質問に回答するシステムであるQirKを紹介する。
QirKは、新しいLarge Language Models(LLMs)の範囲を超えて、構造的に複雑な質問に答えることができます。
データベース技術、LLM、ベクトル埋め込みのセマンティックサーチのユニークな組み合わせを使って実現している。
これらのコンポーネントのグルーは、中間表現(IR)である。
入力された質問はLLMを用いてIRにマッピングされ、ベクトル埋め込みのセマンティック検索の助けを借りて有効な関係データベースクエリに修復される。
これにより、LLM能力とKG信頼性の実用的な合成が可能となる。
QirKのデモビデオはhttps://youtu.be/6c81BLmOZ0Uで公開されている。
We demonstrate QirK, a system for answering natural language questions on Knowledge Graphs (KG). QirK can answer structurally complex questions that are still beyond the reach of emerging Large Language Models (LLMs). It does so using a unique combination of database technology, LLMs, and semantic search over vector embeddings. The glue for these components is an intermediate representation (IR). The input question is mapped to IR using LLMs, which is then repaired into a valid relational database query with the aid of a semantic search on vector embeddings. This allows a practical synthesis of LLM capabilities and KG reliability. A short video demonstrating QirK is available at https://youtu.be/6c81BLmOZ0U. | 翻訳日:2024-08-15 13:24:15 公開日:2024-08-14 |
# 距離カーネルを持つMDD関数のワッサースタイン勾配流れと量子関数の因果問題
Wasserstein Gradient Flows of MMD Functionals with Distance Kernel and Cauchy Problems on Quantile Functions ( http://arxiv.org/abs/2408.07498v1 ) ライセンス: Link先を確認 | Richard Duong, Viktor Stein, Robert Beinert, Johannes Hertrich, Gabriele Steidl, | (参考訳) 最大平均離散性(MMD)関数のワッサーシュタイン勾配フローを包括的に記述する: $\mathcal F_\nu := \text{MMD}_K^2(\cdot, \nu)$ は実数直線上の与えられた目標測度に対して$\nu$ となる。
ある次元において、ワッサーシュタイン-2空間は、$L_2(0,1)$上の関連するコーシー問題の解を通じてワッサーシュタイン勾配の特徴づけにつながるような量子函数の錐 $\mathcal C(0,1) \subset L_2(0,1)$ に等尺的に埋め込まれる。
L_2(0,1)$ 上の $\mathcal F_\nu$ の適切な値の構成とその部分微分に基づいて、コーシー問題の解を提供する。
離散的目標測度 $\nu$ に対して、これは断片線型解公式をもたらす。
我々は、$\mathcal C(0,1)$ の部分集合上のフローの不変性と滑らか性を証明する。
一定の$\mathcal F_\nu$-flows に対して、これは初期点測度がすぐに絶対連続となり、時間とともにそれを維持することを意味する。
最後に、暗黙のオイラースキームを用いて様々な数値例による流れの挙動を説明し、計算が容易だが収束保証が限定されている明示的なオイラースキームとの違いを示す。
We give a comprehensive description of Wasserstein gradient flows of maximum mean discrepancy (MMD) functionals $\mathcal F_\nu := \text{MMD}_K^2(\cdot, \nu)$ towards given target measures $\nu$ on the real line, where we focus on the negative distance kernel $K(x,y) := -|x-y|$. In one dimension, the Wasserstein-2 space can be isometrically embedded into the cone $\mathcal C(0,1) \subset L_2(0,1)$ of quantile functions leading to a characterization of Wasserstein gradient flows via the solution of an associated Cauchy problem on $L_2(0,1)$. Based on the construction of an appropriate counterpart of $\mathcal F_\nu$ on $L_2(0,1)$ and its subdifferential, we provide a solution of the Cauchy problem. For discrete target measures $\nu$, this results in a piecewise linear solution formula. We prove invariance and smoothing properties of the flow on subsets of $\mathcal C(0,1)$. For certain $\mathcal F_\nu$-flows this implies that initial point measures instantly become absolutely continuous, and stay so over time. Finally, we illustrate the behavior of the flow by various numerical examples using an implicit Euler scheme and demonstrate differences to the explicit Euler scheme, which is easier to compute, but comes with limited convergence guarantees. | 翻訳日:2024-08-15 13:24:15 公開日:2024-08-14 |
# クロスプラットフォームビデオパーソンReID:新しいベンチマークデータセットと適応アプローチ
Cross-Platform Video Person ReID: A New Benchmark Dataset and Adaptation Approach ( http://arxiv.org/abs/2408.07500v1 ) ライセンス: Link先を確認 | Shizhou Zhang, Wenlong Luo, De Cheng, Qingchun Yang, Lingyan Ran, Yinghui Xing, Yanning Zhang, | (参考訳) 本稿では,G2A-VReIDという,地上から地上までの映像に基づく人物再同定のための大規模ベンチマークデータセットを構築し,その特徴を2,788個の異なる特徴を持つ185,907の画像と5,576個のトラックレットからなる。
我々の知る限り、このデータセットは地上から地上までのシナリオ下でのビデオReIDのための最初のデータセットである。
G2A-VReIDデータセットには以下の特徴がある。
1) 劇的視点の変更
2) 注釈付きIDの数が多ければ多い。
3) 豊かな屋外シナリオ
4) 解像度の大きな差。
さらに、クロスプラットフォームの視覚アライメント問題から視覚言語モデル(CLIP)による視覚的セマンティックアライメントへと変換し、パラメータ効率のよいビデオセットレベルアダプタモジュールを適用して、画像ベース基盤モデルをビデオReIDタスクに適応させることにより、クロスプラットフォームReIDの新しいベンチマーク手法を提案する。
さらに、プラットフォーム間の大きな不一致をさらに軽減するために、効率的な視覚的特徴調整のためのプラットフォームブリッジプロンプトも考案しました。
提案手法が既存のビデオReIDデータセットおよび提案したG2A-VReIDデータセットに対して優れていることを示す。
In this paper, we construct a large-scale benchmark dataset for Ground-to-Aerial Video-based person Re-Identification, named G2A-VReID, which comprises 185,907 images and 5,576 tracklets, featuring 2,788 distinct identities. To our knowledge, this is the first dataset for video ReID under Ground-to-Aerial scenarios. G2A-VReID dataset has the following characteristics: 1) Drastic view changes; 2) Large number of annotated identities; 3) Rich outdoor scenarios; 4) Huge difference in resolution. Additionally, we propose a new benchmark approach for cross-platform ReID by transforming the cross-platform visual alignment problem into visual-semantic alignment through vision-language model (i.e., CLIP) and applying a parameter-efficient Video Set-Level-Adapter module to adapt image-based foundation model to video ReID tasks, termed VSLA-CLIP. Besides, to further reduce the great discrepancy across the platforms, we also devise the platform-bridge prompts for efficient visual feature alignment. Extensive experiments demonstrate the superiority of the proposed method on all existing video ReID datasets and our proposed G2A-VReID dataset. | 翻訳日:2024-08-15 13:24:15 公開日:2024-08-14 |
# Asynchronous Mini-Batchingによる任意遅延による確率最適化の高速化
Faster Stochastic Optimization with Arbitrary Delays via Asynchronous Mini-Batching ( http://arxiv.org/abs/2408.07503v1 ) ライセンス: Link先を確認 | Amit Attia, Ofir Gaash, Tomer Koren, | (参考訳) 非同期確率最適化の問題を考えると、最適化アルゴリズムは、任意の(おそらく逆)遅延列の対象となる目的の定型確率勾配に基づいて更新を行う。
我々は、任意の$q \in (0,1]$に対して、任意の標準的な確率的一階法を、シーケンスの$q$-quantile遅延に依存する収束保証付き非同期メソッドに変換する手順を示す。
このアプローチは、非凸に対する$O(\tau_q/qT+\sqrt{qT})$と、凸滑らかな問題に対する$O(\tau_q^2/(q T)^2+\sqrt{qT})$の収束率をもたらす。
さらに、非凸に対して$O(\inf_{q} \tau_q/qT+\sigma/\sqrt{qT})$、凸スムーズな問題に対して$O(\inf_{q} \tau_q^2/(qT)^2+\sigma/\sqrt{qT})$という形の収束率を得る。
本手法は, バッチサイズ選択を慎重に行い, スタイル勾配をフィルタリングする非同期ミニバッチに基づいている。
We consider the problem of asynchronous stochastic optimization, where an optimization algorithm makes updates based on stale stochastic gradients of the objective that are subject to an arbitrary (possibly adversarial) sequence of delays. We present a procedure which, for any given $q \in (0,1]$, transforms any standard stochastic first-order method to an asynchronous method with convergence guarantee depending on the $q$-quantile delay of the sequence. This approach leads to convergence rates of the form $O(\tau_q/qT+\sigma/\sqrt{qT})$ for non-convex and $O(\tau_q^2/(q T)^2+\sigma/\sqrt{qT})$ for convex smooth problems, where $\tau_q$ is the $q$-quantile delay, generalizing and improving on existing results that depend on the average delay. We further show a method that automatically adapts to all quantiles simultaneously, without any prior knowledge of the delays, achieving convergence rates of the form $O(\inf_{q} \tau_q/qT+\sigma/\sqrt{qT})$ for non-convex and $O(\inf_{q} \tau_q^2/(q T)^2+\sigma/\sqrt{qT})$ for convex smooth problems. Our technique is based on asynchronous mini-batching with a careful batch-size selection and filtering of stale gradients. | 翻訳日:2024-08-15 13:24:15 公開日:2024-08-14 |
# 模範的文脈を作るための大言語モデル
Large Language Models Know What Makes Exemplary Contexts ( http://arxiv.org/abs/2408.07505v1 ) ライセンス: Link先を確認 | Quanyu Long, Jianda Chen, | (参考訳) In-context Learning (ICL) は、Large Language Model (LLM) の発展において重要な機能であることが証明されている。
数発の実証例を使ってLLMを指示することにより、ICLは数百万のパラメータを更新することなく、幅広いタスクを実行できる。
本稿では,LLMを統合的に構築するフレームワークについて述べる。このフレームワークでは,文脈の異なる実演構成の自己選び方,実演選択の自己選び方,強化学習による順序付けを自己選び方で行うことができる。
具体的には,LLMの好みに基づいて,学習後に最適化された実演を生成するパラメータ効率の高い検索ヘッドを設計する。
ICL性能向上における提案手法の有効性を実験的に検証した。
さらに,本手法では,現在のタスクの最も代表的な例を効果的に識別し,選択し,検索の多様性を向上する。
In-context learning (ICL) has proven to be a significant capability with the advancement of Large Language models (LLMs). By instructing LLMs using few-shot demonstrative examples, ICL enables them to perform a wide range of tasks without needing to update millions of parameters. This paper presents a unified framework for LLMs that allows them to self-select influential in-context examples to compose their contexts; self-rank candidates with different demonstration compositions; self-optimize the demonstration selection and ordering through reinforcement learning. Specifically, our method designs a parameter-efficient retrieval head that generates the optimized demonstration after training with rewards from LLM's own preference. Experimental results validate the proposed method's effectiveness in enhancing ICL performance. Additionally, our approach effectively identifies and selects the most representative examples for the current task, and includes more diversity in retrieval. | 翻訳日:2024-08-15 13:24:15 公開日:2024-08-14 |
# 学習潜在測地のためのデコーダアンサンブル
Decoder ensembling for learned latent geometries ( http://arxiv.org/abs/2408.07507v1 ) ライセンス: Link先を確認 | Stas Syrota, Pablo Moreno-Muñoz, Søren Hauberg, | (参考訳) 潜時空間幾何学は、深部生成モデルの潜時変数と相互作用するための厳密で経験的に価値のある枠組みを提供する。
このアプローチは、ユークリッドラテント空間をプルバック計量を通してリーマン空間と解釈し、ラテント空間の標準的な微分幾何学的解析を可能にする。
残念なことに、データ多様体は一般にコンパクトであり、容易に解かれるか穴で満たされるので、ユークリッド潜在空間への位相的ミスマッチが示唆される。
このミスマッチの最も確立された解決策は、不確実性をトポロジーのプロキシにすることであるが、ニューラルネットワークモデルでは、原理に欠け、一般的に高次元表現にスケールしない粗いヒューリスティックによって実現されることが多い。
本稿では,デコーダのアンサンブルを用いてモデルの不確実性を捕捉し,それに伴う予測多様体上の測地線を容易に計算する方法を示す。
経験的には、この単純で信頼性があり、簡単に使える潜在測地へと一歩近づきます。
Latent space geometry provides a rigorous and empirically valuable framework for interacting with the latent variables of deep generative models. This approach reinterprets Euclidean latent spaces as Riemannian through a pull-back metric, allowing for a standard differential geometric analysis of the latent space. Unfortunately, data manifolds are generally compact and easily disconnected or filled with holes, suggesting a topological mismatch to the Euclidean latent space. The most established solution to this mismatch is to let uncertainty be a proxy for topology, but in neural network models, this is often realized through crude heuristics that lack principle and generally do not scale to high-dimensional representations. We propose using ensembles of decoders to capture model uncertainty and show how to easily compute geodesics on the associated expected manifold. Empirically, we find this simple and reliable, thereby coming one step closer to easy-to-use latent geometries. | 翻訳日:2024-08-15 13:24:15 公開日:2024-08-14 |
# 解集合プログラミングによる集合再構成の優位性
Dominating Set Reconfiguration with Answer Set Programming ( http://arxiv.org/abs/2408.07510v1 ) ライセンス: Link先を確認 | Masato Kato, Torsten Schaub, Takehide Soh, Naoyuki Tamura, Mutsunori Banbara, | (参考訳) 支配集合再構成問題は、与えられた支配集合問題と、その実現可能な解のうち2に対して、ある隣接関係に従属する実現可能な解の列を介して他方から到達可能であるか否かを決定するものとして定義される。
この問題は一般にPSPACE完全である。
支配集合の概念は、無線ネットワーク、ソーシャルネットワーク、センサーネットワークを分析するのに非常に有用であることが知られている。
本稿では, Answer Set Programming (ASP) に基づく支配的集合再構成問題の解法を開発する。
我々の宣言的アプローチは、高レベルのASPエンコーディングに依存しており、基礎と解決のタスクは、ASPベースの組合せ再構成ソルバに委譲されます。
提案手法の有効性を評価するため,新たに作成したベンチマークセットを用いて実験を行った。
The dominating set reconfiguration problem is defined as determining, for a given dominating set problem and two among its feasible solutions, whether one is reachable from the other via a sequence of feasible solutions subject to a certain adjacency relation. This problem is PSPACE-complete in general. The concept of the dominating set is known to be quite useful for analyzing wireless networks, social networks, and sensor networks. We develop an approach to solve the dominating set reconfiguration problem based on Answer Set Programming (ASP). Our declarative approach relies on a high-level ASP encoding, and both the grounding and solving tasks are delegated to an ASP-based combinatorial reconfiguration solver. To evaluate the effectiveness of our approach, we conduct experiments on a newly created benchmark set. | 翻訳日:2024-08-15 13:24:15 公開日:2024-08-14 |
# オンラインエントロピーマッチングによるテスト時間適応の保護:ベッティングアプローチ
Protected Test-Time Adaptation via Online Entropy Matching: A Betting Approach ( http://arxiv.org/abs/2408.07511v1 ) ライセンス: Link先を確認 | Yarin Bar, Shalev Shaer, Yaniv Romano, | (参考訳) 本稿では,2つのコンポーネントからなるオンライン自己学習によるテスト時間適応手法を提案する。
まず,未ラベル標本のストリーム上で得られた分類器のエントロピー値の分布変化を検出する統計フレームワークを提案する。
第2に,検出ツールが取得した分布変化の証拠を利用して,分類器のパラメータを動的に更新するオンライン適応機構を考案する。
結果の適応プロセスは、自己学習型分類器から得られたテストエントロピー値の分布を、ソース領域の値と一致するように駆動し、分散シフトに不変性を構築する。
このアプローチは、分類器のエントロピーを最小化することに焦点を当てた従来の自己学習法から逸脱する。
提案手法では,マーチンガレットとオンライン学習の概念を組み合わせて,分布変化に迅速に対応可能な検出ツールを構築している。
そして、適応スキームと最適輸送の密接な関係を明らかにし、新たな自己監督的損失の基礎となる。
実験結果から,本手法は分布シフト下での試験時間精度を向上し,不在時の精度と校正を維持でき,様々なシナリオにおける先行エントロピー最小化法よりも優れていた。
We present a novel approach for test-time adaptation via online self-training, consisting of two components. First, we introduce a statistical framework that detects distribution shifts in the classifier's entropy values obtained on a stream of unlabeled samples. Second, we devise an online adaptation mechanism that utilizes the evidence of distribution shifts captured by the detection tool to dynamically update the classifier's parameters. The resulting adaptation process drives the distribution of test entropy values obtained from the self-trained classifier to match those of the source domain, building invariance to distribution shifts. This approach departs from the conventional self-training method, which focuses on minimizing the classifier's entropy. Our approach combines concepts in betting martingales and online learning to form a detection tool capable of quickly reacting to distribution shifts. We then reveal a tight relation between our adaptation scheme and optimal transport, which forms the basis of our novel self-supervised loss. Experimental results demonstrate that our approach improves test-time accuracy under distribution shifts while maintaining accuracy and calibration in their absence, outperforming leading entropy minimization methods across various scenarios. | 翻訳日:2024-08-15 13:24:15 公開日:2024-08-14 |
# CNN-JEPA:共同埋め込み予測アーキテクチャを用いた自己教師付き畳み込みニューラルネットワーク
CNN-JEPA: Self-Supervised Pretraining Convolutional Neural Networks Using Joint Embedding Predictive Architecture ( http://arxiv.org/abs/2408.07514v1 ) ライセンス: Link先を確認 | András Kalapos, Bálint Gyires-Tóth, | (参考訳) 自己教師付き学習(SSL)は、大規模なニューラルネットワークの事前トレーニングにおいて重要なアプローチとなり、モデルとデータセットサイズの前例のないスケーリングを可能にした。
I-JEPAのような最近の進歩はビジョントランスフォーマーに有望な結果を示しており、このような手法を畳み込みニューラルネットワーク(CNN)に適用することは、ユニークな課題を提示している。
本稿では,CNNに組込み予測アーキテクチャを適用可能な新しいSSL方式であるCNN-JEPAを紹介する。
本手法では,マスク入力を処理するためのスパースCNNエンコーダ,奥行き分離可能な畳み込みを用いた完全畳み込み予測器,マスキング戦略の改善を取り入れた。
CNN-JEPA は ImageNet-100 上の ViT アーキテクチャで I-JEPA より優れており,標準の ResNet-50 エンコーダで 73.3% の線形トップ-1 精度を実現している。
他のCNNベースのSSLメソッドと比較して、CNN-JEPAは同じ数のエポックに対して17~35%のトレーニング時間を必要とし、BYOL、SimCLR、VICRegの線形およびk-NNトップ-1アキュラシーにアプローチする。
当社のアプローチは,CNNの既存のSSLメソッドに対して,よりシンプルで効率的な代替手段を提供するもので,最小限の拡張とプロジェクタネットワークの分離を必要としない。
Self-supervised learning (SSL) has become an important approach in pretraining large neural networks, enabling unprecedented scaling of model and dataset sizes. While recent advances like I-JEPA have shown promising results for Vision Transformers, adapting such methods to Convolutional Neural Networks (CNNs) presents unique challenges. In this paper, we introduce CNN-JEPA, a novel SSL method that successfully applies the joint embedding predictive architecture approach to CNNs. Our method incorporates a sparse CNN encoder to handle masked inputs, a fully convolutional predictor using depthwise separable convolutions, and an improved masking strategy. We demonstrate that CNN-JEPA outperforms I-JEPA with ViT architectures on ImageNet-100, achieving 73.3% linear top-1 accuracy with a standard ResNet-50 encoder. Compared to other CNN-based SSL methods, CNN-JEPA requires 17-35% less training time for the same number of epochs and approaches the linear and k-NN top-1 accuracies of BYOL, SimCLR, and VICReg. Our approach offers a simpler, more efficient alternative to existing SSL methods for CNNs, requiring minimal augmentations and no separate projector network. | 翻訳日:2024-08-15 13:24:15 公開日:2024-08-14 |
# DIffSteISR:スーパーワールドステレオ画像の高分解能化に先立って拡散を悪化させる
DIffSteISR: Harnessing Diffusion Prior for Superior Real-world Stereo Image Super-Resolution ( http://arxiv.org/abs/2408.07516v1 ) ライセンス: Link先を確認 | Yuanbo Zhou, Xinlin Zhang, Wei Deng, Tao Wang, Tao Tan, Qinquan Gao, Tong Tong, | (参考訳) DiffSteISRは、現実世界のステレオ画像の再構築のための先駆的なフレームワークである。
DiffSteISRは、事前訓練されたテキスト・画像モデルに埋め込まれた強力な事前知識を利用して、低解像度ステレオ画像における失われたテクスチャの詳細を効率的に回収する。
具体的には、DiffSteISRは、温度アダプタ(TASCATA)を用いてタイムアウェアなステレオクロスアテンションを実装し、生成した左右ビューが高いテクスチャ一貫性を示すことを保証することにより、超解像と地上真実(GT)画像との相違誤差を低減する。
さらに、画素、知覚、分布空間におけるGT画像との超解像の整合性を高めるために、ステレオオムニアテンション制御ネットワーク(SOA ControlNet)を提案する。
最後に、DiffSteISRはステレオセマンティック抽出器(SSE)を導入し、ユニークな視点のソフトセマンティック情報を取得し、ハードタグセマンティック情報を共有することにより、生成した左右画像の意味精度と一貫性を効果的に向上する。
DiffSteISRは低解像度ステレオ画像から自然的・精密なテクスチャを正確に再構築し, 左右のビュー間のセマンティックスとテクスチャの整合性を維持した。
We introduce DiffSteISR, a pioneering framework for reconstructing real-world stereo images. DiffSteISR utilizes the powerful prior knowledge embedded in pre-trained text-to-image model to efficiently recover the lost texture details in low-resolution stereo images. Specifically, DiffSteISR implements a time-aware stereo cross attention with temperature adapter (TASCATA) to guide the diffusion process, ensuring that the generated left and right views exhibit high texture consistency thereby reducing disparity error between the super-resolved images and the ground truth (GT) images. Additionally, a stereo omni attention control network (SOA ControlNet) is proposed to enhance the consistency of super-resolved images with GT images in the pixel, perceptual, and distribution space. Finally, DiffSteISR incorporates a stereo semantic extractor (SSE) to capture unique viewpoint soft semantic information and shared hard tag semantic information, thereby effectively improving the semantic accuracy and consistency of the generated left and right images. Extensive experimental results demonstrate that DiffSteISR accurately reconstructs natural and precise textures from low-resolution stereo images while maintaining a high consistency of semantic and texture between the left and right views. | 翻訳日:2024-08-15 13:24:15 公開日:2024-08-14 |
# 適応によるスパイキングニューラルネットワークの時空間処理の高速化
Advancing Spatio-Temporal Processing in Spiking Neural Networks through Adaptation ( http://arxiv.org/abs/2408.07517v1 ) ライセンス: Link先を確認 | Maximilian Baronig, Romain Ferrand, Silvester Sabathiel, Robert Legenstein, | (参考訳) ニューロモルフィックハードウェア上でのスパイクニューラルネットワークの効率的な実装は、非スパイクニューラルネットワークよりも消費電力が桁違い少ないことを約束する。
このようなニューロモルフィックシステム上でのスパイクベースの計算の標準的なニューロンモデルは、長い間、漏れやすい統合と火災(LIF)ニューロンであった。
将来的な進歩として、LIFニューロンモデルの適応機構による計算的軽量化は、時空間処理タスクにおける優れたパフォーマンスの実証によって、近年人気が高まっている。
しかし、これらの適応LIFニューロンの優越性の根源はよく分かっていない。
本稿では,適応LIFニューロンとそのネットワークの動的・計算的・学習的特性を網羅的に解析する。
このようなネットワークのトレーニング中に頻繁に観測される安定性問題は、一般的に使用されるオイラー・フォワード法よりも確実に優れた安定性特性をもたらす別の離散化法を適用することで克服できる。
この離散化により、一般的なイベントベースのベンチマークデータセット上で、最先端のパフォーマンスを新たに達成しました。
また、適応LIFニューロンのネットワークの優越性は、複雑な時系列の予測と生成にまで及んでいることを示す。
適応LIFニューロンのネットワークの計算特性のさらなる解析は、入力シーケンスの時空間構造を利用するのに特に適していることを示している。
さらに、これらのネットワークは、トレーニング中にこれらのシフトが観測されなかった場合でも、平均入力強度と入力スパイクレートのシフトに対して驚くほど堅牢である。
その結果, バッチ正規化やバッチ正規化などの正規化手法を使わずに, 高性能ネットワークが得られることがわかった。
Efficient implementations of spiking neural networks on neuromorphic hardware promise orders of magnitude less power consumption than their non-spiking counterparts. The standard neuron model for spike-based computation on such neuromorphic systems has long been the leaky integrate-and-fire (LIF) neuron. As a promising advancement, a computationally light augmentation of the LIF neuron model with an adaptation mechanism experienced a recent upswing in popularity, caused by demonstrations of its superior performance on spatio-temporal processing tasks. The root of the superiority of these so-called adaptive LIF neurons however, is not well understood. In this article, we thoroughly analyze the dynamical, computational, and learning properties of adaptive LIF neurons and networks thereof. We find that the frequently observed stability problems during training of such networks can be overcome by applying an alternative discretization method that results in provably better stability properties than the commonly used Euler-Forward method. With this discretization, we achieved a new state-of-the-art performance on common event-based benchmark datasets. We also show that the superiority of networks of adaptive LIF neurons extends to the prediction and generation of complex time series. Our further analysis of the computational properties of networks of adaptive LIF neurons shows that they are particularly well suited to exploit the spatio-temporal structure of input sequences. Furthermore, these networks are surprisingly robust to shifts of the mean input strength and input spike rate, even when these shifts were not observed during training. As a consequence, high-performance networks can be obtained without any normalization techniques such as batch normalization or batch-normalization through time. | 翻訳日:2024-08-15 13:24:15 公開日:2024-08-14 |
# ホワイトニングは自己監督型学習を継続的に改善する
Whitening Consistently Improves Self-Supervised Learning ( http://arxiv.org/abs/2408.07519v1 ) ライセンス: Link先を確認 | András Kalapos, Bálint Gyires-Tóth, | (参考訳) 自己教師付き学習(SSL)は視覚表現を学習するための強力なアプローチであることが示されている。
本研究では, エンコーダの最終層としてのZCA白化を自己教師型学習に取り入れ, 正規化とデコレーションにより学習特徴の質を高めることを提案する。
以前の研究ではSSLで白化が利用されていたが、SSLモデルを普遍的に改善する可能性については検討されていない。
我々は、SSL事前訓練エンコーダの最後の層としてホワイトニングを追加することが、自己教師付き学習手法やエンコーダアーキテクチャとは無関係であることを示し、複数のエンコーダアーキテクチャやデータセットにまたがる幅広いSSLメソッドのパフォーマンスを向上させる。
実験の結果,白化は線形およびk-NN探索精度を1-5%向上させることができることがわかった。
さらに、学習した特徴を包括的に分析し、表現の質に関する洞察を与え、崩壊パターンを特定するための指標を提案する。
Self-supervised learning (SSL) has been shown to be a powerful approach for learning visual representations. In this study, we propose incorporating ZCA whitening as the final layer of the encoder in self-supervised learning to enhance the quality of learned features by normalizing and decorrelating them. Although whitening has been utilized in SSL in previous works, its potential to universally improve any SSL model has not been explored. We demonstrate that adding whitening as the last layer of SSL pretrained encoders is independent of the self-supervised learning method and encoder architecture, thus it improves performance for a wide range of SSL methods across multiple encoder architectures and datasets. Our experiments show that whitening is capable of improving linear and k-NN probing accuracy by 1-5%. Additionally, we propose metrics that allow for a comprehensive analysis of the learned features, provide insights into the quality of the representations and help identify collapse patterns. | 翻訳日:2024-08-15 13:24:15 公開日:2024-08-14 |
# 解集合計画による都市ネットワークの動的交通分布の最適化
Optimising Dynamic Traffic Distribution for Urban Networks with Answer Set Programming ( http://arxiv.org/abs/2408.07521v1 ) ライセンス: Link先を確認 | Matteo Cardellini, Carmine Dodaro, Marco Maratea, Mauro Vallati, | (参考訳) Answer Set Programming (ASP)は、現実の問題を簡潔に表現し、推論するための効果的なツールとしての可能性を示した。
本稿では,そのような現実的な問題を解決するために考案された,より一般的な枠組みの中で,都市ネットワークの動的トラフィック分布の文脈においてASPがうまく使われているアプリケーションを提案する。
特に、ASPはネットワーク内のすべての車両の"最適"ルートの計算に使われています。
また, フレームワーク全体の性能, ASPが採用されている部分について, 欧州の2つの都市部で実証分析を行い, フレームワークの生存可能性と, ASPが提供できる貢献度を明らかにした。
Answer Set Programming (ASP) has demonstrated its potential as an effective tool for concisely representing and reasoning about real-world problems. In this paper, we present an application in which ASP has been successfully used in the context of dynamic traffic distribution for urban networks, within a more general framework devised for solving such a real-world problem. In particular, ASP has been employed for the computation of the "optimal" routes for all the vehicles in the network. We also provide an empirical analysis of the performance of the whole framework, and of its part in which ASP is employed, on two European urban areas, which shows the viability of the framework and the contribution ASP can give. | 翻訳日:2024-08-15 13:24:15 公開日:2024-08-14 |
# 呼吸器疾患の自動検出のためのMFCCパラメータの最適化
Optimising MFCC parameters for the automatic detection of respiratory diseases ( http://arxiv.org/abs/2408.07522v1 ) ライセンス: Link先を確認 | Yuyang Yan, Sami O. Simons, Loes van Bemmel, Lauren Reinders, Frits M. E. Franssen, Visara Urovi, | (参考訳) 呼吸器由来の音声信号は、呼吸器疾患の診断および評価に有用な音響バイオマーカーとして利用される。
音響特性のうち、Mel Frequency Cepstral Coefficients (MFCC) は自動解析に広く用いられている。
しかし,MFCC抽出パラメータが呼吸器疾患の診断に与える影響について,総合的な研究は行われていない。
本研究では,鍵パラメータ,すなわちフレーム間の係数数,フレーム長,ホップ長が呼吸条件に及ぼす影響を調べることにより,このギャップに対処する。
調査では、Cambridge COVID-19 Soundデータベース、Cosharaデータセット、Saarbrucken Voice Disorders(SVD)データベース、TACTICASデータセットの4つのデータセットを使用しました。
サポートベクトルマシン(SVM)は、広く採用され、有効性が高いため、分類器として使用される。
その結果, ホップ長の増加に伴いMFCCの精度は低下し, 最適係数は約30。
COVID-19データセット(Cambridge COVID-19 SoundデータベースとCosharaデータセット)では、長いフレーム長でパフォーマンスが低下する一方、SVDデータセットでは、フレーム長の増大(50msから500ms)によってパフォーマンスが向上する。
さらに,これらのパラメータの最適化について検討し,精度の大幅な向上を観察する。
最悪の組み合わせと比較すると、SVMモデルは81.1%、80.6%、71.7%の精度を達成しており、それぞれケンブリッジ・COVID-19サウンド・データベース、コスクラデータセット、SVDデータセットの19.6%、16.10%、14.90%の改善がある。
Voice signals originating from the respiratory tract are utilized as valuable acoustic biomarkers for the diagnosis and assessment of respiratory diseases. Among the employed acoustic features, Mel Frequency Cepstral Coefficients (MFCC) is widely used for automatic analysis, with MFCC extraction commonly relying on default parameters. However, no comprehensive study has systematically investigated the impact of MFCC extraction parameters on respiratory disease diagnosis. In this study, we address this gap by examining the effects of key parameters, namely the number of coefficients, frame length, and hop length between frames, on respiratory condition examination. Our investigation uses four datasets: the Cambridge COVID-19 Sound database, the Coswara dataset, the Saarbrucken Voice Disorders (SVD) database, and a TACTICAS dataset. The Support Vector Machine (SVM) is employed as the classifier, given its widespread adoption and efficacy. Our findings indicate that the accuracy of MFCC decreases as hop length increases, and the optimal number of coefficients is observed to be approximately 30. The performance of MFCC varies with frame length across the datasets: for the COVID-19 datasets (Cambridge COVID-19 Sound database and Coswara dataset), performance declines with longer frame lengths, while for the SVD dataset, performance improves with increasing frame length (from 50 ms to 500 ms). Furthermore, we investigate the optimized combination of these parameters and observe substantial enhancements in accuracy. Compared to the worst combination, the SVM model achieves an accuracy of 81.1%, 80.6%, and 71.7%, with improvements of 19.6%, 16.10%, and 14.90% for the Cambridge COVID-19 Sound database, the Coswara dataset, and the SVD dataset respectively. | 翻訳日:2024-08-15 13:24:15 公開日:2024-08-14 |
# 残差プログラムによる確率的アンサーセットプログラムの高速推論
Fast Inference for Probabilistic Answer Set Programs via the Residual Program ( http://arxiv.org/abs/2408.07524v1 ) ライセンス: Link先を確認 | Damiano Azzolini, Fabrizio Riguzzi, | (参考訳) 確率的アンサーセットプログラムからクエリの確率を計算したい場合、プログラムのいくつかの部分はクエリの確率に影響を与えず、グラウンドのサイズに影響を与えます。
それらを特定して取り除くことは、計算のスピードアップに不可欠である。
SLG解像度のアルゴリズムは、完全に確立されたモデルを持つ正規プログラムの解集合の計算に使用できる残余プログラムを返す可能性を提供する。
残余プログラムは、確率に影響を与えないプログラムの一部を含んでいない。
本稿では,残余プログラムを利用した推論手法を提案する。
グラフデータセットの実証的な結果は、このアプローチがはるかに高速な推論につながることを示している。
When we want to compute the probability of a query from a Probabilistic Answer Set Program, some parts of a program may not influence the probability of a query, but they impact on the size of the grounding. Identifying and removing them is crucial to speed up the computation. Algorithms for SLG resolution offer the possibility of returning the residual program which can be used for computing answer sets for normal programs that do have a total well-founded model. The residual program does not contain the parts of the program that do not influence the probability. In this paper, we propose to exploit the residual program for performing inference. Empirical results on graph datasets show that the approach leads to significantly faster inference. | 翻訳日:2024-08-15 13:14:29 公開日:2024-08-14 |
# Dinkel: ステートアウェアクエリ生成によるグラフデータベースエンジンのテスト
Dinkel: Testing Graph Database Engines via State-Aware Query Generation ( http://arxiv.org/abs/2408.07525v1 ) ライセンス: Link先を確認 | Dominic Wüst, Zu-Ming Jiang, Zhendong Su, | (参考訳) グラフデータベース管理システム(GDBMS)は、グラフデータを格納し、操作し、多くのデータ駆動アプリケーションの中核部分を形成する。
信頼性を確保するために、最も人気のあるグラフクエリ言語であるCypherでクエリを生成することで、GDBMSをテストするいくつかのアプローチが提案されている。
しかし、Cypherは複雑な状態変更とデータ依存関係を持つクエリを可能にし、既存のアプローチではサポートされていないため、有効な複雑なクエリを生成できないため、GDBMSに多くのバグが欠落している。
本稿では,GDBMSのための複雑なCypherクエリを生成するための,新しい状態認識テスト手法を提案する。
我々のアプローチは2種類のグラフ状態、クエリコンテキスト、グラフスキーマをモデル化する。
クエリコンテキストは利用可能なCypher変数とその対応するスコープを記述するが、グラフスキーマは操作されたグラフラベルとプロパティを要約する。
Cypherクエリを生成する間、クエリ内の各節が正しい状態情報を参照できるように、オンザフライでグラフ状態を変更する。
このようにして、複数の状態変化と複雑なデータ依存を伴うCypherクエリを、高いクエリ妥当性を維持しながら生成することができる。
このアプローチを完全な自動GDBMSテストフレームワークであるDinkelとして実装し、Neo4j、RedisGraph、Apache AGEという3つの人気のあるオープンソースGDBMSで評価しました。
合計60のバグが発見され、そのうち58が確認され、51が修正された。
評価の結果,Dinkel は高妥当性 (93.43%) の複雑なクエリを効率的に生成できることがわかった。
既存のアプローチと比較して、Dinkelは60%以上のコードをカバーすることができ、48時間のテストキャンペーンでより多くのバグを見つけることができる。
Dinkelの強力なテストケース生成は、GDBMSテストの恩恵を受け、GDBMSの信頼性を高めるのに役立ちます。
Graph database management systems (GDBMSs) store and manipulate graph data and form a core part of many data-driven applications. To ensure their reliability, several approaches have been proposed to test GDBMSs by generating queries in Cypher, the most popular graph query language. However, Cypher allows queries with complicated state changes and data dependencies, which existing approaches do not support and thus fail to generate valid, complex queries, thereby missing many bugs in GDBMSs. In this paper, we propose a novel state-aware testing approach to generate complex Cypher queries for GDBMSs. Our approach models two kinds of graph state, query context and graph schema. Query context describes the available Cypher variables and their corresponding scopes, whereas graph schema summarizes the manipulated graph labels and properties. While generating Cypher queries, we modify the graph states on the fly to ensure each clause within the query can reference the correct state information. In this way, our approach can generate Cypher queries with multiple state changes and complicated data dependencies while retaining high query validity. We implemented this approach as a fully automatic GDBMS testing framework, Dinkel, and evaluated it on three popular open-source GDBMSs, namely Neo4j, RedisGraph, and Apache AGE. In total, Dinkel found 60 bugs, among which 58 were confirmed and 51 fixed. Our evaluation results show that Dinkel can effectively generate complex queries with high validity (93.43%). Compared to existing approaches, Dinkel can cover over 60% more code and find more bugs within the 48-hour testing campaign. We expect Dinkel's powerful test-case generation to benefit GDBMS testing and help strengthen the reliability of GDBMSs. | 翻訳日:2024-08-15 13:14:29 公開日:2024-08-14 |
# 脆弱性検出のための学習ベースモデル:総合的研究
Learning-based Models for Vulnerability Detection: An Extensive Study ( http://arxiv.org/abs/2408.07526v1 ) ライセンス: Link先を確認 | Chao Ni, Liyu Shen, Xiaodan Xu, Xin Yin, Shaohua Wang, | (参考訳) 多くのディープラーニングベースのモデルが脆弱性検出に大きな進歩を遂げているが、モデル機能のさらなる進歩、モデル検出のメカニズムの理解、モデルの実用的適用の効率と安全性を制限している、これらのモデルについて十分に理解していない。
本稿では,最近構築された大規模データセット上で実験を行うことにより,最先端の学習ベースアプローチ(シーケンスベースとグラフベース)の2つのタイプを幅広く,包括的に検討する。
モデル機能,モデル解釈,モデル安定性,モデルの使いやすさ,モデル経済の5つの側面から7つの研究課題を考察する。
シーケンスベースモデルの優先度と LLM (ChatGPT) とグラフベースモデルの両方の限界能力を実験的に実証した。
学習ベースモデルが熟練した脆弱性のタイプを調査し、入力は微妙に意味論的に等価に変化しているが、モデルの不安定性を明らかにする。
モデルが学んだことを実証的に説明します。
モデルを簡単に使用するための事前処理と要件を要約する。
最後に、まず、これらのモデルの経済的かつ安全に活用するための重要な情報を誘導する。
Though many deep learning-based models have made great progress in vulnerability detection, we have no good understanding of these models, which limits the further advancement of model capability, understanding of the mechanism of model detection, and efficiency and safety of practical application of models. In this paper, we extensively and comprehensively investigate two types of state-of-the-art learning-based approaches (sequence-based and graph-based) by conducting experiments on a recently built large-scale dataset. We investigate seven research questions from five dimensions, namely model capabilities, model interpretation, model stability, ease of use of model, and model economy. We experimentally demonstrate the priority of sequence-based models and the limited abilities of both LLM (ChatGPT) and graph-based models. We explore the types of vulnerability that learning-based models skilled in and reveal the instability of the models though the input is subtlely semantical-equivalently changed. We empirically explain what the models have learned. We summarize the pre-processing as well as requirements for easily using the models. Finally, we initially induce the vital information for economically and safely practical usage of these models. | 翻訳日:2024-08-15 13:14:29 公開日:2024-08-14 |
# ソースフリーブレンディングターゲットドメイン適応のための証拠グラフコントラストアライメント
Evidential Graph Contrastive Alignment for Source-Free Blending-Target Domain Adaptation ( http://arxiv.org/abs/2408.07527v1 ) ライセンス: Link先を確認 | Juepeng Zheng, Yibin Wen, Jinxiao Zhang, Runmin Dong, Haohuan Fu, | (参考訳) 本稿では、まず、より現実的なドメイン適応(DA: Source-Free Blending-Target Domain Adaptation)に取り組みます。
既存のDAシナリオと比較して、SF-BTDAは一般的に、ソースモデルから生成されるノイズの多いターゲットの擬似ラベルとともに、異なるターゲットにおける異なるラベルシフトの共存に直面します。
本稿では、混合対象ドメインを分離し、ノイズのあるターゲットの擬似ラベルから効果を緩和する、ECA(Evidential Contrastive Alignment)と呼ばれる新しい手法を提案する。
まず,擬似目標ラベルの品質向上のために,得られたモデルの精度と確実性の両方を反復的に改善し,高品質な擬似目標ラベルを適応的に生成するキャリブレーションされた明らかな学習モジュールを提案する。
第2に、混合対象領域における同一クラスのサンプルの分布ギャップを最小限に抑え、混合対象領域における異なるラベルシフトの共存を軽減するために、領域距離行列と信頼不確かさ基準との対比学習を設計する。
3つの標準DAデータセットに基づく新しいベンチマークを実施し、ECAは他のメソッドよりもかなり優れた性能を示し、以前のドメインラベルやソースデータと比較すると、同等の結果を得る。
In this paper, we firstly tackle a more realistic Domain Adaptation (DA) setting: Source-Free Blending-Target Domain Adaptation (SF-BTDA), where we can not access to source domain data while facing mixed multiple target domains without any domain labels in prior. Compared to existing DA scenarios, SF-BTDA generally faces the co-existence of different label shifts in different targets, along with noisy target pseudo labels generated from the source model. In this paper, we propose a new method called Evidential Contrastive Alignment (ECA) to decouple the blending target domain and alleviate the effect from noisy target pseudo labels. First, to improve the quality of pseudo target labels, we propose a calibrated evidential learning module to iteratively improve both the accuracy and certainty of the resulting model and adaptively generate high-quality pseudo target labels. Second, we design a graph contrastive learning with the domain distance matrix and confidence-uncertainty criterion, to minimize the distribution gap of samples of a same class in the blended target domains, which alleviates the co-existence of different label shifts in blended targets. We conduct a new benchmark based on three standard DA datasets and ECA outperforms other methods with considerable gains and achieves comparable results compared with those that have domain labels or source data in prior. | 翻訳日:2024-08-15 13:14:29 公開日:2024-08-14 |
# アイドリング面符号パッチにおける安定化器計測ラウンドの最適数
Optimal number of stabilizer measurement rounds in an idling surface code patch ( http://arxiv.org/abs/2408.07529v1 ) ライセンス: Link先を確認 | Áron Márton, János K. Asbóth, | (参考訳) 論理量子ビットは、多くの物理量子ビットの非常に絡み合った状態に符号化し、安定化器の測定によって動的に介入することで、環境騒音に対して保護することができる。
本研究では,表面コードパッチに符号化された論理量子ビットの安定化器計測ラウンド数と,所定の時間アイドリング回数と,これらの介入の速度を数値的に最適化する。
我々は、ゲート誤差、読み出し誤差、振幅、位相減衰を含む回路レベルの環境騒音をモデル化する。
定性的には、安定した測定ラウンドの最適な数は、より良いキュービットのために小さくなり、より良いゲートやより大きなコードサイズのために大きくなっています。
この結果が、主要なアーキテクチャ、超伝導量子ビット、中性原子にもたらす影響について論じる。
Logical qubits can be protected against environmental noise by encoding them into a highly entangled state of many physical qubits and actively intervening in the dynamics with stabilizer measurements. In this work, we numerically optimize the rate of these interventions: the number of stabilizer measurement rounds for a logical qubit encoded in a surface code patch and idling for a given time. We model the environmental noise on the circuit level, including gate errors, readout errors, amplitude and phase damping. We find, qualitatively, that the optimal number of stabilizer measurement rounds is getting smaller for better qubits and getting larger for better gates or larger code sizes. We discuss the implications of our results to some of the leading architectures, superconducting qubits, and neutral atoms. | 翻訳日:2024-08-15 13:14:29 公開日:2024-08-14 |
# モバイル端末におけるリアルタイムビデオ圧縮センシングを目指して
Towards Real-time Video Compressive Sensing on Mobile Devices ( http://arxiv.org/abs/2408.07530v1 ) ライセンス: Link先を確認 | Miao Cao, Lishun Wang, Huan Wang, Guoqing Wang, Xin Yuan, | (参考訳) Video Snapshot Compressive Imaging (SCI)は、低速2Dカメラを使用して、スナップショット圧縮された計測として高速シーンをキャプチャし、次に高速ビデオフレームを復元する再構成アルゴリズムを用いる。
高速に進化するモバイルデバイスと既存の高性能ビデオSCI再構成アルゴリズムは、実世界のアプリケーションのためのモバイル再構築手法を開発する動機となっている。
しかし、複雑な推論プロセスのため、モバイル機器に以前の再構築アルゴリズムをデプロイすることは、もちろん困難である。
我々の知る限り、モバイルデバイス上で動くように設計されたビデオSCI再構成モデルは存在しない。
そこで本論文では,モバイルSCI(MobileSCI)と呼ばれる,モバイル機器上でリアルタイムに動作可能なビデオSCI再構成手法を提案する。
具体的には、まずU字型の2D畳み込み型アーキテクチャを構築し、従来の最先端の再構築手法よりもずっと効率的でモバイルフレンドリーである。
また,チャネル分割とシャッフル機構に基づく効率的な機能混合ブロックを,提案したMobileSCIの新たなボトルネックブロックとして導入し,計算負荷を軽減する。
最後に、再構築品質をさらに向上させるために、カスタマイズされた知識蒸留戦略を利用する。
シミュレーションデータと実データの両方の大規模な結果から,提案したMobileSCIは,モバイルデバイス上で高い効率で,より優れた再構築品質を実現することができることが示された。
特に、256 X 256 X 8の圧縮されたスナップショットをiPhone 15でリアルタイムのパフォーマンス(約35FPS)で再構築することができる。
コードはhttps://github.com/mcao92/MobileSCIで入手できる。
Video Snapshot Compressive Imaging (SCI) uses a low-speed 2D camera to capture high-speed scenes as snapshot compressed measurements, followed by a reconstruction algorithm to retrieve the high-speed video frames. The fast evolving mobile devices and existing high-performance video SCI reconstruction algorithms motivate us to develop mobile reconstruction methods for real-world applications. Yet, it is still challenging to deploy previous reconstruction algorithms on mobile devices due to the complex inference process, let alone real-time mobile reconstruction. To the best of our knowledge, there is no video SCI reconstruction model designed to run on the mobile devices. Towards this end, in this paper, we present an effective approach for video SCI reconstruction, dubbed MobileSCI, which can run at real-time speed on the mobile devices for the first time. Specifically, we first build a U-shaped 2D convolution-based architecture, which is much more efficient and mobile-friendly than previous state-of-the-art reconstruction methods. Besides, an efficient feature mixing block, based on the channel splitting and shuffling mechanisms, is introduced as a novel bottleneck block of our proposed MobileSCI to alleviate the computational burden. Finally, a customized knowledge distillation strategy is utilized to further improve the reconstruction quality. Extensive results on both simulated and real data show that our proposed MobileSCI can achieve superior reconstruction quality with high efficiency on the mobile devices. Particularly, we can reconstruct a 256 X 256 X 8 snapshot compressed measurement with real-time performance (about 35 FPS) on an iPhone 15. Code is available at https://github.com/mcao92/MobileSCI. | 翻訳日:2024-08-15 13:14:29 公開日:2024-08-14 |
# 救急部門における韓国トリアージ・アクアリティ尺度(KTAS)に基づくトライアージ・治療計画のための多段階臨床意思決定支援システムの開発
Development of a Multi-Agent Clinical Decision Support System for Korean Triage and Acuity Scale (KTAS)-Based Triage and Treatment Planning in Emergency Departments ( http://arxiv.org/abs/2408.07531v1 ) ライセンス: Link先を確認 | Seungjun Han, Wongyung Choi, | (参考訳) 救急部門(ED)の過密化と、救急医療における急激な意思決定の複雑さは、世界中の医療システムにとって重大な課題となっている。
臨床意思決定支援システム(CDSS)は将来性を示しているが、大規模言語モデル(LLM)の統合は、トリアージ精度と臨床意思決定を向上する新たな可能性を提供する。
本研究は, 患者トリアージ, 治療計画, 救急医療管理全般において, ED医師や看護師を支援するためのLCM駆動型CDSSを提案する。
We developed a multi-agent CDSS using Llama-3-70b as the base LLM, together by CrewAI and Langchain。
このシステムは、Triage Nuurse、救急医、薬剤師、EDコーディネーターの4つのAIエージェントで構成されている。
トリアージアセスメントにはKTAS(Korea Triage and Acuity Scale)が組み込まれ、医薬品管理にはRxNorm APIが組み込まれている。
このモデルをAsclepiusデータセットを用いて評価し,臨床救急医療の専門家による評価を行った。
CDSSは単エージェントシステムのベースラインと比較してトリアージ決定において高い精度を示した。
さらに, 本システムでは, 一次診断, 臨界発見同定, 配置決定, 治療計画, 資源配分など, 重要な領域で高い性能を示した。
マルチエージェントCDSSは,包括的救急医療支援に有意な可能性を秘めている。
最先端のAI技術を活用することで、このシステムはスケーラブルで適応可能なツールを提供し、救急医療のデリバリを強化し、ED過密を緩和し、患者の結果を改善する可能性がある。
この研究は、救急医療におけるAI応用の進展に寄与し、将来の研究と臨床実践に有望な方向性を提供する。
Emergency department (ED) overcrowding and the complexity of rapid decision-making in critical care settings pose significant challenges to healthcare systems worldwide. While clinical decision support systems (CDSS) have shown promise, the integration of large language models (LLMs) offers new possibilities for enhancing triage accuracy and clinical decision-making. This study presents an LLM-driven CDSS designed to assist ED physicians and nurses in patient triage, treatment planning, and overall emergency care management. We developed a multi-agent CDSS utilizing Llama-3-70b as the base LLM, orchestrated by CrewAI and Langchain. The system comprises four AI agents emulating key ED roles: Triage Nurse, Emergency Physician, Pharmacist, and ED Coordinator. It incorporates the Korean Triage and Acuity Scale (KTAS) for triage assessment and integrates with the RxNorm API for medication management. The model was evaluated using the Asclepius dataset, with performance assessed by a clinical emergency medicine specialist. The CDSS demonstrated high accuracy in triage decision-making compared to the baseline of a single-agent system. Furthermore, the system exhibited strong performance in critical areas, including primary diagnosis, critical findings identification, disposition decision-making, treatment planning, and resource allocation. Our multi-agent CDSS demonstrates significant potential for supporting comprehensive emergency care management. By leveraging state-of-the-art AI technologies, this system offers a scalable and adaptable tool that could enhance emergency medical care delivery, potentially alleviating ED overcrowding and improving patient outcomes. This work contributes to the growing field of AI applications in emergency medicine and offers a promising direction for future research and clinical implementation. | 翻訳日:2024-08-15 13:14:29 公開日:2024-08-14 |
# スパースCMRスライスによる3次元心筋形状の改善
Improved 3D Whole Heart Geometry from Sparse CMR Slices ( http://arxiv.org/abs/2408.07532v1 ) ライセンス: Link先を確認 | Yiyang Xu, Hao Xu, Matthew Sinclair, Esther Puyol-Antón, Steven A Niederer, Amedeo Chiribiri, Steven E Williams, Michelle C Williams, Alistair A Young, | (参考訳) 心臓磁気共鳴法(CMR)とCT法(CT)は、心臓血管疾患の患者を診断するための2つの一般的な非侵襲的画像診断法である。
CMRは通常、複数のスパース2Dスライスを取得し、スライス間には避けられない呼吸運動アーチファクトを持ち、CTは等方性密度データを取得するが、電離放射線を使用する。
本研究では,Slice Shifting Algorithm(SSA),Spatial Transformer Network(STN),Label Transformer Network(LTN)の組み合わせを検討した。
1)分節スライス間の呼吸運動の正しさ,及び
2)スパースセグメンテーションデータを密度セグメンテーションに変換する。
これらの組み合わせは1699年にCTから生成された合成運動崩壊CMRスライスセグメンテーションを用いて検証された。
199の試験ケースでは、SSA-LTNはDiceスコアとHuasdorff距離(それぞれ94.0%と4.7mm、平均5ラベル以上)で最良の結果を得たが、位相誤差は8例であった。
STNは、全体的な性能(それぞれ93.5%と5.0mm)に最小限の影響で全てのトポロジカルエラーを修正するプラグインツールとして有効であった。
SSAはまた、STNベースのモデルとLTNベースのモデルの両方のパフォーマンスを向上させる、貴重なプラグインツールであることを証明している。
これらの組み合わせのコードはhttps://github.com/XESchong/STACOM2024で公開されている。
Cardiac magnetic resonance (CMR) imaging and computed tomography (CT) are two common non-invasive imaging methods for assessing patients with cardiovascular disease. CMR typically acquires multiple sparse 2D slices, with unavoidable respiratory motion artefacts between slices, whereas CT acquires isotropic dense data but uses ionising radiation. In this study, we explore the combination of Slice Shifting Algorithm (SSA), Spatial Transformer Network (STN), and Label Transformer Network (LTN) to: 1) correct respiratory motion between segmented slices, and 2) transform sparse segmentation data into dense segmentation. All combinations were validated using synthetic motion-corrupted CMR slice segmentation generated from CT in 1699 cases, where the dense CT serves as the ground truth. In 199 testing cases, SSA-LTN achieved the best results for Dice score and Huasdorff distance (94.0% and 4.7 mm respectively, average over 5 labels) but gave topological errors in 8 cases. STN was effective as a plug-in tool for correcting all topological errors with minimal impact on overall performance (93.5% and 5.0 mm respectively). SSA also proves to be a valuable plug-in tool, enhancing performance over both STN-based and LTN-based models. The code for these different combinations is available at https://github.com/XESchong/STACOM2024. | 翻訳日:2024-08-15 13:14:29 公開日:2024-08-14 |
# 高次相互作用のための格子情報理論
Information-Theoretic Measures on Lattices for High-Order Interactions ( http://arxiv.org/abs/2408.07533v1 ) ライセンス: Link先を確認 | Zhaolu Liu, Mauricio Barahona, Robert L. Peach, | (参考訳) 対関係のみに依存する伝統的なモデルは、多変量データに固有の複雑な統計構造を捉えるのに不十分であることがしばしば証明される。
しかし、$d>3$変数の群間で共有される情報を特定する既存の方法は、しばしば難解であり、対象変数の周囲に非対称である。
本稿では,格子と作用素関数ペアを用いた高次測度を体系的に導出するフレームワークを提案する。
分割格子の亜格子上の演算子関数として発散子を用いることで、既存の情報理論上の高次測度を導出できることを示し、$d>3$の全ての相互作用の正確な定量化を防止する。
同様に、KL の発散を演算子関数として使うと、$d>3$ の相互作用が不要になることを示す。
$d$変数間の全ての相互作用を特徴付けるために、KL分散の一般化を演算関数として用いた全分割格子上で定義されたストレイトバーグ情報を導入する。
以上の結果から,Streitberg情報を用いて,市場リターンと神経電気生理学的データに適用し,分析結果を数値的に検証した。
Traditional models reliant solely on pairwise associations often prove insufficient in capturing the complex statistical structure inherent in multivariate data. Yet existing methods for identifying information shared among groups of $d>3$ variables are often intractable; asymmetric around a target variable; or unable to consider all factorisations of the joint probability distribution. Here, we present a framework that systematically derives high-order measures using lattice and operator function pairs, whereby the lattice captures the algebraic relational structure of the variables and the operator function computes measures over the lattice. We show that many existing information-theoretic high-order measures can be derived by using divergences as operator functions on sublattices of the partition lattice, thus preventing the accurate quantification of all interactions for $d>3$. Similarly, we show that using the KL divergence as the operator function also leads to unwanted cancellation of interactions for $d>3$. To characterise all interactions among $d$ variables, we introduce the Streitberg information defined on the full partition lattice using generalisations of the KL divergence as operator functions. We validate our results numerically on synthetic data, and illustrate the use of the Streitberg information through applications to stock market returns and neural electrophysiology data. | 翻訳日:2024-08-15 13:14:29 公開日:2024-08-14 |
# データフロー図と大規模言語モデルのセキュリティ脅威検証における有用性:登録報告
Usefulness of data flow diagrams and large language models for security threat validation: a registered report ( http://arxiv.org/abs/2408.07537v1 ) ライセンス: Link先を確認 | Winnie Bahati Mbaka, Katja Tuma, | (参考訳) 最近のサイバーセキュリティ標準の到来は、組織におけるセキュリティ評価の基準を高めていますが、既存のテクニックが常にうまくスケールしているとは限らないのです。
脅威分析とリスクアセスメントは、新規またはリファクタリングされたシステムのセキュリティ脅威を特定するために使用される。
それでも、Doneの定義が欠如しているため、特定された脅威を検証する必要があるため、分析が遅くなる。
既存の文献では、脅威分析の全体的なパフォーマンスに焦点が当てられているが、これまでの研究では、アナリストが特定されたセキュリティ脅威を効果的に検証する前に、どの程度の深さを掘り下げなければならないかを調査していない。
本研究は,LLM生成アドバイスのような分析材料が,それよりも優れているか,さらに多くの材料(システムデータフロー図,LLM生成アドバイス)が,ある材料よりも優れているかを検討するための,実践者による制御実験である。
また, 41人のMSc学生を対象に, パイロットテストによる重要な知見を提示し, 学習設計の改善に利用した。
最後に、実験材料やデータ分析スクリプトを含む初期複製パッケージも提供し、実践者による最終データ収集キャンペーン(例えば、事前スクリーニング質問)に基づいて、新たな資料を含むように拡張する計画を立てています。
The arrival of recent cybersecurity standards has raised the bar for security assessments in organizations, but existing techniques don't always scale well. Threat analysis and risk assessment are used to identify security threats for new or refactored systems. Still, there is a lack of definition-of-done, so identified threats have to be validated which slows down the analysis. Existing literature has focused on the overall performance of threat analysis, but no previous work has investigated how deep must the analysts dig into the material before they can effectively validate the identified security threats. We propose a controlled experiment with practitioners to investigate whether some analysis material (like LLM-generated advice) is better than none and whether more material (the system's data flow diagram and LLM-generated advice) is better than some material. In addition, we present key findings from running a pilot with 41 MSc students, which are used to improve the study design. Finally, we also provide an initial replication package, including experimental material and data analysis scripts and a plan to extend it to include new materials based on the final data collection campaign with practitioners (e.g., pre-screening questions). | 翻訳日:2024-08-15 13:14:29 公開日:2024-08-14 |
# 画像分割参照のための段分割ビジョンと言語変換器エンコーダを用いた相互認識早期核融合
Cross-aware Early Fusion with Stage-divided Vision and Language Transformer Encoders for Referring Image Segmentation ( http://arxiv.org/abs/2408.07539v1 ) ライセンス: Link先を確認 | Yubin Cho, Hyunwoo Yu, Suk-ju Kang, | (参考訳) セグメンテーションの参照は、自然言語表現に関連する対象オブジェクトをセグメンテーションすることを目的としている。
このタスクの主な課題は、複雑であいまいな言語表現の意味を理解し、その表現を参照して、画像内の関連領域を複数のオブジェクトで決定することである。
近年のモデルでは、視覚エンコーダの中間段階における言語特徴との早期融合に焦点が当てられているが、これらの手法は、言語特徴が視覚情報を参照できないという制限がある。
そこで本研究では,言語と視覚の両方のエンコーダが,相互モーダルコンテキストモデリングの能力向上のために早期融合を行うことのできる,段階分割型視覚・言語トランスフォーマーエンコーダ(CrossVLT)を用いた新しいアーキテクチャを提案する。
従来の手法とは違って,各段階での視覚と言語の特徴を相互に参照し,両エンコーダの堅牢性を高める。
さらに,クロスモーダルアライメントの高レベルな特徴のみに依存する従来の方式とは異なり,視覚と言語エンコーダの低レベルから高レベルな特徴をクロスモーダルアライメントに関与させる機能ベースのアライメント方式を導入する。
すべてのエンコーダの段階で中間のクロスモーダル特徴を整列させることで、このスキームは効果的なクロスモーダル融合をもたらす。
このようにして、提案手法は単純だが画像分割を参照するのに有効であり、3つの公開ベンチマークにおいて従来の最先端手法よりも優れている。
Referring segmentation aims to segment a target object related to a natural language expression. Key challenges of this task are understanding the meaning of complex and ambiguous language expressions and determining the relevant regions in the image with multiple objects by referring to the expression. Recent models have focused on the early fusion with the language features at the intermediate stage of the vision encoder, but these approaches have a limitation that the language features cannot refer to the visual information. To address this issue, this paper proposes a novel architecture, Cross-aware early fusion with stage-divided Vision and Language Transformer encoders (CrossVLT), which allows both language and vision encoders to perform the early fusion for improving the ability of the cross-modal context modeling. Unlike previous methods, our method enables the vision and language features to refer to each other's information at each stage to mutually enhance the robustness of both encoders. Furthermore, unlike the conventional scheme that relies solely on the high-level features for the cross-modal alignment, we introduce a feature-based alignment scheme that enables the low-level to high-level features of the vision and language encoders to engage in the cross-modal alignment. By aligning the intermediate cross-modal features in all encoder stages, this scheme leads to effective cross-modal fusion. In this way, the proposed approach is simple but effective for referring image segmentation, and it outperforms the previous state-of-the-art methods on three public benchmarks. | 翻訳日:2024-08-15 13:14:29 公開日:2024-08-14 |
# 単一画像による3次元ガウス編集
3D Gaussian Editing with A Single Image ( http://arxiv.org/abs/2408.07540v1 ) ライセンス: Link先を確認 | Guan Luo, Tian-Xing Xu, Ying-Tian Liu, Xiao-Xiong Fan, Fang-Lue Zhang, Song-Hai Zhang, | (参考訳) 実世界から捉えた3Dシーンのモデリングと操作は、様々な応用において重要なものであり、研究の関心が高まりつつある。
編集に関するこれまでの研究は、3Dメッシュを操作することで興味深い成果を上げてきたが、編集を行うには正確に再構成されたメッシュを必要とすることが多く、それによって3Dコンテンツ生成が制限される。
このギャップに対処するために,我々は,2次元画像平面上でコンテンツを直接編集することで,直感的な操作を可能にする3次元ガウシアンスプラッティングに基づく,新しい単一イメージ駆動の3次元シーン編集手法を提案する。
本手法では,3次元ガウシアンを最適化し,ユーザが指定したオリジナルシーンの視点からレンダリングした画像の編集版と整合する。
長距離物体の変形を捉えるため、3次元ガウス散乱の最適化プロセスに位置損失を導入し、再パラメータ化による勾配伝播を可能にする。
特定の視点からレンダリングする際、隠蔽された3次元ガウスを取り扱うために、アンカーベース構造を構築し、構造安定性を維持しながら長距離変形を処理できる粗大な最適化戦略を用いる。
さらに,大規模モデリングのための非剛性変形領域を適応的に同定する新しいマスキング手法を設計する。
拡張実験により, 幾何的細部, 長距離および非剛性変形の処理における本手法の有効性が示され, 従来の手法と比較して編集の柔軟性と品質が向上した。
The modeling and manipulation of 3D scenes captured from the real world are pivotal in various applications, attracting growing research interest. While previous works on editing have achieved interesting results through manipulating 3D meshes, they often require accurately reconstructed meshes to perform editing, which limits their application in 3D content generation. To address this gap, we introduce a novel single-image-driven 3D scene editing approach based on 3D Gaussian Splatting, enabling intuitive manipulation via directly editing the content on a 2D image plane. Our method learns to optimize the 3D Gaussians to align with an edited version of the image rendered from a user-specified viewpoint of the original scene. To capture long-range object deformation, we introduce positional loss into the optimization process of 3D Gaussian Splatting and enable gradient propagation through reparameterization. To handle occluded 3D Gaussians when rendering from the specified viewpoint, we build an anchor-based structure and employ a coarse-to-fine optimization strategy capable of handling long-range deformation while maintaining structural stability. Furthermore, we design a novel masking strategy to adaptively identify non-rigid deformation regions for fine-scale modeling. Extensive experiments show the effectiveness of our method in handling geometric details, long-range, and non-rigid deformation, demonstrating superior editing flexibility and quality compared to previous approaches. | 翻訳日:2024-08-15 13:14:29 公開日:2024-08-14 |
# DifuzCam: マスクと拡散モデルでカメラレンズをリプレース
DifuzCam: Replacing Camera Lens with a Mask and a Diffusion Model ( http://arxiv.org/abs/2408.07541v1 ) ライセンス: Link先を確認 | Erez Yosef, Raja Giryes, | (参考訳) フラットなレンズレスカメラのデザインは、カメラのサイズと重量を大幅に減らします。
この設計では、カメラレンズは、受信した光を干渉する別の光学素子に置き換えられる。
画像は、再構成アルゴリズムを用いて生センサ計測から回収される。
しかし、再建された画像の品質は満足できない。
これを軽減するために,制御ネットワークを用いた事前学習拡散モデルと,再構成のための学習可分変換を提案する。
これにより、高品質な撮像機能を備えたフラットカメラのプロトタイプを作成でき、品質と知覚の両面で最先端の結果が提示される。
撮影シーンのテキスト記述も活用し,再現性の向上を図っている。
本手法は,他のイメージングシステムにおいて,事前学習した拡散モデルの強機能を活用することで,再構成結果の改善を図ることができる。
The flat lensless camera design reduces the camera size and weight significantly. In this design, the camera lens is replaced by another optical element that interferes with the incoming light. The image is recovered from the raw sensor measurements using a reconstruction algorithm. Yet, the quality of the reconstructed images is not satisfactory. To mitigate this, we propose utilizing a pre-trained diffusion model with a control network and a learned separable transformation for reconstruction. This allows us to build a prototype flat camera with high-quality imaging, presenting state-of-the-art results in both terms of quality and perceptuality. We demonstrate its ability to leverage also textual descriptions of the captured scene to further enhance reconstruction. Our reconstruction method which leverages the strong capabilities of a pre-trained diffusion model can be used in other imaging systems for improved reconstruction results. | 翻訳日:2024-08-15 13:14:29 公開日:2024-08-14 |
# ウガンダ中等学校における授業計画のための新カリキュラムと新チャンス-検索向上世代 : プロトタイプ品質評価
New Curriculum, New Chance -- Retrieval Augmented Generation for Lesson Planning in Ugandan Secondary Schools. Prototype Quality Evaluation ( http://arxiv.org/abs/2408.07542v1 ) ライセンス: Link先を確認 | Simon Kloker, Herbertson Bukoli, Twaha Kateete, | (参考訳) 序説:中等学校における教育の質の低さは、21世紀のウガンダ、特に農村部における主要な闘争の1つとみなされている。
研究は、低品質または欠席した教師の授業計画など、いくつかの問題を特定する。
政府が新たなカリキュラムの実施を推し進めるにつれ、授業計画の廃止が廃れ、問題が悪化する。
そこで我々は,Retrieval Augmented Generationアプローチを用いて,政府公認の教科書に基づいて,カスタマイズされた授業プランを生成するプロトタイプを開発した。
これにより、教師は授業プランをより効率的に、より良い品質で作成し、新しいカリキュラムと能力に基づく学習アプローチを完全に整合させることができる。
メソッド: プロトタイプはCohere LLMとSentence Embeddings、LangChain Frameworkを使って作成され、その後、パブリックウェブサイトで利用可能になった。
ベクトルストアは3つの新しいカリキュラム教科書(ICT, 数学, 歴史)のために、すべてセカンダリ1レベルで訓練された。
教科書に提案された期間に基づいて,擬似ランダム生成プロトコルに従って24のレッスンプランが作成された。
Ndihokubwayo et al (2022) の授業計画分析プロトコル (LPAP) に従えば, 東アフリカとコンピテンスベースのカリキュラムに特化して設計されている。
結果: LPAPを用いた授業計画24件の評価の結果, 「非常によい授業計画」に対応する平均品質は75~80%であった。
レッスンプランはいずれも65%以下ではなかったが、ひとつのレッスンプランではこのトピックが欠落していたと主張できる。
結論として、ルワンダの研究で示されたように、生成されたレッスンプランの品質は、人間によるものと比べて少なくとも同等である。
Introduction: Poor educational quality in Secondary Schools is still regarded as one of the major struggles in 21st century Uganda - especially in rural areas. Research identifies several problems, including low quality or absent teacher lesson planning. As the government pushes towards the implementation of a new curriculum, exiting lesson plans become obsolete and the problem is worsened. Using a Retrieval Augmented Generation approach, we developed a prototype that generates customized lesson plans based on the government-accredited textbooks. This helps teachers create lesson plans more efficiently and with better quality, ensuring they are fully aligned the new curriculum and the competence-based learning approach. Methods: The prototype was created using Cohere LLM and Sentence Embeddings, and LangChain Framework - and thereafter made available on a public website. Vector stores were trained for three new curriculum textbooks (ICT, Mathematics, History), all at Secondary 1 Level. Twenty-four lessons plans were generated following a pseudo-random generation protocol, based on the suggested periods in the textbooks. The lesson plans were analyzed regarding their technical quality by three independent raters following the Lesson Plan Analysis Protocol (LPAP) by Ndihokubwayo et al. (2022) that is specifically designed for East Africa and competence-based curriculums. Results: Evaluation of 24 lesson plans using the LPAP resulted in an average quality of between 75 and 80%, corresponding to "very good lesson plan". None of the lesson plans scored below 65%, although one lesson plan could be argued to have been missing the topic. In conclusion, the quality of the generated lesson plans is at least comparable, if not better, than those created by humans, as demonstrated in a study in Rwanda, whereby no lesson plan even reached the benchmark of 50%. | 翻訳日:2024-08-15 13:14:29 公開日:2024-08-14 |
# MathScape: 階層的ベンチマークによるマルチモーダル数学シナリオにおけるMLLMの評価
MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark ( http://arxiv.org/abs/2408.07543v1 ) ライセンス: Link先を確認 | Minxuan Zhou, Hao Liang, Tianpeng Li, Zhiyu Wu, Mingan Lin, Linzhuang Sun, Yaqi Zhou, Yan Zhang, Xiaoqin Huang, Yicong Chen, Yujing Qiao, Weipeng Chen, Bin Cui, Wentao Zhang, Zenan Zhou, | (参考訳) MLLM(Multimodal Large Language Models)の開発により,数学的問題におけるマルチモーダルモデルの評価が重要な研究分野となっている。
マルチモーダルな視覚・テクスチュアルな数学的推論は、MLLMの理解と複雑な多段階の定量的推論能力を評価する重要な指標となる。
しかし、従来のマルチモーダルなベンチマークでは、視覚情報とテキスト情報が十分に統合されていない。
このギャップに対処するため、我々は、視覚情報とテキスト情報を組み合わせた理解と応用を強調する新しいベンチマークであるMathScapeを提案しました。
MathScapeは、写真に基づく数学の問題シナリオを評価し、分類的階層的アプローチによってMLLMの理論的理解と応用能力を評価するように設計されている。
我々は11の高度MLLMに対して多次元評価を行い、最も洗練されたモデルでさえベンチマークが困難であることを明らかにした。
評価結果を解析することにより,MLLMの限界を識別し,モデルの性能向上に有用な知見を提供する。
With the development of Multimodal Large Language Models (MLLMs), the evaluation of multimodal models in the context of mathematical problems has become a valuable research field. Multimodal visual-textual mathematical reasoning serves as a critical indicator for evaluating the comprehension and complex multi-step quantitative reasoning abilities of MLLMs. However, previous multimodal math benchmarks have not sufficiently integrated visual and textual information. To address this gap, we proposed MathScape, a new benchmark that emphasizes the understanding and application of combined visual and textual information. MathScape is designed to evaluate photo-based math problem scenarios, assessing the theoretical understanding and application ability of MLLMs through a categorical hierarchical approach. We conduct a multi-dimensional evaluation on 11 advanced MLLMs, revealing that our benchmark is challenging even for the most sophisticated models. By analyzing the evaluation results, we identify the limitations of MLLMs, offering valuable insights for enhancing model performance. | 翻訳日:2024-08-15 13:14:29 公開日:2024-08-14 |
# OWL-DLオントロジーによる計画(拡張版)
Planning with OWL-DL Ontologies (Extended Version) ( http://arxiv.org/abs/2408.07544v1 ) ライセンス: Link先を確認 | Tobias John, Patrick Koopmann, | (参考訳) 我々は,計画問題とオントロジーを組み合わせ,オントロジーを介する計画を導入する。
私たちの形式主義は、計画問題とオントロジーを記述するための形式主義を強く分離することに重点を置いているという点で、既存のものとは異なっている。
さらに,OWL DLの完全な表現力をサポートするブラックボックスアルゴリズムを提案する。
DL-Lite や Horn のような限定的な記述ロジックのみをサポートする。
本アルゴリズムは,オントロジーを介する計画仕様をPDDLに書き換えることにより,既存の計画システムを利用できるようにする。
このアルゴリズムは正当性に依存しており、オントロジー言語の表現性に依存しない一般的なアプローチを可能にする。
しかし、効率的な書き換え手順を実現するためには、計算正当性のための専用最適化を実装する必要がある。
いくつかのドメインのベンチマークセットで実装を評価した。
評価の結果,提案手法は実際に動作しており,推論手順の調整が性能に重大な影響を及ぼすことが明らかとなった。
We introduce ontology-mediated planning, in which planning problems are combined with an ontology. Our formalism differs from existing ones in that we focus on a strong separation of the formalisms for describing planning problems and ontologies, which are only losely coupled by an interface. Moreover, we present a black-box algorithm that supports the full expressive power of OWL DL. This goes beyond what existing approaches combining automated planning with ontologies can do, which only support limited description logics such as DL-Lite and description logics that are Horn. Our main algorithm relies on rewritings of the ontology-mediated planning specifications into PDDL, so that existing planning systems can be used to solve them. The algorithm relies on justifications, which allows for a generic approach that is independent of the expressivity of the ontology language. However, dedicated optimizations for computing justifications need to be implemented to enable an efficient rewriting procedure. We evaluated our implementation on benchmark sets from several domains. The evaluation shows that our procedure works in practice and that tailoring the reasoning procedure has significant impact on the performance. | 翻訳日:2024-08-15 13:03:36 公開日:2024-08-14 |
# ハイブリッドドメインにおける因果推論のための特徴的インターベンショナルSum-Product Networks
$χ$SPN: Characteristic Interventional Sum-Product Networks for Causal Inference in Hybrid Domains ( http://arxiv.org/abs/2408.07545v1 ) ライセンス: Link先を確認 | Harsh Poonia, Moritz Willig, Zhongjie Yu, Matej Zečević, Kristian Kersting, Devendra Singh Dhami, | (参考訳) 離散変数と連続変数の混合によって特徴づけられるハイブリッド領域における因果推論は、恐ろしい挑戦となる。
我々はこの方向に向かって一歩踏み出し、混合分布から引き出されたランダムな変数の存在下で介入分布を推定できる特徴的インターベンショナル Sum-Product Network (\chi$SPN) を提案する。
$\chi$SPN は、干渉SPN (iSPN) の葉の特徴的な関数を使い、確率測度のフーリエ・スティルチェス変換を通して離散的かつ連続的な確率変数に対する統一的なビューを提供する。
ニューラルネットワークを用いて、インターバルデータを用いて学習したiSPNのパラメータを推定する。
3つの合成ヘテロジニアスデータセットを用いた実験により、$\chi$SPNは、離散変数と連続変数の両方に対する干渉分布を効果的に捉えつつ、表現的かつ因果的に適切であることを示唆した。
また、$\chi$SPNは、単一の介入データのみをトレーニングしながら、複数の介入を一般化することを示す。
Causal inference in hybrid domains, characterized by a mixture of discrete and continuous variables, presents a formidable challenge. We take a step towards this direction and propose Characteristic Interventional Sum-Product Network ($\chi$SPN) that is capable of estimating interventional distributions in presence of random variables drawn from mixed distributions. $\chi$SPN uses characteristic functions in the leaves of an interventional SPN (iSPN) thereby providing a unified view for discrete and continuous random variables through the Fourier-Stieltjes transform of the probability measures. A neural network is used to estimate the parameters of the learned iSPN using the intervened data. Our experiments on 3 synthetic heterogeneous datasets suggest that $\chi$SPN can effectively capture the interventional distributions for both discrete and continuous variables while being expressive and causally adequate. We also show that $\chi$SPN generalize to multiple interventions while being trained only on a single intervention data. | 翻訳日:2024-08-15 13:03:36 公開日:2024-08-14 |
# 周期波:高密度波形生成のための多周流整合
PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation ( http://arxiv.org/abs/2408.07547v1 ) ライセンス: Link先を確認 | Sang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee, | (参考訳) 近年,様々なアウト・オブ・ディストリビューションシナリオにおいて,普遍的な波形生成タスクが検討されている。
GANベースの手法は高速波形生成の強みを示しているが、2段階のテキスト音声のような列車間ミスマッチのシナリオには弱い。
一方、拡散に基づくモデルは、他の領域において強力な生成性能を示してきたが、波形生成タスクにおける推論速度の遅いため、ライムライトから外れている。
とりわけ、高分解能波形信号の自然な周期的特徴を明示的に切り離すことができるジェネレータアーキテクチャは存在しない。
本稿では,新しいユニバーサル波形生成モデルである PeriodWave を提案する。
まず、ベクトル場を推定する際、波形信号の周期的特徴を把握できる周期的フローマッチング推定器を提案する。
さらに、重なりを避ける多周期推定器を用いて、波形信号の異なる周期的特徴を捉える。
期間を増やすことで性能が大幅に向上するが、計算コストは増大する。
また,この問題を解決するために,周期的バッチ推論によりフィード・フォワード並列化が可能な単一周期条件の普遍的推定器を提案する。
さらに、離散ウェーブレット変換を用いて、波形信号の周波数情報を損失なく非干渉的に高周波モデリングし、FreeUを導入し、波形生成のための高周波ノイズを低減する。
実験の結果,Mel-spectrogram再構成とテキスト音声タスクにおいて,従来のモデルよりも優れた性能を示した。
すべてのソースコードは \url{https://github.com/sh-lee-prml/PeriodWave} で入手できる。
Recently, universal waveform generation tasks have been investigated conditioned on various out-of-distribution scenarios. Although GAN-based methods have shown their strength in fast waveform generation, they are vulnerable to train-inference mismatch scenarios such as two-stage text-to-speech. Meanwhile, diffusion-based models have shown their powerful generative performance in other domains; however, they stay out of the limelight due to slow inference speed in waveform generation tasks. Above all, there is no generator architecture that can explicitly disentangle the natural periodic features of high-resolution waveform signals. In this paper, we propose PeriodWave, a novel universal waveform generation model. First, we introduce a period-aware flow matching estimator that can capture the periodic features of the waveform signal when estimating the vector fields. Additionally, we utilize a multi-period estimator that avoids overlaps to capture different periodic features of waveform signals. Although increasing the number of periods can improve the performance significantly, this requires more computational costs. To reduce this issue, we also propose a single period-conditional universal estimator that can feed-forward parallel by period-wise batch inference. Additionally, we utilize discrete wavelet transform to losslessly disentangle the frequency information of waveform signals for high-frequency modeling, and introduce FreeU to reduce the high-frequency noise for waveform generation. The experimental results demonstrated that our model outperforms the previous models both in Mel-spectrogram reconstruction and text-to-speech tasks. All source code will be available at \url{https://github.com/sh-lee-prml/PeriodWave}. | 翻訳日:2024-08-15 13:03:36 公開日:2024-08-14 |
# 中赤外及びテレコムバンド2色の絡み合い源に基づく量子鍵分布
Quantum key distribution based on mid-infrared and telecom band two-color entanglement source ( http://arxiv.org/abs/2408.07552v1 ) ライセンス: Link先を確認 | Wu-Zhen Li, Chun Zhou, Yang Wang, Li Chen, Ren-Hui Chen, Zhao-Qi-Zhi Han, Ming-Yuan Gao, Xiao-Hua Wang, Di-Yuan Zheng, Meng-Yu Xie, Yin-Hai Li, Zhi-Yuan Zhou, Wan-Su Bao, Bao-Sen Shi, | (参考訳) 太陽背景放射による高ノイズのため、既存の衛星ベースの自由空間量子鍵分布(QKD)実験は主に夜間に行われ、事実上のリアルタイムなグローバルスケール量子ネットワークの確立を妨げている。
3-5 {\mu}m中赤外(MIR)バンドは、非常に低い太陽背景放射と強い散乱抵抗を持つため、自由空間量子通信の理想的なバンドの1つである。
まず,高品質なMIR (3370 nm) と通信帯域 (1555 nm) の2色偏光共役光子源の調製について報告する。
理論解析により,500km以上の自由空間と96kmの繊維ハイブリッドチャネルの長距離QKDが同時に到達可能であることが明らかになった。
この研究は、一日中グローバルスケールの量子通信ネットワークを開発するための重要な一歩である。
Due to the high noise caused by solar background radiation, the existing satellite-based free-space quantum key distribution (QKD) experiments are mainly carried out at night, hindering the establishment of a practical all-day real-time global-scale quantum network. Given that the 3-5 {\mu}m mid-infrared (MIR) band has extremely low solar background radiation and strong scattering resistance, it is one of the ideal bands for free-space quantum communication. Here, firstly, we report on the preparation of a high-quality MIR (3370 nm) and telecom band (1555 nm) two-color polarization-entangled photon source, then we use this source to realize a principle QKD based on free-space and fiber hybrid channels in a laboratory. The theoretical analysis clearly shows that a long-distance QKD over 500 km of free-space and 96 km of fiber hybrid channels can be reached simultaneously. This work represents a significant step toward developing all-day global-scale quantum communication networks. | 翻訳日:2024-08-15 13:03:36 公開日:2024-08-14 |
# PolyCL:明示的および暗黙的な拡張による高分子表現学習のためのコントラスト学習
PolyCL: Contrastive Learning for Polymer Representation Learning via Explicit and Implicit Augmentations ( http://arxiv.org/abs/2408.07556v1 ) ライセンス: Link先を確認 | Jiajun Zhou, Yijie Yang, Austin M. Mroz, Kim E. Jelfs, | (参考訳) ポリマーは多様で調整可能な性質のため、幅広い用途において重要な役割を担っている。
高分子の表現と性質の関係を確立することは、機械学習によるポテンシャルポリマーの設計とスクリーニングに不可欠である。
表現の質はこれらの計算方法の有効性に大きく影響する。
本稿では,ラベルを使わずに高品質なポリマー表現を学習するための,自己指導型コントラスト学習パラダイムであるPolyCLを提案する。
我々のモデルは、学習性能を向上させるために、明示的かつ暗黙的な拡張戦略を組み合わせる。
その結果,過度に複雑なトレーニング戦略やハイパーパラメータ最適化を伴わずに,伝達学習タスクを特徴抽出器として,より優れた,あるいは高い競争力で達成できることが示唆された。
モデルの有効性をさらに高め,コントラスト学習に使用される様々な拡張組み合わせについて広範な分析を行った。
この結果、PolyCLのパフォーマンスを最大化する最も効果的な組み合わせが特定された。
Polymers play a crucial role in a wide array of applications due to their diverse and tunable properties. Establishing the relationship between polymer representations and their properties is crucial to the computational design and screening of potential polymers via machine learning. The quality of the representation significantly influences the effectiveness of these computational methods. Here, we present a self-supervised contrastive learning paradigm, PolyCL, for learning high-quality polymer representation without the need for labels. Our model combines explicit and implicit augmentation strategies for improved learning performance. The results demonstrate that our model achieves either better, or highly competitive, performances on transfer learning tasks as a feature extractor without an overcomplicated training strategy or hyperparameter optimisation. Further enhancing the efficacy of our model, we conducted extensive analyses on various augmentation combinations used in contrastive learning. This led to identifying the most effective combination to maximise PolyCL's performance. | 翻訳日:2024-08-15 13:03:36 公開日:2024-08-14 |
# Sonic: クラスタリングアルゴリズムによる高速で転送可能なデータポリシ
Sonic: Fast and Transferable Data Poisoning on Clustering Algorithms ( http://arxiv.org/abs/2408.07558v1 ) ライセンス: Link先を確認 | Francesco Villani, Dario Lazzaro, Antonio Emanuele Cinà, Matteo Dell'Amico, Battista Biggio, Fabio Roli, | (参考訳) クラスタリングアルゴリズムに対するデータ中毒攻撃は限定的であり、既存の手法ではデータセットのサイズや機能数が増加するにつれて、効率的にスケールするのに苦労している。
これらの攻撃は通常、予測を生成してアタッカーの目標を評価するために、データセット全体を複数回再クラスタする必要があるため、スケーラビリティを著しく損なう。
本稿では,HDBSCANなどのグラフベースおよび密度ベースのクラスタリング手法に対する攻撃を加速するために,段階的かつスケーラブルなクラスタリングアルゴリズムであるFISHDBCをサロゲートとして活用する,新たな遺伝的データ中毒攻撃であるSonicを提案する。
対象クラスタリングアルゴリズムに対するSonicの有効性と効率を実証的に実証した。
次に、クラスタリングアルゴリズムに対する中毒攻撃のスケーラビリティと伝達性に影響を与える要因を包括的に分析し、攻撃戦略Sonicにおけるハイパーパラメータの堅牢性を検討することで結論付ける。
Data poisoning attacks on clustering algorithms have received limited attention, with existing methods struggling to scale efficiently as dataset sizes and feature counts increase. These attacks typically require re-clustering the entire dataset multiple times to generate predictions and assess the attacker's objectives, significantly hindering their scalability. This paper addresses these limitations by proposing Sonic, a novel genetic data poisoning attack that leverages incremental and scalable clustering algorithms, e.g., FISHDBC, as surrogates to accelerate poisoning attacks against graph-based and density-based clustering methods, such as HDBSCAN. We empirically demonstrate the effectiveness and efficiency of Sonic in poisoning the target clustering algorithms. We then conduct a comprehensive analysis of the factors affecting the scalability and transferability of poisoning attacks against clustering algorithms, and we conclude by examining the robustness of hyperparameters in our attack strategy Sonic. | 翻訳日:2024-08-15 13:03:36 公開日:2024-08-14 |
# 電子カルテを用いたマルチタスク不均一グラフ学習
Multi-task Heterogeneous Graph Learning on Electronic Health Records ( http://arxiv.org/abs/2408.07569v1 ) ライセンス: Link先を確認 | Tsai Hor Chan, Guosheng Yin, Kyongtae Bae, Lequan Yu, | (参考訳) 電子健康記録(EHR)の学習は、正確な診断を容易にする能力から注目されている。
EHRにはエンティティ間の複雑な相互作用を示す豊富な情報が含まれているため、グラフを用いたEHRのモデリングは実際は有効であることが示されている。
しかし、EHRは不均一性、疎性、複雑さの度合いが高く、それらに適用されたほとんどのモデルの性能を損なう。
さらに、既存の EHR モデリング手法は、1つのタスクの表現を学習することに集中し、EHR 分析問題のマルチタスク性を見越して、異なるタスクにまたがる限定的な一般化性をもたらす。
これらの制約を考慮し、複雑な関係をマイニングし、EHRの不均一性をモデル化するために不均一グラフを利用するMulT-EHR(Multi-Task EHR)という新しいEHRモデリングフレームワークを提案する。
ノイズの低減のために,因果推論フレームワークに基づくデノナイジングモジュールを導入し,重度のコンバウンディング効果を調整し,EHRデータにおけるノイズを低減する。
さらに,本モデルでは,マルチタスクの同時予測に単一グラフニューラルネットワークを採用しているため,マルチタスク学習モジュールを設計して,タスク間知識を活用してトレーニングプロセスの正規化を行う。
MIMIC-IIIとMIMIC-IVのデータセットに関する大規模な実験研究により、提案手法は4つの一般的なEHR分析タスク(薬物の推奨、滞在期間、死亡率、寛解期間の予測)において、常に最先端の設計よりも優れていることが検証された。
徹底的なアブレーション研究は,鍵成分やハイパーパラメータの変動による手法の堅牢性を示すものである。
Learning electronic health records (EHRs) has received emerging attention because of its capability to facilitate accurate medical diagnosis. Since the EHRs contain enriched information specifying complex interactions between entities, modeling EHRs with graphs is shown to be effective in practice. The EHRs, however, present a great degree of heterogeneity, sparsity, and complexity, which hamper the performance of most of the models applied to them. Moreover, existing approaches modeling EHRs often focus on learning the representations for a single task, overlooking the multi-task nature of EHR analysis problems and resulting in limited generalizability across different tasks. In view of these limitations, we propose a novel framework for EHR modeling, namely MulT-EHR (Multi-Task EHR), which leverages a heterogeneous graph to mine the complex relations and model the heterogeneity in the EHRs. To mitigate the large degree of noise, we introduce a denoising module based on the causal inference framework to adjust for severe confounding effects and reduce noise in the EHR data. Additionally, since our model adopts a single graph neural network for simultaneous multi-task prediction, we design a multi-task learning module to leverage the inter-task knowledge to regularize the training process. Extensive empirical studies on MIMIC-III and MIMIC-IV datasets validate that the proposed method consistently outperforms the state-of-the-art designs in four popular EHR analysis tasks -- drug recommendation, and predictions of the length of stay, mortality, and readmission. Thorough ablation studies demonstrate the robustness of our method upon variations to key components and hyperparameters. | 翻訳日:2024-08-15 13:03:36 公開日:2024-08-14 |
# 制約に基づく因果学習のための一般的なフレームワーク
A General Framework for Constraint-based Causal Learning ( http://arxiv.org/abs/2408.07575v1 ) ライセンス: Link先を確認 | Kai Z. Teh, Kayvan Sadeghi, Terry Soo, | (参考訳) 任意の制約に基づく因果学習アルゴリズムをプレースホルダー特性を介して表現することにより、正当性条件を分布と真の因果グラフに関連する部分と、分布のみに依存する部分に分解する。
これにより、因果学習の正確性条件を得るための一般的な枠組みが提供され、以下の意味を持つ。
我々はPCアルゴリズムに対して正確な正当性条件を提供するが、これは既存の因果発見アルゴリズムの正当性条件に関係している。
最短マルコフ表現条件は、最大祖先グラフと有向非巡回グラフに対する最小性の概念から得られる最も弱い正当性条件であることを示す。
我々はまた、誠実性を超えた因果学習には、単にパール・ミニマリティ以外の追加の知識が必要であると理由付けている。
By representing any constraint-based causal learning algorithm via a placeholder property, we decompose the correctness condition into a part relating the distribution and the true causal graph, and a part that depends solely on the distribution. This provides a general framework to obtain correctness conditions for causal learning, and has the following implications. We provide exact correctness conditions for the PC algorithm, which are then related to correctness conditions of some other existing causal discovery algorithms. We show that the sparsest Markov representation condition is the weakest correctness condition resulting from existing notions of minimality for maximal ancestral graphs and directed acyclic graphs. We also reason that additional knowledge than just Pearl-minimality is necessary for causal learning beyond faithfulness. | 翻訳日:2024-08-15 13:03:36 公開日:2024-08-14 |
# MetaSeg: 効率的なセマンティックセグメンテーションのためのMetaFormerベースのグローバルコンテキスト認識ネットワーク
MetaSeg: MetaFormer-based Global Contexts-aware Network for Efficient Semantic Segmentation ( http://arxiv.org/abs/2408.07576v1 ) ライセンス: Link先を確認 | Beoungwoo Kang, Seunghun Moon, Yubin Cho, Hyunwoo Yu, Suk-Ju Kang, | (参考訳) Transformer以外にも、Transformerのパフォーマンス改善の基礎となるアーキテクチャであるMetaFormerのキャパシティを利用する方法を検討することが重要である。
これまでの研究では、バックボーンネットワークのみに利用されていた。
従来の研究とは異なり、メタフォーマーアーキテクチャはセマンティックセグメンテーションタスクにおいてより広範囲に機能する。
バックボーンからデコーダへのメタフォーマーアーキテクチャを活用する強力なセマンティックセグメンテーションネットワークであるMetaSegを提案する。
私たちのMetaSegは、MetaFormerアーキテクチャがデコーダやバックボーンの有用なコンテキストをキャプチャする上で重要な役割を担っていることを示しています。
さらに,最近のセグメンテーション手法では,空間情報を抽出するCNNベースのバックボーンとグローバル情報を抽出するデコーダが,CNNベースのデコーダを用いたトランスフォーマベースのバックボーンよりも有効であることが示されている。
これは、CNNベースのバックボーンをMetaFormerブロックを使って採用し、グローバルコンテキストをキャプチャするための新しい自己注意モジュールで構成されるMetaFormerベースのデコーダを設計する動機となります。
セマンティックセグメンテーションのための自己アテンションのグローバルなコンテキスト抽出と計算効率の両方を考慮するために,クエリとキーのチャネル次元を1次元に縮小するチャネルリダクションアテンション(CRA)モジュールを提案する。
このようにして、提案したMetaSegは、ADE20K、Cityscapes、COCO-stuff、Synapseを含む、一般的なセマンティックセグメンテーションと医療画像セグメンテーションのベンチマークにおいて、より効率的な計算コストで従来の最先端手法よりも優れている。
コードは \url{https://github.com/hyunwoo137/MetaSeg} で公開されている。
Beyond the Transformer, it is important to explore how to exploit the capacity of the MetaFormer, an architecture that is fundamental to the performance improvements of the Transformer. Previous studies have exploited it only for the backbone network. Unlike previous studies, we explore the capacity of the Metaformer architecture more extensively in the semantic segmentation task. We propose a powerful semantic segmentation network, MetaSeg, which leverages the Metaformer architecture from the backbone to the decoder. Our MetaSeg shows that the MetaFormer architecture plays a significant role in capturing the useful contexts for the decoder as well as for the backbone. In addition, recent segmentation methods have shown that using a CNN-based backbone for extracting the spatial information and a decoder for extracting the global information is more effective than using a transformer-based backbone with a CNN-based decoder. This motivates us to adopt the CNN-based backbone using the MetaFormer block and design our MetaFormer-based decoder, which consists of a novel self-attention module to capture the global contexts. To consider both the global contexts extraction and the computational efficiency of the self-attention for semantic segmentation, we propose a Channel Reduction Attention (CRA) module that reduces the channel dimension of the query and key into the one dimension. In this way, our proposed MetaSeg outperforms the previous state-of-the-art methods with more efficient computational costs on popular semantic segmentation and a medical image segmentation benchmark, including ADE20K, Cityscapes, COCO-stuff, and Synapse. The code is available at \url{https://github.com/hyunwoo137/MetaSeg}. | 翻訳日:2024-08-15 13:03:36 公開日:2024-08-14 |
# 励起原子系における高調波発生後の光のスクイーズ状態
Squeezed states of light after high-harmonic generation in excited atomic systems ( http://arxiv.org/abs/2408.07577v1 ) ライセンス: Link先を確認 | J. Rivera-Dean, H. B. Crispin, P. Stammer, Th. Lamprou, E. Pisanty, M. Krüger, P. Tzallas, M. Lewenstein, M. F. Ciappina, | (参考訳) 高調波発生(HHG)は近ごろ、赤外線から極端紫外線状態までの周波数を持つ非古典的な光状態を生成するための有望な方法として登場した。
本研究では,初めて励起状態に誘導された原子系において,HHG過程を通じて励起された光の発生を理論的に検討する。
本研究は、駆動場と低次高調波モードの両方において、重要な単一モードのスクイージングを明らかにする。
さらに、基本モードとハーモニックモードの両方、およびハーモニックモード自体の2モードのスクイージング特徴を特徴付ける。
これらの相関式を用いて、2モードのスクイージングの影響を受けるモードの1つにおいて、光子サブトラクションによる光Schr\"odinger子猫状態の生成を示す。
High-harmonic generation (HHG) has recently emerged as a promising method for generating non-classical states of light with frequencies spanning from the infrared up to the extreme ultraviolet regime. In this work, we theoretically investigate the generation of squeezed states of light through HHG processes in atomic systems that had been initially driven to their first excited state. Our study reveals significant single-mode squeezing in both the driving field and low-order harmonic modes. Additionally, we characterize two-mode squeezing features in the generated states, both between fundamental and harmonic modes, and among the harmonic modes themselves. Using these correlations, we demonstrate the generation of optical Schr\"odinger kitten states through heralding measurements, specifically via photon subtraction in one of the modes influenced by two-mode squeezing. | 翻訳日:2024-08-15 13:03:36 公開日:2024-08-14 |
# グラフ強化学習に基づくEco-platooningのための意思決定戦略
A Nested Graph Reinforcement Learning-based Decision-making Strategy for Eco-platooning ( http://arxiv.org/abs/2408.07578v1 ) ライセンス: Link先を確認 | Xin Gao, Xueyuan Li, Hao Liu, Ao Li, Zhaoyang Ma, Zirui Li, | (参考訳) プラトゥーニング技術は正確な車両制御、交通流の最適化、エネルギー効率の向上で有名である。
しかし、大規模な混合プラトンでは、車両の不均一性と予測不可能な交通条件が仮想ボトルネックを引き起こす。
これらのボトルネックは、トラフィックのスループットを低下させ、小隊内でのエネルギー消費を増大させる。
これらの課題に対処するために,ネストグラフ強化学習に基づく意思決定戦略を導入する。
この戦略は協調的な意思決定を改善し、エネルギー効率を確保し、混雑を軽減する。
非ユークリッド空間における車両とプラトン間の動的相互作用をマッピングするネスト交通グラフ表現の理論を提案する。
時空間重み付きグラフをマルチヘッドアテンション機構に組み込むことで、局所データとグローバルデータの両方を処理するためのモデルの能力をさらに強化する。
さらに,小隊の自己定性学習能力を高めるため,ネストグラフ強化学習フレームワークを開発した。
I-24データセットを用いて、比較アルゴリズム実験、一般化可能性試験、透過性アブレーション実験を設計、実施し、提案手法の有効性を検証した。
ベースラインと比較して,我々の戦略はスループットを10%向上し,エネルギー使用量を9%削減する。
特に、CAVの浸透率の増大はトラフィックのスループットを著しく向上させるが、エネルギー消費も増大させる。
Platooning technology is renowned for its precise vehicle control, traffic flow optimization, and energy efficiency enhancement. However, in large-scale mixed platoons, vehicle heterogeneity and unpredictable traffic conditions lead to virtual bottlenecks. These bottlenecks result in reduced traffic throughput and increased energy consumption within the platoon. To address these challenges, we introduce a decision-making strategy based on nested graph reinforcement learning. This strategy improves collaborative decision-making, ensuring energy efficiency and alleviating congestion. We propose a theory of nested traffic graph representation that maps dynamic interactions between vehicles and platoons in non-Euclidean spaces. By incorporating spatio-temporal weighted graph into a multi-head attention mechanism, we further enhance the model's capacity to process both local and global data. Additionally, we have developed a nested graph reinforcement learning framework to enhance the self-iterative learning capabilities of platooning. Using the I-24 dataset, we designed and conducted comparative algorithm experiments, generalizability testing, and permeability ablation experiments, thereby validating the proposed strategy's effectiveness. Compared to the baseline, our strategy increases throughput by 10% and decreases energy use by 9%. Specifically, increasing the penetration rate of CAVs significantly enhances traffic throughput, though it also increases energy consumption. | 翻訳日:2024-08-15 13:03:36 公開日:2024-08-14 |
# TabularBench: 現実のユースケースにおけるタブラルディープラーニングのための逆ロバストネスのベンチマーク
TabularBench: Benchmarking Adversarial Robustness for Tabular Deep Learning in Real-world Use-cases ( http://arxiv.org/abs/2408.07579v1 ) ライセンス: Link先を確認 | Thibault Simonetto, Salah Ghamizi, Maxime Cordy, | (参考訳) コンピュータビジョンにおける敵対的堅牢性は、成熟した研究分野であるが、表層深層学習に対する回避攻撃に取り組む研究者は少ない。
表層攻撃の研究におけるこの遅れは、標準化されたベンチマークの欠如によるものであると仮定する。
このギャップを埋めるために,表層深層学習分類モデルの堅牢性に関する最初の総合的なベンチマークであるTabularBenchを提案する。
表層モデルに対する最も効果的な攻撃として最近実証された勾配と探索攻撃のアンサンブルであるCAAを用いた対向ロバスト性の評価を行った。
新たなモデルとディフェンスの提出を歓迎するオープンベンチマーク(https://github.com/serval-uni-lu/tabularbench)に加えて、コンピュータビジョンにおける最先端のディフェンスにインスパイアされた7つのロバスト化メカニズムを実装し、ファイナンス、ヘルスケア、セキュリティの5つの重要なシナリオで200モデルを超える堅牢なタブラーディープラーニングのベンチマークを提案する。
ユースケース毎に実際のデータセットをキュレートし、数十万のリアルな合成入力で強化し、データ拡張なしでモデルをトレーニングし、評価しました。
トレーニング済みの堅牢なタブモデルのすべてにAPIアクセスを提供するライブラリをオープンソースとして公開しています。
最後に, 各種防御がロバスト性に与える影響を分析し, 新たな防御機構とロバスト化機構を設計するための実用的な洞察を提供する。
While adversarial robustness in computer vision is a mature research field, fewer researchers have tackled the evasion attacks against tabular deep learning, and even fewer investigated robustification mechanisms and reliable defenses. We hypothesize that this lag in the research on tabular adversarial attacks is in part due to the lack of standardized benchmarks. To fill this gap, we propose TabularBench, the first comprehensive benchmark of robustness of tabular deep learning classification models. We evaluated adversarial robustness with CAA, an ensemble of gradient and search attacks which was recently demonstrated as the most effective attack against a tabular model. In addition to our open benchmark (https://github.com/serval-uni-lu/tabularbench) where we welcome submissions of new models and defenses, we implement 7 robustification mechanisms inspired by state-of-the-art defenses in computer vision and propose the largest benchmark of robust tabular deep learning over 200 models across five critical scenarios in finance, healthcare and security. We curated real datasets for each use case, augmented with hundreds of thousands of realistic synthetic inputs, and trained and assessed our models with and without data augmentations. We open-source our library that provides API access to all our pre-trained robust tabular models, and the largest datasets of real and synthetic tabular inputs. Finally, we analyze the impact of various defenses on the robustness and provide actionable insights to design new defenses and robustification mechanisms. | 翻訳日:2024-08-15 13:03:36 公開日:2024-08-14 |
# 広いスペクトルライブラリーを用いたハイパースペクトルレンズアンミキシングのスパース視点による理論的・実践的進歩
Theoretical and Practical Progress in Hyperspectral Pixel Unmixing with Large Spectral Libraries from a Sparse Perspective ( http://arxiv.org/abs/2408.07580v1 ) ライセンス: Link先を確認 | Jade Preston, William Basener, | (参考訳) ハイパースペクトルアンミキシング(Hyperspectral unmixing)は、観察されたピクセルスペクトルから個々の物質とそれぞれの存在量を決定する過程である。
アンミキシングはハイパースペクトル画像解析の基本的なプロセスであり、ますます大きなスペクトルライブラリの作成と利用が進むにつれて、重要性が増している。
アンミックスは通常、通常の最小二乗回帰(OLS)を用いて行われる。
しかし、画素に存在する物質が既知でない大きなスペクトルライブラリと混ざり合い、ORSの係数を解くには、大きなスペクトルライブラリから非可逆行列を逆転する必要がある。
正規化を用いて数値解を生成できるレグレッション法はいくつか用意されているが、その効果はかなり多様である。
また、統計学の文献(すなわち、ステップワイド回帰)で不人気な単純な手法は、ハイパースペクトル解析においてある程度の有効性で用いられる。
本稿では,モデル内の正しい材料をどの程度の頻度で選択するかに基づいて,提案手法の徹底的な性能評価を行う。
研究手法としては、通常最小二乗回帰、非負最小二乗回帰、リッジ回帰、ラッソ回帰、ステップワイズ回帰、ベイズ平均化などがある。
非負の量, モデルサイズ, 正確なミネラル検出, 根平均二乗誤差 (RMSE) を取り入れた。
我々は回帰法を分類し、ほとんどの方法が特定の先行するベイズ的手法として理解可能であることを示す。
提案手法は,従来の最小二乗線形回帰の仮定の下での予測性能に最適である先行画像よりも,高スペクトル画像の現象学に対応する先行画像から導出できる手法が優れていると結論付けている。
Hyperspectral unmixing is the process of determining the presence of individual materials and their respective abundances from an observed pixel spectrum. Unmixing is a fundamental process in hyperspectral image analysis, and is growing in importance as increasingly large spectral libraries are created and used. Unmixing is typically done with ordinary least squares (OLS) regression. However, unmixing with large spectral libraries where the materials present in a pixel are not a priori known, solving for the coefficients in OLS requires inverting a non-invertible matrix from a large spectral library. A number of regression methods are available that can produce a numerical solution using regularization, but with considerably varied effectiveness. Also, simple methods that are unpopular in the statistics literature (i.e. step-wise regression) are used with some level of effectiveness in hyperspectral analysis. In this paper, we provide a thorough performance evaluation of the methods considered, evaluating methods based on how often they select the correct materials in the models. Investigated methods include ordinary least squares regression, non-negative least squares regression, ridge regression, lasso regression, step-wise regression and Bayesian model averaging. We evaluated these unmixing approaches using multiple criteria: incorporation of non-negative abundances, model size, accurate mineral detection and root mean squared error (RMSE). We provide a taxonomy of the regression methods, showing that most methods can be understood as Bayesian methods with specific priors. We conclude that methods that can be derived with priors that correspond to the phenomenology of hyperspectral imagery outperform those with priors that are optimal for prediction performance under the assumptions of ordinary least squares linear regression. | 翻訳日:2024-08-15 13:03:36 公開日:2024-08-14 |
# 効率的な侵入検知システムのための変圧器と大規模言語モデル:包括的調査
Transformers and Large Language Models for Efficient Intrusion Detection Systems: A Comprehensive Survey ( http://arxiv.org/abs/2408.07583v1 ) ライセンス: Link先を確認 | Hamza Kheddar, | (参考訳) Transformers LLMの大幅な進歩により、NLPはテキスト生成とユーザインタラクションの強化により、多くの研究分野にリーチを広げている。
これらの進歩から大きな恩恵を受ける分野はサイバーセキュリティである。
サイバーセキュリティでは、送信者と受信者の間で保護され、交換する必要がある多くのパラメータは、テキストと表形式のデータ形式であり、NLPは通信プロトコルのセキュリティ対策を強化する上で貴重なツールである。
本稿では,サイバー脅威検出システムにおけるトランスフォーマーとLCMの利用状況について,包括的分析を行った。
論文選択と書誌分析の方法論を概説し、既存の研究を評価するための厳密な枠組みを確立する。
様々なサイバー攻撃の背景情報や、この分野でよく使われるデータセットなど、トランスフォーマーの基本について論じる。
この調査では、IDSにおけるTransformerの適用について調査し、アテンションベースのモデル、BERTやGPTのようなLLM、CNN/LSTM-Transformerハイブリッド、ViTのような新しいアプローチなど、さまざまなアーキテクチャに焦点を当てている。
さらに、コンピュータネットワーク、IoTデバイス、重要なインフラストラクチャ保護、クラウドコンピューティング、SDN、自動運転車など、TransformerとLLMベースのIDSが実装されている多様な環境とアプリケーションについても検討している。
論文ではまた、この分野における研究課題や今後の方向性についても論じ、解釈可能性、スケーラビリティ、脅威の進化への適応性といった重要な課題を特定している。
最後に、この結論は調査結果を要約し、サイバー脅威検出能力の向上におけるトランスフォーマーとLLMの重要性を強調し、さらなる研究と開発のための潜在的な道筋を概説する。
With significant advancements in Transformers LLMs, NLP has extended its reach into many research fields due to its enhanced capabilities in text generation and user interaction. One field benefiting greatly from these advancements is cybersecurity. In cybersecurity, many parameters that need to be protected and exchanged between senders and receivers are in the form of text and tabular data, making NLP a valuable tool in enhancing the security measures of communication protocols. This survey paper provides a comprehensive analysis of the utilization of Transformers and LLMs in cyber-threat detection systems. The methodology of paper selection and bibliometric analysis is outlined to establish a rigorous framework for evaluating existing research. The fundamentals of Transformers are discussed, including background information on various cyber-attacks and datasets commonly used in this field. The survey explores the application of Transformers in IDSs, focusing on different architectures such as Attention-based models, LLMs like BERT and GPT, CNN/LSTM-Transformer hybrids, emerging approaches like ViTs, among others. Furthermore, it explores the diverse environments and applications where Transformers and LLMs-based IDS have been implemented, including computer networks, IoT devices, critical infrastructure protection, cloud computing, SDN, as well as in autonomous vehicles. The paper also addresses research challenges and future directions in this area, identifying key issues such as interpretability, scalability, and adaptability to evolving threats, and more. Finally, the conclusion summarizes the findings and highlights the significance of Transformers and LLMs in enhancing cyber-threat detection capabilities, while also outlining potential avenues for further research and development. | 翻訳日:2024-08-15 13:03:36 公開日:2024-08-14 |
# FedQUIT: 準コンピテント仮想教師によるオンデバイス・フェデレーション・アンラーニング
FedQUIT: On-Device Federated Unlearning via a Quasi-Competent Virtual Teacher ( http://arxiv.org/abs/2408.07587v1 ) ライセンス: Link先を確認 | Alessio Mora, Lorenzo Valerio, Paolo Bellavista, Andrea Passarella, | (参考訳) フェデレートラーニング(FL)は、機械学習モデルが協調的にトレーニングされた場合、個人のデータに対するより良いプライバシー保証を約束する。
FL参加者が、その参加したFLフレームワークから離脱し、その過去のグローバルモデルへの貢献をなくすという、忘れられる権利を行使した場合、FLソリューションは、現在最先端のソリューションではサポートされていないグローバルモデル全体のパフォーマンスを犠牲にすることなく、それを可能にするために必要なすべてのステップを実行するべきである。
本稿では,知識蒸留を用いた新しいアルゴリズムであるFedQUITを提案する。このアルゴリズムは,FLグローバルモデルから,その一般化能力を保ちながら,忘れるデータの寄与を隠蔽する。
FedQUITはクライアントのデバイス上で直接動作し、通常のFLプロセスと比較して追加情報を共有する必要はない。
私たちのソリューションは効率的で効果的で、中央集権的な設定と連邦化された設定の両方に適用できます。
実験の結果,FedQUITでは,学習後に一般化性能を回復するために平均2.5%以上の通信ラウンドが必要であり,その予測は忘れられることのないグローバルモデルに匹敵する。
Federated Learning (FL) promises better privacy guarantees for individuals' data when machine learning models are collaboratively trained. When an FL participant exercises its right to be forgotten, i.e., to detach from the FL framework it has participated and to remove its past contributions to the global model, the FL solution should perform all the necessary steps to make it possible without sacrificing the overall performance of the global model, which is not supported in state-of-the-art related solutions nowadays. In this paper, we propose FedQUIT, a novel algorithm that uses knowledge distillation to scrub the contribution of the forgetting data from an FL global model while preserving its generalization ability. FedQUIT directly works on clients' devices and does not require sharing additional information if compared with a regular FL process, nor does it assume the availability of publicly available proxy data. Our solution is efficient, effective, and applicable in both centralized and federated settings. Our experimental results show that, on average, FedQUIT requires less than 2.5% additional communication rounds to recover generalization performances after unlearning, obtaining a sanitized global model whose predictions are comparable to those of a global model that has never seen the data to be forgotten. | 翻訳日:2024-08-15 13:03:36 公開日:2024-08-14 |
# 「大きすぎるか」 : 連続ガウス過程におけるモデルサイズ調整
"How Big is Big Enough?" Adjusting Model Size in Continual Gaussian Processes ( http://arxiv.org/abs/2408.07588v1 ) ライセンス: Link先を確認 | Guiomar Pescador-Barrios, Sarah Filippi, Mark van der Wilk, | (参考訳) 多くの機械学習手法において、モデルを作成するには、トレーニング前にモデルのキャパシティを制御するパラメータを設定する必要がある。
キャパシティの増大は、データセットからのすべての情報がキャプチャされるまでパフォーマンスを改善する。
この時点以降、計算コストは向上することなく増加し続ける。
これは、連続学習におけるガウス的プロセス(単層ニューラルネットワーク)に対するこの問題を調査する。
ここでは、データが段階的に利用可能になり、最終的なデータセットサイズがトレーニング前に知られなくなるため、モデルサイズの設定にヒューリスティックスの使用が防止される。
ほぼ最適性能を維持しながら、これを自動で調整し、本手法の1つのハイパーパラメータ設定が幅広い特性を持つデータセット間で良好に動作することを示す方法を提案する。
For many machine learning methods, creating a model requires setting a parameter that controls the model's capacity before training, e.g.~number of neurons in DNNs, or inducing points in GPs. Increasing capacity improves performance until all the information from the dataset is captured. After this point, computational cost keeps increasing, without improved performance. This leads to the question ``How big is big enough?'' We investigate this problem for Gaussian processes (single-layer neural networks) in continual learning. Here, data becomes available incrementally, and the final dataset size will therefore not be known before training, preventing the use of heuristics for setting the model size. We provide a method that automatically adjusts this, while maintaining near-optimal performance, and show that a single hyperparameter setting for our method performs well across datasets with a wide range of properties. | 翻訳日:2024-08-15 12:53:17 公開日:2024-08-14 |
# 離散時間バリア証明書による量子回路の検証
Verification of Quantum Circuits through Discrete-Time Barrier Certificates ( http://arxiv.org/abs/2408.07591v1 ) ライセンス: Link先を確認 | Marco Lewis, Sadegh Soudjani, Paolo Zuliani, | (参考訳) 量子コンピュータを検証するための現在の手法は、対話的あるいは自動的な定理証明に基づく。
量子コンピュータが本質的に動的であることを考えると、量子回路の特性を検証するために動的システムの検証から概念を取り入れ、拡張する。
我々の主な貢献は、複素変数上のk帰納障壁証明書を提案し、それをHermitian Sum of Squares最適化を用いてどのように計算するかを示すことである。
異なる量子回路の特性を検証するために,本手法を適用した。
Current methods for verifying quantum computers are predominately based on interactive or automatic theorem provers. Considering that quantum computers are dynamical in nature, this paper employs and extends the concepts from the verification of dynamical systems to verify properties of quantum circuits. Our main contribution is to propose k-inductive barrier certificates over complex variables and show how to compute them using Hermitian Sum of Squares optimization. We apply this new technique to verify properties of different quantum circuits. | 翻訳日:2024-08-15 12:53:17 公開日:2024-08-14 |
# ソフトウェアエンジニアリング実験におけるクロスオーバー設計:分析の現状のレビュー
Crossover Designs in Software Engineering Experiments: Review of the State of Analysis ( http://arxiv.org/abs/2408.07594v1 ) ライセンス: Link先を確認 | Julian Frattini, Davide Fucci, Sira Vegas, | (参考訳) 実験は、あらゆる経験的分野において因果推論に不可欠な方法である。
クロスオーバー設計の実験は、ソフトウェア工学(SE)研究で一般的である。
これらにおいて、被験者は異なる順序で複数の治療を施す。
この設計は、得られたデータ量を増やし、対象変数を扱うが、学習や輸送効果のような内部的妥当性に脅威をもたらす。
Vegasらは、SE研究におけるクロスオーバー設計の実践状況についてレビューし、そのメリットを活用しながら、データ分析中に脅威に対処するためのガイドラインを提供した。
本稿では,これらのガイドラインが与える影響を考察し,2015年から2024年3月までのSE出版物におけるクロスオーバー設計実験の分析状況について概観する。
この目的のために,本ガイドラインの事前雪解けを行い,67件のクロスオーバー設計実験を報告した136件の出版物を調査し,提案ガイドラインに対してデータ解析を行った。
その結果,データ解析の妥当性は,従来の解析結果と比較すると向上していることがわかった。
それでも、明確なガイドラインにもかかわらず、有効性に対する脅威は29.5%に過ぎなかった。
成熟度と最適配列の脅威はそれぞれ試料中の全研究の35.8%と38.8%で適切に対処されているが、輸送脅威は観察されたケースの約3%でのみモデル化されている。
分析ガイドラインの遵守の欠如は、クロスオーバー設計実験から得られた結論の妥当性を脅かす
Experimentation is an essential method for causal inference in any empirical discipline. Crossover-design experiments are common in Software Engineering (SE) research. In these, subjects apply more than one treatment in different orders. This design increases the amount of obtained data and deals with subject variability but introduces threats to internal validity like the learning and carryover effect. Vegas et al. reviewed the state of practice for crossover designs in SE research and provided guidelines on how to address its threats during data analysis while still harnessing its benefits. In this paper, we reflect on the impact of these guidelines and review the state of analysis of crossover design experiments in SE publications between 2015 and March 2024. To this end, by conducting a forward snowballing of the guidelines, we survey 136 publications reporting 67 crossover-design experiments and evaluate their data analysis against the provided guidelines. The results show that the validity of data analyses has improved compared to the original state of analysis. Still, despite the explicit guidelines, only 29.5% of all threats to validity were addressed properly. While the maturation and the optimal sequence threats are properly addressed in 35.8% and 38.8% of all studies in our sample respectively, the carryover threat is only modeled in about 3% of the observed cases. The lack of adherence to the analysis guidelines threatens the validity of the conclusions drawn from crossover design experiments | 翻訳日:2024-08-15 12:53:17 公開日:2024-08-14 |
# ガウススメッティングによる逆レンダリングのためのプログレッシブ・ラジアンス蒸留法
Progressive Radiance Distillation for Inverse Rendering with Gaussian Splatting ( http://arxiv.org/abs/2408.07595v1 ) ライセンス: Link先を確認 | Keyang Ye, Qiming Hou, Kun Zhou, | (参考訳) 本稿では, 逆レンダリング法であるプログレッシブ・ラディアンス蒸留法と, ガウス・ベース・ラディアンス・フィールド・レンダリングを組み合わせた蒸留プログレッシブ・プログレッシブ・プログレッシブ・プログレッシブ・プログレッシブ・マップを提案する。
マルチビュー画像を入力として,事前学習した放射場誘導から開始し,画像適合プロセスを用いて放射場から物理的に光と物質パラメータを蒸留する。
蒸留進捗マップは、放射場レンダリングが好ましい小さな値に初期化される。
光と物質パラメータが収束しない初期のイテレーションでは、放射界のフォールバックは画像損失勾配の正しさを保証し、不適合な状態を惹きつける局所的なミニマを避ける。
適合パラメータが収束すると、物理モデルが徐々に引き継がれ、蒸留の進行が増加する。
物理モデルでモデル化されていない光路の存在下では、蒸留の進行は影響した画素で終了せず、学習された放射場は最終レンダリングに留まる。
この設計された物理モデル制限に対する耐性により、未モデル化の色成分が光や物質パラメータに漏れるのを防ぎ、リライティングアーティファクトを緩和する。
一方、残りの放射場は物理モデルの限界を補償し、高品質な新規ビュー合成を保証する。
実験により,本手法は新規なビュー合成とリライティングの両方において,最先端技術よりも優れた性能を示すことが示された。
プログレッシブ・ラディアンス蒸留の考え方はガウススプラッティングに限らない。
また,メッシュベースの逆レンダリング手法に適応した場合,顕著な特異なシーンに対して肯定的な効果を示すことを示す。
We propose progressive radiance distillation, an inverse rendering method that combines physically-based rendering with Gaussian-based radiance field rendering using a distillation progress map. Taking multi-view images as input, our method starts from a pre-trained radiance field guidance, and distills physically-based light and material parameters from the radiance field using an image-fitting process. The distillation progress map is initialized to a small value, which favors radiance field rendering. During early iterations when fitted light and material parameters are far from convergence, the radiance field fallback ensures the sanity of image loss gradients and avoids local minima that attracts under-fit states. As fitted parameters converge, the physical model gradually takes over and the distillation progress increases correspondingly. In presence of light paths unmodeled by the physical model, the distillation progress never finishes on affected pixels and the learned radiance field stays in the final rendering. With this designed tolerance for physical model limitations, we prevent unmodeled color components from leaking into light and material parameters, alleviating relighting artifacts. Meanwhile, the remaining radiance field compensates for the limitations of the physical model, guaranteeing high-quality novel views synthesis. Experimental results demonstrate that our method significantly outperforms state-of-the-art techniques quality-wise in both novel view synthesis and relighting. The idea of progressive radiance distillation is not limited to Gaussian splatting. We show that it also has positive effects for prominently specular scenes when adapted to a mesh-based inverse rendering method. | 翻訳日:2024-08-15 12:53:17 公開日:2024-08-14 |
# 制御操作による言語間移動における語彙意味論の役割評価
Assessing the Role of Lexical Semantics in Cross-lingual Transfer through Controlled Manipulations ( http://arxiv.org/abs/2408.07599v1 ) ライセンス: Link先を確認 | Roy Ilani, Taelin Karidi, Omri Abend, | (参考訳) 言語間モデル転送は多くの設定で有効であるが、その動作条件についてはまだ理解が限られている。
本稿では,言語間移動における語彙意味論の役割を評価することに集中し,その影響を他の言語特性と比較する。
それぞれの言語特性を個別に検討し、英語と対象言語の違いが、英語の事前学習された表現空間に適応する能力にどのように影響するかを体系的に分析する。
対象言語の特定の特徴を模倣する方法で、英文を人工的に操作し、各操作が表現空間との整合性に及ぼす影響を報告する。
文字や単語の順序などの特性はアライメント品質に限られた影響しか与えないが、翻訳エントロピーの尺度を用いて定義する2言語間の語彙マッチングの程度は、それに大きな影響を及ぼすことを示す。
While cross-linguistic model transfer is effective in many settings, there is still limited understanding of the conditions under which it works. In this paper, we focus on assessing the role of lexical semantics in cross-lingual transfer, as we compare its impact to that of other language properties. Examining each language property individually, we systematically analyze how differences between English and a target language influence the capacity to align the language with an English pretrained representation space. We do so by artificially manipulating the English sentences in ways that mimic specific characteristics of the target language, and reporting the effect of each manipulation on the quality of alignment with the representation space. We show that while properties such as the script or word order only have a limited impact on alignment quality, the degree of lexical matching between the two languages, which we define using a measure of translation entropy, greatly affects it. | 翻訳日:2024-08-15 12:53:17 公開日:2024-08-14 |
# ディスタングルとデヌーズ:ビデオモーメント検索におけるコンテキストの不一致に対処する
Disentangle and denoise: Tackling context misalignment for video moment retrieval ( http://arxiv.org/abs/2408.07600v1 ) ライセンス: Link先を確認 | Kaijing Ma, Han Fang, Xianghao Zang, Chao Ban, Lanxiang Zhou, Zhongjiang He, Yongxiang Li, Hao Sun, Zerun Feng, Xingsong Hou, | (参考訳) Video Moment Retrievalは、自然言語クエリに従ってコンテキスト内ビデオのモーメントを見つけることを目的としており、モーダルグラウンドに欠かせないタスクである。
既存の手法は、全モーメント間のクロスモーダルな相互作用と、ビデオ理解のためのテキスト記述の強化に重点を置いている。
しかし、タイムライン全体にわたる不均一なセマンティックな分布とノイズの多い視覚的背景のため、すべての場所と常に対話することは理にかなっている。
本稿では,複雑な相関関係を解消し,無関係なダイナミクスをデノベートすることで正確なモーダル・コンテクスト・デノナイジング・ネットワーク(CDNet)を提案する。特に,大域的および微粒な相関関係に基づいてアライメントレベルを推定することにより,映像モーメントをデノベートするクエリ誘導意味的ディアンタングメント(QSD)を提案する。
問合せ関連オフセットの集合を学習することにより、協調した時空間の詳細の理解を深めるため、文脈認識型動的デノイズメント(CDD)を提案する。
公開ベンチマークでの大規模な実験により、提案したCDNetが最先端のパフォーマンスを達成することが示された。
Video Moment Retrieval, which aims to locate in-context video moments according to a natural language query, is an essential task for cross-modal grounding. Existing methods focus on enhancing the cross-modal interactions between all moments and the textual description for video understanding. However, constantly interacting with all locations is unreasonable because of uneven semantic distribution across the timeline and noisy visual backgrounds. This paper proposes a cross-modal Context Denoising Network (CDNet) for accurate moment retrieval by disentangling complex correlations and denoising irrelevant dynamics.Specifically, we propose a query-guided semantic disentanglement (QSD) to decouple video moments by estimating alignment levels according to the global and fine-grained correlation. A Context-aware Dynamic Denoisement (CDD) is proposed to enhance understanding of aligned spatial-temporal details by learning a group of query-relevant offsets. Extensive experiments on public benchmarks demonstrate that the proposed CDNet achieves state-of-the-art performances. | 翻訳日:2024-08-15 12:53:17 公開日:2024-08-14 |
# 非エルミタントポロジカルバスにおけるキラル延長光電子放出状態
Chiral-Extended Photon-Emitter Dressed States in Non-Hermitian Topological Baths ( http://arxiv.org/abs/2408.07603v1 ) ライセンス: Link先を確認 | Zhao-Fan Cai, Xin Wang, Zi-Xuan Liang, Tao Liu, Franco Nori, | (参考訳) 量子エミッターと非エルミート構造浴の相互作用は近年注目されている。
そこで本研究では,非エルミート位相浴に結合した量子エミッタの非局所散逸を受ける1次元Su-Schrieffer-Heegerフォトニックチェーンにおいて,従来と異なる量子光学挙動を予測した。
中間線間隙におけるエルミート様キラル境界状態と点間隙内のスキンモード様隠れ境界状態に加えて,特異なギャップ内キラルおよび拡張光子-エミッタ型服装状態が同定された。
これは、トポロジカルエッジローカライゼーションと非ヘルミタンスキンモードローカライゼーションと非ブロックバルクバウンダリー対応との競合によるものである。
さらに、2つのエミッタが同じ浴槽に結合された場合、そのようなギャップ内装状態は、浴槽の消散によってのみ、非相互の長距離エミッタ-エミッタ相互作用を仲介することができる。
我々の研究は、より豊富な量子光学現象と、非エルミート位相浴に結合された量子エミッタを用いたエキゾチック多体物理学を研究するための扉を開く。
The interplay of quantum emitters and non-Hermitian structured baths has received increasing attention in recent years. Here, we predict unconventional quantum optical behaviors of quantum emitters coupled to a non-Hermitian topological bath, which is realized in a 1D Su-Schrieffer-Heeger photonic chain subjected to nonlocal dissipation. In addition to the Hermitian-like chiral bound states in the middle line gap and skin-mode-like hidden bound states inside the point gap, we identify peculiar in-gap chiral and extended photon-emitter dressed states. This is due to the competition of topological-edge localization and non-Hermitian skin-mode localization in combination with the non-Bloch bulk-boundary correspondence. Furthermore, when two emitters are coupled to the same bath, such in-gap dressed states can mediate the nonreciprocal long-range emitter-emitter interactions, with the interaction range limited only by the dissipation of the bath. Our work opens the door to further study rich quantum optical phenomena and exotic many-body physics utilizing quantum emitters coupled to non-Hermitian topological baths. | 翻訳日:2024-08-15 12:53:17 公開日:2024-08-14 |
# Panacea+: 自動運転のためのパノラマ・制御可能なビデオ生成
Panacea+: Panoramic and Controllable Video Generation for Autonomous Driving ( http://arxiv.org/abs/2408.07605v1 ) ライセンス: Link先を確認 | Yuqing Wen, Yucheng Zhao, Yingfei Liu, Binyuan Huang, Fan Jia, Yanhui Wang, Chi Zhang, Tiancai Wang, Xiaoyan Sun, Xiangyu Zhang, | (参考訳) 自動運転の分野は、高品質なアノテートビデオトレーニングデータを必要としている。
本稿では,運転シーンにおける映像データを生成するための,強力で普遍的なフレームワークであるPanacea+を提案する。
これまでの研究の基盤として、パナセア+はマルチビューのノイズ先行機構と、一貫性の強化と解像度の向上のための超解像モジュールを採用している。
Panacea+から生成されたビデオサンプルは、3Dオブジェクトトラッキング、3Dオブジェクト検出、nuScenesとArgoverse 2データセットのレーン検出タスクなど、さまざまなデータセット上の幅広いタスクに大きく貢献している。
これらの結果は、Panacea+が自動運転に有用なデータ生成フレームワークであることを強く証明している。
The field of autonomous driving increasingly demands high-quality annotated video training data. In this paper, we propose Panacea+, a powerful and universally applicable framework for generating video data in driving scenes. Built upon the foundation of our previous work, Panacea, Panacea+ adopts a multi-view appearance noise prior mechanism and a super-resolution module for enhanced consistency and increased resolution. Extensive experiments show that the generated video samples from Panacea+ greatly benefit a wide range of tasks on different datasets, including 3D object tracking, 3D object detection, and lane detection tasks on the nuScenes and Argoverse 2 dataset. These results strongly prove Panacea+ to be a valuable data generation framework for autonomous driving. | 翻訳日:2024-08-15 12:53:17 公開日:2024-08-14 |
# WeKnow-RAG: Web検索と知識グラフを統合した検索拡張生成のための適応的アプローチ
WeKnow-RAG: An Adaptive Approach for Retrieval-Augmented Generation Integrating Web Search and Knowledge Graphs ( http://arxiv.org/abs/2408.07611v1 ) ライセンス: Link先を確認 | Weijian Xie, Xuefeng Liang, Yuhui Liu, Kaihua Ni, Hong Cheng, Zetian Hu, | (参考訳) 大規模言語モデル(LLM)は、適応的な知的エージェントの開発に大きく貢献し、人工知能(AGI)を実現する重要な方法として位置づけられている。
しかし、LCMは事実的に誤った情報を生成する傾向があり、しばしば信頼性を損なう「幻」コンテンツを生成するため、現実のシナリオに展開する上で深刻な課題となる。
外部データベースと情報検索機構を組み合わせることでLCMの強化が有効な方法である。
上記の課題に対処するために,Web検索と知識グラフを統合したWeKnow-RAGという新しい手法を提案する。
まず,知識グラフの構造化表現と高次ベクトル検索の柔軟性を組み合わせることで,LLM応答の精度と信頼性を向上させる。
WeKnow-RAGはドメイン固有の知識グラフを用いて様々なクエリやドメインを満足させ、スパース検索と密検索の両方を用いて多段階のWebページ検索技術を用いて、事実情報や複雑な推論タスクの性能を向上させる。
提案手法は,情報検索の効率と精度を効果的にバランスさせ,全体の検索プロセスを改善する。
最後に, LLMの自己評価機構を統合し, 回答の信頼性を評価する。
提案手法は,広範囲のオフライン実験やオンライン投稿において,その顕著な効果を証明している。
Large Language Models (LLMs) have greatly contributed to the development of adaptive intelligent agents and are positioned as an important way to achieve Artificial General Intelligence (AGI). However, LLMs are prone to produce factually incorrect information and often produce "phantom" content that undermines their reliability, which poses a serious challenge for their deployment in real-world scenarios. Enhancing LLMs by combining external databases and information retrieval mechanisms is an effective path. To address the above challenges, we propose a new approach called WeKnow-RAG, which integrates Web search and Knowledge Graphs into a "Retrieval-Augmented Generation (RAG)" system. First, the accuracy and reliability of LLM responses are improved by combining the structured representation of Knowledge Graphs with the flexibility of dense vector retrieval. WeKnow-RAG then utilizes domain-specific knowledge graphs to satisfy a variety of queries and domains, thereby improving performance on factual information and complex reasoning tasks by employing multi-stage web page retrieval techniques using both sparse and dense retrieval methods. Our approach effectively balances the efficiency and accuracy of information retrieval, thus improving the overall retrieval process. Finally, we also integrate a self-assessment mechanism for the LLM to evaluate the trustworthiness of the answers it generates. Our approach proves its outstanding effectiveness in a wide range of offline experiments and online submissions. | 翻訳日:2024-08-15 12:53:17 公開日:2024-08-14 |
# リモートセンシングステレオマッチングネットワークの一般化のための重要な要因の再考
Rethinking the Key Factors for the Generalization of Remote Sensing Stereo Matching Networks ( http://arxiv.org/abs/2408.07613v1 ) ライセンス: Link先を確認 | Liting Jiang, Feng Wang, Wenyi Zhang, Peifeng Li, Hongjian You, Yuming Xiang, | (参考訳) 3次元再構成の重要なステップであるステレオマッチングは、リモートセンシング画像の強力な特徴表現のため、ディープラーニングに完全に移行している。
しかし, ステレオマッチングタスクの真理は高価なLiDARデータに依存しているため, 教師あり学習に十分なサンプルを得ることは困難である。
本稿では,異なるセンサやシナリオからのクロスドメインデータに対するステレオマッチングネットワークの一般化能力を改善するために,3つの視点から重要なトレーニング要因について検討する。
1) トレーニングデータセットの選択には, 同一センサのデータを活用するのではなく, テストセットと類似の地域目標分布を持つデータを選択することが重要である。
2) モデル構造では, 異なる大きさの特徴に柔軟に適応するカスケード構造が好まれる。
(3)教師なし手法は教師なし手法よりも一般化し,教師なし早期戦略を設計し,事前訓練した重みを基礎として最良のモデルを維持する。
本研究は, 一般化性能のよい非教師なしステレオマッチングネットワークを提示する上で, 先行研究を支援するため, 広範囲な実験を行った。
ソースコードとデータセットをhttps://github.com/Elenairene/RKF_RSSMでリリースし、その結果を再現し、今後の作業を促進する。
Stereo matching, a critical step of 3D reconstruction, has fully shifted towards deep learning due to its strong feature representation of remote sensing images. However, ground truth for stereo matching task relies on expensive airborne LiDAR data, thus making it difficult to obtain enough samples for supervised learning. To improve the generalization ability of stereo matching networks on cross-domain data from different sensors and scenarios, in this paper, we dedicate to study key training factors from three perspectives. (1) For the selection of training dataset, it is important to select data with similar regional target distribution as the test set instead of utilizing data from the same sensor. (2) For model structure, cascaded structure that flexibly adapts to different sizes of features is preferred. (3) For training manner, unsupervised methods generalize better than supervised methods, and we design an unsupervised early-stop strategy to help retain the best model with pre-trained weights as the basis. Extensive experiments are conducted to support the previous findings, on the basis of which we present an unsupervised stereo matching network with good generalization performance. We release the source code and the datasets at https://github.com/Elenairene/RKF_RSSM to reproduce the results and encourage future work. | 翻訳日:2024-08-15 12:53:17 公開日:2024-08-14 |
# 微分プライバシーの実践的考察
Practical Considerations for Differential Privacy ( http://arxiv.org/abs/2408.07614v1 ) ライセンス: Link先を確認 | Kareem Amin, Alex Kulesza, Sergei Vassilvitskii, | (参考訳) 差分プライバシーは統計データリリースのゴールドスタンダードである。
政府、企業、学者が利用し、その数学的に厳格な保証と、攻撃者の強さと知識に関する最悪の仮定によって、プライバシーを推論するための堅牢で魅力的なフレームワークとなっている。
しかし、目覚ましい成功にもかかわらず、差分プライバシーは日々のデータ利用やデータ保護において広く普及していない。
本研究では,その邪魔となる現実的な障害について検討する。
Differential privacy is the gold standard for statistical data release. Used by governments, companies, and academics, its mathematically rigorous guarantees and worst-case assumptions on the strength and knowledge of attackers make it a robust and compelling framework for reasoning about privacy. However, even with landmark successes, differential privacy has not achieved widespread adoption in everyday data use and data protection. In this work we examine some of the practical obstacles that stand in the way. | 翻訳日:2024-08-15 12:53:17 公開日:2024-08-14 |
# 密度行列による潜時異常検出
Latent Anomaly Detection Through Density Matrices ( http://arxiv.org/abs/2408.07623v1 ) ライセンス: Link先を確認 | Joseph Gallego-Mejia, Oscar Bustos-Brinez, Fabio A. González, | (参考訳) 本稿では,密度推定に基づく異常検出手法の頑健な統計的原理と深層学習モデルの表現学習能力を組み合わせた,新しい異常検出フレームワークを提案する。
本手法は,適応的なフーリエ特徴と密度行列に基づく密度推定モデルを用いた浅層アプローチと,データの低次元表現を学習するためにオートエンコーダを統合する深層アプローチの2つの異なるバージョンで提案される。
新しいサンプルの密度を推定することにより、どちらの手法も正規度スコアを見つけることができる。
この手法はエンドツーエンドのアーキテクチャにシームレスに統合することができ、勾配に基づく最適化手法を用いて最適化することができる。
その性能を評価するため、様々なベンチマークデータセットで広範な実験を行った。
その結果,本手法の両バージョンは,他の最先端手法と比較して,同等あるいは優れた性能が得られることを示した。
特に、浅いアプローチは、より少ない次元のデータセットで、一方、オートエンコーダベースのアプローチでは、より高い次元のデータセットでのパフォーマンスが向上している。
This paper introduces a novel anomaly detection framework that combines the robust statistical principles of density-estimation-based anomaly detection methods with the representation-learning capabilities of deep learning models. The method originated from this framework is presented in two different versions: a shallow approach employing a density-estimation model based on adaptive Fourier features and density matrices, and a deep approach that integrates an autoencoder to learn a low-dimensional representation of the data. By estimating the density of new samples, both methods are able to find normality scores. The methods can be seamlessly integrated into an end-to-end architecture and optimized using gradient-based optimization techniques. To evaluate their performance, extensive experiments were conducted on various benchmark datasets. The results demonstrate that both versions of the method can achieve comparable or superior performance when compared to other state-of-the-art methods. Notably, the shallow approach performs better on datasets with fewer dimensions, while the autoencoder-based approach shows improved performance on datasets with higher dimensions. | 翻訳日:2024-08-15 12:53:17 公開日:2024-08-14 |
# バッテリグラフネット : リチウムイオン電池(LiBs)寿命推定のための関係学習
Battery GraphNets : Relational Learning for Lithium-ion Batteries(LiBs) Life Estimation ( http://arxiv.org/abs/2408.07624v1 ) ライセンス: Link先を確認 | Sakhinana Sagar Srinivas, Rajat Kumar Sarkar, Venkataramana Runkana, | (参考訳) バッテリー寿命推定は、バッテリー性能を最適化し、バッテリー駆動システムの効率と信頼性を向上させるために最小限の劣化を保証するために重要である。
リチウムイオン電池(LiBs)の残留実用寿命(RUL)を予測する既存の方法は、非線形劣化軌跡をモデル化するために電池パラメータの関連性を無視している。
本稿では、複雑な相互作用を捉えるために、電池パラメータ間で独立した依存グラフ構造を組み込むことを共同で学習するBattery GraphNetsフレームワークと、RUL予後のための固有のバッテリ劣化をモデル化するためのグラフ学習アルゴリズムを提案する。
提案手法は,市販のバッテリデータセットにおいて,いくつかの一般的な手法よりも優れた性能を示し,SOTA性能を実現する。
本研究は,我々のアプローチの有効性を支えるためのアブレーション研究を報告する。
Battery life estimation is critical for optimizing battery performance and guaranteeing minimal degradation for better efficiency and reliability of battery-powered systems. The existing methods to predict the Remaining Useful Life(RUL) of Lithium-ion Batteries (LiBs) neglect the relational dependencies of the battery parameters to model the nonlinear degradation trajectories. We present the Battery GraphNets framework that jointly learns to incorporate a discrete dependency graph structure between battery parameters to capture the complex interactions and the graph-learning algorithm to model the intrinsic battery degradation for RUL prognosis. The proposed method outperforms several popular methods by a significant margin on publicly available battery datasets and achieves SOTA performance. We report the ablation studies to support the efficacy of our approach. | 翻訳日:2024-08-15 12:53:17 公開日:2024-08-14 |
# ニューラル量子状態とピーク分子波関数:カースか祝福か?
Neural Quantum States and Peaked Molecular Wave Functions: Curse or Blessing? ( http://arxiv.org/abs/2408.07625v1 ) ライセンス: Link先を確認 | Aleksei Malyshev, Markus Schmitt, A. I. Lvovsky, | (参考訳) ニューラル量子状態の分野は、最近大きな進歩を経験し、計算量子多体物理学の競争ツールとなった。
しかしながら、これまでの最大の成果は主にスピン系の相互作用に関するものであるが、量子化学の用途はまだ実証されていない。
2つの主な合併症は、サンプリングを妨げる分子波関数のピーク構造と、より大きな分子サイズへのスケーリングを妨げる第2の量子化されたハミルトニアンにおける多くの用語である。
本稿では,これらの問題を共同で解決し,ピーク構造がより効率的な計算の鍵となる可能性について論じる。
具体的には、置換のない自己回帰サンプリングのための新しいアルゴリズムと、局所エネルギーの計算的に安価なサロゲートを計算する手順を導入する。
我々は、確率的再構成最適化手法のカスタム修正と高度に最適化されたGPU実装でそれらを補完する。
その結果、我々の計算ではリソースが大幅に少なくなり、以前の計算よりも桁違いのスピードアップが要求される。
1つのGPU上で、最大118キュービットの分子を探索し、ヒルベルト空間の 'golden Standard''' CCSD(T) ベンチマークを$\sim 10^{15}$ Slater determinants で上回った。
我々の研究は、量子化学計算に挑戦するNQSの可能性を強調し、将来の手法開発に有利な土台となると信じている。
The field of neural quantum states has recently experienced a tremendous progress, making them a competitive tool of computational quantum many-body physics. However, their largest achievements to date mostly concern interacting spin systems, while their utility for quantum chemistry remains yet to be demonstrated. Two main complications are the peaked structure of the molecular wave functions, which impedes sampling, and large number of terms in second quantised Hamiltonians, which hinders scaling to larger molecule sizes. In this paper we address these issues jointly and argue that the peaked structure might actually be key to drastically more efficient calculations. Specifically, we introduce a novel algorithm for autoregressive sampling without replacement and a procedure to calculate a computationally cheaper surrogate for the local energy. We complement them with a custom modification of the stochastic reconfiguration optimisation technique and a highly optimised GPU implementation. As a result, our calculations require substantially less resources and exhibit more than order of magnitude speedup compared to the previous works. On a single GPU we study molecules comprising up to 118 qubits and outperform the ``golden standard'' CCSD(T) benchmark in Hilbert spaces of $\sim 10^{15}$ Slater determinants, which is orders of magnitude larger than what was previously achieved. We believe that our work underscores the prospect of NQS for challenging quantum chemistry calculations and serves as a favourable ground for the future method development. | 翻訳日:2024-08-15 12:53:17 公開日:2024-08-14 |
# 資源制限条件下での強化学習によるHIV患者エンゲージメントの最適化
Optimizing HIV Patient Engagement with Reinforcement Learning in Resource-Limited Settings ( http://arxiv.org/abs/2408.07629v1 ) ライセンス: Link先を確認 | África Periáñez, Kathrin Schmitz, Lazola Makhupula, Moiz Hassan, Moeti Moleko, Ana Fernández del Río, Ivan Nazarov, Aditya Rastogi, Dexian Tang, | (参考訳) 証拠に基づく臨床意思決定の支援を提供することで、デジタルツールと電子健康記録は患者の管理に革命をもたらす可能性がある。
これらのツールがAIと統合されると、パーソナライズされたサポートと適応的な介入を提供し、コミュニティヘルスワーカー(CHW)と医療施設を効果的に結びつけることができる。
CHARM(Community Health Access & Resource Management)は、CHWのためのAIネイティブモバイルアプリである。
Causal Foundry(CF)とmas2mothers(m2m)の協力によって開発されたCHARMは、ケース管理の合理化、学習の強化、コミュニケーションの改善によって、主に地元の女性であるCHWに権限を与える。
本稿では,CHARMの発展,統合,および今後の強化学習に基づく適応的介入について詳述する。
By providing evidence-based clinical decision support, digital tools and electronic health records can revolutionize patient management, especially in resource-poor settings where fewer health workers are available and often need more training. When these tools are integrated with AI, they can offer personalized support and adaptive interventions, effectively connecting community health workers (CHWs) and healthcare facilities. The CHARM (Community Health Access & Resource Management) app is an AI-native mobile app for CHWs. Developed through a joint partnership of Causal Foundry (CF) and mothers2mothers (m2m), CHARM empowers CHWs, mainly local women, by streamlining case management, enhancing learning, and improving communication. This paper details CHARM's development, integration, and upcoming reinforcement learning-based adaptive interventions, all aimed at enhancing health worker engagement, efficiency, and patient outcomes, thereby enhancing CHWs' capabilities and community health. | 翻訳日:2024-08-15 12:53:17 公開日:2024-08-14 |
# 公平かつ厳密な評価に向けて:過度フィードバックを伴うトップN勧告タスクのハイパーパラメータ最適化
Towards Fair and Rigorous Evaluations: Hyperparameter Optimization for Top-N Recommendation Task with Implicit Feedback ( http://arxiv.org/abs/2408.07630v1 ) ライセンス: Link先を確認 | Hui Fang, Xu Feng, Lu Qin, Zhu Sun, | (参考訳) インターネットの普及により、膨大な量のデータが収集され、情報過負荷の問題が発生している。
推薦システムは,ユーザの好みや履歴データに基づいたパーソナライズされたレコメンデーションを提供することによって,この問題の解決策として浮上している。
しかし、レコメンデーションモデルがますます複雑化するにつれて、異なるモデルに最適なハイパーパラメータの組み合わせを見つけることが課題となっている。
高次元ハイパーパラメータ探索空間は研究者に多くの課題をもたらし、ハイパーパラメータ設定の開示の失敗は研究結果の再現性を阻害する可能性がある。
本稿では,Top-Nの暗黙的推薦問題について検討し,ハイパーパラメータ最適化アルゴリズムを用いた比較実験でよく用いられるベンチマーク推薦アルゴリズムの最適化に焦点をあてる。
提案手法は,7種類のハイパーパラメータ探索アルゴリズムを用いて,3つのデータセットに対して6つのコモンレコメンデーションアルゴリズムを微調整する,公正比較の原理に従う研究手法を提案する。
我々は,様々な種類のデータセットに対する様々な推薦アルゴリズムに対する最適なハイパーパラメータ探索アルゴリズムを,その後の研究の参考として同定した。
本研究は,ハイパーパラメータ最適化に基づくリコメンデータシステムにおけるアルゴリズム研究に寄与し,比較のための妥当な基礎を提供する。
The widespread use of the internet has led to an overwhelming amount of data, which has resulted in the problem of information overload. Recommender systems have emerged as a solution to this problem by providing personalized recommendations to users based on their preferences and historical data. However, as recommendation models become increasingly complex, finding the best hyperparameter combination for different models has become a challenge. The high-dimensional hyperparameter search space poses numerous challenges for researchers, and failure to disclose hyperparameter settings may impede the reproducibility of research results. In this paper, we investigate the Top-N implicit recommendation problem and focus on optimizing the benchmark recommendation algorithm commonly used in comparative experiments using hyperparameter optimization algorithms. We propose a research methodology that follows the principles of a fair comparison, employing seven types of hyperparameter search algorithms to fine-tune six common recommendation algorithms on three datasets. We have identified the most suitable hyperparameter search algorithms for various recommendation algorithms on different types of datasets as a reference for later study. This study contributes to algorithmic research in recommender systems based on hyperparameter optimization, providing a fair basis for comparison. | 翻訳日:2024-08-15 12:43:33 公開日:2024-08-14 |
# 深い分子理解を伴うSMILES-to-Pharmacokinetics Diffusionモデル
Drug Discovery SMILES-to-Pharmacokinetics Diffusion Models with Deep Molecular Understanding ( http://arxiv.org/abs/2408.07636v1 ) ライセンス: Link先を確認 | Bing Hu, Anita Layton, Helen Chen, | (参考訳) 人工知能(AI)は、薬物開発におけるあらゆる段階において使われるようになっている。
薬物発見AIに直面する課題の1つは、薬物薬物動態(PK)データセットが互いに独立して収集されることが多く、重複が限定され、データが重複する頻度が生じることである。
データスパーシリティは、多薬、薬物の組み合わせ研究、高スループットスクリーニングなどの研究課題に答えようとする研究者にとって、データのキュレーションを困難にしている。
SMILES入力に条件付きPKターゲット特性の配列を生成することができる新しいSMILES-to-Pharmacokinetic (S2PK)拡散モデルであるImagandを提案する。
Imagandで生成した合成PKデータは,実データの一変量分布と二変量分布によく似ており,下流タスクの性能向上を図っている。
Imagandは、データの重複する空間に対する有望なソリューションであり、研究者は薬物発見研究のためのリガンドPKデータを効率的に生成することができる。
コードは \url{https://github.com/bing1100/Imagand} で入手できる。
Artificial intelligence (AI) is increasingly used in every stage of drug development. One challenge facing drug discovery AI is that drug pharmacokinetic (PK) datasets are often collected independently from each other, often with limited overlap, creating data overlap sparsity. Data sparsity makes data curation difficult for researchers looking to answer research questions in poly-pharmacy, drug combination research, and high-throughput screening. We propose Imagand, a novel SMILES-to-Pharmacokinetic (S2PK) diffusion model capable of generating an array of PK target properties conditioned on SMILES inputs. We show that Imagand-generated synthetic PK data closely resembles real data univariate and bivariate distributions, and improves performance for downstream tasks. Imagand is a promising solution for data overlap sparsity and allows researchers to efficiently generate ligand PK data for drug discovery research. Code is available at \url{https://github.com/bing1100/Imagand}. | 翻訳日:2024-08-15 12:43:33 公開日:2024-08-14 |
# 階層的ワーキングメモリと新しいマジックナンバー
Hierarchical Working Memory and a New Magic Number ( http://arxiv.org/abs/2408.07637v1 ) ライセンス: Link先を確認 | Weishun Zhong, Mikhail Katkov, Misha Tsodyks, | (参考訳) 非常に限られた作業メモリ(典型的には4つの項目)は、感覚情報のストリームを同時に処理するという私たちの日常経験とは対照的です。
この格差は、ワーキングメモリが情報をチャンクのようなコンパクトな表現に整理できることを示しているが、その基盤となる神経機構はほとんど不明である。
本稿では、動作記憶のシナプス理論の枠組みの中でチャンキングを行うための繰り返しニューラルネットワークモデルを提案する。
その結果, ネットワークは刺激群を選択的に抑制することにより, チャンク内の刺激群を維持・回収できることがわかった。
さらに,本モデルでは,階層的チャンキングにより作業メモリ内の階層的表現を動的に構築可能であることを示す。
提案機構の結果として,チャンキングが実行されない場合にのみ,動作メモリから格納および取得可能なアイテム数に新たな制限が課せられる。
てんかん患者の単ユニット反応を解析し,言語教材を用いた記憶実験を行い,本モデルからの予測を確認した。
我々の研究は、認知に不可欠な脳内の情報のオンザフライ組織を理解するための、概念的で分析的な枠組みを提供する。
The extremely limited working memory span, typically around four items, contrasts sharply with our everyday experience of processing much larger streams of sensory information concurrently. This disparity suggests that working memory can organize information into compact representations such as chunks, yet the underlying neural mechanisms remain largely unknown. Here, we propose a recurrent neural network model for chunking within the framework of the synaptic theory of working memory. We showed that by selectively suppressing groups of stimuli, the network can maintain and retrieve the stimuli in chunks, hence exceeding the basic capacity. Moreover, we show that our model can dynamically construct hierarchical representations within working memory through hierarchical chunking. A consequence of this proposed mechanism is a new limit on the number of items that can be stored and subsequently retrieved from working memory, depending only on the basic working memory capacity when chunking is not invoked. Predictions from our model were confirmed by analyzing single-unit responses in epileptic patients and memory experiments with verbal material. Our work provides a novel conceptual and analytical framework for understanding the on-the-fly organization of information in the brain that is crucial for cognition. | 翻訳日:2024-08-15 12:43:33 公開日:2024-08-14 |
# アインシュタイン-ポドルスキー-ローゼンパラドックスとベル定理
The Einstein-Podolsky-Rosen paradox and the Bell theorem ( http://arxiv.org/abs/2408.07639v1 ) ライセンス: Link先を確認 | Ujjwal Sen, | (参考訳) ここでは「局所性」と「現実性」が共に量子論と矛盾することを示すベルの定理について議論する。
We will discuss here the Bell theorem, which shows that "locality" and "reality" are together inconsistent with quantum theory. | 翻訳日:2024-08-15 12:43:33 公開日:2024-08-14 |
# ターゲット型アドバイザリーを用いた非拘束顔認識の強化
Boosting Unconstrained Face Recognition with Targeted Style Adversary ( http://arxiv.org/abs/2408.07642v1 ) ライセンス: Link先を確認 | Mohammad Saeed Ebrahimi Saadabadi, Sahar Rahimi Malakshan, Seyed Rasoul Hosseini, Nasser M. Nasrabadi, | (参考訳) ディープフェース認識モデルは優れたパフォーマンスを示してきたが、トレーニングデータ以外の領域からの入力に苦戦することが多い。
最近の試みは、画像生成モジュールの計算コストが高く、本質的に困難な画像空間拡張に頼ることで、トレーニングセットの拡大を目指している。
直交方向において,ラベル付き集合とラベルなし集合のインスタンスレベルの特徴統計を補間することにより,トレーニングデータを拡張するための簡易かつ効果的な方法を提案する。
提案手法はTSA(Targeted Style Adversary)と呼ばれ,2つの観測結果から得られた。
i)入力ドメインは特徴統計に反映され、
(II)顔認識モデルの性能はスタイル情報に影響される。
ラベルのないスタイルへのシフトは、挑戦的なトレーニングインスタンスを暗黙的に合成する。
我々は、ラベル付きインスタンスの固有のアイデンティティ関連情報を保存するために、フレームワークを制約する認識可能性指標を考案した。
提案手法の有効性は,トレーニング速度が70倍近く,メモリ消費が40倍近く向上した上で,制約のないベンチマークで評価し,競合他社と同等あるいは同等であることを示した。
While deep face recognition models have demonstrated remarkable performance, they often struggle on the inputs from domains beyond their training data. Recent attempts aim to expand the training set by relying on computationally expensive and inherently challenging image-space augmentation of image generation modules. In an orthogonal direction, we present a simple yet effective method to expand the training data by interpolating between instance-level feature statistics across labeled and unlabeled sets. Our method, dubbed Targeted Style Adversary (TSA), is motivated by two observations: (i) the input domain is reflected in feature statistics, and (ii) face recognition model performance is influenced by style information. Shifting towards an unlabeled style implicitly synthesizes challenging training instances. We devise a recognizability metric to constraint our framework to preserve the inherent identity-related information of labeled instances. The efficacy of our method is demonstrated through evaluations on unconstrained benchmarks, outperforming or being on par with its competitors while offering nearly a 70\% improvement in training speed and 40\% less memory consumption. | 翻訳日:2024-08-15 12:43:33 公開日:2024-08-14 |
# Rydberg dipolesのツイーザーアレイの緩和ダイナミクスと相関の伝播に及ぼす不規則および異方性相互作用の影響
Influence of disordered and anisotropic interactions on relaxation dynamics and propagation of correlations in tweezer arrays of Rydberg dipoles ( http://arxiv.org/abs/2408.07643v1 ) ライセンス: Link先を確認 | Kaustav Mukherjee, Grant W. Biedermann, Robert J. Lewis-Swan, | (参考訳) 我々は,不規則な1次元および2次元のリドベルク双極子の非等方的相互作用を特徴とする非平衡ダイナミクスを理論的に検討した。
集合的に偏極化した初期状態から、動的位相図をマッピングし、相互作用障害の程度と異方性の両方に強く依存する初期集合秩序の規則的緩和と不均一に緩やかな緩和の間の交叉を同定する。
さらに, 緩やかな緩和の仕組みは, 長い時間でも短距離に留まった相関関係のサブ弾道的伝播によって特徴づけられることがわかった。
本研究は,従来の理論的研究を超越した相互作用ダイポールの疎結合クラスタに基づく解析モデルを構築し,複数の緩和時間スケールを同定する。
我々の発見は、極性分子、凍結したRydbergガス、NV中心など、自然に乱れた双極子相互作用を特徴とする様々な量子科学プラットフォームに関係している。
We theoretically investigate the out-of-equilibrium dynamics of irregular one- and two-dimensional arrays of Rydberg dipoles featuring spatially anisotropic interactions. Starting from a collectively polarized initial state, we map out the dynamical phase diagram and identify a crossover between regimes of regular and anomalously slow relaxation of the initial collective order, that strongly depends on both the degree of interaction disorder and anisotropy. In addition, we find the regime of slow relaxation is characterized by a sub-ballistic propagation of correlations that remained confined to short distances even at long times. To explain our findings we develop an analytic model based on decoupled clusters of interacting dipoles that goes beyond prior theoretical works and enables us to identify multiple relaxation timescales. Our findings can be relevant for a wide variety of quantum science platforms naturally featuring disordered dipolar interactions, including polar molecules, frozen Rydberg gases and NV centers. | 翻訳日:2024-08-15 12:43:33 公開日:2024-08-14 |
# Adaptive Behavioral AI: 薬局サービスを強化するための強化学習
Adaptive Behavioral AI: Reinforcement Learning to Enhance Pharmacy Services ( http://arxiv.org/abs/2408.07647v1 ) ライセンス: Link先を確認 | Ana Fernández del Río, Michael Brennan Leong, Paulo Saraiva, Ivan Nazarov, Aditya Rastogi, Moiz Hassan, Dexian Tang, África Periáñez, | (参考訳) 薬局は医療システム、特に低所得国や中所得国において重要である。
適切な行動介入やナッジを持つ薬剤師の調達は、彼らのスキル、公衆衛生意識、薬局の在庫管理を強化し、最終的に患者に利益をもたらす必須薬へのアクセスを確保する。
モバイルヘルスアプリケーションを通じて個人化された行動介入を行うための強化学習運用システムを導入する。
インドネシアのB2B電子商取引を含む薬剤師向けのオールインワンアプリであるSwipeRxで実施した一連の実験について、その可能性を説明する。
提案手法は、医療提供を最適化するために薬局の業務を超えて幅広い応用が可能である。
Pharmacies are critical in healthcare systems, particularly in low- and middle-income countries. Procuring pharmacists with the right behavioral interventions or nudges can enhance their skills, public health awareness, and pharmacy inventory management, ensuring access to essential medicines that ultimately benefit their patients. We introduce a reinforcement learning operational system to deliver personalized behavioral interventions through mobile health applications. We illustrate its potential by discussing a series of initial experiments run with SwipeRx, an all-in-one app for pharmacists, including B2B e-commerce, in Indonesia. The proposed method has broader applications extending beyond pharmacy operations to optimize healthcare delivery. | 翻訳日:2024-08-15 12:43:33 公開日:2024-08-14 |
# 3Dディエンス・キャプションのためのコンテクスト化されたラテンアグリゲーション
See It All: Contextualized Late Aggregation for 3D Dense Captioning ( http://arxiv.org/abs/2408.07648v1 ) ライセンス: Link先を確認 | Minjung Kim, Hyung Suk Lim, Seung Hwan Kim, Soonyoung Lee, Bumsoo Kim, Gunhee Kim, | (参考訳) 3D高密度キャプションは、オブジェクトを3Dシーンでローカライズし、各オブジェクトに対して記述文を生成するタスクである。
3D高密度キャプションにおける最近のアプローチでは、オブジェクト検出から手作りの部品を使わずにエンドツーエンドのパイプラインを構築するためのトランスフォーマー・エンコーダ・デコーダ・フレームワークが採用されている。
しかし、これらのアプローチは、単一のクエリ注意が、厳密な局所化されたオブジェクト領域とコンテキスト環境の両方を同時に見る必要があるという、矛盾する目的に苦慮している。
この課題を克服するために,SIA (See-It-All) は3次元高密度キャプションに係わるトランスフォーマーパイプラインであり,遅延アグリゲーションと呼ばれる新しいパラダイムを導入している。
SIAは、クエリ-コンテキストクエリとインスタンスクエリの2つのセットを同時にデコードする。
インスタンスクエリは、ローカライゼーションとオブジェクト属性の記述に焦点を当て、コンテキストクエリは、複数のオブジェクトまたはグローバルなシーン間の関係の領域を多目的にキャプチャし、その後、単純な距離ベースの測定によって(すなわち、遅延集約)集約する。
文脈化キャプション生成の質をさらに高めるため,周囲のコンテキスト,グローバル環境,オブジェクトインスタンスに基づいて,完全に情報を得たキャプションを生成する新しいアグリゲータを設計する。
最も広く使われている2つの3次元高密度キャプションデータセットに対する大規模な実験により,提案手法が従来の手法よりも大幅に改善されたことを示す。
3D dense captioning is a task to localize objects in a 3D scene and generate descriptive sentences for each object. Recent approaches in 3D dense captioning have adopted transformer encoder-decoder frameworks from object detection to build an end-to-end pipeline without hand-crafted components. However, these approaches struggle with contradicting objectives where a single query attention has to simultaneously view both the tightly localized object regions and contextual environment. To overcome this challenge, we introduce SIA (See-It-All), a transformer pipeline that engages in 3D dense captioning with a novel paradigm called late aggregation. SIA simultaneously decodes two sets of queries-context query and instance query. The instance query focuses on localization and object attribute descriptions, while the context query versatilely captures the region-of-interest of relationships between multiple objects or with the global scene, then aggregated afterwards (i.e., late aggregation) via simple distance-based measures. To further enhance the quality of contextualized caption generation, we design a novel aggregator to generate a fully informed caption based on the surrounding context, the global environment, and object instances. Extensive experiments on two of the most widely-used 3D dense captioning datasets demonstrate that our proposed method achieves a significant improvement over prior methods. | 翻訳日:2024-08-15 12:43:33 公開日:2024-08-14 |
# 高次元リワードを用いたオフポリティ強化学習
Off-Policy Reinforcement Learning with High Dimensional Reward ( http://arxiv.org/abs/2408.07660v1 ) ライセンス: Link先を確認 | Dong Neuck Lee, Michael R. Kosorok, | (参考訳) 従来の非政治強化学習(RL)は、スカラー報酬の最大化に焦点を当てている。
対照的に分布RL(DRL)は、ユークリッド空間における分布ベルマン作用素との戻り値の分布を研究し、有用性に対する高い柔軟な選択をもたらす。
本稿ではDRLの堅牢な理論的基礎を確立する。
報酬空間が無限次元可分バナッハ空間であっても、ベルマン作用素の縮約性を証明する。
さらに,高次元あるいは無限次元の戻り値の挙動を,低次元ユークリッド空間を用いて効果的に近似できることを示した。
これらの理論的知見を活かし、従来の強化学習手法を用いてこれまで難解であった問題に対処する新しいDRLアルゴリズムを提案する。
Conventional off-policy reinforcement learning (RL) focuses on maximizing the expected return of scalar rewards. Distributional RL (DRL), in contrast, studies the distribution of returns with the distributional Bellman operator in a Euclidean space, leading to highly flexible choices for utility. This paper establishes robust theoretical foundations for DRL. We prove the contraction property of the Bellman operator even when the reward space is an infinite-dimensional separable Banach space. Furthermore, we demonstrate that the behavior of high- or infinite-dimensional returns can be effectively approximated using a lower-dimensional Euclidean space. Leveraging these theoretical insights, we propose a novel DRL algorithm that tackles problems which have been previously intractable using conventional reinforcement learning approaches. | 翻訳日:2024-08-15 12:43:33 公開日:2024-08-14 |
# 調整強化復号:確率分布のToken-Level Adaptive Refiningによるディフェンディング
Alignment-Enhanced Decoding:Defending via Token-Level Adaptive Refining of Probability Distributions ( http://arxiv.org/abs/2408.07663v1 ) ライセンス: Link先を確認 | Quan Liu, Zhenhong Zhou, Longzhu He, Yi Liu, Wei Zhang, Sen Su, | (参考訳) 大規模な言語モデルはジェイルブレイク攻撃の影響を受けやすいため、有害なコンテンツが生成される可能性がある。
以前の防衛は入力の摂動や検査によってこれらのリスクを軽減するが、それらは競合する目標、すなわちアライメント障害の根本原因を無視している。
本稿では,アライメント・エンハンスメント・デコーディング(Alignment-Enhanced Decoding, AED)を提案する。
まず、アライメント障害の定量化と自己評価からのフィードバックを利用して、アライメント後のロジットを計算するために、コンペティティブ指標を定義した。
そして、AEDとアライメント後ロジットと元のロジットを適応的に組み合わせ、無害で有用な分布を得る。
その結果, 本手法は有用性を保ちながら安全アライメントを向上させることができる。
5つのモデルと4つの一般的なジェイルブレイク実験を行い、その結果、我々のアプローチの有効性を検証した。
コードはhttps://github.com/GIGABaozi/AED.gitで入手できる。
Large language models are susceptible to jailbreak attacks, which can result in the generation of harmful content. While prior defenses mitigate these risks by perturbing or inspecting inputs, they ignore competing objectives, the underlying cause of alignment failures. In this paper, we propose Alignment-Enhanced Decoding (AED), a novel defense that employs adaptive decoding to address the root causes of jailbreak issues. We first define the Competitive Index to quantify alignment failures and utilize feedback from self-evaluation to compute post-alignment logits. Then, AED adaptively combines AED and post-alignment logits with the original logits to obtain harmless and helpful distributions. Consequently, our method enhances safety alignment while maintaining helpfulness. We conduct experiments across five models and four common jailbreaks, with the results validating the effectiveness of our approach. Code is available at https://github.com/GIGABaozi/AED.git. | 翻訳日:2024-08-15 12:43:33 公開日:2024-08-14 |
# LLM, MLLM, その他におけるモデルマージ: 方法論, 理論, 応用, 機会
Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities ( http://arxiv.org/abs/2408.07666v1 ) ライセンス: Link先を確認 | Enneng Yang, Li Shen, Guibing Guo, Xingwei Wang, Xiaochun Cao, Jie Zhang, Dacheng Tao, | (参考訳) モデルマージは、生のトレーニングデータの収集を必要とせず、高価な計算を必要としない、機械学習コミュニティの効率的なエンパワーメント技術である。
モデルマージが様々な分野で普及するにつれて、利用可能なモデルマージテクニックを包括的に理解することが不可欠である。
しかし、これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
本調査では, モデルマージ手法と理論, 各種領域および環境への応用, 今後の研究方向性について概説する。
具体的には、まず、既存のモデルマージ手法を徹底的に議論する新しい分類学的アプローチを提案する。
次に,大規模言語モデル,マルチモーダルな大規模言語モデル,連続学習,マルチタスク学習,少数ショット学習などを含む10以上の機械学習サブフィールドにおけるモデルマージ手法の適用について論じる。
最後に、モデルマージの残りの課題を強調し、今後の研究方向性について議論する。
モデルマージに関する包括的な論文のリストは、 \url{https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications} で見ることができる。
Model merging is an efficient empowerment technique in the machine learning community that does not require the collection of raw training data and does not require expensive computation. As model merging becomes increasingly prevalent across various fields, it is crucial to understand the available model merging techniques comprehensively. However, there is a significant gap in the literature regarding a systematic and thorough review of these techniques. This survey provides a comprehensive overview of model merging methods and theories, their applications in various domains and settings, and future research directions. Specifically, we first propose a new taxonomic approach that exhaustively discusses existing model merging methods. Secondly, we discuss the application of model merging techniques in large language models, multimodal large language models, and 10+ machine learning subfields, including continual learning, multi-task learning, few-shot learning, etc. Finally, we highlight the remaining challenges of model merging and discuss future research directions. A comprehensive list of papers about model merging is available at \url{https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications}. | 翻訳日:2024-08-15 12:43:33 公開日:2024-08-14 |
# 深層学習 : EHRに基づく臨床データを用いた乳癌の将来リスク予測を最適化するためのグリッドサーチのためのヒューリスティックな3段階メカニズム
Deep Learning: a Heuristic Three-stage Mechanism for Grid Searches to Optimize the Future Risk Prediction of Breast Cancer Metastasis Using EHR-based Clinical Data ( http://arxiv.org/abs/2408.07673v1 ) ライセンス: Link先を確認 | Xia Jiang, Yijun Zhou, Chuhan Xu, Adam Brufsky, Alan Wells, | (参考訳) グリッドサーチは、多数のモデルのトレーニングとテストのコストで、ディープラーニングモデルの予測性能を最適化する効果的な方法である。
グリッド検索に関する課題は、時間管理である。
良い時間管理スキームがなければ、グリッド検索は、私たちの生涯で終わることのないミッションとして簡単にオフにできます。
本研究では,低予算グリッドサーチの実行時間を管理するためのヒューリスティックな3段階メカニズムと,5年,10年,15年の乳がん転移リスクを予測するモデル予測性能を改善するためのスイートスポットグリッドサーチ(SSGS)とランダムグリッドサーチ(RGS)戦略を提案する。
我々は、ディープフィードフォワードニューラルネットワーク(DFNN)モデルを開発し、グリッドサーチにより最適化する。
我々は3段階のメカニズムとSSGS, RGS戦略を適用して, 8サイクルのグリッドサーチを行う。
我々は、DFNNモデルハイパーパラメータの重要性を解釈するユニークなものを含む様々なSHAP分析を行う。
その結果,グリッド探索はモデル予測を大幅に改善できることがわかった。
その結果,5年,10年,15年の乳がん転移のリスク予測は,訓練したすべてのモデルの平均成績に対して,それぞれ18.6%,16.3%,17.3%向上した。
我々は、最高のモデル性能を示すだけでなく、適切なモデルを見つける能力やユニットグリッド検索時間など、様々な側面からグリッド検索を特徴付ける。
三段機構は効果的に機能した。
その結果、低予算のグリッドサーチが実現可能で管理可能となり、その間にモデル予測性能の改善に役立ちました。
SHAP分析では,乳癌の予後予測に重要な臨床リスク因子と,パフォーマンススコア予測に重要なDFNNモデルハイパーパラメータの両方を同定した。
A grid search, at the cost of training and testing a large number of models, is an effective way to optimize the prediction performance of deep learning models. A challenging task concerning grid search is the time management. Without a good time management scheme, a grid search can easily be set off as a mission that will not finish in our lifetime. In this study, we introduce a heuristic three-stage mechanism for managing the running time of low-budget grid searches, and the sweet-spot grid search (SSGS) and randomized grid search (RGS) strategies for improving model prediction performance, in predicting the 5-year, 10-year, and 15-year risk of breast cancer metastasis. We develop deep feedforward neural network (DFNN) models and optimize them through grid searches. We conduct eight cycles of grid searches by applying our three-stage mechanism and SSGS and RGS strategies. We conduct various SHAP analyses including unique ones that interpret the importance of the DFNN-model hyperparameters. Our results show that grid search can greatly improve model prediction. The grid searches we conducted improved the risk prediction of 5-year, 10-year, and 15-year breast cancer metastasis by 18.6%, 16.3%, and 17.3% respectively, over the average performance of all corresponding models we trained. We not only demonstrate best model performance but also characterize grid searches from various aspects such as their capabilities of discovering decent models and the unit grid search time. The three-stage mechanism worked effectively. It made our low-budget grid searches feasible and manageable, and in the meantime helped improve model prediction performance. Our SHAP analyses identified both clinical risk factors important for the prediction of future risk of breast cancer metastasis, and DFNN-model hyperparameters important to the prediction of performance scores. | 翻訳日:2024-08-15 12:43:33 公開日:2024-08-14 |
# スパイティング画像:視覚変換器におけるモジュラースーパーピクセルのトークン化
A Spitting Image: Modular Superpixel Tokenization in Vision Transformers ( http://arxiv.org/abs/2408.07680v1 ) ライセンス: Link先を確認 | Marius Aasan, Odd Kolbjørnsen, Anne Schistad Solberg, Adín Ramirez Rivera, | (参考訳) Vision Transformer (ViT) アーキテクチャは伝統的に、画像の意味的内容に依存しないトークン化のためのグリッドベースのアプローチを採用している。
本稿では,トークン化と特徴抽出を分離するモジュール型スーパーピクセルトークン化戦略を提案する。
オンラインコンテンツ認識トークン化とスケールおよび形状不変な位置埋め込みを用いて、パッチベースのトークン化とランダム化されたパーティションをベースラインとしてアプローチを対比する実験と改善を行う。
提案手法は属性の忠実度を著しく向上させ,ゼロショット非教師付き密集予測タスクに画素レベルの粒度を与えるとともに,分類タスクにおける予測性能を維持できることを示す。
我々のアプローチは、標準アーキテクチャと相容れないモジュラートークン化フレームワークを提供し、ViTの空間をより大規模な意味的にリッチなモデルに拡張する。
Vision Transformer (ViT) architectures traditionally employ a grid-based approach to tokenization independent of the semantic content of an image. We propose a modular superpixel tokenization strategy which decouples tokenization and feature extraction; a shift from contemporary approaches where these are treated as an undifferentiated whole. Using on-line content-aware tokenization and scale- and shape-invariant positional embeddings, we perform experiments and ablations that contrast our approach with patch-based tokenization and randomized partitions as baselines. We show that our method significantly improves the faithfulness of attributions, gives pixel-level granularity on zero-shot unsupervised dense prediction tasks, while maintaining predictive performance in classification tasks. Our approach provides a modular tokenization framework commensurable with standard architectures, extending the space of ViTs to a larger class of semantically-rich models. | 翻訳日:2024-08-15 12:43:33 公開日:2024-08-14 |
# エンド・ツー・エンドのセマンティック・ビデオ中心型マルチモーダル・アフェクティブ・コンピューティング
End-to-end Semantic-centric Video-based Multimodal Affective Computing ( http://arxiv.org/abs/2408.07694v1 ) ライセンス: Link先を確認 | Ronghao Lin, Ying Zeng, Sijie Mai, Haifeng Hu, | (参考訳) 人工知能(AGI)への道では、人間の愛情を理解することが機械の認知能力を高めるために不可欠である。
マルチモーダル・アフェクティブ・コンピューティング(MAC)は,よりセンセーショナルな人間とAIのインタラクションを実現するために注目されている。
しかし、従来の手法は主にマルチモーダル融合アルゴリズムの設計に特化しており、多様な前処理操作によって生じる意味的不均衡と、多モーダル基底真理と比較して異なるモダリティに含まれる不一致な愛情コンテンツによって引き起こされる意味的ミスマッチの2つの問題に悩まされている。
さらに、手動機能抽出器の使用により、複数のMACダウンストリームタスクのためのエンドツーエンドパイプラインの構築に失敗する。
上記の課題に対処するために,人間に触発されたビデオに対するマルチモーダルなセマンティック中心の愛情を計算するための,セマンティックMACという新しいエンドツーエンドフレームワークを提案する。
我々はまず,マルチモーダルデータ前処理とAffective Perceiverモジュールの設計において,事前学習したTransformerモデルを用いて,非モーダル感情情報をキャプチャする。
さらに,マルチモーダル表現学習を3つの方法で統合する意味中心型アプローチを提案する。
最後に、セマンティックMACは意味中心ラベルのガイダンスにおいて、特定のセマンティック表現と共有セマンティック表現を効果的に学習する。
提案手法は,4つのMACダウンストリームタスクにおいて,7つの公開データセットの最先端手法を超越していることを示す。
In the pathway toward Artificial General Intelligence (AGI), understanding human's affection is essential to enhance machine's cognition abilities. For achieving more sensual human-AI interaction, Multimodal Affective Computing (MAC) in human-spoken videos has attracted increasing attention. However, previous methods are mainly devoted to designing multimodal fusion algorithms, suffering from two issues: semantic imbalance caused by diverse pre-processing operations and semantic mismatch raised by inconsistent affection content contained in different modalities comparing with the multimodal ground truth. Besides, the usage of manual features extractors make they fail in building end-to-end pipeline for multiple MAC downstream tasks. To address above challenges, we propose a novel end-to-end framework named SemanticMAC to compute multimodal semantic-centric affection for human-spoken videos. We firstly employ pre-trained Transformer model in multimodal data pre-processing and design Affective Perceiver module to capture unimodal affective information. Moreover, we present a semantic-centric approach to unify multimodal representation learning in three ways, including gated feature interaction, multi-task pseudo label generation, and intra-/inter-sample contrastive learning. Finally, SemanticMAC effectively learn specific- and shared-semantic representations in the guidance of semantic-centric labels. Extensive experimental results demonstrate that our approach surpass the state-of-the-art methods on 7 public datasets in four MAC downstream tasks. | 翻訳日:2024-08-15 12:43:33 公開日:2024-08-14 |
# 最適解答集合の定量化
Quantifying over Optimum Answer Sets ( http://arxiv.org/abs/2408.07697v1 ) ライセンス: Link先を確認 | Giuseppe Mazzotta, Francesco Ricca, Mirek Truszczynski, | (参考訳) 多項式階層(PH)の問題に対するASPモデリングの自然な拡張を提供するために、ASP(Q)を用いた解集合プログラミング(Answer Set Programming with Quantifiers)が導入された。
しかし、ASP(Q)は、$\Sigma_n^p$(つまり$\Delta_{n+1}^p$)のオラクルへの多項式番号の呼び出しを必要とするエレガントでコンパクトな方法での符号化方法がない。
このような問題には特に最適化の問題が含まれる。
本稿では、コンポーネントプログラムが弱い制約を含むことができるASP(Q)の拡張を提案する。
弱制約は、定量化されたコンポーネントプログラム内の局所的な最適化を表現するためにも、グローバルな最適化基準をモデル化するためにも使用できる。
様々なアプリケーションシナリオを通して、新しいフォーマリズムのモデリング機能を紹介します。
さらに,その計算特性について検討し,制約の弱いASP(Q)プログラムの特徴を明らかにする。
Answer Set Programming with Quantifiers (ASP(Q)) has been introduced to provide a natural extension of ASP modeling to problems in the polynomial hierarchy (PH). However, ASP(Q) lacks a method for encoding in an elegant and compact way problems requiring a polynomial number of calls to an oracle in $\Sigma_n^p$ (that is, problems in $\Delta_{n+1}^p$). Such problems include, in particular, optimization problems. In this paper we propose an extension of ASP(Q), in which component programs may contain weak constraints. Weak constraints can be used both for expressing local optimization within quantified component programs and for modeling global optimization criteria. We showcase the modeling capabilities of the new formalism through various application scenarios. Further, we study its computational properties obtaining complexity results and unveiling non-obvious characteristics of ASP(Q) programs with weak constraints. | 翻訳日:2024-08-15 12:43:33 公開日:2024-08-14 |
# SigmaRL:運動計画のための多元強化学習フレームワーク
SigmaRL: A Sample-Efficient and Generalizable Multi-Agent Reinforcement Learning Framework for Motion Planning ( http://arxiv.org/abs/2408.07644v1 ) ライセンス: Link先を確認 | Jianye Xu, Pan Hu, Bassam Alrifaee, | (参考訳) 本稿では,SigmaRLというオープンソースの分散化フレームワークを導入し,多エージェント強化学習(RL)の標本効率と一般化の両立を図った。
ほとんどのRLエージェントは、特定のシナリオに焦点を絞って一般化する能力が限られており、通常、トレーニング中に見られる同様のまたは同じシナリオで評価される。
経験の再現や正規化など,これらの課題に対処する様々な手法が提案されている。
しかし、RLの観測設計がサンプル効率と一般化にどのように影響するかは、まだ未調査領域である。
このギャップに対処するために、ほとんどの交通シナリオに適用可能な一般的な特徴に着目し、情報深度観測を設計するための5つの戦略を提案する。
交差点上でこれらの戦略を用いてRLエージェントを訓練し、新しい交差点、オンランプ、ラウンドアバウトを含む、全く見えない交通シナリオの数値実験を通してそれらの一般化を評価する。
これらの情報深度観測を組み込むことで、トレーニング時間を1CPUで1時間未満に短縮し、評価結果から、我々のRLエージェントが効果的にゼロショット一般化できることが判明した。
コード:github.com/cas-lab-munich/SigmaRL
This paper introduces an open-source, decentralized framework named SigmaRL, designed to enhance both sample efficiency and generalization of multi-agent Reinforcement Learning (RL) for motion planning of connected and automated vehicles. Most RL agents exhibit a limited capacity to generalize, often focusing narrowly on specific scenarios, and are usually evaluated in similar or even the same scenarios seen during training. Various methods have been proposed to address these challenges, including experience replay and regularization. However, how observation design in RL affects sample efficiency and generalization remains an under-explored area. We address this gap by proposing five strategies to design information-dense observations, focusing on general features that are applicable to most traffic scenarios. We train our RL agents using these strategies on an intersection and evaluate their generalization through numerical experiments across completely unseen traffic scenarios, including a new intersection, an on-ramp, and a roundabout. Incorporating these information-dense observations reduces training times to under one hour on a single CPU, and the evaluation results reveal that our RL agents can effectively zero-shot generalize. Code: github.com/cas-lab-munich/SigmaRL | 翻訳日:2024-08-15 12:33:27 公開日:2024-08-14 |
# バルクを通した2量子最大エンタングル量子リンクの作成
Creating two-qudit maximally entangled quantum link through bulk ( http://arxiv.org/abs/2408.07649v1 ) ライセンス: Link先を確認 | Keshav Das Agarwal, Sudip Kumar Haldar, Aditi Sen De, | (参考訳) 我々は、相互作用するスピンスバルク(プロセッサ)と弱い結合を持つ遠方ノード間の最大絡み合う2量子リンクを作成するためのセットを設計する。
このような任意のスピン量子数の量子リンクは、システムが極低温で準備されているときに形成されることを示す。
We found that the Heisenberg and the bilinear-biquadratic (BBQ) spin-s models is the potential candidate to achieve the maximal entanglement in equilibrium。
平衡条件をなくすことで、バルク中の完全偏極状態とリンク中の適切なキュウディ状態が時間とともに進化し、近辺および次辺の相互作用を持つBBQハミルトニアンのように、非常に絡み合った状態を生成することを示す。
バルク内のサイト数が増加すると、動的に発生する最大の絡み合いも生じる。
さらに、ここで提示される静的および動的プロトコルは、バルクと接続のスピン量子数が等しくなくても効率的である。
We design a set-up for creating maximally entangled two-qudit links between distant nodes which are weakly coupled with interacting spin-s bulk (processor). We exhibit that such quantum links of arbitrary spin quantum number can be formed when the system is prepared at a very low temperature. We find that the Heisenberg and the bilinear-biquadratic (BBQ) spin-s models are the potential candidates to achieve the maximal entanglement in equilibrium. By eliminating the equilibrium requirement, we show that a completely polarized state in the bulk and a suitable qudit state in the link can evolve over time to produce a highly entangled state, as per the BBQ Hamiltonian with nearest- and next-nearest neighbor interactions. When the number of sites in the bulk grows, so does the maximum entanglement produced in dynamics. Further, both the static and the dynamical protocols presented here remain efficient even if the spin quantum numbers of the bulk and the connection are unequal. | 翻訳日:2024-08-15 12:33:27 公開日:2024-08-14 |
# Graph Triple Attention Network: 分離された視点
Graph Triple Attention Network: A Decoupled Perspective ( http://arxiv.org/abs/2408.07654v1 ) ライセンス: Link先を確認 | Xiaotang Wang, Yun Zhu, Haizhou Shi, Yongchao Liu, Chuntao Hong, | (参考訳) グラフトランスフォーマー(GT)は最近、長距離依存とグラフ帰納バイアスの両方を効果的にキャプチャすることで、グラフ領域で大きな成功を収めた。
しかし, これらの手法は, 1) 多視点情報(位置, 構造, 属性)を結合することにより, 伝搬過程の柔軟な利用と解釈可能性を妨げるマルチビューカオスという2つの大きな課題に直面している。
2) ローカルメッセージパッシングとグローバルアテンションの結合から生じるローカル・グローバル・カオスは,過度な適合と過剰なグローバル化の問題を引き起こす。
これらの課題に対処するために、我々はGTの高レベルな分離された視点を提案し、これらを3つの構成要素と2つの相互作用レベル(位置的注意、構造的注意、属性的注意)に分割し、局所的およびグローバルな相互作用と並行して扱う。
この分離された視点に基づいて、我々はDeGTAというグラフトリプルアテンションネットワークを設計し、多視点アテンションを別々に計算し、多視点ローカルおよびグローバル情報を適応的に統合する。
このアプローチには,解釈可能性の向上,フレキシブルな設計,ローカル情報とグローバル情報の適応的な統合という,3つの大きなメリットがある。
大規模な実験を通じて、DeGTAはノード分類やグラフ分類など、さまざまなデータセットやタスクにわたる最先端のパフォーマンスを達成する。
包括的アブレーション研究は、デカップリングが性能の向上と解釈可能性の向上に不可欠であることを示した。
私たちのコードは、https://github.com/wangxiaotang0906/DeGTAで利用可能です。
Graph Transformers (GTs) have recently achieved significant success in the graph domain by effectively capturing both long-range dependencies and graph inductive biases. However, these methods face two primary challenges: (1) multi-view chaos, which results from coupling multi-view information (positional, structural, attribute), thereby impeding flexible usage and the interpretability of the propagation process. (2) local-global chaos, which arises from coupling local message passing with global attention, leading to issues of overfitting and over-globalizing. To address these challenges, we propose a high-level decoupled perspective of GTs, breaking them down into three components and two interaction levels: positional attention, structural attention, and attribute attention, alongside local and global interaction. Based on this decoupled perspective, we design a decoupled graph triple attention network named DeGTA, which separately computes multi-view attentions and adaptively integrates multi-view local and global information. This approach offers three key advantages: enhanced interpretability, flexible design, and adaptive integration of local and global information. Through extensive experiments, DeGTA achieves state-of-the-art performance across various datasets and tasks, including node classification and graph classification. Comprehensive ablation studies demonstrate that decoupling is essential for improving performance and enhancing interpretability. Our code is available at: https://github.com/wangxiaotang0906/DeGTA | 翻訳日:2024-08-15 12:33:27 公開日:2024-08-14 |
# 不均一な語彙データに対する解釈可能なグラフニューラルネットワーク
Interpretable Graph Neural Networks for Heterogeneous Tabular Data ( http://arxiv.org/abs/2408.07661v1 ) ライセンス: Link先を確認 | Amr Alkhatib, Henrik Boström, | (参考訳) 表データのための多くの機械学習アルゴリズムはブラックボックスモデルを生成するため、ユーザーはモデル予測の背後にある理論的根拠を理解できない。
制約のない形式では、グラフニューラルネットワークはこのカテゴリに該当し、不均一なデータを扱う能力はさらに制限される。
これらの制約を克服するため、IGNH (Interpretable Graph Neural Network for Heterogeneous tabular data) と呼ばれる手法が提案され、分類的特徴と数値的特徴の両方を扱うと同時に、学習過程を制約し、予測とともに正確な特徴属性を生成する。
IGNHが提供した特徴属性は,ホック後に計算されたShapley値と一致していることを示す。
さらに、IGNHはグラフデータのための2つの強力な機械学習アルゴリズムであるRandom ForestsとTabNetを上回り、XGBoostと同等のパフォーマンスを達成した。
Many machine learning algorithms for tabular data produce black-box models, which prevent users from understanding the rationale behind the model predictions. In their unconstrained form, graph neural networks fall into this category, and they have further limited abilities to handle heterogeneous data. To overcome these limitations, an approach is proposed, called IGNH (Interpretable Graph Neural Network for Heterogeneous tabular data), which handles both categorical and numerical features, while constraining the learning process to generate exact feature attributions together with the predictions. A large-scale empirical investigation is presented, showing that the feature attributions provided by IGNH align with Shapley values that are computed post hoc. Furthermore, the results show that IGNH outperforms two powerful machine learning algorithms for tabular data, Random Forests and TabNet, while reaching a similar level of performance as XGBoost. | 翻訳日:2024-08-15 12:33:27 公開日:2024-08-14 |
# スピン1次元ダフィン・ケマー・ペティオー方程式の再検討:その構造と相互作用の慎重な選択に関する解析的研究
The spin-one Duffin-Kemmer-Petiau equation revisited: analytical study of its structure and a careful choice of interaction ( http://arxiv.org/abs/2408.07662v1 ) ライセンス: Link先を確認 | M. Baradaran, L. M. Nieto, L. P. de Oliveira, S. Zarrinkamar, | (参考訳) ダフィン・ケマー・ペティオー方程式は、非最小ベクトル相互作用に対するいわゆる自然(正規)および非自然(異常)パリティ状態を持つスピン1ボソンに対して研究される。
この方程式に関する知識の現状を説明するために、クーロン、ソフトコア、コーネル、クラッツァー、指数型相互作用など、よく知られた現象学的相互作用に対して、この枠組みの中で解析的に何が達成されるかについて、徹底的かつ簡潔な議論がなされている。
非指数の場合、この方程式は、選択された相互作用に依存するが、収束性、二重収束性、二重収束性のあるフン函数に関連して研究される。
さらに、様々なパリティ状態の慎重な処理の必要性を示すために、一般化されたクーロン相互作用のようなクラッツァー型ポテンシャルをリー代数的手法を用いて深く議論し、かなり明示的な方法で異常なパリティ状態の慎重な解析の必要性を示す。
得られたエネルギーは、クラインパラドックスの欠如とともに、異なる状態を明確に示すためにいくつかの図を用いて議論される。
最後に,今後の研究の方向性について論じる。
The Duffin-Kemmer-Petiau equation is investigated for spin one bosons with the so-called natural (normal) and unnatural (abnormal) parity states for non-minimal vector interactions. To illustrate the current state of knowledge about the equation, a thorough but concise discussion is made on what can be achieved analytically within this framework for well-known phenomenological interactions, including Coulomb, soft-core, Cornell, Kratzer, and exponential type interactions. In the non-exponential cases, the equation, depending on the chosen interaction, is studied in relation to the confluent, doubly-confluent, and biconfluent Heun functions. Furthermore, to show the need for careful treatment of various parity states, a Kratzer-type potential, such as a generalized Coulomb interaction, is discussed in depth using the Lie algebraic approach, showing the need for careful analysis of abnormal parity states in a fairly explicit way. The energies obtained are discussed using some figures to explicitly show the different regimes, as well as the absence of the Klein paradox. Finally, some directions for future work that would undoubtedly need to be explored in this field are discussed. | 翻訳日:2024-08-15 12:33:27 公開日:2024-08-14 |
# 振動場による電子の減速
Deceleration of electrons by an oscillating field ( http://arxiv.org/abs/2408.07664v1 ) ライセンス: Link先を確認 | O. V. Kibis, | (参考訳) 振動する電磁場の下での電子力学に対する量子補正は、周期的に駆動される量子系のフロケ理論の中で見られる。
磁場下で振動する電子による光子の放出がその前方運動の方向に対して非対称であることを示す。
それぞれの光子の放出は電子への運動量移動を伴うため、そのようなスクリュー放出は電子を減速させる量子リコイル力につながる。
レーザー照射により駆動される様々な電子系について、この現象の可能性を議論する。
Quantum corrections to electron dynamics under an oscillating electromagnetic field are found within the Floquet theory of periodically driven quantum systems. It is demonstrated that emission of photons by an electron oscillating under the field is asymmetric with respect to the direction of its forward movement. Since emission of each photon is accompanied by momentum transfer to the electron, such a skew emission leads to the quantum recoil force decelerating the electron. Possible manifestations of this phenomenon are discussed for various electronic systems driven by laser irradiation. | 翻訳日:2024-08-15 12:33:27 公開日:2024-08-14 |
# Spoken Stereoset: 音声大言語モデルにおける話者に対する社会的バイアスの評価について
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models ( http://arxiv.org/abs/2408.07665v1 ) ライセンス: Link先を確認 | Yi-Cheng Lin, Wei-Chih Chen, Hung-yi Lee, | (参考訳) 警告: この論文は不快な内容のテキストを含むかもしれない。
大規模言語モデル(LLM)は、音声などのマルチモーダルデータを含む様々なタスクにおいて顕著なパフォーマンスを実現している。
しかしながら、これらのモデルはトレーニングデータの性質からしばしばバイアスを示す。
最近、より多くの音声大言語モデル(SLLM)が出現し、これらのバイアスに対処する緊急の必要性が強調されている。
本研究では、SLLMにおける社会的バイアスを評価するために特別に設計されたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
私たちの実験では、パフォーマンスとバイアスレベルに関する重要な洞察が示されています。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
Warning: This paper may contain texts with uncomfortable content. Large Language Models (LLMs) have achieved remarkable performance in various tasks, including those involving multimodal data like speech. However, these models often exhibit biases due to the nature of their training data. Recently, more Speech Large Language Models (SLLMs) have emerged, underscoring the urgent need to address these biases. This study introduces Spoken Stereoset, a dataset specifically designed to evaluate social biases in SLLMs. By examining how different models respond to speech from diverse demographic groups, we aim to identify these biases. Our experiments reveal significant insights into their performance and bias levels. The findings indicate that while most models show minimal bias, some still exhibit slightly stereotypical or anti-stereotypical tendencies. | 翻訳日:2024-08-15 12:33:27 公開日:2024-08-14 |
# 高速確率空間光変調器キャリブレーションと画素クロストーク最適化
Rapid stochastic spatial light modulator calibration and pixel crosstalk optimisation ( http://arxiv.org/abs/2408.07672v1 ) ライセンス: Link先を確認 | P. Schroff, E. Haller, S. Kuhr, A. La Rooij, | (参考訳) 位相変調型液晶空間光変調器(SLM)によって生じるホログラフィック光ポテンシャルは、量子技術応用において広く用いられている。
SLMディスプレイにおけるレーザービームの波面の正確な校正と強度プロファイルは、ホログラム電位の高密度化の鍵となる。
そこで本研究では,従来の手法よりも高速で,同じ精度を維持しながらキャリブレーションを行う手法を提案する。
確率的最適化とランダムスペックル強度パターンを用いることで、実験装置を正確にモデル化するデジタルツインを校正する。
このアプローチにより、SLMの波面を10のSLM位相パターンだけで約5分以内で$\lambda /170$まで測定することが可能になります。
さらに,液晶SLM上のディジタル双極子モデルのクロストークにより,モデルパラメータの迅速な校正が可能となり,効率を損なうことなく,光電位の誤差を約5倍減らすことができた。
我々の高速キャリブレーション技術は、例えば量子ガス顕微鏡や中性原子ツイーザーアレイにおいて、高NA目標と熱レンズが波面を著しく変形させることができる高忠実度光ポテンシャルの実装を単純化する。
画像の忠実度を必要とするホログラフィックディスプレイの分野への応用は、特に視野が大きく、SLM回折角が増大するディスプレイにおいて、新しい画素クロストークキャリブレーションの恩恵を受けるだろう。
Holographic light potentials generated by phase-modulating liquid-crystal spatial light modulators (SLMs) are widely used in quantum technology applications. Accurate calibration of the wavefront and intensity profile of the laser beam at the SLM display is key to the high fidelity of holographic potentials. Here, we present a new calibration technique that is faster than previous methods while maintaining the same level of accuracy. By employing stochastic optimisation and random speckle intensity patterns, we calibrate a digital twin that accurately models the experimental setup. This approach allows us to measure the wavefront at the SLM to within $\lambda /170$ in ~ 5 minutes using only 10 SLM phase patterns, a significant speedup over state-of-the-art techniques. Additionally, our digital twin models pixel crosstalk on the liquid-crystal SLM, enabling rapid calibration of model parameters and reducing the error in light potentials by a factor of ~ 5 without losing efficiency. Our fast calibration technique will simplify the implementation of high-fidelity light potentials in, for example, quantum-gas microscopes and neutral-atom tweezer arrays where high-NA objectives and thermal lensing can deform the wavefront significantly. Applications in the field of holographic displays that require high image fidelity will benefit from the novel pixel crosstalk calibration, especially for displays with a large field of view and increased SLM diffraction angles. | 翻訳日:2024-08-15 12:33:27 公開日:2024-08-14 |
# G$^2$V$^2$former:Face Anti-Spoofingのためのグラフガイドビデオビジョントランス
G$^2$V$^2$former: Graph Guided Video Vision Transformer for Face Anti-Spoofing ( http://arxiv.org/abs/2408.07675v1 ) ライセンス: Link先を確認 | Jingyi Yang, Zitong Yu, Xiuming Ni, Jia He, Hui Li, | (参考訳) スプーフされた顔を含むビデオでは、光度またはダイナミックな異常に基づいて、スプーフの証拠を発見できるかもしれない。
顔の偽造防止(FAS)アプローチは一般的に単一フレームのシナリオに集中するが、純粋に測光駆動の手法は時間とともに露出するかもしれない動的な偽造の手がかりを見落としている。
これによりFAS系は、特に力学では容易に区別できるが測光学では区別が難しい場合において、誤った判断を下すことができる。
この目的のために,顔と顔のランドマークを組み合わせたグラフガイドビデオビジョン変換器(G$^2$V$^2$former)を提案する。
注意を空間と時間に分解し、時空間ブロックを介して融合する。
具体的には、より広い受容領域を有するKronecker temporal attentionと呼ばれる新しい時間的注意を設計し、動的情報の収集に有用である。
さらに, ランドマークを含む領域がよりダイナミックな手がかりを示すという動機に基づいて, 表情の高調波変化を導くために, 低調波運動を利用する。
9つのベンチマークデータセットに対する大規模な実験により,本手法は様々なシナリオにおいて優れた性能を発揮することが示された。
コードも間もなく公開される予定だ。
In videos containing spoofed faces, we may uncover the spoofing evidence based on either photometric or dynamic abnormality, even a combination of both. Prevailing face anti-spoofing (FAS) approaches generally concentrate on the single-frame scenario, however, purely photometric-driven methods overlook the dynamic spoofing clues that may be exposed over time. This may lead FAS systems to conclude incorrect judgments, especially in cases where it is easily distinguishable in terms of dynamics but challenging to discern in terms of photometrics. To this end, we propose the Graph Guided Video Vision Transformer (G$^2$V$^2$former), which combines faces with facial landmarks for photometric and dynamic feature fusion. We factorize the attention into space and time, and fuse them via a spatiotemporal block. Specifically, we design a novel temporal attention called Kronecker temporal attention, which has a wider receptive field, and is beneficial for capturing dynamic information. Moreover, we leverage the low-semantic motion of facial landmarks to guide the high-semantic change of facial expressions based on the motivation that regions containing landmarks may reveal more dynamic clues. Extensive experiments on nine benchmark datasets demonstrate that our method achieves superior performance under various scenarios. The codes will be released soon. | 翻訳日:2024-08-15 12:33:27 公開日:2024-08-14 |
# 高度プロンプト法による会話型メンタルマニピュレーションの検出
Enhanced Detection of Conversational Mental Manipulation Through Advanced Prompting Techniques ( http://arxiv.org/abs/2408.07676v1 ) ライセンス: Link先を確認 | Ivory Yang, Xiaobo Guo, Sean Xie, Soroush Vosoughi, | (参考訳) 本研究は,対話的心的操作を検出するための様々なプロンプト技術の有効性を検討するための,包括的な長期的プロジェクトを提案する。
我々は、Zero-ShotとFew-Shotの設定を2値のメンタル操作検出タスクに実装し、Zero-ShotとFew-Shotのプロンプトによる既存の作業に基づいて構築する。
我々の主な目的は、特定のプロンプト技術が優れたパフォーマンスを示す理由を解読し、精神的な操作を検出するのに適した新しいフレームワークを構築することである。
予備的な発見は、先進的なプロンプト技術は、例ベースの学習によって訓練されない場合、より複雑なモデルには適さないかもしれないことを示唆している。
This study presents a comprehensive, long-term project to explore the effectiveness of various prompting techniques in detecting dialogical mental manipulation. We implement Chain-of-Thought prompting with Zero-Shot and Few-Shot settings on a binary mental manipulation detection task, building upon existing work conducted with Zero-Shot and Few- Shot prompting. Our primary objective is to decipher why certain prompting techniques display superior performance, so as to craft a novel framework tailored for detection of mental manipulation. Preliminary findings suggest that advanced prompting techniques may not be suitable for more complex models, if they are not trained through example-based learning. | 翻訳日:2024-08-15 12:33:27 公開日:2024-08-14 |
# 動的回路のためのランダムベンチマークプロトコル
Randomized Benchmarking Protocol for Dynamic Circuits ( http://arxiv.org/abs/2408.07677v1 ) ライセンス: Link先を確認 | Liran Shirizly, Luke C. G. Govia, David C. McKay, | (参考訳) 動的回路演算 -- フィードフォワードによる測定 -- は、将来の量子コンピューティングの取り組みにおいて重要な要素であるが、キャラクタリゼーション手法の可用性においてゲートに遅れている。
本稿では、データキュービットの1量子ランダム化ベンチマークシーケンスにおいて、動的回路演算ブロックをインターリーブした一連の動的回路ベンチマークルーチンについて紹介する。
F$は、データキュービットのセットと測定キュービットの間に広がり、測定値に基づいてフィードフォワード操作を含むことができる。
例えば、測定したqubitを$|0\rangle$で作成し、‘1’の測定で条件付けられたデータqubit上で$Z$-Pauliを実行する。
重要なことに、これらのブロックは長い回路シーケンスで読み出し代入エラーを蓄積する方法論を提供する。
また、ZZクロストークの低減と動的回路ブロック中の位相誤差の測定において、動的デカップリングの重要性を示す。
適切な動的疎結合を持つIBM Eagleデバイス上で測定すると、測定結果が主エラー源であるデータキュービットの割り当て誤差とデコヒーレンスと一致する。
Dynamic circuit operations -- measurements with feedforward -- are important components for future quantum computing efforts, but lag behind gates in the availability of characterization methods. Here we introduce a series of dynamic circuit benchmarking routines based on interleaving dynamic circuit operation blocks $F$ in one-qubit randomized benchmarking sequences of data qubits. $F$ spans between the set of data qubits and a measurement qubit and may include feedforward operations based on the measurement. We identify six candidate operation blocks, such as preparing the measured qubit in $|0\rangle$ and performing a $Z$-Pauli on the data qubit conditioned on a measurement of `1'. Importantly, these blocks provide a methodology to accumulate readout assignment errors in a long circuit sequence. We also show the importance of dynamic-decoupling in reducing ZZ crosstalk and measurement-induced phase errors during dynamic circuit blocks. When measured on an IBM Eagle device with appropriate dynamical decoupling, the results are consistent with measurement assignment error and the decoherence of the data qubit as the leading error sources. | 翻訳日:2024-08-15 12:33:27 公開日:2024-08-14 |
# RSD-DOG : 2次微分に基づく新しい画像記述子
RSD-DOG : A New Image Descriptor based on Second Order Derivatives ( http://arxiv.org/abs/2408.07687v1 ) ライセンス: Link先を確認 | Darshan Venkatrayappa, Philippe Montesinos, Daniel Diep, Baptiste Magnier, | (参考訳) 本稿では,2次画像統計・導出に基づく画像パッチ記述子について紹介する。
ここで、画像パッチを3次元の強度を有する3次元表面として処理する。
検討された3次元表面は、隆起、谷、崖などの2次の特徴・統計が豊富であり、回転する半ガウスフィルタの差を利用して容易に捉えることができる。
この手法の独創性は、指向性フィルタの応答とガウス差分法(DOG)アプローチの応答をうまく組み合わせることに基づいている。
得られた記述子は、照明、スケール、回転、ぼかし、視点、圧縮のバリエーションを扱う際に優れた識別力を示す。
画像マッチング実験は、SIFT, DAISY, GLOH, GIST, LIDRICなどの第1次記述子と比較して、得られた記述子の利点を示す。
This paper introduces the new and powerful image patch descriptor based on second order image statistics/derivatives. Here, the image patch is treated as a 3D surface with intensity being the 3rd dimension. The considered 3D surface has a rich set of second order features/statistics such as ridges, valleys, cliffs and so on, that can be easily captured by using the difference of rotating semi Gaussian filters. The originality of this method is based on successfully combining the response of the directional filters with that of the Difference of Gaussian (DOG) approach. The obtained descriptor shows a good discriminative power when dealing with the variations in illumination, scale, rotation, blur, viewpoint and compression. The experiments on image matching, demonstrates the advantage of the obtained descriptor when compared to its first order counterparts such as SIFT, DAISY, GLOH, GIST and LIDRIC. | 翻訳日:2024-08-15 12:33:27 公開日:2024-08-14 |
# 近接二重顔画像の検出
Detecting Near-Duplicate Face Images ( http://arxiv.org/abs/2408.07689v1 ) ライセンス: Link先を確認 | Sudipta Banerjee, Arun Ross, | (参考訳) 近接二重画像は、原画像の知覚不可能な変種を生成するために、繰り返し光度変換と幾何変換を適用する際にしばしば生成される。
結果として、著作権侵害の懸念を訴えて、ほぼ重複した人物がオンラインで拡散される。
このようなニュアンス変換によって生体データを変更すると、懸念はより深刻になる。
本研究では,顔画像における近重複検出の課題について,まず,近重複画像の集合から原画像を識別し,第2に,原画像と近重複画像の関係を推定する。
我々は,関係を推定するグラフ理論的手法を用いて,画像フィロジェニーツリー(IPT)と呼ばれる木のような構造を構築する。
我々はさらにこの手法を拡張して、イメージ・フィロジェニー・フォレスト(IPF)と呼ばれるICTのアンサンブルを作成する。
提案手法は,最新の生成モデルとICT構成による非表示変換により,他のモジュール間のロバスト性を示すために厳密に評価し,IPF再構成精度を42%向上させる。
Near-duplicate images are often generated when applying repeated photometric and geometric transformations that produce imperceptible variants of the original image. Consequently, a deluge of near-duplicates can be circulated online posing copyright infringement concerns. The concerns are more severe when biometric data is altered through such nuanced transformations. In this work, we address the challenge of near-duplicate detection in face images by, firstly, identifying the original image from a set of near-duplicates and, secondly, deducing the relationship between the original image and the near-duplicates. We construct a tree-like structure, called an Image Phylogeny Tree (IPT) using a graph-theoretic approach to estimate the relationship, i.e., determine the sequence in which they have been generated. We further extend our method to create an ensemble of IPTs known as Image Phylogeny Forests (IPFs). We rigorously evaluate our method to demonstrate robustness across other modalities, unseen transformations by latest generative models and IPT configurations, thereby significantly advancing the state-of-the-art performance by 42% on IPF reconstruction accuracy. | 翻訳日:2024-08-15 12:33:27 公開日:2024-08-14 |
# スキーマリンクの死 : 調和した言語モデルの時代におけるテキストからSQL
The Death of Schema Linking? Text-to-SQL in the Age of Well-Reasoned Language Models ( http://arxiv.org/abs/2408.07702v1 ) ライセンス: Link先を確認 | Karime Maamari, Fadhil Abubaker, Daniel Jaroslawicz, Amine Mhedhbi, | (参考訳) スキーマリンクは、自然言語クエリをSQLに変換するText-to-SQLパイプラインにおいて、重要なステップである。
スキーマリンクの目標は、関連するテーブルや列(シグナル)を検索し、無関係なもの(ノイズ)を無視することである。
しかしながら、不完全なスキーマリンクは、正確なクエリ生成に必要な必須列を除外することが多い。
本研究では,次世代の大規模言語モデル(LLM)を使用する場合,スキーマリンクの必要性を再考する。
より新しいモデルは、明示的なスキーマリンクを必要とせずに、生成中に関連するスキーマ要素を識別できる。
これにより、Text-to-SQLパイプラインはスキーマのリンクを完全にバイパスし、完全なデータベーススキーマをLLMに渡すことで、必要な情報を除外するリスクを排除できる。
さらに,スキーマリンクの代替として,本質的なスキーマ情報に係わることなく,テキストからSQLまでの精度を向上させる手法を提案する。
提案手法は,BIRDベンチマークで71.83\%の実行精度を達成し,提出時に最初にランク付けする。
Schema linking is a crucial step in Text-to-SQL pipelines, which translate natural language queries into SQL. The goal of schema linking is to retrieve relevant tables and columns (signal) while disregarding irrelevant ones (noise). However, imperfect schema linking can often exclude essential columns needed for accurate query generation. In this work, we revisit the need for schema linking when using the latest generation of large language models (LLMs). We find empirically that newer models are adept at identifying relevant schema elements during generation, without the need for explicit schema linking. This allows Text-to-SQL pipelines to bypass schema linking entirely and instead pass the full database schema to the LLM, eliminating the risk of excluding necessary information. Furthermore, as alternatives to schema linking, we propose techniques that improve Text-to-SQL accuracy without compromising on essential schema information. Our approach achieves 71.83\% execution accuracy on the BIRD benchmark, ranking first at the time of submission. | 翻訳日:2024-08-15 12:33:27 公開日:2024-08-14 |
# 精製ロジットによる知識蒸留
Knowledge Distillation with Refined Logits ( http://arxiv.org/abs/2408.07703v1 ) ライセンス: Link先を確認 | Wujie Sun, Defang Chen, Siwei Lyu, Genlang Chen, Chun Chen, Can Wang, | (参考訳) 知識蒸留に関する最近の研究は, モデル圧縮における簡便さ, 有効性, 汎用性から, ロジット蒸留に注目が集まっている。
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
提案手法は, 高性能教師モデルでも誤った予測が可能であり, 標準蒸留損失とクロスエントロピー損失との矛盾を生じさせる。
この対立は、学生モデルの学習目標の整合性を損なう可能性がある。
教師の予測を経験的に正すためにラベルを使用する以前の試みは、クラス相関を損なう可能性がある。
対照的に、我々のRTDは、教師のロジットを動的に洗練するためにラベリング情報を使用している。
このようにして、本手法は、重要なクラス相関を保ちながら、教師からの誤解を招く情報を効果的に排除し、蒸留知識の価値と効率を高めることができる。
CIFAR-100とImageNetの実験結果は、既存の手法よりも優れていることを示している。
コードは、text{https://github.com/zju-SWJ/RLD}で提供される。
Recent research on knowledge distillation has increasingly focused on logit distillation because of its simplicity, effectiveness, and versatility in model compression. In this paper, we introduce Refined Logit Distillation (RLD) to address the limitations of current logit distillation methods. Our approach is motivated by the observation that even high-performing teacher models can make incorrect predictions, creating a conflict between the standard distillation loss and the cross-entropy loss. This conflict can undermine the consistency of the student model's learning objectives. Previous attempts to use labels to empirically correct teacher predictions may undermine the class correlation. In contrast, our RLD employs labeling information to dynamically refine teacher logits. In this way, our method can effectively eliminate misleading information from the teacher while preserving crucial class correlations, thus enhancing the value and efficiency of distilled knowledge. Experimental results on CIFAR-100 and ImageNet demonstrate its superiority over existing methods. The code is provided at \text{https://github.com/zju-SWJ/RLD}. | 翻訳日:2024-08-15 12:33:27 公開日:2024-08-14 |
# Sparse-view 3Dリコンストラクションのための構造対応マスクを用いた自己拡張型ガウススプラッティング
Self-augmented Gaussian Splatting with Structure-aware Masks for Sparse-view 3D Reconstruction ( http://arxiv.org/abs/2408.04831v2 ) ライセンス: Link先を確認 | Lingbei Meng, Bi'an Du, Wei Hu, | (参考訳) スパースビュー3D再構成は、限られた視点から完全な3次元モデルを構築することを目的として、コンピュータビジョンにおいて非常に難しい課題である。
この課題はいくつかの困難に直面します。
1) 一貫した情報を持たない入力画像の限られた数
2)入力画像の品質への依存,及び
3)モデルパラメータのかなりのサイズ。
これらの課題に対処するために、スパースビュー3次元再構成のための構造認識マスクにより強化された自己拡張された粗大なガウススプラッティングパラダイムを提案する。
特に,本手法ではまず粗いガウスモデルを用いて,スパースビュー入力から基本的な3次元表現を得る。
続いて,3次元幾何学的拡張と知覚的視点的拡張の両面から,出力の一貫性と詳細な表現を強化するための微細ガウスネットワークを開発した。
MipNeRF360 と OmniObject3D データセットを用いた実験結果から,提案手法が知覚的品質と効率の両方でスパース入力ビューの最先端性能を達成することを示す。
Sparse-view 3D reconstruction stands as a formidable challenge in computer vision, aiming to build complete three-dimensional models from a limited array of viewing perspectives. This task confronts several difficulties: 1) the limited number of input images that lack consistent information; 2) dependence on the quality of input images; and 3) the substantial size of model parameters. To address these challenges, we propose a self-augmented coarse-to-fine Gaussian splatting paradigm, enhanced with a structure-aware mask, for sparse-view 3D reconstruction. In particular, our method initially employs a coarse Gaussian model to obtain a basic 3D representation from sparse-view inputs. Subsequently, we develop a fine Gaussian network to enhance consistent and detailed representation of the output with both 3D geometry augmentation and perceptual view augmentation. During training, we design a structure-aware masking strategy to further improve the model's robustness against sparse inputs and noise.Experimental results on the MipNeRF360 and OmniObject3D datasets demonstrate that the proposed method achieves state-of-the-art performances for sparse input views in both perceptual quality and efficiency. | 翻訳日:2024-08-15 12:22:42 公開日:2024-08-14 |
# 人工認知の解き放つ - 複数のAIシステムを統合する
Unleashing Artificial Cognition: Integrating Multiple AI Systems ( http://arxiv.org/abs/2408.04910v3 ) ライセンス: Link先を確認 | Muntasir Adnan, Buddhi Gamage, Zhiwei Xu, Damith Herath, Carlos C. N. Kuhn, | (参考訳) 本研究では,人工知能の認知を解き明かすために,言語モデルとクエリ分析技術の革新的な融合を提案する。
我々のシステムは、Chessエンジンを言語モデルとシームレスに統合し、動きを予測し、戦略的説明を提供する。
検索可能な回答生成を実現するためにベクトルデータベースを活用することで、私たちのOpenSI AIシステムは、生の計算と人間のような理解のギャップを埋めながら、意思決定プロセスを解明します。
実演環境としてのChessの選択は、私たちのアプローチの汎用性を強調します。
Chess以外にも、医療診断から財務予測まで、さまざまな応用を約束しています。
In this study, we present an innovative fusion of language models and query analysis techniques to unlock cognition in artificial intelligence. Our system seamlessly integrates a Chess engine with a language model, enabling it to predict moves and provide strategic explanations. Leveraging a vector database to achieve retrievable answer generation, our OpenSI AI system elucidates its decision-making process, bridging the gap between raw computation and human-like understanding. Our choice of Chess as the demonstration environment underscores the versatility of our approach. Beyond Chess, our system holds promise for diverse applications, from medical diagnostics to financial forecasting. | 翻訳日:2024-08-15 12:22:42 公開日:2024-08-14 |
# \textit{re}CSE:自己教師型コントラスト学習における文埋め込みのための可搬型変換機能
\textit{re}CSE: Portable Reshaping Features for Sentence Embedding in Self-supervised Contrastive Learning ( http://arxiv.org/abs/2408.04975v3 ) ライセンス: Link先を確認 | Fufangchen Zhao, Jian Gao, Danfeng Yan, | (参考訳) 特徴変換に基づく自己教師付きコントラスト学習文表現フレームワークである「textit{re}CSE」を提案する。
このフレームワークは、離散データ拡張手法を使用する現在の先進モデルとは異なるが、代わりに元の文の入力特徴を再評価し、文中の各トークンのグローバル情報を集約し、現在の先進モデルにおける表現極性やGPUメモリ消費の線形増加に関する一般的な問題を緩和する。
さらに、我々の \textit{re}CSE はセマンティック類似性タスクにおける競合性能を達成しました。
また,提案手法は,他の自己指導型コントラスト学習フレームワークに移植し,その表現能力を向上し,最先端の性能を達成できるような,強力な普遍性を有することを示す。
私たちのコードはhttps://github.com/heavenhellchen/reCSEで公開されています。
We propose \textit{re}CSE, a self supervised contrastive learning sentence representation framework based on feature reshaping. This framework is different from the current advanced models that use discrete data augmentation methods, but instead reshapes the input features of the original sentence, aggregates the global information of each token in the sentence, and alleviates the common problems of representation polarity and GPU memory consumption linear increase in current advanced models. In addition, our \textit{re}CSE has achieved competitive performance in semantic similarity tasks. And the experiment proves that our proposed feature reshaping method has strong universality, which can be transplanted to other self supervised contrastive learning frameworks and enhance their representation ability, even achieving state-of-the-art performance. Our code is available at https://github.com/heavenhellchen/reCSE. | 翻訳日:2024-08-15 12:22:42 公開日:2024-08-14 |
# Deep Face-Attention:eラーニングへの応用による注意推定のためのマルチモーダル顔バイオメトリックス
DeepFace-Attention: Multimodal Face Biometrics for Attention Estimation with Application to e-Learning ( http://arxiv.org/abs/2408.05523v2 ) ライセンス: Link先を確認 | Roberto Daza, Luis F. Gomez, Julian Fierrez, Aythami Morales, Ruben Tolosana, Javier Ortega-Garcia, | (参考訳) 本研究では,Webカメラビデオに適用した顔分析手法のアンサンブルを用いて,注意レベル(認知的負荷)を推定する革新的な手法を提案する。
そこで我々は,eラーニング環境で取得した公開マルチモーダルデータベースであるmEBAL2データベースに対して,我々のアプローチを訓練し,評価し,比較した。
mEBAL2は、8つの異なるタスクを実行した60ユーザーのデータである。
これらの課題は困難に変化し、認知負荷の変化につながった。
我々のアプローチは、最先端の顔分析技術を適用して、ユーザの認知的負荷を、高い注意や低い注意の形で定量化する。
視線リンク、心拍数、顔の動き単位、頭部ポーズなど、認知的負荷に関連するいくつかの行動信号や生理的プロセスが使用されている。
さらに,どの特徴がより良い結果を得るか,最も効率的な組み合わせ,局所的特徴とグローバル的特徴の探索,一時的時間間隔が注意レベル推定に与える影響などについて検討する。
顔のグローバルな特徴は,特に時間窓の増大に伴って,スコアレベル融合を用いたマルチモーダルシステムにとってより適切であることが判明した。
一方、局所的な特徴は、スコアレベルの融合アプローチによるニューラルネットワークトレーニングにより、融合により適している。
提案手法は,mEBAL2ベンチマークを用いて,既存の最先端の精度を向上する。
This work introduces an innovative method for estimating attention levels (cognitive load) using an ensemble of facial analysis techniques applied to webcam videos. Our method is particularly useful, among others, in e-learning applications, so we trained, evaluated, and compared our approach on the mEBAL2 database, a public multi-modal database acquired in an e-learning environment. mEBAL2 comprises data from 60 users who performed 8 different tasks. These tasks varied in difficulty, leading to changes in their cognitive loads. Our approach adapts state-of-the-art facial analysis technologies to quantify the users' cognitive load in the form of high or low attention. Several behavioral signals and physiological processes related to the cognitive load are used, such as eyeblink, heart rate, facial action units, and head pose, among others. Furthermore, we conduct a study to understand which individual features obtain better results, the most efficient combinations, explore local and global features, and how temporary time intervals affect attention level estimation, among other aspects. We find that global facial features are more appropriate for multimodal systems using score-level fusion, particularly as the temporal window increases. On the other hand, local features are more suitable for fusion through neural network training with score-level fusion approaches. Our method outperforms existing state-of-the-art accuracies using the public mEBAL2 benchmark. | 翻訳日:2024-08-15 12:22:42 公開日:2024-08-14 |
# 多層ラベリングを用いた共同生体イベント抽出
Multi-layer Sequence Labeling-based Joint Biomedical Event Extraction ( http://arxiv.org/abs/2408.05545v2 ) ライセンス: Link先を確認 | Gongchi Chen, Pengchao Wu, Jinghang Gu, Longhua Qian, Guodong Zhou, | (参考訳) 近年,バイオメディカルイベント抽出は複雑なパイプラインとジョイントメソッドによって支配され,簡略化が求められている。
また、既存の作業では、トリガー語情報を明示的に利用していない。
そこで我々は,共同生体イベント抽出のための多層配列ラベリングに基づくMLSLを提案する。
MLSLは、事前の知識や複雑な構造を導入していない。
さらに、候補トリガー語の情報をシーケンスラベルに明示的に組み込んで、トリガー語と引数ロール間の相互作用関係を学習する。
これに基づいて、MLSLは単純なワークフローでうまく学習できます。
大規模な実験は、他の最先端手法と比較して、抽出性能においてMLSLの優位性を示す。
In recent years, biomedical event extraction has been dominated by complicated pipeline and joint methods, which need to be simplified. In addition, existing work has not effectively utilized trigger word information explicitly. Hence, we propose MLSL, a method based on multi-layer sequence labeling for joint biomedical event extraction. MLSL does not introduce prior knowledge and complex structures. Moreover, it explicitly incorporates the information of candidate trigger words into the sequence labeling to learn the interaction relationships between trigger words and argument roles. Based on this, MLSL can learn well with just a simple workflow. Extensive experimentation demonstrates the superiority of MLSL in terms of extraction performance compared to other state-of-the-art methods. | 翻訳日:2024-08-15 12:22:42 公開日:2024-08-14 |
# Pauli Check Sandwiching による実行時の量子特性評価と誤差軽減
Pauli Check Sandwiching for Quantum Characterization and Error Mitigation during Runtime ( http://arxiv.org/abs/2408.05565v2 ) ライセンス: Link先を確認 | Joshua Gao, Ji Liu, Alvin Gonzales, Zain H. Saleem, Nikos Hardavellas, Kaitlin N. Smith, | (参考訳) 本研究は, パウリチェックサンドイッチ (PCS) を応用した新しい量子システム特性と誤り軽減フレームワークを提案する。
我々は、ノイズ適応マッピングやマルチプログラミングといった量子プログラムのソフトウェア最適化における先行技術への取り組みを動機付け、PCSの概念を導入し、実用上の設計上の配慮を強調した。
パウリチェックを対象のアプリケーション(量子回路など)に慎重に埋め込むことで、量子システムノイズプロファイルを学習できることが示される。
さらに、PCSとマルチプログラミングを組み合わせることで、量子プログラム結果の非自明な忠実度向上が実現される。
This work presents a novel quantum system characterization and error mitigation framework that applies Pauli check sandwiching (PCS). We motivate our work with prior art in software optimizations for quantum programs like noise-adaptive mapping and multi-programming, and we introduce the concept of PCS while emphasizing design considerations for its practical use. We show that by carefully embedding Pauli checks within a target application (i.e. a quantum circuit), we can learn quantum system noise profiles. Further, PCS combined with multi-programming unlocks non-trivial fidelity improvements in quantum program outcomes. | 翻訳日:2024-08-15 12:22:42 公開日:2024-08-14 |
# 道路横断監視のための空間変換器モデルによる鳥眼視へのカメラパースペクティブ・トランスフォーメーション
Camera Perspective Transformation to Bird's Eye View via Spatial Transformer Model for Road Intersection Monitoring ( http://arxiv.org/abs/2408.05577v2 ) ライセンス: Link先を確認 | Rukesh Prajapati, Amr S. El-Wakeel, | (参考訳) 道路交差点の監視と制御の研究は、しばしば鳥の目視(BEV)シミュレータを利用する。
実際の交通状況では、シミュレーターに類似したBEVを達成するには、ドローンや特定のセンサーを配置する必要があるが、これは実現不可能でも実用的でもない。
その結果,交通交差点の管理はこれらの制約からシミュレーション環境に限られている。
本稿では,道路交差点の1台のカメラの視点をBEVに変換する新しいディープラーニングモデルを導入することにより,シミュレーション環境と実世界の実装のギャップを解消する。
我々は現実世界の交通ジャンクションによく似たシミュレーション環境を構築した。
提案モデルでは,車両をBEV画像に変換し,道路交差点の監視と制御モデル処理を容易にする。
画像変換技術に着想を得た空間変換器Double Decoder-UNet(SDD-UNet)モデルを提案する。
さらに,車両の位置を正確に推定し,実環境におけるシミュレーション学習モデルの直接適用を可能にする。
SDD-UNetモデルは、元のUNetモデルよりも40%良い95%以上の平均サイス類似係数(DSC)を達成する。
平均絶対誤差(MAE)は0.102であり、予測マスクのセントロイドは平均0.14mずれており、精度が高い。
Road intersection monitoring and control research often utilize bird's eye view (BEV) simulators. In real traffic settings, achieving a BEV akin to that in a simulator necessitates the deployment of drones or specific sensor mounting, which is neither feasible nor practical. Consequently, traffic intersection management remains confined to simulation environments given these constraints. In this paper, we address the gap between simulated environments and real-world implementation by introducing a novel deep-learning model that converts a single camera's perspective of a road intersection into a BEV. We created a simulation environment that closely resembles a real-world traffic junction. The proposed model transforms the vehicles into BEV images, facilitating road intersection monitoring and control model processing. Inspired by image transformation techniques, we propose a Spatial-Transformer Double Decoder-UNet (SDD-UNet) model that aims to eliminate the transformed image distortions. In addition, the model accurately estimates the vehicle's positions and enables the direct application of simulation-trained models in real-world contexts. SDD-UNet model achieves an average dice similarity coefficient (DSC) above 95% which is 40% better than the original UNet model. The mean absolute error (MAE) is 0.102 and the centroid of the predicted mask is 0.14 meters displaced, on average, indicating high accuracy. | 翻訳日:2024-08-15 12:22:42 公開日:2024-08-14 |
# 追加正規化トピックモデルの反復的改善
Iterative Improvement of an Additively Regularized Topic Model ( http://arxiv.org/abs/2408.05840v2 ) ライセンス: Link先を確認 | Alex Gorbulev, Vasiliy Alekseev, Konstantin Vorontsov, | (参考訳) トピックモデリングは、基本的にはソフトなクラスタリングの問題である(既知のオブジェクト -- ドキュメント、未知のクラスタ -- トピック)。
つまり、そのタスクは正しくない。
特に、トピックモデルは不安定で不完全です。
これらすべてが、優れたトピックモデル(反復的ハイパーパラメータ選択、モデルトレーニング、トピック品質評価)を見つけるプロセスが特に長く、労働集約的であるという事実につながります。
私たちはプロセスを単純化し、決定論的かつ証明しやすくすることを目指しています。
そこで本研究では,トピックモデルの反復的学習手法を提案する。
この手法の本質は、一連の関連するトピックモデルがトレーニングされ、後続のモデルが少なくとも以前のモデル、すなわち、より早く見つかった良いトピックを全て保持するように訓練されることである。
モデル間の接続は加法正規化によって達成される。
この反復学習の結果、シリーズの最後のトピックモデルとなり、反復的に更新された追加正規化トピックモデル(ITAR)と呼ばれる。
いくつかの自然言語テキストのコレクションで実施された実験によると、提案されたITARモデルは、他の一般的なトピックモデル(LDA、ARTM、BERTopic)よりもパフォーマンスが良く、トピックは多様であり、その難易度(基礎となるデータを"説明"する能力)は適度である。
Topic modelling is fundamentally a soft clustering problem (of known objects -- documents, over unknown clusters -- topics). That is, the task is incorrectly posed. In particular, the topic models are unstable and incomplete. All this leads to the fact that the process of finding a good topic model (repeated hyperparameter selection, model training, and topic quality assessment) can be particularly long and labor-intensive. We aim to simplify the process, to make it more deterministic and provable. To this end, we present a method for iterative training of a topic model. The essence of the method is that a series of related topic models are trained so that each subsequent model is at least as good as the previous one, i.e., that it retains all the good topics found earlier. The connection between the models is achieved by additive regularization. The result of this iterative training is the last topic model in the series, which we call the iteratively updated additively regularized topic model (ITAR). Experiments conducted on several collections of natural language texts show that the proposed ITAR model performs better than other popular topic models (LDA, ARTM, BERTopic), its topics are diverse, and its perplexity (ability to "explain" the underlying data) is moderate. | 翻訳日:2024-08-15 12:22:42 公開日:2024-08-14 |
# リーンスパイク列車アンサンブル符号からの連続時間信号のロバストオンライン再構成
Robust online reconstruction of continuous-time signals from a lean spike train ensemble code ( http://arxiv.org/abs/2408.05950v2 ) ライセンス: Link先を確認 | Anik Chattopadhyay, Arunava Banerjee, | (参考訳) 動物の感覚刺激は神経細胞によってスパイクトレインに符号化され、空間性、エネルギー効率、高時間分解能などの利点を提供する。
本稿では, 連続時間信号を生物学的に実現可能なスパイクトレインに決定的に符号化し, 表現可能な信号クラスと再構成境界に関する問題に対処する信号処理フレームワークを提案する。
このフレームワークは、神経細胞のアンサンブルによって生成されたスパイクトレインを経由した信号の符号化を、様々なコンボリューションカーネルを持つコンボリューブ・スレッショルド機構を用いて検討する。
スパイクトレインから信号再構成までの逆問題に対する閉形式解は、シフトしたカーネル関数のヒルベルト空間から導出され、一般化されたFRI(Finite Rate of Innovation)クラスの信号の疎表現が保証される。
さらに、生物学的システムにおけるリアルタイム処理に触発されて、過去のスパイクの有限ウィンドウのみを考慮した効率的な最適再構成の反復バージョンが定式化され、不条件符号化に対する技術の堅牢性を確保し、ウィンドウ化された再構成の最適解への収束を保証する。
大規模なオーディオデータセットの実験では、スパイクレートがNyquistレートの5分の1以下であるのに対して、スパイクレートの低い状態での最先端のスパース符号化技術と比較して、明らかな競争上の優位性を示している。
Sensory stimuli in animals are encoded into spike trains by neurons, offering advantages such as sparsity, energy efficiency, and high temporal resolution. This paper presents a signal processing framework that deterministically encodes continuous-time signals into biologically feasible spike trains, and addresses the questions about representable signal classes and reconstruction bounds. The framework considers encoding of a signal through spike trains generated by an ensemble of neurons using a convolve-then-threshold mechanism with various convolution kernels. A closed-form solution to the inverse problem, from spike trains to signal reconstruction, is derived in the Hilbert space of shifted kernel functions, ensuring sparse representation of a generalized Finite Rate of Innovation (FRI) class of signals. Additionally, inspired by real-time processing in biological systems, an efficient iterative version of the optimal reconstruction is formulated that considers only a finite window of past spikes, ensuring robustness of the technique to ill-conditioned encoding; convergence guarantees of the windowed reconstruction to the optimal solution are then provided. Experiments on a large audio dataset demonstrate excellent reconstruction accuracy at spike rates as low as one-fifth of the Nyquist rate, while showing clear competitive advantage in comparison to state-of-the-art sparse coding techniques in the low spike rate regime. | 翻訳日:2024-08-15 12:22:42 公開日:2024-08-14 |
# 分散ヘルスインテリジェンスネットワーク(DHIN)
Decentralized Health Intelligence Network (DHIN) ( http://arxiv.org/abs/2408.06240v3 ) ライセンス: Link先を確認 | Abraham Nash, | (参考訳) 分散ヘルスインテリジェンスネットワーク(Decentralized Health Intelligence Network, DHIN)は、医療における医療データの主権とAI利用に関する重要な課題に対処する理論フレームワークである。
そして、多様な医療データソースにアクセスする障壁を克服することで、効果的なAI利用を促進する。
この包括的なフレームワークは下記の通りである。
1) 健康データ主権の前提条件として、自己主権のアイデンティティ・アーキテクチャと個人健康記録(PHR)を併用すること。
2)医療における分散AIトレーニングのためのパブリックブロックチェーン上に実装されたスケーラブルなフェデレーションラーニング(FL)プロトコル。
3) 参加のインセンティブを与え、公平な報酬配分を確保するための、スケーラブルで信頼できない報酬メカニズム。
このフレームワークは、参加者が提供した健康データに対するトレーニングの防止や制御、あるいは金銭的利益の決定を可能にする。
医療における効果的なAIトレーニングをサポートし、患者が健康データをコントロールし、経済的に利益を享受し、集団AIを活用して有益な医療アルゴリズムを開発する分散型でスケーラブルなエコシステムに貢献できるようにする。
患者はFLプロトコルにオプトインするためのインセンティブとしてデジタルウォレットに報酬を受け取る。
このアプローチは、個人のニーズに適応し、既存のシステムを補完し、普遍的なカバレッジを再定義する、新しい自己完結型医療モデルを導入します。
患者を力づけながら、医療データ管理とAI利用を変革する可能性を強調している。
Decentralized Health Intelligence Network (DHIN) is a theoretical framework addressing significant challenges of health data sovereignty and AI utilization in healthcare caused by data fragmentation across providers and institutions. It establishes a sovereign architecture for healthcare provision as a prerequisite to a sovereign health network, then facilitates effective AI utilization by overcoming barriers to accessing diverse medical data sources. This comprehensive framework leverages: 1) self-sovereign identity architecture coupled with a personal health record (PHR) as a prerequisite for health data sovereignty; 2) a scalable federated learning (FL) protocol implemented on a public blockchain for decentralized AI training in healthcare, where health data remains with participants and only model parameter updates are shared; and 3) a scalable, trustless rewards mechanism to incentivize participation and ensure fair reward distribution. This framework ensures that no entity can prevent or control access to training on health data offered by participants or determine financial benefits, as these processes operate on a public blockchain with an immutable record and without a third party. It supports effective AI training in healthcare, allowing patients to maintain control over their health data, benefit financially, and contribute to a decentralized, scalable ecosystem that leverages collective AI to develop beneficial healthcare algorithms. Patients receive rewards into their digital wallets as an incentive to opt-in to the FL protocol, with a long-term roadmap to funding decentralized insurance solutions. This approach introduces a novel, self-financed healthcare model that adapts to individual needs, complements existing systems, and redefines universal coverage. It highlights the potential to transform healthcare data management and AI utilization while empowering patients. | 翻訳日:2024-08-15 12:22:42 公開日:2024-08-14 |
# MetMamba:時空間マンバモデルによる地域気象予報
MetMamba: Regional Weather Forecasting with Spatial-Temporal Mamba Model ( http://arxiv.org/abs/2408.06400v2 ) ライセンス: Link先を確認 | Haoyu Qin, Yungang Chen, Qianchuan Jiang, Pengchao Sun, Xiancai Ye, Chao Lin, | (参考訳) ディープラーニングに基づく天気予報(DLWP)モデルは、ここ数年で急速に改善され、最先端の天気予報をかなりの差で上回っている。
最適化の取り組みの多くは、グローバルな文脈で予測範囲を拡張するためのトレーニングカリキュラムに焦点が当てられているが、領域モデリングの限定と天気予報のためのより良いバックボーンという2つの側面は検討されていない。
本稿では,最新の状態空間モデルであるMamba上に構築されたDLWPモデルであるMetMambaが,従来のアテンション機構とニューラル演算子を用いた他の一般的なバックボーンに対して,顕著なパフォーマンス向上とユニークなアドバンテージを提供することを示す。
また、グローバルホストモデルと組み合わせたトレーニングにより、ディープラーニングに基づく限定領域モデリングの実現可能性を示す。
Deep Learning based Weather Prediction (DLWP) models have been improving rapidly over the last few years, surpassing state of the art numerical weather forecasts by significant margins. While much of the optimization effort is focused on training curriculum to extend forecast range in the global context, two aspects remains less explored: limited area modeling and better backbones for weather forecasting. We show in this paper that MetMamba, a DLWP model built on a state-of-the-art state-space model, Mamba, offers notable performance gains and unique advantages over other popular backbones using traditional attention mechanisms and neural operators. We also demonstrate the feasibility of deep learning based limited area modeling via coupled training with a global host model. | 翻訳日:2024-08-15 12:12:37 公開日:2024-08-14 |
# 非線形多スケール状態空間モデルにおけるベイズ学習
Bayesian Learning in a Nonlinear Multiscale State-Space Model ( http://arxiv.org/abs/2408.06425v2 ) ライセンス: Link先を確認 | Nayely Vélez-Cruz, Manfred D. Laubichler, | (参考訳) 複雑なシステムにおけるマルチスケール相互作用の普遍性はよく認識されており、発達と遺伝性は、異なる時間スケールのプロセスが相互にどのように影響するかを示す主要な例である。
この研究は、異なる時間スケールで相互作用するシステム間の動的相互作用を、各スケール間のフィードバックで探索する、新しいマルチスケール状態空間モデルを導入している。
本稿では,このマルチスケールモデルにおける未知のプロセスノイズ共分散を学習することにより,未知の状態の推定を行うためのベイズ学習フレームワークを提案する。
本研究では,提案手法の有効性をシミュレーションし,提案手法の有効性を実証するPGASアルゴリズムを開発した。
The ubiquity of multiscale interactions in complex systems is well-recognized, with development and heredity serving as a prime example of how processes at different temporal scales influence one another. This work introduces a novel multiscale state-space model to explore the dynamic interplay between systems interacting across different time scales, with feedback between each scale. We propose a Bayesian learning framework to estimate unknown states by learning the unknown process noise covariances within this multiscale model. We develop a Particle Gibbs with Ancestor Sampling (PGAS) algorithm for inference and demonstrate through simulations the efficacy of our approach. | 翻訳日:2024-08-15 12:12:37 公開日:2024-08-14 |
# ループの外:最適化ランドスケープの構造近似と非Iterative Quantumtimization
Out of the Loop: Structural Approximation of Optimisation Landscapes and non-Iterative Quantum Optimisation ( http://arxiv.org/abs/2408.06493v2 ) ライセンス: Link先を確認 | Tom Krüger, Wolfgang Mauerer, | (参考訳) 量子近似最適化アルゴリズム (Quantum Approximate Optimisation Algorithm, Qaoa) は、組合せ最適化のための量子古典的反復ヒューリスティックである。
カオアは複雑性クラスNPの問題を対象としているが、全ての反復で求められる古典的な最適化手順はNPハードであることが知られている。
それでも、古典的アプローチに対する優位性は特定のシナリオでは疑わしいが、その計算力の性質と起源はまだ十分に理解されていない。
解空間構造からカオア最適化景観を効率よく正確に近似する手法を導入することで、新しいアルゴリズムの変種を導き出す: 入力インスタンスごとに反復的な量子古典計算を実行する代わりに、インスタンスに依存しないが問題固有の量子回路をベースとする。
これは計算の労力を減らしたにもかかわらず、重要な組合せ問題に対して単位深度カオアと一致または上回る。
我々のアプローチは、カオのインスタンス非依存構造に関する長年の予想を証明することに基づいている。
一般性を確保することによって、カオアパラメータクラスタリングに関する既存の経験的観測を理論計算機科学の確立されたアプローチにリンクし、解空間の構造的性質と量子最適化とのリンクを理解するための音基盤を提供する。
The Quantum Approximate Optimisation Algorithm (qaoa) is a widely studied quantum-classical iterative heuristic for combinatorial optimisation. While qaoa targets problems in complexity class NP, the classical optimisation procedure required in every iteration is itself known to be NP-hard. Still, advantage over classical approaches is suspected for certain scenarios, but nature and origin of its computational power are not yet satisfactorily understood. By introducing means of efficiently and accurately approximating the qaoa optimisation landscape from solution space structures, we derive a new algorithmic variant: Instead of performing an iterative quantum-classical computation for each input instance, our non-iterative method is based on a quantum circuit that is instance-independent, but problem-specific. It matches or outperforms unit-depth qaoa for key combinatorial problems, despite reduced computational effort. Our approach is based on proving a long-standing conjecture regarding instance-independent structures in qaoa. By ensuring generality, we link existing empirical observations on qaoa parameter clustering to established approaches in theoretical computer science, and provide a sound foundation for understanding the link between structural properties of solution spaces and quantum optimisation. | 翻訳日:2024-08-15 12:12:37 公開日:2024-08-14 |
# OpenEP: 将来のイベント予測
OpenEP: Open-Ended Future Event Prediction ( http://arxiv.org/abs/2408.06578v2 ) ライセンス: Link先を確認 | Yong Guan, Hao Peng, Xiaozhi Wang, Lei Hou, Juanzi Li, | (参考訳) FEP(Future Event Prediction)は、イベントの進化を理解することで、早期のリスク識別、情報的意思決定、戦略的計画が可能になる。
既存の作業は通常、イベント予測を分類タスクとして扱い、将来のイベントの結果を、イエス/ノー質問、候補セット、分類といった固定された範囲に閉じ込める。
本稿では,OpenEP(Open-Ended Future Event Prediction Task)を紹介する。
これは主に2つの側面に反映される: 第一に、予測的質問は多様なものであり、イベント開発と視点の異なる段階をカバーする。
この課題の研究を容易にするために,オープンな将来のイベント予測データセットであるOpenEPBenchを構築した。
質問構築には、場所、時間、イベント開発、イベント結果、イベント影響、イベント応答などを含む7つの視点から質問を行い、イベントの深い分析と包括的な進化の理解を促進する。
結果構築のために,結果を含む自由形式のテキストを基礎的真理として収集し,意味論的に完全かつ詳細に富んだ結果を提供する。
さらに,イベント特性をオープンエンド設定に組み込んだ,ステークホルダーによるイベント予測フレームワークであるStkFEPを提案する。
本手法では,イベントに関わるステークホルダーを抽出して質問を拡張し,多様な情報を収集する。
我々はまた、潜在的な進化パターンを明らかにするために、関係があり、疑問に類似した歴史的イベントを収集します。
実験結果から,オープンエンド環境での将来の事象を正確に予測することは,既存のLCMでは困難であることが示唆された。
Future event prediction (FEP) is a long-standing and crucial task in the world, as understanding the evolution of events enables early risk identification, informed decision-making, and strategic planning. Existing work typically treats event prediction as classification tasks and confines the outcomes of future events to a fixed scope, such as yes/no questions, candidate set, and taxonomy, which is difficult to include all possible outcomes of future events. In this paper, we introduce OpenEP (an Open-Ended Future Event Prediction task), which generates flexible and diverse predictions aligned with real-world scenarios. This is mainly reflected in two aspects: firstly, the predictive questions are diverse, covering different stages of event development and perspectives; secondly, the outcomes are flexible, without constraints on scope or format. To facilitate the study of this task, we construct OpenEPBench, an open-ended future event prediction dataset. For question construction, we pose questions from seven perspectives, including location, time, event development, event outcome, event impact, event response, and other, to facilitate an in-depth analysis and understanding of the comprehensive evolution of events. For outcome construction, we collect free-form text containing the outcomes as ground truth to provide semantically complete and detail-enriched outcomes. Furthermore, we propose StkFEP, a stakeholder-enhanced future event prediction framework, that incorporates event characteristics for open-ended settings. Our method extracts stakeholders involved in events to extend questions to gather diverse information. We also collect historically events that are relevant and similar to the question to reveal potential evolutionary patterns. Experiment results indicate that accurately predicting future events in open-ended settings is challenging for existing LLMs. | 翻訳日:2024-08-15 12:12:37 公開日:2024-08-14 |
# 生体イベント抽出のためのイベント構造認識生成モデル
An Event Structure-aware Generative Model for Biomedical Event Extraction ( http://arxiv.org/abs/2408.06583v2 ) ライセンス: Link先を確認 | Haohan Yuan, Siu Cheung Hui, Haopeng Zhang, | (参考訳) バイオメディカルイベント抽出(BEE)は、バイオメディカルテキストにおける微細な実体間の複雑な関係をモデル化する難しいタスクである。
既存のBEEモデルは、データ内のラベルのセマンティクスや引数の依存関係を無視した分類方法に依存しています。
プロンプトを用いた生成モデルは、イベント抽出にますます使われているが、バイオメディカルドメインの効果的なプロンプトの作成と、テキスト内の複雑な構造を持つイベントの処理という、2つの大きな課題に直面している。
これらの制約に対処するため, バイオメディカルイベント抽出のための構造認識プレフィックスを付加した生成モデルGenBEEを提案する。
GenBEEは、大きな言語モデル(LLM)から抽出された知識を活用するイベントプロンプトを構築し、ラベルの意味論と引数依存関係の両方を組み込む。
さらに、GenBEEは構造的なプロンプトを持つ構造的なプレフィックスを生成する構造的なプレフィックス学習モジュールを導入し、構造的な特徴を持つ生成プロセスを強化した。
3つのベンチマークデータセットに対する大規模な実験は、GenBEEの有効性を示し、MLEEとGE11データセット上で最先端のパフォーマンスを達成する。
さらに, 構造的プレフィックスは, 構造的プロンプトと生成モデルの表現空間とのギャップを効果的に橋渡しし, イベント構造情報のより良い統合を可能にすることを示す。
Biomedical Event Extraction (BEE) is a challenging task that involves modeling complex relationships between fine-grained entities in biomedical text. Most existing BEE models rely on classification methods that ignore label semantics and argument dependencies in the data. Although generative models that use prompts are increasingly being used for event extraction, they face two main challenges: creating effective prompts for the biomedical domain and dealing with events with complex structures in the text. To address these limitations, we propose GenBEE, a generative model enhanced with structure-aware prefixes for biomedical event extraction. GenBEE constructs event prompts that leverage knowledge distilled from large language models (LLMs), thereby incorporating both label semantics and argument dependency relationships. Additionally, GenBEE introduces a structural prefix learning module that generates structure-aware prefixes with structural prompts, enriching the generation process with structural features. Extensive experiments on three benchmark datasets demonstrate the effectiveness of GenBEE and it achieves state-of-the-art performance on the MLEE and GE11 datasets. Moreover, our analysis shows that the structural prefixes effectively bridge the gap between structural prompts and the representation space of generative models, enabling better integration of event structural information. | 翻訳日:2024-08-15 12:12:37 公開日:2024-08-14 |
# Amuro & Char:大規模言語モデルの事前学習と微調整の関係の分析
Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models ( http://arxiv.org/abs/2408.06663v2 ) ライセンス: Link先を確認 | Kaiser Sun, Mark Dredze, | (参考訳) 大規模言語モデルの開発は、通常、大きなテキストコーパスで事前訓練され、モデルを人間の好みや下流のタスクに合わせるためのチューニングステージが実施される、事前訓練済みのパラダイムの形成につながる。
本研究では,複数の中間学習モデルチェックポイントを微調整することにより,事前学習と微調整の関係について検討する。
私たちの18のデータセットの結果は、
一 連続事前訓練は、微調整の後に現われる潜時的な方法により、モデルを改善する。
二 追加の微調整により、モデルが能力を示すことができないデータセットは、事前訓練期間中に、モデルがよく機能するデータセットよりも大きく向上する。
三 モデルは、監督された微調整により著しく恩恵を受けるが、これまで知られていたドメイン知識及び微調整中に見られない課題を忘れることがある。
iv) モデルは、教師付き微調整後の評価プロンプトに対して高い感度に類似しているが、この感度は、より事前訓練によって緩和することができる。
The development of large language models leads to the formation of a pre-train-then-align paradigm, in which the model is typically pre-trained on a large text corpus and undergoes a tuning stage to align the model with human preference or downstream tasks. In this work, we investigate the relationship between pre-training and fine-tuning by fine-tuning multiple intermediate pre-trained model checkpoints. Our results on 18 datasets suggest that i) continual pre-training improves the model in a latent way that unveils after fine-tuning; ii) with extra fine-tuning, the datasets that the model does not demonstrate capability gain much more than those that the model performs well during the pre-training stage; iii) although model benefits significantly through supervised fine-tuning, it may forget previously known domain knowledge and the tasks that are not seen during fine-tuning; iv) the model resembles high sensitivity to evaluation prompts after supervised fine-tuning, but this sensitivity can be alleviated by more pre-training. | 翻訳日:2024-08-15 12:12:37 公開日:2024-08-14 |
# 微細不整合によるオーディオ・ビジュアルディープフェイクの検出
Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies ( http://arxiv.org/abs/2408.06753v2 ) ライセンス: Link先を確認 | Marcella Astrid, Enjie Ghorbel, Djamila Aouada, | (参考訳) オーディオ・ビジュアル・ディープフェイク検出における既存の手法は、主に音声と視覚データの不整合をモデル化するための高レベルな特徴に焦点を当てている。
結果として、これらのアプローチは通常、ディープフェイクに固有の、より微細なオーディオ視覚アーチファクトを見落としている。
本稿では,空間領域と時間領域の両方において微妙なアーティファクトを検出するためのきめ細かいメカニズムを提案する。
まず,音声との不整合が生じやすい小さな空間領域を撮影できる局所視覚モデルを提案する。
その目的のために、アテンションモジュールと結合された空間的局所距離に基づくきめ細かいメカニズムを採用する。
第2に、トレーニングセットに微妙な時間的不整合を取り入れたサンプルを含む、時間的に局所的な擬似フェイク増強を導入する。
DFDC と FakeAVCeleb データセットを用いた実験により,提案手法の一般化における優位性を示した。
Existing methods on audio-visual deepfake detection mainly focus on high-level features for modeling inconsistencies between audio and visual data. As a result, these approaches usually overlook finer audio-visual artifacts, which are inherent to deepfakes. Herein, we propose the introduction of fine-grained mechanisms for detecting subtle artifacts in both spatial and temporal domains. First, we introduce a local audio-visual model capable of capturing small spatial regions that are prone to inconsistencies with audio. For that purpose, a fine-grained mechanism based on a spatially-local distance coupled with an attention module is adopted. Second, we introduce a temporally-local pseudo-fake augmentation to include samples incorporating subtle temporal inconsistencies in our training set. Experiments on the DFDC and the FakeAVCeleb datasets demonstrate the superiority of the proposed method in terms of generalization as compared to the state-of-the-art under both in-dataset and cross-dataset settings. | 翻訳日:2024-08-15 12:12:37 公開日:2024-08-14 |
# キャンディクラッシュサガにおけるバンドル勧告のスケール不変的アプローチについて
On a Scale-Invariant Approach to Bundle Recommendations in Candy Crush Saga ( http://arxiv.org/abs/2408.06799v2 ) ライセンス: Link先を確認 | Styliani Katsarou, Francesca Carminati, Martin Dlask, Marta Braojos, Lavena Patra, Richard Perkins, Carlos Garcia Ling, Maria Paskevich, | (参考訳) プレイヤーの好みをよく理解することは、特にモバイルゲームにおいてコンテンツ関連性を高めるために不可欠である。
本稿では,モバイルゲームシナリオにおけるアイテムレコメンデーション作成における注意モデルの利用について述べる。
この手法は、ユーザレベルのレコメンデーションを作成するための教師なしアプローチと教師なしアプローチを組み合わせたもので、予測に新しいスケール不変アプローチを導入している。
この手法はその後、Candy Crush Sagaのバンドルレコメンデーションに適用される。
数百万のユーザに提供するようにスケールアップされたMLモデルのデプロイメント、メンテナンス、監視の戦略に加えて、MLシステムの技術的負債を最小限に抑えるためのベストプラクティスと設計パターンが紹介されている。
推奨アプローチはオフラインとオンラインの両方で評価され、エンゲージメントの増加、クリック・アンド・テイクレート、ノベルティ効果、レコメンデーションの多様性、退行フィードバックループの影響を理解することに焦点を当てている。
提案手法は,クリック率を30%,テイクレートを40%以上向上させ,ユーザのエンゲージメントを30%向上させることを示した。
さらに,ユーザのエンゲージメントに対する推奨精度の低下効果を実証的に定量化する。
A good understanding of player preferences is crucial for increasing content relevancy, especially in mobile games. This paper illustrates the use of attentive models for producing item recommendations in a mobile game scenario. The methodology comprises a combination of supervised and unsupervised approaches to create user-level recommendations while introducing a novel scale-invariant approach to the prediction. The methodology is subsequently applied to a bundle recommendation in Candy Crush Saga. The strategy of deployment, maintenance, and monitoring of ML models that are scaled up to serve millions of users is presented, along with the best practices and design patterns adopted to minimize technical debt typical of ML systems. The recommendation approach is evaluated both offline and online, with a focus on understanding the increase in engagement, click- and take rates, novelty effects, recommendation diversity, and the impact of degenerate feedback loops. We have demonstrated that the recommendation enhances user engagement by 30% concerning click rate and by more than 40% concerning take rate. In addition, we empirically quantify the diminishing effects of recommendation accuracy on user engagement. | 翻訳日:2024-08-15 12:12:37 公開日:2024-08-14 |
# 映像から映像への変換器の動的・圧縮的適応
Dynamic and Compressive Adaptation of Transformers From Images to Videos ( http://arxiv.org/abs/2408.06840v2 ) ライセンス: Link先を確認 | Guozhen Zhang, Jingyu Liu, Shengming Cao, Xiaotong Zhao, Kevin Zhao, Kai Ma, Limin Wang, | (参考訳) 近年,画像テキストマッチングによるViT(Pre-trained Vision Transformer)の顕著な成功により,画像から映像への適応への関心が高まっている。
しかし、現在のほとんどのアプローチは各フレームのフルフォワードパスを保持しており、ビデオ全体の処理に高い計算オーバーヘッドをもたらす。
本稿では,動的フレーム間Token補間を用いた圧縮画像から映像への適応手法InTIを提案する。
InTIは、コヒーレントな時空間構造を乱すことなく、情報的トークンをソフトに保存することを目指している。
具体的には、隣接するフレーム内の同一位置にある各トークンペアを線形に新しいトークンに集約し、その集約重みはマルチスケールのコンテキスト認識ネットワークによって生成される。
これにより、隣接するフレームの情報をポイント・バイ・ポイントで適応的に圧縮し、処理されたフレームの数を1回に半分減らすことができる。
重要なことは、InTIは既存のアダプティブメソッドとシームレスに統合することができ、複雑な設計をせずに強力なパフォーマンスを実現することができる。
Kinetics-400 では、InTI は 87.1 の最高-1 の精度に達し、GFLOP は単純適応に比べて37.5% 減少している。
追加の時間モジュールと組み合わせると、InTIは最高1の精度87.6で、GFLOPsは37%減少する。
同様の結論は、他の一般的なデータセットで検証されている。
Recently, the remarkable success of pre-trained Vision Transformers (ViTs) from image-text matching has sparked an interest in image-to-video adaptation. However, most current approaches retain the full forward pass for each frame, leading to a high computation overhead for processing entire videos. In this paper, we present InTI, a novel approach for compressive image-to-video adaptation using dynamic Inter-frame Token Interpolation. InTI aims to softly preserve the informative tokens without disrupting their coherent spatiotemporal structure. Specifically, each token pair at identical positions within neighbor frames is linearly aggregated into a new token, where the aggregation weights are generated by a multi-scale context-aware network. In this way, the information of neighbor frames can be adaptively compressed in a point-by-point manner, thereby effectively reducing the number of processed frames by half each time. Importantly, InTI can be seamlessly integrated with existing adaptation methods, achieving strong performance without extra-complex design. On Kinetics-400, InTI reaches a top-1 accuracy of 87.1 with a remarkable 37.5% reduction in GFLOPs compared to naive adaptation. When combined with additional temporal modules, InTI achieves a top-1 accuracy of 87.6 with a 37% reduction in GFLOPs. Similar conclusions have been verified in other common datasets. | 翻訳日:2024-08-15 12:12:37 公開日:2024-08-14 |
# 合成赤外画像合成に関する総合的研究
A Comprehensive Survey on Synthetic Infrared Image synthesis ( http://arxiv.org/abs/2408.06868v2 ) ライセンス: Link先を確認 | Avinash Upadhyay, Manoj sharma, Prerana Mukherjee, Amit Singhal, Brejesh Lall, | (参考訳) 合成赤外線シーンとターゲット生成は、リモートセンシング、監視、ターゲット認識などの様々なアプリケーションのトレーニングとテストのための現実的な赤外線画像とターゲットの生成を可能にするため、重要なコンピュータビジョン問題である。
また、現実世界の赤外線データ収集に伴うコストとリスクの低減にも役立ちます。
本稿では,従来の数学的モデリングに基づく手法と,合成IRシーンやターゲットを生成するためのディープラーニングに基づく手法の概要を概観することを目的とする。
本稿では、合成赤外線シーンとターゲット生成の重要性を論じ、黒体とグレーの体放射の数学、およびIR画像キャプチャー法について概説する。
合成赤外線シーンとターゲット生成の潜在的な利用事例についても述べ,様々な分野におけるこれらの技術の重要性を強調した。
さらに、合成赤外線シーンとターゲット生成の効率性と効果を高める新しい技術開発の可能性について検討し、さらなる研究の必要性を強調した。
Synthetic infrared (IR) scene and target generation is an important computer vision problem as it allows the generation of realistic IR images and targets for training and testing of various applications, such as remote sensing, surveillance, and target recognition. It also helps reduce the cost and risk associated with collecting real-world IR data. This survey paper aims to provide a comprehensive overview of the conventional mathematical modelling-based methods and deep learning-based methods used for generating synthetic IR scenes and targets. The paper discusses the importance of synthetic IR scene and target generation and briefly covers the mathematics of blackbody and grey body radiations, as well as IR image-capturing methods. The potential use cases of synthetic IR scenes and target generation are also described, highlighting the significance of these techniques in various fields. Additionally, the paper explores possible new ways of developing new techniques to enhance the efficiency and effectiveness of synthetic IR scenes and target generation while highlighting the need for further research to advance this field. | 翻訳日:2024-08-15 12:12:37 公開日:2024-08-14 |
# Garfinkle-Horowitz-Stromingerダイレーション時空におけるフェルミオン場に対する量子肥満と操舵楕円体
Quantum obesity and steering ellipsoids for fermionic fields in Garfinkle-Horowitz-Strominger dilation spacetime ( http://arxiv.org/abs/2408.06869v2 ) ライセンス: Link先を確認 | Samira Elghaayda, M. Y. Abd-Rabbou, Mostafa Mansour, | (参考訳) 本稿では,Garfinkle-Horowitz-Strominger (GHS) による2分割ギシン状態に対する量子肥満(QO),量子不和(QD),および量子ステアリング楕円体(QSE)について検討する。
これら3つの量化器は、絡み合いを超えて量子相関を特徴づけるために導入され、絡み合いの証人としても機能する。
その結果,第2量子ビットの領域I内での拡散パラメータの増加に伴い,QDおよびQOの物理的アクセシビリティは単調に低下することが示された。
逆に、反粒子領域において、QDとQOのアクセシビリティは、パウリの排他原理とフェルミ・ディラック統計の影響により、拡張パラメータの有限値で安定化し、その後徐々に増加する。
特に、領域IにおけるQSEは、ディラック磁場の周波数が上昇し、希釈パラメータが減少するにつれて拡大し、反粒子領域では逆の傾向が観察される。
This paper investigates quantum obesity (QO), quantum discord (QD), and the quantum steering ellipsoid (QSE) for bipartite Gisin states subjected to Garfinkle-Horowitz-Strominger (GHS) dilation of spacetime on the second qubit. These three quantifiers are introduced to characterize quantum correlations beyond entanglement and can also function as entanglement witnesses. Our results demonstrate a monotonic decrease in the physical accessibility of both QD and QO as the dilation parameter increases within the region-I of the second qubit. Conversely, in the anti-particle region, the accessibility of QD and QO stabilizes at finite values of the dilation parameter owing to the influence of the Pauli exclusion principle and Fermi-Dirac statistics, subsequently increasing gradually. Notably, the QSE in the region-I expands as the Dirac field frequency rises and the dilation parameter diminishes, while the opposite trend is observed in the anti-particle region. | 翻訳日:2024-08-15 12:12:37 公開日:2024-08-14 |
# 信念変化理論による対話型説明可能なAIの進化
Advancing Interactive Explainable AI via Belief Change Theory ( http://arxiv.org/abs/2408.06875v2 ) ライセンス: Link先を確認 | Antonio Rago, Maria Vanina Martinez, | (参考訳) AIモデルがより複雑になり、人間の日常生活に絡み合うようになるにつれ、説明可能なAI(XAI)メソッドの相互作用のレベルがさらに高くなる。
本稿では,データ駆動型分類器の論理的表現に新たな情報,すなわち対話型XAIにおけるユーザフィードバックをモデル化する演算子の形式的基礎として,信念変化理論を用いることを提案する。
我々は,このような形式化は,対話的説明を原則的に発展させる枠組みと方法論を提供し,保証された行動を提供し,そのような相互作用の透明性と説明責任を優先するものである,と論じる。
具体的には、まず、人間と機械間で共有される説明情報を表す、論理に基づく新しい形式を定義します。
次に、対話型XAIの現実シナリオについて検討し、新しい知識と既存の知識の優先順位が異なり、フォーマリズムがインスタンス化される可能性がある。
最後に、信念の変化の仮定のコアセットを分析し、実世界の設定に適合する可能性について議論し、既存の演算子を基盤とする理論的な仮定の緩和や再解釈を必要とする可能性のある特定の課題を指摘した。
As AI models become ever more complex and intertwined in humans' daily lives, greater levels of interactivity of explainable AI (XAI) methods are needed. In this paper, we propose the use of belief change theory as a formal foundation for operators that model the incorporation of new information, i.e. user feedback in interactive XAI, to logical representations of data-driven classifiers. We argue that this type of formalisation provides a framework and a methodology to develop interactive explanations in a principled manner, providing warranted behaviour and favouring transparency and accountability of such interactions. Concretely, we first define a novel, logic-based formalism to represent explanatory information shared between humans and machines. We then consider real world scenarios for interactive XAI, with different prioritisations of new and existing knowledge, where our formalism may be instantiated. Finally, we analyse a core set of belief change postulates, discussing their suitability for our real world settings and pointing to particular challenges that may require the relaxation or reinterpretation of some of the theoretical assumptions underlying existing operators. | 翻訳日:2024-08-15 12:12:37 公開日:2024-08-14 |
# ハイブリッド添加物製造のためのCADモデルからの特徴認識と次元属性の自動抽出
Automatic Feature Recognition and Dimensional Attributes Extraction From CAD Models for Hybrid Additive-Subtractive Manufacturing ( http://arxiv.org/abs/2408.06891v2 ) ライセンス: Link先を確認 | Muhammad Tayyab Khan, Wenhe Feng, Lequn Chen, Ye Han Ng, Nicholas Yew Jin Tan, Seung Ki Moon, | (参考訳) CAD(Computer-Aided Design)、CAPP(Computer-Aided Process Planning)、CAM(Computer-Aided Manufacturing)の統合は、デジタルデザインから物理製品へのシームレスな移行を促進するため、現代の製造業において重要な役割を果たす。
しかし、この統合における重要な課題はCADモデルの自動特徴認識(AFR)であり、特に減算的および加法的製造プロセスを組み合わせたハイブリッド製造の文脈においてである。
伝統的なAFR法は、主に穴、フィレット、シャンファー、ポケット、スロットを含む減算的(機械化された)特徴の識別に重点を置いていたが、添加物の製造に関係する特徴を認識できなかった。
さらに, 従来の手法は, 形状や方向を正確に抽出するに足りず, 効率的な製造工程計画の鍵となる要素でもある。
本稿では,Python Open Cascadeによる付加的および減算的加工に関連する特徴を含む合成CADデータセットを作成するための新しいアプローチを提案する。
The Hierarchical Graph Convolutional Neural Network (HGCNN) model is implemented to correct identified the Composite additive-subtractive features in the synthetic CAD dataset。
提案手法の重要な新規性と貢献は、幅広い製造特徴を認識し、その寸法、配向、ストックサイズを正確に抽出する能力にある。
提案モデルでは,特徴認識精度が97%を超え,特徴抽出精度が100%以上であることを示す。
そこで本提案手法は, CAD, CAPP, CAMのハイブリッド製造における統合性を高め, 正確な特徴認識と次元抽出を実現する。
より情報のある意思決定を可能にすることにより、製造プロセスの計画の改善を促進する。
The integration of Computer-Aided Design (CAD), Computer-Aided Process Planning (CAPP), and Computer-Aided Manufacturing (CAM) plays a crucial role in modern manufacturing, facilitating seamless transitions from digital designs to physical products. However, a significant challenge within this integration is the Automatic Feature Recognition (AFR) of CAD models, especially in the context of hybrid manufacturing that combines subtractive and additive manufacturing processes. Traditional AFR methods, focused mainly on the identification of subtractive (machined) features including holes, fillets, chamfers, pockets, and slots, fail to recognize features pertinent to additive manufacturing. Furthermore, the traditional methods fall short in accurately extracting geometric dimensions and orientations, which are also key factors for effective manufacturing process planning. This paper presents a novel approach for creating a synthetic CAD dataset that encompasses features relevant to both additive and subtractive machining through Python Open Cascade. The Hierarchical Graph Convolutional Neural Network (HGCNN) model is implemented to accurately identify the composite additive-subtractive features within the synthetic CAD dataset. The key novelty and contribution of the proposed methodology lie in its ability to recognize a wide range of manufacturing features, and precisely extracting their dimensions, orientations, and stock sizes. The proposed model demonstrates remarkable feature recognition accuracy exceeding 97% and a dimension extraction accuracy of 100% for identified features. Therefore, the proposed methodology enhances the integration of CAD, CAPP, and CAM within hybrid manufacturing by providing precise feature recognition and dimension extraction. It facilitates improved manufacturing process planning, by enabling more informed decision-making. | 翻訳日:2024-08-15 12:12:37 公開日:2024-08-14 |
# 対話型XAIシステムにおけるユーザ理解の測定
Measuring User Understanding in Dialogue-based XAI Systems ( http://arxiv.org/abs/2408.06960v2 ) ライセンス: Link先を確認 | Dimitry Mindlin, Amelie Sophie Robrecht, Michael Morasch, Philipp Cimiano, | (参考訳) eXplainable Artificial Intelligence(XAI)の分野は、ユーザーの説明要求をよりよく反映するために、説明をパーソナライズおよび/またはインタラクティブに適応する必要性を認識している。
XAIへの対話に基づくアプローチは近年提案されているが、XAIの最先端技術は、我々が「ワンショット、非個人化、片道説明」と呼ぶものによってまだ特徴付けられている。
対照的に、ユーザとの対話を通じて説明を適応できる対話ベースのシステムは、より直感的な情報要求方法を提供するため、GUIベースの説明やダッシュボードの説明よりも優れていると約束する。
一般に、対話型XAIシステムはユーザ満足度の観点から評価されることが多いが、ユーザの客観的モデル理解にアクセスする研究は限られている。
これは特に対話ベースのXAIアプローチの場合です。
本稿では,ユーザが学習しているモデルの予測をシミュレートして,3段階のユーザ理解を計測する対話フレームワーク内で,制御された実験を行うことにより,このギャップを埋める。
これにより、モデルがどのように機能するかを(改善された)理解するレベルを定量化し、相互作用の前と後の状態を比較できる。
さらにデータを分析し、高い理解率と低い理解率の集団間の相互作用がどのように異なるかを明らかにする。
全体として、私たちの研究は、XAIアプローチの有効性についての理解に寄与します。
The field of eXplainable Artificial Intelligence (XAI) is increasingly recognizing the need to personalize and/or interactively adapt the explanation to better reflect users' explanation needs. While dialogue-based approaches to XAI have been proposed recently, the state-of-the-art in XAI is still characterized by what we call one-shot, non-personalized and one-way explanations. In contrast, dialogue-based systems that can adapt explanations through interaction with a user promise to be superior to GUI-based or dashboard explanations as they offer a more intuitive way of requesting information. In general, while interactive XAI systems are often evaluated in terms of user satisfaction, there are limited studies that access user's objective model understanding. This is in particular the case for dialogue-based XAI approaches. In this paper, we close this gap by carrying out controlled experiments within a dialogue framework in which we measure understanding of users in three phases by asking them to simulate the predictions of the model they are learning about. By this, we can quantify the level of (improved) understanding w.r.t. how the model works, comparing the state prior, and after the interaction. We further analyze the data to reveal patterns of how the interaction between groups with high vs. low understanding gain differ. Overall, our work thus contributes to our understanding about the effectiveness of XAI approaches. | 翻訳日:2024-08-15 12:12:37 公開日:2024-08-14 |