このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241022となっている論文です。

PDF登録状況(公開日: 20241022)

TitleAuthorsAbstract論文公表日・翻訳日
# Holmes: 言語モデルの言語能力を評価するベンチマーク

Holmes: A Benchmark to Assess the Linguistic Competence of Language Models ( http://arxiv.org/abs/2404.18923v3 )

ライセンス: Link先を確認
Andreas Waldis, Yotam Perlitz, Leshem Choshen, Yufang Hou, Iryna Gurevych, (参考訳) 言語モデル(LM)の言語能力を評価するために設計された新しいベンチマークであるHolmesを紹介した。 具体的には、分類器に基づく探索を用いて、異なる言語現象(例えば、音声タグ付け)に関するLMの内部表現を調べる。 その結果,近年,LMの言語能力と他の認知能力とを両立させることが求められている。 ホームズによる270以上の探索研究を概観し、構文、形態学、意味論、推論、談話現象を評価するために200以上のデータセットを含む。 50 LM以上を分析してみると、既知の傾向に合わせて、言語能力はモデルのサイズと相関していることがわかる。 しかし、驚くべきことに、モデルアーキテクチャと命令チューニングは、特に形態学や構文において、パフォーマンスにも大きな影響を与えている。 最後に,FlashHolmesを提案する。FlashHolmesは,高い精度を維持しながら計算負荷を削減する。

We introduce Holmes, a new benchmark designed to assess language models (LMs) linguistic competence - their unconscious understanding of linguistic phenomena. Specifically, we use classifier-based probing to examine LMs' internal representations regarding distinct linguistic phenomena (e.g., part-of-speech tagging). As a result, we meet recent calls to disentangle LMs' linguistic competence from other cognitive abilities, such as following instructions in prompting-based evaluations. Composing Holmes, we review over 270 probing studies and include more than 200 datasets to assess syntax, morphology, semantics, reasoning, and discourse phenomena. Analyzing over 50 LMs reveals that, aligned with known trends, their linguistic competence correlates with model size. However, surprisingly, model architecture and instruction tuning also significantly influence performance, particularly in morphology and syntax. Finally, we propose FlashHolmes, a streamlined version that reduces the computation load while maintaining high-ranking precision.
翻訳日:2024-11-09 02:52:30 公開日:2024-10-22
# 有限演算子学習 : ブリッジングニューラル演算子と効率的パラメトリック解の数値解法とPDEの最適化

Finite Operator Learning: Bridging Neural Operators and Numerical Methods for Efficient Parametric Solution and Optimization of PDEs ( http://arxiv.org/abs/2407.04157v2 )

ライセンス: Link先を確認
Shahed Rezaei, Reza Najian Asl, Kianoosh Taghikhani, Ahmad Moeineddin, Michael Kaliske, Markus Apel, (参考訳) 本稿では,ニューラルネットワーク,物理情報処理機械学習,およびPDEを解くための標準的な数値法を組み合わせた手法を提案する。 提案手法は、上記の各メソッドを拡張し、それらを単一のフレームワークに統合する。 データフリーな方法で偏微分方程式をパラメトリックに解き、正確な感度、すなわち設計空間に関する解空間の微分を与えることができる。 これらの機能は、応答関数の数に直接スケールする随伴法とは異なり、典型的な感度解析コストなしで勾配に基づく最適化を可能にする。 我々のFOL(Finite Operator Learning)アプローチでは、複雑でないフィードフォワードニューラルネットワークモデルを使用して、離散的な設計空間(パラメトリック入力空間)を直接離散的なソリューション空間(任意の形状領域における有限個のセンサポイント)にマッピングし、それらを損失関数に設計することで物理法則に準拠する。 離散化された支配方程式は、設計や解空間と同様に、確立された任意の数値技術から導出することができる。 本研究ではフィールドとその空間微分を近似するために有限要素法(FEM)を用いる。 その後、エネルギー汎関数の離散化弱形、境界条件違反、設計変数に対する残留物の定常性を含む多目的損失関数を最小化するためにソボレフ訓練を行う。 本研究は, 相コントラストに有意な温度依存性を示す不均一材料中の定常熱方程式に着目した。 ネットワークの接点行列は、組織の熱伝達特性を改善するために勾配に基づく最適化に直接使用される。 はぁ...。

We introduce a method that combines neural operators, physics-informed machine learning, and standard numerical methods for solving PDEs. The proposed approach extends each of the aforementioned methods and unifies them within a single framework. We can parametrically solve partial differential equations in a data-free manner and provide accurate sensitivities, meaning the derivatives of the solution space with respect to the design space. These capabilities enable gradient-based optimization without the typical sensitivity analysis costs, unlike adjoint methods that scale directly with the number of response functions. Our Finite Operator Learning (FOL) approach uses an uncomplicated feed-forward neural network model to directly map the discrete design space (i.e. parametric input space) to the discrete solution space (i.e. finite number of sensor points in the arbitrary shape domain) ensuring compliance with physical laws by designing them into loss functions. The discretized governing equations, as well as the design and solution spaces, can be derived from any well-established numerical techniques. In this work, we employ the Finite Element Method (FEM) to approximate fields and their spatial derivatives. Subsequently, we conduct Sobolev training to minimize a multi-objective loss function, which includes the discretized weak form of the energy functional, boundary conditions violations, and the stationarity of the residuals with respect to the design variables. Our study focuses on the steady-state heat equation within heterogeneous materials that exhibits significant phase contrast and possibly temperature-dependent conductivity. The network's tangent matrix is directly used for gradient-based optimization to improve the microstructure's heat transfer characteristics. ...
翻訳日:2024-11-08 23:57:53 公開日:2024-10-22
# HAF-RM:リワードモデルトレーニングのためのハイブリッドアライメントフレームワーク

HAF-RM: A Hybrid Alignment Framework for Reward Model Training ( http://arxiv.org/abs/2407.04185v3 )

ライセンス: Link先を確認
Shujun Liu, Xiaoyu Shen, Yuhang Lai, Siyuan Wang, Shengbin Yue, Zengfeng Huang, Xuanjing Huang, Zhongyu Wei, (参考訳) 報奨モデルは、大規模言語モデル(LLM)のアライメント、アセスメント、データ構築においてますます重要になっている。 既存の研究者の多くは、予測された報酬を直接最適化する報酬モデルのための従来のトレーニングフレームワークに従って、データ改善を通じて報酬モデルを強化することに重点を置いている。 本稿では,報酬スコアに加えてトークンレベルの政策確率に制約を加えることで,報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。 トークンレベルで内部の嗜好モデルを同時に監視し、シーケンスレベルで報酬モデルのマッピング層を最適化することができる。 5つのデータセットの理論的正当性と実験結果から,高品質の報酬モデルをトレーニングするためのハイブリッドフレームワークの有効性と有効性を示した。 我々のHaF-RMフレームワークは、報酬モデリング手順を分離し、ハイブリッド・インスペクションを取り入れることで、強力な言語モデルの開発において重要な要素である報酬モデルの性能とアライメントを向上させるための原則的かつ効果的なアプローチを提供する。 コードをhttps://haf-rm.github.ioでリリースします。

The reward model has become increasingly important in alignment, assessment, and data construction for large language models (LLMs). Most existing researchers focus on enhancing reward models through data improvements, following the conventional training framework for reward models that directly optimizes the predicted rewards. In this paper, we propose a hybrid alignment framework HaF-RM for reward model training by introducing an additional constraint on token-level policy probabilities in addition to the reward score. It can simultaneously supervise the internal preference model at the token level and optimize the mapping layer of the reward model at the sequence level. Theoretical justifications and experiment results on five datasets show the validity and effectiveness of our proposed hybrid framework for training a high-quality reward model. By decoupling the reward modeling procedure and incorporating hybrid supervision, our HaF-RM framework offers a principled and effective approach to enhancing the performance and alignment of reward models, a critical component in the responsible development of powerful language models. We release our code at https://haf-rm.github.io.
翻訳日:2024-11-08 23:57:53 公開日:2024-10-22
# 領域不変点クラウド認識のための3次元適応型構造畳み込みネットワーク

3D Adaptive Structural Convolution Network for Domain-Invariant Point Cloud Recognition ( http://arxiv.org/abs/2407.04833v4 )

ライセンス: Link先を確認
Younggun Kim, Beomsik Cho, Seonghoon Ryoo, Soomok Lee, (参考訳) 自動運転車のポイントクラウドデータ認識にディープラーニングネットワークを適用することは、データセットやセンサー技術の変化による課題に直面し、さまざまな条件で正確性を維持するための適応技術の必要性を強調している。 本稿では,3Dポイントクラウド認識のための最先端フレームワークである3D Adaptive Structure Convolution Network (3D-ASCN)を紹介する。 3次元畳み込みカーネル、構造木構造、および効果的な幾何学的特徴抽出のための適応近傍サンプリングを組み合わせる。 本手法はドメイン不変性を取得し,様々なポイントクラウドデータセット上で堅牢で適応可能な性能を示し,パラメータ調整を必要とせず,多様なセンサ構成間の互換性を確保する。 このことは、自動運転車技術の信頼性と効率を大幅に向上させる可能性を強調している。

Adapting deep learning networks for point cloud data recognition in self-driving vehicles faces challenges due to the variability in datasets and sensor technologies, emphasizing the need for adaptive techniques to maintain accuracy across different conditions. In this paper, we introduce the 3D Adaptive Structural Convolution Network (3D-ASCN), a cutting-edge framework for 3D point cloud recognition. It combines 3D convolution kernels, a structural tree structure, and adaptive neighborhood sampling for effective geometric feature extraction. This method obtains domain-invariant features and demonstrates robust, adaptable performance on a variety of point cloud datasets, ensuring compatibility across diverse sensor configurations without the need for parameter adjustments. This highlights its potential to significantly enhance the reliability and efficiency of self-driving vehicle technology.
翻訳日:2024-11-08 23:35:45 公開日:2024-10-22
# 言語モデルにおける語彙展開と初期化アプローチの実証比較

An Empirical Comparison of Vocabulary Expansion and Initialization Approaches for Language Models ( http://arxiv.org/abs/2407.05841v2 )

ライセンス: Link先を確認
Nandini Mundra, Aditya Nanda Kishore, Raj Dabre, Ratish Puduppully, Anoop Kunchukuttan, Mitesh M. Khapra, (参考訳) 言語モデル(LM)は英語の自然言語処理タスクに優れるが、他のほとんどの言語では性能が低下している。 この問題は、上記の言語に対して、これらのモデルを継続的に事前訓練し、微調整することで対処される。 このプロセスにおける重要な問題は、オリジナルのモデルのトークン化子の語彙範囲が限られており、新しい言語の表現が不十分になり、トークン化子の拡張が必要になったことである。 新しい語彙項目に対応する埋め込みの初期化は、さらなる課題を示す。 現在の戦略では、言語間埋め込みが必要であり、強いベースラインとの比較だけでなく、しっかりとした理論的な基礎が欠如している。 本稿では,既存の埋め込みの凸内包の初期化がよい初期化であり,その後に,言語間埋め込みを必要としない新しい単純なアプローチであるConstrained Word2Vec (CW2V) が提案される。 そこで本研究では,RoBERTaとLLaMA2を4言語5タスクに拡張するための異なる初期化手法について検討した。 その結果、CW2Vは、より高度な技術よりも、等しく、あるいはそれ以上に機能することがわかった。 さらに, マルチ変数初期化のようなより単純な手法は, より単純な初期化手法であっても, 大規模多言語連続事前学習を効果的に行うことができることを示す。 コードを公開しています(https://github.com/AI4Bharat/VocabAdaptation_LLM/tree/CW2V)。

Language Models (LMs) excel in natural language processing tasks for English but show reduced performance in most other languages. This problem is commonly tackled by continually pre-training and fine-tuning these models for said languages. A significant issue in this process is the limited vocabulary coverage in the original model's tokenizer, leading to inadequate representation of new languages and necessitating an expansion of the tokenizer. The initialization of the embeddings corresponding to new vocabulary items presents a further challenge. Current strategies require cross-lingual embeddings and lack a solid theoretical foundation as well as comparisons with strong baselines. In this paper, we first establish theoretically that initializing within the convex hull of existing embeddings is a good initialization, followed by a novel but simple approach, Constrained Word2Vec (CW2V), which does not require cross-lingual embeddings. Our study evaluates different initialization methods for expanding RoBERTa and LLaMA 2 across four languages and five tasks. The results show that CW2V performs equally well or even better than more advanced techniques. Additionally, simpler approaches like multivariate initialization perform on par with these advanced methods indicating that efficient large-scale multilingual continued pretraining can be achieved even with simpler initialization methods. We release our code publicly (https://github.com/AI4Bharat/VocabAdaptation_LLM/tree/CW2V).
翻訳日:2024-11-08 23:24:33 公開日:2024-10-22
# 拡散モデルを用いたゼロショット in-silico 組織像生成のためのマスク誘導クロスイメージアテンション

Mask-guided cross-image attention for zero-shot in-silico histopathologic image generation with a diffusion model ( http://arxiv.org/abs/2407.11664v2 )

ライセンス: Link先を確認
Dominik Winter, Nicolas Triltsch, Marco Rosati, Anatoliy Shumilov, Ziya Kokaragac, Yuri Popov, Thomas Padel, Laura Sebastian Monasor, Ross Hill, Markus Schick, Nicolas Brieu, (参考訳) 生成AIによるシリコン内データの作成は、スライディング、イメージング、アノテートといったコスト効率の良い代替手段を計算病理学で実現している。 拡散モデルは、非平行な忠実さとリアリズムを提供する、シリコン内画像を生成する最先端のソリューションである。 外見伝達拡散モデルを使用することで、ゼロショット画像生成が可能になり、高速なアプリケーションを容易にし、モデルのトレーニングを不要にする。 しかし、現在の外見伝達拡散モデルは、原点から対象領域への前景オブジェクトの転送が主な課題である自然画像のために設計されており、背景は重要ではない。 計算病理学、特に腫瘍学では、画像内のどのオブジェクトを前景と背景に分類すべきかを定義することは容易ではない。 我々は,既存のセグメンテーションマスクを用いて,クラス固有のAdaIN特徴量統計マッチングを交互に行うために,外見伝達誘導を変更することで,免疫組織化学染色画像への外見伝達拡散モデルの適用性に寄与する。 提案手法の性能は,教師付き上皮セグメンテーションの下流タスクで実証され,モデルトレーニングに必要な手動アノテーションの数が75%削減され,ベースラインアプローチよりも優れていた。 また,今後の改善を検討するため,認定病理医と相談した。 本研究は,計算病理学におけるゼロショット拡散モデルの適用を刺激し,既存の深層学習モデルや微調整基礎モデルなどの下流タスクにおいて有意義な,不整合の忠実さと現実性を持ったシリカ内画像を生成する効率的な方法を提供することを期待する。

Creating in-silico data with generative AI promises a cost-effective alternative to staining, imaging, and annotating whole slide images in computational pathology. Diffusion models are the state-of-the-art solution for generating in-silico images, offering unparalleled fidelity and realism. Using appearance transfer diffusion models allows for zero-shot image generation, facilitating fast application and making model training unnecessary. However current appearance transfer diffusion models are designed for natural images, where the main task is to transfer the foreground object from an origin to a target domain, while the background is of insignificant importance. In computational pathology, specifically in oncology, it is however not straightforward to define which objects in an image should be classified as foreground and background, as all objects in an image may be of critical importance for the detailed understanding the tumor micro-environment. We contribute to the applicability of appearance transfer diffusion models to immunohistochemistry-stained images by modifying the appearance transfer guidance to alternate between class-specific AdaIN feature statistics matchings using existing segmentation masks. The performance of the proposed method is demonstrated on the downstream task of supervised epithelium segmentation, showing that the number of manual annotations required for model training can be reduced by 75%, outperforming the baseline approach. Additionally, we consulted with a certified pathologist to investigate future improvements. We anticipate this work to inspire the application of zero-shot diffusion models in computational pathology, providing an efficient method to generate in-silico images with unmatched fidelity and realism, which prove meaningful for downstream tasks, such as training existing deep learning models or finetuning foundation models.
翻訳日:2024-11-08 20:59:00 公開日:2024-10-22
# UrbanWorld:3Dシティジェネレーションのための都市世界モデル

UrbanWorld: An Urban World Model for 3D City Generation ( http://arxiv.org/abs/2407.11965v2 )

ライセンス: Link先を確認
Yu Shang, Yuming Lin, Yu Zheng, Hangyu Fan, Jingtao Ding, Jie Feng, Jiansheng Chen, Li Tian, Yong Li, (参考訳) 都市は、人間の生活の本質的な環境として、建物、道路、植生などの様々な物理的要素を包含し、人や車のような動的実体と継続的に相互作用する。 リアルでインタラクティブな3D都市環境の構築は、AGIシステムの育成と、現実世界の環境における人間のように知覚し、意思決定し、行動するAIエージェントの構築に不可欠である。 しかし、高忠実な3D都市環境を作るには、複雑な都市要素の複雑な詳細化と表現を含む、デザイナーによる広範囲な手作業が必要となる。 そのため、これを自動的に達成することは長年にわたる課題である。 そこで本研究では,フレキシブルな制御条件でカスタマイズ,現実的,インタラクティブな3D都市世界を自動生成できる,初の都市モデルであるUrbanWorldを提案する。 UrbanWorldは、OSMデータからフレキシブルな3Dレイアウト生成、セマンティックおよび高さマップによる都市レイアウト生成、アーバンMLLMによる都市シーンデザイン、プログレッシブ3D拡散による都市アセットレンダリング、MLLMによるシーンリファインメントの4つの重要なステージを組み込んでいる。 我々は5つの視覚的指標について広範囲に定量的に分析を行い、UrbanWorldがSOTA生成リアリズムを実現していることを示す。 次に、テキストと画像に基づくプロンプトを用いて、UrbanWorldの制御可能な生成能力に関する定性的な結果を提供する。 最後に、エージェントの認識とナビゲーションを生成環境内で示すことで、これらの環境のインタラクティブな性質を検証する。 UrbanWorldはhttps://github.com/Urban-World/UrbanWorldで利用可能なオープンソースツールです。

Cities, as the essential environment of human life, encompass diverse physical elements such as buildings, roads and vegetation, which continuously interact with dynamic entities like people and vehicles. Crafting realistic, interactive 3D urban environments is essential for nurturing AGI systems and constructing AI agents capable of perceiving, decision-making, and acting like humans in real-world environments. However, creating high-fidelity 3D urban environments usually entails extensive manual labor from designers, involving intricate detailing and representation of complex urban elements. Therefore, accomplishing this automatically remains a longstanding challenge. Toward this problem, we propose UrbanWorld, the first generative urban world model that can automatically create a customized, realistic and interactive 3D urban world with flexible control conditions. UrbanWorld incorporates four key stages in the generation pipeline: flexible 3D layout generation from OSM data or urban layout with semantic and height maps, urban scene design with Urban MLLM, controllable urban asset rendering via progressive 3D diffusion, and MLLM-assisted scene refinement. We conduct extensive quantitative analysis on five visual metrics, demonstrating that UrbanWorld achieves SOTA generation realism. Next, we provide qualitative results about the controllable generation capabilities of UrbanWorld using both textual and image-based prompts. Lastly, we verify the interactive nature of these environments by showcasing the agent perception and navigation within the created environments. We contribute UrbanWorld as an open-source tool available at https://github.com/Urban-World/UrbanWorld.
翻訳日:2024-11-08 20:59:00 公開日:2024-10-22
# LLMs left, right, and center: GPTがWebドメインから政治的バイアスをラベル付けする能力を評価する

LLMs left, right, and center: Assessing GPT's capabilities to label political bias from web domains ( http://arxiv.org/abs/2407.14344v2 )

ライセンス: Link先を確認
Raphael Hernandes, Giulio Corsi, (参考訳) 本研究では,現在最先端の大規模言語モデルである OpenAI の GPT-4 が,URLのみに基づいて,ニュースソースの政治的バイアスを正確に分類できるかどうかを検討する。 政治的ラベルの主観的な性質を考えると、Ad Fontes Media、AllSides、Media Bias/Fact Check(MBFC)などの第三者による偏見評価は、ニュースソースの多様性を分析するためにしばしば用いられる。 本研究の目的は、GPT-4が人間の評価を7度のスケールで再現できるかどうかを判断することである。 この分析は、GPT-4の分類とMBFCの分類を比較し、Open PageRankスコアを用いてウェブサイトの人気を制御する。 発見は、GPT-4とMBFCのレーティングの間に高い相関(\text{Spearman's } \rho = .89$, $n = 5,877$, $p < 0.001$)があることを示し、モデルの潜在的な信頼性を示している。 しかし、GPT-4はデータセットの約$\frac{2}{3}$の分類を控えた。 不人気なウェブサイトの格付けを控える傾向があり、精度の低いアセスメントに悩まされる。 LLMは、MBFCが中心点とみなすソースの分類を避け、より偏極的な出力をもたらす傾向にある。 最後に、この分析により、GPTの分類ではMBFCの分類に比べてわずかに左向きのスキューが示される。 そこで,本稿は,GPT-4がニュースサイトの政治的偏見分類のスケーラブルで費用対効果の高いツールであることを示す一方で,その使用法は,偏見を緩和するための人間の判断を補完するものとすべきである。

This research investigates whether OpenAI's GPT-4, a state-of-the-art large language model, can accurately classify the political bias of news sources based solely on their URLs. Given the subjective nature of political labels, third-party bias ratings like those from Ad Fontes Media, AllSides, and Media Bias/Fact Check (MBFC) are often used in research to analyze news source diversity. This study aims to determine if GPT-4 can replicate these human ratings on a seven-degree scale ("far-left" to "far-right"). The analysis compares GPT-4's classifications against MBFC's, and controls for website popularity using Open PageRank scores. Findings reveal a high correlation ($\text{Spearman's } \rho = .89$, $n = 5,877$, $p < 0.001$) between GPT-4's and MBFC's ratings, indicating the model's potential reliability. However, GPT-4 abstained from classifying approximately $\frac{2}{3}$ of the dataset. It is more likely to abstain from rating unpopular websites, which also suffer from less accurate assessments. The LLM tends to avoid classifying sources that MBFC considers to be centrist, resulting in more polarized outputs. Finally, this analysis shows a slight leftward skew in GPT's classifications compared to MBFC's. Therefore, while this paper suggests that while GPT-4 can be a scalable, cost-effective tool for political bias classification of news websites, its use should be as a complement to human judgment to mitigate biases.
翻訳日:2024-11-08 19:38:31 公開日:2024-10-22
# 固体スピンアンサンブルの進行状態による電波周波数検出範囲の延長

Extending Radiowave Frequency Detection Range with Dressed States of Solid-State Spin Ensembles ( http://arxiv.org/abs/2407.14483v2 )

ライセンス: Link先を確認
Jens C. Hermann, Roberto Rizzato, Fleming Bruckmaier, Robin D. Allert, Aharon Blank, Dominik B. Bucher, (参考訳) 固体スピン欠陥を用いた量子センサーは、高周波(RF)フィールドの検出に優れ、通信、範囲、センシングの様々な目的に役立っている。 この目的のために、パルス動的デカップリング(PDD)プロトコルが典型的に適用され、RF信号に対する感度が向上する。 しかし、これらの手法は数メガヘルツの周波数に制限されているため、高い周波数を感知することは困難である。 マイクロ波共振器内で駆動される窒素空隙(NV)アンサンブルスピンの着衣状態を含む連続動的デカップリング(CDD)方式に基づく代替手法を提案する。 確立されたPDDプロトコルとCDD手法を比較し、同一条件下でのPDDアプローチによる現在の限界の10倍の最大85MHzのRF信号の検出を実証する。 ヘテロダイン同期プロトコルにおけるCDD法の実装は、高周波検出と高スペクトル分解能を組み合わせたものである。 この進歩は、高周波(HF)と超高周波(VHF)のRFスペクトルの検出を必要とする様々な領域にまで及んでいる。

Quantum sensors using solid-state spin defects excel in the detection of radiofrequency (RF) fields, serving various purposes in communication, ranging, and sensing. For this purpose, pulsed dynamical decoupling (PDD) protocols are typically applied, which enhance sensitivity to RF signals. However, these methods are limited to frequencies of a few megahertz, which poses a challenge for sensing higher frequencies. We introduce an alternative approach based on a continuous dynamical decoupling (CDD) scheme involving dressed states of nitrogen vacancy (NV) ensemble spins driven within a microwave resonator. We compare the CDD methods to established PDD protocols and demonstrate the detection of RF signals up to $\sim$ 85 MHz, about ten times the current limit imposed by the PDD approach under identical conditions. Implementing the CDD method in a heterodyne synchronized protocol combines the high frequency detection with high spectral resolution. This advancement extends to various domains requiring detection in the high frequency (HF) and very high frequency (VHF) ranges of the RF spectrum, including spin sensor-based magnetic resonance spectroscopy at high magnetic fields.
翻訳日:2024-11-08 19:27:32 公開日:2024-10-22
# S2-Attention: ハードウェア対応のコンテキストシャーディング

S2-Attention: Hardware-Aware Context Sharding Among Attention Heads ( http://arxiv.org/abs/2407.17678v3 )

ライセンス: Link先を確認
Xihui Lin, Yunan Zhang, Suyu Ge, Liliang Ren, Barun Patra, Vishrav Chaudhary, Hao Peng, Xia Song, (参考訳) コンテキスト内のトークンのサブセットに選択的に出席するスパースアテンションは効率的であるはずだった。 しかし、FLOPの理論的削減は、FlashAttentionのようなハードウェアを意識した最適化が欠如しているため、その注目度よりもウォールクロックのスピードアップにはほとんど変換されていない。 一方、現在の大規模言語モデル(LLM)の規模でモデルの品質を維持することができるのか、どのようにして、疎い注意が維持できるのかは、まだ不明である。 本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。 S2-Attention は新規かつ高性能なスパースアテンション手法の探索を可能にする。 これらの知見から,本研究は,実用的な効率向上だけでなく,下流の性能向上にも寄与する疎度な注意を設計するための基本的なガイドラインを提示する。 高い並列化と最適化されたメモリIOを実現するために、スパースアテンションは、各ヘッドが全コンテキストを包含しながら異なるトークンのサブセットに出席する、アテンションヘッド間でコンテキストを均一に共有するべきである。 一方、疎度と密集度を組み合わせたハイブリッドアーキテクチャは、実際は特に有益である。 S2-Attentionは、強いFlashAttention-2ベースラインと比較して8.79X、15.87X、25.3Xのウォールクロックスピードアップを達成する。 7Bモデルでは,S2-Attentionカーネルの助けを借りて,密度の高いカーネルに比べて4.5倍の高速化を実現している。 S2-AttentionはMegatronとvLLMで直接使用するために、容易にカスタマイズできるAPIでリリースされている。

Sparse attention, which selectively attends to a subset of tokens in the context was supposed to be efficient. However, its theoretical reduction in FLOPs has rarely translated into wall-clock speed-up over its dense attention counterparts due to the lack of hardware-aware optimizations like FlashAttention. Meanwhile, it remains unclear whether sparse attention can maintain the model's quality at a scale of today's large language models (LLMs) and how. This paper presents Sparsely-Sharded(S2) Attention, a Triton library that provides kernel optimization for sparse attention customizable at both per-head and per-context-range levels. S2-Attention enables the exploration of novel and high-performance sparse attention techniques, which we demonstrate through extensive ablations across a wide range of sparse attention designs at various model scales. From these insights, we present several basic guidelines to design sparse attention that can achieve not only practical efficiency improvements, but also strong downstream performance. To achieve high parallelization and optimized memory IO, sparse attention should shard the context heterogeneously across attention heads, where each head attends to a different subset of tokens while collectively covering the full context. Meanwhile, we find hybrid architectures combining sparse and dense attention particularly beneficial in practice. S2-Attention achieves wall-clock speedup of 8.79X, 15.87X, 25.3X compared to the strong FlashAttention-2 baseline with strong downstream performance on-par with full attention and perfect retrieval performance at a 128k context length. At inference, for 7B models, our model, with the help of our S2-Attention kernel, achieves 4.5x speed-up compared to dense counterparts. S2-Attention is released with easy-to-customize APIs for direct usage in Megatron and vLLM.
翻訳日:2024-11-08 15:12:19 公開日:2024-10-22
# S2-Attention: ハードウェア対応のコンテキストシャーディング

S2-Attention: Hardware-Aware Context Sharding Among Attention Heads ( http://arxiv.org/abs/2407.17678v4 )

ライセンス: Link先を確認
Xihui Lin, Yunan Zhang, Suyu Ge, Liliang Ren, Barun Patra, Vishrav Chaudhary, Hao Peng, Xia Song, (参考訳) コンテキスト内のトークンのサブセットに選択的に出席するスパースアテンションは効率的であるはずだった。 しかし、FLOPの理論的削減は、FlashAttentionのようなハードウェアを意識した最適化が欠如しているため、その注目度よりもウォールクロックのスピードアップにはほとんど変換されていない。 一方、現在の大規模言語モデル(LLM)の規模でモデルの品質を維持することができるのか、どのようにして、疎い注意が維持できるのかは、まだ不明である。 本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。 S2-Attention は新規かつ高性能なスパースアテンション手法の探索を可能にする。 これらの知見から,本研究は,実用的な効率向上だけでなく,下流の性能向上にも寄与する疎度な注意を設計するための基本的なガイドラインを提示する。 高い並列化と最適化されたメモリIOを実現するために、スパースアテンションは、各ヘッドが全コンテキストを包含しながら異なるトークンのサブセットに出席する、アテンションヘッド間でコンテキストを均一に共有するべきである。 一方、疎度と密集度を組み合わせたハイブリッドアーキテクチャは、実際は特に有益である。 S2-Attentionは、強いFlashAttention-2ベースラインと比較して8.79X、15.87X、25.3Xのウォールクロックスピードアップを達成する。 7Bモデルでは,S2-Attentionカーネルの助けを借りて,密度の高いカーネルに比べて4.5倍の高速化を実現している。 S2-AttentionはMegatronとvLLMで直接使用するために、容易にカスタマイズできるAPIでリリースされている。

Sparse attention, which selectively attends to a subset of tokens in the context was supposed to be efficient. However, its theoretical reduction in FLOPs has rarely translated into wall-clock speed-up over its dense attention counterparts due to the lack of hardware-aware optimizations like FlashAttention. Meanwhile, it remains unclear whether sparse attention can maintain the model's quality at a scale of today's large language models (LLMs) and how. This paper presents Sparsely-Sharded(S2) Attention, a Triton library that provides kernel optimization for sparse attention customizable at both per-head and per-context-range levels. S2-Attention enables the exploration of novel and high-performance sparse attention techniques, which we demonstrate through extensive ablations across a wide range of sparse attention designs at various model scales. From these insights, we present several basic guidelines to design sparse attention that can achieve not only practical efficiency improvements, but also strong downstream performance. To achieve high parallelization and optimized memory IO, sparse attention should shard the context heterogeneously across attention heads, where each head attends to a different subset of tokens while collectively covering the full context. Meanwhile, we find hybrid architectures combining sparse and dense attention particularly beneficial in practice. S2-Attention achieves wall-clock speedup of 8.79X, 15.87X, 25.3X compared to the strong FlashAttention-2 baseline with strong downstream performance on-par with full attention and perfect retrieval performance at a 128k context length. At inference, for 7B models, our model, with the help of our S2-Attention kernel, achieves 4.5x speed-up compared to dense counterparts. S2-Attention is released with easy-to-customize APIs for direct usage in Megatron and vLLM.
翻訳日:2024-11-08 15:12:19 公開日:2024-10-22
# S2-Attention: ハードウェア対応のコンテキストシャーディング

S2-Attention: Hardware-Aware Context Sharding Among Attention Heads ( http://arxiv.org/abs/2407.17678v5 )

ライセンス: Link先を確認
Xihui Lin, Yunan Zhang, Suyu Ge, Liliang Ren, Barun Patra, Vishrav Chaudhary, Hao Peng, Xia Song, (参考訳) コンテキスト内のトークンのサブセットに選択的に出席するスパースアテンションは効率的であるはずだった。 しかし、FLOPの理論的削減は、FlashAttentionのようなハードウェアを意識した最適化が欠如しているため、その注目度よりもウォールクロックのスピードアップにはほとんど変換されていない。 一方、現在の大規模言語モデル(LLM)の規模でモデルの品質を維持することができるのか、どのようにして、疎い注意が維持できるのかは、まだ不明である。 本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。 S2-Attention は新規かつ高性能なスパースアテンション手法の探索を可能にする。 これらの知見から,本研究は,実用的な効率向上だけでなく,下流の性能向上にも寄与する疎度な注意を設計するための基本的なガイドラインを提示する。 高い並列化と最適化されたメモリIOを実現するために、スパースアテンションは、各ヘッドが全コンテキストを包含しながら異なるトークンのサブセットに出席する、アテンションヘッド間でコンテキストを均一に共有するべきである。 一方、疎度と密集度を組み合わせたハイブリッドアーキテクチャは、実際は特に有益である。 S2-Attentionは、強いFlashAttention-2ベースラインと比較して8.79X、15.87X、25.3Xのウォールクロックスピードアップを達成する。 7Bモデルでは,S2-Attentionカーネルの助けを借りて,密度の高いカーネルに比べて4.5倍の高速化を実現している。 S2-AttentionはMegatronとvLLMで直接使用するために、容易にカスタマイズできるAPIでリリースされている。

Sparse attention, which selectively attends to a subset of tokens in the context was supposed to be efficient. However, its theoretical reduction in FLOPs has rarely translated into wall-clock speed-up over its dense attention counterparts due to the lack of hardware-aware optimizations like FlashAttention. Meanwhile, it remains unclear whether sparse attention can maintain the model's quality at a scale of today's large language models (LLMs) and how. This paper presents Sparsely-Sharded(S2) Attention, a Triton library that provides kernel optimization for sparse attention customizable at both per-head and per-context-range levels. S2-Attention enables the exploration of novel and high-performance sparse attention techniques, which we demonstrate through extensive ablations across a wide range of sparse attention designs at various model scales. From these insights, we present several basic guidelines to design sparse attention that can achieve not only practical efficiency improvements, but also strong downstream performance. To achieve high parallelization and optimized memory IO, sparse attention should shard the context heterogeneously across attention heads, where each head attends to a different subset of tokens while collectively covering the full context. Meanwhile, we find hybrid architectures combining sparse and dense attention particularly beneficial in practice. S2-Attention achieves wall-clock speedup of 8.79X, 15.87X, 25.3X compared to the strong FlashAttention-2 baseline with strong downstream performance on-par with full attention and perfect retrieval performance at a 128k context length. At inference, for 7B models, our model, with the help of our S2-Attention kernel, achieves 4.5x speed-up compared to dense counterparts. S2-Attention is released with easy-to-customize APIs for direct usage in Megatron and vLLM.
翻訳日:2024-11-08 15:12:19 公開日:2024-10-22
# ダイヤモンド中の単一NV中心を用いた2つの電子スピンの電子常磁性共鳴の検出

Detection of Electron Paramagnetic Resonance of Two Electron Spins Using a Single NV Center in Diamond ( http://arxiv.org/abs/2407.19691v2 )

ライセンス: Link先を確認
Yuhang Ren, Susumu Takahashi, (参考訳) 相互作用するスピン系は、基本的な量子物理学と量子センシングおよび量子シミュレーションへの応用のための優れたテストベッドである。 これらの研究のためには、相互作用の詳細な情報、例えば、スピンの数とその相互作用強度が必要とされる。 本研究では、2つの電子スピンに結合した1つの窒素空孔(NV)中心の同定と特性について述べる。 実験では、まずよく分離された単一NV中心を同定し、スピンデコヒーレンス時間を特徴付ける。 そして、NV検出電子常磁性共鳴(EPR)分光を行い、周囲の電子スピンを検出する。 NV-EPR信号の解析から,検出されたスピンの数とその相互作用強度を正確に決定する。 さらに、スペクトル分析により、検出されたスピンの候補はダイヤモンド表面スピンであることが示された。 本研究は、電子スピンを量子レポーターとして用いた絡み合ったセンシングを実現するための相互作用するスピンシステムの同定とキャラクタリゼーションのための有望なアプローチを示す。

An interacting spin system is an excellent testbed for fundamental quantum physics and applications in quantum sensing and quantum simulation. For these investigations, detailed information of the interactions, e.g., the number of spins and their interaction strengths, is often required. In this study, we present the identification and characterization of a single nitrogen vacancy (NV) center coupled to two electron spins. In the experiment, we first identify a well-isolated single NV center and characterize its spin decoherence time. Then, we perform NV-detected electron paramagnetic resonance (EPR) spectroscopy to detect surrounding electron spins. From the analysis of the NV-EPR signal, we precisely determine the number of detected spins and their interaction strengths. Moreover, the spectral analysis indicates that the candidates of the detected spins are diamond surface spins. This study demonstrates a promising approach for the identification and characterization of an interacting spin system for realizing entangled sensing using electron spin as quantum reporters.
翻訳日:2024-11-08 14:27:29 公開日:2024-10-22
# 残差増幅による非教師付きアウトオブディストリビューション検出に基づく僧帽弁逆流認識

Mitral Regurgitation Recognition based on Unsupervised Out-of-Distribution Detection with Residual Diffusion Amplification ( http://arxiv.org/abs/2407.21497v3 )

ライセンス: Link先を確認
Zhe Liu, Xiliang Zhu, Tong Han, Yuhao Huang, Jian Wang, Lian Liu, Fang Wang, Dong Ni, Zhongshan Gou, Xin Yang, (参考訳) 僧帽弁閉鎖不全(MR)は重篤な心臓弁疾患である。 超音波画像によるMRの早期かつ正確な診断は、タイムリーな臨床的意思決定と外科的介入に重要である。 しかし、手動MR診断は操作者の経験に大きく依存しており、誤診やサーバ間変動を引き起こす可能性がある。 MRデータは限定的であり,クラス内変動が大きいため,深い分類器を構築するのではなく,MRを識別するための教師なしアウト・オブ・ディストリビューション(OOD)検出法を提案する。 我々の知る限り、私たちはMR超音波ビデオでOODを初めて探求した人物です。 提案手法は,特徴抽出器,特徴再構成モデル,残留蓄積増幅アルゴリズムから構成される。 特徴抽出器は、ビデオクリップから特徴を取得し、特徴再構成モデルにフィードして元の特徴を復元する。 残積増幅アルゴリズムは、繰り返しノイズ特徴再構成を行い、OOD特徴の再構成誤差を増幅する。 このアルゴリズムは単純だが効率的であり、再構成に基づくOOD検出手法においてプラグイン・アンド・プレイコンポーネントとしてシームレスに統合できる。 提案手法を893個の非MRビデオと267個のMRビデオを含む大規模超音波データセット上で検証した。 実験の結果,OOD検出法はMRサンプルを効果的に同定できることがわかった。

Mitral regurgitation (MR) is a serious heart valve disease. Early and accurate diagnosis of MR via ultrasound video is critical for timely clinical decision-making and surgical intervention. However, manual MR diagnosis heavily relies on the operator's experience, which may cause misdiagnosis and inter-observer variability. Since MR data is limited and has large intra-class variability, we propose an unsupervised out-of-distribution (OOD) detection method to identify MR rather than building a deep classifier. To our knowledge, we are the first to explore OOD in MR ultrasound videos. Our method consists of a feature extractor, a feature reconstruction model, and a residual accumulation amplification algorithm. The feature extractor obtains features from the video clips and feeds them into the feature reconstruction model to restore the original features. The residual accumulation amplification algorithm then iteratively performs noise feature reconstruction, amplifying the reconstructed error of OOD features. This algorithm is straightforward yet efficient and can seamlessly integrate as a plug-and-play component in reconstruction-based OOD detection methods. We validated the proposed method on a large ultrasound dataset containing 893 non-MR and 267 MR videos. Experimental results show that our OOD detection method can effectively identify MR samples.
翻訳日:2024-11-08 13:51:33 公開日:2024-10-22
# 線形ポテンシャルを有するタイト結合鎖におけるデファス化支援輸送

Dephasing-assisted transport in a tight-binding chain with a linear potential ( http://arxiv.org/abs/2407.21715v3 )

ライセンス: Link先を確認
Samuel L. Jacob, Laetitia P. Bettmann, Artur M. Lacerda, Krissia Zawadzki, Stephen R. Clark, John Goold, Juan José Mendoza-Arenas, (参考訳) 量子システムと相互作用する環境は、局在化に関与する量子効果の抑制を通じて輸送を強化することができる。 本稿では,境界駆動型強結合鎖におけるバルクデファスティングと線形ポテンシャルの相互作用について検討する。 線形ポテンシャルはノイズがないときにワニエ・スタークの局在を誘導し、デフォーカスは傾きがないときに拡散輸送を誘導する。 本研究では, 定常電流の近似式を, 幅広いパラメータの正確な解と密に一致する, 偏差と傾きの両方の関数として導出する。 そこから、ワニエ・スターク局在系におけるブロッホ振動の周期に等しい減圧速度で最大電流が発生することが分かる。 また、チェーンを横切る全電位傾きが一定であることから、電流がシステムサイズの関数として最大値を示すことも見出した。 この結果は, 現状の実験プラットフォームで検証可能であり, 環境支援輸送に関する分析研究の一歩となる。

An environment interacting with a quantum system can enhance transport through the suppression of quantum effects responsible for localization. In this paper, we study the interplay between bulk dephasing and a linear potential in a boundary-driven tight-binding chain. A linear potential induces Wannier-Stark localization in the absence of noise, while dephasing induces diffusive transport in the absence of a tilt. We derive an approximate expression for the steady-state current as a function of both dephasing and tilt which closely matches the exact solution for a wide range of parameters. From it, we find that the maximum current occurs for a dephasing rate equal to the period of Bloch oscillations in the Wannier-Stark localized system. We also find that the current displays a maximum as a function of the system size, provided that the total potential tilt across the chain remains constant. Our results can be verified in current experimental platforms and represents a step forward in analytical studies of environment-assisted transport.
翻訳日:2024-11-08 13:40:32 公開日:2024-10-22
# トポロジカルエントロピー不等式の物理的証明

Physical proof of the topological entanglement entropy inequality ( http://arxiv.org/abs/2408.04592v2 )

ライセンス: Link先を確認
Michael Levin, (参考訳) 最近、二次元ギャップ基底状態の位相的絡み合いエントロピー (TEE) は普遍不等式 $\gamma \geq \log \mathcal{D}$ に従うことが示され、$\gamma$ は TEE であり、$\mathcal{D}$ は全ての任意の励起の総量子次元 $\mathcal{D} = \sqrt{\sum_a d_a^2}$ である。 ここでは、この不等式のより直接的な証明を示す。 我々の証明は、基底状態密度作用素に関するいくつかの物理的仮定とともに、フォン・ノイマンエントロピーの強い部分加法的性質のみを用いる。 我々の導出は自然に、欠陥と境界を持つ空間的不均質系、高次元系、混合状態を含む様々な系に一般化される。

Recently it was shown that the topological entanglement entropy (TEE) of a two-dimensional gapped ground state obeys the universal inequality $\gamma \geq \log \mathcal{D}$, where $\gamma$ is the TEE and $\mathcal{D}$ is the total quantum dimension of all anyon excitations, $\mathcal{D} = \sqrt{\sum_a d_a^2}$. Here we present an alternative, more direct proof of this inequality. Our proof uses only the strong subadditivity property of the von Neumann entropy together with a few physical assumptions about the ground state density operator. Our derivation naturally generalizes to a variety of systems, including spatially inhomogeneous systems with defects and boundaries, higher dimensional systems, and mixed states.
翻訳日:2024-11-08 12:11:36 公開日:2024-10-22
# 耐久試験安定化状態に向けて

Towards tolerant testing stabilizer states ( http://arxiv.org/abs/2408.06289v2 )

ライセンス: Link先を確認
Srinivasan Arunachalam, Arkopal Dutt, (参考訳) あるアルゴリズムが未知の$n$-qubit量子状態 $|\psi\rangle$ promise $のコピーを与えられると仮定する。 (i)$ $|\psi\rangle$ is $\varepsilon_1$-close to a stabler state in fidelity or $ (ii)$$|\psi\rangle$ はすべての安定化状態から$\varepsilon_2$-far であり、どちらが成り立つかを決定する。 結果は2つあります。 (i)$|\psi\rangle$は相状態、すなわち$|\psi\rangle=\frac{1}{\sqrt{2^n}}\sum \limits_{x \in \{0,1\}^n} {f(x)}|x\rangle$ where $f:\{0,1\}^n\rightarrow \{-1,1\}$と仮定すると、$\textsf{poly}(1/\varepsilon_1)$サンプルと$n\cdot \textsf{poly}(1/\varepsilon_1)$すべての$\varepsilon_1 > 0および$\varepsilon \leqrt{poly}(1/\varepsilon_1)$タイムアルゴリズムが与えられる。 (ii)任意の量子状態 $|\psi\rangle$ に対して、加法コンビネータの予想を仮定すると、$\textsf{poly}(1/\varepsilon_1)$-sample and $n\cdot \textsf{poly}(1/\varepsilon_1)$-time algorithm for this task for every $\varepsilon_1>0$ and $\varepsilon_2\leq 2^{-\textsf{poly}(1/\varepsilon_1)}$ この証明には、量子状態に対する Gowers ノルムの新しい定義、Gowers-$3 のノルムの逆定理、およびPaulis 加法における部分構造を安定化する新しいバウンダリングが含まれる。

We consider the following task: suppose an algorithm is given copies of an unknown $n$-qubit quantum state $|\psi\rangle$ promised $(i)$ $|\psi\rangle$ is $\varepsilon_1$-close to a stabilizer state in fidelity or $(ii)$ $|\psi\rangle$ is $\varepsilon_2$-far from all stabilizer states, decide which is the case. We show two results: (i) Assuming $|\psi\rangle$ is a phase state, i.e., $|\psi\rangle=\frac{1}{\sqrt{2^n}}\sum \limits_{x \in \{0,1\}^n} {f(x)}|x\rangle$ where $f:\{0,1\}^n\rightarrow \{-1,1\}$, then we give a $\textsf{poly}(1/\varepsilon_1)$ sample and $n\cdot \textsf{poly}(1/\varepsilon_1)$ time algorithm for every $\varepsilon_1 > 0$ and $\varepsilon_2 \leq \textsf{poly}(\varepsilon_1)$, for tolerant testing stabilizer states. (ii) For arbitrary quantum states $|\psi\rangle$, assuming a conjecture in additive combinatorics, we give a $\textsf{poly}(1/\varepsilon_1)$-sample and $n\cdot \textsf{poly}(1/\varepsilon_1)$-time algorithm for this task for every $\varepsilon_1>0$ and $\varepsilon_2\leq 2^{-\textsf{poly}(1/\varepsilon_1)}$ Our proof includes a new definition of Gowers norm for quantum states, an inverse theorem for the Gowers-$3$ norm of states and new bounds on stabilizer covering for structured subsets of Paulis using results in additive combinatorics.
翻訳日:2024-11-08 11:38:16 公開日:2024-10-22
# 一般化された量子シュタイン補題の解

A solution of the generalised quantum Stein's lemma ( http://arxiv.org/abs/2408.06410v2 )

ライセンス: Link先を確認
Ludovico Lami, (参考訳) 一般化された量子シュタインの補題を解くことで、エンタングルメントテストに関連するスタイン指数、すなわち、エンタングルド状態$\rho_{AB}$とジェネリック分離状態$\sigma_{A^n:B^n}$とを区別する量子仮説テストタスクが、エンタングルメントの正規化された相対エントロピーと等しいことを証明した。 これは絡み合い試験の最終的な性能を決定するだけでなく、どの量子状態間の漸近変換率も支配する資源の規則化された相対エントロピーとともに、漸近的に資源を生成しない操作の下で全ての量子資源理論の可逆性を確立する。 副生成物として、ヌル仮説がおよそ i.d. であるときに同じスタイン指数が達成可能であることを証明する。 この問題を解決するために2つの手法を導入する。 1つ目は私たちが "blurring" と呼ぶプロシージャで、これは非公式に、近くにある型クラスにもっと均等に広げることで、置換対称な状態を変換します。 ブラーリングだけでは、完全に古典的なケースではスタインの補題の一般化を証明するのに十分だが、量子の場合ではそうではない。 そのため、第2の技術的革新は、問題を無限次元のボソニック量子システムに持ち上げるための第2の量子化ステップを実行することです。 むしろ、ぼやけた写像の第二量子化作用は純粋な損失チャネルに対応する。 この第2の量子化ステップを慎重に検討することは、我々の量子解の中核である。

We solve the generalised quantum Stein's lemma, proving that the Stein exponent associated with entanglement testing, namely, the quantum hypothesis testing task of distinguishing between $n$ copies of an entangled state $\rho_{AB}$ and a generic separable state $\sigma_{A^n:B^n}$, equals the regularised relative entropy of entanglement. Not only does this determine the ultimate performance of entanglement testing, but it also establishes the reversibility of all quantum resource theories under asymptotically resource non-generating operations, with the regularised relative entropy of resource governing the asymptotic transformation rate between any two quantum states. As a by-product, we prove that the same Stein exponent can also be achieved when the null hypothesis is only approximately i.i.d., in the sense that it can be modelled by an "almost power state". To solve the problem we introduce two techniques. The first is a procedure that we call "blurring", which, informally, transforms a permutationally symmetric state by making it more evenly spread across nearby type classes. Blurring alone suffices to prove the generalised Stein's lemma in the fully classical case, but not in the quantum case. Our second technical innovation, therefore, is to perform a second quantisation step to lift the problem to an infinite-dimensional bosonic quantum system; we then solve it there by using techniques from continuous-variable quantum information. Rather remarkably, the second-quantised action of the blurring map corresponds to a pure loss channel. A careful examination of this second quantisation step is the core of our quantum solution.
翻訳日:2024-11-08 11:26:46 公開日:2024-10-22
# 大規模言語モデルは推論可能か? 3-SATによる特徴付け

Can Large Language Models Reason? A Characterization via 3-SAT ( http://arxiv.org/abs/2408.07215v2 )

ライセンス: Link先を確認
Rishi Hazra, Gabriele Venturato, Pedro Zuidberg Dos Martires, Luc De Raedt, (参考訳) 大規模言語モデル(LLM)は高度な推論能力を持つAIモデルとして評価されている。 しかし、最近の研究は、LLMがしばしばショートカットを使用した真の推論を回避し、懐疑論を引き起こしていることを示している。 論理的推論と制約満足度タスクの中核に位置するNP完全問題である 3-SAT を中心にした実験プロトコルを提案する。 具体的には、ランダムな3-SATの位相遷移を調べ、問題インスタンスの固有の硬さを変化させることでLCMの推論能力を特徴づける。 実験により, LLM は 3SAT 問題を解く上で必要となる真の推論を行うことができないことが明らかとなった。 さらに、問題の固有の硬さに基づいて、重要なパフォーマンスの変動を観測します。 重要なこととして,外部推論器の統合によりLLM性能が大幅に向上することを示す。 原理的な実験プロトコルに従うことで,本研究は具体的な結論を導き,LLM推論研究でしばしば見られる逸話的証拠を超えて進める。

Large Language Models (LLMs) have been touted as AI models possessing advanced reasoning abilities. However, recent works have shown that LLMs often bypass true reasoning using shortcuts, sparking skepticism. To study the reasoning capabilities in a principled fashion, we adopt a computational theory perspective and propose an experimental protocol centered on 3-SAT -- the prototypical NP-complete problem lying at the core of logical reasoning and constraint satisfaction tasks. Specifically, we examine the phase transitions in random 3-SAT and characterize the reasoning abilities of LLMs by varying the inherent hardness of the problem instances. Our experimental evidence shows that LLMs are incapable of performing true reasoning, as required for solving 3-SAT problems. Moreover, we observe significant performance variation based on the inherent hardness of the problems -- performing poorly on harder instances and vice versa. Importantly, we show that integrating external reasoners can considerably enhance LLM performance. By following a principled experimental protocol, our study draws concrete conclusions and moves beyond the anecdotal evidence often found in LLM reasoning research.
翻訳日:2024-11-08 07:53:35 公開日:2024-10-22
# $\textit{MMJ-Bench}$: 視覚言語モデルに対するジェイルブレイク攻撃と防御に関する総合的研究

$\textit{MMJ-Bench}$: A Comprehensive Study on Jailbreak Attacks and Defenses for Vision Language Models ( http://arxiv.org/abs/2408.08464v3 )

ライセンス: Link先を確認
Fenghua Weng, Yue Xu, Chengyan Fu, Wenjie Wang, (参考訳) ディープラーニングの進歩に伴い、LLM(Large Language Models)とそのマルチモーダル言語モデル(Multimodal Language Models, MLLM)は多くの実世界のタスクにおいて例外的なパフォーマンスを示している。 しかし、MLLMはジェイルブレイク攻撃のような重大なセキュリティ上の問題に直面しており、攻撃者は有害な応答を誘発するためにモデルの安全アライメントを回避しようとする。 MLLMに対するジェイルブレイク攻撃の脅威は、MLLMの固有の脆弱性とMLLMが処理する複数の情報チャネルの両方から生じる。 様々な攻撃や防御が提案されているが、それぞれの手法が異なるデータセットやメトリクスで評価され、各手法の有効性を比較することは不可能であるため、統一的かつ包括的評価には顕著なギャップがある。 このギャップに対処するために,MLLM に対するjailbreak 攻撃と防御技術を評価するための統一パイプラインである \textit{MMJ-Bench} を導入する。 広範囲にわたる実験を通じて,SoTA MLLMに対する様々な攻撃方法の有効性を評価し,防御機構が通常の作業に対する防御効果とモデル実用性に与える影響を評価する。 総合的な評価は,統一的かつ体系的な評価フレームワークとMLLMジェイルブレイク研究のための最初の公開ベンチマークを提供することによって,この分野に寄与する。 また、今後の研究の方向性を浮き彫りにした洞察力のある調査結果をいくつか紹介する。

As deep learning advances, Large Language Models (LLMs) and their multimodal counterparts, Multimodal Language Models (MLLMs), have shown exceptional performance in many real-world tasks. However, MLLMs face significant security challenges, such as jailbreak attacks, where attackers attempt to bypass the model's safety alignment to elicit harmful responses. The threat of jailbreak attacks on MLLMs arises from both the inherent vulnerabilities of LLMs and the multiple information channels that MLLMs process. While various attacks and defenses have been proposed, there is a notable gap in unified and comprehensive evaluations, as each method is evaluated on different dataset and metrics, making it impossible to compare the effectiveness of each method. To address this gap, we introduce \textit{MMJ-Bench}, a unified pipeline for evaluating jailbreak attacks and defense techniques for MLLMs. Through extensive experiments, we assess the effectiveness of various attack methods against SoTA MLLMs and evaluate the impact of defense mechanisms on both defense effectiveness and model utility for normal tasks. Our comprehensive evaluation contribute to the field by offering a unified and systematic evaluation framework and the first public-available benchmark for MLLM jailbreak research. We also demonstrate several insightful findings that highlights directions for future studies.
翻訳日:2024-11-08 07:29:14 公開日:2024-10-22
# $\textit{MMJ-Bench}$:マルチモーダル大言語モデルに対するジェイルブレイク攻撃と防御に関する総合的研究

$\textit{MMJ-Bench}$: A Comprehensive Study on Jailbreak Attacks and Defenses for Multimodal Large Language Models ( http://arxiv.org/abs/2408.08464v4 )

ライセンス: Link先を確認
Fenghua Weng, Yue Xu, Chengyan Fu, Wenjie Wang, (参考訳) ディープラーニングの進歩に伴い、LLM(Large Language Models)とそのマルチモーダル言語モデルであるMLLM(Multimodal Large Language Models)は多くの実世界のタスクにおいて例外的なパフォーマンスを示している。 しかし、MLLMはジェイルブレイク攻撃のような重大なセキュリティ上の問題に直面しており、攻撃者は有害な応答を誘発するためにモデルの安全アライメントを回避しようとする。 MLLMに対するジェイルブレイク攻撃の脅威は、MLLMの固有の脆弱性とMLLMが処理する複数の情報チャネルの両方から生じる。 様々な攻撃や防御が提案されているが、それぞれの手法が異なるデータセットやメトリクスで評価され、各手法の有効性を比較することは不可能であるため、統一的かつ包括的な評価には顕著なギャップがある。 このギャップに対処するために,MLLM に対するjailbreak 攻撃と防御技術を評価するための統一パイプラインである \textit{MMJ-Bench} を導入する。 広範囲にわたる実験を通じて,SoTA MLLMに対する様々な攻撃方法の有効性を評価し,防御機構が通常の作業に対する防御効果とモデル実用性に与える影響を評価する。 総合的な評価は,統一的かつ体系的な評価フレームワークとMLLMジェイルブレイク研究のための最初の公開ベンチマークを提供することによって,この分野に寄与する。 また、今後の研究の方向性を浮き彫りにした洞察力のある調査結果をいくつか紹介する。

As deep learning advances, Large Language Models (LLMs) and their multimodal counterparts, Multimodal Large Language Models (MLLMs), have shown exceptional performance in many real-world tasks. However, MLLMs face significant security challenges, such as jailbreak attacks, where attackers attempt to bypass the model's safety alignment to elicit harmful responses. The threat of jailbreak attacks on MLLMs arises from both the inherent vulnerabilities of LLMs and the multiple information channels that MLLMs process. While various attacks and defenses have been proposed, there is a notable gap in unified and comprehensive evaluations, as each method is evaluated on different dataset and metrics, making it impossible to compare the effectiveness of each method. To address this gap, we introduce \textit{MMJ-Bench}, a unified pipeline for evaluating jailbreak attacks and defense techniques for MLLMs. Through extensive experiments, we assess the effectiveness of various attack methods against SoTA MLLMs and evaluate the impact of defense mechanisms on both defense effectiveness and model utility for normal tasks. Our comprehensive evaluation contribute to the field by offering a unified and systematic evaluation framework and the first public-available benchmark for MLLM jailbreak research. We also demonstrate several insightful findings that highlights directions for future studies.
翻訳日:2024-11-08 07:18:07 公開日:2024-10-22
# 低コストオープン語彙物体検出訓練のための軽量モジュラーフレームワーク

A Lightweight Modular Framework for Low-Cost Open-Vocabulary Object Detection Training ( http://arxiv.org/abs/2408.10787v2 )

ライセンス: Link先を確認
Bilal Faye, Binta Sow, Hanane Azzag, Mustapha Lebbah, (参考訳) 物体検出は、画像分析、ロボット工学、自動運転車といった分野における多様な応用によって、画像内の物体を認識することを中心に、コンピュータビジョンにおける基本的な課題である。 既存の手法は大きな成功を収めているが、それらはしばしば固定されたオブジェクトの語彙によって制約される。 この制限を克服するために、MDETRのようなアプローチは、領域レベルの視覚言語事前学習を取り入れてオブジェクト検出を再定義し、オープン語彙オブジェクト検出を可能にする。 しかし、これらの手法は、視覚と言語表現の両方のための大きなモデルの同時訓練のため、計算的に重くなっている。 これを解決するために、私たちは軽量なフレームワークを導入しました。 本手法はMDETRに適用され,MDETRの最適化版である軽量MDETR (LightMDETR) が開発された。 我々のアプローチの中核は、MDETRのバックボーンを凍結し、ビジョンと言語表現をブリッジするユニバーサル・プロジェクション・モジュール(UP)のみを訓練することである。 学習可能なモダリティトークンパラメータにより、UPはモダリティをシームレスに切り替えることができる。 フレーズグラウンド、参照表現理解、セグメンテーションといったタスクの評価から、LightMDETRは計算コストを削減できるだけでなく、精度の点でいくつかの最先端手法よりも優れていることが分かる。

Object detection is a fundamental challenge in computer vision, centered on recognizing objects within images, with diverse applications in areas like image analysis, robotics, and autonomous vehicles. Although existing methods have achieved great success, they are often constrained by a fixed vocabulary of objects. To overcome this limitation, approaches like MDETR have redefined object detection by incorporating region-level vision-language pre-training, enabling open-vocabulary object detectors. However, these methods are computationally heavy due to the simultaneous training of large models for both vision and language representations. To address this, we introduce a lightweight framework that significantly reduces the number of parameters while preserving, or even improving, performance. Our solution is applied to MDETR, resulting in the development of Lightweight MDETR (LightMDETR), an optimized version of MDETR designed to enhance computational efficiency without sacrificing accuracy. The core of our approach involves freezing the MDETR backbone and training only the Universal Projection module (UP), which bridges vision and language representations. A learnable modality token parameter allows the UP to seamlessly switch between modalities. Evaluations on tasks like phrase grounding, referring expression comprehension, and segmentation show that LightMDETR not only reduces computational costs but also outperforms several state-of-the-art methods in terms of accuracy.
翻訳日:2024-11-08 06:33:41 公開日:2024-10-22
# 低コストオープン語彙物体検出訓練のための軽量モジュラーフレームワーク

A Lightweight Modular Framework for Low-Cost Open-Vocabulary Object Detection Training ( http://arxiv.org/abs/2408.10787v3 )

ライセンス: Link先を確認
Bilal Faye, Binta Sow, Hanane Azzag, Mustapha Lebbah, (参考訳) 物体検出は、画像分析、ロボット工学、自動運転車といった分野における多様な応用によって、画像内の物体を認識することを中心に、コンピュータビジョンにおける基本的な課題である。 既存の手法は大きな成功を収めているが、それらはしばしば固定されたオブジェクトの語彙によって制約される。 この制限を克服するために、MDETRのようなアプローチは、領域レベルの視覚言語事前学習を取り入れてオブジェクト検出を再定義し、オープン語彙オブジェクト検出を可能にする。 しかし、これらの手法は、視覚と言語表現の両方のための大きなモデルの同時訓練のため、計算的に重くなっている。 これを解決するために、私たちは軽量なフレームワークを導入しました。 本手法はMDETRに適用され,MDETRの最適化版である軽量MDETR (LightMDETR) が開発された。 我々のアプローチの中核は、MDETRのバックボーンを凍結し、ビジョンと言語表現をブリッジするユニバーサル・プロジェクション・モジュール(UP)のみを訓練することである。 学習可能なモダリティトークンパラメータにより、UPはモダリティをシームレスに切り替えることができる。 フレーズグラウンド、参照表現理解、セグメンテーションといったタスクの評価から、LightMDETRは計算コストを削減できるだけでなく、精度の点でいくつかの最先端手法よりも優れていることが分かる。

Object detection is a fundamental challenge in computer vision, centered on recognizing objects within images, with diverse applications in areas like image analysis, robotics, and autonomous vehicles. Although existing methods have achieved great success, they are often constrained by a fixed vocabulary of objects. To overcome this limitation, approaches like MDETR have redefined object detection by incorporating region-level vision-language pre-training, enabling open-vocabulary object detectors. However, these methods are computationally heavy due to the simultaneous training of large models for both vision and language representations. To address this, we introduce a lightweight framework that significantly reduces the number of parameters while preserving, or even improving, performance. Our solution is applied to MDETR, resulting in the development of Lightweight MDETR (LightMDETR), an optimized version of MDETR designed to enhance computational efficiency without sacrificing accuracy. The core of our approach involves freezing the MDETR backbone and training only the Universal Projection module (UP), which bridges vision and language representations. A learnable modality token parameter allows the UP to seamlessly switch between modalities. Evaluations on tasks like phrase grounding, referring expression comprehension, and segmentation show that LightMDETR not only reduces computational costs but also outperforms several state-of-the-art methods in terms of accuracy.
翻訳日:2024-11-08 06:33:41 公開日:2024-10-22
# SysBench: 大規模言語モデルはシステムメッセージをフォローできるか?

SysBench: Can Large Language Models Follow System Messages? ( http://arxiv.org/abs/2408.10943v2 )

ライセンス: Link先を確認
Yanzhao Qin, Tao Zhang, Tao Zhang, Yanjun Shen, Wenjing Luo, Haoze Sun, Yan Zhang, Yujing Qiao, Weipeng Chen, Zenan Zhou, Wentao Zhang, Bin Cui, (参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションにまたがって実装されており、これらのモデルを特定のシナリオにカスタマイズすることがますます重要になっている。 LLMの基本コンポーネントであるシステムメッセージは、意図した目標を達成するためのモデルの振る舞いをガイドする、慎重に構築された命令で構成されています。 AI駆動型ソリューションを最適化するシステムメッセージの可能性は認識されているが、LLMがシステムメッセージにどの程度うまく従うかを評価するための包括的なベンチマークが存在しないことは注目すべきである。 このギャップを埋めるために,既存のLLMの3つの制限 – 制約違反,命令誤判断,マルチターン不安定 – の観点から,システムメッセージの追従能力を体系的に解析するベンチマークであるSysBenchを紹介した。 具体的には,500種類のシステムメッセージを含む6種類の制約に基づいた評価データセットを手動で構築する。 さらに,モデル性能を評価するための包括的評価プロトコルを開発した。 最後に,システムメッセージに規定された制約に従う能力を測定し,既存のLLMに対して広範囲に評価を行う。 この結果は、既存のモデルの長所と短所の両方を強調し、将来の研究に重要な洞察と方向性を提供する。 SysBenchのオープンソースライブラリはhttps://github.com/PKU-Baichuan-MLSystemLab/SysBenchで公開されている。

Large Language Models (LLMs) have become instrumental across various applications, with the customization of these models to specific scenarios becoming increasingly critical. System message, a fundamental component of LLMs, is consist of carefully crafted instructions that guide the behavior of model to meet intended goals. Despite the recognized potential of system messages to optimize AI-driven solutions, there is a notable absence of a comprehensive benchmark for evaluating how well LLMs follow system messages. To fill this gap, we introduce SysBench, a benchmark that systematically analyzes system message following ability in terms of three limitations of existing LLMs: constraint violation, instruction misjudgement and multi-turn instability. Specifically, we manually construct evaluation dataset based on six prevalent types of constraints, including 500 tailor-designed system messages and multi-turn user conversations covering various interaction relationships. Additionally, we develop a comprehensive evaluation protocol to measure model performance. Finally, we conduct extensive evaluation across various existing LLMs, measuring their ability to follow specified constraints given in system messages. The results highlight both the strengths and weaknesses of existing models, offering key insights and directions for future research. The open source library SysBench is available at https://github.com/PKU-Baichuan-MLSystemLab/SysBench.
翻訳日:2024-11-08 06:22:37 公開日:2024-10-22
# 条件拡散サンプリングにおける圧縮誘導

Compress Guidance in Conditional Diffusion Sampling ( http://arxiv.org/abs/2408.11194v2 )

ライセンス: Link先を確認
Anh-Dung Dinh, Daochang Liu, Chang Xu, (参考訳) その結果, サンプルは, 予測条件を一般化するのではなく, 分類器のパラメータと一致するように「調整」されるというモデル適合の問題から, サンプリングプロセス全体を通して誘導される誘導は, しばしば非生産的であることがわかった。 この研究は問題を識別し、定量化し、多くのタイミングでガイダンスを減らしたり除いたりすることでこの問題を軽減できることを示した。 多数のサンプリングタイムステップに対して少量のガイダンスを配布することにより、画像の品質と多様性を著しく改善するとともに、必要なガイダンスタイムステップを40%近く削減する。 このアプローチは、生成タスクに効果的なガイダンスを適用する上で大きな課題に対処する。 その結果、提案手法は圧縮誘導と呼ばれ、画像品質のベースラインモデルを超えながら、かなりの数のガイダンスタイムステップを排除できる。 我々は,ラベル条件およびテキスト・ツー・イメージ生成タスクのベンチマークによるアプローチの有効性を,さまざまなデータセットやモデルにわたって検証する。

We found that enforcing guidance throughout the sampling process is often counterproductive due to the model-fitting issue, where samples are 'tuned' to match the classifier's parameters rather than generalizing the expected condition. This work identifies and quantifies the problem, demonstrating that reducing or excluding guidance at numerous timesteps can mitigate this issue. By distributing a small amount of guidance over a large number of sampling timesteps, we observe a significant improvement in image quality and diversity while also reducing the required guidance timesteps by nearly 40%. This approach addresses a major challenge in applying guidance effectively to generative tasks. Consequently, our proposed method, termed Compress Guidance, allows for the exclusion of a substantial number of guidance timesteps while still surpassing baseline models in image quality. We validate our approach through benchmarks on label-conditional and text-to-image generative tasks across various datasets and models.
翻訳日:2024-11-08 06:22:37 公開日:2024-10-22
# AIM 2024 圧縮映像品質評価への挑戦:方法と結果

AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results ( http://arxiv.org/abs/2408.11982v3 )

ライセンス: Link先を確認
Maksim Smirnov, Aleksandr Gushchin, Anastasia Antsiferova, Dmitry Vatolin, Radu Timofte, Ziheng Jia, Zicheng Zhang, Wei Sun, Jiaying Qian, Yuqin Cao, Yinan Sun, Yuxin Zhu, Xiongkuo Min, Guangtao Zhai, Kanjar De, Qing Luo, Ao-Xiang Zhang, Peng Zhang, Haibo Lei, Linyan Jiang, Yaqing Li, Wenhui Meng, Zhenzhong Chen, Zhengxue Cheng, Jiahao Xiao, Jun Xu, Chenlong He, Qi Zheng, Ruoxi Zhu, Min Li, Yibo Fan, Zhengzhong Tu, (参考訳) 映像品質評価(VQA)は、視聴者体験に直接影響を与えるため、映像圧縮標準の開発において重要な課題である。 本稿では,ECCV 2024における画像操作の進歩(AIM)ワークショップと共同で開催されている圧縮映像品質評価の課題について述べる。 この課題は、様々な圧縮標準(AVC/H.264、HEVC/H.265、AV1、VVC/H.266)の14のコーデックでエンコードされ、圧縮アーティファクトの包括的なコレクションを含む、459のビデオの多様なデータセット上でのVQAメソッドのパフォーマンスを評価することを目的としていた。 提案手法の性能評価には,大規模クラウドソーシングによる対人比較によって収集した予測値と主観的スコアとの相関係数を用いた。 トレーニングのために参加者は、以前開発された1022ビデオのデータセットであるCompressed Video Quality Assessment Dataset (CVQAD)が提供された。 6つのチームの結果を報告し、その結果を再現するための有効な最終ソリューションとコードを提出しました。 さらに,開発データセット上での最先端VQA手法の性能を計算,提示し,今後の研究のための総合的なベンチマークを提供する。 データセット、結果、オンラインのリーダーボードはhttps://challenges.processprocessing.ai/challenges/compressed video-quality-assesment.htmlで公開されている。

Video quality assessment (VQA) is a crucial task in the development of video compression standards, as it directly impacts the viewer experience. This paper presents the results of the Compressed Video Quality Assessment challenge, held in conjunction with the Advances in Image Manipulation (AIM) workshop at ECCV 2024. The challenge aimed to evaluate the performance of VQA methods on a diverse dataset of 459 videos, encoded with 14 codecs of various compression standards (AVC/H.264, HEVC/H.265, AV1, and VVC/H.266) and containing a comprehensive collection of compression artifacts. To measure the methods performance, we employed traditional correlation coefficients between their predictions and subjective scores, which were collected via large-scale crowdsourced pairwise human comparisons. For training purposes, participants were provided with the Compressed Video Quality Assessment Dataset (CVQAD), a previously developed dataset of 1022 videos. Up to 30 participating teams registered for the challenge, while we report the results of 6 teams, which submitted valid final solutions and code for reproducing the results. Moreover, we calculated and present the performance of state-of-the-art VQA methods on the developed dataset, providing a comprehensive benchmark for future research. The dataset, results, and online leaderboard are publicly available at https://challenges.videoprocessing.ai/challenges/compressedvideo-quality-assessment.html.
翻訳日:2024-11-08 05:49:00 公開日:2024-10-22
# TempoFormer: 変化検出における時間認識表現のための変換器

TempoFormer: A Transformer for Temporally-aware Representations in Change Detection ( http://arxiv.org/abs/2408.15689v2 )

ライセンス: Link先を確認
Talia Tseriotou, Adam Tsakalidis, Maria Liakata, (参考訳) 動的表現学習は、時間とともに言語内容の進化を理解する上で重要な役割を担っている。 この面では、コンテキストと時間力学、およびそれらの相互作用が重要である。 現在のアプローチは、通常時間的に非依存な事前訓練された表現を通じて、コンテキストをモデル化する。 コンテキストモデリングと時間力学に関するこれまでの研究では、繰り返し手法が使われてきたが、これは遅く、過度に適合する傾向にある。 本稿では,動的表現学習のためのタスク依存型トランスフォーマーと時間認識型モデルであるTempoFormerを紹介する。 本手法はコンテキスト間の動的および内部的力学を共同で訓練し,回転位置埋め込みの時間的変化を新たに導入する。 アーキテクチャは柔軟で、他のモデルの時間的表現基盤として、あるいは異なるトランスフォーマーベースのアーキテクチャに適用することができる。 3つの異なるリアルタイム変化検出タスクに対して新しいSOTA性能を示す。

Dynamic representation learning plays a pivotal role in understanding the evolution of linguistic content over time. On this front both context and time dynamics as well as their interplay are of prime importance. Current approaches model context via pre-trained representations, which are typically temporally agnostic. Previous work on modelling context and temporal dynamics has used recurrent methods, which are slow and prone to overfitting. Here we introduce TempoFormer, the first task-agnostic transformer-based and temporally-aware model for dynamic representation learning. Our approach is jointly trained on inter and intra context dynamics and introduces a novel temporal variation of rotary positional embeddings. The architecture is flexible and can be used as the temporal representation foundation of other models or applied to different transformer-based architectures. We show new SOTA performance on three different real-time change detection tasks.
翻訳日:2024-11-08 04:30:58 公開日:2024-10-22
# WavTokenizer: 音声言語モデリングのための高能率音響離散コーデックトケナイザ

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling ( http://arxiv.org/abs/2408.16532v2 )

ライセンス: Link先を確認
Shengpeng Ji, Ziyue Jiang, Wen Wang, Yifu Chen, Minghui Fang, Jialong Zuo, Qian Yang, Xize Cheng, Zehan Wang, Ruiqi Li, Ziang Zhang, Xiaoda Yang, Rongjie Huang, Yidi Jiang, Qian Chen, Siqi Zheng, Wen Wang, Zhou Zhao, (参考訳) 言語モデルは、画像、ビデオ、音声、音声などの自然信号のモデリングに効果的に適用されている。 これらのモデルの重要な構成要素はコーデック・トークンーザであり、これは高次元の自然信号を低次元の離散トークンに圧縮する。 本稿では,音声領域における従来のSOTA音響コーデックモデルよりもいくつかの利点があるWavTokenizerを紹介する。 量子化器の層と離散コーデックの時間次元を圧縮することにより、24kHzサンプリングレートの1秒のオーディオは、40または75のトークンを持つ単一の量子化器のみを必要とする。 2)主観的質の向上。 トークン数の減少にもかかわらず、WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を達成し、本質的によりリッチなセマンティック情報を含んでいる。 具体的には、より広いVQ空間を設計し、コンテキストウィンドウを拡張し、アテンションネットワークを改善し、強力なマルチスケール判別器と逆フーリエ変換構造を導入した。 音声,音声,音楽の領域で広範囲にわたる再建実験を行った。 WavTokenizerは、最先端のモデルと比較して、様々な客観的、主観的な指標で強いパフォーマンスを示した。 また、意味情報、VQ利用、生成モデルへの適応性についても検証した。 包括的アブレーション研究は、WavTokenizerの各モジュールの必要性を裏付ける。 関連するコード、デモ、事前トレーニングされたモデルはhttps://github.com/jishengpeng/WavTokenizer.comで入手できる。

Language models have been effectively applied to modeling natural signals, such as images, video, speech, and audio. A crucial component of these models is the codec tokenizer, which compresses high-dimensional natural signals into lower-dimensional discrete tokens. In this paper, we introduce WavTokenizer, which offers several advantages over previous SOTA acoustic codec models in the audio domain: 1)extreme compression. By compressing the layers of quantizers and the temporal dimension of the discrete codec, one-second audio of 24kHz sampling rate requires only a single quantizer with 40 or 75 tokens. 2)improved subjective quality. Despite the reduced number of tokens, WavTokenizer achieves state-of-the-art reconstruction quality with outstanding UTMOS scores and inherently contains richer semantic information. Specifically, we achieve these results by designing a broader VQ space, extended contextual windows, and improved attention networks, as well as introducing a powerful multi-scale discriminator and an inverse Fourier transform structure. We conducted extensive reconstruction experiments in the domains of speech, audio, and music. WavTokenizer exhibited strong performance across various objective and subjective metrics compared to state-of-the-art models. We also tested semantic information, VQ utilization, and adaptability to generative models. Comprehensive ablation studies confirm the necessity of each module in WavTokenizer. The related code, demos, and pre-trained models are available at https://github.com/jishengpeng/WavTokenizer.
翻訳日:2024-11-08 04:19:50 公開日:2024-10-22
# 計算不可能性と論理的関係について

On Computational Indistinguishability and Logical Relations ( http://arxiv.org/abs/2408.17340v2 )

ライセンス: Link先を確認
Ugo Dal Lago, Zeinab Galal, Giulia Giusti, (参考訳) $\lambda$-calculus は、全てのプログラムを確率多項式時間で評価することができ、また、後者がオラクルベースである場合でも、シーケンシャルな暗号構造や逆数を表すのに十分な構造を持つ。 次に、計算の不明瞭さを捉える観測等価性の概念と近似論理関係のクラスを提示し、後者が前者の音響的証明手法であることを示す。 この研究は、疑似乱数関数によって誘導される暗号化スキームが、純粋に方程式的なスタイルでアクティブな敵に対して安全であることが証明されたセキュリティ証明の例で締めくくられる。

A $\lambda$-calculus is introduced in which all programs can be evaluated in probabilistic polynomial time and in which there is sufficient structure to represent sequential cryptographic constructions and adversaries for them, even when the latter are oracle-based. A notion of observational equivalence capturing computational indistinguishability and a class of approximate logical relations are then presented, showing that the latter represent a sound proof technique for the former. The work concludes with the presentation of an example of a security proof in which the encryption scheme induced by a pseudorandom function is proven secure against active adversaries in a purely equational style.
翻訳日:2024-11-08 03:57:28 公開日:2024-10-22
# EMPOWER: オンライングラウンドと実行によるマルチロールオープン語彙プランニング

EMPOWER: Embodied Multi-role Open-vocabulary Planning with Online Grounding and Execution ( http://arxiv.org/abs/2408.17379v2 )

ライセンス: Link先を確認
Francesco Argenziano, Michele Brienza, Vincenzo Suriani, Daniele Nardi, Domenico D. Bloisi, (参考訳) 実生活環境におけるロボットのタスクプランニングは重要な課題である。 これらの課題は、目標を達成するためのステップの基底的なシーケンスを特定することの難しさ、高レベルのアクションと低レベルのコマンドの標準化されたマッピングの欠如、ロボットハードウェアの限られたリソースを考えると、計算オーバーヘッドを低く抑えることの3つの問題に起因している。 オープン・ボキャブラリ・オンライン・グラウンドディングのためのフレームワークであるEMPOWERを紹介し,これらの問題に対処するための具体的エージェントの計画について述べる。 効率的な事前学習基盤モデルとマルチロール機構を活用することで、EMPOWERは、基盤となる計画と実行の顕著な改善を示す。 TIAGoロボットを用いて,6つの実生活シナリオの平均成功率0.73を達成し,本手法の有効性を定量的に評価した。

Task planning for robots in real-life settings presents significant challenges. These challenges stem from three primary issues: the difficulty in identifying grounded sequences of steps to achieve a goal; the lack of a standardized mapping between high-level actions and low-level commands; and the challenge of maintaining low computational overhead given the limited resources of robotic hardware. We introduce EMPOWER, a framework designed for open-vocabulary online grounding and planning for embodied agents aimed at addressing these issues. By leveraging efficient pre-trained foundation models and a multi-role mechanism, EMPOWER demonstrates notable improvements in grounded planning and execution. Quantitative results highlight the effectiveness of our approach, achieving an average success rate of 0.73 across six different real-life scenarios using a TIAGo robot.
翻訳日:2024-11-08 03:57:28 公開日:2024-10-22
# 強化学習を用いた対角化による高精度フォールトトレラント量子回路合成

High Precision Fault-Tolerant Quantum Circuit Synthesis by Diagonalization using Reinforcement Learning ( http://arxiv.org/abs/2409.00433v2 )

ライセンス: Link先を確認
Mathias Weiden, Justin Kalloor, Ed Younis, John Kubiatowicz, Costin Iancu, (参考訳) クリフォード+Tゲートセットのようなフォールトトレラントゲートセットで表される量子回路へのプログラムの資源効率が高く高精度なコンパイルは、量子コンピューティングの成功に不可欠である。 最適な解析的コンパイル法は、制限されたユニタリのクラスで知られており、そうでなければ問題は難解である。 強化学習(Reinforcement Learning)やシミュレート・アニーリング(simulated annealing)を含む経験的検索に基づく合成手法は、より広範なユニタリの集合に対して優れた実装を生成することができるが、近似精度と資源利用のトレードオフを必要とする。 探索に基づく手法を用いて、一般ユニタリ合成問題を対角ユニタリの合成問題に還元する。 本稿では,実量子アルゴリズムから抽出したユニタリの配列上で,フォールトトレラント合成アルゴリズムにより実現可能な実装精度をいかに向上するかを示す。 これらのベンチマークでは、その多くは既存のアプローチでは処理できないが、より一般的な量子シャノン分解と比較して、リソース集約的な非クリフォードゲートの平均は95%少ない。 将来の長期的応用のためのアルゴリズムのサブセットでは、対角化は他の方法と比較して最大で16.8%のTゲート数を減少させることができる。

Resource efficient and high precision compilation of programs into quantum circuits expressed in Fault-Tolerant gate sets, such as the Clifford+T gate set, is vital for the success of quantum computing. Optimal analytical compilation methods are known for restricted classes of unitaries, otherwise the problem is intractable. Empirical search-based synthesis methods, including Reinforcement Learning and simulated annealing, can generate good implementations for a more extensive set of unitaries, but require trade-offs in approximation precision and resource use. We leverage search-based methods to reduce the general unitary synthesis problem to one of synthesizing diagonal unitaries; a problem solvable efficiently in general and optimally in the single-qubit case. We demonstrate how our approach improves the implementation precision attainable by Fault-Tolerant synthesis algorithms on an array of unitaries taken from real quantum algorithms. On these benchmarks, many of which cannot be handled by existing approaches, we observe an average of 95% fewer resource-intensive non-Clifford gates compared to the more general Quantum Shannon Decomposition. On a subset of algorithms of interest for future term applications, diagonalization can reduce T gate counts by up to 16.8% compared to other methods.
翻訳日:2024-11-08 03:46:24 公開日:2024-10-22
# 強化学習を用いた対角化による高精度フォールトトレラント量子回路合成

High Precision Fault-Tolerant Quantum Circuit Synthesis by Diagonalization using Reinforcement Learning ( http://arxiv.org/abs/2409.00433v3 )

ライセンス: Link先を確認
Mathias Weiden, Justin Kalloor, Ed Younis, John Kubiatowicz, Costin Iancu, (参考訳) クリフォード+Tゲートセットのようなフォールトトレラントゲートセットで表される量子回路へのプログラムの資源効率が高く高精度なコンパイルは、量子コンピューティングの成功に不可欠である。 最適な解析的コンパイル法は、制限されたユニタリのクラスで知られており、そうでなければ問題は難解である。 強化学習(Reinforcement Learning)やシミュレート・アニーリング(simulated annealing)を含む経験的検索に基づく合成手法は、より広範なユニタリの集合に対して優れた実装を生成することができるが、近似精度と資源利用のトレードオフを必要とする。 探索に基づく手法を用いて、一般ユニタリ合成問題を対角ユニタリの合成問題に還元する。 本稿では,実量子アルゴリズムから抽出したユニタリの配列上で,フォールトトレラント合成アルゴリズムにより実現可能な実装精度をいかに向上するかを示す。 これらのベンチマークでは、その多くは既存のアプローチでは処理できないが、より一般的な量子シャノン分解と比較して、リソース集約的な非クリフォードゲートの平均は95%少ない。 将来の長期的応用のためのアルゴリズムのサブセットでは、対角化は他の方法と比較して最大で16.8%のTゲート数を減少させることができる。

Resource efficient and high precision compilation of programs into quantum circuits expressed in Fault-Tolerant gate sets, such as the Clifford+T gate set, is vital for the success of quantum computing. Optimal analytical compilation methods are known for restricted classes of unitaries, otherwise the problem is intractable. Empirical search-based synthesis methods, including Reinforcement Learning and simulated annealing, can generate good implementations for a more extensive set of unitaries, but require trade-offs in approximation precision and resource use. We leverage search-based methods to reduce the general unitary synthesis problem to one of synthesizing diagonal unitaries; a problem solvable efficiently in general and optimally in the single-qubit case. We demonstrate how our approach improves the implementation precision attainable by Fault-Tolerant synthesis algorithms on an array of unitaries taken from real quantum algorithms. On these benchmarks, many of which cannot be handled by existing approaches, we observe an average of 95% fewer resource-intensive non-Clifford gates compared to the more general Quantum Shannon Decomposition. On a subset of algorithms of interest for future term applications, diagonalization can reduce T gate counts by up to 16.8% compared to other methods.
翻訳日:2024-11-08 03:46:24 公開日:2024-10-22
# ダークマター探索のためのトランスモン量子ビットモデリングとキャラクタリゼーション

Transmon qubit modeling and characterization for Dark Matter search ( http://arxiv.org/abs/2409.05988v2 )

ライセンス: Link先を確認
R. Moretti, D. Labranca, P. Campana, R. Carobene, M. Gobbo, M. A. Castellanos-Beltran, D. Olaya, P. F. Hopkins, L. Banchi, M. Borghesi, A. Candido, H. A. Corti, A. D'Elia, M. Faverzani, E. Ferri, A. Nucciotti, L. Origo, A. Pasquale, A. S. Piedjou Komnang, A. Rettaroli, S. Tocci, S. Carrazza, C. Gatti, A. Giachero, (参考訳) 本研究では, 超伝導トランスモン量子ビット回路の試作機の設計, シミュレーション, 実験評価を行い, ダークマター検出実験への応用の可能性について検討した。 本稿では,2つの非干渉トランスモン量子ビットと1つの固定周波数,もう1つの磁束を調整可能な平面回路設計について述べる。 有限要素シミュレーションを用いて重要なハミルトンパラメータを抽出し、成分ジオメトリを最適化した。 キュービットは20ドルmKで製造され、シミュレーションと測定されたキュービットパラメータの比較を可能にした。 遷移周波数と非調和性(それぞれ 1 % と 10 % )についてはよい一致を示したが,結合強度は30 % の差を示した。 我々は、測定されたコヒーレンス時間が期待を下回る可能性について論じる(T_1\sim\,$1-2 \textmu s)。 特に,エネルギー参加率評価のためのハイブリッド3D-2Dシミュレーション手法の適用例を示し,誘電体損失のより正確な推定を行った。 本研究は, 暗黒物質探索のための平面量子非破壊(QND)単一光子カウンタの開発における重要な第一歩である。

This study presents the design, simulation, and experimental characterization of a superconducting transmon qubit circuit prototype for potential applications in dark matter detection experiments. We describe a planar circuit design featuring two non-interacting transmon qubits, one with fixed frequency and the other flux tunable. Finite-element simulations were employed to extract key Hamiltonian parameters and optimize component geometries. The qubit was fabricated and then characterized at $20$ mK, allowing for a comparison between simulated and measured qubit parameters. Good agreement was found for transition frequencies and anharmonicities (within 1\% and 10\% respectively) while coupling strengths exhibited larger discrepancies (30\%). We discuss potential causes for measured coherence times falling below expectations ($T_1\sim\,$1-2 \textmu s) and propose strategies for future design improvements. Notably, we demonstrate the application of a hybrid 3D-2D simulation approach for energy participation ratio evaluation, yielding a more accurate estimation of dielectric losses. This work represents an important first step in developing planar Quantum Non-Demolition (QND) single-photon counters for dark matter searches, particularly for axion and dark photon detection schemes.
翻訳日:2024-11-07 22:27:40 公開日:2024-10-22
# 機械学習によるナノ材料合成の予測と高速化

Predicting and Accelerating Nanomaterials Synthesis Using Machine Learning Featurization ( http://arxiv.org/abs/2409.08054v2 )

ライセンス: Link先を確認
Christopher C. Price, Yansong Li, Guanyu Zhou, Rehan Younas, Spencer S. Zeng, Tim H. Scanlon, Jason M. Munro, Christopher L. Hinkle, (参考訳) 材料合成の最適化は、手動のツールと複数のサイロモードにまたがる直感に依存するシリアルフィードバックプロセスによって制約される。 我々は、反射高エネルギー電子回折(RHEED)データの特徴抽出を機械学習で自動化し、専門家ラベル付きデータの小さなセット(〜10)で定量的に予測関係を確立する。 これらの予測関係は、c面サファイア(0001)上の代表物質系(\ce{W_{1-x}V_xSe2})において、2つの目的で評価される。 1) 成長前基板データによる成膜膜の粒状配向予測と粒状配向予測 2) in-situ RHEED を用いてバナジウムドーパント濃度を推定した(例えば、x線光電子分光法)。 どちらのタスクも、同じ材料に依存しない機能を使用して達成され、特定のシステムの再訓練を回避し、100サンプルの合成キャンペーンに対して80%の時間節約につながる可能性がある。 これらの予測は、未解決の試行を回避し、後続のキャラクタリゼーションを減らし、材料合成の制御分解能を改善するためのガイダンスを提供する。

Materials synthesis optimization is constrained by serial feedback processes that rely on manual tools and intuition across multiple siloed modes of characterization. We automate and generalize feature extraction of reflection high-energy electron diffraction (RHEED) data with machine learning to establish quantitatively predictive relationships in small sets (\~10) of expert-labeled data, saving significant time on subsequently grown samples. These predictive relationships are evaluated in a representative material system (\ce{W_{1-x}V_xSe2} on c-plane sapphire (0001)) with two aims: 1) predicting grain alignment of the deposited film using pre-growth substrate data, and 2) estimating vanadium dopant concentration using in-situ RHEED as a proxy for ex-situ methods (e.g. x-ray photoelectron spectroscopy). Both tasks are accomplished using the same materials-agnostic features, avoiding specific system retraining and leading to a potential 80\% time saving over a 100-sample synthesis campaign. These predictions provide guidance to avoid doomed trials, reduce follow-on characterization, and improve control resolution for materials synthesis.
翻訳日:2024-11-07 21:31:36 公開日:2024-10-22
# 窒化ケイ素マイクロリング共振器を用いたEinstein-Podolsky-Rosen絡み込みによる周波数依存性のスクイージング

Frequency-dependent squeezing via Einstein-Podolsky-Rosen entanglement based on silicon nitride microring resonators ( http://arxiv.org/abs/2409.09336v2 )

ライセンス: Link先を確認
Haodong Xu, Zijun Shu, Nianqin Li, Yang Shen, Bo Ji, Yongjun Yang, Tengfei Wu, Mingliang Long, Guangqiang He, (参考訳) 重力波検出器などの量子ノイズに制限された変位センサの性能向上に重要な取り組みがなされている。 周波数依存性のスクイージングのような技術は、光学力の測定における標準的な量子限界を克服し、実質的な全体的な進歩をもたらした。 これらの進歩は、集積フォトニクスの大きな発展と相まって、ケラー量子周波数コム(英語版)(QFC)の出現の道を開いた。 オンチップ窒化ケイ素マイクロリング共振器を用いてEPRエンタングルド量子周波数コムを設計するためのプラットフォームが確立され、エンタングルメント性能の徹底的な解析と最適化、および効果的なノイズ低減調整が可能となった。 このプラットフォームはKerr非線形マイクロ共振器の量子力学を取り入れ、少なくとも12個の連続可変量子モードを6つの同時2モード圧縮ペア(EPRアンタングルペア)の形でサポートしている。 また、アイドラーモードの検出角度を選択することにより、信号モードで単一モード圧縮状態を生成する。 検出角度の周波数依存性の性質を考慮し、周波数依存性のスクイーズを実現する。 また, 異なる分散条件下での比較解析を行った。

Significant efforts have been made to enhance the performance of displacement sensors limited by quantum noise, such as gravitational wave detectors. Techniques like frequency-dependent squeezing have overcome the standard quantum limit in optomechanical force measurements, leading to substantial overall progress. These advancements, coupled with major developments in integrated photonics, have paved the way for the emergence of integrated Kerr quantum frequency combs (QFCs). A platform has been established for designing EPR entangled quantum frequency combs using on-chip silicon nitride microring resonators, enabling thorough analysis and optimization of entanglement performance, as well as effective noise reduction adjustments. This platform, incorporating the quantum dynamics of Kerr nonlinear microresonators, supports at least 12 continuous-variable quantum modes in the form of 6 simultaneous two-mode squeezed pairs (EPR entangled pairs). Additionally, by selecting the detection angle of the idler mode, a single-mode squeezed state is generated in the signal mode. Given the frequency-dependent nature of the detection angle, frequency-dependent squeezing is achieved. A comparative analysis of the results under different dispersion conditions is also conducted.
翻訳日:2024-11-07 20:57:42 公開日:2024-10-22
# 画像復元のための拡散モデル

Taming Diffusion Models for Image Restoration: A Review ( http://arxiv.org/abs/2409.10353v2 )

ライセンス: Link先を確認
Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sjölund, Thomas B. Schön, (参考訳) 拡散モデルは生成的モデリングにおいて顕著な進歩を遂げており、特に人間の嗜好に適合する画像品質の向上に寄与している。 近年、これらのモデルは、画像のデノイング、デブロアリング、デハジングなどのタスクにおいて、写真リアリスティック画像復元(IR)のための低レベルコンピュータビジョンにも適用されている。 本稿では,拡散モデルにおける重要な構成について紹介し,拡散モデルを用いた一般的なIRタスクの解法について検討する。 さらに,既存の拡散型IRフレームワークの主な課題と限界を指摘している。

Diffusion models have achieved remarkable progress in generative modelling, particularly in enhancing image quality to conform to human preferences. Recently, these models have also been applied to low-level computer vision for photo-realistic image restoration (IR) in tasks such as image denoising, deblurring, dehazing, etc. In this review paper, we introduce key constructions in diffusion models and survey contemporary techniques that make use of diffusion models in solving general IR tasks. Furthermore, we point out the main challenges and limitations of existing diffusion-based IR frameworks and provide potential directions for future work.
翻訳日:2024-11-07 20:35:12 公開日:2024-10-22
# NVLM:オープンフロンティアクラスのマルチモーダルLCM

NVLM: Open Frontier-Class Multimodal LLMs ( http://arxiv.org/abs/2409.11402v2 )

ライセンス: Link先を確認
Wenliang Dai, Nayeon Lee, Boxin Wang, Zhuolin Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping, (参考訳) NVLM 1.0は、フロンティアクラスのマルチモーダル大言語モデル(LLM)のファミリーであり、視覚言語タスクにおける最先端の成果を達成し、主要なプロプライエタリモデル(例えば、GPT-4o)とオープンアクセスモデル(例えば、Llama 3-V 405B、InternVL 2)に匹敵する。 興味深いことに、NVLM 1.0はマルチモーダルトレーニング後のLLMバックボーンよりもテキストのみのパフォーマンスが改善されている。 モデル設計では,デコーダのみのマルチモーダルLLM (eg , LLaVA) とクロスアテンションベースモデル (eg , Flamingo) の総合的な比較を行う。 両アプローチの長所と短所に基づいて,学習効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。 さらに,タイルベースの動的高解像度画像に対する1次元タイルタグ付け設計を導入し,マルチモーダル推論やOCR関連タスクの性能を大幅に向上させる。 トレーニングデータに関しては、マルチモーダル事前学習と教師付き微調整データセットの詳細情報を慎重にキュレートし、提供します。 この結果から,データセットの品質とタスクの多様性は,事前学習フェーズにおいても,すべてのアーキテクチャにわたって,スケールよりも重要であることが示唆された。 特に,NVLM-1.0モデルのプロダクショングレードのマルチモーダリティを開発し,LLMのバックボーンに比べてテキストのみの性能を維持・改善しつつ,視覚言語タスクの卓越性を向上する。 これを実現するために、高品質なテキストのみのデータセットを多モーダルトレーニングに組み込んで、大量のマルチモーダル数学や推論データと組み合わせることで、モーダルをまたいだ数学やコーディング能力の強化を実現した。 この分野の研究を進めるため、私たちはhttps://huggingface.co/nvidia/NVLM-D-72Bでモデルウェイトをリリースし、まもなくコミュニティ向けのトレーニングコードをオープンソース化します。

We introduce NVLM 1.0, a family of frontier-class multimodal large language models (LLMs) that achieve state-of-the-art results on vision-language tasks, rivaling the leading proprietary models (e.g., GPT-4o) and open-access models (e.g., Llama 3-V 405B and InternVL 2). Remarkably, NVLM 1.0 shows improved text-only performance over its LLM backbone after multimodal training. In terms of model design, we perform a comprehensive comparison between decoder-only multimodal LLMs (e.g., LLaVA) and cross-attention-based models (e.g., Flamingo). Based on the strengths and weaknesses of both approaches, we propose a novel architecture that enhances both training efficiency and multimodal reasoning capabilities. Furthermore, we introduce a 1-D tile-tagging design for tile-based dynamic high-resolution images, which significantly boosts performance on multimodal reasoning and OCR-related tasks. Regarding training data, we meticulously curate and provide detailed information on our multimodal pretraining and supervised fine-tuning datasets. Our findings indicate that dataset quality and task diversity are more important than scale, even during the pretraining phase, across all architectures. Notably, we develop production-grade multimodality for the NVLM-1.0 models, enabling them to excel in vision-language tasks while maintaining and even improving text-only performance compared to their LLM backbones. To achieve this, we craft and integrate a high-quality text-only dataset into multimodal training, alongside a substantial amount of multimodal math and reasoning data, leading to enhanced math and coding capabilities across modalities. To advance research in the field, we release the model weights at https://huggingface.co/nvidia/NVLM-D-72B and will open-source the training code for the community soon.
翻訳日:2024-11-07 20:01:55 公開日:2024-10-22
# Oryx MLLM:任意分解能におけるオン・デマンド空間時間理解

Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution ( http://arxiv.org/abs/2409.12961v1 )

ライセンス: Link先を確認
Zuyan Liu, Yuhao Dong, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao, (参考訳) ビジュアルデータには、わずか数ピクセルの小さなアイコンから数時間にわたる長いビデオまで、さまざまな形態がある。 既存のマルチモーダル LLM は、通常、これらの多様な視覚入力を、視覚エンコーダの固定解像度に標準化し、LLM に類似した数のトークンを生成する。 このアプローチはマルチモーダル理解には最適ではなく、長い視覚的内容と短い視覚的内容の入力を処理するのに非効率である。 この問題を解決するために,画像,ビデオ,多視点3Dシーンの空間的時間的理解のための統合型マルチモーダルアーキテクチャであるOryxを提案する。 Oryxは、任意の空間サイズと時間長を持つ視覚入力をシームレスかつ効率的に処理するオンデマンドソリューションを提供する。 1) LLMフレンドリーな視覚表現に任意の解像度で画像をエンコードできる訓練済みのOryxViTモデル 2) 要求に応じて視覚トークンの1倍から16倍の圧縮をサポートする動的圧縮モジュール。 これらのデザイン機能により、Oryxは低解像度と高圧縮でビデオのような非常に長い視覚的コンテキストに対応でき、ネイティブの解像度で文書を理解でき、圧縮しないようなタスクの認識精度は維持できる。 アーキテクチャの改善に加えて、拡張されたデータキュレーションと長期コンテキスト検索と空間認識データに関する特別なトレーニングにより、Oryxは画像、ビデオ、および3Dマルチモーダル理解において、同時に強力な能力を達成することができる。 私たちの仕事はhttps://github.com/Oryx-mllm/Oryx.comで公開されています。

Visual data comes in various forms, ranging from small icons of just a few pixels to long videos spanning hours. Existing multi-modal LLMs usually standardize these diverse visual inputs to a fixed resolution for visual encoders and yield similar numbers of tokens for LLMs. This approach is non-optimal for multimodal understanding and inefficient for processing inputs with long and short visual contents. To solve the problem, we propose Oryx, a unified multimodal architecture for the spatial-temporal understanding of images, videos, and multi-view 3D scenes. Oryx offers an on-demand solution to seamlessly and efficiently process visual inputs with arbitrary spatial sizes and temporal lengths through two core innovations: 1) a pre-trained OryxViT model that can encode images at any resolution into LLM-friendly visual representations; 2) a dynamic compressor module that supports 1x to 16x compression on visual tokens by request. These design features enable Oryx to accommodate extremely long visual contexts, such as videos, with lower resolution and high compression while maintaining high recognition precision for tasks like document understanding with native resolution and no compression. Beyond the architectural improvements, enhanced data curation and specialized training on long-context retrieval and spatial-aware data help Oryx achieve strong capabilities in image, video, and 3D multimodal understanding simultaneously. Our work is open-sourced at https://github.com/Oryx-mllm/Oryx.
翻訳日:2024-11-07 12:36:59 公開日:2024-10-22
# Oryx MLLM:任意分解能におけるオン・デマンド空間時間理解

Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution ( http://arxiv.org/abs/2409.12961v2 )

ライセンス: Link先を確認
Zuyan Liu, Yuhao Dong, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao, (参考訳) ビジュアルデータには、わずか数ピクセルの小さなアイコンから数時間にわたる長いビデオまで、さまざまな形態がある。 既存のマルチモーダル LLM は、通常、これらの多様な視覚入力を、視覚エンコーダの固定解像度に標準化し、LLM に類似した数のトークンを生成する。 このアプローチはマルチモーダル理解には最適ではなく、長い視覚的内容と短い視覚的内容の入力を処理するのに非効率である。 この問題を解決するために,画像,ビデオ,多視点3Dシーンの空間的時間的理解のための統合型マルチモーダルアーキテクチャであるOryxを提案する。 Oryxは、任意の空間サイズと時間長を持つ視覚入力をシームレスかつ効率的に処理するオンデマンドソリューションを提供する。 1) LLMフレンドリーな視覚表現に任意の解像度で画像をエンコードできる訓練済みのOryxViTモデル 2) 要求に応じて視覚トークンの1倍から16倍の圧縮をサポートする動的圧縮モジュール。 これらのデザイン機能により、Oryxは低解像度と高圧縮でビデオのような非常に長い視覚的コンテキストに対応でき、ネイティブの解像度で文書を理解でき、圧縮しないようなタスクの認識精度は維持できる。 アーキテクチャの改善に加えて、拡張されたデータキュレーションと長期コンテキスト検索と空間認識データに関する特別なトレーニングにより、Oryxは画像、ビデオ、および3Dマルチモーダル理解において、同時に強力な能力を達成することができる。 私たちの仕事はhttps://github.com/Oryx-mllm/Oryx.comで公開されています。

Visual data comes in various forms, ranging from small icons of just a few pixels to long videos spanning hours. Existing multi-modal LLMs usually standardize these diverse visual inputs to a fixed resolution for visual encoders and yield similar numbers of tokens for LLMs. This approach is non-optimal for multimodal understanding and inefficient for processing inputs with long and short visual contents. To solve the problem, we propose Oryx, a unified multimodal architecture for the spatial-temporal understanding of images, videos, and multi-view 3D scenes. Oryx offers an on-demand solution to seamlessly and efficiently process visual inputs with arbitrary spatial sizes and temporal lengths through two core innovations: 1) a pre-trained OryxViT model that can encode images at any resolution into LLM-friendly visual representations; 2) a dynamic compressor module that supports 1x to 16x compression on visual tokens by request. These design features enable Oryx to accommodate extremely long visual contexts, such as videos, with lower resolution and high compression while maintaining high recognition precision for tasks like document understanding with native resolution and no compression. Beyond the architectural improvements, enhanced data curation and specialized training on long-context retrieval and spatial-aware data help Oryx achieve strong capabilities in image, video, and 3D multimodal understanding simultaneously. Our work is open-sourced at https://github.com/Oryx-mllm/Oryx.
翻訳日:2024-11-07 12:36:59 公開日:2024-10-22
# グリカン表現学習のための高次メッセージパッシング

Higher-Order Message Passing for Glycan Representation Learning ( http://arxiv.org/abs/2409.13467v1 )

ライセンス: Link先を確認
Roman Joeres, Daniel Bojar, (参考訳) グリカン類は最も複雑な生物学的配列であり、単糖類は伸長非線形配列を形成する。 翻訳後修飾として、タンパク質の構造、機能、相互作用を調節する。 その多様性と複雑さのため、グリカンの性質と機能の予測モデルはまだ不十分である。 グラフニューラルネットワーク(GNN)は、グラフ構造化データの処理と解析のために設計されたディープラーニングモデルである。 これらのアーキテクチャは、ノード、エッジ、グラフ全体の効率的な表現を学ぶために、グラフ内の接続性と関係情報を活用する。 近隣ノードからの情報を反復的に集約することで、GNNはグラフデータ内の複雑なパターンをキャプチャし、リンク予測やドメイン間のグラフ分類といったタスクに特に適している。 本研究では,合成錯体と高次メッセージパッシングに基づく新しいモデルアーキテクチャを提案し,グリカン構造から潜在空間表現へ特徴を抽出する。 アーキテクチャは改良されたGlycanMLベンチマークスイートで評価され、新しい最先端のパフォーマンスが確立された。 これらの改良により、計算グリコ科学のさらなる進歩が促進され、生物学におけるグリカンの役割が明らかにされることを期待している。

Glycans are the most complex biological sequence, with monosaccharides forming extended, non-linear sequences. As post-translational modifications, they modulate protein structure, function, and interactions. Due to their diversity and complexity, predictive models of glycan properties and functions are still insufficient. Graph Neural Networks (GNNs) are deep learning models designed to process and analyze graph-structured data. These architectures leverage the connectivity and relational information in graphs to learn effective representations of nodes, edges, and entire graphs. Iteratively aggregating information from neighboring nodes, GNNs capture complex patterns within graph data, making them particularly well-suited for tasks such as link prediction or graph classification across domains. This work presents a new model architecture based on combinatorial complexes and higher-order message passing to extract features from glycan structures into a latent space representation. The architecture is evaluated on an improved GlycanML benchmark suite, establishing a new state-of-the-art performance. We envision that these improvements will spur further advances in computational glycosciences and reveal the roles of glycans in biology.
翻訳日:2024-11-07 07:04:14 公開日:2024-10-22
# グリカン表現学習のための高次メッセージパッシング

Higher-Order Message Passing for Glycan Representation Learning ( http://arxiv.org/abs/2409.13467v2 )

ライセンス: Link先を確認
Roman Joeres, Daniel Bojar, (参考訳) グリカン類は最も複雑な生物学的配列であり、単糖類は伸長非線形配列を形成する。 翻訳後修飾として、タンパク質の構造、機能、相互作用を調節する。 その多様性と複雑さのため、グリカンの性質と機能の予測モデルはまだ不十分である。 グラフニューラルネットワーク(GNN)は、グラフ構造化データの処理と解析のために設計されたディープラーニングモデルである。 これらのアーキテクチャは、ノード、エッジ、グラフ全体の効率的な表現を学ぶために、グラフ内の接続性と関係情報を活用する。 近隣ノードからの情報を反復的に集約することで、GNNはグラフデータ内の複雑なパターンをキャプチャし、リンク予測やドメイン間のグラフ分類といったタスクに特に適している。 本研究では,合成錯体と高次メッセージパッシングに基づく新しいモデルアーキテクチャを提案し,グリカン構造から潜在空間表現へ特徴を抽出する。 アーキテクチャは改良されたGlycanMLベンチマークスイートで評価され、新しい最先端のパフォーマンスが確立された。 これらの改良により、計算グリコ科学のさらなる進歩が促進され、生物学におけるグリカンの役割が明らかにされることを期待している。

Glycans are the most complex biological sequence, with monosaccharides forming extended, non-linear sequences. As post-translational modifications, they modulate protein structure, function, and interactions. Due to their diversity and complexity, predictive models of glycan properties and functions are still insufficient. Graph Neural Networks (GNNs) are deep learning models designed to process and analyze graph-structured data. These architectures leverage the connectivity and relational information in graphs to learn effective representations of nodes, edges, and entire graphs. Iteratively aggregating information from neighboring nodes, GNNs capture complex patterns within graph data, making them particularly well-suited for tasks such as link prediction or graph classification across domains. This work presents a new model architecture based on combinatorial complexes and higher-order message passing to extract features from glycan structures into a latent space representation. The architecture is evaluated on an improved GlycanML benchmark suite, establishing a new state-of-the-art performance. We envision that these improvements will spur further advances in computational glycosciences and reveal the roles of glycans in biology.
翻訳日:2024-11-07 07:04:14 公開日:2024-10-22
# 学業における大規模言語モデルの影響--執筆から講演まで

The Impact of Large Language Models in Academia: from Writing to Speaking ( http://arxiv.org/abs/2409.13686v1 )

ライセンス: Link先を確認
Mingmeng Geng, Caixi Chen, Yanru Wu, Dongping Chen, Yao Wan, Pan Zhou, (参考訳) 大規模言語モデル(LLM)は、特にテキスト情報において、人間の社会にますます影響を与えている。 筆者らは,3万件以上の論文と1,000件以上の機械学習会議のプレゼンテーションに基づいて,LLMが同じグループ内での2つの主要なコミュニケーションと表現のモードにどのように影響するかを,文章や発話で使用する単語を調査,比較した。 実験結果から,LLMスタイルの単語である「有意」が,抽象語や口頭語ではより頻繁に用いられていることが明らかとなった。 人社会に対するLLMの暗黙の影響と波及効果に注意を向け、講演への影響が浮上し始めており、将来成長する可能性が高い。

Large language models (LLMs) are increasingly impacting human society, particularly in textual information. Based on more than 30,000 papers and 1,000 presentations from machine learning conferences, we examined and compared the words used in writing and speaking, representing the first large-scale investigating study of how LLMs influence the two main modes of verbal communication and expression within the same group of people. Our empirical results show that LLM-style words such as "significant" have been used more frequently in abstracts and oral presentations. The impact on speaking is beginning to emerge and is likely to grow in the future, calling attention to the implicit influence and ripple effect of LLMs on human society.
翻訳日:2024-11-07 05:57:35 公開日:2024-10-22
# 学業における大規模言語モデルの影響--執筆から講演まで

The Impact of Large Language Models in Academia: from Writing to Speaking ( http://arxiv.org/abs/2409.13686v2 )

ライセンス: Link先を確認
Mingmeng Geng, Caixi Chen, Yanru Wu, Dongping Chen, Yao Wan, Pan Zhou, (参考訳) 大規模言語モデル(LLM)は、特にテキスト情報において、人間の社会にますます影響を与えている。 筆者らは,3万件以上の論文と1,000件以上の機械学習会議のプレゼンテーションに基づいて,LLMが同じグループ内での2つの主要なコミュニケーションと表現のモードにどのように影響するかについて,文章と発話で使用される単語を検証,比較した。 実験結果から,LLMスタイルの単語である「有意」が,抽象語や口頭語ではより頻繁に用いられていることが明らかとなった。 人社会に対するLLMの暗黙の影響と波及効果に注意を向け、講演への影響が浮上し始めており、将来成長する可能性が高い。

Large language models (LLMs) are increasingly impacting human society, particularly in textual information. Based on more than 30,000 papers and 1,000 presentations from machine learning conferences, we examined and compared the words used in writing and speaking, representing the first large-scale study of how LLMs influence the two main modes of verbal communication and expression within the same group of people. Our empirical results show that LLM-style words such as "significant" have been used more frequently in abstracts and oral presentations. The impact on speaking is beginning to emerge and is likely to grow in the future, calling attention to the implicit influence and ripple effect of LLMs on human society.
翻訳日:2024-11-07 05:57:35 公開日:2024-10-22
# フェアネス・アウェア・アンサンブルによるテキスト安全分類器の劣化

Debiasing Text Safety Classifiers through a Fairness-Aware Ensemble ( http://arxiv.org/abs/2409.13705v1 )

ライセンス: Link先を確認
Olivia Sturman, Aparna Joshi, Bhaktipriya Radharapu, Piyush Kumar, Renee Shelby, (参考訳) 大規模言語モデル (LLMs) の使用が増加し、LLMの入力と出力の安全性を確保するために性能ガードレールが要求される。 これらのセーフガードが不均衡なデータに基づいて訓練されると、社会的バイアスを学ぶことができる。 クローズドソーステキストセーフティ分類器における対実フェアネスを緩和する軽量後処理法を提案する。 我々のアプローチは、入力分類器を上回り、ポリシーアライメントするだけでなく、デバイアスレギュレータとしても機能するアンサンブルを構築することである。 モデルの有効性を評価するためのしきい値に依存しない2つの指標を導入し、これらの指標をFDW(Fair Data Reweighting)と組み合わせることでバイアスを軽減できることを示す。 拡張されたOpen AIデータセットと、ユーザプロンプトに基づいた新しいテンプレート付きLLM生成データセットを作成します。 提案手法は, モデル性能に最小限の影響を伴って, 対実的公正性の向上を図っている。

Increasing use of large language models (LLMs) demand performant guardrails to ensure the safety of inputs and outputs of LLMs. When these safeguards are trained on imbalanced data, they can learn the societal biases. We present a light-weight, post-processing method for mitigating counterfactual fairness in closed-source text safety classifiers. Our approach involves building an ensemble that not only outperforms the input classifiers and policy-aligns them, but also acts as a debiasing regularizer. We introduce two threshold-agnostic metrics to assess the counterfactual fairness of a model, and demonstrate how combining these metrics with Fair Data Reweighting (FDW) helps mitigate biases. We create an expanded Open AI dataset, and a new templated LLM-generated dataset based on user-prompts, both of which are counterfactually balanced across identity groups and cover four key areas of safety; we will work towards publicly releasing these datasets. Our results show that our approach improves counterfactual fairness with minimal impact on model performance.
翻訳日:2024-11-07 05:46:28 公開日:2024-10-22
# フェアネス・アウェア・アンサンブルによるテキスト安全分類器の劣化

Debiasing Text Safety Classifiers through a Fairness-Aware Ensemble ( http://arxiv.org/abs/2409.13705v2 )

ライセンス: Link先を確認
Olivia Sturman, Aparna Joshi, Bhaktipriya Radharapu, Piyush Kumar, Renee Shelby, (参考訳) 大規模言語モデル (LLMs) の使用が増加し、LLMの入力と出力の安全性を確保するために性能ガードレールが要求される。 これらのセーフガードが不均衡なデータに基づいて訓練されると、社会的バイアスを学ぶことができる。 クローズドソーステキストセーフティ分類器における対実フェアネスを緩和する軽量後処理法を提案する。 我々のアプローチは、入力分類器を上回り、ポリシーアライメントするだけでなく、デバイアスレギュレータとしても機能するアンサンブルを構築することである。 モデルの有効性を評価するためのしきい値に依存しない2つの指標を導入し、これらの指標をFDW(Fair Data Reweighting)と組み合わせることでバイアスを軽減できることを示す。 拡張されたOpen AIデータセットと、ユーザプロンプトに基づいた新しいテンプレート付きLLM生成データセットを作成します。 提案手法は, モデル性能に最小限の影響を伴って, 対実的公正性の向上を図っている。

Increasing use of large language models (LLMs) demand performant guardrails to ensure the safety of inputs and outputs of LLMs. When these safeguards are trained on imbalanced data, they can learn the societal biases. We present a light-weight, post-processing method for mitigating counterfactual fairness in closed-source text safety classifiers. Our approach involves building an ensemble that not only outperforms the input classifiers and policy-aligns them, but also acts as a debiasing regularizer. We introduce two threshold-agnostic metrics to assess the counterfactual fairness of a model, and demonstrate how combining these metrics with Fair Data Reweighting (FDW) helps mitigate biases. We create an expanded Open AI dataset, and a new templated LLM-generated dataset based on user-prompts, both of which are counterfactually balanced across identity groups and cover four key areas of safety; we will work towards publicly releasing these datasets. Our results show that our approach improves counterfactual fairness with minimal impact on model performance.
翻訳日:2024-11-07 05:46:28 公開日:2024-10-22
# ERABAL:境界認識学習によるロールプレイングエージェントの強化

ERABAL: Enhancing Role-Playing Agents through Boundary-Aware Learning ( http://arxiv.org/abs/2409.14710v1 )

ライセンス: Link先を確認
Yihong Tang, Jiao Ou, Che Liu, Fuzheng Zhang, Di Zhang, Kun Gai, (参考訳) ロールプレイングはヒューマン・コンピュータ・インタラクション(HCI)分野における新興のアプリケーションであり、主に割り当てられた文字と大きな言語モデル(LLM)のアライメントトレーニングによって実装されている。 大幅な進歩にもかかわらず、ロールプレイングエージェント(RPLA)は、特にキャラクタ属性と微妙に関連する境界クエリに直面する場合、会話間のロール一貫性を維持するのに依然として苦労している。 本稿では,境界認識学習によるロールプレイング能力向上を目的としたフレームワークであるERABALを提案する。 ERABALは、ロール固有の対話のための生成パイプラインと、アライメントトレーニングのための共用方法論を含んでいる。 包括的な評価を通じて,ERABALは効率的かつ効果的であることを示す。 主要なアプローチよりもはるかに少ないダイアログによるトレーニングにより、ERABALは、一般的なベースラインモデルと比較して、WikiRoleEval、 characterEval、およびMT-Benchのロールプレイングサブセット間で顕著な改善を実現している。 私たちのコードとデータセットは、さらなる研究をサポートするために公開されます。

Role-playing is an emerging application in the field of Human-Computer Interaction (HCI), primarily implemented through the alignment training of a large language model (LLM) with assigned characters. Despite significant progress, role-playing agents (RPLAs) still struggle with maintaining role-consistency across conversations, particularly when confronted with boundary queries subtly related to character attributes. In this paper, we present ERABAL, a framework aimed at enhancing RPLAs' role-playing capabilities through boundary-aware learning. ERABAL encompasses a generation pipeline for role-specific dialogues and a concomitant methodology for alignment training. Through comprehensive evaluations, we demonstrate that ERABAL is both efficient and effective. By training with significantly fewer dialogues than those used in leading approaches, ERABAL achieves notable improvements across WikiRoleEval, CharacterEval, and the role-playing subset of MT-Bench compared to the generalist baseline models. Our code and datasets will be made publicly available to support further research.
翻訳日:2024-11-06 21:23:54 公開日:2024-10-22
# ERABAL:境界認識学習によるロールプレイングエージェントの強化

ERABAL: Enhancing Role-Playing Agents through Boundary-Aware Learning ( http://arxiv.org/abs/2409.14710v2 )

ライセンス: Link先を確認
Yihong Tang, Jiao Ou, Che Liu, Fuzheng Zhang, Di Zhang, Kun Gai, (参考訳) ロールプレイングはヒューマン・コンピュータ・インタラクション(HCI)分野における新興のアプリケーションであり、主に割り当てられた文字と大きな言語モデル(LLM)のアライメントトレーニングによって実装されている。 大幅な進歩にもかかわらず、ロールプレイングエージェント(RPLA)は、特にキャラクタ属性と微妙に関連する境界クエリに直面する場合、会話間のロール一貫性を維持するのに依然として苦労している。 本稿では,境界認識学習によるロールプレイング能力向上を目的としたフレームワークであるERABALを提案する。 ERABALは、ロール固有の対話のための生成パイプラインと、アライメントトレーニングのための共用方法論を含んでいる。 包括的な評価を通じて,ERABALは効率的かつ効果的であることを示す。 主要なアプローチよりもはるかに少ないダイアログによるトレーニングにより、ERABALは、一般的なベースラインモデルと比較して、WikiRoleEval、 characterEval、およびMT-Benchのロールプレイングサブセット間で顕著な改善を実現している。 私たちのコードとデータセットは、さらなる研究をサポートするために公開されます。

Role-playing is an emerging application in the field of Human-Computer Interaction (HCI), primarily implemented through the alignment training of a large language model (LLM) with assigned characters. Despite significant progress, role-playing agents (RPLAs) still struggle with maintaining role-consistency across conversations, particularly when confronted with boundary queries subtly related to character attributes. In this paper, we present ERABAL, a framework aimed at enhancing RPLAs' role-playing capabilities through boundary-aware learning. ERABAL encompasses a generation pipeline for role-specific dialogues and a concomitant methodology for alignment training. Through comprehensive evaluations, we demonstrate that ERABAL is both efficient and effective. By training with significantly fewer dialogues than those used in leading approaches, ERABAL achieves notable improvements across WikiRoleEval, CharacterEval, and the role-playing subset of MT-Bench compared to the generalist baseline models. Our code and datasets will be made publicly available to support further research.
翻訳日:2024-11-06 21:23:54 公開日:2024-10-22
# テキストから治療効果へ:テキストベースコンファウンディングへのメタラーニングアプローチ

From Text to Treatment Effects: A Meta-Learning Approach to Handling Text-Based Confounding ( http://arxiv.org/abs/2409.15503v2 )

ライセンス: Link先を確認
Henri Arno, Paloma Rabaey, Thomas Demeester, (参考訳) 因果機械学習の主な目的の1つは、観測データから不均一な処理効果を正確に推定することである。 近年、メタラーニングは任意の教師付きモデルを用いて条件平均治療効果(CATE)を推定するためのフレキシブルでモデルに依存しないパラダイムとして出現している。 本稿では,テキスト中の共起変数の表現におけるメタラーナーの性能について検討する。 合成データ実験により,共著者の事前学習したテキスト表現を用いた学習者は,表裏変数に加えて,表裏変数のみに依存するもの,特に十分なデータが利用可能である場合に比較して,CATE推定が向上することを示した。 しかしながら、テキスト埋め込みの絡み合った性質のため、これらのモデルは、完全な共同創設者の知識を持つメタラーナーのパフォーマンスと完全には一致しない。 これらの知見は、因果推論のための事前学習されたテキスト表現の可能性と限界を浮き彫りにして、今後の研究への興味深い道を開くものである。

One of the central goals of causal machine learning is the accurate estimation of heterogeneous treatment effects from observational data. In recent years, meta-learning has emerged as a flexible, model-agnostic paradigm for estimating conditional average treatment effects (CATE) using any supervised model. This paper examines the performance of meta-learners when the confounding variables are expressed in text. Through synthetic data experiments, we show that learners using pre-trained text representations of confounders, in addition to tabular background variables, achieve improved CATE estimates compared to those relying solely on the tabular variables, particularly when sufficient data is available. However, due to the entangled nature of the text embeddings, these models do not fully match the performance of meta-learners with perfect confounder knowledge. These findings highlight both the potential and the limitations of pre-trained text representations for causal inference and open up interesting avenues for future research.
翻訳日:2024-11-06 19:43:38 公開日:2024-10-22
# 会計ソフトのメタモルフィックデバッグ

Metamorphic Debugging for Accountable Software ( http://arxiv.org/abs/2409.16140v2 )

ライセンス: Link先を確認
Saeid Tizpaz-Niari, Shiva Darian, Ashutosh Trivedi, (参考訳) 法律が複雑で巨大になるにつれて、これらの複雑さをナビゲートし理解するソフトウェアシステムの役割はますます重要になっている。 社会的・経済的・法的に重要な意味から、法的コンプライアンス、説明可能性、手続き的正義の認識、成果の公正性、機密性/プライバシーなどの品質を含むソフトウェア説明責任は、社会的な重要性を最重要視している。 さらに、その要件を正確に解釈し、法的基準を遵守し、社会的公正を尊重するソフトウェアは、法的および社会的規範の代理として機能し、ソフトウェアエンジニアが試験を行う限り、政策立案者は法律をシームレスに問うことができる。 しかし、ソフトウェア説明責任の確保には3つの課題がある。 一 法律書を正式な明細書に翻訳すること。 二 クエリ(オラクルの問題)に関する決定的な「真実」の欠如及び 三 プライバシー及び法的懸念による信用に値するデータセットの充実 米国の税制作成ソフトウェアをデバッグした経験から,これらの課題はリレーショナル仕様に焦点をあてることによって解決できる,と提案する。 与えられた入力の正確な出力は不明だが、関連する2つの入力の出力間の関係は容易に表現できる。 この観察は似ている 一 前例の法的原則、類似の事件が同様の判決を下さなければならないことをいう。 二 ソフトウェア工学におけるメタモルフィック関係(MR)であって、ソフトウェア入力と出力の特定の関係を必要とするもの。 本稿では,社会法的ソフトウェアの検出,説明,修復の基盤としてメタモルフィックデバッグを提案する。 本稿では, メタモルフィックデバッギングを利用して, 税収や貧困管理ソフトウェアシステムにおける説明責任バグを検出し, 説明する最近の成果を紹介する。

As the laws have become more complicated and enormous, the role of software systems in navigating and understanding these intricacies has become more critical. Given their socio-economic and legally critical implications, ensuring software accountability -- encompassing qualities such as legal compliance, explainability, perceptions of procedural justice, fairness of outcomes, and confidentiality/privacy -- is of paramount social importance. Moreover, software that accurately interprets its requirements, complies with legal standards and upholds social fairness can serve as a surrogate for legal and social norms, enabling policymakers to inquire about the law as seamlessly as a software engineer conducts a test. However, ensuring software accountability faces three key challenges: i) Translating legalese into formal specifications, ii) Lack of a definitive 'truth' for queries (the oracle problem), and iii) Scarcity of trustworthy datasets due to privacy and legal concerns. Drawing from the experiences in debugging U.S. tax preparation software, we propose that these challenges can be tackled by focusing on relational specifications. While the exact output for a given input may be unknown, the relationship between the outputs of two related inputs may be easier to express. This observation resembles i) the legal doctrine of precedent, meaning that similar cases must yield similar rulings; and ii) metamorphic relation (MR) in software engineering that requires a specific relation between software inputs and outputs. We propose metamorphic debugging as the foundation for detecting, explaining, and repairing socio-legal software for these relations. We showcase recent results that leverage metamorphic debugging to detect and explain accountability bugs in tax prep and poverty management software systems.
翻訳日:2024-11-06 17:52:35 公開日:2024-10-22
# LEGOのようにLoRAを融合する - LoRAのモジュラリティをランクワイズクラスタリングを通じて押す

Merging LoRAs like Playing LEGO: Pushing the Modularity of LoRA to Extremes Through Rank-Wise Clustering ( http://arxiv.org/abs/2409.16167v2 )

ライセンス: Link先を確認
Ziyu Zhao, Tao Shen, Didi Zhu, Zexi Li, Jing Su, Xuwu Wang, Kun Kuang, Fei Wu, (参考訳) Low-Rank Adaptation (LoRA)は、モジュール設計とHugingfaceのようなプラットフォームで広く利用できることを理由に、さまざまなドメインに大規模言語モデル(LLM)を微調整する一般的なテクニックとして登場した。 このモジュラリティは、複数のLoRAを組み合わせてLLM機能を向上することへの関心を喚起した。 しかし、既存のLoRA合成法は主に追加のトレーニングを必要とするタスク固有の適応に焦点を当てており、現在のモデルマージ技術はLoRAのモジュラー性を完全に活用することができず、パラメータ干渉や性能劣化につながっている。 本稿では, レゴブロックの組み立てに類似した粒度で, 複数のLORAを分解・再組み立てする可能性について検討する。 本稿では,LoRAにおける各ランクに対応するパラメータが独立単位として機能する最小意味単位(MSU)の概念を紹介する。 これらの MSU は置換不変性と連結-仮定同値性を示し、フレキシブルな組み合わせで新しい LoRA を生成することができる。 これらの知見に基づいて,我々はLoRA-LEGOフレームワークを提案する。 このフレームワークは、異なるLoRAから$k$クラスタにMSUをグループ化することで、ランクワイズパラメータクラスタリングを行う。 各クラスタのセントロイドは代表MSUとして機能し、調整されたランクが$k$の合併されたLoRAを組み立てることができる。 さらに,合併したLoRAのスケールを最適化するために,二重再重み付け手法を適用した。 様々なベンチマーク実験により、我々の手法はLoRAのマージにおいて既存の手法よりも優れていることが示された。

Low-Rank Adaptation (LoRA) has emerged as a popular technique for fine-tuning large language models (LLMs) to various domains due to its modular design and widespread availability on platforms like Huggingface. This modularity has sparked interest in combining multiple LoRAs to enhance LLM capabilities. However, existing methods for LoRA composition primarily focus on task-specific adaptations that require additional training, and current model merging techniques often fail to fully leverage LoRA's modular nature, leading to parameter interference and performance degradation. In this paper, we investigate the feasibility of disassembling and reassembling multiple LoRAs at a finer granularity, analogous to assembling LEGO blocks. We introduce the concept of Minimal Semantic Units (MSUs), where the parameters corresponding to each rank in LoRA function as independent units. These MSUs demonstrate permutation invariance and concatenation-summation equivalence properties, enabling flexible combinations to create new LoRAs. Building on these insights, we propose the LoRA-LEGO framework. This framework conducts rank-wise parameter clustering by grouping MSUs from different LoRAs into $k$ clusters. The centroid of each cluster serves as a representative MSU, enabling the assembly of a merged LoRA with an adjusted rank of $k$. Additionally, we apply a dual reweighting strategy to optimize the scale of the merged LoRA. Experiments across various benchmarks demonstrate that our method outperforms existing approaches in LoRA merging.
翻訳日:2024-11-06 17:52:35 公開日:2024-10-22
# LEGOのようにLoRAを融合する - LoRAのモジュラリティをランクワイズクラスタリングを通じて押す

Merging LoRAs like Playing LEGO: Pushing the Modularity of LoRA to Extremes Through Rank-Wise Clustering ( http://arxiv.org/abs/2409.16167v3 )

ライセンス: Link先を確認
Ziyu Zhao, Tao Shen, Didi Zhu, Zexi Li, Jing Su, Xuwu Wang, Kun Kuang, Fei Wu, (参考訳) Low-Rank Adaptation (LoRA)は、モジュール設計とHugingfaceのようなプラットフォームで広く利用できることを理由に、さまざまなドメインに大規模言語モデル(LLM)を微調整する一般的なテクニックとして登場した。 このモジュラリティは、複数のLoRAを組み合わせてLLM機能を向上することへの関心を喚起した。 しかし、既存のLoRA合成法は主に追加のトレーニングを必要とするタスク固有の適応に焦点を当てており、現在のモデルマージ技術はLoRAのモジュラー性を完全に活用することができず、パラメータ干渉や性能劣化につながっている。 本稿では, レゴブロックの組み立てに類似した粒度で, 複数のLORAを分解・再組み立てする可能性について検討する。 本稿では,LoRAにおける各ランクに対応するパラメータが独立単位として機能する最小意味単位(MSU)の概念を紹介する。 これらの MSU は置換不変性と連結-仮定同値性を示し、フレキシブルな組み合わせで新しい LoRA を生成することができる。 これらの知見に基づいて,我々はLoRA-LEGOフレームワークを提案する。 このフレームワークは、異なるLoRAから$k$クラスタにMSUをグループ化することで、ランクワイズパラメータクラスタリングを行う。 各クラスタのセントロイドは代表MSUとして機能し、調整されたランクが$k$の合併されたLoRAを組み立てることができる。 さらに,合併したLoRAのスケールを最適化するために,二重再重み付け手法を適用した。 様々なベンチマーク実験により、我々の手法はLoRAのマージにおいて既存の手法よりも優れていることが示された。

Low-Rank Adaptation (LoRA) has emerged as a popular technique for fine-tuning large language models (LLMs) to various domains due to its modular design and widespread availability on platforms like Huggingface. This modularity has sparked interest in combining multiple LoRAs to enhance LLM capabilities. However, existing methods for LoRA composition primarily focus on task-specific adaptations that require additional training, and current model merging techniques often fail to fully leverage LoRA's modular nature, leading to parameter interference and performance degradation. In this paper, we investigate the feasibility of disassembling and reassembling multiple LoRAs at a finer granularity, analogous to assembling LEGO blocks. We introduce the concept of Minimal Semantic Units (MSUs), where the parameters corresponding to each rank in LoRA function as independent units. These MSUs demonstrate permutation invariance and concatenation-summation equivalence properties, enabling flexible combinations to create new LoRAs. Building on these insights, we propose the LoRA-LEGO framework. This framework conducts rank-wise parameter clustering by grouping MSUs from different LoRAs into $k$ clusters. The centroid of each cluster serves as a representative MSU, enabling the assembly of a merged LoRA with an adjusted rank of $k$. Additionally, we apply a dual reweighting strategy to optimize the scale of the merged LoRA. Experiments across various benchmarks demonstrate that our method outperforms existing approaches in LoRA merging.
翻訳日:2024-11-06 17:52:35 公開日:2024-10-22
# ヒマワリ8衛星画像と深層学習モデルを用いたタイの太陽放射マップの開発

Developing a Thailand solar irradiance map using Himawari-8 satellite imageries and deep learning models ( http://arxiv.org/abs/2409.16320v2 )

ライセンス: Link先を確認
Suwichaya Suwanwimolkul, Natanon Tongamrak, Nuttamon Thungka, Naebboon Hoonchareon, Jitkomut Songsiri, (参考訳) 本稿では,タイの太陽放射マップを30分毎に表示するオンラインプラットフォームを提案する。 https://www.cusolarforecast.comで公開されている。 タイ全土におけるグローバル水平照度(GHI)推定手法は,ヒマワリ8衛星画像から抽出した雲指数,局所的に調整されたリンケ濁度を持つイニエチェンクリアスキーモデル,機械学習モデルに依存している。 本手法は,光GBM,LSTM,Informer,TransformerなどのGHI推定モデルの入力として,クリアスキー光,クラウドインデックス,再解析されたGHI,MERRA-2データベースからの温度データ,および日時を用いる。 これらは、2022-2023年の1.5年間に53の地上局から15分間のGHIデータを評価することで、商業サービスXからの見積もりとベンチマークされる。 最良のモデルはLightGBMで、MAEは78.58W/sqm、RMSEは118.97W/sqmである。 タイ向けに再分析されたMERRA-2データを取得することは、経済的に配備に有効ではない。 これらの特徴を除去する際、InformerモデルはMAEで78.67W/sqmの勝利率を持つ。 得られた性能は、気候帯とデータの時間粒度を考慮して既存の文献と整合する。 更新頻度の高い93,000グリッド以上のGHIの推定値を示すため,本論文では,地図全体を表示するための計算フレームワークについても述べる。 GHI推定プロセスにおいて、ディープラーニングモデルのランタイムパフォーマンスをテストする。

This paper presents an online platform that shows Thailand's solar irradiance map every 30 minutes. It is available at https://www.cusolarforecast.com. The methodology for estimating global horizontal irradiance (GHI) across Thailand relies on cloud index extracted from Himawari-8 satellite imagery, Ineichen clear-sky model with locally-tuned Linke turbidity, and machine learning models. The methods take clear-sky irradiance, cloud index, re-analyzed GHI and temperature data from the MERRA-2 database, and date-time as inputs for GHI estimation models, including LightGBM, LSTM, Informer, and Transformer. These are benchmarked with the estimate from a commercial service X by evaluating 15-minute ground GHI data from 53 ground stations over 1.5 years from 2022-2023. The results show that the four models have competitive performances and outperform the service X. The best model is LightGBM, with an MAE of 78.58 W/sqm and RMSE of 118.97 W/sqm. Obtaining re-analyzed MERRA-2 data for Thailand is not economically feasible for deployment. When removing these features, the Informer model has a winning performance of 78.67 W/sqm in MAE. The obtained performance aligns with existing literature by taking the climate zone and time granularity of data into consideration. As the map shows an estimate of GHI over 93,000 grids with a frequent update, the paper also describes a computational framework for displaying the entire map. It tests the runtime performance of deep learning models in the GHI estimation process.
翻訳日:2024-11-06 17:42:27 公開日:2024-10-22
# VPTQ: 大規模言語モデルのための極低ビット後トレーニング量子化

VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models ( http://arxiv.org/abs/2409.17066v2 )

ライセンス: Link先を確認
Yifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang, (参考訳) モデルサイズをスケールすることは、大規模言語モデル(LLM)のデプロイメントと推論に大きく挑戦する。 LLM重みの冗長性のため、近年の研究は、重量のみの量子化を極端に低ビット(最大2ビット)まで押し上げることに重点を置いている。 メモリ要求を削減し、ストレージコストを最適化し、推論時のメモリ帯域幅を削減します。 しかし、数値表現の制限により、従来のスカラーベースの重み量子化はそのような極端な低ビットを達成するのに苦労する。 LLMのベクトル量子化(VQ)に関する最近の研究は、ルックアップテーブルを用いてベクトルをインデックスに圧縮することで、極低ビットモデル量子化の可能性を示している。 本稿では,LLMの極低ビット量子化のためのベクトルポストトレーニング量子化(VPTQ)を提案する。 LLM VQ問題を定式化するために2次最適化を用い、最適化を解くことで量子化アルゴリズムの設計を導出する。 細粒度VQに対してチャネル独立二階最適化を用いて重みを改良する。 さらに,最適化問題を分解することにより,簡潔かつ効果的なコードブック初期化アルゴリズムを提案する。 また、モデル精度を高め、モデルをさらに圧縮する残差量子化および外れ値量子化をサポートするためにVPTQを拡張した。 実験の結果,VPTQはモデル量子化の難易度をLLaMA-2上で0.01$-0.34$,Mistral-7Bで0.38$-0.68$,SOTAで4.41$-7.34$,LLaMA-2で0.79$-1.5\%,Mistral-7Bで1.1$-22\%,QAタスクで1.1$-22\%削減できることがわかった。 我々は量子化アルゴリズムの実行時間のうち10.4$-$18.6\%しか利用せず、結果としてSOTAと比較して推論スループットが1.6$-$1.8\times$上昇する。

Scaling model size significantly challenges the deployment and inference of Large Language Models (LLMs). Due to the redundancy in LLM weights, recent research has focused on pushing weight-only quantization to extremely low-bit (even down to 2 bits). It reduces memory requirements, optimizes storage costs, and decreases memory bandwidth needs during inference. However, due to numerical representation limitations, traditional scalar-based weight quantization struggles to achieve such extreme low-bit. Recent research on Vector Quantization (VQ) for LLMs has demonstrated the potential for extremely low-bit model quantization by compressing vectors into indices using lookup tables. In this paper, we introduce Vector Post-Training Quantization (VPTQ) for extremely low-bit quantization of LLMs. We use Second-Order Optimization to formulate the LLM VQ problem and guide our quantization algorithm design by solving the optimization. We further refine the weights using Channel-Independent Second-Order Optimization for a granular VQ. In addition, by decomposing the optimization problem, we propose a brief and effective codebook initialization algorithm. We also extend VPTQ to support residual and outlier quantization, which enhances model accuracy and further compresses the model. Our experimental results show that VPTQ reduces model quantization perplexity by $0.01$-$0.34$ on LLaMA-2, $0.38$-$0.68$ on Mistral-7B, $4.41$-$7.34$ on LLaMA-3 over SOTA at 2-bit, with an average accuracy improvement of $0.79$-$1.5\%$ on LLaMA-2, $1\%$ on Mistral-7B, $11$-$22\%$ on LLaMA-3 on QA tasks on average. We only utilize $10.4$-$18.6\%$ of the quantization algorithm execution time, resulting in a $1.6$-$1.8\times$ increase in inference throughput compared to SOTA.
翻訳日:2024-11-06 17:00:06 公開日:2024-10-22
# 準備・測定型量子連鎖型ネットワークにおける量子相関の集合の特徴付け

Characterizing the set of quantum correlations in prepare-and-measure quantum chain-shaped networks ( http://arxiv.org/abs/2409.17185v1 )

ライセンス: Link先を確認
Yanning Jia, Fenzhuo Guo, YuKun Wang, Haifeng Dong, Fei Gao, (参考訳) 非直交量子状態の内積情報のみを仮定して、準備と測定(P\&M)量子連鎖型ネットワークで生成された量子相関を表す確率分布$P$で満たされるテストの階層を導入する。 P\&M量子チェーン型のネットワークは、複数の測定パーティを含み、各測定パーティは複数のシーケンシャルレシーバを持つ可能性がある。 具体的には、P\&M量子連鎖型ネットワークにおける量子相関を特徴付けるために、有限個の線形および正の半定値制約を組み込むことにより、元のNPA階層を適応する。 これらの階層内の制約は、逐次測定演算子と非直交量子状態の内積行列から導かれる。 適応型NPA階層を用いて、逐次量子ランダムアクセスコード(QRAC)やランダムネス認証など、いくつかの量子情報タスクに対処する。 まず, 2 つのシーケンシャル QRAC における2 つのシーケンシャル受信機間の最適なトレードオフを導出する。 さらに,2ドルから1ドル/シーケンシャルQRACの二重違反領域における半デバイス非依存ランダム性認証について検討した。 第二に、実際の通信にeavesdropper(Eve)が存在することを考えると、最適な2ドルから1ドルのQRACのトレードオフを用いて、グローバルおよびローカルなランダム性がどの程度証明できるかを示す。 さらに、2つのシーケンシャル受信機が生成する完全確率から証明できる局所的および大域的ランダム性の量を定量化する。 完全な確率集合を利用することで、最適なトレードオフ関係にのみ依存するのではなく、より局所的および大域的ランダム性を証明できると結論付けている。

We introduce a hierarchy of tests satisfied by any probability distribution $P$ that represents the quantum correlations generated in prepare-and-measure (P\&M) quantum chain-shaped networks, assuming only the inner-product information of the non-orthogonal quantum states. The P\&M quantum chain-shaped networks involve multiple measurement parties, each measurement party potentially having multiple sequential receivers. Specifically, we adapt the original NPA-hierarchy by incorporating a finite number of linear and positive semi-definite constraints to characterize the quantum correlations in P\&M quantum chain-shaped networks. These constraints in each hierarchy are derived from sequential measurement operators and the inner-product matrix of the non-orthogonal quantum states. We apply the adapted NPA-hierarchy to tackle some quantum information tasks, including sequential quantum random access codes (QRACs) and randomness certification. First, we derive the optimal trade-off between the two sequential receivers in the $2 \to 1$ sequential QRACs. Furthermore, we have investigated semi-device-independent randomness certification in the double violation region of $2 \to 1$ sequential QRACs. Second, considering the presence of eavesdropper (Eve) in actual communication, we show how much global and local randomness can be certified using the optimal trade-off of $2 \to 1$ sequential QRACs. Additionally, we quantify the amount of local and global randomness that can be certified from the complete probabilities generated by the two sequential receivers. We conclude that utilizing the complete set of probabilities certifies more local and global randomness than relying solely on the optimal trade-off relationship.
翻訳日:2024-11-06 16:40:36 公開日:2024-10-22
# 準備・測定型量子連鎖型ネットワークにおける量子相関の集合の特徴付け

Characterizing the set of quantum correlations in prepare-and-measure quantum chain-shaped networks ( http://arxiv.org/abs/2409.17185v2 )

ライセンス: Link先を確認
Yanning Jia, Fenzhuo Guo, YuKun Wang, Haifeng Dong, Fei Gao, (参考訳) 非直交量子状態の内積情報のみを仮定して、準備と測定(P\&M)量子連鎖型ネットワークで生成された量子相関を表す確率分布$P$で満たされるテストの階層を導入する。 P\&M量子チェーン型のネットワークは、複数の測定パーティを含み、各測定パーティは複数のシーケンシャルレシーバを持つ可能性がある。 具体的には、P\&M量子連鎖型ネットワークにおける量子相関を特徴付けるために、有限個の線形および正の半定値制約を組み込むことにより、元のNPA階層を適応する。 これらの階層内の制約は、逐次測定演算子と非直交量子状態の内積行列から導かれる。 適応型NPA階層を用いて、逐次量子ランダムアクセスコード(QRAC)やランダムネス認証など、いくつかの量子情報タスクに対処する。 まず, 2 つのシーケンシャル QRAC における2 つのシーケンシャル受信機間の最適なトレードオフを導出する。 さらに,2ドルから1ドル/シーケンシャルQRACの二重違反領域における半デバイス非依存ランダム性認証について検討した。 第二に、実際の通信にeavesdropper(Eve)が存在することを考えると、最適な2ドルから1ドルのQRACのトレードオフを用いて、グローバルおよびローカルなランダム性がどの程度証明できるかを示す。 さらに、2つのシーケンシャル受信機が生成する完全確率から証明できる局所的および大域的ランダム性の量を定量化する。 完全な確率集合を利用することで、最適なトレードオフ関係にのみ依存するのではなく、より局所的および大域的ランダム性を証明できると結論付けている。

We introduce a hierarchy of tests satisfied by any probability distribution $P$ that represents the quantum correlations generated in prepare-and-measure (P\&M) quantum chain-shaped networks, assuming only the inner-product information of the non-orthogonal quantum states. The P\&M quantum chain-shaped networks involve multiple measurement parties, each measurement party potentially having multiple sequential receivers. Specifically, we adapt the original NPA-hierarchy by incorporating a finite number of linear and positive semi-definite constraints to characterize the quantum correlations in P\&M quantum chain-shaped networks. These constraints in each hierarchy are derived from sequential measurement operators and the inner-product matrix of the non-orthogonal quantum states. We apply the adapted NPA-hierarchy to tackle some quantum information tasks, including sequential quantum random access codes (QRACs) and randomness certification. First, we derive the optimal trade-off between the two sequential receivers in the $2 \to 1$ sequential QRACs. Furthermore, we have investigated semi-device-independent randomness certification in the double violation region of $2 \to 1$ sequential QRACs. Second, considering the presence of eavesdropper (Eve) in actual communication, we show how much global and local randomness can be certified using the optimal trade-off of $2 \to 1$ sequential QRACs. Additionally, we quantify the amount of local and global randomness that can be certified from the complete probabilities generated by the two sequential receivers. We conclude that utilizing the complete set of probabilities certifies more local and global randomness than relying solely on the optimal trade-off relationship.
翻訳日:2024-11-06 16:40:36 公開日:2024-10-22
# 準備・測定型量子連鎖型ネットワークにおける量子相関の集合の特徴付け

Characterizing the set of quantum correlations in prepare-and-measure quantum chain-shaped networks ( http://arxiv.org/abs/2409.17185v3 )

ライセンス: Link先を確認
Yanning Jia, Fenzhuo Guo, YuKun Wang, Haifeng Dong, Fei Gao, (参考訳) 非直交量子状態の内積情報のみを仮定して、準備と測定(P\&M)量子連鎖型ネットワークで生成された量子相関を表す確率分布$P$で満たされるテストの階層を導入する。 P\&M量子チェーン型のネットワークは、複数の測定パーティを含み、各測定パーティは複数のシーケンシャルレシーバを持つ可能性がある。 具体的には、P\&M量子連鎖型ネットワークにおける量子相関を特徴付けるために、有限個の線形および正の半定値制約を組み込むことにより、元のNPA階層を適応する。 これらの階層内の制約は、逐次測定演算子と非直交量子状態の内積行列から導かれる。 適応型NPA階層を用いて、逐次量子ランダムアクセスコード(QRAC)やランダムネス認証など、いくつかの量子情報タスクに対処する。 まず, 2 つのシーケンシャル QRAC における2 つのシーケンシャル受信機間の最適なトレードオフを導出する。 さらに,2ドルから1ドル/シーケンシャルQRACの二重違反領域における半デバイス非依存ランダム性認証について検討した。 第二に、実際の通信にeavesdropper(Eve)が存在することを考えると、最適な2ドルから1ドルのQRACのトレードオフを用いて、グローバルおよびローカルなランダム性がどの程度証明できるかを示す。 さらに、2つのシーケンシャル受信機が生成する完全確率から証明できる局所的および大域的ランダム性の量を定量化する。 完全な確率集合を利用することで、最適なトレードオフ関係にのみ依存するのではなく、より局所的および大域的ランダム性を証明できると結論付けている。

We introduce a hierarchy of tests satisfied by any probability distribution $P$ that represents the quantum correlations generated in prepare-and-measure (P\&M) quantum chain-shaped networks, assuming only the inner-product information of the non-orthogonal quantum states. The P\&M quantum chain-shaped networks involve multiple measurement parties, each measurement party potentially having multiple sequential receivers. Specifically, we adapt the original NPA-hierarchy by incorporating a finite number of linear and positive semi-definite constraints to characterize the quantum correlations in P\&M quantum chain-shaped networks. These constraints in each hierarchy are derived from sequential measurement operators and the inner-product matrix of the non-orthogonal quantum states. We apply the adapted NPA-hierarchy to tackle some quantum information tasks, including sequential quantum random access codes (QRACs) and randomness certification. First, we derive the optimal trade-off between the two sequential receivers in the $2 \to 1$ sequential QRACs. Furthermore, we have investigated semi-device-independent randomness certification in the double violation region of $2 \to 1$ sequential QRACs. Second, considering the presence of eavesdropper (Eve) in actual communication, we show how much global and local randomness can be certified using the optimal trade-off of $2 \to 1$ sequential QRACs. Additionally, we quantify the amount of local and global randomness that can be certified from the complete probabilities generated by the two sequential receivers. We conclude that utilizing the complete set of probabilities certifies more local and global randomness than relying solely on the optimal trade-off relationship.
翻訳日:2024-11-06 16:40:36 公開日:2024-10-22
# サンプル圧縮、新たな一般化境界を公表-実価値損失で

Sample Compression Unleashed: New Generalization Bounds for Real Valued Losses ( http://arxiv.org/abs/2409.17932v2 )

ライセンス: Link先を確認
Mathieu Bazinet, Valentina Zantedeschi, Pascal Germain, (参考訳) サンプル圧縮理論は、トレーニングデータセットのサブセットと、一般的にバイナリシーケンスとして定義される(ショート)メッセージ文字列を使用して、完全に定義可能な予測子に対して、一般化保証を提供する。 従来の研究はゼロ・ワン損失に対する一般化境界を提供しており、特にディープラーニングのアプローチに適用する場合は限定的である。 本稿では,実数値非有界損失を抑える新しいサンプル圧縮境界を導出するための一般的な枠組みを提案する。 任意の機械学習予測器のトレーニング手法を変換してサンプル圧縮予測器を生成するPick-To-Learn(P2L)メタアルゴリズムを用いて、ランダムな森林や複数種類のニューラルネットワーク上で、境界の厳密性とそれらの汎用性を実証的に示す。

The sample compression theory provides generalization guarantees for predictors that can be fully defined using a subset of the training dataset and a (short) message string, generally defined as a binary sequence. Previous works provided generalization bounds for the zero-one loss, which is restrictive notably when applied to deep learning approaches. In this paper, we present a general framework for deriving new sample compression bounds that hold for real-valued unbounded losses. Using the Pick-To-Learn (P2L) meta-algorithm, which transforms the training method of any machine-learning predictor to yield sample-compressed predictors, we empirically demonstrate the tightness of the bounds and their versatility by evaluating them on random forests and multiple types of neural networks.
翻訳日:2024-11-06 16:00:56 公開日:2024-10-22
# 音声から現実へ:自然言語によるオンデマンド生産、3次元生成AI、離散ロボットアセンブリ

Speech to Reality: On-Demand Production using Natural Language, 3D Generative AI, and Discrete Robotic Assembly ( http://arxiv.org/abs/2409.18390v1 )

ライセンス: Link先を確認
Alexander Htet Kyaw, Se Hwan Jeon, Miana Smith, Neil Gershenfeld, (参考訳) 本稿では,3次元生成人工知能とロボットアセンブリを組み合わせることで,音声を物体に変換するシステムを提案する。 このシステムは自然言語入力を利用して設計と製造をより容易にし、3Dモデリングやロボットプログラミングの専門知識のない個人が物理的なオブジェクトを作れるようにする。 本稿では, 格子型ボクセル部品を個別に組立てることで, 設計の可変性, 製造速度, 構造整合性, 材料廃棄物など, 生産において生成AI出力を使用する際の課題に対処する。 システムは音声を解釈して3Dオブジェクトを生成し、それらをボクセルコンポーネントに分解し、最適化されたアセンブリシーケンスを計算し、ロボットツールパスを生成する。 結果は、椅子から棚まで、さまざまな物体の組み立てを通じて実証され、音声によって誘導され、6軸ロボットアームを使用して5分以内に実現される。

We present a system that transforms speech into physical objects by combining 3D generative Artificial Intelligence with robotic assembly. The system leverages natural language input to make design and manufacturing more accessible, enabling individuals without expertise in 3D modeling or robotic programming to create physical objects. We propose utilizing discrete robotic assembly of lattice-based voxel components to address the challenges of using generative AI outputs in physical production, such as design variability, fabrication speed, structural integrity, and material waste. The system interprets speech to generate 3D objects, discretizes them into voxel components, computes an optimized assembly sequence, and generates a robotic toolpath. The results are demonstrated through the assembly of various objects, ranging from chairs to shelves, which are prompted via speech and realized within 5 minutes using a 6-axis robotic arm.
翻訳日:2024-11-06 06:41:07 公開日:2024-10-22
# 音声から現実へ:自然言語によるオンデマンド生産、3次元生成AI、離散ロボットアセンブリ

Speech to Reality: On-Demand Production using Natural Language, 3D Generative AI, and Discrete Robotic Assembly ( http://arxiv.org/abs/2409.18390v2 )

ライセンス: Link先を確認
Alexander Htet Kyaw, Se Hwan Jeon, Miana Smith, Neil Gershenfeld, (参考訳) 本稿では,3次元生成人工知能とロボットアセンブリを組み合わせることで,音声を物体に変換するシステムを提案する。 このシステムは自然言語入力を利用して設計と製造をより容易にし、3Dモデリングやロボットプログラミングの専門知識のない個人が物理的なオブジェクトを作れるようにする。 本稿では, 格子型ボクセル部品を個別に組立てることで, 設計の可変性, 製造速度, 構造整合性, 材料廃棄物など, 生産において生成AI出力を使用する際の課題に対処する。 システムは音声を解釈して3Dオブジェクトを生成し、それらをボクセルコンポーネントに分解し、最適化されたアセンブリシーケンスを計算し、ロボットツールパスを生成する。 結果は、椅子から棚まで、さまざまな物体の組み立てを通じて実証され、音声によって誘導され、6軸ロボットアームを使用して5分以内に実現される。

We present a system that transforms speech into physical objects by combining 3D generative Artificial Intelligence with robotic assembly. The system leverages natural language input to make design and manufacturing more accessible, enabling individuals without expertise in 3D modeling or robotic programming to create physical objects. We propose utilizing discrete robotic assembly of lattice-based voxel components to address the challenges of using generative AI outputs in physical production, such as design variability, fabrication speed, structural integrity, and material waste. The system interprets speech to generate 3D objects, discretizes them into voxel components, computes an optimized assembly sequence, and generates a robotic toolpath. The results are demonstrated through the assembly of various objects, ranging from chairs to shelves, which are prompted via speech and realized within 5 minutes using a 6-axis robotic arm.
翻訳日:2024-11-06 06:31:22 公開日:2024-10-22
# ネットワーク侵入検知システムにおける逆問題:研究の展望と今後の展望

Adversarial Challenges in Network Intrusion Detection Systems: Research Insights and Future Prospects ( http://arxiv.org/abs/2409.18736v2 )

ライセンス: Link先を確認
Sabrine Ennaji, Fabio De Gaspari, Dorjan Hitaj, Alicia K Bidi, Luigi V. Mancini, (参考訳) 機械学習は、特に侵入検知システム(IDS)の開発において、サイバーセキュリティに大きな進歩をもたらした。 これらの改善は主に、機械学習アルゴリズムが特徴間の複雑な関係を識別し、目に見えないデータに効果的に一般化する能力に起因している。 特にディープニューラルネットワークは、大量のトレーニングデータの解析を可能にし、検出性能を大幅に向上することで、この進歩に寄与した。 しかし、機械学習モデルは敵の攻撃に対して脆弱なままであり、慎重に構築された入力データによってモデルが誤った予測を下す可能性がある。 画像やテキストなどの非構造化データに対する敵対的脅威は広く研究されているが、ネットワークトラフィックのような構造化データへの影響は調査されていない。 本調査は、機械学習に基づくネットワーク侵入検知システム(NIDS)の総合的なレビューと、敵攻撃に対する感受性を徹底的に分析することで、このギャップに対処することを目的としている。 我々は、NIDSにおける既存の研究を批判的に検討し、重要なトレンド、強み、限界を強調しながら、さらなる探索を必要とする領域を特定します。 さらに、この分野における新たな課題について議論し、より堅牢でレジリエントなNIDSの開発に向けた洞察を提供する。 本稿では,NIDSにおける敵攻撃と防御の理解を深め,サイバーセキュリティアプリケーションにおける機械学習モデルの堅牢性向上に向けた今後の研究を指導する。

Machine learning has brought significant advances in cybersecurity, particularly in the development of Intrusion Detection Systems (IDS). These improvements are mainly attributed to the ability of machine learning algorithms to identify complex relationships between features and effectively generalize to unseen data. Deep neural networks, in particular, contributed to this progress by enabling the analysis of large amounts of training data, significantly enhancing detection performance. However, machine learning models remain vulnerable to adversarial attacks, where carefully crafted input data can mislead the model into making incorrect predictions. While adversarial threats in unstructured data, such as images and text, have been extensively studied, their impact on structured data like network traffic is less explored. This survey aims to address this gap by providing a comprehensive review of machine learning-based Network Intrusion Detection Systems (NIDS) and thoroughly analyzing their susceptibility to adversarial attacks. We critically examine existing research in NIDS, highlighting key trends, strengths, and limitations, while identifying areas that require further exploration. Additionally, we discuss emerging challenges in the field and offer insights for the development of more robust and resilient NIDS. In summary, this paper enhances the understanding of adversarial attacks and defenses in NIDS and guide future research in improving the robustness of machine learning models in cybersecurity applications.
翻訳日:2024-11-06 05:32:49 公開日:2024-10-22
# ネットワーク侵入検知システムにおける逆問題:研究の展望と今後の展望

Adversarial Challenges in Network Intrusion Detection Systems: Research Insights and Future Prospects ( http://arxiv.org/abs/2409.18736v3 )

ライセンス: Link先を確認
Sabrine Ennaji, Fabio De Gaspari, Dorjan Hitaj, Alicia Kbidi, Luigi V. Mancini, (参考訳) 機械学習は、特に侵入検知システム(IDS)の開発において、サイバーセキュリティに大きな進歩をもたらした。 これらの改善は主に、機械学習アルゴリズムが特徴間の複雑な関係を識別し、目に見えないデータに効果的に一般化する能力に起因している。 特にディープニューラルネットワークは、大量のトレーニングデータの解析を可能にし、検出性能を大幅に向上することで、この進歩に寄与した。 しかし、機械学習モデルは敵の攻撃に対して脆弱なままであり、慎重に構築された入力データによってモデルが誤った予測を下す可能性がある。 画像やテキストなどの非構造化データに対する敵対的脅威は広く研究されているが、ネットワークトラフィックのような構造化データへの影響は調査されていない。 本調査は、機械学習に基づくネットワーク侵入検知システム(NIDS)の総合的なレビューと、敵攻撃に対する感受性を徹底的に分析することで、このギャップに対処することを目的としている。 我々は、NIDSにおける既存の研究を批判的に検討し、重要なトレンド、強み、限界を強調しながら、さらなる探索を必要とする領域を特定します。 さらに、この分野における新たな課題について議論し、より堅牢でレジリエントなNIDSの開発に向けた洞察を提供する。 本稿では,NIDSにおける敵攻撃と防御の理解を深め,サイバーセキュリティアプリケーションにおける機械学習モデルの堅牢性向上に向けた今後の研究を指導する。

Machine learning has brought significant advances in cybersecurity, particularly in the development of Intrusion Detection Systems (IDS). These improvements are mainly attributed to the ability of machine learning algorithms to identify complex relationships between features and effectively generalize to unseen data. Deep neural networks, in particular, contributed to this progress by enabling the analysis of large amounts of training data, significantly enhancing detection performance. However, machine learning models remain vulnerable to adversarial attacks, where carefully crafted input data can mislead the model into making incorrect predictions. While adversarial threats in unstructured data, such as images and text, have been extensively studied, their impact on structured data like network traffic is less explored. This survey aims to address this gap by providing a comprehensive review of machine learning-based Network Intrusion Detection Systems (NIDS) and thoroughly analyzing their susceptibility to adversarial attacks. We critically examine existing research in NIDS, highlighting key trends, strengths, and limitations, while identifying areas that require further exploration. Additionally, we discuss emerging challenges in the field and offer insights for the development of more robust and resilient NIDS. In summary, this paper enhances the understanding of adversarial attacks and defenses in NIDS and guide future research in improving the robustness of machine learning models in cybersecurity applications.
翻訳日:2024-11-06 05:32:49 公開日:2024-10-22
# エッジデバイス上でのPoT量子化の高速化

Accelerating PoT Quantization on Edge Devices ( http://arxiv.org/abs/2409.20403v2 )

ライセンス: Link先を確認
Rappy Saha, Jude Haris, José Cano, (参考訳) パワー・オブ・ツー(PoT)量子化のような非一様量子化は、一様量子化よりも優れたデータ分布と一致し、ディープニューラルネットワーク(DNN)の量子化誤差を低減する。 PoT量子化はまた、ビットシフト演算を乗法に置き換えることを可能にするが、PoT量子化のためのシフトベースの加速器の効率に関する限られた研究がある。 さらに、エッジデバイス上でPoT量子化されたDNNを高速化するための既存のパイプラインは、オープンソースではない。 本稿では,まず,異なるPoT量子化法のためのシフトベース処理要素(shift-PE)を設計し,その効率をベンチマークを用いて評価する。 次に、最も効率的なシフトPEを用いてシフトベースのアクセラレータを設計し、リソース制約エッジデバイス上でのPoT量子化DNNのエンドツーエンド高速化のためのオープンソースのパイプラインであるPoTAccを提案する。 また,PoTAccを用いて,3つのDNN間でのシフトベースアクセラレータの性能評価を行った。 平均すると、乗算器ベースのアクセラレータと比べて1.23倍のスピードアップと1.24倍のエネルギー削減、CPUのみの実行に比べて2.46倍のスピードアップと1.83倍のエネルギー削減を実現している。 私たちのコードはhttps://github.com/gicLAB/PoTAccで利用可能です。

Non-uniform quantization, such as power-of-two (PoT) quantization, matches data distributions better than uniform quantization, which reduces the quantization error of Deep Neural Networks (DNNs). PoT quantization also allows bit-shift operations to replace multiplications, but there are limited studies on the efficiency of shift-based accelerators for PoT quantization. Furthermore, existing pipelines for accelerating PoT-quantized DNNs on edge devices are not open-source. In this paper, we first design shift-based processing elements (shift-PE) for different PoT quantization methods and evaluate their efficiency using synthetic benchmarks. Then we design a shift-based accelerator using our most efficient shift-PE and propose PoTAcc, an open-source pipeline for end-to-end acceleration of PoT-quantized DNNs on resource-constrained edge devices. Using PoTAcc, we evaluate the performance of our shift-based accelerator across three DNNs. On average, it achieves a 1.23x speedup and 1.24x energy reduction compared to a multiplier-based accelerator, and a 2.46x speedup and 1.83x energy reduction compared to CPU-only execution. Our code is available at https://github.com/gicLAB/PoTAcc
翻訳日:2024-11-05 15:48:47 公開日:2024-10-22
# LLMを用いたグラフィカルユーザインタフェース自動化のための動的計画法

Dynamic Planning for LLM-based Graphical User Interface Automation ( http://arxiv.org/abs/2410.00467v1 )

ライセンス: Link先を確認
Shaoqing Zhang, Zhuosheng Zhang, Kehai Chen, Xinbe Ma, Muyun Yang, Tiejun Zhao, Min Zhang, (参考訳) 大規模言語モデル(LLM)の出現は、特にスマートフォンのグラフィカルユーザインタフェース(GUI)における興味深い応用において、自律LLMベースのエージェントの進歩に大きな関心を喚起している。 タスク目標が提示されると、これらのエージェントは通常、タスクが完了するまでGUI環境内のヒューマンアクションをエミュレートする。 しかし、重要な課題は、GUIタスクにおけるアクション予測を導く効果的な計画を考案することであるが、計画は複雑なタスクを一連のステップに分解するのに有効であると広く認識されている。 具体的には、行動実行後の環境GUIの動的な性質を考えると、環境フィードバックや行動履歴に基づく計画の動的適応が不可欠である。 この課題に対処するために,LLMベースのGUIエージェントのための動的思考計画(D-PoT)と呼ばれる新しいアプローチを提案する。 実験の結果、提案されたD-PoTは強いGPT-4Vベースラインを+12.7%(34.66%$\rightarrow 47.36%)超えた。 この分析は、異なるバックボーンLLMにおける動的計画の一般化と、幻覚を緩和し、目に見えないタスクに適応する利点を強調している。 コードはhttps://github.com/sqzhang-lazy/D-PoT.comで入手できる。

The advent of large language models (LLMs) has spurred considerable interest in advancing autonomous LLMs-based agents, particularly in intriguing applications within smartphone graphical user interfaces (GUIs). When presented with a task goal, these agents typically emulate human actions within a GUI environment until the task is completed. However, a key challenge lies in devising effective plans to guide action prediction in GUI tasks, though planning have been widely recognized as effective for decomposing complex tasks into a series of steps. Specifically, given the dynamic nature of environmental GUIs following action execution, it is crucial to dynamically adapt plans based on environmental feedback and action history.We show that the widely-used ReAct approach fails due to the excessively long historical dialogues. To address this challenge, we propose a novel approach called Dynamic Planning of Thoughts (D-PoT) for LLM-based GUI agents.D-PoT involves the dynamic adjustment of planning based on the environmental feedback and execution history. Experimental results reveal that the proposed D-PoT significantly surpassed the strong GPT-4V baseline by +12.7% (34.66% $\rightarrow$ 47.36%) in accuracy. The analysis highlights the generality of dynamic planning in different backbone LLMs, as well as the benefits in mitigating hallucinations and adapting to unseen tasks. Code is available at https://github.com/sqzhang-lazy/D-PoT.
翻訳日:2024-11-05 05:27:01 公開日:2024-10-22
# LLMを用いたグラフィカルユーザインタフェース自動化のための動的計画法

Dynamic Planning for LLM-based Graphical User Interface Automation ( http://arxiv.org/abs/2410.00467v2 )

ライセンス: Link先を確認
Shaoqing Zhang, Zhuosheng Zhang, Kehai Chen, Xinbei Ma, Muyun Yang, Tiejun Zhao, Min Zhang, (参考訳) 大規模言語モデル(LLM)の出現は、特にスマートフォンのグラフィカルユーザインタフェース(GUI)における興味深い応用において、自律LLMベースのエージェントの進歩に大きな関心を喚起している。 タスク目標が提示されると、これらのエージェントは通常、タスクが完了するまでGUI環境内のヒューマンアクションをエミュレートする。 しかし、重要な課題は、GUIタスクにおけるアクション予測を導く効果的な計画を考案することであるが、計画は複雑なタスクを一連のステップに分解するのに有効であると広く認識されている。 具体的には、行動実行後の環境GUIの動的な性質を考えると、環境フィードバックや行動履歴に基づく計画の動的適応が不可欠である。 この課題に対処するために,LLMベースのGUIエージェントのための動的思考計画(D-PoT)と呼ばれる新しいアプローチを提案する。 実験の結果、提案されたD-PoTは強いGPT-4Vベースラインを+12.7%(34.66%$\rightarrow 47.36%)超えた。 この分析は、異なるバックボーンLLMにおける動的計画の一般化と、幻覚を緩和し、目に見えないタスクに適応する利点を強調している。 コードはhttps://github.com/sqzhang-lazy/D-PoT.comで入手できる。

The advent of large language models (LLMs) has spurred considerable interest in advancing autonomous LLMs-based agents, particularly in intriguing applications within smartphone graphical user interfaces (GUIs). When presented with a task goal, these agents typically emulate human actions within a GUI environment until the task is completed. However, a key challenge lies in devising effective plans to guide action prediction in GUI tasks, though planning have been widely recognized as effective for decomposing complex tasks into a series of steps. Specifically, given the dynamic nature of environmental GUIs following action execution, it is crucial to dynamically adapt plans based on environmental feedback and action history.We show that the widely-used ReAct approach fails due to the excessively long historical dialogues. To address this challenge, we propose a novel approach called Dynamic Planning of Thoughts (D-PoT) for LLM-based GUI agents.D-PoT involves the dynamic adjustment of planning based on the environmental feedback and execution history. Experimental results reveal that the proposed D-PoT significantly surpassed the strong GPT-4V baseline by +12.7% (34.66% $\rightarrow$ 47.36%) in accuracy. The analysis highlights the generality of dynamic planning in different backbone LLMs, as well as the benefits in mitigating hallucinations and adapting to unseen tasks. Code is available at https://github.com/sqzhang-lazy/D-PoT.
翻訳日:2024-11-05 05:27:01 公開日:2024-10-22
# テキストからマルチモダリティへ:医療実践における大規模言語モデルの進化と影響を探る

From Text to Multimodality: Exploring the Evolution and Impact of Large Language Models in Medical Practice ( http://arxiv.org/abs/2410.01812v1 )

ライセンス: Link先を確認
Qian Niu, Keyu Chen, Ming Li, Pohsun Feng, Ziqian Bi, Junyu Liu, Benji Peng, (参考訳) 大規模言語モデル(LLM)は、テキストベースのシステムからマルチモーダルプラットフォームへと急速に進化し、医療を含む様々な分野に大きな影響を与えている。 本稿では,MLLM(Multimodal Large Language Models)の進展と,その医療実践への影響について概説する。 医療におけるMLLMの現況を考察し,臨床診断支援,医用画像,患者エンゲージメント,研究の分野にまたがる応用を分析した。 このレビューでは、MLLMがテキスト、画像、オーディオなどの多様なデータタイプを統合することで、患者の健康に関するより包括的な洞察を提供する上で、ユニークな機能を強調している。 また,データ制限や技術的ハードル,倫理的考慮など,MLLMの実装に直面する課題にも対処する。 本研究の目的は,データセット開発やモダリティアライメント手法,倫理ガイドラインの確立といった分野における今後の研究を導くことである。 MLLMは医療の未来を形作り続けており、その可能性や限界を理解することは、医療実践への責任と効果的な統合に不可欠である。

Large Language Models (LLMs) have rapidly evolved from text-based systems to multimodal platforms, significantly impacting various sectors including healthcare. This comprehensive review explores the progression of LLMs to Multimodal Large Language Models (MLLMs) and their growing influence in medical practice. We examine the current landscape of MLLMs in healthcare, analyzing their applications across clinical decision support, medical imaging, patient engagement, and research. The review highlights the unique capabilities of MLLMs in integrating diverse data types, such as text, images, and audio, to provide more comprehensive insights into patient health. We also address the challenges facing MLLM implementation, including data limitations, technical hurdles, and ethical considerations. By identifying key research gaps, this paper aims to guide future investigations in areas such as dataset development, modality alignment methods, and the establishment of ethical guidelines. As MLLMs continue to shape the future of healthcare, understanding their potential and limitations is crucial for their responsible and effective integration into medical practice.
翻訳日:2024-11-04 14:54:47 公開日:2024-10-22
# テキストからマルチモダリティへ:医療実践における大規模言語モデルの進化と影響を探る

From Text to Multimodality: Exploring the Evolution and Impact of Large Language Models in Medical Practice ( http://arxiv.org/abs/2410.01812v2 )

ライセンス: Link先を確認
Qian Niu, Keyu Chen, Ming Li, Pohsun Feng, Ziqian Bi, Lawrence KQ Yan, Yichao Zhang, Caitlyn Heqi Yin, Cheng Fei, Junyu Liu, Benji Peng, (参考訳) 大規模言語モデル(LLM)は、テキストベースのシステムからマルチモーダルプラットフォームへと急速に進化し、医療を含む様々な分野に大きな影響を与えている。 本稿では,MLLM(Multimodal Large Language Models)の進展と,その医療実践への影響について概説する。 医療におけるMLLMの現況を考察し,臨床診断支援,医用画像,患者エンゲージメント,研究の分野にまたがる応用を分析した。 このレビューでは、MLLMがテキスト、画像、オーディオなどの多様なデータタイプを統合することで、患者の健康に関するより包括的な洞察を提供する上で、ユニークな機能を強調している。 また,データ制限や技術的ハードル,倫理的考慮など,MLLMの実装に直面する課題にも対処する。 本研究の目的は,データセット開発やモダリティアライメント手法,倫理ガイドラインの確立といった分野における今後の研究を導くことである。 MLLMは医療の未来を形作り続けており、その可能性や限界を理解することは、医療実践への責任と効果的な統合に不可欠である。

Large Language Models (LLMs) have rapidly evolved from text-based systems to multimodal platforms, significantly impacting various sectors including healthcare. This comprehensive review explores the progression of LLMs to Multimodal Large Language Models (MLLMs) and their growing influence in medical practice. We examine the current landscape of MLLMs in healthcare, analyzing their applications across clinical decision support, medical imaging, patient engagement, and research. The review highlights the unique capabilities of MLLMs in integrating diverse data types, such as text, images, and audio, to provide more comprehensive insights into patient health. We also address the challenges facing MLLM implementation, including data limitations, technical hurdles, and ethical considerations. By identifying key research gaps, this paper aims to guide future investigations in areas such as dataset development, modality alignment methods, and the establishment of ethical guidelines. As MLLMs continue to shape the future of healthcare, understanding their potential and limitations is crucial for their responsible and effective integration into medical practice.
翻訳日:2024-11-04 14:54:47 公開日:2024-10-22
# テキストからマルチモダリティへ:医療実践における大規模言語モデルの進化と影響を探る

From Text to Multimodality: Exploring the Evolution and Impact of Large Language Models in Medical Practice ( http://arxiv.org/abs/2410.01812v3 )

ライセンス: Link先を確認
Qian Niu, Keyu Chen, Ming Li, Pohsun Feng, Ziqian Bi, Lawrence KQ Yan, Yichao Zhang, Caitlyn Heqi Yin, Cheng Fei, Junyu Liu, Benji Peng, (参考訳) 大規模言語モデル(LLM)は、テキストベースのシステムからマルチモーダルプラットフォームへと急速に進化し、医療を含む様々な分野に大きな影響を与えている。 本稿では,MLLM(Multimodal Large Language Models)の進展と,その医療実践への影響について概説する。 医療におけるMLLMの現況を考察し,臨床診断支援,医用画像,患者エンゲージメント,研究の分野にまたがる応用を分析した。 このレビューでは、MLLMがテキスト、画像、オーディオなどの多様なデータタイプを統合することで、患者の健康に関するより包括的な洞察を提供する上で、ユニークな機能を強調している。 また,データ制限や技術的ハードル,倫理的考慮など,MLLMの実装に直面する課題にも対処する。 本研究の目的は,データセット開発やモダリティアライメント手法,倫理ガイドラインの確立といった分野における今後の研究を導くことである。 MLLMは医療の未来を形作り続けており、その可能性や限界を理解することは、医療実践への責任と効果的な統合に不可欠である。

Large Language Models (LLMs) have rapidly evolved from text-based systems to multimodal platforms, significantly impacting various sectors including healthcare. This comprehensive review explores the progression of LLMs to Multimodal Large Language Models (MLLMs) and their growing influence in medical practice. We examine the current landscape of MLLMs in healthcare, analyzing their applications across clinical decision support, medical imaging, patient engagement, and research. The review highlights the unique capabilities of MLLMs in integrating diverse data types, such as text, images, and audio, to provide more comprehensive insights into patient health. We also address the challenges facing MLLM implementation, including data limitations, technical hurdles, and ethical considerations. By identifying key research gaps, this paper aims to guide future investigations in areas such as dataset development, modality alignment methods, and the establishment of ethical guidelines. As MLLMs continue to shape the future of healthcare, understanding their potential and limitations is crucial for their responsible and effective integration into medical practice.
翻訳日:2024-11-04 14:54:47 公開日:2024-10-22
# FLAG:AMRベースのGNNによる財務文書分類

FLAG: Financial Long Document Classification via AMR-based GNN ( http://arxiv.org/abs/2410.02024v1 )

ライセンス: Link先を確認
Bolun, Xia, Mohammed J. Zaki, Aparna Gupta, (参考訳) 大規模言語モデル(LLM)の出現は、その様々な金融的応用について多くの研究を開始した。 しかし、長い文書にLLMを適用する際には、意味関係は明示的には組み込まれず、完全にあるいは任意に注意を払っている。 近年,抽象的意味表現(AMR,Abstract Meaning Representation)は,意味的関係を維持するためのグラフベースのテキスト表現である。 AMRはセマンティックな関係をより深いレベルで表現できるため、LLM埋め込み上に構築された効果的な文書レベルのグラフ表現を構築するためにグラフニューラルネットワーク(GNN)によって有益な利用が可能となる。 AMRグラフベースのフレームワークであるGNNを用いて、長期財務文書分類のための文書レベルの埋め込みを生成する。 我々は,文レベルAMRグラフから文書レベルグラフを構築し,財務領域に特殊なLLM単語埋め込みを付与し,GNNを利用したディープラーニング機構を適用し,長い財務文書からラベル付きターゲットデータを予測するためのAMRベースのアプローチの有効性を検討する。 S&P1500総合指数の最近の決算報告のコーパスに加え、経済の様々な分野の企業の四半期決算報告のデータセットで大規模な実験が行われる。 我々のAMRベースのアプローチは、両方のデータセットで異なる時間軸で株価の動きの傾向を予測するために、テキスト上で微調整LDMよりも優れています。 本研究は,テキスト分類における文書グラフとGNNを用いた従来の作業よりも優れていた。

The advent of large language models (LLMs) has initiated much research into their various financial applications. However, in applying LLMs on long documents, semantic relations are not explicitly incorporated, and a full or arbitrarily sparse attention operation is employed. In recent years, progress has been made in Abstract Meaning Representation (AMR), which is a graph-based representation of text to preserve its semantic relations. Since AMR can represent semantic relationships at a deeper level, it can be beneficially utilized by graph neural networks (GNNs) for constructing effective document-level graph representations built upon LLM embeddings to predict target metrics in the financial domain. We propose FLAG: Financial Long document classification via AMR-based GNN, an AMR graph based framework to generate document-level embeddings for long financial document classification. We construct document-level graphs from sentence-level AMR graphs, endow them with specialized LLM word embeddings in the financial domain, apply a deep learning mechanism that utilizes a GNN, and examine the efficacy of our AMR-based approach in predicting labeled target data from long financial documents. Extensive experiments are conducted on a dataset of quarterly earnings calls transcripts of companies in various sectors of the economy, as well as on a corpus of more recent earnings calls of companies in the S&P 1500 Composite Index. We find that our AMR-based approach outperforms fine-tuning LLMs directly on text in predicting stock price movement trends at different time horizons in both datasets. Our work also outperforms previous work utilizing document graphs and GNNs for text classification.
翻訳日:2024-11-04 09:34:57 公開日:2024-10-22
# FLAG:AMRベースのGNNによる財務文書分類

FLAG: Financial Long Document Classification via AMR-based GNN ( http://arxiv.org/abs/2410.02024v2 )

ライセンス: Link先を確認
Bolun "Namir" Xia, Mohammed J. Zaki, Aparna Gupta, (参考訳) 大規模言語モデル(LLM)の出現は、その様々な金融的応用について多くの研究を開始した。 しかし、長い文書にLLMを適用する際には、意味関係は明示的には組み込まれず、完全にあるいは任意に注意を払っている。 近年,抽象的意味表現(AMR,Abstract Meaning Representation)は,意味的関係を維持するためのグラフベースのテキスト表現である。 AMRはセマンティックな関係をより深いレベルで表現できるため、LLM埋め込み上に構築された効果的な文書レベルのグラフ表現を構築するためにグラフニューラルネットワーク(GNN)によって有益な利用が可能となる。 AMRグラフベースのフレームワークであるGNNを用いて、長期財務文書分類のための文書レベルの埋め込みを生成する。 我々は,文レベルAMRグラフから文書レベルグラフを構築し,財務領域に特殊なLLM単語埋め込みを付与し,GNNを利用したディープラーニング機構を適用し,長い財務文書からラベル付きターゲットデータを予測するためのAMRベースのアプローチの有効性を検討する。 S&P1500総合指数の最近の決算報告のコーパスに加え、経済の様々な分野の企業の四半期決算報告のデータセットで大規模な実験が行われる。 我々のAMRベースのアプローチは、両方のデータセットで異なる時間軸で株価の動きの傾向を予測するために、テキスト上で微調整LDMよりも優れています。 本研究は,テキスト分類における文書グラフとGNNを用いた従来の作業よりも優れていた。

The advent of large language models (LLMs) has initiated much research into their various financial applications. However, in applying LLMs on long documents, semantic relations are not explicitly incorporated, and a full or arbitrarily sparse attention operation is employed. In recent years, progress has been made in Abstract Meaning Representation (AMR), which is a graph-based representation of text to preserve its semantic relations. Since AMR can represent semantic relationships at a deeper level, it can be beneficially utilized by graph neural networks (GNNs) for constructing effective document-level graph representations built upon LLM embeddings to predict target metrics in the financial domain. We propose FLAG: Financial Long document classification via AMR-based GNN, an AMR graph based framework to generate document-level embeddings for long financial document classification. We construct document-level graphs from sentence-level AMR graphs, endow them with specialized LLM word embeddings in the financial domain, apply a deep learning mechanism that utilizes a GNN, and examine the efficacy of our AMR-based approach in predicting labeled target data from long financial documents. Extensive experiments are conducted on a dataset of quarterly earnings calls transcripts of companies in various sectors of the economy, as well as on a corpus of more recent earnings calls of companies in the S&P 1500 Composite Index. We find that our AMR-based approach outperforms fine-tuning LLMs directly on text in predicting stock price movement trends at different time horizons in both datasets. Our work also outperforms previous work utilizing document graphs and GNNs for text classification.
翻訳日:2024-11-04 09:25:11 公開日:2024-10-22
# FLAG:AMRベースのGNNによる財務文書分類

FLAG: Financial Long Document Classification via AMR-based GNN ( http://arxiv.org/abs/2410.02024v3 )

ライセンス: Link先を確認
Bolun "Namir" Xia, Aparna Gupta, Mohammed J. Zaki, (参考訳) 大規模言語モデル(LLM)の出現は、その様々な金融的応用について多くの研究を開始した。 しかし、長い文書にLLMを適用する際には、意味関係は明示的には組み込まれず、完全にあるいは任意に注意を払っている。 近年,抽象的意味表現(AMR,Abstract Meaning Representation)は,意味的関係を維持するためのグラフベースのテキスト表現である。 AMRはセマンティックな関係をより深いレベルで表現できるため、LLM埋め込み上に構築された効果的な文書レベルのグラフ表現を構築するためにグラフニューラルネットワーク(GNN)によって有益な利用が可能となる。 AMRグラフベースのフレームワークであるGNNを用いて、長期財務文書分類のための文書レベルの埋め込みを生成する。 我々は,文レベルAMRグラフから文書レベルグラフを構築し,財務領域に特殊なLLM単語埋め込みを付与し,GNNを利用したディープラーニング機構を適用し,長い財務文書からラベル付きターゲットデータを予測するためのAMRベースのアプローチの有効性を検討する。 S&P1500総合指数の最近の決算報告のコーパスに加え、経済の様々な分野の企業の四半期決算報告のデータセットで大規模な実験が行われる。 我々のAMRベースのアプローチは、両方のデータセットで異なる時間軸で株価の動きの傾向を予測するために、テキスト上で微調整LDMよりも優れています。 本研究は,テキスト分類における文書グラフとGNNを用いた従来の作業よりも優れていた。

The advent of large language models (LLMs) has initiated much research into their various financial applications. However, in applying LLMs on long documents, semantic relations are not explicitly incorporated, and a full or arbitrarily sparse attention operation is employed. In recent years, progress has been made in Abstract Meaning Representation (AMR), which is a graph-based representation of text to preserve its semantic relations. Since AMR can represent semantic relationships at a deeper level, it can be beneficially utilized by graph neural networks (GNNs) for constructing effective document-level graph representations built upon LLM embeddings to predict target metrics in the financial domain. We propose FLAG: Financial Long document classification via AMR-based GNN, an AMR graph based framework to generate document-level embeddings for long financial document classification. We construct document-level graphs from sentence-level AMR graphs, endow them with specialized LLM word embeddings in the financial domain, apply a deep learning mechanism that utilizes a GNN, and examine the efficacy of our AMR-based approach in predicting labeled target data from long financial documents. Extensive experiments are conducted on a dataset of quarterly earnings calls transcripts of companies in various sectors of the economy, as well as on a corpus of more recent earnings calls of companies in the S&P 1500 Composite Index. We find that our AMR-based approach outperforms fine-tuning LLMs directly on text in predicting stock price movement trends at different time horizons in both datasets. Our work also outperforms previous work utilizing document graphs and GNNs for text classification.
翻訳日:2024-11-04 09:25:11 公開日:2024-10-22
# 等分散によるマルチエージェント強化学習におけるサンプル効率の向上と一般化

Boosting Sample Efficiency and Generalization in Multi-agent Reinforcement Learning via Equivariance ( http://arxiv.org/abs/2410.02581v1 )

ライセンス: Link先を確認
Joshua McClellan, Naveed Haghani, John Winder, Furong Huang, Pratap Tokekar, (参考訳) MARL(Multi-Agent Reinforcement Learning)は、サンプルの非効率性と一般化の貧弱さに苦慮する。 これらの課題の一部は、一般的にポリシーを学ぶのに使用されるニューラルネットワークの構造や帰納バイアスの欠如によるものだ。 マルチエージェントシナリオでよく見られるそのような構造の1つは対称性である。 Geometric Deep Learningの分野は、ノードの回転、翻訳、反射に同変(あるいは対称)するEquivariant Graph Neural Networks (EGNN)を開発した。 等式を組み込むことにより,学習効率の向上と誤りの低減が図られている [2 ]。 本稿では,EGNNがMARLのサンプル効率と一般化を改善することを実証する。 しかし, EGNNのMARLへの適用は, EGNN構造に偏りがあるため, 早期探索が困難であることが示唆された。 このバイアスを軽減するために、探索強化等変グラフニューラルネットワーク(E2GN2)を提案する。 一般的な MARL ベンチマーク MPE と SMACv2 を用いて,E2GN2 と他の共通関数近似器を比較した。 E2GN2は, 試料効率の大幅な向上, 最終報酬収束の増大, 一般化試験における標準GNNの2x-5倍の上昇を示す。 これらの結果は、複雑なマルチエージェントシステムにおけるより信頼性が高く効果的なソリューションの道を開いた。

Multi-Agent Reinforcement Learning (MARL) struggles with sample inefficiency and poor generalization [1]. These challenges are partially due to a lack of structure or inductive bias in the neural networks typically used in learning the policy. One such form of structure that is commonly observed in multi-agent scenarios is symmetry. The field of Geometric Deep Learning has developed Equivariant Graph Neural Networks (EGNN) that are equivariant (or symmetric) to rotations, translations, and reflections of nodes. Incorporating equivariance has been shown to improve learning efficiency and decrease error [ 2 ]. In this paper, we demonstrate that EGNNs improve the sample efficiency and generalization in MARL. However, we also show that a naive application of EGNNs to MARL results in poor early exploration due to a bias in the EGNN structure. To mitigate this bias, we present Exploration-enhanced Equivariant Graph Neural Networks or E2GN2. We compare E2GN2 to other common function approximators using common MARL benchmarks MPE and SMACv2. E2GN2 demonstrates a significant improvement in sample efficiency, greater final reward convergence, and a 2x-5x gain in over standard GNNs in our generalization tests. These results pave the way for more reliable and effective solutions in complex multi-agent systems.
翻訳日:2024-11-04 02:22:08 公開日:2024-10-22
# 等分散によるマルチエージェント強化学習におけるサンプル効率の向上と一般化

Boosting Sample Efficiency and Generalization in Multi-agent Reinforcement Learning via Equivariance ( http://arxiv.org/abs/2410.02581v2 )

ライセンス: Link先を確認
Joshua McClellan, Naveed Haghani, John Winder, Furong Huang, Pratap Tokekar, (参考訳) MARL(Multi-Agent Reinforcement Learning)は、サンプルの非効率性と一般化の貧弱さに苦慮する。 これらの課題の一部は、一般的にポリシーを学ぶのに使用されるニューラルネットワークの構造や帰納バイアスの欠如によるものだ。 マルチエージェントシナリオでよく見られるそのような構造の1つは対称性である。 Geometric Deep Learningの分野は、ノードの回転、翻訳、反射に同変(あるいは対称)するEquivariant Graph Neural Networks (EGNN)を開発した。 等式を組み込むことにより,学習効率の向上と誤りの低減が図られている [2 ]。 本稿では,EGNNがMARLのサンプル効率と一般化を改善することを実証する。 しかし, EGNNのMARLへの適用は, EGNN構造に偏りがあるため, 早期探索が困難であることが示唆された。 このバイアスを軽減するために、探索強化等変グラフニューラルネットワーク(E2GN2)を提案する。 一般的な MARL ベンチマーク MPE と SMACv2 を用いて,E2GN2 と他の共通関数近似器を比較した。 E2GN2は, 試料効率の大幅な向上, 最終報酬収束の増大, 一般化試験における標準GNNの2x-5倍の上昇を示す。 これらの結果は、複雑なマルチエージェントシステムにおけるより信頼性が高く効果的なソリューションの道を開いた。

Multi-Agent Reinforcement Learning (MARL) struggles with sample inefficiency and poor generalization [1]. These challenges are partially due to a lack of structure or inductive bias in the neural networks typically used in learning the policy. One such form of structure that is commonly observed in multi-agent scenarios is symmetry. The field of Geometric Deep Learning has developed Equivariant Graph Neural Networks (EGNN) that are equivariant (or symmetric) to rotations, translations, and reflections of nodes. Incorporating equivariance has been shown to improve learning efficiency and decrease error [ 2 ]. In this paper, we demonstrate that EGNNs improve the sample efficiency and generalization in MARL. However, we also show that a naive application of EGNNs to MARL results in poor early exploration due to a bias in the EGNN structure. To mitigate this bias, we present Exploration-enhanced Equivariant Graph Neural Networks or E2GN2. We compare E2GN2 to other common function approximators using common MARL benchmarks MPE and SMACv2. E2GN2 demonstrates a significant improvement in sample efficiency, greater final reward convergence, and a 2x-5x gain in over standard GNNs in our generalization tests. These results pave the way for more reliable and effective solutions in complex multi-agent systems.
翻訳日:2024-11-04 02:22:08 公開日:2024-10-22
# 等分散によるマルチエージェント強化学習におけるサンプル効率の向上と一般化

Boosting Sample Efficiency and Generalization in Multi-agent Reinforcement Learning via Equivariance ( http://arxiv.org/abs/2410.02581v3 )

ライセンス: Link先を確認
Joshua McClellan, Naveed Haghani, John Winder, Furong Huang, Pratap Tokekar, (参考訳) MARL(Multi-Agent Reinforcement Learning)は、サンプルの非効率性と一般化の貧弱さに苦慮する。 これらの課題の一部は、一般的にポリシーを学ぶのに使用されるニューラルネットワークの構造や帰納バイアスの欠如によるものだ。 マルチエージェントシナリオでよく見られるそのような構造の1つは対称性である。 Geometric Deep Learningの分野は、ノードの回転、翻訳、反射に同変(あるいは対称)するEquivariant Graph Neural Networks (EGNN)を開発した。 等式を組み込むことにより,学習効率の向上と誤りの低減が図られている [2 ]。 本稿では,EGNNがMARLのサンプル効率と一般化を改善することを実証する。 しかし, EGNNのMARLへの適用は, EGNN構造に偏りがあるため, 早期探索が困難であることが示唆された。 このバイアスを軽減するために、探索強化等変グラフニューラルネットワーク(E2GN2)を提案する。 一般的な MARL ベンチマーク MPE と SMACv2 を用いて,E2GN2 と他の共通関数近似器を比較した。 E2GN2は, 試料効率の大幅な向上, 最終報酬収束の増大, 一般化試験における標準GNNの2x-5倍の上昇を示す。 これらの結果は、複雑なマルチエージェントシステムにおけるより信頼性が高く効果的なソリューションの道を開いた。

Multi-Agent Reinforcement Learning (MARL) struggles with sample inefficiency and poor generalization [1]. These challenges are partially due to a lack of structure or inductive bias in the neural networks typically used in learning the policy. One such form of structure that is commonly observed in multi-agent scenarios is symmetry. The field of Geometric Deep Learning has developed Equivariant Graph Neural Networks (EGNN) that are equivariant (or symmetric) to rotations, translations, and reflections of nodes. Incorporating equivariance has been shown to improve learning efficiency and decrease error [ 2 ]. In this paper, we demonstrate that EGNNs improve the sample efficiency and generalization in MARL. However, we also show that a naive application of EGNNs to MARL results in poor early exploration due to a bias in the EGNN structure. To mitigate this bias, we present Exploration-enhanced Equivariant Graph Neural Networks or E2GN2. We compare E2GN2 to other common function approximators using common MARL benchmarks MPE and SMACv2. E2GN2 demonstrates a significant improvement in sample efficiency, greater final reward convergence, and a 2x-5x gain in over standard GNNs in our generalization tests. These results pave the way for more reliable and effective solutions in complex multi-agent systems.
翻訳日:2024-11-04 02:22:08 公開日:2024-10-22
# 部分順序を用いた学習計画の評価

Evaluation of Study Plans using Partial Orders ( http://arxiv.org/abs/2410.03314v1 )

ライセンス: Link先を確認
Christian Rennert, Mahsa Pourbafrani, Wil van der Aalst, (参考訳) 高等教育では、講座が受講され、いつ受講されるかを示すデータが収集される。 しばしば、研究計画では、学生に提案されたコース命令を提案する。 学習プランナーは、提案されたコースと実際のコースの順序のずれを検知して、これらを調整することができる。 本研究では,(1)提案項と実コース順のずれと(2)期待項と実コーステイク項の時間差とを組み合わせることで偏差を検出する。 部分的に順序付けられたアライメントは、提案された順序と実際の順序のずれを特定する。 本研究では,学習計画のプロセスモデルと学生のコーステイク行動を部分順序としてモデル化し,部分順序アライメントを計算する。 そのようなユースケースで部分順序を使用すると、厳密に順序付けられたトレースの制約を緩和することができる。 これにより、私たちのアプローチは、コースが提供される順序に近づきにくくなります。 さらに,授業受講行動を部分順序としてモデル化する場合,授業受講行動と実際の受講行動との区別を,コース受講行動が試みられるすべての用語と,コース受講行動が通過する用語のみを含むことによって提案する。 これは提案されたコーステイク行動と実際のコーステイク行動を比較する際に、より多くの視点を提供する。 提案手法は, アーヘン大学における実生活データに基づいて評価した。

In higher education, data is collected that indicate the term(s) that a course is taken and when it is passed. Often, study plans propose a suggested course order to students. Study planners can adjust these based on detected deviations between the proposed and actual order of the courses being taken. In this work, we detect deviations by combining (1) the deviation between the proposed and actual course order with (2) the temporal difference between the expected and actual course-taking term(s). Partially ordered alignments identify the deviations between the proposed and actual order. We compute a partial order alignment by modeling a study plan as a process model and a student's course-taking behavior as a partial order. Using partial orders in such use cases allows one to relax the constraints of strictly ordered traces. This makes our approach less prone to the order in which courses are offered. Further, when modeling course-taking behavior as partial orders, we propose distinguishing intended course-taking behavior from actual course-passing behavior of students by including either all terms in which a course is attempted or only the term that a course is passed, respectively. This provides more perspectives when comparing the proposed and actual course-taking behavior. The proposed deviation measuring approach is evaluated on real-life data from RWTH Aachen University.
翻訳日:2024-11-02 22:58:38 公開日:2024-10-22
# 部分順序を用いた学習計画の評価

Evaluation of Study Plans using Partial Orders ( http://arxiv.org/abs/2410.03314v2 )

ライセンス: Link先を確認
Christian Rennert, Mahsa Pourbafrani, Wil van der Aalst, (参考訳) 高等教育では、講座が受講され、いつ受講されるかを示すデータが収集される。 しばしば、研究計画では、学生に提案されたコース命令を提案する。 学習プランナーは、提案されたコースと実際のコースの順序のずれを検知して、これらを調整することができる。 本研究では,(1)提案項と実コース順のずれと(2)期待項と実コーステイク項の時間差とを組み合わせることで偏差を検出する。 部分的に順序付けられたアライメントは、提案された順序と実際の順序のずれを特定する。 本研究では,学習計画のプロセスモデルと学生のコーステイク行動を部分順序としてモデル化し,部分順序アライメントを計算する。 そのようなユースケースで部分順序を使用すると、厳密に順序付けられたトレースの制約を緩和することができる。 これにより、私たちのアプローチは、コースが提供される順序に近づきにくくなります。 さらに,授業受講行動を部分順序としてモデル化する場合,授業受講行動と実際の受講行動との区別を,コース受講行動が試みられるすべての用語と,コース受講行動が通過する用語のみを含むことによって提案する。 これは提案されたコーステイク行動と実際のコーステイク行動を比較する際に、より多くの視点を提供する。 提案手法は, アーヘン大学における実生活データに基づいて評価した。

In higher education, data is collected that indicate the term(s) that a course is taken and when it is passed. Often, study plans propose a suggested course order to students. Study planners can adjust these based on detected deviations between the proposed and actual order of the courses being taken. In this work, we detect deviations by combining (1) the deviation between the proposed and actual course order with (2) the temporal difference between the expected and actual course-taking term(s). Partially ordered alignments identify the deviations between the proposed and actual order. We compute a partial order alignment by modeling a study plan as a process model and a student's course-taking behavior as a partial order. Using partial orders in such use cases allows one to relax the constraints of strictly ordered traces. This makes our approach less prone to the order in which courses are offered. Further, when modeling course-taking behavior as partial orders, we propose distinguishing intended course-taking behavior from actual course-passing behavior of students by including either all terms in which a course is attempted or only the term that a course is passed, respectively. This provides more perspectives when comparing the proposed and actual course-taking behavior. The proposed deviation measuring approach is evaluated on real-life data from RWTH Aachen University.
翻訳日:2024-11-02 22:58:38 公開日:2024-10-22
# 持続エントロピーとトポロジカル保存に基づく景観変化の教師なし評価

Unsupervised Assessment of Landscape Shifts Based on Persistent Entropy and Topological Preservation ( http://arxiv.org/abs/2410.04183v1 )

ライセンス: Link先を確認
Sebastian Basterrech, (参考訳) 概念ドリフトは典型的にはデータ分布の変化の分析を指す。 入力データのドリフトは、学習予測器とシステムの安定性に負の結果をもたらす可能性がある。 概念ドリフト法の大半は、時間とともに非定常データの統計的変化を分析することを強調する。 この文脈では、ドリフトの概念がデータストリームのトポロジ的特性に大きな変化をもたらすという見方も考えられている。 本稿では,多次元データストリームの変化をモニタリングする新しいフレームワークを提案する。 本稿では,データのトポロジ的特性の変化に着目した標準概念ドリフトの一般化について検討する。 提案手法は連続学習シナリオにおける持続エントロピーとトポロジ保存プロジェクションに基づく。 このフレームワークは、教師なし環境と教師なし環境の両方で動作する。 提案フレームワークの有用性を実証するために,MNISTサンプルを用いて生成されたデータストリームを用いて3つのシナリオでモデルを解析する。 その結果, シフト検出にトポロジカルデータ解析を適用する可能性を明らかにし, この分野のさらなる研究を奨励した。

Concept drift typically refers to the analysis of changes in data distribution. A drift in the input data can have negative consequences on a learning predictor and the system's stability. The majority of concept drift methods emphasize the analysis of statistical changes in non-stationary data over time. In this context, we consider another perspective, where the concept drift also integrates substantial changes in the topological characteristics of the data stream. In this article, we introduce a novel framework for monitoring changes in multi-dimensional data streams. We explore a generalization of the standard concept drift focusing on the changes in the topological characteristics of the data. Our developed approach is based on persistent entropy and topology-preserving projections in a continual learning scenario. The framework operates in both unsupervised and supervised environments. To demonstrate the utility of the proposed framework, we analyze the model across three scenarios using data streams generated with MNIST samples. The obtained results reveal the potential of applying topological data analysis for shift detection and encourage further research in this area.
翻訳日:2024-11-02 13:41:32 公開日:2024-10-22
# 持続エントロピーとトポロジカル保存に基づく景観変化の教師なし評価

Unsupervised Assessment of Landscape Shifts Based on Persistent Entropy and Topological Preservation ( http://arxiv.org/abs/2410.04183v2 )

ライセンス: Link先を確認
Sebastian Basterrech, (参考訳) 連続学習(CL)の文脈では、概念ドリフトは典型的にはデータ分布の変化の分析を指す。 入力データのドリフトは、学習予測器とシステムの安定性に負の結果をもたらす可能性がある。 概念ドリフト法の大半は、時間とともに非定常データの統計的変化を分析することを強調する。 この文脈では、ドリフトの概念がデータストリームのトポロジ的特性に大きな変化をもたらすという見方も考えられている。 本稿では,多次元データストリームの変化をモニタリングする新しいフレームワークを提案する。 我々は、データのトポロジ的構造の変化を探求し、標準概念のドリフトに対して別の角度を示す。 提案手法は連続学習シナリオにおける持続エントロピーとトポロジ保存プロジェクションに基づく。 このフレームワークは、教師なし環境と教師なし環境の両方で動作する。 提案するフレームワークの有用性を示すために,MNISTサンプルを用いて生成されたデータストリームを用いて,3つのシナリオにわたってモデルを解析する。 その結果, シフト検出にトポロジカルデータ解析を適用する可能性を明らかにし, この分野のさらなる研究を奨励した。

In Continual Learning (CL) contexts, concept drift typically refers to the analysis of changes in data distribution. A drift in the input data can have negative consequences on a learning predictor and the system's stability. The majority of concept drift methods emphasize the analysis of statistical changes in non-stationary data over time. In this context, we consider another perspective, where the concept drift also integrates substantial changes in the topological characteristics of the data stream. In this article, we introduce a novel framework for monitoring changes in multi-dimensional data streams. We explore variations in the topological structures of the data, presenting another angle on the standard concept drift. Our developed approach is based on persistent entropy and topology-preserving projections in a continual learning scenario. The framework operates in both unsupervised and supervised environments. To show the utility of the proposed framework, we analyze the model across three scenarios using data streams generated with MNIST samples. The obtained results reveal the potential of applying topological data analysis for shift detection and encourage further research in this area.
翻訳日:2024-11-02 13:41:32 公開日:2024-10-22
# ACPBench: 行動、変化、計画に関する推論

ACPBench: Reasoning about Action, Change, and Planning ( http://arxiv.org/abs/2410.05669v1 )

ライセンス: Link先を確認
Harsha Kokel, Michael Katz, Kavitha Srinivas, Shirin Sohrabi, (参考訳) 大規模言語モデル(LLM)をワークフローのオーケストレーションや、計画や多段階の推論を必要とする領域での意思決定のエージェントとして使用する作業が増えている。 その結果,LLMを計画に必要なコアスキルに基づいて評価することが不可欠である。 本研究では,計画分野における推論タスクを評価するためのベンチマークであるACPBenchを紹介する。 ベンチマークは、13の計画ドメインに対する7つの推論タスクで構成されている。 このコレクションは、形式言語で記述されたプランニングドメインから構築されている。 これにより、多くのタスクやドメインにまたがって、確実に正しいソリューションで問題を合成できる。 さらに、人間の努力を伴わずにスケールの豪華さ、すなわち、多くの問題を自動生成することができる。 22個のオープンソースおよびフロンティアLCMの広範囲な評価は,LLMの推論能力の重大なギャップを浮き彫りにしている。 最高のパフォーマンスを持つフロンティアLCMの1つの平均精度 -- GPT-4oは、52.50%のACPBenchコレクションがhttps://ibm.github.io/ACPBenchで利用可能である。

There is an increasing body of work using Large Language Models (LLMs) as agents for orchestrating workflows and making decisions in domains that require planning and multi-step reasoning. As a result, it is imperative to evaluate LLMs on core skills required for planning. In this work, we present ACPBench, a benchmark for evaluating the reasoning tasks in the field of planning. The benchmark consists of 7 reasoning tasks over 13 planning domains. The collection is constructed from planning domains described in a formal language. This allows us to synthesize problems with provably correct solutions across many tasks and domains. Further, it allows us the luxury of scale without additional human effort, i.e., many additional problems can be created automatically. Our extensive evaluation of 22 open-sourced and frontier LLMs highlight the significant gap in the reasoning capability of the LLMs. The average accuracy of one of the best-performing frontier LLMs -- GPT-4o on these tasks can fall as low as 52.50% ACPBench collection is available at https://ibm.github.io/ACPBench.
翻訳日:2024-11-01 17:19:21 公開日:2024-10-22
# ACPBench: 行動、変化、計画に関する推論

ACPBench: Reasoning about Action, Change, and Planning ( http://arxiv.org/abs/2410.05669v2 )

ライセンス: Link先を確認
Harsha Kokel, Michael Katz, Kavitha Srinivas, Shirin Sohrabi, (参考訳) 大規模言語モデル(LLM)をワークフローのオーケストレーションや、計画や多段階の推論を必要とする領域での意思決定のエージェントとして使用する作業が増えている。 その結果,LLMを計画に必要なコアスキルに基づいて評価することが不可欠である。 本研究では,計画分野における推論タスクを評価するためのベンチマークであるACPBenchを紹介する。 ベンチマークは、13の計画ドメインに対する7つの推論タスクで構成されている。 このコレクションは、形式言語で記述されたプランニングドメインから構築されている。 これにより、多くのタスクやドメインにまたがって、確実に正しいソリューションで問題を合成できる。 さらに、人間の努力を伴わずにスケールの豪華さ、すなわち、多くの問題を自動生成することができる。 LLMとOpenAI o1推論モデルの広範囲な評価は、LLMの推論能力における大きなギャップを浮き彫りにしている。 マルチターン推論モデルであるOpenAI o1では,複数項目の質問に対して顕著なパフォーマンス向上が見られたが,驚くべきことにブール問題では顕著な進展は得られなかった。 ACPBenchコレクションはhttps://ibm.github.io/ACPBench.comで入手できる。

There is an increasing body of work using Large Language Models (LLMs) as agents for orchestrating workflows and making decisions in domains that require planning and multi-step reasoning. As a result, it is imperative to evaluate LLMs on core skills required for planning. In this work, we present ACPBench, a benchmark for evaluating the reasoning tasks in the field of planning. The benchmark consists of 7 reasoning tasks over 13 planning domains. The collection is constructed from planning domains described in a formal language. This allows us to synthesize problems with provably correct solutions across many tasks and domains. Further, it allows us the luxury of scale without additional human effort, i.e., many additional problems can be created automatically. Our extensive evaluation of 22 LLMs and OpenAI o1 reasoning models highlights the significant gap in the reasoning capability of the LLMs. Our findings with OpenAI o1, a multi-turn reasoning model, reveal significant gains in performance on multiple-choice questions, yet surprisingly, no notable progress is made on boolean questions. The ACPBench collection is available at https://ibm.github.io/ACPBench.
翻訳日:2024-11-01 17:19:21 公開日:2024-10-22
# 解釈可能性のためのMMI基準は必要か? -非因果的特徴を自己分類のためのプレーンノイズに縮退させる-

Is the MMI Criterion Necessary for Interpretability? Degenerating Non-causal Features to Plain Noise for Self-Rationalization ( http://arxiv.org/abs/2410.06003v1 )

ライセンス: Link先を確認
Wei Liu, Zhiying Deng, Zhongyu Niu, Jun Wang, Haozhao Wang, YuanKai Zhang, Ruixuan Li, (参考訳) 説明可能性の分野における重要な研究の行は、完全な入力から重要な有理数の小さな部分集合を抽出することである。 最も広く使われている合理抽出基準は、最大相互情報(MMI)基準である。 しかし、あるデータセットでは、ラベルと非因果関係の突発的な特徴があり、MMIの損失景観を複雑にし、高い相互情報を得る。 いくつかのペナルティベースの手法は、MMIの働きを改善するために、刺激的な特徴(例えば、不分散ペナルティ、介入ペナルティなど)をペナルティ化するために開発されたが、これらは単に修復措置である。 これらの手法の最適化の目的として, 因果的理性発見を妨げる不規則な雑音と, 相補的特徴をいまだに区別する。 本論文は, 突発的特徴をプレーンノイズとして扱う新しい基準を開発することを目的としており, クリーンなデータセットに取り組んでいたような, 突発的特徴に富んだデータセット上でモデルを動作させることにより, 合理的抽出を容易にすることを目的とする。 理論的には、入力からノイズや突発的な特徴を除去しても、タスクラベルに対する残りの成分の条件分布は変化しない。 しかし, 条件分布の有意な変化は因果的特徴が排除された場合にのみ起こる。 この発見に基づき、本論文は \textbf{M}emaining \textbf{D}iscrepancy (MRD) を用いて、 \textbf{R}emaining \textbf{R}eaximation の基準を提案する。 6つの広く使用されているデータセットの実験により、我々のMDD基準は、近年の競争力のあるMMIの変種と比較して、有理量品質(人間の注釈付き有理量との重なりによって測定される)を最大10.4\%向上させることが示された。 コード: \url{https://github.com/jugechengzi/Rationalization-MRD}。

An important line of research in the field of explainability is to extract a small subset of crucial rationales from the full input. The most widely used criterion for rationale extraction is the maximum mutual information (MMI) criterion. However, in certain datasets, there are spurious features non-causally correlated with the label and also get high mutual information, complicating the loss landscape of MMI. Although some penalty-based methods have been developed to penalize the spurious features (e.g., invariance penalty, intervention penalty, etc) to help MMI work better, these are merely remedial measures. In the optimization objectives of these methods, spurious features are still distinguished from plain noise, which hinders the discovery of causal rationales. This paper aims to develop a new criterion that treats spurious features as plain noise, allowing the model to work on datasets rich in spurious features as if it were working on clean datasets, thereby making rationale extraction easier. We theoretically observe that removing either plain noise or spurious features from the input does not alter the conditional distribution of the remaining components relative to the task label. However, significant changes in the conditional distribution occur only when causal features are eliminated. Based on this discovery, the paper proposes a criterion for \textbf{M}aximizing the \textbf{R}emaining \textbf{D}iscrepancy (MRD). Experiments on six widely used datasets show that our MRD criterion improves rationale quality (measured by the overlap with human-annotated rationales) by up to $10.4\%$ as compared to several recent competitive MMI variants. Code: \url{https://github.com/jugechengzi/Rationalization-MRD}.
翻訳日:2024-11-01 11:40:34 公開日:2024-10-22
# 解釈可能性のためのMMI基準は必要か? -非因果的特徴を自己分類のためのプレーンノイズに縮退させる-

Is the MMI Criterion Necessary for Interpretability? Degenerating Non-causal Features to Plain Noise for Self-Rationalization ( http://arxiv.org/abs/2410.06003v2 )

ライセンス: Link先を確認
Wei Liu, Zhiying Deng, Zhongyu Niu, Jun Wang, Haozhao Wang, YuanKai Zhang, Ruixuan Li, (参考訳) 説明可能性の分野における重要な研究の行は、完全な入力から重要な有理数の小さな部分集合を抽出することである。 最も広く使われている合理抽出基準は、最大相互情報(MMI)基準である。 しかし、あるデータセットでは、ラベルと非因果関係の突発的な特徴があり、MMIの損失景観を複雑にし、高い相互情報を得る。 いくつかのペナルティベースの手法は、MMIの働きを改善するために、刺激的な特徴(例えば、不分散ペナルティ、介入ペナルティなど)をペナルティ化するために開発されたが、これらは単に修復措置である。 これらの手法の最適化の目的として, 因果的理性発見を妨げる不規則な雑音と, 相補的特徴をいまだに区別する。 本論文は, 突発的特徴をプレーンノイズとして扱う新しい基準を開発することを目的としており, クリーンなデータセットに取り組んでいたような, 突発的特徴に富んだデータセット上でモデルを動作させることにより, 合理的抽出を容易にすることを目的とする。 理論的には、入力からノイズや突発的な特徴を除去しても、タスクラベルに対する残りの成分の条件分布は変化しない。 しかし, 条件分布の有意な変化は因果的特徴が排除された場合にのみ起こる。 この発見に基づき、本論文は \textbf{M}emaining \textbf{D}iscrepancy (MRD) を用いて、 \textbf{R}emaining \textbf{R}eaximation の基準を提案する。 6つの広く使用されているデータセットの実験により、我々のMDD基準は、近年の競争力のあるMMIの変種と比較して、有理量品質(人間の注釈付き有理量との重なりによって測定される)を最大10.4\%向上させることが示された。 コード: \url{https://github.com/jugechengzi/Rationalization-MRD}。

An important line of research in the field of explainability is to extract a small subset of crucial rationales from the full input. The most widely used criterion for rationale extraction is the maximum mutual information (MMI) criterion. However, in certain datasets, there are spurious features non-causally correlated with the label and also get high mutual information, complicating the loss landscape of MMI. Although some penalty-based methods have been developed to penalize the spurious features (e.g., invariance penalty, intervention penalty, etc) to help MMI work better, these are merely remedial measures. In the optimization objectives of these methods, spurious features are still distinguished from plain noise, which hinders the discovery of causal rationales. This paper aims to develop a new criterion that treats spurious features as plain noise, allowing the model to work on datasets rich in spurious features as if it were working on clean datasets, thereby making rationale extraction easier. We theoretically observe that removing either plain noise or spurious features from the input does not alter the conditional distribution of the remaining components relative to the task label. However, significant changes in the conditional distribution occur only when causal features are eliminated. Based on this discovery, the paper proposes a criterion for \textbf{M}aximizing the \textbf{R}emaining \textbf{D}iscrepancy (MRD). Experiments on six widely used datasets show that our MRD criterion improves rationale quality (measured by the overlap with human-annotated rationales) by up to $10.4\%$ as compared to several recent competitive MMI variants. Code: \url{https://github.com/jugechengzi/Rationalization-MRD}.
翻訳日:2024-11-01 11:40:34 公開日:2024-10-22
# 解釈可能性のためのMMI基準は必要か? -非因果的特徴を自己分類のためのプレーンノイズに縮退させる-

Is the MMI Criterion Necessary for Interpretability? Degenerating Non-causal Features to Plain Noise for Self-Rationalization ( http://arxiv.org/abs/2410.06003v3 )

ライセンス: Link先を確認
Wei Liu, Zhiying Deng, Zhongyu Niu, Jun Wang, Haozhao Wang, YuanKai Zhang, Ruixuan Li, (参考訳) 説明可能性の分野における重要な研究の行は、完全な入力から重要な有理数の小さな部分集合を抽出することである。 最も広く使われている合理抽出基準は、最大相互情報(MMI)基準である。 しかし、あるデータセットでは、ラベルと非因果関係の突発的な特徴があり、MMIの損失景観を複雑にし、高い相互情報を得る。 いくつかのペナルティベースの手法は、MMIの働きを改善するために、刺激的な特徴(例えば、不分散ペナルティ、介入ペナルティなど)をペナルティ化するために開発されたが、これらは単に修復措置である。 これらの手法の最適化の目的として, 因果的理性発見を妨げる不規則な雑音と, 相補的特徴をいまだに区別する。 本論文は, 突発的特徴をプレーンノイズとして扱う新しい基準を開発することを目的としており, クリーンなデータセットに取り組んでいたような, 突発的特徴に富んだデータセット上でモデルを動作させることにより, 合理的抽出を容易にすることを目的とする。 理論的には、入力からノイズや突発的な特徴を除去しても、タスクラベルに対する残りの成分の条件分布は変化しない。 しかし, 条件分布の有意な変化は因果的特徴が排除された場合にのみ起こる。 この発見に基づき、本論文は \textbf{M}emaining \textbf{D}iscrepancy (MRD) を用いて、 \textbf{R}emaining \textbf{R}eaximation の基準を提案する。 6つの広く使用されているデータセットの実験により、我々のMDD基準は、近年の競争力のあるMMIの変種と比較して、有理量品質(人間の注釈付き有理量との重なりによって測定される)を最大10.4\%向上させることが示された。 コード: \url{https://github.com/jugechengzi/Rationalization-MRD}。

An important line of research in the field of explainability is to extract a small subset of crucial rationales from the full input. The most widely used criterion for rationale extraction is the maximum mutual information (MMI) criterion. However, in certain datasets, there are spurious features non-causally correlated with the label and also get high mutual information, complicating the loss landscape of MMI. Although some penalty-based methods have been developed to penalize the spurious features (e.g., invariance penalty, intervention penalty, etc) to help MMI work better, these are merely remedial measures. In the optimization objectives of these methods, spurious features are still distinguished from plain noise, which hinders the discovery of causal rationales. This paper aims to develop a new criterion that treats spurious features as plain noise, allowing the model to work on datasets rich in spurious features as if it were working on clean datasets, thereby making rationale extraction easier. We theoretically observe that removing either plain noise or spurious features from the input does not alter the conditional distribution of the remaining components relative to the task label. However, significant changes in the conditional distribution occur only when causal features are eliminated. Based on this discovery, the paper proposes a criterion for \textbf{M}aximizing the \textbf{R}emaining \textbf{D}iscrepancy (MRD). Experiments on six widely used datasets show that our MRD criterion improves rationale quality (measured by the overlap with human-annotated rationales) by up to $10.4\%$ as compared to several recent competitive MMI variants. Code: \url{https://github.com/jugechengzi/Rationalization-MRD}.
翻訳日:2024-11-01 11:40:34 公開日:2024-10-22
# 解釈可能性のためのMMI基準は必要か? -非因果的特徴を自己分類のためのプレーンノイズに縮退させる-

Is the MMI Criterion Necessary for Interpretability? Degenerating Non-causal Features to Plain Noise for Self-Rationalization ( http://arxiv.org/abs/2410.06003v4 )

ライセンス: Link先を確認
Wei Liu, Zhiying Deng, Zhongyu Niu, Jun Wang, Haozhao Wang, YuanKai Zhang, Ruixuan Li, (参考訳) 説明可能性の分野における重要な研究の行は、完全な入力から重要な有理数の小さな部分集合を抽出することである。 最も広く使われている合理抽出基準は、最大相互情報(MMI)基準である。 しかし、あるデータセットでは、ラベルと非因果関係の突発的な特徴があり、MMIの損失景観を複雑にし、高い相互情報を得る。 いくつかのペナルティベースの手法は、MMIの働きを改善するために、刺激的な特徴(例えば、不分散ペナルティ、介入ペナルティなど)をペナルティ化するために開発されたが、これらは単に修復措置である。 これらの手法の最適化の目的として, 因果的理性発見を妨げる不規則な雑音と, 相補的特徴をいまだに区別する。 本論文は, 突発的特徴をプレーンノイズとして扱う新しい基準を開発することを目的としており, クリーンなデータセットに取り組んでいたような, 突発的特徴に富んだデータセット上でモデルを動作させることにより, 合理的抽出を容易にすることを目的とする。 理論的には、入力からノイズや突発的な特徴を除去しても、タスクラベルに対する残りの成分の条件分布は変化しない。 しかし, 条件分布の有意な変化は因果的特徴が排除された場合にのみ起こる。 この発見に基づき、本論文は \textbf{M}emaining \textbf{D}iscrepancy (MRD) を用いて、 \textbf{R}emaining \textbf{R}eaximation の基準を提案する。 6つの広く使用されているデータセットの実験により、我々のMDD基準は、近年の競争力のあるMMIの変種と比較して、有理量品質(人間の注釈付き有理量との重なりによって測定される)を最大10.4\%向上させることが示された。 コード: \url{https://github.com/jugechengzi/Rationalization-MRD}。

An important line of research in the field of explainability is to extract a small subset of crucial rationales from the full input. The most widely used criterion for rationale extraction is the maximum mutual information (MMI) criterion. However, in certain datasets, there are spurious features non-causally correlated with the label and also get high mutual information, complicating the loss landscape of MMI. Although some penalty-based methods have been developed to penalize the spurious features (e.g., invariance penalty, intervention penalty, etc) to help MMI work better, these are merely remedial measures. In the optimization objectives of these methods, spurious features are still distinguished from plain noise, which hinders the discovery of causal rationales. This paper aims to develop a new criterion that treats spurious features as plain noise, allowing the model to work on datasets rich in spurious features as if it were working on clean datasets, thereby making rationale extraction easier. We theoretically observe that removing either plain noise or spurious features from the input does not alter the conditional distribution of the remaining components relative to the task label. However, significant changes in the conditional distribution occur only when causal features are eliminated. Based on this discovery, the paper proposes a criterion for \textbf{M}aximizing the \textbf{R}emaining \textbf{D}iscrepancy (MRD). Experiments on six widely used datasets show that our MRD criterion improves rationale quality (measured by the overlap with human-annotated rationales) by up to $10.4\%$ as compared to several recent competitive MMI variants. Code: \url{https://github.com/jugechengzi/Rationalization-MRD}.
翻訳日:2024-11-01 11:40:34 公開日:2024-10-22
# 確率スパースサンプリング: 可変長医用時系列分類のためのフレームワーク

Stochastic Sparse Sampling: A Framework for Variable-Length Medical Time Series Classification ( http://arxiv.org/abs/2410.06412v1 )

ライセンス: Link先を確認
Xavier Mootoo, Alan A. Díaz-Montiel, Milad Lankarany, Hina Tabassum, (参考訳) 時系列分類研究の大半は固定長のシーケンスのモデル化に重点を置いているが、可変長の時系列分類(VTSC)は、患者やイベントによって配列の長さが変わる医療において依然として重要である。 この課題に対処するために、医療時系列用に開発された新しいVTSCフレームワークである$\textbf{S}$tochastic $\textbf{S}$parse $\textbf{S}$ampling (SSS)を提案する。 SSSは、固定ウィンドウをわずかにサンプリングし、局所的な予測を計算することで可変長シーケンスを管理し、グローバルな予測を形成するために集約され、校正される。 本研究では, 発作誘発脳領域を可変長電気生理学的時系列から同定する必要がある重要なVTSC問題である, 発作発生領域(SOZ)の局所化のタスクにSSSを適用した。 4つの独立した医療センターから得られた頭蓋内脳波(iEEG)の異種収集であるてんかんiEEG Multicenter Datasetについて検討した。 SSSは、ほとんどの医療センターにおける最先端(SOTA)ベースラインよりも優れたパフォーマンスを示し、すべてのアウト・オブ・ディストリビューション(OOD)未確認の医療センターにおいて優れたパフォーマンスを示す。 さらに、SSSは、信号全体で時間的に平均化された局所的な予測を可視化することにより、SOZに関連する局所的な信号特性に関する時間後洞察を提供する。

While the majority of time series classification research has focused on modeling fixed-length sequences, variable-length time series classification (VTSC) remains critical in healthcare, where sequence length may vary among patients and events. To address this challenge, we propose $\textbf{S}$tochastic $\textbf{S}$parse $\textbf{S}$ampling (SSS), a novel VTSC framework developed for medical time series. SSS manages variable-length sequences by sparsely sampling fixed windows to compute local predictions, which are then aggregated and calibrated to form a global prediction. We apply SSS to the task of seizure onset zone (SOZ) localization, a critical VTSC problem requiring identification of seizure-inducing brain regions from variable-length electrophysiological time series. We evaluate our method on the Epilepsy iEEG Multicenter Dataset, a heterogeneous collection of intracranial electroencephalography (iEEG) recordings obtained from four independent medical centers. SSS demonstrates superior performance compared to state-of-the-art (SOTA) baselines across most medical centers, and superior performance on all out-of-distribution (OOD) unseen medical centers. Additionally, SSS naturally provides post-hoc insights into local signal characteristics related to the SOZ, by visualizing temporally averaged local predictions throughout the signal.
翻訳日:2024-11-01 05:49:26 公開日:2024-10-22
# 確率スパースサンプリング: 可変長医用時系列分類のためのフレームワーク

Stochastic Sparse Sampling: A Framework for Variable-Length Medical Time Series Classification ( http://arxiv.org/abs/2410.06412v2 )

ライセンス: Link先を確認
Xavier Mootoo, Alan A. Díaz-Montiel, Milad Lankarany, Hina Tabassum, (参考訳) 時系列分類研究の大半は固定長のシーケンスのモデル化に重点を置いているが、可変長の時系列分類(VTSC)は、患者やイベントによって配列の長さが変わる医療において依然として重要である。 この課題に対処するために、医療時系列用に開発された新しいVTSCフレームワークである$\textbf{S}$tochastic $\textbf{S}$parse $\textbf{S}$ampling (SSS)を提案する。 SSSは、固定ウィンドウをわずかにサンプリングし、局所的な予測を計算することで可変長シーケンスを管理し、グローバルな予測を形成するために集約され、校正される。 本研究では, 発作誘発脳領域を可変長電気生理学的時系列から同定する必要がある重要なVTSC問題である, 発作発生領域(SOZ)の局所化のタスクにSSSを適用した。 4つの独立した医療センターから得られた頭蓋内脳波(iEEG)の異種収集であるてんかんiEEG Multicenter Datasetについて検討した。 SSSは、ほとんどの医療センターにおける最先端(SOTA)ベースラインよりも優れたパフォーマンスを示し、すべてのアウト・オブ・ディストリビューション(OOD)未確認の医療センターにおいて優れたパフォーマンスを示す。 さらに、SSSは、信号全体で時間的に平均化された局所的な予測を可視化することにより、SOZに関連する局所的な信号特性に関する時間後洞察を提供する。

While the majority of time series classification research has focused on modeling fixed-length sequences, variable-length time series classification (VTSC) remains critical in healthcare, where sequence length may vary among patients and events. To address this challenge, we propose $\textbf{S}$tochastic $\textbf{S}$parse $\textbf{S}$ampling (SSS), a novel VTSC framework developed for medical time series. SSS manages variable-length sequences by sparsely sampling fixed windows to compute local predictions, which are then aggregated and calibrated to form a global prediction. We apply SSS to the task of seizure onset zone (SOZ) localization, a critical VTSC problem requiring identification of seizure-inducing brain regions from variable-length electrophysiological time series. We evaluate our method on the Epilepsy iEEG Multicenter Dataset, a heterogeneous collection of intracranial electroencephalography (iEEG) recordings obtained from four independent medical centers. SSS demonstrates superior performance compared to state-of-the-art (SOTA) baselines across most medical centers, and superior performance on all out-of-distribution (OOD) unseen medical centers. Additionally, SSS naturally provides post-hoc insights into local signal characteristics related to the SOZ, by visualizing temporally averaged local predictions throughout the signal.
翻訳日:2024-11-01 05:49:26 公開日:2024-10-22
# Q-WSL:ゴール条件付きRLにおける重み付き教師付き学習のための動的プログラミング

Q-WSL:Leveraging Dynamic Programming for Weighted Supervised Learning in Goal-conditioned RL ( http://arxiv.org/abs/2410.06648v1 )

ライセンス: Link先を確認
Xing Lei, Xuetao Zhang, Zifeng Zhuang, Donglin Wang, (参考訳) ゴールコンディションド・ウェイトド・スーパーバイザード・ラーニング(GCWSL)と呼ばれる新しいアルゴリズムのクラスが最近登場し、ゴール条件強化ラーニング(RL)におけるスパース報酬による課題に対処している。 GCWSLは、その単純さ、有効性、安定性のために、さまざまな目標達成タスクに対して、一貫して強力なパフォーマンスを提供します。 しかし、GCWSL法は軌道縫合(trajectory stitching)として知られる重要な機能に欠けており、テスト中に目に見えないスキルに直面した場合に最適なポリシーを学ぶのに不可欠である。 この制限は、リプレイバッファが主に準最適軌道で満たされているときに特に顕著になる。 対照的に、動的プログラミングを利用するQ-learningのような伝統的なTDベースのRL手法では、この問題に直面することはないが、値関数近似の固有の困難のため、しばしば不安定を経験する。 本稿では,Q-learning Weighted Supervised Learning (Q-WSL)を提案する。これは,Q-learningに見られる動的プログラミングの強みを取り入れることで,GCWSLの限界を克服する新しいフレームワークである。 Q-WSLは動的プログラミングの結果を活用して、リプレイバッファ内の異なるトラジェクトリ間の(状態、ゴール)ペアの最適なアクションを出力します。 このアプローチは、Q-learningとGCWSLの長所を相乗化して、それぞれの弱点を効果的に軽減し、全体的なパフォーマンスを向上させる。 Q-WSL は他の目標条件のアプローチを性能とサンプル効率の両面で上回っていることを示す。 さらに、Q-WSLは二元報酬構造と環境確率性によって特徴づけられる環境において顕著な堅牢性を示す。

A novel class of advanced algorithms, termed Goal-Conditioned Weighted Supervised Learning (GCWSL), has recently emerged to tackle the challenges posed by sparse rewards in goal-conditioned reinforcement learning (RL). GCWSL consistently delivers strong performance across a diverse set of goal-reaching tasks due to its simplicity, effectiveness, and stability. However, GCWSL methods lack a crucial capability known as trajectory stitching, which is essential for learning optimal policies when faced with unseen skills during testing. This limitation becomes particularly pronounced when the replay buffer is predominantly filled with sub-optimal trajectories. In contrast, traditional TD-based RL methods, such as Q-learning, which utilize Dynamic Programming, do not face this issue but often experience instability due to the inherent difficulties in value function approximation. In this paper, we propose Q-learning Weighted Supervised Learning (Q-WSL), a novel framework designed to overcome the limitations of GCWSL by incorporating the strengths of Dynamic Programming found in Q-learning. Q-WSL leverages Dynamic Programming results to output the optimal action of (state, goal) pairs across different trajectories within the replay buffer. This approach synergizes the strengths of both Q-learning and GCWSL, effectively mitigating their respective weaknesses and enhancing overall performance. Empirical evaluations on challenging goal-reaching tasks demonstrate that Q-WSL surpasses other goal-conditioned approaches in terms of both performance and sample efficiency. Additionally, Q-WSL exhibits notable robustness in environments characterized by binary reward structures and environmental stochasticity.
翻訳日:2024-11-01 04:29:49 公開日:2024-10-22
# Q-WSL:ゴール条件付きRLにおける重み付き教師付き学習のための動的プログラミング

Q-WSL:Leveraging Dynamic Programming for Weighted Supervised Learning in Goal-conditioned RL ( http://arxiv.org/abs/2410.06648v2 )

ライセンス: Link先を確認
Xing Lei, Xuetao Zhang, Zifeng Zhuang, Donglin Wang, (参考訳) ゴールコンディションド・ウェイトド・スーパーバイザード・ラーニング(GCWSL)と呼ばれる新しいアルゴリズムのクラスが最近登場し、ゴール条件強化ラーニング(RL)におけるスパース報酬による課題に対処している。 GCWSLは、その単純さ、有効性、安定性のために、さまざまな目標達成タスクに対して、一貫して強力なパフォーマンスを提供します。 しかし、GCWSL法は軌道縫合(trajectory stitching)として知られる重要な機能に欠けており、テスト中に目に見えないスキルに直面した場合に最適なポリシーを学ぶのに不可欠である。 この制限は、リプレイバッファが主に準最適軌道で満たされているときに特に顕著になる。 対照的に、動的プログラミングを利用するQ-learningのような伝統的なTDベースのRL手法では、この問題に直面することはないが、値関数近似の固有の困難のため、しばしば不安定を経験する。 本稿では,Q-learning Weighted Supervised Learning (Q-WSL)を提案する。これは,Q-learningに見られる動的プログラミングの強みを取り入れることで,GCWSLの限界を克服する新しいフレームワークである。 Q-WSLは動的プログラミングの結果を活用して、リプレイバッファ内の異なるトラジェクトリ間の(状態、ゴール)ペアの最適なアクションを出力します。 このアプローチは、Q-learningとGCWSLの長所を相乗化して、それぞれの弱点を効果的に軽減し、全体的なパフォーマンスを向上させる。 Q-WSL は他の目標条件のアプローチを性能とサンプル効率の両面で上回っていることを示す。 さらに、Q-WSLは二元報酬構造と環境確率性によって特徴づけられる環境において顕著な堅牢性を示す。

A novel class of advanced algorithms, termed Goal-Conditioned Weighted Supervised Learning (GCWSL), has recently emerged to tackle the challenges posed by sparse rewards in goal-conditioned reinforcement learning (RL). GCWSL consistently delivers strong performance across a diverse set of goal-reaching tasks due to its simplicity, effectiveness, and stability. However, GCWSL methods lack a crucial capability known as trajectory stitching, which is essential for learning optimal policies when faced with unseen skills during testing. This limitation becomes particularly pronounced when the replay buffer is predominantly filled with sub-optimal trajectories. In contrast, traditional TD-based RL methods, such as Q-learning, which utilize Dynamic Programming, do not face this issue but often experience instability due to the inherent difficulties in value function approximation. In this paper, we propose Q-learning Weighted Supervised Learning (Q-WSL), a novel framework designed to overcome the limitations of GCWSL by incorporating the strengths of Dynamic Programming found in Q-learning. Q-WSL leverages Dynamic Programming results to output the optimal action of (state, goal) pairs across different trajectories within the replay buffer. This approach synergizes the strengths of both Q-learning and GCWSL, effectively mitigating their respective weaknesses and enhancing overall performance. Empirical evaluations on challenging goal-reaching tasks demonstrate that Q-WSL surpasses other goal-conditioned approaches in terms of both performance and sample efficiency. Additionally, Q-WSL exhibits notable robustness in environments characterized by binary reward structures and environmental stochasticity.
翻訳日:2024-11-01 04:29:49 公開日:2024-10-22
# Q-WSL:ゴール条件付きRLにおける重み付き教師付き学習のための動的プログラミング

Q-WSL:Leveraging Dynamic Programming for Weighted Supervised Learning in Goal-conditioned RL ( http://arxiv.org/abs/2410.06648v3 )

ライセンス: Link先を確認
Xing Lei, Xuetao Zhang, Zifeng Zhuang, Donglin Wang, (参考訳) ゴールコンディションド・ウェイトド・スーパーバイザード・ラーニング(GCWSL)と呼ばれる新しいアルゴリズムのクラスが最近登場し、ゴール条件強化ラーニング(RL)におけるスパース報酬による課題に対処している。 GCWSLは、その単純さ、有効性、安定性のために、さまざまな目標達成タスクに対して、一貫して強力なパフォーマンスを提供します。 しかし、GCWSL法は軌道縫合(trajectory stitching)として知られる重要な機能に欠けており、テスト中に目に見えないスキルに直面した場合に最適なポリシーを学ぶのに不可欠である。 この制限は、リプレイバッファが主に準最適軌道で満たされているときに特に顕著になる。 対照的に、動的プログラミングを利用するQ-learningのような伝統的なTDベースのRL手法では、この問題に直面することはないが、値関数近似の固有の困難のため、しばしば不安定を経験する。 本稿では,Q-learning Weighted Supervised Learning (Q-WSL)を提案する。これは,Q-learningに見られる動的プログラミングの強みを取り入れることで,GCWSLの限界を克服する新しいフレームワークである。 Q-WSLは動的プログラミングの結果を活用して、リプレイバッファ内の異なるトラジェクトリ間の(状態、ゴール)ペアの最適なアクションを出力します。 このアプローチは、Q-learningとGCWSLの長所を相乗化して、それぞれの弱点を効果的に軽減し、全体的なパフォーマンスを向上させる。 Q-WSL は他の目標条件のアプローチを性能とサンプル効率の両面で上回っていることを示す。 さらに、Q-WSLは二元報酬構造と環境確率性によって特徴づけられる環境において顕著な堅牢性を示す。

A novel class of advanced algorithms, termed Goal-Conditioned Weighted Supervised Learning (GCWSL), has recently emerged to tackle the challenges posed by sparse rewards in goal-conditioned reinforcement learning (RL). GCWSL consistently delivers strong performance across a diverse set of goal-reaching tasks due to its simplicity, effectiveness, and stability. However, GCWSL methods lack a crucial capability known as trajectory stitching, which is essential for learning optimal policies when faced with unseen skills during testing. This limitation becomes particularly pronounced when the replay buffer is predominantly filled with sub-optimal trajectories. In contrast, traditional TD-based RL methods, such as Q-learning, which utilize Dynamic Programming, do not face this issue but often experience instability due to the inherent difficulties in value function approximation. In this paper, we propose Q-learning Weighted Supervised Learning (Q-WSL), a novel framework designed to overcome the limitations of GCWSL by incorporating the strengths of Dynamic Programming found in Q-learning. Q-WSL leverages Dynamic Programming results to output the optimal action of (state, goal) pairs across different trajectories within the replay buffer. This approach synergizes the strengths of both Q-learning and GCWSL, effectively mitigating their respective weaknesses and enhancing overall performance. Empirical evaluations on challenging goal-reaching tasks demonstrate that Q-WSL surpasses other goal-conditioned approaches in terms of both performance and sample efficiency. Additionally, Q-WSL exhibits notable robustness in environments characterized by binary reward structures and environmental stochasticity.
翻訳日:2024-11-01 04:29:49 公開日:2024-10-22
# Q-WSL: 動的プログラミングによる軽量教師付き学習によるゴールコンディションRLの最適化

Q-WSL: Optimizing Goal-Conditioned RL with Weighted Supervised Learning via Dynamic Programming ( http://arxiv.org/abs/2410.06648v4 )

ライセンス: Link先を確認
Xing Lei, Xuetao Zhang, Zifeng Zhuang, Donglin Wang, (参考訳) ゴールコンディションド・ウェイトド・スーパーバイザード・ラーニング(GCWSL)と呼ばれる新しいアルゴリズムのクラスが最近登場し、ゴール条件強化ラーニング(RL)におけるスパース報酬による課題に対処している。 GCWSLは、その単純さ、有効性、安定性のために、さまざまな目標達成タスクに対して、一貫して強力なパフォーマンスを提供します。 しかし、GCWSL法は軌道縫合(trajectory stitching)として知られる重要な機能に欠けており、テスト中に目に見えないスキルに直面した場合に最適なポリシーを学ぶのに不可欠である。 この制限は、リプレイバッファが主に準最適軌道で満たされているときに特に顕著になる。 対照的に、動的プログラミングを利用するQ-learningのような伝統的なTDベースのRL手法では、この問題に直面することはないが、値関数近似の固有の困難のため、しばしば不安定を経験する。 本稿では,Q-learning Weighted Supervised Learning (Q-WSL)を提案する。これは,Q-learningに見られる動的プログラミングの強みを取り入れることで,GCWSLの限界を克服する新しいフレームワークである。 Q-WSLは動的プログラミングの結果を活用して、リプレイバッファ内の異なるトラジェクトリ間の(状態、ゴール)ペアの最適なアクションを出力します。 このアプローチは、Q-learningとGCWSLの長所を相乗化して、それぞれの弱点を効果的に軽減し、全体的なパフォーマンスを向上させる。 Q-WSL は他の目標条件のアプローチを性能とサンプル効率の両面で上回っていることを示す。 さらに、Q-WSLは二元報酬構造と環境確率性によって特徴づけられる環境において顕著な堅牢性を示す。

A novel class of advanced algorithms, termed Goal-Conditioned Weighted Supervised Learning (GCWSL), has recently emerged to tackle the challenges posed by sparse rewards in goal-conditioned reinforcement learning (RL). GCWSL consistently delivers strong performance across a diverse set of goal-reaching tasks due to its simplicity, effectiveness, and stability. However, GCWSL methods lack a crucial capability known as trajectory stitching, which is essential for learning optimal policies when faced with unseen skills during testing. This limitation becomes particularly pronounced when the replay buffer is predominantly filled with sub-optimal trajectories. In contrast, traditional TD-based RL methods, such as Q-learning, which utilize Dynamic Programming, do not face this issue but often experience instability due to the inherent difficulties in value function approximation. In this paper, we propose Q-learning Weighted Supervised Learning (Q-WSL), a novel framework designed to overcome the limitations of GCWSL by incorporating the strengths of Dynamic Programming found in Q-learning. Q-WSL leverages Dynamic Programming results to output the optimal action of (state, goal) pairs across different trajectories within the replay buffer. This approach synergizes the strengths of both Q-learning and GCWSL, effectively mitigating their respective weaknesses and enhancing overall performance. Empirical evaluations on challenging goal-reaching tasks demonstrate that Q-WSL surpasses other goal-conditioned approaches in terms of both performance and sample efficiency. Additionally, Q-WSL exhibits notable robustness in environments characterized by binary reward structures and environmental stochasticity.
翻訳日:2024-11-01 04:29:49 公開日:2024-10-22
# PLaMo-100B:日本語の習熟度に配慮した基礎言語モデル

PLaMo-100B: A Ground-Up Language Model Designed for Japanese Proficiency ( http://arxiv.org/abs/2410.07563v1 )

ライセンス: Link先を確認
Kenshin Abe, Kaizaburo Chubachi, Yasuhiro Fujita, Yuta Hirokawa, Kentaro Imajo, Toshiki Kataoka, Hiroyoshi Komatsu, Hiroaki Mikami, Tsuguo Mogami, Shogo Murai, Kosuke Nakago, Daisuke Nishino, Toru Ogawa, Daisuke Okanohara, Yoshihiko Ozaki, Shotaro Sano, Shuji Suzuki, Tianqi Xu, Toshihiko Yanase, (参考訳) PLaMo-100Bは,日本語の習熟度を考慮した大規模言語モデルである。 モデルは、トレーニングプロセス中にトレーニング安定性を確保するために、QK正規化やZ-Lossといったアーキテクチャを用いて、2兆トークンを使用して、ゼロからトレーニングされた。 Supervised Fine-Tuning や Direct Preference Optimization などのポストトレーニング手法をモデルの性能改善に応用した。 ベンチマーク評価の結果,PLaMo-100Bは特に日本語固有のタスクにおいて,GPT-4のようなフロンティアモデルと競合する結果が得られることが示唆された。

We introduce PLaMo-100B, a large-scale language model designed for Japanese proficiency. The model was trained from scratch using 2 trillion tokens, with architecture such as QK Normalization and Z-Loss to ensure training stability during the training process. Post-training techniques, including Supervised Fine-Tuning and Direct Preference Optimization, were applied to refine the model's performance. Benchmark evaluations suggest that PLaMo-100B performs well, particularly in Japanese-specific tasks, achieving results that are competitive with frontier models like GPT-4.
翻訳日:2024-10-31 16:16:17 公開日:2024-10-22
# PLaMo-100B:日本語の習熟度に配慮した基礎言語モデル

PLaMo-100B: A Ground-Up Language Model Designed for Japanese Proficiency ( http://arxiv.org/abs/2410.07563v2 )

ライセンス: Link先を確認
Preferred Elements, :, Kenshin Abe, Kaizaburo Chubachi, Yasuhiro Fujita, Yuta Hirokawa, Kentaro Imajo, Toshiki Kataoka, Hiroyoshi Komatsu, Hiroaki Mikami, Tsuguo Mogami, Shogo Murai, Kosuke Nakago, Daisuke Nishino, Toru Ogawa, Daisuke Okanohara, Yoshihiko Ozaki, Shotaro Sano, Shuji Suzuki, Tianqi Xu, Toshihiko Yanase, (参考訳) PLaMo-100Bは,日本語の習熟度を考慮した大規模言語モデルである。 モデルは、トレーニングプロセス中にトレーニング安定性を確保するために、QK正規化やZ-Lossといったアーキテクチャを用いて、2兆トークンを使用して、ゼロからトレーニングされた。 Supervised Fine-Tuning や Direct Preference Optimization などのポストトレーニング手法をモデルの性能改善に応用した。 ベンチマーク評価の結果,PLaMo-100Bは特に日本語固有のタスクにおいて,GPT-4のようなフロンティアモデルと競合する結果が得られることが示唆された。 ベースモデルはhttps://huggingface.co/pfnet/plamo-100bで公開されている。

We introduce PLaMo-100B, a large-scale language model designed for Japanese proficiency. The model was trained from scratch using 2 trillion tokens, with architecture such as QK Normalization and Z-Loss to ensure training stability during the training process. Post-training techniques, including Supervised Fine-Tuning and Direct Preference Optimization, were applied to refine the model's performance. Benchmark evaluations suggest that PLaMo-100B performs well, particularly in Japanese-specific tasks, achieving results that are competitive with frontier models like GPT-4. The base model is available at https://huggingface.co/pfnet/plamo-100b.
翻訳日:2024-10-31 16:16:17 公開日:2024-10-22
# RePD:Retrieval-based Prompt DecompositionプロセスによるJailbreak攻撃の防止

RePD: Defending Jailbreak Attack through a Retrieval-based Prompt Decomposition Process ( http://arxiv.org/abs/2410.08660v1 )

ライセンス: Link先を確認
Peiran Wang, Xiaogeng Liu, Chaowei Xiao, (参考訳) 本研究では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃のリスクを軽減するために,RetrievalベースのPrompt DecompositionフレームワークであるRePDを紹介する。 厳格な事前訓練と倫理的調整に焦点を当てた微調整にもかかわらず、LLMは依然としてジェイルブレイクの悪用を受けやすい。 RePDはワンショットの学習モデルで動作し、事前にコンパイルされたジェイルブレイクプロンプトテンプレートのデータベースにアクセスして、ユーザプロンプト内に埋め込まれた有害な問い合わせを特定して分解する。 このプロセスでは、Jailbreakプロンプトの分解をユーザの元のクエリに統合して、LLMに悪意のあるコンポーネントの識別と分離を効果的に教える、ワンショットの学習例に統合する。 従って、LCMは、ユーザーのプロンプトに対処する前に、その倫理的ガイドラインに沿った方法で、潜在的に有害な要素を最初に中和する。 RePDは汎用的で、エージェントとして動作する様々なオープンソースのLCMと互換性がある。 有害なプロンプトと良性なプロンプトを併用した総合的な実験を通じて,典型的なユーザ要求に応答する際の性能を損なうことなく,LDMのジェイルブレイク攻撃に対するレジリエンスを高めるためのRePDの有効性を実証した。

In this study, we introduce RePD, an innovative attack Retrieval-based Prompt Decomposition framework designed to mitigate the risk of jailbreak attacks on large language models (LLMs). Despite rigorous pretraining and finetuning focused on ethical alignment, LLMs are still susceptible to jailbreak exploits. RePD operates on a one-shot learning model, wherein it accesses a database of pre-collected jailbreak prompt templates to identify and decompose harmful inquiries embedded within user prompts. This process involves integrating the decomposition of the jailbreak prompt into the user's original query into a one-shot learning example to effectively teach the LLM to discern and separate malicious components. Consequently, the LLM is equipped to first neutralize any potentially harmful elements before addressing the user's prompt in a manner that aligns with its ethical guidelines. RePD is versatile and compatible with a variety of open-source LLMs acting as agents. Through comprehensive experimentation with both harmful and benign prompts, we have demonstrated the efficacy of our proposed RePD in enhancing the resilience of LLMs against jailbreak attacks, without compromising their performance in responding to typical user requests.
翻訳日:2024-10-30 22:45:00 公開日:2024-10-22
# RePD:Retrieval-based Prompt DecompositionプロセスによるJailbreak攻撃の防止

RePD: Defending Jailbreak Attack through a Retrieval-based Prompt Decomposition Process ( http://arxiv.org/abs/2410.08660v2 )

ライセンス: Link先を確認
Peiran Wang, Xiaogeng Liu, Chaowei Xiao, (参考訳) 本研究では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃のリスクを軽減するために,RetrievalベースのPrompt DecompositionフレームワークであるRePDを紹介する。 厳格な事前訓練と倫理的調整に焦点を当てた微調整にもかかわらず、LLMは依然としてジェイルブレイクの悪用を受けやすい。 RePDはワンショットの学習モデルで動作し、事前にコンパイルされたジェイルブレイクプロンプトテンプレートのデータベースにアクセスして、ユーザプロンプト内に埋め込まれた有害な問い合わせを特定して分解する。 このプロセスでは、Jailbreakプロンプトの分解をユーザの元のクエリに統合して、LLMに悪意のあるコンポーネントの識別と分離を効果的に教える、ワンショットの学習例に統合する。 従って、LCMは、ユーザーのプロンプトに対処する前に、その倫理的ガイドラインに沿った方法で、潜在的に有害な要素を最初に中和する。 RePDは汎用的で、エージェントとして動作する様々なオープンソースのLCMと互換性がある。 有害なプロンプトと良性なプロンプトを併用した総合的な実験を通じて,典型的なユーザ要求に応答する際の性能を損なうことなく,LDMのジェイルブレイク攻撃に対するレジリエンスを高めるためのRePDの有効性を実証した。

In this study, we introduce RePD, an innovative attack Retrieval-based Prompt Decomposition framework designed to mitigate the risk of jailbreak attacks on large language models (LLMs). Despite rigorous pretraining and finetuning focused on ethical alignment, LLMs are still susceptible to jailbreak exploits. RePD operates on a one-shot learning model, wherein it accesses a database of pre-collected jailbreak prompt templates to identify and decompose harmful inquiries embedded within user prompts. This process involves integrating the decomposition of the jailbreak prompt into the user's original query into a one-shot learning example to effectively teach the LLM to discern and separate malicious components. Consequently, the LLM is equipped to first neutralize any potentially harmful elements before addressing the user's prompt in a manner that aligns with its ethical guidelines. RePD is versatile and compatible with a variety of open-source LLMs acting as agents. Through comprehensive experimentation with both harmful and benign prompts, we have demonstrated the efficacy of our proposed RePD in enhancing the resilience of LLMs against jailbreak attacks, without compromising their performance in responding to typical user requests.
翻訳日:2024-10-30 22:45:00 公開日:2024-10-22
# コンテキストパラメトリックインバージョン:なぜインストラクションの微調整がコンテキスト信頼性を実際に改善しないのか

Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance ( http://arxiv.org/abs/2410.10796v1 )

ライセンス: Link先を確認
Sachin Goyal, Christina Baek, J. Zico Kolter, Aditi Raghunathan, (参考訳) 大規模言語モデルは、ユーザ命令に従う能力を高め、入力コンテキストを処理できるように、命令精細化されている。 しかし、最先端モデルでさえ、特に入力コンテキストがモデルのパラメトリック知識と一致していない場合、命令に従うのに苦労することが多い。 これは、応答が時代遅れ、偏見があり、検証されていない事実を含む幻覚など、様々な失敗として現れます。 本研究では,この文脈依存の根底にある理由,特に指導調律後の理解を試みている。 命令チューニング中、コンテキスト依存は期待通りに増大するが、命令の微調整が進むにつれて徐々に減少する。 我々は、この現象を文脈パラメトリック・インバージョンと呼び、TULU、Alpaca、Ultrachatといった汎用的なチューニングデータセットと、Llama、Mistral、Pythiaといったモデルファミリで観測する。 簡単な理論的な設定で、命令微調整の勾配降下軌道に沿って文脈パラメトリック逆転が起こる理由を分離する。 我々はこの現象を、入力コンテキストがモデルのパラメトリック知識にすでに存在する情報を提供する命令微調整データ混合の例に結びつける。 我々の分析は、限定的な利得を提供する自然な緩和戦略を示唆し、理論的な洞察を検証している。 LLMトレーニングの基本的な部分において、この障害モードに対処する上で、私たちの作業が出発点となることを願っています。

Large language models are instruction-finetuned to enhance their ability to follow user instructions and process the input context. However, even state-of-the-art models often struggle to follow the instruction, especially when the input context is not aligned with the model's parametric knowledge. This manifests as various failures, such as hallucinations where the responses are outdated, biased or contain unverified facts. In this work, we try to understand the underlying reason for this poor context reliance, especially after instruction tuning. We observe an intriguing phenomenon: during instruction tuning, the context reliance initially increases as expected, but then gradually decreases as instruction finetuning progresses. We call this phenomenon context-parametric inversion and observe it across multiple general purpose instruction tuning datasets like TULU, Alpaca and Ultrachat, as well as model families such as Llama, Mistral and Pythia. In a simple theoretical setup, we isolate why context-parametric inversion occurs along the gradient descent trajectory of instruction finetuning. We tie this phenomena to examples in the instruction finetuning data mixture where the input context provides information that is already present in the model's parametric knowledge. Our analysis suggests natural mitigation strategies that provide some limited gains, while also validating our theoretical insights. We hope that our work serves as a starting point in addressing this failure mode in a staple part of LLM training.
翻訳日:2024-10-29 19:34:54 公開日:2024-10-22
# コンテキストパラメトリックインバージョン:なぜインストラクションの微調整がコンテキスト信頼性を実際に改善しないのか

Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance ( http://arxiv.org/abs/2410.10796v2 )

ライセンス: Link先を確認
Sachin Goyal, Christina Baek, J. Zico Kolter, Aditi Raghunathan, (参考訳) 大規模言語モデルを使用する場合の標準的なプラクティスは、ユーザがモデルを処理すべき新しい情報を含む入力コンテキストで命令を補うことである。 しかし、特に事前学習からパラメトリック知識と矛盾する場合、モデルは入力コンテキストに確実に従うのに苦労する。 インプリンシプルでは、特に知識の衝突を扱う場合、モデルが命令の微調整後にユーザーコンテキストに適応することを期待する。 しかし, 命令チューニング中は, 知識間のコンテクスト依存は期待通りに増大するが, 命令の微調整が進むにつれて徐々に減少する。 これは、標準ベンチマークのパフォーマンスが、この低下後もずっと上昇している間に起こります。 我々は、この現象を文脈パラメトリックインバージョンと呼び、TULU、Alpaca、Ultrachatといった汎用的なチューニングデータセットを、Llama、Mistral、Pythiaといった異なるモデルファミリにわたって観察する。 入力コンテキストがモデルのパラメトリック知識と整合した情報を提供する命令微調整データの例によって、文脈パラメトリックの逆転が生じることを示すために、様々な制御された研究と理論的解析を行う。 分析の結果,制限はあるものの洞察に富んだ利得を持つ自然緩和戦略が示唆され,この欠陥に対処する上で有用な出発点となっている。

A standard practice when using large language models is for users to supplement their instruction with an input context containing new information for the model to process. However, models struggle to reliably follow the input context, especially when it conflicts with their parametric knowledge from pretraining. In-principle, one would expect models to adapt to the user context better after instruction finetuning, particularly when handling knowledge conflicts. However, we observe a surprising failure mode: during instruction tuning, the context reliance under knowledge conflicts initially increases as expected, but then gradually decreases as instruction finetuning progresses. This happens while the performance on standard benchmarks keeps on increasing far after this drop. We call this phenomenon context-parametric inversion and observe it across multiple general purpose instruction tuning datasets such as TULU, Alpaca and Ultrachat, across different model families like Llama, Mistral, and Pythia. We perform various controlled studies and theoretical analysis to show that context-parametric inversion occurs due to examples in the instruction finetuning data where the input context provides information that aligns with model's parametric knowledge. Our analysis suggests some natural mitigation strategies with limited but insightful gains, and serves as a useful starting point in addressing this deficiency in instruction finetuning.
翻訳日:2024-10-29 19:24:59 公開日:2024-10-22