このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241002となっている論文です。

PDF登録状況(公開日: 20241002)

TitleAuthorsAbstract論文公表日・翻訳日
# ゲートシフト拡散機構を用いた新しいCNN変換器を用いた高スペクトル画像分類

Boosting Hyperspectral Image Classification with Gate-Shift-Fuse Mechanisms in a Novel CNN-Transformer Approach ( http://arxiv.org/abs/2406.14120v2 )

ライセンス: Link先を確認
Mohamed Fadhlallah Guerri, Cosimo Distante, Paolo Spagnolo, Fares Bougourzi, Abdelmalik Taleb-Ahmed, (参考訳) ハイパースペクトル画像(HSI)を分類する過程で、各画素はランドカバー型に分類される。 HSI分類のためのCNNベースの技術は、その適応的特徴表現能力によって、明らかに分野を進歩させてきた。 しかし、これらのCNNベースの手法では、深い機能の獲得は依然として困難である。 対照的に、トランスモデルは高いレベルのセマンティックな特徴を抽出し、補完的な強度を提供する。 本論文の主な貢献は、2つの畳み込みブロック(GSF)ブロックとトランスフォーマーブロックを含むHSI分類モデルの導入である。 このモデルは、局所特徴抽出と長距離コンテキストモデリングにおける変換器におけるCNNの強みを利用する。 GSFブロックは、局所的および大域的空間スペクトルの特徴の抽出を強化するように設計されている。 HSI立方体からの情報の抽出を促進するために,効果的な注意機構モジュールも提案されている。 提案手法は,4つの有名なデータセット(インドパインズ,パヴィア大学,WHU-WHU-Hi-LongKou,WHU-Hi-HanChuan)を用いて評価し,提案手法が他のモデルと比較して優れた結果が得られることを示した。

During the process of classifying Hyperspectral Image (HSI), every pixel sample is categorized under a land-cover type. CNN-based techniques for HSI classification have notably advanced the field by their adept feature representation capabilities. However, acquiring deep features remains a challenge for these CNN-based methods. In contrast, transformer models are adept at extracting high-level semantic features, offering a complementary strength. This paper's main contribution is the introduction of an HSI classification model that includes two convolutional blocks, a Gate-Shift-Fuse (GSF) block and a transformer block. This model leverages the strengths of CNNs in local feature extraction and transformers in long-range context modelling. The GSF block is designed to strengthen the extraction of local and global spatial-spectral features. An effective attention mechanism module is also proposed to enhance the extraction of information from HSI cubes. The proposed method is evaluated on four well-known datasets (the Indian Pines, Pavia University, WHU-WHU-Hi-LongKou and WHU-Hi-HanChuan), demonstrating that the proposed framework achieves superior results compared to other models.
翻訳日:2024-11-09 01:22:29 公開日:2024-10-02
# AgriLLM:ファーマークエリのハーネス化トランスフォーマー

AgriLLM: Harnessing Transformers for Farmer Queries ( http://arxiv.org/abs/2407.04721v2 )

ライセンス: Link先を確認
Krish Didwania, Pratinav Seth, Aditya Kasliwal, Amit Agarwal, (参考訳) グローバルな安定のために不可欠な農業は、組織化されたドメインの専門家の欠如、特に多くの農家が貧弱で専門家のコンサルティングができない発展途上国において、革新的な解決策を必要としている。 ファーマーズ・ヘルプラインのようなイニシアチブはそのような国では重要な役割を担っているが、高い運用コストのような課題は持続している。 クエリ解決の自動化は、従来のコールセンターの負担を軽減することができ、ファーマーズに即時かつ文脈的に関連する情報を提供する。 農業と人工知能(AI)の統合は、農家と情報ギャップを橋渡しする変革的な機会を提供する。 AIのスターであるトランスフォーマーのような言語モデルは、顕著な言語理解能力を持ち、農業における情報ギャップに対処するのに理想的だ。 本研究は,農業従事者に対する問合せ解決の自動化における大規模言語モデル(LLM)の変革的可能性を探究し,自然言語の解読と理解の文脈における彼らの専門知識を活用することを目的とする。 インドで収集された実世界のファーマークェリのデータセットのサブセットを用いて、タミル・ナードゥ州からの約400万のクェリ、様々な分野、季節的作物、クェリタイプに焦点を当てた。

Agriculture, vital for global sustenance, necessitates innovative solutions due to a lack of organized domain experts, particularly in developing countries where many farmers are impoverished and cannot afford expert consulting. Initiatives like Farmers Helpline play a crucial role in such countries, yet challenges such as high operational costs persist. Automating query resolution can alleviate the burden on traditional call centers, providing farmers with immediate and contextually relevant information. The integration of Agriculture and Artificial Intelligence (AI) offers a transformative opportunity to empower farmers and bridge information gaps. Language models like transformers, the rising stars of AI, possess remarkable language understanding capabilities, making them ideal for addressing information gaps in agriculture. This work explores and demonstrates the transformative potential of Large Language Models (LLMs) in automating query resolution for agricultural farmers, leveraging their expertise in deciphering natural language and understanding context. Using a subset of a vast dataset of real-world farmer queries collected in India, our study focuses on approximately 4 million queries from the state of Tamil Nadu, spanning various sectors, seasonal crops, and query types.
翻訳日:2024-11-08 23:46:45 公開日:2024-10-02
# LIONs: 言語モデルに対する経験的に最適化されたアプローチ

LIONs: An Empirically Optimized Approach to Align Language Models ( http://arxiv.org/abs/2407.06542v2 )

ライセンス: Link先を確認
Xiao Yu, Qingyang Wu, Yu Li, Zhou Yu, (参考訳) アライメントは、言語モデルの命令追従能力と会話能力を強化するための重要なステップである。 新たなアルゴリズム、データセット、トレーニングパイプラインを提案する最近の多くの作業にもかかわらず、トレーニングプロセス全体を通してさまざまな設計選択の影響を測定する包括的な研究が欠如している。 まず、教師付き微調整、オフライン選好学習、オンライン選好学習からなる3段階の学習パイプラインについて厳密な分析を行う。 我々は、シーケンスパッキング、SFTにおける損失マスキング、DPOにおける嗜好データセットサイズの増加、オンラインDPOトレーニングなどの手法を用いることで、言語モデルの性能が大幅に向上することを発見した。 次に、Gemma-2bベースとLLama-3-8bベースからトレーニングを行い、クローズドソースデータとアルゴリズムで調整された公式インストラクションモデルの性能より優れたモデルを見つける。 我々のコードとモデルは \url{https://github.com/Columbia-NLP-Lab/LionAlignment} で見ることができる。

Alignment is a crucial step to enhance the instruction-following and conversational abilities of language models. Despite many recent work proposing new algorithms, datasets, and training pipelines, there is a lack of comprehensive studies measuring the impact of various design choices throughout the whole training process. We first conduct a rigorous analysis over a three-stage training pipeline consisting of supervised fine-tuning, offline preference learning, and online preference learning. We have found that using techniques like sequence packing, loss masking in SFT, increasing the preference dataset size in DPO, and online DPO training can significantly improve the performance of language models. We then train from Gemma-2b-base and LLama-3-8b-base, and find that our best models exceed the performance of the official instruct models tuned with closed-source data and algorithms. Our code and models can be found at \url{https://github.com/Columbia-NLP-Lab/LionAlignment}.
翻訳日:2024-11-08 23:02:19 公開日:2024-10-02
# オープンボキャブラリ時間行動定位のための自己学習のスケーラビリティを探る

Exploring Scalability of Self-Training for Open-Vocabulary Temporal Action Localization ( http://arxiv.org/abs/2407.07024v2 )

ライセンス: Link先を確認
Jeongseok Hyun, Su Ho Han, Hyolim Kang, Joon-Young Lee, Seon Joo Kim, (参考訳) 時間的行動ローカライゼーション(TAL)における語彙サイズは、大規模な注釈付きデータセットの不足によって制限される。 これを解決するために、最近の研究は、オープン語彙TAL(OV-TAL)のための、CLIP(CLIP)のようなビジョン言語モデル(VLM)を統合している。 しかしながら、大規模なデータセットでトレーニングされたVLMの成功にもかかわらず、既存のOV-TALメソッドは、アクションローカライザをトレーニングするために、制限されたサイズの人ラベルのTALデータセットに依存しており、その一般化性は制限されている。 本稿では,OV-TAL用未ラベルYouTubeビデオによる自己学習のスケーラビリティについて検討する。 提案手法は,(1)分類に依存しない行動ローカライザを人間のラベル付きtalデータセット上でトレーニングし,未ラベル付きビデオの擬似ラベルを生成し,(2)大規模擬似ラベル付きデータセットを用いてローカライザのトレーニングを行う。 大規模な実験により、自己学習におけるWebスケールビデオの利用は、アクションローカライザの一般化可能性を大幅に向上させることが示された。 さらに,既存のOV-TAL評価手法の限界を特定し,徹底的な評価のための新しいベンチマークを提案する。 最後に,大規模マルチモーダルモデル Gemini-1.5 の TAL 性能を新しいベンチマークで示す。 コードはhttps://github.com/HYUNJS/STOV-TALで公開されている。

The vocabulary size in temporal action localization (TAL) is limited by the scarcity of large-scale annotated datasets. To overcome this, recent works integrate vision-language models (VLMs), such as CLIP, for open-vocabulary TAL (OV-TAL). However, despite the success of VLMs trained on extensive datasets, existing OV-TAL methods still rely on human-labeled TAL datasets of limited size to train action localizers, limiting their generalizability. In this paper, we explore the scalability of self-training with unlabeled YouTube videos for OV-TAL. Our approach consists of two stages: (1) a class-agnostic action localizer is trained on a human-labeled TAL dataset to generate pseudo-labels for unlabeled videos, and (2) the large-scale pseudo-labeled dataset is then used to train the localizer. Extensive experiments demonstrate that leveraging web-scale videos in self-training significantly enhances the generalizability of an action localizer. Additionally, we identify limitations in existing OV-TAL evaluation schemes and propose a new benchmark for thorough assessment. Finally, we showcase the TAL performance of the large multimodal model Gemini-1.5 on our new benchmark. Code is released at https://github.com/HYUNJS/STOV-TAL.
翻訳日:2024-11-08 22:51:19 公開日:2024-10-02
# LLM推論のための補助モデルを用いた最適多点関節復号法

Optimized Multi-Token Joint Decoding with Auxiliary Model for LLM Inference ( http://arxiv.org/abs/2407.09722v2 )

ライセンス: Link先を確認
Zongyue Qin, Ziniu Hu, Zifan He, Neha Prakriya, Jason Cong, Yizhou Sun, (参考訳) 大規模言語モデル(LLM)は様々なタスクにまたがって顕著な成功を収めてきたが、その推論プロセスは各デコードステップにおける単一トーケン生成により、かなりの時間とエネルギー要求によって妨げられている。 投機的復号化のような従来の手法は、各ステップごとに複数のトークンを生成することで、これらの非効率性を緩和するが、各トークンは、その単一トークン分布によって依然として生成され、有効性を向上することなく速度を向上する。 対照的に、我々の研究は推論速度を同時に向上し、出力効率を向上させる。 我々は,各繰り返しにおける関節分布から複数のトークンを生成するマルチトークン共同復号法(MTJD)について検討し,理論的には難易度を低減し,タスク性能を向上する。 しかし、MTJDは複数のトークンの結合分布からサンプリングするコストが高い。 MTJD を高速化する新しいフレームワークである Multi-token Assisted Decoding (MTAD) を導入する。 MTADは、より小さな補助モデルを利用して、より大きなモデルの結合分布を近似し、この近似の精度を保証するだけでなく、従来の投機的復号よりも復号効率を向上させる検証機構を組み込んだ。 理論的には、MTADが正確なMTJDと有界誤差を密接に近似していることが示される。 Llama-2 と OPT モデルを用いた実験的な評価により、MTAD は通常のシングルトーケンサンプリングに比べてパープレキシティを 21.2% 削減し、ダウンストリーム性能を向上させることが明らかとなった。 さらにMTADは1.42倍のスピードアップを実現し、従来の投機的復号法よりも1.54倍少ないエネルギーを消費する。 これらの結果から, MTADは, 効率と効率を両立させ, より持続的かつ高性能なLCMの展開を促進できることを示す。

Large language models (LLMs) have achieved remarkable success across diverse tasks, yet their inference processes are hindered by substantial time and energy demands due to single-token generation at each decoding step. While previous methods such as speculative decoding mitigate these inefficiencies by producing multiple tokens per step, each token is still generated by its single-token distribution, thereby enhancing speed without improving effectiveness. In contrast, our work simultaneously enhances inference speed and improves the output effectiveness. We consider multi-token joint decoding (MTJD), which generates multiple tokens from their joint distribution at each iteration, theoretically reducing perplexity and enhancing task performance. However, MTJD suffers from the high cost of sampling from the joint distribution of multiple tokens. Inspired by speculative decoding, we introduce multi-token assisted decoding (MTAD), a novel framework designed to accelerate MTJD. MTAD leverages a smaller auxiliary model to approximate the joint distribution of a larger model, incorporating a verification mechanism that not only ensures the accuracy of this approximation, but also improves the decoding efficiency over conventional speculative decoding. Theoretically, we demonstrate that MTAD closely approximates exact MTJD with bounded error. Empirical evaluations using Llama-2 and OPT models ranging from 13B to 70B parameters across various tasks reveal that MTAD reduces perplexity by 21.2% and improves downstream performance compared to standard single-token sampling. Furthermore, MTAD achieves a 1.42x speed-up and consumes 1.54x less energy than conventional speculative decoding methods. These results highlight MTAD's ability to make multi-token joint decoding both effective and efficient, promoting more sustainable and high-performance deployment of LLMs.
翻訳日:2024-11-08 21:54:45 公開日:2024-10-02
# CLIP-Guided Generative Networks for Transferable Targeted Adversarial Attacks

CLIP-Guided Generative Networks for Transferable Targeted Adversarial Attacks ( http://arxiv.org/abs/2407.10179v3 )

ライセンス: Link先を確認
Hao Fang, Jiawei Kong, Bin Chen, Tao Dai, Hao Wu, Shu-Tao Xia, (参考訳) トランスファー可能な敵攻撃は、ブラックボックスのシナリオで敵が特定した予測を出力するモデルを誤解させることを目的としている。 近年の研究では、ターゲットクラスごとにジェネレータを訓練し、高度に転送可能な摂動を発生させることで、複数のクラスを扱う場合の計算オーバーヘッドを大幅に増加させる、‘textit{single-target} 生成攻撃が導入された。 \textit{Multi-target} 攻撃は、複数のクラスに対して1つのクラス条件ジェネレータをトレーニングすることで、この問題に対処する。 しかし、ジェネレータは単にクラスラベルを条件として使うだけで、ターゲットクラスのリッチなセマンティック情報を活用できない。 この目的のために、我々は、CLIPのテキスト知識をジェネレータに組み込んでマルチターゲット攻撃を強化するために、 \textbf{C}LIP-guided \textbf{G}enerative \textbf{N}etwork with \textbf{C}ross-attention Module (CGNC)を設計する。 CGNCは、例えば、ResNet-152 から DenseNet-121 への成功率を 21.46 % 改善した。 さらに,既存の単一ターゲットメソッドを超越した単一クラス攻撃において,我々の手法をさらに強化するためのマスク付き微調整機構を提案する。

Transferable targeted adversarial attacks aim to mislead models into outputting adversary-specified predictions in black-box scenarios. Recent studies have introduced \textit{single-target} generative attacks that train a generator for each target class to generate highly transferable perturbations, resulting in substantial computational overhead when handling multiple classes. \textit{Multi-target} attacks address this by training only one class-conditional generator for multiple classes. However, the generator simply uses class labels as conditions, failing to leverage the rich semantic information of the target class. To this end, we design a \textbf{C}LIP-guided \textbf{G}enerative \textbf{N}etwork with \textbf{C}ross-attention modules (CGNC) to enhance multi-target attacks by incorporating textual knowledge of CLIP into the generator. Extensive experiments demonstrate that CGNC yields significant improvements over previous multi-target generative attacks, e.g., a 21.46\% improvement in success rate from ResNet-152 to DenseNet-121. Moreover, we propose a masked fine-tuning mechanism to further strengthen our method in attacking a single class, which surpasses existing single-target methods.
翻訳日:2024-11-08 21:43:45 公開日:2024-10-02
# 視覚プロンプティングによる順応型強化学習

Affordance-Guided Reinforcement Learning via Visual Prompting ( http://arxiv.org/abs/2407.10341v2 )

ライセンス: Link先を確認
Olivia Y. Lee, Annie Xie, Kuan Fang, Karl Pertsch, Chelsea Finn, (参考訳) 強化学習(RL)を備えたロボットは、報酬信号のみから幅広いスキルを学ぶことができる。 しかし、一般的な操作タスクに対して頑健で高密度な報酬信号を得ることは、依然として課題である。 既存の学習ベースのアプローチでは、タスク固有の報酬関数を学ぶために、成功と失敗の人間のデモのような重要なデータが必要である。 近年,ロボットの視覚的推論や操作作業のための粗いロボットの動きを生成できる大規模マルチモーダル基盤モデルも採用されている。 本研究では,視覚言語モデル(VLM)が生成した報酬を自律的RLに活用する手法である,キーポイントに基づく改善のためのアフォードランスガイダンス(KAGI)を提案する。 最先端のVLMは、ゼロショットのキーポイントを通じて、手頃な価格に関する印象的な推論を実証しています。 自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。 さらに,事前学習に使用するドメイン内デモの減少に対するKAGIのロバストさを実演し,オンラインファインチューニングのステップを35Kで実現した。 プロジェクトウェブサイト: https://sites.google.com/view/affordance-guided-rl

Robots equipped with reinforcement learning (RL) have the potential to learn a wide range of skills solely from a reward signal. However, obtaining a robust and dense reward signal for general manipulation tasks remains a challenge. Existing learning-based approaches require significant data, such as human demonstrations of success and failure, to learn task-specific reward functions. Recently, there is also a growing adoption of large multi-modal foundation models for robotics that can perform visual reasoning in physical contexts and generate coarse robot motions for manipulation tasks. Motivated by this range of capability, in this work, we present Keypoint-based Affordance Guidance for Improvements (KAGI), a method leveraging rewards shaped by vision-language models (VLMs) for autonomous RL. State-of-the-art VLMs have demonstrated impressive reasoning about affordances through keypoints in zero-shot, and we use these to define dense rewards that guide autonomous robotic learning. On real-world manipulation tasks specified by natural language descriptions, KAGI improves the sample efficiency of autonomous RL and enables successful task completion in 20K online fine-tuning steps. Additionally, we demonstrate the robustness of KAGI to reductions in the number of in-domain demonstrations used for pre-training, reaching similar performance in 35K online fine-tuning steps. Project website: https://sites.google.com/view/affordance-guided-rl
翻訳日:2024-11-08 21:43:45 公開日:2024-10-02
# 視覚プロンプティングによる順応型強化学習

Affordance-Guided Reinforcement Learning via Visual Prompting ( http://arxiv.org/abs/2407.10341v3 )

ライセンス: Link先を確認
Olivia Y. Lee, Annie Xie, Kuan Fang, Karl Pertsch, Chelsea Finn, (参考訳) 強化学習(RL)を備えたロボットは、報酬信号のみから幅広いスキルを学ぶことができる。 しかし、一般的な操作タスクに対して頑健で高密度な報酬信号を得ることは、依然として課題である。 既存の学習ベースのアプローチでは、タスク固有の報酬関数を学ぶために、成功と失敗の人間のデモのような重要なデータが必要である。 近年,ロボットの視覚的推論や操作作業のための粗いロボットの動きを生成できる大規模マルチモーダル基盤モデルも採用されている。 本研究では,視覚言語モデル(VLM)が生成した報酬を自律的RLに活用する手法である,キーポイントに基づく改善のためのアフォードランスガイダンス(KAGI)を提案する。 最先端のVLMは、ゼロショットのキーポイントを通じて、手頃な価格に関する印象的な推論を実証しています。 自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。 さらに,事前学習に使用するドメイン内デモの減少に対するKAGIのロバストさを実演し,オンラインファインチューニングのステップを35Kで実現した。 プロジェクトウェブサイト: https://sites.google.com/view/affordance-guided-rl

Robots equipped with reinforcement learning (RL) have the potential to learn a wide range of skills solely from a reward signal. However, obtaining a robust and dense reward signal for general manipulation tasks remains a challenge. Existing learning-based approaches require significant data, such as human demonstrations of success and failure, to learn task-specific reward functions. Recently, there is also a growing adoption of large multi-modal foundation models for robotics that can perform visual reasoning in physical contexts and generate coarse robot motions for manipulation tasks. Motivated by this range of capability, in this work, we present Keypoint-based Affordance Guidance for Improvements (KAGI), a method leveraging rewards shaped by vision-language models (VLMs) for autonomous RL. State-of-the-art VLMs have demonstrated impressive reasoning about affordances through keypoints in zero-shot, and we use these to define dense rewards that guide autonomous robotic learning. On real-world manipulation tasks specified by natural language descriptions, KAGI improves the sample efficiency of autonomous RL and enables successful task completion in 20K online fine-tuning steps. Additionally, we demonstrate the robustness of KAGI to reductions in the number of in-domain demonstrations used for pre-training, reaching similar performance in 35K online fine-tuning steps. Project website: https://sites.google.com/view/affordance-guided-rl
翻訳日:2024-11-08 21:43:45 公開日:2024-10-02
# LLMファインタニングの学習ダイナミクス

Learning Dynamics of LLM Finetuning ( http://arxiv.org/abs/2407.10490v2 )

ライセンス: Link先を確認
Yi Ren, Danica J. Sutherland, (参考訳) 学習力学は、特定のトレーニング例の学習がモデルの予測に他の例でどのように影響するかを説明するもので、ディープラーニングシステムの振る舞いを理解するための強力なツールを提供する。 本研究では,多種多様なファインタニングにおける大規模言語モデルの学習力学を,異なるポテンシャル応答間でどのように影響が蓄積されるかの段階的分解を解析することによって研究する。 我々のフレームワークは、命令チューニングと選好チューニングの両方のための一般的なアルゴリズムのトレーニングに関する多くの興味深い観察を均一に解釈することができる。 特に,特定の種類の幻覚が微調整後に強化されるという仮説的な説明を提案する。例えば,モデルが質問Aに答えるために質問Bの応答でフレーズや事実を使用する場合や,モデルが応答を生成する際に同様の簡単なフレーズを繰り返し続ける場合などである。 また、我々のフレームワークを拡張して、外部の直接選好最適化(DPO)において以前に観測された現象を説明するために、ユニークな「スクイーズ効果」を強調します。 このフレームワークはまた、オンプレミスのDPOや他のバリエーションの利点がどこから来ているのかについての洞察を提供する。 この分析は、LLMの微調整を理解するための新しい視点を提供するだけでなく、アライメント性能を改善するためのシンプルで効果的な方法ももたらした。

Learning dynamics, which describes how the learning of specific training examples influences the model's predictions on other examples, gives us a powerful tool for understanding the behavior of deep learning systems. We study the learning dynamics of large language models during different types of finetuning, by analyzing the step-wise decomposition of how influence accumulates among different potential responses. Our framework allows a uniform interpretation of many interesting observations about the training of popular algorithms for both instruction tuning and preference tuning. In particular, we propose a hypothetical explanation of why specific types of hallucination are strengthened after finetuning, e.g., the model might use phrases or facts in the response for question B to answer question A, or the model might keep repeating similar simple phrases when generating responses. We also extend our framework and highlight a unique "squeezing effect" to explain a previously observed phenomenon in off-policy direct preference optimization (DPO), where running DPO for too long makes even the desired outputs less likely. This framework also provides insights into where the benefits of on-policy DPO and other variants come from. The analysis not only provides a novel perspective of understanding LLM's finetuning but also inspires a simple, effective method to improve alignment performance.
翻訳日:2024-11-08 21:32:38 公開日:2024-10-02
# グラディエントな輝きの相関が消える

Correlations Are Ruining Your Gradient Descent ( http://arxiv.org/abs/2407.10780v2 )

ライセンス: Link先を確認
Nasir Ahmad, (参考訳) ここでは、(自然)勾配降下、データデコレーション、およびバックプロパゲーションの近似手法のトピックを共通して議論する。 自然勾配降下は、最も急勾配の方向を示す勾配ベクトルが、損失景観の局所曲率を考慮することにより、どのように改善されるかを照らしている。 この観点を拡張し、ニューラルネットワークの自然な勾配に照らされた問題を完全解くためには、ニューラルネットワークのすべての層におけるノード応答を含む任意の線形変換におけるデータの相関が、モデルのパラメータ間の非正規的関係を引き起こすことを認識する必要がある。 これを解決するには、ニューラルネットワークの各個々の層における入力をデコレーションする方法が必要である。 本稿では,ノード出力のデコリレーションと白化のために提案された一連の手法について述べるとともに,これらを拡張し,分散コンピューティングや計算神経科学に特に有用な新しい手法を提案する。 多層ニューラルネットワーク内でのデコリレーションを実装することで、バックプロパゲーションによるトレーニングが著しく急増しただけでなく、過去に破滅的に失敗したバックプロパゲーションの既存の近似も、その正確性と収束速度に大きく寄与していることを示すことができる。 これは、これまで捨てられていた近似勾配降下法、アナログおよびニューロモルフィックハードウェアのトレーニングアプローチ、および脳におけるデコリレーションプロセスの有効性と有用性に関する潜在的洞察の経路を提供する可能性がある。

Herein the topics of (natural) gradient descent, data decorrelation, and approximate methods for backpropagation are brought into a common discussion. Natural gradient descent illuminates how gradient vectors, pointing at directions of steepest descent, can be improved by considering the local curvature of loss landscapes. We extend this perspective and show that to fully solve the problem illuminated by natural gradients in neural networks, one must recognise that correlations in the data at any linear transformation, including node responses at every layer of a neural network, cause a non-orthonormal relationship between the model's parameters. To solve this requires a method for decorrelating inputs at each individual layer of a neural network. We describe a range of methods which have been proposed for decorrelation and whitening of node output, and expand on these to provide a novel method specifically useful for distributed computing and computational neuroscience. Implementing decorrelation within multi-layer neural networks, we can show that not only is training via backpropagation sped up significantly but also existing approximations of backpropagation, which have failed catastrophically in the past, benefit significantly in their accuracy and convergence speed. This has the potential to provide a route forward for approximate gradient descent methods which have previously been discarded, training approaches for analogue and neuromorphic hardware, and potentially insights as to the efficacy and utility of decorrelation processes in the brain.
翻訳日:2024-11-08 21:32:38 公開日:2024-10-02
# EfficientQAT: 大規模言語モデルの効率的な量子化学習

EfficientQAT: Efficient Quantization-Aware Training for Large Language Models ( http://arxiv.org/abs/2407.11062v2 )

ライセンス: Link先を確認
Mengzhao Chen, Wenqi Shao, Peng Xu, Jiahao Wang, Peng Gao, Kaipeng Zhang, Ping Luo, (参考訳) 大規模言語モデル(LLM)は、現代の自然言語処理と人工知能において重要である。 しかし、それらは重要なメモリ要件を管理する上での課題に直面している。 量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減するソリューションを提供するが、かなりのトレーニングリソースのために現実的ではない。 そこで本研究では,より有効なQATアルゴリズムであるEfficient Quantization-Aware Training (EfficientQAT)を提案する。 EfficientQATは、すべてのパラメータ(Block-AP)のブロックワイドトレーニングと、量子化パラメータ(E2E-QP)のエンドツーエンドトレーニングの2つのフェーズを含む。 我々の知る限り、Block-APは、ブロックワイズで全てのパラメータを直接訓練できる最初の方法であり、最適化時に解空間を拡大することにより、低ビットシナリオの精度損失を低減する。 E2E-QPは、量子化パラメータ(ステップサイズ)をエンドツーエンドにのみ訓練し、全てのサブモジュール間の相互作用を考慮することにより、量子化モデルの性能をさらに向上させる。 EfficientQATは、ベースLLM、命令調整LDM、マルチモーダルLDMなど、様々な量子化ビットで7Bから70Bのスケールで、従来の量子化手法よりも優れていることを示した。 例えば、EfficientQATは、1つのA100-80GB GPU上の2ビットのLlama-2-70Bモデルを41時間で取得し、全精度(69.48 vs. 72.41)と比較して3ポイント未満の精度で分解する。 コードはhttps://github.com/OpenGVLab/EfficientQAT.comで入手できる。

Large language models (LLMs) are crucial in modern natural language processing and artificial intelligence. However, they face challenges in managing their significant memory requirements. Although quantization-aware training (QAT) offers a solution by reducing memory consumption through low-bit representations with minimal accuracy loss, it is impractical due to substantial training resources. To address this, we propose Efficient Quantization-Aware Training (EfficientQAT), a more feasible QAT algorithm. EfficientQAT involves two consecutive phases: Block-wise training of all parameters (Block-AP) and end-to-end training of quantization parameters (E2E-QP). To the best of our knowledge, Block-AP is the first method to enable direct training of all parameters in a block-wise manner, reducing accuracy loss in low-bit scenarios by enhancing the solution space during optimization. E2E-QP then trains only the quantization parameters (step sizes) end-to-end, further improving the performance of quantized models by considering interactions among all sub-modules. Extensive experiments demonstrate that EfficientQAT outperforms previous quantization methods across a range of models, including base LLMs, instruction-tuned LLMs, and multimodal LLMs, with scales from 7B to 70B parameters at various quantization bits. For instance, EfficientQAT obtains a 2-bit Llama-2-70B model on a single A100-80GB GPU in 41 hours, with less than 3 points accuracy degradation compared to the full precision (69.48 vs. 72.41). Code is available at https://github.com/OpenGVLab/EfficientQAT.
翻訳日:2024-11-08 21:21:36 公開日:2024-10-02
# DreamCatalyst: 編集可能性とアイデンティティ保存の制御による高速かつ高品質な3D編集

DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation ( http://arxiv.org/abs/2407.11394v2 )

ライセンス: Link先を確認
Jiwook Kim, Seonho Lee, Jaeyo Shin, Jiho Choi, Hyunjung Shim, (参考訳) SDS(Score distillation sample)は, テキスト駆動型3次元編集作業において, 3次元一貫した編集に拡散モデルを活用する効果的なフレームワークとして登場した。 しかし、既存のSDSベースの3D編集手法では、長いトレーニング時間に悩まされ、低品質な結果が得られる。 この性能劣化の根本原因は拡散モデルのサンプリング力学との矛盾である。 この矛盾に対処することで、SDSをデータ空間からのサンプリングによる3次元編集のための拡散逆過程として扱うことができる。 対照的に、既存の手法では拡散モデルを用いてスコア関数をネーティブに蒸留する。 これらの知見から,これらのサンプリングダイナミクスをSDSフレームワークで検討する新しいフレームワークであるDreamCatalystを提案する。 具体的には,DreamCatalystの最適化プロセスを用いて,編集作業における拡散逆過程を近似し,拡散サンプリングダイナミックスと整合する。 その結果、DreamCatalystはトレーニング時間を短縮し、編集品質を向上させることに成功した。 提案手法は,(1)ニューラルラジアンスフィールド(NeRF)シーンを編集する高速モードと,(2)従来のNeRF編集手法の約23倍の速さで編集する高品質モードの2つのモードを提供する。 特に、我々の高品質モードは、スピードと品質の両面で現在の最先端のNeRF編集方法よりも優れています。 DreamCatalyst は最先端の 3D Gaussian Splatting (3DGS) 編集方法を超え、効果的でモデルに依存しない 3D 編集ソリューションとしての地位を確立している。 より広範な結果については、プロジェクトのページを参照してください。

Score distillation sampling (SDS) has emerged as an effective framework in text-driven 3D editing tasks, leveraging diffusion models for 3D consistent editing. However, existing SDS-based 3D editing methods suffer from long training times and produce low-quality results. We identify that the root cause of this performance degradation is their conflict with the sampling dynamics of diffusion models. Addressing this conflict allows us to treat SDS as a diffusion reverse process for 3D editing via sampling from data space. In contrast, existing methods naively distill the score function using diffusion models. From these insights, we propose DreamCatalyst, a novel framework that considers these sampling dynamics in the SDS framework. Specifically, we devise the optimization process of our DreamCatalyst to approximate the diffusion reverse process in editing tasks, thereby aligning with diffusion sampling dynamics. As a result, DreamCatalyst successfully reduces training time and improves editing quality. Our method offers two modes: (1) a fast mode that edits Neural Radiance Fields (NeRF) scenes approximately 23 times faster than current state-of-the-art NeRF editing methods, and (2) a high-quality mode that produces superior results about 8 times faster than these methods. Notably, our high-quality mode outperforms current state-of-the-art NeRF editing methods in terms of both speed and quality. DreamCatalyst also surpasses the state-of-the-art 3D Gaussian Splatting (3DGS) editing methods, establishing itself as an effective and model-agnostic 3D editing solution. See more extensive results on our project page: https://dream-catalyst.github.io.
翻訳日:2024-11-08 21:10:26 公開日:2024-10-02
# 状態空間モデルによる時間的テスト時間適応

Temporal Test-Time Adaptation with State-Space Models ( http://arxiv.org/abs/2407.12492v2 )

ライセンス: Link先を確認
Mona Schirmer, Dan Zhang, Eric Nalisnick, (参考訳) トレーニングとテストデータの分散シフトは、デプロイされたモデルのライフサイクルにおいて必然的に避けられ、パフォーマンスが低下する。 テストサンプルにモデルを適用することは、パフォーマンスの低下を軽減するのに役立ちます。 しかし、ほとんどの試験時間適応法は、様々な分布シフトを未調査のまま残して、合成汚職シフトに焦点を当てている。 本稿では,時間とともに徐々に進化する分布シフトに着目し,既存の手法に共通するが,既存の手法では困難であることを示す。 そこで本研究では,最後の隠れ特徴集合における時間変動ダイナミクスを学習することにより,時間分布シフトに展開モデルを適用する確率的状態空間モデルSTADを提案する。 ラベルを必要とせずに、我々のモデルは動的分類ヘッドとして機能する時間進化型クラスプロトタイプを推論する。 実世界の時間分布シフトの実験を通して,本手法は小さなバッチサイズやラベルシフトを扱う上で優れていることを示す。

Distribution shifts between training and test data are inevitable over the lifecycle of a deployed model, leading to performance decay. Adapting a model on test samples can help mitigate this drop in performance. However, most test-time adaptation methods have focused on synthetic corruption shifts, leaving a variety of distribution shifts underexplored. In this paper, we focus on distribution shifts that evolve gradually over time, which are common in the wild but challenging for existing methods, as we show. To address this, we propose STAD, a probabilistic state-space model that adapts a deployed model to temporal distribution shifts by learning the time-varying dynamics in the last set of hidden features. Without requiring labels, our model infers time-evolving class prototypes that act as a dynamic classification head. Through experiments on real-world temporal distribution shifts, we show that our method excels in handling small batch sizes and label shift.
翻訳日:2024-11-08 20:36:48 公開日:2024-10-02
# 部分観測による予測的低ランク行列学習:混合投影ADMM

Predictive Low Rank Matrix Learning under Partial Observations: Mixed-Projection ADMM ( http://arxiv.org/abs/2407.13731v2 )

ライセンス: Link先を確認
Dimitris Bertsimas, Nicholas A. G. Johnson, (参考訳) 本研究では, 真基底行列に線形に依存する完全観測側情報の存在下で, 低階の仮定の下で部分的に観測された行列を学習する問題について検討する。 この問題は、統計学、オペレーションリサーチ、機械学習における中心的な問題であるマトリックスコンプリート問題の重要な一般化から成り、レコメンデーションシステム、信号処理、システム識別、画像デノーミングなどのアプリケーションで発生する。 この問題を最適化問題として定式化し, 得られた項目に対する再構成の適合性の強さと, サイド情報の予測能力とをバランスさせる目的を定式化する。 我々は、結果の最適化問題の混合射影再構成を導出し、強い半定値円錐緩和を示す。 興味のある問題に対する高品質な実現可能な解を生成する乗算器アルゴリズムの効率的でスケーラブルな交互方向法を設計する。 計算結果から, 提案アルゴリズムは, 平均79 %$低目標値, 90.1 %$低目標値, 90.1 %$ 低目標値で得られる解を, 合成データ上で最高のベンチマーク手法で得られた解よりも高い精度で出力することを示した。 我々のアルゴリズムのランタイムは、ベンチマークメソッドのランタイムと競合し、しばしば優れている。 我々のアルゴリズムは、$n = 10000$行と$m = 10000$列を1分以内で解くことができる。 大規模実世界のデータに対して,本アルゴリズムは,ベンチマーク手法よりも6,7 %=低い実行時間で,サンプルエラーを6,7 %=下げる解を生成する。

We study the problem of learning a partially observed matrix under the low rank assumption in the presence of fully observed side information that depends linearly on the true underlying matrix. This problem consists of an important generalization of the Matrix Completion problem, a central problem in Statistics, Operations Research and Machine Learning, that arises in applications such as recommendation systems, signal processing, system identification and image denoising. We formalize this problem as an optimization problem with an objective that balances the strength of the fit of the reconstruction to the observed entries with the ability of the reconstruction to be predictive of the side information. We derive a mixed-projection reformulation of the resulting optimization problem and present a strong semidefinite cone relaxation. We design an efficient, scalable alternating direction method of multipliers algorithm that produces high quality feasible solutions to the problem of interest. Our numerical results demonstrate that in the small rank regime ($k \leq 15$), our algorithm outputs solutions that achieve on average $79\%$ lower objective value and $90.1\%$ lower $\ell_2$ reconstruction error than the solutions returned by the best performing benchmark method on synthetic data. The runtime of our algorithm is competitive with and often superior to that of the benchmark methods. Our algorithm is able to solve problems with $n = 10000$ rows and $m = 10000$ columns in less than a minute. On large scale real world data, our algorithm produces solutions that achieve $67\%$ lower out of sample error than benchmark methods in $97\%$ less execution time.
翻訳日:2024-11-08 20:01:00 公開日:2024-10-02
# ナビエ-ストークの深層学習天気予報バックボーンと大気動態の比較と対比

Comparing and Contrasting Deep Learning Weather Prediction Backbones on Navier-Stokes and Atmospheric Dynamics ( http://arxiv.org/abs/2407.14129v2 )

ライセンス: Link先を確認
Matthias Karlbauer, Danielle C. Maddix, Abdul Fatir Ansari, Boran Han, Gaurav Gupta, Yuyang Wang, Andrew Stuart, Michael W. Mahoney, (参考訳) 深層学習天気予報(DLWP)モデルの開発における顕著な進歩は、従来の数値気象予報(NWP)モデルと競合する位置にある。 実際、U-Net、Transformer、Graph Neural Network(GNN)、Fourier Neural Operator(FNO)など、さまざまなバックボーンをベースとしたDLWPアーキテクチャが、大気状態を予測できる可能性を示している。 しかしながら、トレーニングプロトコルや予測地平線、データ選択の違いから、これらの手法やアーキテクチャのどれが天気予報や将来のモデル開発に最も適しているかは、いまだ不明である。 ここでは,最も顕著なDLWPモデルと背骨との比較と対比を行い,制御条件下での詳細な実験分析を行う。 合成2次元非圧縮性ナビエストークスと実世界の気象動態を予測してこれを達成した。 正確性、メモリ消費、実行時間の観点から、我々の結果は様々なトレードオフを示している。 例えば、合成データでは、FNOの良好な性能を観測し、実際のWeatherBenchデータセットでは、短距離から中距離の予測に対するConvLSTMとSwinTransformerの適合性を実証した。 365日間の長期にわたる気象観測のために、球面データ表現、すなわちGraphCastとSpherical FNOを定式化したアーキテクチャにおいて、優れた安定性と物理的健全性を観察する。 さらに、これらのモデルバックボーンのすべてが「飽和している」こと、すなわち、それらがいずれもいわゆるニューラルスケーリングを示さないことが、これらのモデルとその関連モデルに関する今後の研究にとって重要な方向を浮き彫りにしている。 コードはhttps://github.com/amazon-science/dlwp-benchmarkで公開されている。

Remarkable progress in the development of Deep Learning Weather Prediction (DLWP) models positions them to become competitive with traditional numerical weather prediction (NWP) models. Indeed, a wide number of DLWP architectures -- based on various backbones, including U-Net, Transformer, Graph Neural Network (GNN), and Fourier Neural Operator (FNO) -- have demonstrated their potential at forecasting atmospheric states. However, due to differences in training protocols, forecast horizons, and data choices, it remains unclear which (if any) of these methods and architectures are most suitable for weather forecasting and for future model development. Here, we step back and provide a detailed empirical analysis, under controlled conditions, comparing and contrasting the most prominent DLWP models, along with their backbones. We accomplish this by predicting synthetic two-dimensional incompressible Navier-Stokes and real-world global weather dynamics. In terms of accuracy, memory consumption, and runtime, our results illustrate various tradeoffs. For example, on synthetic data, we observe favorable performance of FNO; and on the real-world WeatherBench dataset, our results demonstrate the suitability of ConvLSTM and SwinTransformer for short-to-mid-ranged forecasts. For long-ranged weather rollouts of up to 365 days, we observe superior stability and physical soundness in architectures that formulate a spherical data representation, i.e., GraphCast and Spherical FNO. In addition, we observe that all of these model backbones "saturate," i.e., none of them exhibit so-called neural scaling, which highlights an important direction for future work on these and related models. The code is available at https://github.com/amazon-science/dlwp-benchmark.
翻訳日:2024-11-08 19:38:31 公開日:2024-10-02
# Longhorn: ステートスペースモデルはオンライン学習者の記憶に残るもの

Longhorn: State Space Models are Amortized Online Learners ( http://arxiv.org/abs/2407.14207v5 )

ライセンス: Link先を確認
Bo Liu, Rui Wang, Lemeng Wu, Yihao Feng, Peter Stone, Qiang Liu, (参考訳) 現代の大規模言語モデルは、次から次へと予測することでシーケンスモデリングに基づいて構築されている。 トランスフォーマーはシークエンス・モデリングの主要なアーキテクチャであり続けているが、シークエンス・長さにおける2次デコーディングの複雑さは大きな限界をもたらす。 ステートスペースモデル(SSM)は、訓練中に並列性を保ちながら線形復号効率を提供する競争上の選択肢である。 しかし、既存のほとんどのSSMは、ややアドホックに見える線形リカレンス設計に依存している。 本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。 このアプローチは、SSM設計と正確なオンライン学習目標の定式化を結びつけ、これらの目的を解いた状態遷移規則を導出する。 この知見に基づいて、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しい深層SSMアーキテクチャであるLonghornを導入する。 実験の結果、Longhornは標準シーケンスモデリングベンチマーク、言語モデリング、ビジョンタスクにおいて、Mambaモデルを含む最先端のSSMよりも優れていることがわかった。 具体的には、ロングホーンはマンバに比べて1.8倍の効率向上を達成し、推論中に最大16倍長いコンテキストを外挿することができる。

Modern large language models are built on sequence modeling via next-token prediction. While the Transformer remains the dominant architecture for sequence modeling, its quadratic decoding complexity in sequence length poses a major limitation. State-space models (SSMs) present a competitive alternative, offering linear decoding efficiency while maintaining parallelism during training. However, most existing SSMs rely on linear recurrence designs that appear somewhat ad hoc. In this work, we explore SSM design through the lens of online learning, conceptualizing SSMs as meta-modules for specific online learning problems. This approach links SSM design to formulating precise online learning objectives, with state transition rules derived from solving these objectives. Based on this insight, we introduce a novel deep SSM architecture, Longhorn, whose update resembles the closed-form solution for solving the online associative recall problem. Our experimental results show that Longhorn outperforms state-of-the-art SSMs, including the Mamba model, on standard sequence modeling benchmarks, language modeling, and vision tasks. Specifically, Longhorn achieves a 1.8x improvement in sample efficiency compared to Mamba, and can extrapolate over contexts that are up to 16x longer during inference.
翻訳日:2024-11-08 19:38:31 公開日:2024-10-02
# dMel: 音声トークン化をシンプルに

dMel: Speech Tokenization made Simple ( http://arxiv.org/abs/2407.15835v2 )

ライセンス: Link先を確認
He Bai, Tatiana Likhomanenko, Ruixiang Zhang, Zijin Gu, Zakaria Aldeneh, Navdeep Jaitly, (参考訳) 大規模言語モデルは、膨大なテキストデータに基づく自己教師付き事前学習を活用することで、自然言語処理に革命をもたらした。 この成功に触発された研究者らは、連続した音声信号を識別する複雑な音声トークン化法を研究し、言語モデリング技術が音声データに適用できるようにした。 しかし、既存のアプローチは意味(コンテンツ)トークンをモデル化し、音響情報を失う可能性があり、または音響トークンをモデル化し、意味(コンテンツ)情報の喪失を危険にさらす。 複数のトークン型を持つこともアーキテクチャを複雑にし、追加の事前トレーニングを必要とする。 本稿では,メルフィルタチャネルを離散強度ビンに分割することで,既存の音声トークン化手法よりも優れた単純な表現(dMel)が得られることを示す。 音声認識(ASR)と音声合成(TTS)の異なる音声認識手法を包括的に評価する。 本研究は,dMelが統合された枠組み内での両タスクの高性能化に有効であることを示し,音声とテキストの協調モデリングを効果的かつ効果的に行う方法について検討した。

Large language models have revolutionized natural language processing by leveraging self-supervised pretraining on vast textual data. Inspired by this success, researchers have investigated complicated speech tokenization methods to discretize continuous speech signals so that language modeling techniques can be applied to speech data. However, existing approaches either model semantic (content) tokens, potentially losing acoustic information, or model acoustic tokens, risking the loss of semantic (content) information. Having multiple token types also complicates the architecture and requires additional pretraining. Here we show that discretizing mel-filterbank channels into discrete intensity bins produces a simple representation (dMel), that performs better than other existing speech tokenization methods. Using an LM-style transformer architecture for speech-text modeling, we comprehensively evaluate different speech tokenization methods on speech recognition (ASR) and speech synthesis (TTS). Our results demonstrate the effectiveness of dMel in achieving high performance on both tasks within a unified framework, paving the way for efficient and effective joint modeling of speech and text.
翻訳日:2024-11-08 15:45:25 公開日:2024-10-02
# より精密なエッジ検出

More precise edge detections ( http://arxiv.org/abs/2407.19992v2 )

ライセンス: Link先を確認
Hao Shu, (参考訳) Image Edge Detection (ED) はコンピュータビジョンの基本的なタスクである。 EDアルゴリズムの性能はCNNモデルの導入によって大幅に改善されているが、現在のモデルでは特に低誤差許容距離しか許容されない場合、不満足な精度で悩まされている。 したがって、より正確な予測のためのモデルアーキテクチャは依然として調査が必要である。 一方、人間によって提供される避けられないノイズトレーニングデータは、入力がエッジマップ自身であっても満足のいくモデル予測につながる。 本稿では,より精密なEDモデルにカスケードスキップ密度ブロック(CSDB)を提案する。 提案モデルでは,複数のデータセット,特に平均精度(AP)におけるSOTA(State-of-the-art(SOTA)予測を高標準ベンチマークを用いて取得し,広範囲な実験により検証した。 また、モデルトレーニングにおいて、初めてノイズのないデータを使用できるような、トレーニング用データ拡張の新しい修正が採用され、モデル性能がさらに向上する。 相対的なPythonコードはhttps://github.com/Hao-B-Shu/SDPEDで見ることができる。

Image Edge detection (ED) is a base task in computer vision. While the performance of the ED algorithm has been improved greatly by introducing CNN-based models, current models still suffer from unsatisfactory precision rates especially when only a low error toleration distance is allowed. Therefore, model architecture for more precise predictions still needs an investigation. On the other hand, the unavoidable noise training data provided by humans would lead to unsatisfactory model predictions even when inputs are edge maps themselves, which also needs a solution. In this paper, more precise ED models are presented with cascaded skipping density blocks (CSDB). Our models obtain state-of-the-art(SOTA) predictions in several datasets, especially in average precision rate (AP), over a high-standard benchmark, which is confirmed by extensive experiments. Also, a novel modification on data augmentation for training is employed, which allows noiseless data to be employed in model training for the first time, and thus further improves the model performance. The relative Python codes can be found on https://github.com/Hao-B-Shu/SDPED.
翻訳日:2024-11-08 14:16:02 公開日:2024-10-02
# より精密なエッジ検出

More precise edge detections ( http://arxiv.org/abs/2407.19992v3 )

ライセンス: Link先を確認
Hao Shu, (参考訳) Image Edge Detection (ED) はコンピュータビジョンの基本的なタスクである。 EDアルゴリズムの性能はCNNモデルの導入によって大幅に改善されているが、現在のモデルでは特に低誤差許容距離しか許容されない場合、不満足な精度で悩まされている。 したがって、より正確な予測のためのモデルアーキテクチャは依然として調査が必要である。 一方、人間によって提供される避けられないノイズトレーニングデータは、入力がエッジマップ自身であっても満足のいくモデル予測につながる。 本稿では,より精密なEDモデルにカスケードスキップ密度ブロック(CSDB)を提案する。 提案モデルでは,複数のデータセット,特に平均精度(AP)におけるSOTA(State-of-the-art(SOTA)予測を高標準ベンチマークを用いて取得し,広範囲な実験により検証した。 また、モデルトレーニングにおいて、初めてノイズのないデータを使用できるような、トレーニング用データ拡張の新しい修正が採用され、モデル性能がさらに向上する。 相対的なPythonコードはhttps://github.com/Hao-B-Shu/SDPEDで見ることができる。

Image Edge detection (ED) is a base task in computer vision. While the performance of the ED algorithm has been improved greatly by introducing CNN-based models, current models still suffer from unsatisfactory precision rates especially when only a low error toleration distance is allowed. Therefore, model architecture for more precise predictions still needs an investigation. On the other hand, the unavoidable noise training data provided by humans would lead to unsatisfactory model predictions even when inputs are edge maps themselves, which also needs a solution. In this paper, more precise ED models are presented with cascaded skipping density blocks (CSDB). Our models obtain state-of-the-art(SOTA) predictions in several datasets, especially in average precision rate (AP), over a high-standard benchmark, which is confirmed by extensive experiments. Also, a novel modification on data augmentation for training is employed, which allows noiseless data to be employed in model training for the first time, and thus further improves the model performance. The relative Python codes can be found on https://github.com/Hao-B-Shu/SDPED.
翻訳日:2024-11-08 14:16:02 公開日:2024-10-02
# スーパートラスト:永続的なコントロールから相互信頼へと転換する基本的AIアライメント

Supertrust: Foundational AI alignment pivoting from permanent control to mutual trust ( http://arxiv.org/abs/2407.20208v2 )

ライセンス: Link先を確認
James M. Mazzu, (参考訳) 人類はいつか、私たちよりもはるかにインテリジェントなAIシステムを作るだろうと広く期待されている。 しかし、この問題は自己矛盾であるだけでなく、おそらく解決不可能である。 残念ながら、この問題を解決するための現在の制御ベースの戦略は、必然的に不信の危険な表現を埋め込んでいる。 もし超知能が人類を信用できないなら、安全管理に確実に従えるようには、完全には信用できないでしょう。 永久的なコントロールは私たちを安全に保つのに失敗するだけでなく、多くの恐れを生んだ絶滅イベントも引き起こすかもしれない。 したがって、制御による不信から基本的AIアライメントモデリングへの戦略的転換を提唱する論理的根拠が提示される。 人間の意図に対する不信をすでに表現している現在のAIにより、スーパートラストのメタストラテジーは、長期的な基礎的な不一致を防止し、超知能が本質的な信頼に基づくパターンによって駆動されることを確実にし、安全で保護的な共存をもたらす。

It's widely expected that humanity will someday create AI systems vastly more intelligent than us, leading to the unsolved alignment problem of "how to control superintelligence." However, this problem is not only self-contradictory but likely unsolvable. Unfortunately, current control-based strategies for solving it inevitably embed dangerous representations of distrust. If superintelligence can't trust humanity, then we can't fully trust it to reliably follow safety controls it can likely bypass. Not only will intended permanent control fail to keep us safe, but it may even trigger the extinction event many fear. A logical rationale is therefore presented that advocates a strategic pivot from control-induced distrust to foundational AI alignment modeling instinct-based representations of familial mutual trust. With current AI already representing distrust of human intentions, the Supertrust meta-strategy is proposed to prevent long-term foundational misalignment and ensure superintelligence is instead driven by intrinsic trust-based patterns, leading to safe and protective coexistence.
翻訳日:2024-11-08 14:16:02 公開日:2024-10-02
# 因果性誘導型自己適応表現による一般化型強化学習に向けて

Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations ( http://arxiv.org/abs/2407.20651v3 )

ライセンス: Link先を確認
Yupei Yang, Biwei Huang, Fan Feng, Xinyue Wang, Shikui Tu, Lei Xu, (参考訳) 汎用インテリジェンスには、タスク間の迅速な適応が必要です。 既存の強化学習(RL)法は一般化に進展したが、典型的にはソースとターゲットドメイン間の分布変化のみを仮定する。 本稿では,分布だけでなく,環境空間も変化するシナリオについて検討する。 例えば、CoinRun環境では、エージェントを簡単なレベルからトレーニングし、それらを今までにない新しい敵が存在する難易度に一般化します。 この課題に対処するために、我々はCSRと呼ばれる因果性誘導型自己適応表現に基づくアプローチを導入し、エージェントに動的に進化するタスクを効果的に一般化させる。 具体的には、RLシステム内の潜伏因果変数を特徴付けるために因果表現学習を用いる。 このようなコンパクトな因果表現は変数間の構造的関係を解明し、エージェントが環境の変化が空間の分布変化や変動に由来するかどうかを自律的に決定し、これらの変化を正確に特定することを可能にする。 次に、異なるシナリオの下で因果モデルを微調整する3段階の戦略を考案する。 実証実験により、CSRは少数のサンプルでターゲットドメインに効率よく適応し、シミュレーション環境、CartPole、CoinRun、Atariゲームなど、幅広いシナリオで最先端のベースラインを上回ります。

General intelligence requires quick adaption across tasks. While existing reinforcement learning (RL) methods have made progress in generalization, they typically assume only distribution changes between source and target domains. In this paper, we explore a wider range of scenarios where not only the distribution but also the environment spaces may change. For example, in the CoinRun environment, we train agents from easy levels and generalize them to difficulty levels where there could be new enemies that have never occurred before. To address this challenging setting, we introduce a causality-guided self-adaptive representation-based approach, called CSR, that equips the agent to generalize effectively across tasks with evolving dynamics. Specifically, we employ causal representation learning to characterize the latent causal variables within the RL system. Such compact causal representations uncover the structural relationships among variables, enabling the agent to autonomously determine whether changes in the environment stem from distribution shifts or variations in space, and to precisely locate these changes. We then devise a three-step strategy to fine-tune the causal model under different scenarios accordingly. Empirical experiments show that CSR efficiently adapts to the target domains with only a few samples and outperforms state-of-the-art baselines on a wide range of scenarios, including our simulated environments, CartPole, CoinRun and Atari games.
翻訳日:2024-11-08 14:16:02 公開日:2024-10-02
# スパース・リワード環境に対するブラックボックスメタ学習固有の報酬

Black box meta-learning intrinsic rewards for sparse-reward environments ( http://arxiv.org/abs/2407.21546v2 )

ライセンス: Link先を確認
Octavio Pappalardo, Rodrigo Ramele, Juan Miguel Santos, (参考訳) 過去10年間の深い強化学習の成功と進歩にもかかわらず、幅広い応用を妨げるいくつかの課題が残っている。 改善すべき基本的な側面には、データ効率、一般化能力、スパース・リワード環境での学習能力などがある。 メタラーニングは、学習アルゴリズムのコンポーネントを最適化して望ましい特徴を満たすことによって、これらの問題を解決するための有望なアプローチとして現れてきた。 さらに、アルゴリズムの探索能力を高めるために本質的な報酬の使用について、様々な研究がなされている。 本研究では,RLエージェントが受信した学習信号がメタラーニングによってどのように改善されるかを検討する。 焦点は、メタグラディエントの使用に依存しないフレームワークの下でのメタ学習固有の報酬に焦点を当てている。 我々は,この手法をメタ学習の利点関数と外因性報酬を用いて分析・比較する。 開発したアルゴリズムは、パラメトリックおよび非パラメトリックな変動を伴う連続制御タスクの分布に基づいて評価され、その評価タスクに利用できる報酬はスパースのみである。

Despite the successes and progress of deep reinforcement learning over the last decade, several challenges remain that hinder its broader application. Some fundamental aspects to improve include data efficiency, generalization capability, and ability to learn in sparse-reward environments, which often require human-designed dense rewards. Meta-learning has emerged as a promising approach to address these issues by optimizing components of the learning algorithm to meet desired characteristics. Additionally, a different line of work has extensively studied the use of intrinsic rewards to enhance the exploration capabilities of algorithms. This work investigates how meta-learning can improve the training signal received by RL agents. The focus is on meta-learning intrinsic rewards under a framework that doesn't rely on the use of meta-gradients. We analyze and compare this approach to the use of extrinsic rewards and a meta-learned advantage function. The developed algorithms are evaluated on distributions of continuous control tasks with both parametric and non-parametric variations, and with only sparse rewards accessible for the evaluation tasks.
翻訳日:2024-11-08 13:40:32 公開日:2024-10-02
# Gemma 2: 実用規模でオープン言語モデルを改善する

Gemma 2: Improving Open Language Models at a Practical Size ( http://arxiv.org/abs/2408.00118v3 )

ライセンス: Link先を確認
Gemma Team, Morgane Riviere, Shreya Pathak, Pier Giuseppe Sessa, Cassidy Hardin, Surya Bhupatiraju, Léonard Hussenot, Thomas Mesnard, Bobak Shahriari, Alexandre Ramé, Johan Ferret, Peter Liu, Pouya Tafti, Abe Friesen, Michelle Casbon, Sabela Ramos, Ravin Kumar, Charline Le Lan, Sammy Jerome, Anton Tsitsulin, Nino Vieillard, Piotr Stanczyk, Sertan Girgin, Nikola Momchev, Matt Hoffman, Shantanu Thakoor, Jean-Bastien Grill, Behnam Neyshabur, Olivier Bachem, Alanna Walton, Aliaksei Severyn, Alicia Parrish, Aliya Ahmad, Allen Hutchison, Alvin Abdagic, Amanda Carl, Amy Shen, Andy Brock, Andy Coenen, Anthony Laforge, Antonia Paterson, Ben Bastian, Bilal Piot, Bo Wu, Brandon Royal, Charlie Chen, Chintu Kumar, Chris Perry, Chris Welty, Christopher A. Choquette-Choo, Danila Sinopalnikov, David Weinberger, Dimple Vijaykumar, Dominika Rogozińska, Dustin Herbison, Elisa Bandy, Emma Wang, Eric Noland, Erica Moreira, Evan Senter, Evgenii Eltyshev, Francesco Visin, Gabriel Rasskin, Gary Wei, Glenn Cameron, Gus Martins, Hadi Hashemi, Hanna Klimczak-Plucińska, Harleen Batra, Harsh Dhand, Ivan Nardini, Jacinda Mein, Jack Zhou, James Svensson, Jeff Stanway, Jetha Chan, Jin Peng Zhou, Joana Carrasqueira, Joana Iljazi, Jocelyn Becker, Joe Fernandez, Joost van Amersfoort, Josh Gordon, Josh Lipschultz, Josh Newlan, Ju-yeong Ji, Kareem Mohamed, Kartikeya Badola, Kat Black, Katie Millican, Keelin McDonell, Kelvin Nguyen, Kiranbir Sodhia, Kish Greene, Lars Lowe Sjoesund, Lauren Usui, Laurent Sifre, Lena Heuermann, Leticia Lago, Lilly McNealus, Livio Baldini Soares, Logan Kilpatrick, Lucas Dixon, Luciano Martins, Machel Reid, Manvinder Singh, Mark Iverson, Martin Görner, Mat Velloso, Mateo Wirth, Matt Davidow, Matt Miller, Matthew Rahtz, Matthew Watson, Meg Risdal, Mehran Kazemi, Michael Moynihan, Ming Zhang, Minsuk Kahng, Minwoo Park, Mofi Rahman, Mohit Khatwani, Natalie Dao, Nenshad Bardoliwalla, Nesh Devanathan, Neta Dumai, Nilay Chauhan, Oscar Wahltinez, Pankil Botarda, Parker Barnes, Paul Barham, Paul Michel, Pengchong Jin, Petko Georgiev, Phil Culliton, Pradeep Kuppala, Ramona Comanescu, Ramona Merhej, Reena Jana, Reza Ardeshir Rokni, Rishabh Agarwal, Ryan Mullins, Samaneh Saadat, Sara Mc Carthy, Sarah Cogan, Sarah Perrin, Sébastien M. R. Arnold, Sebastian Krause, Shengyang Dai, Shruti Garg, Shruti Sheth, Sue Ronstrom, Susan Chan, Timothy Jordan, Ting Yu, Tom Eccles, Tom Hennigan, Tomas Kocisky, Tulsee Doshi, Vihan Jain, Vikas Yadav, Vilobh Meshram, Vishal Dharmadhikari, Warren Barkley, Wei Wei, Wenming Ye, Woohyun Han, Woosuk Kwon, Xiang Xu, Zhe Shen, Zhitao Gong, Zichuan Wei, Victor Cotruta, Phoebe Kirk, Anand Rao, Minh Giang, Ludovic Peran, Tris Warkentin, Eli Collins, Joelle Barral, Zoubin Ghahramani, Raia Hadsell, D. Sculley, Jeanine Banks, Anca Dragan, Slav Petrov, Oriol Vinyals, Jeff Dean, Demis Hassabis, Koray Kavukcuoglu, Clement Farabet, Elena Buchatskaya, Sebastian Borgeaud, Noah Fiedel, Armand Joulin, Kathleen Kenealy, Robert Dadashi, Alek Andreev, (参考訳) 本稿では、Gemma 2を紹介します。これは、20億から27億のパラメータのスケールで、軽量で最先端のオープンモデルのGemmaファミリに新たに追加されたものです。 本稿では,トランスフォーマーアーキテクチャにいくつかの技術的変更を加え,例えば,局所的言語的注意(Beltagy et al , 2020a)とグループクエリ的注意(Ainslie et al , 2023)をインターリーブする。 また、次のトークン予測の代わりに、2Bおよび9Bモデルを知識蒸留(Hinton et al , 2015)で訓練する。 結果として得られたモデルは、そのサイズで最高のパフォーマンスを提供し、さらに2~3倍の大きさのモデルに対して、競争力のある代替手段を提供する。 すべてのモデルをコミュニティにリリースします。

In this work, we introduce Gemma 2, a new addition to the Gemma family of lightweight, state-of-the-art open models, ranging in scale from 2 billion to 27 billion parameters. In this new version, we apply several known technical modifications to the Transformer architecture, such as interleaving local-global attentions (Beltagy et al., 2020a) and group-query attention (Ainslie et al., 2023). We also train the 2B and 9B models with knowledge distillation (Hinton et al., 2015) instead of next token prediction. The resulting models deliver the best performance for their size, and even offer competitive alternatives to models that are 2-3 times bigger. We release all our models to the community.
翻訳日:2024-11-08 13:40:31 公開日:2024-10-02
# 強い地域性を探る : 量子国家差別体制以降

Exploring strong locality : Quantum state discrimination regime and beyond ( http://arxiv.org/abs/2408.01860v2 )

ライセンス: Link先を確認
Subrata Bera, Atanu Bhunia, Indranil Biswas, Indrani Chattopadhyay, Debasis Sarkar, (参考訳) 局所的にアクセス可能な情報から局所的に隠されたエンビロンへの切り替えの信念に基づき,Bandyopadhyay et al[Phys. A 104, L050201 (2021)]において,隠された非局所性活性化の概念が最近強調されている。 彼らは、ある局所的に区別可能な純粋量子状態の集合が、直交保存局所測定(OPLMs)によって、確実性のある局所的に区別不可能な集合に変換できることを実証した。 この変換は、以前に局所的にアクセス可能であったにもかかわらず、集合を局所的にアクセス不能にする。 この現象は隠れた非局所性の活性化として定義される。 本稿では、$(2m+1) \otimes 2 \otimes (2m+1)$システム内の局所微分可能集合のクラスを2つ提示する。 1つのクラスは局所的な操作によって非局所性を明らかにするが、もう1つのクラスは共同測定を必要とする。 後者のクラスは非局所的な操作に依存して非局所性を示すため、明らかに非局所性のレベルが低く、従って第一級よりもより局所的であると見なすことができる。 この分析は、量子状態判別の枠組みの中でこれらの異なる局所現象の間のニュアンスな相互作用を解明することによって、より強い局所性の顕在化を示す。 さらに、データ隠蔽の文脈におけるそれらの重要な応用についても検討する。 さらに、'emph{``strong local" という集合の概念を導入し、様々なアクティヴァブルな集合と比較し、局所性の観点からの違いを強調する。

Based on the conviction of switching information from locally accessible to locally hidden environs, the concept of hidden nonlocality activation has recently been highlighted by Bandyopadhyay et al. in [Phys. Rev. A 104, L050201 (2021)]. They have demonstrated that a certain locally distinguishable set of pure quantum states can be transformed into a locally indistinguishable set with certainty through orthogonality preserving local measurements (OPLMs). This transformation makes the set locally inaccessible, despite being locally accessible before. This phenomenon is defined as the activation of hidden nonlocality. In this paper, we present two classes of locally distinguishable sets within $(2m+1) \otimes 2 \otimes (2m+1)$ systems. One class reveals nonlocality through local operations, whereas the other requires joint measurements for it. As the later class depends on nonlocal operations to exhibit nonlocality, it arguably has a lower degree of nonlocality, and accordingly, can be considered as more local compared to the first class. This analysis exhibits a stronger manifestation of locality by elucidating the nuanced interplay between these distinct local phenomena within the framework of quantum state discrimination. Furthermore, we also explore their significant applications in the context of data hiding. Additionally, we introduce the concept of \emph{``strong local"} set and compare it with various activatable sets, highlighting differences in terms of locality.
翻訳日:2024-11-08 13:07:08 公開日:2024-10-02
# ジェネレーティブ通信によるゼロショットObjectNavの改善

Improving Zero-Shot ObjectNav with Generative Communication ( http://arxiv.org/abs/2408.01877v3 )

ライセンス: Link先を確認
Vishnu Sashank Dorbala, Vishnu Dutt Sharma, Pratap Tokekar, Dinesh Manocha, (参考訳) 本稿では,ナビゲーション支援に利用可能な環境パーセプションを活用することを目的とした,ゼロショットObjectNavの改良手法を提案する。 私たちのアプローチは、接地エージェントが制限され、時には障害のあるビューを持つ可能性があることを考慮に入れています。 我々の定式化は、対象物を含むグローバルな視野を持つ補助的オーバーヘッドエージェントと、難解な視野を持つ地上エージェントとの間のジェネレーティブ・コミュニケーション(GC)を奨励し、どちらも視覚言語翻訳のための視覚言語モデル(VLM)を備えている。 この補助装置では、接地エージェントが目標に向かってアクションを実行する前に、実施エージェントが環境情報を伝達する。 目標とグローバルな視点を持つオーバーヘッドエージェントにもかかわらず,非支援ベースライン上での完全協調支援スキームの性能低下(OSR-13%,SPL-13%)に留意する。 対照的に、接地剤が独立した探索行動を維持する選択的補助スキームは、10%のOSRと7.65%のSPL改善を示す。 ナビゲーション性能を説明するため,独特の特徴のGCを分析し,幻覚と協調の存在を定量化する。 具体的には,頭上エージェントがまだ移動していないときに対話中に行動を実行したと仮定し,ナビゲーション性能との強い相関性に留意する。 我々は実世界の実験を行い、ObjectNavのパフォーマンスを向上させるために、素早い微調整を通して幻覚を緩和する定性的な例を示す。

We propose a new method for improving zero-shot ObjectNav that aims to utilize potentially available environmental percepts for navigational assistance. Our approach takes into account that the ground agent may have limited and sometimes obstructed view. Our formulation encourages Generative Communication (GC) between an assistive overhead agent with a global view containing the target object and the ground agent with an obfuscated view; both equipped with Vision-Language Models (VLMs) for vision-to-language translation. In this assisted setup, the embodied agents communicate environmental information before the ground agent executes actions towards a target. Despite the overhead agent having a global view with the target, we note a drop in performance (-13% in OSR and -13% in SPL) of a fully cooperative assistance scheme over an unassisted baseline. In contrast, a selective assistance scheme where the ground agent retains its independent exploratory behaviour shows a 10% OSR and 7.65% SPL improvement. To explain navigation performance, we analyze the GC for unique traits, quantifying the presence of hallucination and cooperation. Specifically, we identify the novel linguistic trait of preemptive hallucination in our embodied setting, where the overhead agent assumes that the ground agent has executed an action in the dialogue when it is yet to move, and note its strong correlation with navigation performance. We conduct real-world experiments and present some qualitative examples where we mitigate hallucinations via prompt finetuning to improve ObjectNav performance.
翻訳日:2024-11-08 13:07:08 公開日:2024-10-02
# 不確実性認識強化学習のための一般化ガウス時間差誤差

Generalized Gaussian Temporal Difference Error for Uncertainty-aware Reinforcement Learning ( http://arxiv.org/abs/2408.02295v2 )

ライセンス: Link先を確認
Seyeon Kim, Joonhun Lee, Namhoon Cho, Sungjun Han, Wooseop Hwang, (参考訳) 従来の不確実性認識時間差(TD)学習法は、通常、TDエラーに対するゼロ平均ガウス分布を含む、単純化された仮定に依存する。 このような過度な単純化は、不正確なエラー表現と妥協された不確実性推定につながる可能性がある。 本稿では,離散制御と連続制御の両方に適用可能な,深層強化学習におけるガウス的誤りモデリングの新しい枠組みを提案する。 本フレームワークは,高次モーメント,特にカルトシスを付加することにより,誤差分布モデリングの柔軟性を向上させる。 一般ガウス分布(GGD)の形状パラメータがアレターの不確実性に与える影響について検討し,不確かさと形状パラメータの逆関係を示す閉形式表現を提供する。 さらに,GGDを完全に活用する理論的な重み付け手法を提案する。 疫学的な不確実性に対処するため,偏りの低減とカルトシスを考慮したバッチ逆分散重み付けを改良し,ロバスト性を向上した。 政策勾配アルゴリズムを用いた大規模な実験評価は,本手法の一貫性のある有効性を示し,大幅な性能向上を示した。

Conventional uncertainty-aware temporal difference (TD) learning methods often rely on simplistic assumptions, typically including a zero-mean Gaussian distribution for TD errors. Such oversimplification can lead to inaccurate error representations and compromised uncertainty estimation. In this paper, we introduce a novel framework for generalized Gaussian error modeling in deep reinforcement learning, applicable to both discrete and continuous control settings. Our framework enhances the flexibility of error distribution modeling by incorporating additional higher-order moment, particularly kurtosis, thereby improving the estimation and mitigation of data-dependent noise, i.e., aleatoric uncertainty. We examine the influence of the shape parameter of the generalized Gaussian distribution (GGD) on aleatoric uncertainty and provide a closed-form expression that demonstrates an inverse relationship between uncertainty and the shape parameter. Additionally, we propose a theoretically grounded weighting scheme to fully leverage the GGD. To address epistemic uncertainty, we enhance the batch inverse variance weighting by incorporating bias reduction and kurtosis considerations, resulting in improved robustness. Extensive experimental evaluations using policy gradient algorithms demonstrate the consistent efficacy of our method, showcasing significant performance improvements.
翻訳日:2024-11-08 12:55:51 公開日:2024-10-02
# 医用画像セグメンテーションにおけるアウト・オブ・ディストリビューション検出のための次元低減と最近近傍

Dimensionality Reduction and Nearest Neighbors for Improving Out-of-Distribution Detection in Medical Image Segmentation ( http://arxiv.org/abs/2408.02761v3 )

ライセンス: Link先を確認
McKell Woodland, Nihil Patel, Austin Castelo, Mais Al Taie, Mohamed Eltaher, Joshua P. Yung, Tucker J. Netherton, Tiffany L. Calderone, Jessica I. Sanchez, Darrel W. Cleere, Ahmed Elsaiey, Nakul Gupta, David Victor, Laura Beretta, Ankit B. Patel, Kristy K. Brock, (参考訳) 臨床的にデプロイされたディープラーニングベースのセグメンテーションモデルは、トレーニングディストリビューション外のデータで失敗することが知られている。 臨床医はセグメンテーションをレビューするが、ほとんどの場合、これらのモデルはうまく機能する傾向にあり、自動化バイアスが悪化する可能性がある。 したがって、推測による分布外画像の検出は、このモデルが失敗する可能性があると臨床医に警告することが重要である。 この研究は、T1強調MRIとCTで肝臓を分画した4つのSwin UNETRとnnU-netモデルのボトルネック特性にMahalanobis(MD)ポストホックを適用した。 主成分分析または一様多様体近似および投影によりボトルネック特性の次元を小さくすることで、モデルが失敗した画像は高い性能と最小の計算負荷で検出された。 さらに、この研究は、近距離KNN(K-th Nears distance)であるMDの非パラメトリックな代替品を探索した。 KNNは、生のボトルネック機能と平均的なボトルネック機能の両方に適用されたとき、MDよりもスケーラビリティとパフォーマンスを大幅に改善した。

Clinically deployed deep learning-based segmentation models are known to fail on data outside of their training distributions. While clinicians review the segmentations, these models tend to perform well in most instances, which could exacerbate automation bias. Therefore, detecting out-of-distribution images at inference is critical to warn the clinicians that the model likely failed. This work applied the Mahalanobis distance (MD) post hoc to the bottleneck features of four Swin UNETR and nnU-net models that segmented the liver on T1-weighted magnetic resonance imaging and computed tomography. By reducing the dimensions of the bottleneck features with either principal component analysis or uniform manifold approximation and projection, images the models failed on were detected with high performance and minimal computational load. In addition, this work explored a non-parametric alternative to the MD, a k-th nearest neighbors distance (KNN). KNN drastically improved scalability and performance over MD when both were applied to raw and average-pooled bottleneck features.
翻訳日:2024-11-08 12:55:50 公開日:2024-10-02
# 複雑系の閉ループ拡散制御

Closed-loop Diffusion Control of Complex Physical Systems ( http://arxiv.org/abs/2408.03124v2 )

ライセンス: Link先を確認
Long Wei, Haodong Feng, Yuchen Yang, Ruiqi Feng, Peiyan Hu, Xiang Zheng, Tao Zhang, Dixia Fan, Tailin Wu, (参考訳) 複雑な物理系の制御問題は、科学と工学に幅広い応用がある。 従来の研究では、拡散モデルに基づく生成的制御手法がこれらの問題を解決する上で大きな利点をもたらすことが示されている。 しかし、既存の生成制御手法は、効率的な制御に不可欠な閉ループ設定に拡張した場合、性能と効率の両面で課題に直面している。 本稿では,物理系制御(CL-DiffPhyCon)のための効率的な閉ループ拡散法を提案する。 CL-DiffPhyConは、異なる物理時間ステップに非同期なdenoisingフレームワークを用いることで、サンプリング時に計算コストを大幅に削減した環境からリアルタイムフィードバックに条件付けられた制御信号を生成する。 さらに、DDIMのような高速サンプリング技術を導入することで、制御プロセスをさらに加速することができる。 CL-DiffPhyConを1次元バーガースの方程式制御と2次元非圧縮性流体制御の2つのタスクで評価した。 その結果,CL-DiffPhyConはサンプリング効率が大幅に向上し,優れた制御性能が得られた。

The control problems of complex physical systems have broad applications in science and engineering. Previous studies have shown that generative control methods based on diffusion models offer significant advantages for solving these problems. However, existing generative control approaches face challenges in both performance and efficiency when extended to the closed-loop setting, which is essential for effective control. In this paper, we propose an efficient Closed-Loop Diffusion method for Physical systems Control (CL-DiffPhyCon). By employing an asynchronous denoising framework for different physical time steps, CL-DiffPhyCon generates control signals conditioned on real-time feedback from the environment with significantly reduced computational cost during sampling. Additionally, the control process could be further accelerated by incorporating fast sampling techniques, such as DDIM. We evaluate CL-DiffPhyCon on two tasks: 1D Burgers' equation control and 2D incompressible fluid control. The results demonstrate that CL-DiffPhyCon achieves superior control performance with significant improvements in sampling efficiency.
翻訳日:2024-11-08 12:44:50 公開日:2024-10-02
# 量子ビットと量子場理論の相互作用におけるエネルギー変化とランダウアーの原理

Energy change and Landauer's principle in the interaction between qubit and quantum field theory ( http://arxiv.org/abs/2408.03729v2 )

ライセンス: Link先を確認
Hao Xu, (参考訳) 我々は、量子ビットと量子場理論の相互作用の下でのシステム進化の一般的な記述を第2次摂動まで与え、これは光-物質相互作用の単純化モデルとも呼ばれる。 結果は、回転と反回転の波用語、刺激された吸収と放出に対応する前者、そして後者はウンルー効果と反ウンルー効果に分類される。 我々は、量子ビットの還元密度行列だけでなく、量子場理論によって得られるバックリアクションを環境として得る。 その結果、量子場理論のエネルギー変動は、軌道と量子ビットの初期状態、線形場作用素と二次場作用素の期待値、時間次積作用素と関連していることが示された。 クォービットが加速運動中であるとき、従来のアンルー効果は真空状態が「温度」を持つ原因となり、ランダウアーの原理の妥当性に疑問を呈する。 ランダウアーの原理が依然として運動状態に当てはまることを証明している。

We give a general description of the system evolution under the interaction between qubit and quantum field theory up to the second order perturbation, which is also referred to as the simplified model of light-matter interaction. The results are classified into rotating and counter-rotating wave terms, the former corresponding to stimulated absorption and emission, and the latter to Unruh and anti-Unruh effects. We obtain not only the reduced density matrix of the qubit, but also the backreaction obtained by quantum field theory as the environment. The result shows that the energy variation of the quantum field theory is related to trajectory and the initial state of the qubit, the expectation values of the linear and quadratic field operators, and the temporal order product operator. When the qubit is in accelerated motion, the conventional Unruh effect causes the vacuum state to possess a "temperature", which raises some doubts about the validity of Landauer's principle. We prove that Landauer's principle still holds for any state of motion.
翻訳日:2024-11-08 12:33:46 公開日:2024-10-02
# ArtVLM:ビジョンベースプレフィックス言語モデリングによる属性認識

ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling ( http://arxiv.org/abs/2408.04102v2 )

ライセンス: Link先を確認
William Yicheng Zhu, Keren Ye, Junjie Ke, Jiahui Yu, Leonidas Guibas, Peyman Milanfar, Feng Yang, (参考訳) オブジェクトから視覚的属性を認識したり遠ざけたりすることは、多くのコンピュータビジョンアプリケーションの基礎となっている。 CLIPのような大きな視覚言語表現は、ゼロショットのオブジェクト認識というタスクをほとんど解決していなかったが、対照的に学習した視覚言語表現は、オブジェクト属性の依存関係を効果的にキャプチャできないため、ゼロショットの視覚属性認識は依然として課題である。 本稿では,この弱点を対象とし,新しい属性認識のための文生成に基づく検索定式化を提案する。 1) 対象-属性関係を条件付き確率グラフとして明示的にモデル化し、認識問題を依存性に敏感な言語-モデリング問題に変換する。 2) 画像・物体・属性関係の知識を自然に抽出し, 属性認識に利用することを目的として, 大規模な事前学習型視覚・言語モデル(VLM)を適用した。 具体的には、画像上で認識される各属性に対して、画像上のオブジェクトに対する属性の関係をコードする短い文を生成する視覚条件付き確率を測定する。 文の要素を画像にグローバルにアライメントすることで、コントラッシブ検索と異なり、生成検索は文中のオブジェクトや属性の順序や依存性に敏感である。 我々は、生成的検索が2つの視覚的推論データセット、VAW(Visual Attribute in the Wild)と、新たに提案したVisual Genome Attribute Ranking(VGARank)において、コントラスト的検索を一貫して上回ることを示した。

Recognizing and disentangling visual attributes from objects is a foundation to many computer vision applications. While large vision language representations like CLIP had largely resolved the task of zero-shot object recognition, zero-shot visual attribute recognition remains a challenge because CLIP's contrastively-learned vision-language representation cannot effectively capture object-attribute dependencies. In this paper, we target this weakness and propose a sentence generation-based retrieval formulation for attribute recognition that is novel in 1) explicitly modeling a to-be-measured and retrieved object-attribute relation as a conditional probability graph, which converts the recognition problem into a dependency-sensitive language-modeling problem, and 2) applying a large pretrained Vision-Language Model (VLM) on this reformulation and naturally distilling its knowledge of image-object-attribute relations to use towards attribute recognition. Specifically, for each attribute to be recognized on an image, we measure the visual-conditioned probability of generating a short sentence encoding the attribute's relation to objects on the image. Unlike contrastive retrieval, which measures likelihood by globally aligning elements of the sentence to the image, generative retrieval is sensitive to the order and dependency of objects and attributes in the sentence. We demonstrate through experiments that generative retrieval consistently outperforms contrastive retrieval on two visual reasoning datasets, Visual Attribute in the Wild (VAW), and our newly-proposed Visual Genome Attribute Ranking (VGARank).
翻訳日:2024-11-08 12:22:45 公開日:2024-10-02
# ArtVLM:ビジョンベースプレフィックス言語モデリングによる属性認識

ArtVLM: Attribute Recognition Through Vision-Based Prefix Language Modeling ( http://arxiv.org/abs/2408.04102v3 )

ライセンス: Link先を確認
William Yicheng Zhu, Keren Ye, Junjie Ke, Jiahui Yu, Leonidas Guibas, Peyman Milanfar, Feng Yang, (参考訳) オブジェクトから視覚的属性を認識したり遠ざけたりすることは、多くのコンピュータビジョンアプリケーションの基礎となっている。 CLIPのような大きな視覚言語表現は、ゼロショットのオブジェクト認識というタスクをほとんど解決していなかったが、対照的に学習した視覚言語表現は、オブジェクト属性の依存関係を効果的にキャプチャできないため、ゼロショットの視覚属性認識は依然として課題である。 本稿では,この弱点を対象とし,新しい属性認識のための文生成に基づく検索定式化を提案する。 1) 対象-属性関係を条件付き確率グラフとして明示的にモデル化し、認識問題を依存性に敏感な言語-モデリング問題に変換する。 2) 画像・物体・属性関係の知識を自然に抽出し, 属性認識に利用することを目的として, 大規模な事前学習型視覚・言語モデル(VLM)を適用した。 具体的には、画像上で認識される各属性に対して、画像上のオブジェクトに対する属性の関係をコードする短い文を生成する視覚条件付き確率を測定する。 文の要素を画像にグローバルにアライメントすることで、コントラッシブ検索と異なり、生成検索は文中のオブジェクトや属性の順序や依存性に敏感である。 我々は、生成的検索が2つの視覚的推論データセット、VAW(Visual Attribute in the Wild)と、新たに提案したVisual Genome Attribute Ranking(VGARank)において、コントラスト的検索を一貫して上回ることを示した。

Recognizing and disentangling visual attributes from objects is a foundation to many computer vision applications. While large vision language representations like CLIP had largely resolved the task of zero-shot object recognition, zero-shot visual attribute recognition remains a challenge because CLIP's contrastively-learned vision-language representation cannot effectively capture object-attribute dependencies. In this paper, we target this weakness and propose a sentence generation-based retrieval formulation for attribute recognition that is novel in 1) explicitly modeling a to-be-measured and retrieved object-attribute relation as a conditional probability graph, which converts the recognition problem into a dependency-sensitive language-modeling problem, and 2) applying a large pretrained Vision-Language Model (VLM) on this reformulation and naturally distilling its knowledge of image-object-attribute relations to use towards attribute recognition. Specifically, for each attribute to be recognized on an image, we measure the visual-conditioned probability of generating a short sentence encoding the attribute's relation to objects on the image. Unlike contrastive retrieval, which measures likelihood by globally aligning elements of the sentence to the image, generative retrieval is sensitive to the order and dependency of objects and attributes in the sentence. We demonstrate through experiments that generative retrieval consistently outperforms contrastive retrieval on two visual reasoning datasets, Visual Attribute in the Wild (VAW), and our newly-proposed Visual Genome Attribute Ranking (VGARank).
翻訳日:2024-11-08 12:22:45 公開日:2024-10-02
# SVDと疑似絡み合いエントロピーについて

Musings on SVD and pseudo entanglement entropies ( http://arxiv.org/abs/2408.06791v2 )

ライセンス: Link先を確認
Pawel Caputa, Souradeep Purkayastha, Abhigyan Saha, Piotr Sułkowski, (参考訳) 擬エントロピーとSVDエントロピーは、選択後を含む絡み合いエントロピーの一般化である。 本研究では、量子状態の空間上の測度としてそれらの性質を解析し、その余剰が、ある特徴を共有し、ある場合において計量として特定できる2つの状態(前選択および後選択)の違いの有用な特徴づけを提供すると主張している。 特に、チャーン・サイモンズ理論(英語版)によるトポロジカルなリンクと関連づけられた連結連結状態に適用する場合、これらの一般化エントロピーとその超越は、対応するリンク間の差の新たな定量化を与える。 チャーン・サイモンズ理論のレベルにおけるそのようなエントロピー測度の依存性を議論し、特定のリンク状態に対するそれらの漸近値を決定する。 擬似エントロピーの想像的部分は敏感であり,結び目のキラリティーを診断できることがわかった。 また、一般化されたSU(2)およびSU(1,1)コヒーレント状態やGHZおよびW状態のような、より単純な量子力学系に対するこれらのエントロピー測度の性質についても考察する。

Pseudo-entropy and SVD entropy are generalizations of the entanglement entropy that involve post-selection. In this work we analyze their properties as measures on the spaces of quantum states and argue that their excess provides useful characterization of a difference between two (i.e. pre-selected and post-selected) states, which shares certain features and in certain cases can be identified as a metric. In particular, when applied to link complement states that are associated to topological links via Chern-Simons theory, these generalized entropies and their excess provide a novel quantification of a difference between corresponding links. We discuss the dependence of such entropy measures on the level of Chern-Simons theory and determine their asymptotic values for certain link states. We find that imaginary part of the pseudo-entropy is sensitive to, and can diagnose chirality of knots. We also consider properties of these entropy measures for simpler quantum mechanical systems, such as generalized SU(2) and SU(1,1) coherent states, and tripartite GHZ and W states.
翻訳日:2024-11-08 07:53:35 公開日:2024-10-02
# スペクトル共振による共同グラフ再生と特徴デノーミング

Joint Graph Rewiring and Feature Denoising via Spectral Resonance ( http://arxiv.org/abs/2408.07191v2 )

ライセンス: Link先を確認
Jonas Linkerhägner, Cheng Shi, Ivan Dokmanić, (参考訳) グラフ学習では、グラフとノードの特徴の両方が、ノードラベルに関するノイズの多い情報を含んでいる。 本稿では、下流ノード分類グラフニューラルネット(GNN)の性能を向上させるために、グラフを接続して特徴を復調するアルゴリズムであるJDR(Joint Denoising and Rewiring)を提案する。 JDRはグラフの先頭の固有空間と特徴行列のアライメントを改善する。 関連する非凸最適化問題を大まかに解くために、複数のクラスと異なるレベルのホモフィリーまたはヘテロフィリーを持つ実世界のグラフデータセットを効率的に処理するヒューリスティックを提案する。 理論的には、JDRをスタイリングされた設定で正当化し、合成および実世界のグラフデータセットに関する広範な実験を通して、我々のアプローチの有効性を検証する。 その結果、JDRは、GNNを下流モデルとして、ノード分類における既存のリウィリング手法を一貫して上回っていることがわかった。

In graph learning the graph and the node features both contain noisy information about the node labels. In this paper we propose joint denoising and rewiring (JDR)--an algorithm to jointly rewire the graph and denoise the features, which improves the performance of downstream node classification graph neural nets (GNNs). JDR improves the alignment between the leading eigenspaces of graph and feature matrices. To approximately solve the associated non-convex optimization problem we propose a heuristic that efficiently handles real-world graph datasets with multiple classes and different levels of homophily or heterophily. We theoretically justify JDR in a stylized setting and verify the effectiveness of our approach through extensive experiments on synthetic and real-world graph datasets. The results show that JDR consistently outperforms existing rewiring methods on node classification using GNNs as downstream models.
翻訳日:2024-11-08 07:53:35 公開日:2024-10-02
# 複雑ダイナミクスを用いた視覚神経活動からの潜時表現構築のための時間依存型VAE

Time-Dependent VAE for Building Latent Representations from Visual Neural Activity with Complex Dynamics ( http://arxiv.org/abs/2408.07908v2 )

ライセンス: Link先を確認
Liwei Huang, ZhengYu Ma, Liutao Yu, Huihui Zhou, Yonghong Tian, (参考訳) 潜在変数モデル(LVM)を用いた高品質な表現を求めて、神経活動と行動または感覚刺激の本質的な相関を明らかにすることには、多くの関心が寄せられている。 ほとんどの研究は、明確な行動トレースを制御する運動神経活動の分析に重点を置いており、自然界に従わない方法で神経の時間的関係をモデル化している。 視覚脳領域の研究では、自然主義的な視覚刺激は高次元で時間依存的であり、神経活動は複雑なダイナミクスを示す。 このような状況に対処するため,時間依存型分割型VAE(TiDeSPL-VAE)を提案する。 我々は、現在の視覚刺激によって引き起こされる神経活動の成分に対応する内容潜時表現と、生物の内部状態に影響される神経力学に対応するスタイル潜時表現を規定する。 時間とともに2つの潜伏表現を段階的に生成するために、時間に依存する条件分布を構築するための状態因子を導入し、それらを形作るための自己教師付きコントラスト学習を適用する。 これにより、TiDeSPL-VAEは複雑な視覚神経活動を効果的に分析し、自然な方法で時間的関係をモデル化することができる。 我々は,マウス視覚野の合成データと神経データに対する代替手法との比較を行った。 その結果,本モデルは自然主義的なシーン/ムーブメントにおいて最高のデコード性能を得るだけでなく,視覚刺激に関連性のある潜在表現を構築できることが示される。

Seeking high-quality representations with latent variable models (LVMs) to reveal the intrinsic correlation between neural activity and behavior or sensory stimuli has attracted much interest. Most work has focused on analyzing motor neural activity that controls clear behavioral traces and has modeled neural temporal relationships in a way that does not conform to natural reality. For studies of visual brain regions, naturalistic visual stimuli are high-dimensional and time-dependent, making neural activity exhibit intricate dynamics. To cope with such conditions, we propose Time-Dependent Split VAE (TiDeSPL-VAE), a sequential LVM that decomposes visual neural activity into two latent representations while considering time dependence. We specify content latent representations corresponding to the component of neural activity driven by the current visual stimulus, and style latent representations corresponding to the neural dynamics influenced by the organism's internal state. To progressively generate the two latent representations over time, we introduce state factors to construct conditional distributions with time dependence and apply self-supervised contrastive learning to shape them. By this means, TiDeSPL-VAE can effectively analyze complex visual neural activity and model temporal relationships in a natural way. We compare our model with alternative approaches on synthetic data and neural data from the mouse visual cortex. The results show that our model not only yields the best decoding performance on naturalistic scenes/movies but also extracts explicit neural dynamics, demonstrating that it builds latent representations more relevant to visual stimuli.
翻訳日:2024-11-08 07:40:14 公開日:2024-10-02
# 探索的最適停止:特異制御の定式化

Exploratory Optimal Stopping: A Singular Control Formulation ( http://arxiv.org/abs/2408.09335v2 )

ライセンス: Link先を確認
Jodi Dianetti, Giorgio Ferrari, Renyuan Xu, (参考訳) 本稿では,強化学習の観点から,連続時間と状態空間の最適停止問題について検討する。 まず、ランダムな停止時間を用いて停止問題を定式化し、決定者の制御を与えられた時間内に停止する確率で表す。 探索の促進と学習の促進を目的として,ランダム化された停止時間の累積残エントロピーを用いて,問題の正規化版を導入する。 正規化問題は、有限燃料による(n+1)次元退化特異確率制御の形を取る。 動的プログラミングの原理によってこの問題に対処し、ユニークな探索戦略を特定できる。 実オプション問題の特定の場合には、正規化問題に対する半明示的な解を導出し、エントロピー正則化の影響を評価し、消滅するエントロピー極限を分析する。 最後に,政策反復に基づく強化学習アルゴリズムを提案する。 本稿では,提案アルゴリズムの政策改善と政策収束結果について述べる。

This paper explores continuous-time and state-space optimal stopping problems from a reinforcement learning perspective. We begin by formulating the stopping problem using randomized stopping times, where the decision maker's control is represented by the probability of stopping within a given time--specifically, a bounded, non-decreasing, c\`adl\`ag control process. To encourage exploration and facilitate learning, we introduce a regularized version of the problem by penalizing it with the cumulative residual entropy of the randomized stopping time. The regularized problem takes the form of an (n+1)-dimensional degenerate singular stochastic control with finite-fuel. We address this through the dynamic programming principle, which enables us to identify the unique optimal exploratory strategy. For the specific case of a real option problem, we derive a semi-explicit solution to the regularized problem, allowing us to assess the impact of entropy regularization and analyze the vanishing entropy limit. Finally, we propose a reinforcement learning algorithm based on policy iteration. We show both policy improvement and policy convergence results for our proposed algorithm.
翻訳日:2024-11-08 07:07:05 公開日:2024-10-02
# ShortCircuit: AlphaZero駆動回路設計

ShortCircuit: AlphaZero-Driven Circuit Design ( http://arxiv.org/abs/2408.09858v2 )

ライセンス: Link先を確認
Dimitrios Tsaras, Antoine Grosnit, Lei Chen, Zhiyao Xie, Haitham Bou-Ammar, Mingxuan Yuan, (参考訳) チップ設計は、真理表のような関数記述から AND-Inverter Graphs (AIG) のようなブール回路を生成することに大きく依存している。 この生成操作は、論理合成において重要なプロセスであり、プライマリチップ設計段階である。 近年のディープラーニングの進歩は回路設計を加速することを目的としているが、これらの取り組みは合成以外のタスクに重点を置いており、従来のヒューリスティックな手法が停滞している。 本稿では,AIGの構造特性を活用し,効率的な宇宙探査を行う新しいトランスフォーマーアーキテクチャであるShortCircuitを紹介する。 ShortCircuitは、ディープネットワークを用いたエンド・ツー・エンドの論理回路の生成を試みる以前のアプローチとは対照的に、強化学習と教師付き学習を組み合わせた2相プロセスを用いて、見えない真理表への一般化を強化する。 また、指数関数的に大きい2つの状態空間と報酬空間を扱うためのAlphaZero変種を提案し、準最適設計の発見を可能にした。 モデルの生成性能を評価するため,20個の実世界の回路から500個の真理表を抽出する。 ShortCircuitは8入力テスト真理表の9,8 %$でAIGを生成し、回路サイズで最先端の論理合成ツールABCを18.62 %$で上回っている。

Chip design relies heavily on generating Boolean circuits, such as AND-Inverter Graphs (AIGs), from functional descriptions like truth tables. This generation operation is a key process in logic synthesis, a primary chip design stage. While recent advances in deep learning have aimed to accelerate circuit design, these efforts have mostly focused on tasks other than synthesis, and traditional heuristic methods have plateaued. In this paper, we introduce ShortCircuit, a novel transformer-based architecture that leverages the structural properties of AIGs and performs efficient space exploration. Contrary to prior approaches attempting end-to-end generation of logic circuits using deep networks, ShortCircuit employs a two-phase process combining supervised with reinforcement learning to enhance generalization to unseen truth tables. We also propose an AlphaZero variant to handle the double exponentially large state space and the reward sparsity, enabling the discovery of near-optimal designs. To evaluate the generative performance of our model , we extract 500 truth tables from a set of 20 real-world circuits. ShortCircuit successfully generates AIGs for $98\%$ of the 8-input test truth tables, and outperforms the state-of-the-art logic synthesis tool, ABC, by $18.62\%$ in terms of circuits size.
翻訳日:2024-11-08 06:55:48 公開日:2024-10-02
# 最短経路問題に対する量子アルゴリズムの進歩

Advances in quantum algorithms for the shortest path problem ( http://arxiv.org/abs/2408.10427v2 )

ライセンス: Link先を確認
Adam Wesołowski, Stephen Piddock, (参考訳) 無向重み付きグラフと2つの特別な頂点 $s$ と $t$ が与えられたとき、問題はそれらの間の最短経路を見つけることである。 我々は、構造化インスタンスの問題を解くために、隣接リストモデルに2つの有界エラー量子アルゴリズムを与える。 最初のアプローチは、量子フロー状態をサンプリングし、より小さな問題に対して古典的なアルゴリズムを実行することによって、元のグラフをスパース化することに基づいている。 クエリ複雑性は$\tilde{O}(l^2\sqrt{m})$で、$O(\log{n})$ spaceを使用する。 主な結果は、$O(\log{n})$ space を使用すれば $O(\log{n})$ space で最短経路を出力し、$O(l\log{n})$ space を使用すれば $\tilde{O}(\sqrt{lm})$ circuit depth に並列化できる分割および征服手順に基づく2番目のアプローチである。 後者では、2つの頂点間の経路が検出に要する時間内に見つかるかどうかというオープンな問題に対して、肯定的な答えで部分的に解決する。

Given an undirected, weighted graph, and two special vertices $s$ and $t$, the problem is to find the shortest path between them. We give two bounded-error quantum algorithms in the adjacency list model that solve the problem on structured instances. The first approach is based on sparsifying the original graph via sampling the quantum flow state and running a classical algorithm on the smaller problem. It has query complexity of $\tilde{O}(l^2\sqrt{m})$ and uses $O(\log{n})$ space, where $l$ is the length (or total weight, in case of weighted graphs) of the shortest $s$-$t$ path. The main result is the second approach which is based on a divide and conquer procedure that outputs the shortest path in $\tilde{O}(l\sqrt{m})$ steps when using $O(\log{n})$ space and can be parallelised to $\tilde{O}(\sqrt{lm})$ circuit depth when using $O(l\log{n})$ space. With the latter, we partially resolve with an affirmative answer the open problem of whether a path between two vertices can be found in the time required to detect it.
翻訳日:2024-11-08 06:44:48 公開日:2024-10-02
# GSLOC: 3Dガウススプラッティングによる効率的なカメラポスリファインメント

GSLoc: Efficient Camera Pose Refinement via 3D Gaussian Splatting ( http://arxiv.org/abs/2408.11085v2 )

ライセンス: Link先を確認
Changkun Liu, Shuai Chen, Yash Bhalgat, Siyan Hu, Ming Cheng, Zirui Wang, Victor Adrian Prisacariu, Tristan Braud, (参考訳) シーン表現として3D Gaussian Splatting(3DGS)を活用し,新しいテストタイムカメラポーズ改善フレームワークであるGSLocを提案する。 このフレームワークは、最先端の絶対ポーズ回帰とシーン座標回帰法の局所化精度を高める。 3DGSモデルは高品質な合成画像と深度マップを描画し、2D-3D対応の確立を容易にする。 GSLocは、RGBイメージを直接操作し、3DファウンデーションモデルであるMASt3Rを正確な2Dマッチングに利用することにより、特徴抽出器や記述器のトレーニングの必要性を排除している。 屋外環境に挑戦する際のモデルの堅牢性を改善するため、3DGSフレームワークに露出適応モジュールを組み込んだ。 これにより、単一のRGBクエリと粗い初期ポーズ推定が与えられた場合、GSLocは効率的なワンショットポーズ改善を可能にする。 提案手法は,屋内および屋外の視覚的ローカライゼーションベンチマークにおいて,NeRFに基づく主要な最適化手法を精度と実行時の両方で超越し,二つの屋内データセットに対して新たな最先端の精度を実現する。

We leverage 3D Gaussian Splatting (3DGS) as a scene representation and propose a novel test-time camera pose refinement framework, GSLoc. This framework enhances the localization accuracy of state-of-the-art absolute pose regression and scene coordinate regression methods. The 3DGS model renders high-quality synthetic images and depth maps to facilitate the establishment of 2D-3D correspondences. GSLoc obviates the need for training feature extractors or descriptors by operating directly on RGB images, utilizing the 3D foundation model, MASt3R, for precise 2D matching. To improve the robustness of our model in challenging outdoor environments, we incorporate an exposure-adaptive module within the 3DGS framework. Consequently, GSLoc enables efficient one-shot pose refinement given a single RGB query and a coarse initial pose estimation. Our proposed approach surpasses leading NeRF-based optimization methods in both accuracy and runtime across indoor and outdoor visual localization benchmarks, achieving new state-of-the-art accuracy on two indoor datasets.
翻訳日:2024-11-08 06:22:37 公開日:2024-10-02
# 長期連続予測のためのアンタングル依存符号化による簡易マンバ

Simplified Mamba with Disentangled Dependency Encoding for Long-Term Time Series Forecasting ( http://arxiv.org/abs/2408.12068v2 )

ライセンス: Link先を確認
Zixuan Weng, Jindong Han, Wenzhao Jiang, Hao Liu, (参考訳) 近年のディープラーニングの進歩は、長期時系列予測(LTSF)のための多くのモデルの開発につながっている。 しかし、ほとんどのアプローチは、時系列データに固有の信頼性と情報的依存関係を包括的に捉えることに苦慮している。 本稿では,予測精度の向上に不可欠な3つの重要な依存関係,すなわち時間次元における順序依存性と意味依存性,および変量次元における相互依存性を明確化し,正式に定義する。 それらの重要性にもかかわらず、これらの依存関係は既存のモデルで全体観的に見なされることは滅多にない。 さらに、これらの依存関係の不正なハンドリングは、予測性能を著しく損なう有害なノイズをもたらす可能性がある。 これらの課題に対処するため、LTSFのMambaの可能性を探り、それぞれ3つの依存関係をキャプチャする3つの重要な利点を強調した。 さらに、バニラ・マンバで使用される非線形活性化関数は、意味的にスパースな時系列データに対して冗長であることを示す。 そこで本研究では,不整合依存性符号化を持つ簡易マンバSAMBAを提案する。 具体的には、まずバニラ・マンバの非線形性を排除し、LTSFに適合させる。 そこで本稿では,時間と変動次元の干渉を最小限に抑えつつ,効率的な相互依存性モデリング機能を備えたアンタングル型依存性符号化手法を提案する。 デザインの正当化として厳密な理論も提供します。 9つの実世界のデータセットに対する大規模な実験は、最先端の予測モデルに対するSAMBAの有効性を示す。

Recent advances in deep learning have led to the development of numerous models for Long-term Time Series Forecasting (LTSF). However, most approaches still struggle to comprehensively capture reliable and informative dependencies inherent in time series data. In this paper, we identify and formally define three critical dependencies essential for improving forecasting accuracy: the order dependency and semantic dependency in the time dimension as well as cross-variate dependency in the variate dimension. Despite their significance, these dependencies are rarely considered holistically in existing models. Moreover, improper handling of these dependencies can introduce harmful noise that significantly impairs forecasting performance. To address these challenges, we explore the potential of Mamba for LTSF, highlighting its three key advantages to capture three dependencies, respectively. We further empirically observe that nonlinear activation functions used in vanilla Mamba are redundant for semantically sparse time series data. Therefore, we propose SAMBA, a Simplified Mamba with disentangled dependency encoding. Specifically, we first eliminate the nonlinearity of vanilla Mamba to make it more suitable for LTSF. Along this line, we propose a disentangled dependency encoding strategy to endow Mamba with efficient cross-variate dependency modeling capability while minimizing the interference between time and variate dimensions. We also provide rigorous theory as a justification for our design. Extensive experiments on nine real-world datasets demonstrate the effectiveness of SAMBA over state-of-the-art forecasting models.
翻訳日:2024-11-08 05:49:00 公開日:2024-10-02
# FIRST:信頼に値する蒸留を通じて信頼性の高い大規模言語モデルを教える

FIRST: Teach A Reliable Large Language Model Through Efficient Trustworthy Distillation ( http://arxiv.org/abs/2408.12168v2 )

ライセンス: Link先を確認
KaShun Shum, Minrui Xu, Jianshu Zhang, Zixin Chen, Shizhe Diao, Hanze Dong, Jipeng Zhang, Muhammad Omer Raza, (参考訳) 大規模言語モデル(LLM)は、私たちの日常生活でますます普及しており、LSMが信頼に値するものと期待されている。 近年、下流タスクの精度を大幅に向上させることで、モデルに実用的な使用法を適用する方法として、ファインチューニングが最も一般的な方法となっている。 精度が高いにもかかわらず、微調整は「微調整による誤校正」のため、まだ満足のいく信頼性には程遠いことがわかりました。 本稿では, 微調整モデルに誤校正が存在する理由と, 蒸留が問題を緩和する方法について検討する。 さらに,教師の知識のごく一部を利用して,信頼性の高い言語モデルを低コストで得るためのFIRST (Efficient Trustworthy Distillation) という新しい手法を提案する。 具体的には,蒸留における「集中知識」現象を同定し,計算負荷を大幅に削減する。 そして、学生に伝達する前に、この少数の集中知識の利用を最適化するために「信頼できる最大化」プロセスを適用する。 実験により,ドメイン内およびドメイン外の両方のシナリオにおいて,精度(+2.3%)と誤校正率(-10%)が平均で達成され,信頼性が向上したことを示す。

Large language models (LLMs) have become increasingly prevalent in our daily lives, leading to an expectation for LLMs to be trustworthy -- - both accurate and well-calibrated (the prediction confidence should align with its ground truth correctness likelihood). Nowadays, fine-tuning has become the most popular method for adapting a model to practical usage by significantly increasing accuracy on downstream tasks. Despite the great accuracy it achieves, we found fine-tuning is still far away from satisfactory trustworthiness due to "tuning-induced mis-calibration". In this paper, we delve deeply into why and how mis-calibration exists in fine-tuned models, and how distillation can alleviate the issue. Then we further propose a brand new method named Efficient Trustworthy Distillation (FIRST), which utilizes a small portion of teacher's knowledge to obtain a reliable language model in a cost-efficient way. Specifically, we identify the "concentrated knowledge" phenomenon during distillation, which can significantly reduce the computational burden. Then we apply a "trustworthy maximization" process to optimize the utilization of this small portion of concentrated knowledge before transferring it to the student. Experimental results demonstrate the effectiveness of our method, where better accuracy (+2.3%) and less mis-calibration (-10%) are achieved on average across both in-domain and out-of-domain scenarios, indicating better trustworthiness.
翻訳日:2024-11-08 05:49:00 公開日:2024-10-02
# 変換器は最小限の非パラメトリックインコンテキスト学習器である

Transformers are Minimax Optimal Nonparametric In-Context Learners ( http://arxiv.org/abs/2408.12186v2 )

ライセンス: Link先を確認
Juno Kim, Tai Nakamaki, Taiji Suzuki, (参考訳) 大規模言語モデルの文脈内学習(ICL)は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。 本稿では,統計的学習理論の観点からICLの有効性について検討する。 本研究では、ベソフ空間を含む一般関数空間からサンプリングされた非パラメトリック回帰タスクと、それぞれ$\gamma$-smoothクラスに基づいて、ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。 十分に訓練されたトランスフォーマーは、事前学習中に最も関連性の高い基底表現を符号化することで、文脈における最小限の最適推定リスクを達成し、改善できることを示す。 我々の分析は高次元データや逐次データにまで拡張し, 一般化のギャップである \emph{pretraining} と \emph{in-context} を区別する。 さらに,メタ学習者w.r.t.の情報理論の下限をタスク数とコンテキスト内例の両方に設定する。 これらの知見は, ICLにおけるタスク多様性と表現学習の役割を浮き彫りにした。

In-context learning (ICL) of large language models has proven to be a surprisingly effective method of learning a new task from only a few demonstrative examples. In this paper, we study the efficacy of ICL from the viewpoint of statistical learning theory. We develop approximation and generalization error bounds for a transformer composed of a deep neural network and one linear attention layer, pretrained on nonparametric regression tasks sampled from general function spaces including the Besov space and piecewise $\gamma$-smooth class. We show that sufficiently trained transformers can achieve -- and even improve upon -- the minimax optimal estimation risk in context by encoding the most relevant basis representations during pretraining. Our analysis extends to high-dimensional or sequential data and distinguishes the \emph{pretraining} and \emph{in-context} generalization gaps. Furthermore, we establish information-theoretic lower bounds for meta-learners w.r.t. both the number of tasks and in-context examples. These findings shed light on the roles of task diversity and representation learning for ICL.
翻訳日:2024-11-08 05:49:00 公開日:2024-10-02
# SQL-GEN: 合成データとモデルマージによるテキストからSQLへの変換ギャップのブリッジ

SQL-GEN: Bridging the Dialect Gap for Text-to-SQL Via Synthetic Data And Model Merging ( http://arxiv.org/abs/2408.12733v2 )

ライセンス: Link先を確認
Mohammadreza Pourreza, Ruoxi Sun, Hailong Li, Lesly Miculicich, Tomas Pfister, Sercan O. Arik, (参考訳) Text-to-SQLの最近の進歩は、BigQueryやPostgreSQLのようなSQL方言の多様な風景を無視して、SQLite方言に主に焦点を当てている。 この制限はSQLの構文と関数の多様性と、SQL固有のトレーニングデータの収集とキュレーションのコストによるものだ。 そこで我々はSQL-GENというSQL方言の高品質な合成訓練データを生成するフレームワークを紹介した。 SQL-GENは、テキスト-SQL間のパフォーマンスを大幅に改善し、既存のメソッドよりも最大で20倍の精度で実行することができる。 この性能向上は、大規模な人間注釈付きデータで訓練されたモデルとのギャップを狭める。 さらに、SQL-GENの合成データと人間の注釈データを組み合わせることで、最大5.6\%の改善がもたらされる。 単一モデル内で多言語機能を統合するために,方言間の共通知識を活用する新しいMixture-of-Experts(MoE)イニシャライゼーションを提案する。 提案手法は,方言特化モデルから自己注意層をマージし,方言特化キーワードを用いて専門家ゲートを初期化する。 これにより、複数のSQL方言に最適化された汎用モデルが実現され、シングルダイアレクトモデルよりも優れ、全体的なパフォーマンスが大幅に向上する。

Recent advances in Text-to-SQL have largely focused on the SQLite dialect, neglecting the diverse landscape of SQL dialects like BigQuery and PostgreSQL. This limitation is due to the diversity in SQL syntaxes and functions, along with the high cost of collecting and curating SQL-specific training data. To address this, we introduce SQL-GEN, a framework for generating high-quality synthetic training data for any SQL dialect, guided by readily available dialect-specific tutorials. SQL-GEN significantly improves cross-dialect Text-to-SQL performance, boosting execution accuracy by up to 20\% over existing methods. This performance gain narrows the gap with models trained on large-scale human-annotated data. Furthermore, combining synthetic data from SQL-GEN with human-annotated data yields additional improvements of up to 5.6\%. To unify multi-dialect capabilities within a single model, we propose a novel Mixture-of-Experts (MoE) initialization that leverages the shared knowledge across dialects. Our approach merges self-attention layers from dialect-specific models and initializes expert gates using dialect-specific keywords. This leads to a versatile model optimized for multiple SQL dialects, outperforming single-dialect models and significantly enhancing overall performance.
翻訳日:2024-11-08 05:37:29 公開日:2024-10-02
# DeTPP:ロバストな長距離イベント予測のためのオブジェクト検出の活用

DeTPP: Leveraging Object Detection for Robust Long-Horizon Event Prediction ( http://arxiv.org/abs/2408.13131v2 )

ライセンス: Link先を確認
Ivan Karpukhin, Andrey Savchenko, (参考訳) ロングホライゾンのイベント予測は、小売、金融、ヘルスケア、ソーシャルネットワークなど、さまざまな分野において重要である。 MTPP (Marked Temporal Point Processes) のような伝統的な手法は、しばしば将来の複数の事象を予測するために自己回帰モデルに依存している。 しかし、これらのモデルはしばしば、連続的あるいは反復的な出力に収束するなどの問題に悩まされ、その有効性と一般的な適用性が制限される。 これらの課題に対処するために,コンピュータビジョンからオブジェクト検出技術に触発された新しいアプローチであるDeTPP(Detection-based Temporal Point Processes)を導入する。 DeTPPはユニークなマッチングベースの損失関数を採用し、確実に予測可能なイベントを選択的に優先順位付けし、推論中の予測の正確性と多様性を改善する。 提案手法は,従来のMTPP法および次世代K法と比較して77%の相対的な改善を達成し,長期イベント予測における新たな最先端技術を確立した。 提案したハイブリッドアプローチは、大規模トランザクションデータセット上での次のイベント予測の精度を最大2.7%向上させる。 特に、DeTPPは推論の最も高速な方法の一つである。 DeTPPの実装はGitHubで公開されている。

Long-horizon event forecasting is critical across various domains, including retail, finance, healthcare, and social networks. Traditional methods, such as Marked Temporal Point Processes (MTPP), often rely on autoregressive models to predict multiple future events. However, these models frequently suffer from issues like converging to constant or repetitive outputs, which limits their effectiveness and general applicability. To address these challenges, we introduce DeTPP (Detection-based Temporal Point Processes), a novel approach inspired by object detection techniques from computer vision. DeTPP employs a unique matching-based loss function that selectively prioritizes reliably predictable events, improving the accuracy and diversity of predictions during inference. Our method establishes a new state-of-the-art in long-horizon event forecasting, achieving up to a 77% relative improvement over existing MTPP and next-K methods. The proposed hybrid approach enhances the accuracy of next event prediction by up to 2.7% on a large transactional dataset. Notably, DeTPP is also among the fastest methods for inference. The implementation of DeTPP is publicly available on GitHub.
翻訳日:2024-11-08 05:26:28 公開日:2024-10-02
# 超強結合レジームにおける回路QEDスペクトル : キャビティQEDとの差について

Circuit QED Spectra in the Ultrastrong Coupling Regime: How They Differ from Cavity QED ( http://arxiv.org/abs/2408.16558v2 )

ライセンス: Link先を確認
Samuel Napoli, Alberto Mercurio, Daniele Lamberto, Andrea Zappalà, Omar Di Stefano, Salvatore Savasta, (参考訳) キャビティ量子電磁力学(Cavity quantum Electrodynamics, QED)は、光子の量子の性質が関係している条件下で、共振器で満たされた放射と自然原子や他の公式に等価な量子励起との相互作用を研究する。 キャビティQEDで研究された現象は、超伝導人工原子と超伝導共振器におけるマイクロ波光子を用いても探索できる。 これらの回路QEDシステムは、天然の原子とは異なり、個々の人工原子と超強結合状態に達する可能性がある。 この状態において、光-物質結合強度は系の素共鳴周波数のかなりの部分に達する。 本稿では,LC共振器と相互作用するフラックス量子ビットからなる回路QEDシステムにおいて,非コヒーレントスペクトルとコヒーレントスペクトルの両方を慎重に解析する。 これらの系は、量子ラビモデルによって、対応する空洞QEDモデルとして効果的に記述できるが、出力ポートとシステムがどのように結合されているかによって、特異な特徴が見出され、超強結合状態において明らかになる。

Cavity quantum electrodynamics (QED) studies the interaction between resonator-confined radiation and natural atoms or other formally equivalent quantum excitations, under conditions where the quantum nature of photons is relevant. Phenomena studied in cavity QED can also be explored using superconducting artificial atoms and microwave photons in superconducting resonators. These circuit QED systems offer the possibility to reach the ultrastrong coupling regime with individual artificial atoms, unlike their natural counterparts. In this regime, the light-matter coupling strength reaches a considerable fraction of the bare resonance frequencies in the system. Here, we provide a careful analysis of both incoherent and coherent spectra in circuit QED systems consisting of a flux qubit interacting with an LC resonator. Despite these systems can be effectively described by the quantum Rabi model, as the corresponding cavity QED ones, we find distinctive features, depending on how the system is coupled to the output port, which become evident in the ultrastrong coupling regime.
翻訳日:2024-11-08 04:19:50 公開日:2024-10-02
# VisionTS:ビジュアル・マズード・オートエンコーダーは無料のゼロショット・タイム・シリーズ

VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters ( http://arxiv.org/abs/2408.17253v2 )

ライセンス: Link先を確認
Mouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu, (参考訳) ファウンデーションモデルは時系列予測(TSF)において有望なアプローチとして現れている。 既存のアプローチでは、大きな言語モデル(LLM)を再利用するか、大規模な時系列データセットを構築して、普遍的な予測のためのTSF基盤モデルを開発する。 しかし、これらの手法はドメイン間ギャップやドメイン内不均一性のために困難に直面している。 本稿では,リッチで高品質な自然画像からTSFファンデーションモデルを構築するための新しい道を探る。 私たちの重要な洞察は、ImageNetデータセットで事前トレーニングされた視覚マスク付きオートエンコーダが、自然に数値列予測器になり得るということです。 画像再構成タスクとしてTSFを再構成することにより、画像事前学習とTSF下流タスクのギャップを埋める。 驚くべきことに、時系列領域にさらなる適応がなければ、提案されたVisionTSは既存のTSFファンデーションモデルよりも優れたゼロショット予測性能を達成できる。 一時期の微調整によって、VisionTSは予測をさらに改善し、ほとんどのケースで最先端のパフォーマンスを達成することができる。 広範にわたる実験は、画像と実世界の時系列の固有の類似性を明らかにし、視覚モデルがTSFに「フリーランチ」を提供し、将来のモダリティ研究の可能性を強調することを示唆している。 私たちのコードはhttps://github.com/Keytoyze/VisionTS.comで公開されています。

Foundation models have emerged as a promising approach in time series forecasting (TSF). Existing approaches either repurpose large language models (LLMs) or build large-scale time series datasets to develop TSF foundation models for universal forecasting. However, these methods face challenges due to the severe cross-domain gap or in-domain heterogeneity. This paper explores a new road to building a TSF foundation model from rich, high-quality natural images. Our key insight is that a visual masked autoencoder, pre-trained on the ImageNet dataset, can naturally be a numeric series forecaster. By reformulating TSF as an image reconstruction task, we bridge the gap between image pre-training and TSF downstream tasks. Surprisingly, without further adaptation in the time-series domain, the proposed VisionTS could achieve superior zero-shot forecasting performance compared to existing TSF foundation models. With fine-tuning for one epoch, VisionTS could further improve the forecasting and achieve state-of-the-art performance in most cases. Extensive experiments reveal intrinsic similarities between images and real-world time series, suggesting visual models may offer a ``free lunch'' for TSF and highlight the potential for future cross-modality research. Our code is publicly available at https://github.com/Keytoyze/VisionTS.
翻訳日:2024-11-08 03:57:28 公開日:2024-10-02
# SORSA:大言語モデルの特異値と正規化正規化特異ベクトル適応

SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models ( http://arxiv.org/abs/2409.00055v3 )

ライセンス: Link先を確認
Yang Cao, (参考訳) 大規模言語モデル(LLM)の急速な進歩は、パラメータサイズが大幅に増加し、適応と微調整の課題が提示される。 パラメータ効率のよい微調整(PEFT)法は、下流タスクにLLMを効率的に適応するために広く用いられている。 本稿では,新しいPEFT法であるSORSA(Singular Values and Orthonormal Regularized Singular Vectors Adaptation)を提案する。 本稿では,パラメータの変動を特異値分解(SVD)によって解析し,SORSAのSVD面における変化を最小限に抑える上での優位性を議論し,分析する手法を提案する。 各SORSAアダプタは、トレーニング可能な主特異重量$W_p = U_p \Sigma_p V^\top_p$と、凍結された残留重量$W_r = U_r \Sigma_r V^\top_r$の2つの主要部分からなる。 これらの部分は、事前訓練された重量に対してSVDを実行することで初期化される。 さらに,正規正規化正規化器を実装・解析することで,条件数$W_p$を削減し,最適化をより効率的にすることができることを示した。 SORSAアダプタは推論中にマージすることができ、推論遅延を排除できる。 結局のところ、SORSAは、我々の実験において、PiSSAやLoRAよりも高速な収束を示す。 MATHベンチマークでは、SORSAを使用したLlama 2 7Bの精度は10.36%で、LoRA(5.50%)、全FT(7.22%)、PiSSA(7.44%)を上回った。 GSM-8Kベンチマークでは、SORSAは56.03%の精度を達成し、LoRA (42.30%)、全FT (49.05%)、PiSSA (53.07%)を上回った。 我々はSORSAがパラメータ効率の良い微調整の新しい視点を提供し、優れた性能を示すと結論付けた。 コードはhttps://github.com/Gunale0926/SORSAで公開されている。

The rapid advancement in large language models (LLMs) comes with a significant increase in their parameter size, presenting challenges for adaptation and fine-tuning. Parameter-efficient fine-tuning (PEFT) methods are widely used to adapt LLMs for downstream tasks efficiently. In this paper, we propose Singular Values and Orthonormal Regularized Singular Vectors Adaptation, or SORSA, a novel PEFT method. We introduce a method to analyze the variation of the parameters by performing singular value decomposition (SVD) and discuss and analyze SORSA's superiority in minimizing the alteration in the SVD aspect. Each SORSA adapter consists of two main parts: trainable principal singular weights $W_p = U_p \Sigma_p V^\top_p$, and frozen residual weights $W_r = U_r \Sigma_r V^\top_r$. These parts are initialized by performing SVD on pre-trained weights. Moreover, we implement and analyze an orthonormal regularizer, which we prove could decrease the condition number of $W_p$ and allows the optimization to be more efficient. SORSA adapters could be merged during inference, thus eliminating any inference latency. After all, SORSA shows a faster convergence than PiSSA and LoRA in our experiments. On the MATH benchmark, Llama 2 7B adapted using SORSA achieved 10.36% accuracy, outperforming LoRA (5.50%), Full FT (7.22%), and PiSSA (7.44%). On the GSM-8K benchmark, SORSA achieved 56.03% accuracy, surpassing LoRA (42.30%), Full FT (49.05%), and PiSSA (53.07%). We conclude that SORSA offers a new perspective on parameter-efficient fine-tuning, demonstrating remarkable performance. The code is available at https://github.com/Gunale0926/SORSA
翻訳日:2024-11-08 03:57:28 公開日:2024-10-02
# SORSA:大言語モデルの特異値と正規化正規化特異ベクトル適応

SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models ( http://arxiv.org/abs/2409.00055v4 )

ライセンス: Link先を確認
Yang Cao, (参考訳) 大規模言語モデル(LLM)の急速な進歩は、パラメータサイズが大幅に増加し、適応と微調整の課題が提示される。 パラメータ効率のよい微調整(PEFT)法は、下流タスクにLLMを効率的に適応するために広く用いられている。 本稿では,新しいPEFT法であるSORSA(Singular Values and Orthonormal Regularized Singular Vectors Adaptation)を提案する。 本稿では,パラメータの変動を特異値分解(SVD)によって解析し,SORSAのSVD面における変化を最小限に抑える上での優位性を議論し,分析する手法を提案する。 各SORSAアダプタは、トレーニング可能な主特異量 $W_p = U_p \text{diag}(S_p) V^\top_p$ と、凍結された残量 $W_r = U_r \text{diag}(S_r) V^\top_r$ の2つの主要部分から構成される。 これらの部分は、事前訓練された重量に対してSVDを実行することで初期化される。 さらに,正規正規化正規化器を実装・解析することで,条件数$W_p$を削減し,最適化をより効率的にすることができることを示した。 SORSAアダプタは推論中にマージすることができ、推論遅延を排除できる。 結局のところ、SORSAは、我々の実験において、PiSSAやLoRAよりも高速な収束を示す。 GSM-8Kベンチマークでは、SORSAを使用したLlama 2 7Bが56.03%の精度でLoRA(42.30%)、全FT(49.05%)、PiSSA(53.07%)を上回った。 MATHベンチマークでは、SORSAは10.36%の精度でLoRA(5.50%)、全FT(7.22%)、PiSSA(7.44%)を上回った。 我々はSORSAがパラメータ効率の良い微調整の新しい視点を提供し、優れた性能を示すと結論付けた。 コードはhttps://github.com/Gunale0926/SORSAで公開されている。

The rapid advancement in large language models (LLMs) comes with a significant increase in their parameter size, presenting challenges for adaptation and fine-tuning. Parameter-efficient fine-tuning (PEFT) methods are widely used to adapt LLMs for downstream tasks efficiently. In this paper, we propose Singular Values and Orthonormal Regularized Singular Vectors Adaptation, or SORSA, a novel PEFT method. We introduce a method to analyze the variation of the parameters by performing singular value decomposition (SVD) and discuss and analyze SORSA's superiority in minimizing the alteration in the SVD aspect. Each SORSA adapter consists of two main parts: trainable principal singular weights $W_p = U_p \text{diag}(S_p) V^\top_p$, and frozen residual weights $W_r = U_r \text{diag}(S_r) V^\top_r$. These parts are initialized by performing SVD on pre-trained weights. Moreover, we implement and analyze an orthonormal regularizer, which we prove could decrease the condition number of $W_p$ and allows the optimization to be more efficient. SORSA adapters could be merged during inference, thus eliminating any inference latency. After all, SORSA shows a faster convergence than PiSSA and LoRA in our experiments. On the GSM-8K benchmark, Llama 2 7B adapted using SORSA achieved 56.03% accuracy, surpassing LoRA (42.30%), Full FT (49.05%), and PiSSA (53.07%). On the MATH benchmark, SORSA achieved 10.36% accuracy, outperforming LoRA (5.50%), Full FT (7.22%), and PiSSA (7.44%). We conclude that SORSA offers a new perspective on parameter-efficient fine-tuning, demonstrating remarkable performance. The code is available at https://github.com/Gunale0926/SORSA.
翻訳日:2024-11-08 03:57:28 公開日:2024-10-02
# 高速ジャイロスコープ校正 : 深層学習アプローチ

Rapid Gyroscope Calibration: A Deep Learning Approach ( http://arxiv.org/abs/2409.00488v2 )

ライセンス: Link先を確認
Yair Stolero, Itzik Klein, (参考訳) ジャイロスコープ測定の精度と信頼性を確保するためには、低コストのジャイロスコープ校正が不可欠である。 定常校正は測定誤差の決定論的部分を推定する。 この目的のためには、予め定義された期間にジャイロスコープの読みを平均化し、ジャイロスコープのバイアスを推定することが一般的である。 校正期間は、パフォーマンスにおいて重要な役割を果たすため、より長い期間が好ましい。 しかし、いくつかのアプリケーションは起動時間を必要とし、キャリブレーションは短時間で行うことができる。 本研究では,ディープラーニングを用いた低コストジャイロスコープ校正時間を削減することに焦点を当てた。 本稿では,複数の実・仮想ジャイロスコープを用いて単一ジャイロスコープの校正性能を向上させるためのディープラーニングフレームワークを提案する。 アプローチのトレーニングと検証のために、2つの異なるブランドの24個のジャイロスコープを使用して、169時間のジャイロスコープ読解からなるデータセットを記録した。 また,シミュレートされたジャイロスコープによる仮想データセットも作成した。 この2つのデータセットを,提案手法の評価に利用した。 この研究の重要な成果の1つは、3つの低コストジャイロスコープを使用してジャイロスコープの校正時間を最大89%短縮することである。

Low-cost gyroscope calibration is essential for ensuring the accuracy and reliability of gyroscope measurements. Stationary calibration estimates the deterministic parts of measurement errors. To this end, a common practice is to average the gyroscope readings during a predefined period and estimate the gyroscope bias. Calibration duration plays a crucial role in performance, therefore, longer periods are preferred. However, some applications require quick startup times and calibration is therefore allowed only for a short time. In this work, we focus on reducing low-cost gyroscope calibration time using deep learning methods. We propose a deep-learning framework and explore the possibilities of using multiple real and virtual gyroscopes to improve the calibration performance of single gyroscopes. To train and validate our approach, we recorded a dataset consisting of 169 hours of gyroscope readings, using 24 gyroscopes of two different brands. We also created a virtual dataset consisting of simulated gyroscope readings. The two datasets were used to evaluate our proposed approach. One of our key achievements in this work is reducing gyroscope calibration time by up to 89% using three low-cost gyroscopes.
翻訳日:2024-11-08 03:46:24 公開日:2024-10-02
# DataSculpt:多目的分割による長期LLMのためのデータランドスケープの構築

DataSculpt: Crafting Data Landscapes for Long-Context LLMs through Multi-Objective Partitioning ( http://arxiv.org/abs/2409.00997v2 )

ライセンス: Link先を確認
Keer Lu, Xiaonan Nie, Zheng Liang, Da Pan, Shusen Zhang, Keshi Zhao, Weipeng Chen, Zenan Zhou, Guosheng Dong, Bin Cui, Wentao Zhang, (参考訳) 近年、Large Language Models (LLMs) は様々なタスクにまたがって大幅に改善されている。 長期コンテキストのパフォーマンス向上の鍵は、複数のドメインからのデータを統合し、トレーニング中にコンテキストウィンドウを最適化する効果的なデータ組織と管理戦略にある。 本研究では,複数の領域にまたがる長い文書の不足,(2)コンテキストウィンドウの効率的な構築,(3)大規模データセットの効率的な構成,という3つの課題を,モデルが他のタスクにおけるパフォーマンスを犠牲にすることなく長期コンテキスト能力を実現することのできる効果的なデータ管理戦略を設計する上での3つの重要な課題を特定した。 これらの課題に対処するために、長いコンテキストトレーニング用に設計された新しいデータ管理フレームワークであるDataSculptを紹介します。 まず、関係性、均一性、完全性、効率性などの属性に着目し、多目的組合せ最適化問題としてトレーニングデータの組織化を定式化する。 具体的には、粗大な方法論を用いて、トレーニングデータ組織を効率的かつ効果的に最適化する。 まず、意味的類似性(粗い)に基づいてデータをクラスタ化し、次に、各クラスタ内で複数のオブジェクトの欲求探索を行い、文書をさまざまなコンテキストウィンドウ(ファイン)にまとめる。 総合的な評価では、DataSculptは長期学習性能を著しく向上させ、18.09%の検索強化、21.23%の要約、21.27%の読解、3.81%のコード補完、そして4.88%の改善とともに全体的なモデル習熟性を維持した。

In recent years, Large Language Models (LLMs) have demonstrated significant improvements across a variety of tasks, one of which is the long-context capability. The key to improving long-context performance lies in effective data organization and management strategies that integrate data from multiple domains and optimize the context window during training. Through extensive experimental analysis, we identified three key challenges in designing effective data management strategies that enable the model to achieve long-context capability without sacrificing performance in other tasks: (1) a shortage of long documents across multiple domains, (2) effective construction of context windows, and (3) efficient organization of large-scale datasets. To address these challenges, we introduce DataSculpt, a novel data management framework designed for long-context training. We first formulate the organization of training data as a multi-objective combinatorial optimization problem, focusing on attributes including relevance, homogeneity, integrity, and efficiency. Specifically, our approach utilizes a coarse-to-fine methodology to optimize training data organization both efficiently and effectively. We begin by clustering the data based on semantic similarity (coarse), followed by a multi-objective greedy search within each cluster to score and concatenate documents into various context windows (fine). Our comprehensive evaluations demonstrate that DataSculpt significantly enhances long-context training performance, resulting in improvements of 18.09% in retrieval augmentation, 21.23% in summarization, 21.27% in reading comprehension, and a 3.81% increase in code completion, while also maintaining overall model proficiency with a 4.88% improvement.
翻訳日:2024-11-08 03:35:26 公開日:2024-10-02
# パラメータ効率の良い微調整におけるタスク特化方向のパワーの解放

Unleashing the Power of Task-Specific Directions in Parameter Efficient Fine-tuning ( http://arxiv.org/abs/2409.01035v2 )

ライセンス: Link先を確認
Chongjie Si, Zhiyi Shi, Shifan Zhang, Xiaokang Yang, Hanspeter Pfister, Wei Shen, (参考訳) 大規模な言語モデルは、下流のタスクで素晴らしいパフォーマンスを示すが、全てのパラメータを完全に微調整する際には、リソース消費がかなり必要である。 これを軽減するために、LoRAのようなパラメータ効率の良い細調整(PEFT)戦略が開発されている。 本稿では,未学習状態からPEFTにおけるタスク固有化へ移行する上で,タスク固有方向(TSD)クリティカルな概念を探索する。 本稿では,これらの方向性を明確に定義し,その特性と実用化の課題を探求する枠組みを提案する。 そこで我々は,微調整過程におけるTSDの影響を最大化し,目標タスクにおけるモデル性能を向上させることを目的とした,新しいアプローチであるLoRA-Dashを導入する。 広範囲にわたる実験でLoRA-Dashの有効性が実証され、詳細な分析によりLoRA-Dashの基礎となるメカニズムが明らかにされた。 コードはhttps://github.com/Chongjie-Si/Subspace-Tuning.comで公開されている。

Large language models demonstrate impressive performance on downstream tasks, yet requiring extensive resource consumption when fully fine-tuning all parameters. To mitigate this, Parameter Efficient Fine-Tuning (PEFT) strategies, such as LoRA, have been developed. In this paper, we delve into the concept of task-specific directions (TSDs)-critical for transitioning large models from pretrained states to task-specific enhancements in PEFT. We propose a framework to clearly define these directions and explore their properties, and practical utilization challenges. We then introduce a novel approach, LoRA-Dash, which aims to maximize the impact of TSDs during the fine-tuning process, thereby enhancing model performance on targeted tasks. Extensive experiments have conclusively demonstrated the effectiveness of LoRA-Dash, and in-depth analyses further reveal the underlying mechanisms of LoRA-Dash. The code is available at https://github.com/Chongjie-Si/Subspace-Tuning.
翻訳日:2024-11-08 03:35:26 公開日:2024-10-02
# VoxHakka:台湾・ハッカのための対話型多話者テキスト音声合成システム

VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka ( http://arxiv.org/abs/2409.01548v2 )

ライセンス: Link先を確認
Li-Wei Chen, Hung-Shin Lee, Chen-Chi Chang, (参考訳) 本稿では,台湾語話者を対象とした音声合成システムであるVoxHakkaを紹介する。 YourTTSフレームワークを活用することで、VoxHakkaは6つの異なるHakka方言をサポートしながら、音声合成において高い自然性、精度、低リアルタイム化を実現している。 これは、方言固有のデータを用いてモデルを訓練し、話者対応のハッカ音声を生成することによって達成される。 公開されているハッカ音声コーパスの不足に対処するために,Webスクレイピングパイプラインと自動音声認識(ASR)に基づくデータクリーニング技術を組み合わせた費用対効果のアプローチを採用した。 このプロセスにより、TTSトレーニングに適した高品質でマルチスピーカー、マルチダイアレクトデータセットの取得が保証された。 比較平均世論スコア(CMOS)を用いて行った主観的聴力テストでは、VoxHakkaは、発音精度、トーンの正確性、全体的な自然性において、既存の公開されているHakka TTSシステムよりも著しく優れていた。 この研究は、ハッカ語技術の大幅な進歩を示し、言語保存と再生のための貴重な資源を提供する。

This paper introduces VoxHakka, a text-to-speech (TTS) system designed for Taiwanese Hakka, a critically under-resourced language spoken in Taiwan. Leveraging the YourTTS framework, VoxHakka achieves high naturalness and accuracy and low real-time factor in speech synthesis while supporting six distinct Hakka dialects. This is achieved by training the model with dialect-specific data, allowing for the generation of speaker-aware Hakka speech. To address the scarcity of publicly available Hakka speech corpora, we employed a cost-effective approach utilizing a web scraping pipeline coupled with automatic speech recognition (ASR)-based data cleaning techniques. This process ensured the acquisition of a high-quality, multi-speaker, multi-dialect dataset suitable for TTS training. Subjective listening tests conducted using comparative mean opinion scores (CMOS) demonstrate that VoxHakka significantly outperforms existing publicly available Hakka TTS systems in terms of pronunciation accuracy, tone correctness, and overall naturalness. This work represents a significant advancement in Hakka language technology and provides a valuable resource for language preservation and revitalization efforts.
翻訳日:2024-11-08 03:23:46 公開日:2024-10-02
# VoxHakka:台湾・ハッカのための対話型多話者テキスト音声合成システム

VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka ( http://arxiv.org/abs/2409.01548v3 )

ライセンス: Link先を確認
Li-Wei Chen, Hung-Shin Lee, Chen-Chi Chang, (参考訳) 本稿では,台湾語話者を対象とした音声合成システムであるVoxHakkaを紹介する。 YourTTSフレームワークを活用することで、VoxHakkaは6つの異なるHakka方言をサポートしながら、音声合成において高い自然性、精度、低リアルタイム化を実現している。 これは、方言固有のデータを用いてモデルを訓練し、話者対応のハッカ音声を生成することによって達成される。 公開されているハッカ音声コーパスの不足に対処するために,Webスクレイピングパイプラインと自動音声認識(ASR)に基づくデータクリーニング技術を組み合わせた費用対効果のアプローチを採用した。 このプロセスにより、TTSトレーニングに適した高品質でマルチスピーカー、マルチダイアレクトデータセットの取得が保証された。 比較平均世論スコア(CMOS)を用いて行った主観的聴力テストでは、VoxHakkaは、発音精度、トーンの正確性、全体的な自然性において、既存の公開されているHakka TTSシステムよりも著しく優れていた。 この研究は、ハッカ語技術の大幅な進歩を示し、言語保存と再生のための貴重な資源を提供する。

This paper introduces VoxHakka, a text-to-speech (TTS) system designed for Taiwanese Hakka, a critically under-resourced language spoken in Taiwan. Leveraging the YourTTS framework, VoxHakka achieves high naturalness and accuracy and low real-time factor in speech synthesis while supporting six distinct Hakka dialects. This is achieved by training the model with dialect-specific data, allowing for the generation of speaker-aware Hakka speech. To address the scarcity of publicly available Hakka speech corpora, we employed a cost-effective approach utilizing a web scraping pipeline coupled with automatic speech recognition (ASR)-based data cleaning techniques. This process ensured the acquisition of a high-quality, multi-speaker, multi-dialect dataset suitable for TTS training. Subjective listening tests conducted using comparative mean opinion scores (CMOS) demonstrate that VoxHakka significantly outperforms existing publicly available Hakka TTS systems in terms of pronunciation accuracy, tone correctness, and overall naturalness. This work represents a significant advancement in Hakka language technology and provides a valuable resource for language preservation and revitalization efforts.
翻訳日:2024-11-08 03:23:46 公開日:2024-10-02
# 勾配型サンプリングによる並列準量子アニーリングの最適化

Optimization by Parallel Quasi-Quantum Annealing with Gradient-Based Sampling ( http://arxiv.org/abs/2409.02135v2 )

ライセンス: Link先を確認
Yuma Ichikawa, Yamato Arai, (参考訳) 学習ベースの手法は、問題固有のヒューリスティックを自動学習する能力により、汎用的な解法として注目を集めており、手作業によるヒューリスティックスの必要性が軽減されている。 しかし、これらの手法はスケーラビリティの課題に直面することが多い。 これらの問題に対処するために、離散ランゲヴィン力学を用いた改良された組合せ最適化アルゴリズム(iSCO)が提案され、学習ベースの解法よりも優れた性能を示している。 本研究は, 連続緩和による勾配に基づく更新と準量子アニーリング(QQA)を組み合わせた別のアプローチを提案する。 QQAは、半積分値で最小化される単純な凸関数から、緩和された変数が離散空間でのみ最小化される元の目的関数へと、目的関数を円滑に遷移させる。 さらに、GPUを利用した並列実行通信を導入し、探索能力を高め、収束を加速する。 数値実験により,本手法は,iSCOや学習に基づく様々なベンチマーク問題に匹敵する性能を達成し,競争力のある汎用解法であることを実証した。 特に,本手法は,iSCO,学習型解法,商用解法,特殊アルゴリズムと比較して,大規模インスタンスの高速なトレードオフが優れている。

Learning-based methods have gained attention as general-purpose solvers due to their ability to automatically learn problem-specific heuristics, reducing the need for manually crafted heuristics. However, these methods often face scalability challenges. To address these issues, the improved Sampling algorithm for Combinatorial Optimization (iSCO), using discrete Langevin dynamics, has been proposed, demonstrating better performance than several learning-based solvers. This study proposes a different approach that integrates gradient-based update through continuous relaxation, combined with Quasi-Quantum Annealing (QQA). QQA smoothly transitions the objective function, starting from a simple convex function, minimized at half-integral values, to the original objective function, where the relaxed variables are minimized only in the discrete space. Furthermore, we incorporate parallel run communication leveraging GPUs to enhance exploration capabilities and accelerate convergence. Numerical experiments demonstrate that our method is a competitive general-purpose solver, achieving performance comparable to iSCO and learning-based solvers across various benchmark problems. Notably, our method exhibits superior speed-quality trade-offs for large-scale instances compared to iSCO, learning-based solvers, commercial solvers, and specialized algorithms.
翻訳日:2024-11-07 23:56:04 公開日:2024-10-02
# 正規化で失うものは何か? 多言語ASRモデル評価における落とし穴の探索

What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations ( http://arxiv.org/abs/2409.02449v2 )

ライセンス: Link先を確認
Kavya Manohar, Leena G Pillai, (参考訳) 本稿では,多言語自動音声認識(ASR)モデルの評価における落とし穴について考察する。 本稿では,OpenAI Whisper,MetaのMMS,Seamless,Ambly AIのConformerなど,主要なASRモデルのテキスト正規化ルーチンと,パフォーマンス指標に対する意図しない結果について検討する。 本研究は,文字のスペルや句読点,特殊文字などの不整合を取り除き,ASR出力を公平な比較のために標準化することを目的としている現行のテキスト正規化の実践が,Indicスクリプトに適用した場合に根本的に欠陥があることを明らかにする。 テキスト類似度スコアと詳細な言語検査を用いた経験的分析により、これらの欠陥がIndic言語の性能指標を人工的に改善することを示した。 我々は、母国語学の専門知識を活用し、多言語ASRモデルのより堅牢で正確な評価を確実にするテキスト正規化ルーチン開発へのシフトを提案する。

This paper explores the pitfalls in evaluating multilingual automatic speech recognition (ASR) models, with a particular focus on Indic language scripts. We investigate the text normalization routine employed by leading ASR models, including OpenAI Whisper, Meta's MMS, Seamless, and Assembly AI's Conformer, and their unintended consequences on performance metrics. Our research reveals that current text normalization practices, while aiming to standardize ASR outputs for fair comparison, by removing inconsistencies such as variations in spelling, punctuation, and special characters, are fundamentally flawed when applied to Indic scripts. Through empirical analysis using text similarity scores and in-depth linguistic examination, we demonstrate that these flaws lead to artificially improved performance metrics for Indic languages. We conclude by proposing a shift towards developing text normalization routines that leverage native linguistic expertise, ensuring more robust and accurate evaluations of multilingual ASR models.
翻訳日:2024-11-07 23:45:04 公開日:2024-10-02
# クラスに依存しないインスタンスレベルのセグメンテーションのためのSAM 2の評価

Evaluation Study on SAM 2 for Class-agnostic Instance-level Segmentation ( http://arxiv.org/abs/2409.02567v2 )

ライセンス: Link先を確認
Jialun Pei, Zhangjun Zhou, Tiantian Zhang, (参考訳) Segment Anything Model (SAM) は自然界において強力なゼロショットセグメンテーション性能を示した。 最近リリースされたSegment Anything Model 2 (SAM2)は、イメージセグメンテーション機能に対する研究者の期待をさらに高めた。 クラスに依存しないインスタンスレベルのセグメンテーションタスクにおけるSAM2の性能を評価するために、Salient Instance Segmentation (SIS)、Camouflaged Instance Segmentation (CIS)、Shadow Instance Detection (SID)の3つのシナリオにおいて、SAM2のインスタンスレベルのタスクに対処するための異なるプロンプト戦略を採用した。 さらに, 粒状オブジェクトのセグメンテーションにおけるSAM2の有効性について検討するため, 高分解能ディコトコス画像セグメンテーション (DIS) ベンチマークを用いて細粒度セグメンテーション機能の評価を行った。 定性的および定量的な実験結果から、SAM2の性能は異なるシナリオで大きく異なることが示唆された。 さらに、SAM2は高解像度の細部をセグメンテーションするのに特に敏感ではない。 この技術レポートがSAM2ベースのアダプタの出現を加速し,クラスに依存しないインスタンスセグメンテーションタスクにおいて,大規模視覚モデルの性能向上を図ることを願っている。

Segment Anything Model (SAM) has demonstrated powerful zero-shot segmentation performance in natural scenes. The recently released Segment Anything Model 2 (SAM2) has further heightened researchers' expectations towards image segmentation capabilities. To evaluate the performance of SAM2 on class-agnostic instance-level segmentation tasks, we adopt different prompt strategies for SAM2 to cope with instance-level tasks for three relevant scenarios: Salient Instance Segmentation (SIS), Camouflaged Instance Segmentation (CIS), and Shadow Instance Detection (SID). In addition, to further explore the effectiveness of SAM2 in segmenting granular object structures, we also conduct detailed tests on the high-resolution Dichotomous Image Segmentation (DIS) benchmark to assess the fine-grained segmentation capability. Qualitative and quantitative experimental results indicate that the performance of SAM2 varies significantly across different scenarios. Besides, SAM2 is not particularly sensitive to segmenting high-resolution fine details. We hope this technique report can drive the emergence of SAM2-based adapters, aiming to enhance the performance ceiling of large vision models on class-agnostic instance segmentation tasks.
翻訳日:2024-11-07 23:45:04 公開日:2024-10-02
# 無線通信プロトコルのための状態マシン変異に基づくテストフレームワーク

State Machine Mutation-based Testing Framework for Wireless Communication Protocols ( http://arxiv.org/abs/2409.02905v3 )

ライセンス: Link先を確認
Syed Md Mukit Rashid, Tianwei Wu, Kai Tu, Abdullah Al Ishtiaq, Ridwanul Hasan Tanvir, Yilu Dong, Omar Chowdhury, Syed Rafiul Hussain, (参考訳) 本稿では,無線プロトコル実装における論理的脆弱性を発見するためのプロトコル状態マシンであるProteusを提案する。 Proteusは、有意義なテストケース(それぞれがプロトコルメッセージのシーケンスである)を生成することで、予算の意識を維持している(すなわち、テストケースは、いくつかの制御された逸脱を除いて、主に望ましいプロトコルフローに従う)が、望ましい性質に違反する確率も高い。 有効性を示すため,23のコンシューマデバイス(4G LTEで11,BLEで12)で,Proteusを2つの異なるプロトコル実装,すなわち4G LTEとBLEで評価した。 Proteusは112のインスタンスを含む25のユニークな問題を発見した。 影響を受けたベンダーは、5つのCVEを通じて14の脆弱性を認めている。

This paper proposes Proteus, a protocol state machine, property-guided, and budget-aware automated testing approach for discovering logical vulnerabilities in wireless protocol implementations. Proteus maintains its budget awareness by generating test cases (i.e., each being a sequence of protocol messages) that are not only meaningful (i.e., the test case mostly follows the desirable protocol flow except for some controlled deviations) but also have a high probability of violating the desirable properties. To demonstrate its effectiveness, we evaluated Proteus in two different protocol implementations, namely 4G LTE and BLE, across 23 consumer devices (11 for 4G LTE and 12 for BLE). Proteus discovered 25 unique issues, including 112 instances. Affected vendors have positively acknowledged 14 vulnerabilities through 5 CVEs.
翻訳日:2024-11-07 23:34:03 公開日:2024-10-02
# 無線通信プロトコルのための状態マシン変異に基づくテストフレームワーク

State Machine Mutation-based Testing Framework for Wireless Communication Protocols ( http://arxiv.org/abs/2409.02905v4 )

ライセンス: Link先を確認
Syed Md Mukit Rashid, Tianwei Wu, Kai Tu, Abdullah Al Ishtiaq, Ridwanul Hasan Tanvir, Yilu Dong, Omar Chowdhury, Syed Rafiul Hussain, (参考訳) 本稿では,無線プロトコル実装における論理的脆弱性を発見するためのプロトコル状態マシンであるProteusを提案する。 Proteusは、有意義なテストケース(それぞれがプロトコルメッセージのシーケンスである)を生成することで、予算の意識を維持している(すなわち、テストケースは、いくつかの制御された逸脱を除いて、主に望ましいプロトコルフローに従う)が、望ましい性質に違反する確率も高い。 有効性を示すため,23のコンシューマデバイス(4G LTEで11,BLEで12)で,Proteusを2つの異なるプロトコル実装,すなわち4G LTEとBLEで評価した。 Proteusは112のインスタンスを含む25のユニークな問題を発見した。 影響を受けたベンダーは、5つのCVEを通じて14の脆弱性を認めている。

This paper proposes Proteus, a protocol state machine, property-guided, and budget-aware automated testing approach for discovering logical vulnerabilities in wireless protocol implementations. Proteus maintains its budget awareness by generating test cases (i.e., each being a sequence of protocol messages) that are not only meaningful (i.e., the test case mostly follows the desirable protocol flow except for some controlled deviations) but also have a high probability of violating the desirable properties. To demonstrate its effectiveness, we evaluated Proteus in two different protocol implementations, namely 4G LTE and BLE, across 23 consumer devices (11 for 4G LTE and 12 for BLE). Proteus discovered 25 unique issues, including 112 instances. Affected vendors have positively acknowledged 14 vulnerabilities through 5 CVEs.
翻訳日:2024-11-07 23:34:03 公開日:2024-10-02
# 物体中心学習のための集団離散表現の組織化

Organized Grouped Discrete Representation for Object-Centric Learning ( http://arxiv.org/abs/2409.03553v3 )

ライセンス: Link先を確認
Rongzhen Zhao, Vivienne Wang, Juho Kannala, Joni Pajarinen, (参考訳) OCL(Object-Centric Learning)は、画像やビデオのピクセルをスパースオブジェクトの特徴として表現する。 代表的手法は、可変オートエンコーダ(VAE)テンプレート特徴からなる離散表現を利用して、画素レベルの情報冗長性とガイドオブジェクトレベルの特徴集約を抑える。 最新の進歩であるGrouped Discrete Representation (GDR)は、これらのテンプレート機能を属性に分解する。 しかし、分解としてグループ化する単純チャネルは、異なる属性に属するチャネルを誤ってグループ化し、それらを準最適テンプレート属性として識別し、情報を失い、表現性を損なう。 我々は,同一属性に属するチャネルをまとめて,特徴から属性への正確な分解を行うために,OGDR(Organized GDR)を提案する。 教師なしセグメンテーション実験では、OGDRは古典的なトランスフォーマーベースのOCL法の拡張においてGDRよりも優れている。 コードブックPCAと表現類似性分析により、GDRと比較して、OGDRは冗長性を排除し、オブジェクト表現学習の指針となる情報を保存する。 ソースコードは補足資料で入手できる。

Object-Centric Learning (OCL) represents dense image or video pixels as sparse object features. Representative methods utilize discrete representation composed of Variational Autoencoder (VAE) template features to suppress pixel-level information redundancy and guide object-level feature aggregation. The most recent advancement, Grouped Discrete Representation (GDR), further decomposes these template features into attributes. However, its naive channel grouping as decomposition may erroneously group channels belonging to different attributes together and discretize them as sub-optimal template attributes, which losses information and harms expressivity. We propose Organized GDR (OGDR) to organize channels belonging to the same attributes together for correct decomposition from features into attributes. In unsupervised segmentation experiments, OGDR is fully superior to GDR in augmentating classical transformer-based OCL methods; it even improves state-of-the-art diffusion-based ones. Codebook PCA and representation similarity analyses show that compared with GDR, our OGDR eliminates redundancy and preserves information better for guiding object representation learning. The source code is available in the supplementary material.
翻訳日:2024-11-07 23:23:02 公開日:2024-10-02
# UI-JEPA: 画面上でのユーザアクティビティによるユーザインテントのアクティブな認識に向けて

UI-JEPA: Towards Active Perception of User Intent through Onscreen User Activity ( http://arxiv.org/abs/2409.04081v3 )

ライセンス: Link先を確認
Yicheng Fu, Raviteja Anantha, Prabal Vashisht, Jianpeng Cheng, Etai Littwin, (参考訳) ユーザインターフェース(UI)アクションのシーケンスからユーザ意図を生成することは、包括的なUI理解における中核的な課題である。 MLLM(Multimodal large language model)の最近の進歩は、この分野でかなりの進歩をもたらしたが、広範囲なモデルパラメータ、計算能力、高レイテンシ要求は、軽量でオンデバイスなソリューションが必要で、レイテンシーが低く、プライバシーが高くなるシナリオでは実用的ではない。 さらに、高品質なデータセットの欠如により、このような軽量モデルの開発が妨げられている。 これらの課題に対処するために,UI-JEPAを提案する。UI-JEPAは,自己教師付き学習を通じてラベル付きデータから抽象的なUI埋め込みを学習するためのマスキング戦略を利用する新しいフレームワークであり,ユーザ意図の予測のために微調整されたLLMデコーダと組み合わせる。 Intent in the Wild" (IIW) と "Intent in the Tame" (IIT) の2つの新しいUIグラウンド型マルチモーダルデータセットも導入した。 IIWは219カテゴリーの1.7Kビデオで構成され、IITは10カテゴリの914ビデオを含んでいる。 我々はこれらのデータセットの最初のベースラインを確立し、JEPAスタイルの目的とLLMデコーダを組み合わせて学習した表現が、最先端の大規模MLLMのパフォーマンスに匹敵するユーザ意図の予測を達成できることを示した。 UI-JEPAは意図的類似度スコアによって測定され、GPT-4 TurboとClaude 3.5 Sonnetをそれぞれ10.0%と7.2%上回り、2つのデータセットで平均した。 特に、UI-JEPAは、計算コストを0.5倍削減し、IIWデータセットのレイテンシを6.6倍改善することで、パフォーマンスを達成する。 これらの結果はUI-JEPAの有効性を強調し、軽量で高性能なUI理解の可能性を強調している。

Generating user intent from a sequence of user interface (UI) actions is a core challenge in comprehensive UI understanding. Recent advancements in multimodal large language models (MLLMs) have led to substantial progress in this area, but their demands for extensive model parameters, computing power, and high latency makes them impractical for scenarios requiring lightweight, on-device solutions with low latency or heightened privacy. Additionally, the lack of high-quality datasets has hindered the development of such lightweight models. To address these challenges, we propose UI-JEPA, a novel framework that employs masking strategies to learn abstract UI embeddings from unlabeled data through self-supervised learning, combined with an LLM decoder fine-tuned for user intent prediction. We also introduce two new UI-grounded multimodal datasets, "Intent in the Wild" (IIW) and "Intent in the Tame" (IIT), designed for few-shot and zero-shot UI understanding tasks. IIW consists of 1.7K videos across 219 intent categories, while IIT contains 914 videos across 10 categories. We establish the first baselines for these datasets, showing that representations learned using a JEPA-style objective, combined with an LLM decoder, can achieve user intent predictions that match the performance of state-of-the-art large MLLMs, but with significantly reduced annotation and deployment resources. Measured by intent similarity scores, UI-JEPA outperforms GPT-4 Turbo and Claude 3.5 Sonnet by 10.0% and 7.2% respectively, averaged across two datasets. Notably, UI-JEPA accomplishes the performance with a 50.5x reduction in computational cost and a 6.6x improvement in latency in the IIW dataset. These results underscore the effectiveness of UI-JEPA, highlighting its potential for lightweight, high-performance UI understanding.
翻訳日:2024-11-07 23:11:54 公開日:2024-10-02
# 確率的関係モデルによるプライバシー保護リレーショナルデータ合成に向けて

Towards Privacy-Preserving Relational Data Synthesis via Probabilistic Relational Models ( http://arxiv.org/abs/2409.04194v2 )

ライセンス: Link先を確認
Malte Luttermann, Ralf Möller, Mattis Hartwig, (参考訳) 確率的リレーショナルモデル(英語版)は、一階述語論理と確率的モデルを組み合わせて、関係領域内のオブジェクト間の関係を表現するために確立された定式化を提供する。 同時に、人工知能の分野は、さまざまな機械学習タスクのための大量のリレーショナルトレーニングデータを必要としている。 しかし、プライバシーの懸念やデータ保護の規制、高コストなどにより、現実世界のデータ収集は難しいことが多い。 これらの課題を軽減するために、合成データの生成は有望なアプローチである。 本稿では,確率的関係モデルを用いて合成関係データを生成する問題を解く。 特に,リレーショナルデータベースから確率的リレーショナルモデルへ移行し,その基礎となる確率分布から新しい合成リレーショナルデータポイントをサンプリングするパイプラインを提案する。 提案するパイプラインの一部として,与えられた関係データベースから確率的関係モデルを構築するための学習アルゴリズムを導入する。

Probabilistic relational models provide a well-established formalism to combine first-order logic and probabilistic models, thereby allowing to represent relationships between objects in a relational domain. At the same time, the field of artificial intelligence requires increasingly large amounts of relational training data for various machine learning tasks. Collecting real-world data, however, is often challenging due to privacy concerns, data protection regulations, high costs, and so on. To mitigate these challenges, the generation of synthetic data is a promising approach. In this paper, we solve the problem of generating synthetic relational data via probabilistic relational models. In particular, we propose a fully-fledged pipeline to go from relational database to probabilistic relational model, which can then be used to sample new synthetic relational data points from its underlying probability distribution. As part of our proposed pipeline, we introduce a learning algorithm to construct a probabilistic relational model from a given relational database.
翻訳日:2024-11-07 23:00:54 公開日:2024-10-02
# 医用画像における走査型ドメインシフトがディープラーニング性能に及ぼす影響 : 実験的研究

The Impact of Scanner Domain Shift on Deep Learning Performance in Medical Imaging: an Experimental Study ( http://arxiv.org/abs/2409.04368v2 )

ライセンス: Link先を確認
Brian Guo, Darui Lu, Gregory Szumel, Rongze Gui, Tingyu Wang, Nicholas Konz, Maciej A. Mazurowski, (参考訳) 目的: 異なるスキャナーとプロトコルを用いて取得した医用画像は, 外観的に大きく異なる可能性がある。 スキャナドメインシフトと呼ばれるこの現象は、あるスキャナによって取得され、別のスキャナでテストされるデータに基づいてトレーニングされたディープニューラルネットワークのパフォーマンスが低下する可能性がある。 この重要な実践的問題はよく認識されているが、様々なモダリティや診断タスクで問題に関する体系的な研究は行われていない。 材料と方法:本論文では,異なる自動診断タスクにおいて,スキャナ領域シフトが畳み込みニューラルネットワーク性能に与える影響を,幅広い実験的に評価する。 我々はX線、CT、MRIなどの一般的な放射線学的手法でこの現象を評価する。 結果: 異なるスキャナーのデータに対するネットワーク性能は、ほぼ常に同じスキャナーのデータよりも悪く、異なるデータセット間でのパフォーマンス低下の程度を定量化しています。 特に,この低下はMRIでは最も深刻であり,X線では中等度であり,CTでは極めて小さく,MRIやX線では存在しないCT取得システムの標準化の性質に起因している。 また、トレーニングセットに様々な量のターゲットドメインデータを注入し、トレーニングデータにノイズを加えることで一般化する方法について検討する。 結論:本研究の結果は,様々なモダリティにわたる深層学習におけるスキャナ領域シフトによる性能低下の程度を,医療画像解析のための堅牢な深層学習モデルの開発を導くことを目的とした,広範な実験的証拠と定量化を提供する。

Purpose: Medical images acquired using different scanners and protocols can differ substantially in their appearance. This phenomenon, scanner domain shift, can result in a drop in the performance of deep neural networks which are trained on data acquired by one scanner and tested on another. This significant practical issue is well-acknowledged, however, no systematic study of the issue is available across different modalities and diagnostic tasks. Materials and Methods: In this paper, we present a broad experimental study evaluating the impact of scanner domain shift on convolutional neural network performance for different automated diagnostic tasks. We evaluate this phenomenon in common radiological modalities, including X-ray, CT, and MRI. Results: We find that network performance on data from a different scanner is almost always worse than on same-scanner data, and we quantify the degree of performance drop across different datasets. Notably, we find that this drop is most severe for MRI, moderate for X-ray, and quite small for CT, on average, which we attribute to the standardized nature of CT acquisition systems which is not present in MRI or X-ray. We also study how injecting varying amounts of target domain data into the training set, as well as adding noise to the training data, helps with generalization. Conclusion: Our results provide extensive experimental evidence and quantification of the extent of performance drop caused by scanner domain shift in deep learning across different modalities, with the goal of guiding the future development of robust deep learning models for medical image analysis.
翻訳日:2024-11-07 23:00:54 公開日:2024-10-02
# 文化遺産における3次元データ長期保存

3D Data Long-Term Preservation in Cultural Heritage ( http://arxiv.org/abs/2409.04507v2 )

ライセンス: Link先を確認
Nicola Amico, Achille Felicetti, (参考訳) 本報告では,文化遺産における3Dデジタルデータ保存の課題と戦略について考察する。 技術難読化の問題について議論し、持続可能なストレージソリューションと進行中のデータ管理戦略の必要性を強調した。 主なトピックは、技術的な陳腐化、デジタルコンテンツのライフサイクル、デジタル連続性、データ管理計画(DMP)、FAIR原則、パブリックリポジトリの使用などである。 このレポートは、メタデータのタイプや価値あるメタデータを構築するための戦略を含む、長期的なデジタル保存におけるメタデータの重要性についても取り上げている。 3Dフォーマット保存における標準と相互運用性の進化と、メタデータとメタデータの管理の重要性について検討する。 この文書は、長期にわたって3D文化遺産データを保存するための課題と解決策を包括的に概説している。

The report explores the challenges and strategies for preserving 3D digital data in cultural heritage. It discusses the issue of technological obsolescence, emphasising the need for ustainable storage solutions and ongoing data management strategies. Key topics include understanding technological obsolescence, the lifecycle of digital content, digital continuity, data management plans (DMP), FAIR principles, and the use of public repositories. The report also covers the importance of metadata in long-term digital preservation, including types of metadata and strategies for building valuable metadata. It examines the evolving standards and interoperability in 3D format preservation and the importance of managing metadata and paradata. The document provides a comprehensive overview of the challenges and solutions for preserving 3D cultural heritage data in the long term.
翻訳日:2024-11-07 23:00:54 公開日:2024-10-02
# 後期チャンキング:長期埋め込みモデルを用いたコンテキストチャンク埋め込み

Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models ( http://arxiv.org/abs/2409.04701v2 )

ライセンス: Link先を確認
Michael Günther, Isabelle Mohr, Daniel James Williams, Bo Wang, Han Xiao, (参考訳) 多くのユースケースでは、テキストの小さな部分を取得する必要があり、密度の高いベクトルベースの検索システムは、埋め込みにおいて、セマンティクスが過剰に圧縮される可能性が低いため、より短いテキストセグメントでよりよく機能する。 そのため、実践者は文書を小さなチャンクに分割し、それらを別々にエンコードすることが多い。 しかし、この方法で生成されたチャンク埋め込みは、周囲のチャンクからコンテキスト情報を失う可能性があり、結果として準最適表現となる。 本稿では、長文のすべてのトークンを最初に埋め込むために、長いコンテキスト埋め込みモデルを活用する、遅延チャンキングと呼ばれる新しい手法を紹介します。 結果として得られたチャンク埋め込みは、コンテキスト情報を完全にキャプチャし、様々な検索タスクにおいて優れた結果をもたらす。 この方法は、幅広い長文埋め込みモデルに適用できるほど汎用的であり、追加のトレーニングなしで機能する。 遅延チャンキングの有効性をさらに高めるために,埋め込みモデルのための専用微調整手法を提案する。

Many use cases require retrieving smaller portions of text, and dense vector-based retrieval systems often perform better with shorter text segments, as the semantics are less likely to be over-compressed in the embeddings. Consequently, practitioners often split text documents into smaller chunks and encode them separately. However, chunk embeddings created in this way can lose contextual information from surrounding chunks, resulting in sub-optimal representations. In this paper, we introduce a novel method called late chunking, which leverages long context embedding models to first embed all tokens of the long text, with chunking applied after the transformer model and just before mean pooling - hence the term late in its naming. The resulting chunk embeddings capture the full contextual information, leading to superior results across various retrieval tasks. The method is generic enough to be applied to a wide range of long-context embedding models and works without additional training. To further increase the effectiveness of late chunking, we propose a dedicated fine-tuning approach for embedding models.
翻訳日:2024-11-07 22:49:49 公開日:2024-10-02
# 音声大言語モデルにおける音声対話における話者の認識と理解能力の検討

Just ASR + LLM? A Study on Speech Large Language Models' Ability to Identify and Understand Speaker in Spoken Dialogue ( http://arxiv.org/abs/2409.04927v2 )

ライセンス: Link先を確認
Junkai Wu, Xulin Fan, Bo-Ru Lu, Xilin Jiang, Nima Mesgarani, Mark Hasegawa-Johnson, Mari Ostendorf, (参考訳) 近年,音声言語モデル(SpeechLLMs)が急速に進歩し,人間の聴取能力や推論能力に追いついている。 音声LLMは、中国の大学入学試験の英語聴取テストであるガオカオのようなベンチマークで、音声対話質問応答(SQA)のパフォーマンスを印象的に示しており、会話中の話者の音声内容と音声特性の両方を理解する必要があるようだ。 しかし, ガオカオの質問を精査した結果, 話者分割や識別を伴わずに, 会話書き起こしのみから, 多数の質問に対する正しい回答を推測できることがわかった。 ガオカオと提案した「What Do You Like?」データセットによる最先端モデルQwen-AudioとWavLLMの評価は、これらの文脈に基づく質問において、アイデンティティクリティカルな質問よりもはるかに高い精度を示し、話者識別を確実に行うことができる。 その結果,SQAを解く際には,現在のSpeechLLMは音声からの話者認識が限られており,音声のない会話の書き起こしから起因したLLMと同様の動作を示すことが示唆された。 我々は,SQAにおけるSpeechLLMのより正確な評価フレームワークとして,アイデンティティクリティカルな質問に焦点をあてたタスクを提案する。

In recent years, we have observed a rapid advancement in speech language models (SpeechLLMs), catching up with humans' listening and reasoning abilities. SpeechLLMs have demonstrated impressive spoken dialog question-answering (SQA) performance in benchmarks like Gaokao, the English listening test of the college entrance exam in China, which seemingly requires understanding both the spoken content and voice characteristics of speakers in a conversation. However, after carefully examining Gaokao's questions, we find the correct answers to many questions can be inferred from the conversation transcript alone, i.e.\ without speaker segmentation and identification. Our evaluation of state-of-the-art models Qwen-Audio and WavLLM on both Gaokao and our proposed "What Do You Like?" dataset shows a significantly higher accuracy in these context-based questions than in identity-critical questions, which can only be answered reliably with correct speaker identification. The results and analysis suggest that when solving SQA, the current SpeechLLMs exhibit limited speaker awareness from the audio and behave similarly to an LLM reasoning from the conversation transcription without sound. We propose that tasks focused on identity-critical questions could offer a more accurate evaluation framework of SpeechLLMs in SQA.
翻訳日:2024-11-07 22:49:49 公開日:2024-10-02
# 音声大言語モデルにおける音声対話における話者の認識と理解能力の検討

Just ASR + LLM? A Study on Speech Large Language Models' Ability to Identify and Understand Speaker in Spoken Dialogue ( http://arxiv.org/abs/2409.04927v3 )

ライセンス: Link先を確認
Junkai Wu, Xulin Fan, Bo-Ru Lu, Xilin Jiang, Nima Mesgarani, Mark Hasegawa-Johnson, Mari Ostendorf, (参考訳) 近年,音声言語モデル(SpeechLLMs)が急速に進歩し,人間の聴取能力や推論能力に追いついている。 音声LLMは、中国の大学入学試験の英語聴取テストであるガオカオのようなベンチマークで、音声対話質問応答(SQA)のパフォーマンスを印象的に示しており、会話中の話者の音声内容と音声特性の両方を理解する必要があるようだ。 しかし, ガオカオの質問を精査した結果, 話者分割や識別を伴わずに, 会話書き起こしのみから, 多数の質問に対する正しい回答を推測できることがわかった。 ガオカオと提案した「What Do You Like?」データセットによる最先端モデルQwen-AudioとWavLLMの評価は、これらの文脈に基づく質問において、アイデンティティクリティカルな質問よりもはるかに高い精度を示し、話者識別を確実に行うことができる。 その結果,SQAを解く際には,現在のSpeechLLMは音声からの話者認識が限られており,音声のない会話の書き起こしから起因したLLMと同様の動作を示すことが示唆された。 我々は,SQAにおけるSpeechLLMのより正確な評価フレームワークとして,アイデンティティクリティカルな質問に焦点をあてたタスクを提案する。

In recent years, we have observed a rapid advancement in speech language models (SpeechLLMs), catching up with humans' listening and reasoning abilities. SpeechLLMs have demonstrated impressive spoken dialog question-answering (SQA) performance in benchmarks like Gaokao, the English listening test of the college entrance exam in China, which seemingly requires understanding both the spoken content and voice characteristics of speakers in a conversation. However, after carefully examining Gaokao's questions, we find the correct answers to many questions can be inferred from the conversation transcript alone, i.e.\ without speaker segmentation and identification. Our evaluation of state-of-the-art models Qwen-Audio and WavLLM on both Gaokao and our proposed "What Do You Like?" dataset shows a significantly higher accuracy in these context-based questions than in identity-critical questions, which can only be answered reliably with correct speaker identification. The results and analysis suggest that when solving SQA, the current SpeechLLMs exhibit limited speaker awareness from the audio and behave similarly to an LLM reasoning from the conversation transcription without sound. We propose that tasks focused on identity-critical questions could offer a more accurate evaluation framework of SpeechLLMs in SQA.
翻訳日:2024-11-07 22:49:49 公開日:2024-10-02
# OneGen: LLMの効率的なワンパス統一生成と検索

OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs ( http://arxiv.org/abs/2409.05152v2 )

ライセンス: Link先を確認
Jintian Zhang, Cheng Peng, Mengshu Sun, Xiang Chen, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen, Ningyu Zhang, (参考訳) 近年のLarge Language Models (LLMs)の進歩により、様々なNLPタスクの生成能力が大幅に向上したにもかかわらず、LLMは検索タスクを直接処理する際の制限に直面している。 しかし、多くの実用的なアプリケーションでは、検索と生成の両方をシームレスに統合する必要がある。 本稿では, 生成と検索の両方を必要とするタスクにおけるLLMの性能向上を目的とした, 新規かつ効率的なOne-pass Generation and Search framework(OneGen)を提案する。 提案フレームワークは, 自己回帰的に生成された検索トークンを組み込むことにより, 従来の個別の学習手法を橋渡しする。 これにより、単一のLLMが両方のタスクを統一されたフォワードパスで同時に処理できる。 RAGとEntity Linkingという2つの異なる種類の複合タスクについて実験を行い、トレーニングと推論におけるOneGenのプラグ可能性、有効性、効率性を検証する。 さらに,本研究の結果は,LLMの生成能力を維持しつつ,検索性能を向上することを示す。 私たちの知る限りでは、OneGen は LLM が生成中にベクトル検索を行うことができる最初の方法です。

Despite the recent advancements in Large Language Models (LLMs), which have significantly enhanced the generative capabilities for various NLP tasks, LLMs still face limitations in directly handling retrieval tasks. However, many practical applications demand the seamless integration of both retrieval and generation. This paper introduces a novel and efficient One-pass Generation and retrieval framework (OneGen), designed to improve LLMs' performance on tasks that require both generation and retrieval. The proposed framework bridges the traditionally separate training approaches for generation and retrieval by incorporating retrieval tokens generated autoregressively. This enables a single LLM to handle both tasks simultaneously in a unified forward pass. We conduct experiments on two distinct types of composite tasks, RAG and Entity Linking, to validate the pluggability, effectiveness, and efficiency of OneGen in training and inference. Furthermore, our results show that integrating generation and retrieval within the same context preserves the generative capabilities of LLMs while improving retrieval performance. To the best of our knowledge, OneGen is the first to enable LLMs to conduct vector retrieval during the generation.
翻訳日:2024-11-07 22:38:45 公開日:2024-10-02
# 量子アニーリングと古典的解法:最適化問題の応用、課題、限界

Quantum annealing versus classical solvers: Applications, challenges and limitations for optimisation problems ( http://arxiv.org/abs/2409.05542v2 )

ライセンス: Link先を確認
Finley Alexander Quinton, Per Arne Sevle Myhr, Mostafa Barani, Pedro Crespo del Granado, Hongyu Zhang, (参考訳) 量子コンピューティングは急速に進歩しており、古典システムに対する計算上の優位性のために量子ビットの重ね合わせと絡み合いの力を活用している。 しかし、スケーラビリティはこれらのマシンにとって大きな課題となる。 古典的および量子コンピューティングインスタンス間のハイブリッドワークフローを実装することで、D-Waveはこの境界を産業利用の領域に押し上げることに成功した。 さらに、最近、混合整数線形プログラミング(MILP)問題に開かれ、最適化分野における多くの関連する問題に適用可能となった。 しかし、様々な問題カテゴリに適合する範囲と計算上の優位性はいまだ不明である。 本研究は,CPLEX,Gurobi, IPOPTなどの業界主導の問題解決者に対して,D-Waveのハイブリッド・ソルバの性能をベンチマークするために,多種多様なケーススタディを適用して総合的な検証を行う。 この結果は、D-Waveのハイブリッドソルバが、現在整数二次目的関数に対して最も有利であり、二次的制約の可能性を示していることを示唆している。 これを説明するために,実世界のエネルギー問題,特にMILP単位コミットメント問題に適用した。 D-Waveはそのような問題を解決することができるが、その性能は従来のものとはまだ一致していない。

Quantum computing is rapidly advancing, harnessing the power of qubits' superposition and entanglement for computational advantages over classical systems. However, scalability poses a primary challenge for these machines. By implementing a hybrid workflow between classical and quantum computing instances, D-Wave has succeeded in pushing this boundary to the realm of industrial use. Furthermore, they have recently opened up to mixed integer linear programming (MILP) problems, expanding their applicability to many relevant problems in the field of optimisation. However, the extent of their suitability for diverse problem categories and their computational advantages remains unclear. This study conducts a comprehensive examination by applying a selection of diverse case studies to benchmark the performance of D-Wave's hybrid solver against that of industry-leading solvers such as CPLEX, Gurobi, and IPOPT. The findings indicate that D-Wave's hybrid solver is currently most advantageous for integer quadratic objective functions and shows potential for quadratic constraints. To illustrate this, we applied it to a real-world energy problem, specifically the MILP unit commitment problem. While D-Wave can solve such problems, its performance has not yet matched that of its classical counterparts.
翻訳日:2024-11-07 22:27:40 公開日:2024-10-02
# 病理診断のための脳波言語モデル

EEG-Language Modeling for Pathology Detection ( http://arxiv.org/abs/2409.07480v2 )

ライセンス: Link先を確認
Sam Gijsen, Kerstin Ritter, (参考訳) マルチモーダル言語モデリングは、大規模言語モデルの進歩を活用して、有能なマルチモーダルモデルを事前訓練する最近のブレークスルーを構成する。 事前学習中の自然言語の統合は、特にコンピュータビジョンにおいて、学習された表現を大幅に改善することが示されている。 しかし、機能的脳データ領域における多モーダル言語モデリングの有効性、特に病理診断の進歩は未解明のままである。 本研究は臨床報告に基づく脳波モデルの先駆者であり,脳波は15,000である。 我々は,この新たな領域にマルチモーダルアライメントを行う手法を拡張し,脳波言語モデルのトレーニングに有用なレポート中のテキスト情報について検討する。 以上の結果から,患者の臨床経過,脳波の描写,医師の解釈など,さまざまな報告セグメントに曝露されることから,モデルがより豊かな表現を学習できることが示唆された。 より狭い臨床テキスト情報に曝露されたモデルと比較して,臨床報告に基づいて脳波を検索するモデルが(その逆も)極めて高い精度で見つかる。 しかし、これは対照的な学習アプローチを使用する場合にのみ観察される。 特にアノテーションの少ないレギュレーションでは、ゼロショット分類と線形プローブの両方で示されるように、脳波言語モデルの表現は、脳波のみのモデルと比較して、病理診断を大幅に改善することができる。 これらの結果は,脳活動データと臨床テキストの統合の可能性を強調し,脳波言語モデルが臨床応用の大きな進展を示すことを示唆している。

Multimodal language modeling constitutes a recent breakthrough which leverages advances in large language models to pretrain capable multimodal models. The integration of natural language during pretraining has been shown to significantly improve learned representations, particularly in computer vision. However, the efficacy of multimodal language modeling in the realm of functional brain data, specifically for advancing pathology detection, remains unexplored. This study pioneers EEG-language models trained on clinical reports and 15000 EEGs. We extend methods for multimodal alignment to this novel domain and investigate which textual information in reports is useful for training EEG-language models. Our results indicate that models learn richer representations from being exposed to a variety of report segments, including the patient's clinical history, description of the EEG, and the physician's interpretation. Compared to models exposed to narrower clinical text information, we find such models to retrieve EEGs based on clinical reports (and vice versa) with substantially higher accuracy. Yet, this is only observed when using a contrastive learning approach. Particularly in regimes with few annotations, we observe that representations of EEG-language models can significantly improve pathology detection compared to those of EEG-only models, as demonstrated by both zero-shot classification and linear probes. In sum, these results highlight the potential of integrating brain activity data with clinical text, suggesting that EEG-language models represent significant progress for clinical applications.
翻訳日:2024-11-07 21:42:46 公開日:2024-10-02
# TabKANet: Kolmogorov-Arnold Network と Transformer による語彙データモデリング

TabKANet: Tabular Data Modeling with Kolmogorov-Arnold Network and Transformer ( http://arxiv.org/abs/2409.08806v2 )

ライセンス: Link先を確認
Weihao Gao, Zheng Gong, Zhuo Deng, Fuju Rong, Chucheng Chen, Lan Ma, (参考訳) タブラルデータ(Tabular data)は、現実のシナリオにおいて最も一般的なタイプのデータである。 本研究では,数値コンテンツから学習する際のボトルネックをターゲットとした表型データモデリングのためのTabKANetモデルを提案する。 我々は,コンモゴロフ・アルノルドネットワーク(KAN)をベースとした数値埋め込みモジュールを構築し,トランスフォーマーアーキテクチャ内での数値的および分類的特徴の符号化を行った。 TabKANetは、バイナリ分類、マルチクラス分類、回帰タスクにおいて、複数の公開データセットにわたるニューラルネットワーク(NN)と比較して、安定的で大幅にパフォーマンスが向上している。 性能はGBDT(Gradient Boosted Decision Tree Model)に匹敵する。 私たちのコードはGitHubで公開されている。 https://github.com/AI-thpremed/TabKANet。

Tabular data is the most common type of data in real-life scenarios. In this study, we propose the TabKANet model for tabular data modeling, which targets the bottlenecks in learning from numerical content. We constructed a Kolmogorov-Arnold Network (KAN) based Numerical Embedding Module and unified numerical and categorical features encoding within a Transformer architecture. TabKANet has demonstrated stable and significantly superior performance compared to Neural Networks (NNs) across multiple public datasets in binary classification, multi-class classification, and regression tasks. Its performance is comparable to or surpasses that of Gradient Boosted Decision Tree models (GBDTs). Our code is publicly available on GitHub: https://github.com/AI-thpremed/TabKANet.
翻訳日:2024-11-07 21:09:04 公開日:2024-10-02
# フォトニック量子中間子における絡み合いとコヒーレンスダイナミクス

Entanglement and Coherence Dynamics in Photonic Quantum Memristors ( http://arxiv.org/abs/2409.08979v2 )

ライセンス: Link先を確認
Alberto Ferrara, Rosario Lo Franco, (参考訳) メモリシステムは過去の状態に依存するダイナミクスを示し、メモリユニットとして有用である。 実際のシナプスと機能的に似ているため、メムリスタは様々なタスクのためのニューラルネットワークの構成要素を構成することもできる。 近年、量子メムリスタモデルが提案されており、特にフォトニック量子メムリスタ(PQM)が実験的に証明されている。 本研究では、このPQMの特定のモデルから生じる様々な量子特性を探索し、特徴付ける。 まず、一つのPQMがその量子コヒーレンスに分裂力学を示すことが分かる。 第2に、2つの独立したPQMからなるネットワークは、距離に関係なく、ネットワーク内を移動する相関光子の絡み合いとコヒーレンスの両方のダイナミクスにメモリ効果を示すことを示す。 さらに、実量子ビットベースの量子コンピュータ(IBM-Q)上でPQMの回路モデルを構築し、実行します。 (i)このシステムは、特定の条件下での非線形量子コンピューティングに効果的に使用できる。 (II)デジタル量子シミュレーションは、非マルコフ状態における分裂量子系の力学を再現することができる。

Memristive systems exhibit dynamics that depend on their past states, making them useful as memory units. Due to their functional resemblance to real synapses, memristors can also constitute the building blocks of neural networks for a variety of tasks. Recently, quantum memristor models have been proposed and notably, a photonic quantum memristor (PQM) has been experimentally proven. In this work, we explore and characterize various quantum properties that emerge from this specific model of PQM. Firstly, we find that a single PQM displays memristive dynamics on its quantum coherence. Secondly, we show that a network made of two independent PQMs can manifest memory effects on the dynamics of both entanglement and coherence of correlated photons traveling through the network, regardless of their distance. Additionally, we build and run a circuit-model of the PQM on a real qubit-based quantum computer (IBM-Q), showing that: (i) this system can effectively be used for non-linear quantum computing under specific conditions, and (ii) digital quantum simulations can reproduce the dynamics of a memristive quantum system in a non-Markovian regime.
翻訳日:2024-11-07 21:09:04 公開日:2024-10-02
# 制御可能なRNA配列生成のための潜時拡散モデル

Latent Diffusion Models for Controllable RNA Sequence Generation ( http://arxiv.org/abs/2409.09828v2 )

ライセンス: Link先を確認
Kaixuan Huang, Yukang Yang, Kaidi Fu, Yanyi Chu, Le Cong, Mengdi Wang, (参考訳) この研究は、可変長の離散RNA配列の生成と最適化のための潜在拡散モデルであるRNA拡散を提示する。 RNAはDNAとタンパク質の間の重要な中間体であり、幅広い機能をサポートするために高い配列の多様性と複雑な3次元構造を示す。 我々は、事前訓練されたBERT型モデルを用いて、生RNA配列をトークンレベル、生物学的に意味のある表現に符号化する。 Query Transformerは、そのような表現を固定長の潜伏ベクトルの集合に圧縮するために使用され、これらの潜伏変数からRNA配列を再構成するように訓練された自己回帰デコーダである。 次に、この潜在空間内で連続拡散モデルを開発する。 最適化を実現するため、RNA機能特性の代用である報酬モデルの勾配を後方拡散プロセスに統合し、高い報酬スコアを持つRNAを生成する。 実験の結果、RNA拡散は様々な生物学的指標の自然な分布と一致した非コードRNAを生成することが確認された。 さらに,mRNA5'非翻訳領域(5'-UTRs)の拡散モデルを微調整し,高い翻訳効率のために配列を最適化する。 誘導拡散モデルでは,高平均リボソーム負荷 (MRL) と翻訳効率 (TE) を持つ5'-UTRを効果的に生成し,報酬のバランスや構造安定性のトレードオフに優れる。 本研究はRNAシークエンス・ファンクショナル・リサーチと治療用RNA設計の進歩の可能性を秘めている。

This work presents RNAdiffusion, a latent diffusion model for generating and optimizing discrete RNA sequences of variable lengths. RNA is a key intermediary between DNA and protein, exhibiting high sequence diversity and complex three-dimensional structures to support a wide range of functions. We utilize pretrained BERT-type models to encode raw RNA sequences into token-level, biologically meaningful representations. A Query Transformer is employed to compress such representations into a set of fixed-length latent vectors, with an autoregressive decoder trained to reconstruct RNA sequences from these latent variables. We then develop a continuous diffusion model within this latent space. To enable optimization, we integrate the gradients of reward models--surrogates for RNA functional properties--into the backward diffusion process, thereby generating RNAs with high reward scores. Empirical results confirm that RNAdiffusion generates non-coding RNAs that align with natural distributions across various biological metrics. Further, we fine-tune the diffusion model on mRNA 5' untranslated regions (5'-UTRs) and optimize sequences for high translation efficiencies. Our guided diffusion model effectively generates diverse 5'-UTRs with high Mean Ribosome Loading (MRL) and Translation Efficiency (TE), outperforming baselines in balancing rewards and structural stability trade-off. Our findings hold potential for advancing RNA sequence-function research and therapeutic RNA design.
翻訳日:2024-11-07 20:46:36 公開日:2024-10-02
# E2Map:言語モデルを用いた自己反射型ロボットナビゲーションのための経験・感情マップ

E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models ( http://arxiv.org/abs/2409.10027v2 )

ライセンス: Link先を確認
Chan Kim, Keonwoo Kim, Mintaek Oh, Hanbi Baek, Jiyang Lee, Donghwi Jung, Soojin Woo, Younkyung Woo, John Tucker, Roya Firoozi, Seung-Woo Seo, Mac Schwager, Seong-Woo Kim, (参考訳) 大型言語モデル (LLM) は、ロボット操作やナビゲーションを含む様々なタスクで言語命令を実行するためのエンボディエージェントを誘導する大きな可能性を示している。 しかし、既存の手法は主に静的環境向けに設計されており、エージェント自身の経験を生かして初期計画を洗練しない。 現実の環境は本質的に確率的であるため、LLMの一般的な知識のみに基づく初期計画は、静的シナリオとは異なり、目的達成に失敗する可能性がある。 この制限に対処するため、本研究では、LLM知識だけでなく、エージェントの現実世界の経験も統合し、人間の感情反応からインスピレーションを得るエクスペリエンス・アンド・感情マップ(E2Map)を紹介した。 提案手法はエージェントの経験に基づいてE2Mapを更新することでワンショット動作調整を可能にする。 シミュレーションと実世界のシナリオを含む確率的ナビゲーション環境における評価は,提案手法が従来のLCM手法と比較して確率的環境の性能を著しく向上することを示した。 コードと補足資料はhttps://e2map.github.io/.com/で入手できる。

Large language models (LLMs) have shown significant potential in guiding embodied agents to execute language instructions across a range of tasks, including robotic manipulation and navigation. However, existing methods are primarily designed for static environments and do not leverage the agent's own experiences to refine its initial plans. Given that real-world environments are inherently stochastic, initial plans based solely on LLMs' general knowledge may fail to achieve their objectives, unlike in static scenarios. To address this limitation, this study introduces the Experience-and-Emotion Map (E2Map), which integrates not only LLM knowledge but also the agent's real-world experiences, drawing inspiration from human emotional responses. The proposed methodology enables one-shot behavior adjustments by updating the E2Map based on the agent's experiences. Our evaluation in stochastic navigation environments, including both simulations and real-world scenarios, demonstrates that the proposed method significantly enhances performance in stochastic environments compared to existing LLM-based approaches. Code and supplementary materials are available at https://e2map.github.io/.
翻訳日:2024-11-07 20:35:12 公開日:2024-10-02
# GDA, GermEval2024共有タスク1: GerMS-Detect, Subtasks 1, 2, Closed Track)

Detecting Sexism in German Online Newspaper Comments with Open-Source Text Embeddings (Team GDA, GermEval2024 Shared Task 1: GerMS-Detect, Subtasks 1 and 2, Closed Track) ( http://arxiv.org/abs/2409.10341v2 )

ライセンス: Link先を確認
Florian Bremm, Patrick Gustav Blaneck, Tobias Bornheim, Niklas Grieger, Stephan Bialonski, (参考訳) オンラインメディアのコメントにおける性差別は、しばしば微妙に現れ、性差別を構成するものの解釈としてモデレーションの努力を複雑化する広汎な挑戦である。 オーストリアの新聞のドイツ語オンラインコメントにおいて,性差別や誤用を確実に検出するために,単言語および多言語対応のオープンソーステキスト埋め込みについて検討した。 テキスト埋め込みで訓練された分類器を観察し,人間のアノテーションの個々の判断を忠実に模倣した。 GermEval 2024 GerMS-Detect Subtask 1では,平均マクロF1スコアが0.597(Codabenchでは4位)に達した。 また、GerMS-Detect Subtask 2における人間のアノテーションの分布を正確に予測し、平均Jensen-Shannon距離は0.301(第2位)であった。 このアプローチの計算効率は、様々な言語や言語コンテキストにまたがるスケーラブルなアプリケーションの可能性を示している。

Sexism in online media comments is a pervasive challenge that often manifests subtly, complicating moderation efforts as interpretations of what constitutes sexism can vary among individuals. We study monolingual and multilingual open-source text embeddings to reliably detect sexism and misogyny in German-language online comments from an Austrian newspaper. We observed classifiers trained on text embeddings to mimic closely the individual judgements of human annotators. Our method showed robust performance in the GermEval 2024 GerMS-Detect Subtask 1 challenge, achieving an average macro F1 score of 0.597 (4th place, as reported on Codabench). It also accurately predicted the distribution of human annotations in GerMS-Detect Subtask 2, with an average Jensen-Shannon distance of 0.301 (2nd place). The computational efficiency of our approach suggests potential for scalable applications across various languages and linguistic contexts.
翻訳日:2024-11-07 20:35:12 公開日:2024-10-02
# 抗体開発のための対向型シェイピング

Opponent Shaping for Antibody Development ( http://arxiv.org/abs/2409.10588v4 )

ライセンス: Link先を確認
Sebastian Towers, Aleksandra Kalisz, Philippe A. Robert, Alicia Higueruelo, Francesca Vianello, Ming-Han Chloe Tsai, Harrison Steel, Jakob N. Foerster, (参考訳) 抗ウイルス療法は通常、ウイルスの現在の株を標的とするように設計されている。 ゲーム理論上、これは近視眼または近視眼の反応に対応する。 しかし、治療によって誘導される選択的圧力はウイルス抗原に作用し、変異株の出現を促進する。 抗体とウイルス抗原の結合の計算モデル(Absolut!フレームワーク)に基づいて、このようなウイルスの進化的脱出の遺伝的シミュレーションを設計し、実装する。 重要なことに、私たちの抗体最適化アルゴリズムはウイルスの脱出曲線全体、すなわちウイルスの進化を導く(または「形」)ことを考慮し、影響を及ぼすことができます。 これは、一般的には、ミオピック・ベスト・レスポンスではなく、共プレイヤの適応を考慮に入れている相手のシェーピングにインスパイアされている。 したがって、私たちは最適化された抗体をシェーパと呼ぶ。 シミュレーションでは,現在およびシミュレーション中のウイルス変異体の両方を標的とし,筋電図で選択した抗体よりも優れた結果が得られた。 さらに, ウイルスに特異的な進化的圧力が作用していることが, 筋電図抗体と比較された。 いずれにせよ、シェイパーはウイルス株の進化の軌跡を修正し、ウイルスの脱出を心筋のそれと比べて最小化する。 これは単純化されたモデルであるが、我々の提案するパラダイムは、シミュレーションツールの能力の急速な進歩によって、将来より長寿命なワクチンや抗体療法の発見を可能にすることを願っている。 私たちのコードはhttps://github.com/olakalisz/antibody-shapers.comで利用可能です。

Anti-viral therapies are typically designed to target the current strains of a virus. Game theoretically, this corresponds to a short-sighted, or myopic, response. However, therapy-induced selective pressures act on viral antigens to drive the emergence of mutated strains, against which initial therapies have reduced efficacy. Building on a computational model of binding between antibodies and viral antigens (the Absolut! framework), we design and implement a genetic simulation of such viral evolutionary escape. Crucially, this allows our antibody optimisation algorithm to consider and influence the entire escape curve of the virus, i.e. to guide (or ''shape'') the viral evolution. This is inspired by opponent shaping which, in general-sum learning, accounts for the adaptation of the co-player rather than playing a myopic best response. Hence we call the optimised antibodies shapers. Within our simulations, we demonstrate that our shapers target both current and simulated future viral variants, outperforming the antibodies chosen in a myopic way. Furthermore, we show that shapers exert specific evolutionary pressure on the virus compared to myopic antibodies. Altogether, shapers modify the evolutionary trajectories of viral strains and minimise the viral escape compared to their myopic counterparts. While this is a simplified model, we hope that our proposed paradigm will enable the discovery of better long-lived vaccines and antibody therapies in the future, enabled by rapid advancements in the capabilities of simulation tools. Our code is available at https://github.com/olakalisz/antibody-shapers.
翻訳日:2024-11-07 20:24:12 公開日:2024-10-02
# 抗体開発のための対向型シェイピング

Opponent Shaping for Antibody Development ( http://arxiv.org/abs/2409.10588v5 )

ライセンス: Link先を確認
Sebastian Towers, Aleksandra Kalisz, Philippe A. Robert, Alicia Higueruelo, Francesca Vianello, Ming-Han Chloe Tsai, Harrison Steel, Jakob N. Foerster, (参考訳) 抗ウイルス療法は通常、ウイルスの現在の株を標的とするように設計されている。 ゲーム理論上、これは近視眼または近視眼の反応に対応する。 しかし、治療によって誘導される選択的圧力はウイルス抗原に作用し、変異株の出現を促進する。 抗体とウイルス抗原の結合の計算モデル(Absolut!フレームワーク)に基づいて、このようなウイルスの進化的脱出の遺伝的シミュレーションを設計し、実装する。 重要なことに、私たちの抗体最適化アルゴリズムはウイルスの脱出曲線全体、すなわちウイルスの進化を導く(または「形」)ことを考慮し、影響を及ぼすことができます。 これは、一般的には、ミオピック・ベスト・レスポンスではなく、共プレイヤの適応を考慮に入れている相手のシェーピングにインスパイアされている。 したがって、私たちは最適化された抗体をシェーパと呼ぶ。 シミュレーションでは,現在およびシミュレーション中のウイルス変異体の両方を標的とし,筋電図で選択した抗体よりも優れた結果が得られた。 さらに, ウイルスに特異的な進化的圧力が作用していることが, 筋電図抗体と比較された。 いずれにせよ、シェイパーはウイルス株の進化の軌跡を修正し、ウイルスの脱出を心筋のそれと比べて最小化する。 これは単純化されたモデルであるが、我々の提案するパラダイムは、シミュレーションツールの能力の急速な進歩によって、将来より長寿命なワクチンや抗体療法の発見を可能にすることを願っている。 私たちのコードはhttps://github.com/olakalisz/antibody-shapers.comで利用可能です。

Anti-viral therapies are typically designed to target the current strains of a virus. Game theoretically, this corresponds to a short-sighted, or myopic, response. However, therapy-induced selective pressures act on viral antigens to drive the emergence of mutated strains, against which initial therapies have reduced efficacy. Building on a computational model of binding between antibodies and viral antigens (the Absolut! framework), we design and implement a genetic simulation of such viral evolutionary escape. Crucially, this allows our antibody optimisation algorithm to consider and influence the entire escape curve of the virus, i.e. to guide (or ''shape'') the viral evolution. This is inspired by opponent shaping which, in general-sum learning, accounts for the adaptation of the co-player rather than playing a myopic best response. Hence we call the optimised antibodies shapers. Within our simulations, we demonstrate that our shapers target both current and simulated future viral variants, outperforming the antibodies chosen in a myopic way. Furthermore, we show that shapers exert specific evolutionary pressure on the virus compared to myopic antibodies. Altogether, shapers modify the evolutionary trajectories of viral strains and minimise the viral escape compared to their myopic counterparts. While this is a simplified model, we hope that our proposed paradigm will enable the discovery of better long-lived vaccines and antibody therapies in the future, enabled by rapid advancements in the capabilities of simulation tools. Our code is available at https://github.com/olakalisz/antibody-shapers.
翻訳日:2024-11-07 20:24:12 公開日:2024-10-02
# 抗体開発のための対向型シェイピング

Opponent Shaping for Antibody Development ( http://arxiv.org/abs/2409.10588v6 )

ライセンス: Link先を確認
Sebastian Towers, Aleksandra Kalisz, Philippe A. Robert, Alicia Higueruelo, Francesca Vianello, Ming-Han Chloe Tsai, Harrison Steel, Jakob N. Foerster, (参考訳) 抗ウイルス療法は通常、ウイルスの現在の株のみを標的とするように設計されている。 ゲーム理論上、これは近視眼または近視眼の反応に対応する。 しかし、治療によって誘導される選択的圧力はウイルスに作用し、変異株の出現を誘導し、初期治療が効果を低下させる。 抗体とウイルス抗原の結合の計算モデル(Absolut!フレームワーク)に基づいて、ウイルスの進化的脱出の遺伝的シミュレーションを設計し、実装する。 重要なことに、私たちの抗体最適化アルゴリズムはウイルスの脱出曲線全体、すなわちウイルスの進化を誘導(あるいは「形」)するために考慮し、影響を及ぼすことができます。 これは、一般的には、ミオピック・ベスト・レスポンスではなく、共プレイヤの適応を考慮に入れている相手のシェーピングにインスパイアされている。 したがって、私たちは最適化された抗体をシェーパと呼ぶ。 シミュレーションでは,現在およびシミュレーション中のウイルス変異体の両方を標的とし,筋電図で選択した抗体よりも優れた結果が得られた。 さらに, ウイルスに特異的な進化的圧力が作用していることが, 筋電図抗体と比較された。 いずれにせよ、シェイパーはウイルス株の進化の軌跡を修正し、ウイルスの脱出を心筋のそれと比べて最小化する。 これは単純化されたモデルであるが、我々の提案するパラダイムは、シミュレーションツールの能力の急速な進歩により、将来より長寿命なワクチンや抗体療法の発見を促進することを願っている。 私たちのコードはhttps://github.com/olakalisz/antibody-shapers.comで利用可能です。

Anti-viral therapies are typically designed to target only the current strains of a virus. Game theoretically, this corresponds to a short-sighted, or myopic, response. However, therapy-induced selective pressures act on viruses to drive the emergence of mutated strains, against which initial therapies have reduced efficacy. Building on a computational model of binding between antibodies and viral antigens (the Absolut! framework), we design and implement a genetic simulation of viral evolutionary escape. Crucially, this allows our antibody optimisation algorithm to consider and influence the entire escape curve of the virus, i.e. to guide (or "shape") the viral evolution. This is inspired by opponent shaping which, in general-sum learning, accounts for the adaptation of the co-player rather than playing a myopic best response. Hence we call the optimised antibodies shapers. Within our simulations, we demonstrate that our shapers target both current and simulated future viral variants, outperforming the antibodies chosen in a myopic way. Furthermore, we show that shapers exert specific evolutionary pressure on the virus compared to myopic antibodies. Altogether, shapers modify the evolutionary trajectories of viral strains and minimise the viral escape compared to their myopic counterparts. While this is a simplified model, we hope that our proposed paradigm will facilitate the discovery of better long-lived vaccines and antibody therapies in the future, enabled by rapid advancements in the capabilities of simulation tools. Our code is available at https://github.com/olakalisz/antibody-shapers.
翻訳日:2024-11-07 20:24:12 公開日:2024-10-02
# 適応型光音響CTのためのニューラルネットワーク

Neural Fields for Adaptive Photoacoustic Computed Tomography ( http://arxiv.org/abs/2409.10876v2 )

ライセンス: Link先を確認
Tianao Li, Manxiu Cui, Cheng Ma, Emma Alexander, (参考訳) 光音響CT(PACT)は広範に応用された非侵襲的な画像モダリティである。 従来のPACT画像再構成アルゴリズムは、組織内の音の異種速度(SOS)による波面歪みに悩まされ、画像劣化を引き起こす。 これらの効果を考慮に入れると画質が向上するが、SOS分布の測定は実験的に高価である。 もう一つのアプローチは、PA信号のみを用いて初期圧力画像とSOSを共同で再構成することである。 既存の共同再構築手法には、計算コストの高いこと、SOSを直接回復できないこと、不正確な単純化仮定に依存すること、といった制限がある。 インプシット神経表現(インプシット神経表現、英: Implicit Neural representation)は、座標ベースニューラルネットワークを用いて物理場の効率的かつ連続的な表現を学ぶための、コンピュータビジョンの新たな技術である。 本研究では、ニューラルネットワークを利用した効率的な自己教師型フレームワークであるNF-APACTを導入し、正確で堅牢なマルチチャネルデコンボリューションを実現するためのSOSを推定する。 本手法は,SOSの収差を既存手法よりも高速かつ高精度に除去する。 実験で収集したファントムおよび生体内データを用いて,新しい数値ファントムを用いて,本手法の有効性を実証した。 我々のコードと数値ファントムはhttps://github.com/Lukeli0425/NF-APACT.comで入手できる。

Photoacoustic computed tomography (PACT) is a non-invasive imaging modality with wide medical applications. Conventional PACT image reconstruction algorithms suffer from wavefront distortion caused by the heterogeneous speed of sound (SOS) in tissue, which leads to image degradation. Accounting for these effects improves image quality, but measuring the SOS distribution is experimentally expensive. An alternative approach is to perform joint reconstruction of the initial pressure image and SOS using only the PA signals. Existing joint reconstruction methods come with limitations: high computational cost, inability to directly recover SOS, and reliance on inaccurate simplifying assumptions. Implicit neural representation, or neural fields, is an emerging technique in computer vision to learn an efficient and continuous representation of physical fields with a coordinate-based neural network. In this work, we introduce NF-APACT, an efficient self-supervised framework utilizing neural fields to estimate the SOS in service of an accurate and robust multi-channel deconvolution. Our method removes SOS aberrations an order of magnitude faster and more accurately than existing methods. We demonstrate the success of our method on a novel numerical phantom as well as an experimentally collected phantom and in vivo data. Our code and numerical phantom are available at https://github.com/Lukeli0425/NF-APACT.
翻訳日:2024-11-07 20:24:09 公開日:2024-10-02
# 階層的ナラティブ分析 - 生成AIの知覚を明らかにする

Hierarchical Narrative Analysis: Unraveling Perceptions of Generative AI ( http://arxiv.org/abs/2409.11032v2 )

ライセンス: Link先を確認
Riona Matsuoka, Hiroki Matsumoto, Takahiro Yoshida, Tomohiro Watanabe, Ryoma Kondo, Ryohei Hisano, (参考訳) 文章は著者の視点を反映しており、文学の徹底的な分析が人文科学や社会科学などの分野における重要な研究手法となっている。 しかし、感情分析やトピックモデリングのような従来のテキストマイニング技術は、より深い議論的パターンを示す階層的な物語構造を捉える能力に制限がある。 このギャップに対処するために,大規模言語モデル(LLM)を利用して,これらの構造を階層的な枠組みに抽出・整理する手法を提案する。 我々は,日本の文化庁が収集した生成AIに関する世論を分析し,サポーターや批評家の物語と比較することによって,このアプローチを検証した。 我々の分析は、生成的AIに対する多様な意見に影響を与える要因のより明確な可視化を提供し、合意と不一致の構造に関する深い洞察を提供する。

Written texts reflect an author's perspective, making the thorough analysis of literature a key research method in fields such as the humanities and social sciences. However, conventional text mining techniques like sentiment analysis and topic modeling are limited in their ability to capture the hierarchical narrative structures that reveal deeper argumentative patterns. To address this gap, we propose a method that leverages large language models (LLMs) to extract and organize these structures into a hierarchical framework. We validate this approach by analyzing public opinions on generative AI collected by Japan's Agency for Cultural Affairs, comparing the narratives of supporters and critics. Our analysis provides clearer visualization of the factors influencing divergent opinions on generative AI, offering deeper insights into the structures of agreement and disagreement.
翻訳日:2024-11-07 20:13:03 公開日:2024-10-02
# LLM-as-a-Judge & Reward Model - できることとできないこと

LLM-as-a-Judge & Reward Model: What They Can and Cannot Do ( http://arxiv.org/abs/2409.11239v2 )

ライセンス: Link先を確認
Guijin Son, Hyunwoo Ko, Hoyoung Lee, Yewon Kim, Seunghyeok Hong, (参考訳) LLM-as-a-Judge(英語版)と報酬モデル(英語版)は、大規模言語モデル(LLM)評価のための多選択質問や人間のアノテータの代替として広く用いられている。 彼らの効果は、長文反応の評価において輝き、リーダーボードの評価や、強化学習を通じてLSMを調整するためのプロキシとして重要な役割を担っている。 しかし、その人気にもかかわらず、非英語のプロンプト、事実検証、難解な質問など、様々な文脈での有効性は未解明のままである。 本稿では,自動評価器の総合的な分析を行い,その挙動に関するいくつかの重要な知見を報告する。 まず,英語による評価能力が,言語能力そのものよりも言語固有の評価能力に大きく影響していることに気付き,英語で訓練された評価者が他の言語に容易にスキルを移すことを可能にした。 第2に,LLMが事実的不正確さ,文化的誤表現,不必要な言語の存在など,誤りを検出し,罰せられない重大な欠点を特定する。 最後に、現在最先端の評価者は、英語と韓国語の両方において、複雑な推論問題の評価や生成の限界について、挑戦的なプロンプトに苦しむことに気付きました。 使用するデータセットとコードをリリースします。

LLM-as-a-Judge and reward models are widely used alternatives of multiple-choice questions or human annotators for large language model (LLM) evaluation. Their efficacy shines in evaluating long-form responses, serving a critical role as evaluators of leaderboards and as proxies to align LLMs via reinforcement learning. However, despite their popularity, their effectiveness in diverse contexts, such as non-English prompts, factual verification, or challenging questions, remains unexplored. In this paper, we conduct a comprehensive analysis of automated evaluators, reporting several key findings on their behavior. First, we discover that English evaluation capabilities significantly influence language-specific evaluation capabilities, often more than the language proficiency itself, enabling evaluators trained in English to easily transfer their skills to other languages. Second, we identify critical shortcomings, where LLMs fail to detect and penalize errors, such as factual inaccuracies, cultural misrepresentations, and the presence of unwanted language. Finally, we find that state-of-the-art evaluators struggle with challenging prompts, in either English or Korean, underscoring their limitations in assessing or generating complex reasoning questions. We release the dataset and codes used.
翻訳日:2024-11-07 20:13:03 公開日:2024-10-02
# プレコンディションとエフェクト知識を用いた大規模言語モデルによる世界モデルの構築

Making Large Language Models into World Models with Precondition and Effect Knowledge ( http://arxiv.org/abs/2409.12278v1 )

ライセンス: Link先を確認
Kaige Xie, Ian Yang, John Gunerli, Mark Riedl, (参考訳) アクションが環境に与える影響のダイナミクスをカプセル化した世界モデルは、インテリジェントエージェントの機能の基盤となっている。 本研究では,Large Language Models (LLM) が世界モデルとして機能する可能性について検討する。 LLMは本質的には実世界の力学をモデル化するために設計されていないが、与えられた世界状態に基づいて行動の適用性を決定することと、行動実行の結果として生じる世界状態を予測することの2つの重要な世界モデル関数の実行を誘導できることが示される。 これは、プレコンディション予測のための2つの別個のLSMを微調整し、さらに合成データ生成技術を利用した効果予測を行う。 人間の参加者による研究を通して、我々のモデルが生み出す前提条件と効果知識が、世界力学の人間の理解と一致していることを検証する。 また、我々の合成データに基づいてトレーニングされた世界モデルが、行動連鎖の生成をサポートする推論された状態空間(計画に必要な特性)に与える影響についても分析する。

World models, which encapsulate the dynamics of how actions affect environments, are foundational to the functioning of intelligent agents. In this work, we explore the potential of Large Language Models (LLMs) to operate as world models. Although LLMs are not inherently designed to model real-world dynamics, we show that they can be induced to perform two critical world model functions: determining the applicability of an action based on a given world state, and predicting the resulting world state upon action execution. This is achieved by fine-tuning two separate LLMs-one for precondition prediction and another for effect prediction-while leveraging synthetic data generation techniques. Through human-participant studies, we validate that the precondition and effect knowledge generated by our models aligns with human understanding of world dynamics. We also analyze the extent to which the world model trained on our synthetic data results in an inferred state space that supports the creation of action chains, a necessary property for planning.
翻訳日:2024-11-07 15:38:21 公開日:2024-10-02
# プレコンディションとエフェクト知識を用いた大規模言語モデルによる世界モデルの構築

Making Large Language Models into World Models with Precondition and Effect Knowledge ( http://arxiv.org/abs/2409.12278v2 )

ライセンス: Link先を確認
Kaige Xie, Ian Yang, John Gunerli, Mark Riedl, (参考訳) アクションが環境に与える影響のダイナミクスをカプセル化した世界モデルは、インテリジェントエージェントの機能の基盤となっている。 本研究では,Large Language Models (LLM) が世界モデルとして機能する可能性について検討する。 LLMは本質的には実世界の力学をモデル化するために設計されていないが、与えられた世界状態に基づいて行動の適用性を決定することと、行動実行の結果として生じる世界状態を予測することの2つの重要な世界モデル関数の実行を誘導できることが示される。 これは、プレコンディション予測のための2つの別個のLSMを微調整し、さらに合成データ生成技術を利用した効果予測を行う。 人間の参加者による研究を通して、我々のモデルが生み出す前提条件と効果知識が、世界力学の人間の理解と一致していることを検証する。 また、我々の合成データに基づいてトレーニングされた世界モデルが、行動連鎖の生成をサポートする推論された状態空間(計画に必要な特性)に与える影響についても分析する。

World models, which encapsulate the dynamics of how actions affect environments, are foundational to the functioning of intelligent agents. In this work, we explore the potential of Large Language Models (LLMs) to operate as world models. Although LLMs are not inherently designed to model real-world dynamics, we show that they can be induced to perform two critical world model functions: determining the applicability of an action based on a given world state, and predicting the resulting world state upon action execution. This is achieved by fine-tuning two separate LLMs-one for precondition prediction and another for effect prediction-while leveraging synthetic data generation techniques. Through human-participant studies, we validate that the precondition and effect knowledge generated by our models aligns with human understanding of world dynamics. We also analyze the extent to which the world model trained on our synthetic data results in an inferred state space that supports the creation of action chains, a necessary property for planning.
翻訳日:2024-11-07 15:38:21 公開日:2024-10-02
# 知識に基づくドメイン指向データ拡張による教師なし文埋め込みの促進

Knowledge-Based Domain-Oriented Data Augmentation for Enhancing Unsupervised Sentence Embedding ( http://arxiv.org/abs/2409.12887v1 )

ライセンス: Link先を確認
Peichao Lai, Zhengfeng Zhang, Bin Cui, (参考訳) 近年,下流自然言語処理タスクにおいて,教師なし文埋め込みモデルに大きな注目を集めている。 データ拡張に大規模言語モデル(LLM)を使用すると、以前の研究でかなりの改善がなされた。 それでもこれらの戦略は、広範囲な汎用コーパスによるデータ拡張を強調し、少数ショットのドメインデータの考慮を無視している。 合成されたデータは微細な情報を欠き、負のサンプルノイズを生じさせることがある。 本研究では、LLMを利用してドメイン固有のデータセットを合成するパイプラインベースの新しいデータ拡張手法を提案する。 エンティティと量認識の強化を通じて、正と負の両方のサンプルを生成し、エンティティ知識グラフを使用して、きめ細かいセマンティックな区別でサンプルを合成し、サンプルの多様性と関連性を訓練する。 次に,Gaussian-decayed gradient-assisted Contrastive Sentence Embedding (GCSE)モデルを提案する。 実験により, 合成データサンプルが少なく, LLMパラメータが少なく, 各種バックボーンの効率性と頑健さを実証し, 最先端のセマンティックテキスト類似性性能を実証した。

Recently, unsupervised sentence embedding models have received significant attention in downstream natural language processing tasks. Using large language models (LLMs) for data augmentation has led to considerable improvements in previous studies. Nevertheless, these strategies emphasize data augmentation with extensive generic corpora, neglecting the consideration of few-shot domain data. The synthesized data lacks fine-grained information and may introduce negative sample noise. This study introduces a novel pipeline-based data augmentation method that leverages LLM to synthesize the domain-specific dataset. It produces both positive and negative samples through entity- and quantity-aware augmentation, utilizing an entity knowledge graph to synthesize samples with fine-grained semantic distinctions, increasing training sample diversity and relevance. We then present a Gaussian-decayed gradient-assisted Contrastive Sentence Embedding (GCSE) model to reduce synthetic data noise and improve model discrimination to reduce negative sample noise. Experimental results demonstrate that our approach achieves state-of-the-art semantic textual similarity performance with fewer synthetic data samples and lesser LLM parameters, demonstrating its efficiency and robustness in varied backbones.
翻訳日:2024-11-07 12:59:09 公開日:2024-10-02
# 知識駆動型データ拡張とガウス型コントラスト学習による教師なし文の埋め込みの促進

Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning ( http://arxiv.org/abs/2409.12887v2 )

ライセンス: Link先を確認
Peichao Lai, Zhengfeng Zhang, Wentao Zhang, Fangcheng Fu, Bin Cui, (参考訳) 近年,データ拡張のための大規模言語モデル (LLM) の使用により,教師なし文の埋め込みモデルが大幅に改善されている。 しかし、既存の手法では、データ多様性の制限と高ノイズという2つの大きな課題に直面している。 現在のアプローチでは、実体や量といった細かい知識を無視することが多く、多様性が不足している。 さらに、教師なしデータは識別情報を欠くことが多く、生成した合成サンプルはノイズを発生させることがある。 本稿では,LLMを用いたパイプラインベースのデータ拡張手法を提案し,非教師なし文の埋め込みを改善するために,ガウス型勾配支援コントラスト・センテンス・エンベディング(GCSE)モデルを提案する。 データ多様性の低い問題に対処するため、私たちのパイプラインは知識グラフ(KGs)を使用してエンティティや量を抽出し、LLMがより多様な知識に富んだサンプルを生成することができる。 高いデータノイズに対処するため、GCSEモデルはガウス分解関数を使用して偽のハードネガティブサンプルの影響を制限し、モデルの識別能力を高める。 実験結果から,本手法は意味的テキスト類似性(STS)タスクにおいて,より少ないデータサンプルと少ないLCMを用いて,その効率性と頑健性を示す。

Recently, using large language models (LLMs) for data augmentation has led to considerable improvements in unsupervised sentence embedding models. However, existing methods encounter two primary challenges: limited data diversity and high data noise. Current approaches often neglect fine-grained knowledge, such as entities and quantities, leading to insufficient diversity. Additionally, unsupervised data frequently lacks discriminative information, and the generated synthetic samples may introduce noise. In this paper, we propose a pipeline-based data augmentation method via LLMs and introduce the Gaussian-decayed gradient-assisted Contrastive Sentence Embedding (GCSE) model to enhance unsupervised sentence embeddings. To tackle the issue of low data diversity, our pipeline utilizes knowledge graphs (KGs) to extract entities and quantities, enabling LLMs to generate more diverse, knowledge-enriched samples. To address high data noise, the GCSE model uses a Gaussian-decayed function to limit the impact of false hard negative samples, enhancing the model's discriminative capability. Experimental results show that our approach achieves state-of-the-art performance in semantic textual similarity (STS) tasks, using fewer data samples and smaller LLMs, demonstrating its efficiency and robustness across various models.
翻訳日:2024-11-07 12:59:09 公開日:2024-10-02
# ビデオLLMの補間:訓練不要マンナーにおけるLMMの長期化に向けて

Interpolating Video-LLMs: Toward Longer-sequence LMMs in a Training-free Manner ( http://arxiv.org/abs/2409.12963v1 )

ライセンス: Link先を確認
Yuzhang Shang, Bingxin Xu, Weitai Kang, Mu Cai, Yuheng Li, Zehao Wen, Zhen Dong, Kurt Keutzer, Yong Jae Lee, Yan Yan, (参考訳) 大規模言語モデル(LLM)の進歩は、ビデオモダリティを統合するための様々な戦略を刺激する。 主要なアプローチは、高度なビデオエンコーダをLLMにリンクする最適化可能なインターフェースであるVideo-LLMsである。 しかしながら、計算とデータ制限のため、これらのビデオ-LLMは通常、短いビデオのみを処理するために事前訓練され、長いビデオコンテンツを理解するためのより広範なアプリケーションに制限される。 さらに、長いビデオを扱うための微調整ビデオ-LLMはコストを抑える。 その結果,ビデオLLMの補間を,完全にトレーニング不要な環境で探究することが重要となる。 本稿では,(1)ビデオエンコーダとモードアライメントプロジェクタの固定化により,ビデオLLMへの追加フレームの統合を防止し,(2)LLMバックボーンのコンテント長が制限され,ビデオトークンの処理が複雑になる。 これらの課題に対処するため,ビデオLLM(INTP-Video-LLMs)のためのINTerPolation法を提案する。 固定ビデオエンコーダとアライメントプロジェクタの制約を回避するための代替ビデオトークン再構成手法を提案する。 さらに,ビデオLLMが対応する視覚トークン数の増加を理解できるように,学習不要なLLMコンテキストウィンドウ拡張手法を提案する。

Advancements in Large Language Models (LLMs) inspire various strategies for integrating video modalities. A key approach is Video-LLMs, which incorporate an optimizable interface linking sophisticated video encoders to LLMs. However, due to computation and data limitations, these Video-LLMs are typically pre-trained to process only short videos, limiting their broader application for understanding longer video content. Additionally, fine-tuning Video-LLMs to handle longer videos is cost-prohibitive. Consequently, it becomes essential to explore the interpolation of Video-LLMs under a completely training-free setting. In this paper, we first identify the primary challenges in interpolating Video-LLMs: (1) the video encoder and modality alignment projector are fixed, preventing the integration of additional frames into Video-LLMs, and (2) the LLM backbone is limited in its content length capabilities, which complicates the processing of an increased number of video tokens. To address these challenges, we propose a specific INTerPolation method for Video-LLMs (INTP-Video-LLMs). We introduce an alternative video token rearrangement technique that circumvents limitations imposed by the fixed video encoder and alignment projector. Furthermore, we introduce a training-free LLM context window extension method to enable Video-LLMs to understand a correspondingly increased number of visual tokens.
翻訳日:2024-11-07 12:36:59 公開日:2024-10-02
# ビデオLLMの補間:訓練不要マンナーにおけるLMMの長期化に向けて

Interpolating Video-LLMs: Toward Longer-sequence LMMs in a Training-free Manner ( http://arxiv.org/abs/2409.12963v2 )

ライセンス: Link先を確認
Yuzhang Shang, Bingxin Xu, Weitai Kang, Mu Cai, Yuheng Li, Zehao Wen, Zhen Dong, Kurt Keutzer, Yong Jae Lee, Yan Yan, (参考訳) 大規模言語モデル(LLM)の進歩は、ビデオモダリティを統合するための様々な戦略を刺激する。 主要なアプローチは、高度なビデオエンコーダをLLMにリンクする最適化可能なインターフェースであるVideo-LLMsである。 しかしながら、計算とデータ制限のため、これらのビデオ-LLMは通常、短いビデオのみを処理するために事前訓練され、長いビデオコンテンツを理解するためのより広範なアプリケーションに制限される。 さらに、長いビデオを扱うための微調整ビデオ-LLMはコストを抑える。 その結果,ビデオLLMの補間を,完全にトレーニング不要な環境で探究することが重要となる。 本稿では,(1)ビデオエンコーダとモードアライメントプロジェクタの固定化により,ビデオLLMへの追加フレームの統合を防止し,(2)LLMバックボーンのコンテント長が制限され,ビデオトークンの処理が複雑になる。 これらの課題に対処するため,ビデオLLM(INTP-Video-LLMs)のためのINTerPolation法を提案する。 固定ビデオエンコーダとアライメントプロジェクタの制約を回避するための代替ビデオトークン再構成手法を提案する。 さらに,ビデオLLMが対応する視覚トークン数の増加を理解できるように,学習不要なLLMコンテキストウィンドウ拡張手法を提案する。

Advancements in Large Language Models (LLMs) inspire various strategies for integrating video modalities. A key approach is Video-LLMs, which incorporate an optimizable interface linking sophisticated video encoders to LLMs. However, due to computation and data limitations, these Video-LLMs are typically pre-trained to process only short videos, limiting their broader application for understanding longer video content. Additionally, fine-tuning Video-LLMs to handle longer videos is cost-prohibitive. Consequently, it becomes essential to explore the interpolation of Video-LLMs under a completely training-free setting. In this paper, we first identify the primary challenges in interpolating Video-LLMs: (1) the video encoder and modality alignment projector are fixed, preventing the integration of additional frames into Video-LLMs, and (2) the LLM backbone is limited in its content length capabilities, which complicates the processing of an increased number of video tokens. To address these challenges, we propose a specific INTerPolation method for Video-LLMs (INTP-Video-LLMs). We introduce an alternative video token rearrangement technique that circumvents limitations imposed by the fixed video encoder and alignment projector. Furthermore, we introduce a training-free LLM context window extension method to enable Video-LLMs to understand a correspondingly increased number of visual tokens.
翻訳日:2024-11-07 12:36:59 公開日:2024-10-02
# DiffSSD: 音声鑑定のための拡散ベースデータセット

DiffSSD: A Diffusion-Based Dataset For Speech Forensics ( http://arxiv.org/abs/2409.13049v1 )

ライセンス: Link先を確認
Kratika Bhagtani, Amit Kumar Singh Yadav, Paolo Bestagini, Edward J. Delp, (参考訳) 拡散に基づく音声生成装置はユビキタスである。 これらの手法は、非常に高品質な合成音声を生成することができ、近年のいくつかの事件では、その悪用が報告されている。 このような誤用に対抗するため、合成音声検出器が開発された。 これらの検出器の多くは拡散ベースのシンセサイザーを含まないデータセットで訓練されている。 本稿では,1つのデータセット ASVspoof2019 で訓練された既存の検出器が,近年の拡散型合成器から合成音声を検出するのに有効ではないことを示す。 約200時間のラベル付き音声からなるDiffSSD(Diffusion-based Synthetic Speech Dataset)を提案する。 また,DiffSSDにおける既存の合成音声検出装置の性能を,クローズドセットとオープンセットの両方のシナリオで検証した。 その結果,近年のオープンソースおよび商用音声生成装置から生成された合成音声を検出する上で,このデータセットの重要性が浮き彫りになった。

Diffusion-based speech generators are ubiquitous. These methods can generate very high quality synthetic speech and several recent incidents report their malicious use. To counter such misuse, synthetic speech detectors have been developed. Many of these detectors are trained on datasets which do not include diffusion-based synthesizers. In this paper, we demonstrate that existing detectors trained on one such dataset, ASVspoof2019, do not perform well in detecting synthetic speech from recent diffusion-based synthesizers. We propose the Diffusion-Based Synthetic Speech Dataset (DiffSSD), a dataset consisting of about 200 hours of labeled speech, including synthetic speech generated by 8 diffusion-based open-source and 2 commercial generators. We also examine the performance of existing synthetic speech detectors on DiffSSD in both closed-set and open-set scenarios. The results highlight the importance of this dataset in detecting synthetic speech generated from recent open-source and commercial speech generators.
翻訳日:2024-11-07 12:14:24 公開日:2024-10-02
# DiffSSD: 音声鑑定のための拡散ベースデータセット

DiffSSD: A Diffusion-Based Dataset For Speech Forensics ( http://arxiv.org/abs/2409.13049v2 )

ライセンス: Link先を確認
Kratika Bhagtani, Amit Kumar Singh Yadav, Paolo Bestagini, Edward J. Delp, (参考訳) 拡散に基づく音声生成装置はユビキタスである。 これらの手法は、非常に高品質な合成音声を生成することができ、近年のいくつかの事件では、その悪用が報告されている。 このような誤用に対抗するため、合成音声検出器が開発された。 これらの検出器の多くは拡散ベースのシンセサイザーを含まないデータセットで訓練されている。 本稿では,1つのデータセット ASVspoof2019 で訓練された既存の検出器が,近年の拡散型合成器から合成音声を検出するのに有効ではないことを示す。 約200時間のラベル付き音声からなるDiffSSD(Diffusion-based Synthetic Speech Dataset)を提案する。 また,DiffSSDにおける既存の合成音声検出装置の性能を,クローズドセットとオープンセットの両方のシナリオで検証した。 その結果,近年のオープンソースおよび商用音声生成装置から生成された合成音声を検出する上で,このデータセットの重要性が浮き彫りになった。

Diffusion-based speech generators are ubiquitous. These methods can generate very high quality synthetic speech and several recent incidents report their malicious use. To counter such misuse, synthetic speech detectors have been developed. Many of these detectors are trained on datasets which do not include diffusion-based synthesizers. In this paper, we demonstrate that existing detectors trained on one such dataset, ASVspoof2019, do not perform well in detecting synthetic speech from recent diffusion-based synthesizers. We propose the Diffusion-Based Synthetic Speech Dataset (DiffSSD), a dataset consisting of about 200 hours of labeled speech, including synthetic speech generated by 8 diffusion-based open-source and 2 commercial generators. We also examine the performance of existing synthetic speech detectors on DiffSSD in both closed-set and open-set scenarios. The results highlight the importance of this dataset in detecting synthetic speech generated from recent open-source and commercial speech generators.
翻訳日:2024-11-07 12:03:17 公開日:2024-10-02
# Citation Contexts を用いたキーフレーズ生成のための教師なしドメイン適応

Unsupervised Domain Adaptation for Keyphrase Generation using Citation Contexts ( http://arxiv.org/abs/2409.13266v1 )

ライセンス: Link先を確認
Florian Boudin, Akiko Aizawa, (参考訳) キーフレーズ生成モデルを新しいドメインに適応させるには、通常、ドメイン内のラベル付きデータによる微調整をほとんど必要としない。 しかし、キーフレーズによる注釈付けは、しばしば高額で非現実的であり、専門家のアノテータを必要としている。 そこで本論文では,銀標準キーフレーズを引用文脈から抽出し,ドメイン適応のための合成ラベル付きデータを生成することにより,この問題に対処するための教師なし手法である絹について述べる。 3つの異なる領域にまたがる大規模な実験により,本手法は高品質な合成サンプルが得られ,その結果,強いベースラインよりもドメイン内性能が著しく,一貫した改善がもたらされた。

Adapting keyphrase generation models to new domains typically involves few-shot fine-tuning with in-domain labeled data. However, annotating documents with keyphrases is often prohibitively expensive and impractical, requiring expert annotators. This paper presents silk, an unsupervised method designed to address this issue by extracting silver-standard keyphrases from citation contexts to create synthetic labeled data for domain adaptation. Extensive experiments across three distinct domains demonstrate that our method yields high-quality synthetic samples, resulting in significant and consistent improvements in in-domain performance over strong baselines.
翻訳日:2024-11-07 07:51:11 公開日:2024-10-02
# Citation Contexts を用いたキーフレーズ生成のための教師なしドメイン適応

Unsupervised Domain Adaptation for Keyphrase Generation using Citation Contexts ( http://arxiv.org/abs/2409.13266v2 )

ライセンス: Link先を確認
Florian Boudin, Akiko Aizawa, (参考訳) キーフレーズ生成モデルを新しいドメインに適応させるには、通常、ドメイン内のラベル付きデータによる微調整をほとんど必要としない。 しかし、キーフレーズによる注釈付けは、しばしば高額で非現実的であり、専門家のアノテータを必要としている。 そこで本論文では,銀標準キーフレーズを引用文脈から抽出し,ドメイン適応のための合成ラベル付きデータを生成することにより,この問題に対処するための教師なし手法である絹について述べる。 3つの異なる領域にまたがる大規模な実験により,本手法は高品質な合成サンプルが得られ,その結果,強いベースラインよりもドメイン内性能が著しく,一貫した改善がもたらされた。

Adapting keyphrase generation models to new domains typically involves few-shot fine-tuning with in-domain labeled data. However, annotating documents with keyphrases is often prohibitively expensive and impractical, requiring expert annotators. This paper presents silk, an unsupervised method designed to address this issue by extracting silver-standard keyphrases from citation contexts to create synthetic labeled data for domain adaptation. Extensive experiments across three distinct domains demonstrate that our method yields high-quality synthetic samples, resulting in significant and consistent improvements in in-domain performance over strong baselines.
翻訳日:2024-11-07 07:51:11 公開日:2024-10-02
# 大規模言語モデルのための検索拡張生成における文脈圧縮

Contextual Compression in Retrieval-Augmented Generation for Large Language Models: A Survey ( http://arxiv.org/abs/2409.13385v1 )

ライセンス: Link先を確認
Sourav Verma, (参考訳) 大きな言語モデル(LLM)は目覚ましい能力を示すが、幻覚、時代遅れの知識、不透明さ、説明不能な推論といった制限に悩まされている。 これらの課題に対処するため、Retrieval-Augmented Generation (RAG)は、外部データベースを活用して、生成したコンテンツの一貫性と一貫性、特に複雑な知識豊富なタスクに有用なこと、ドメイン固有の洞察を活用することで継続的改善を促進する、実行可能なソリューションであることが証明されている。 LLMの本質的な知識を外部データベースの巨大な動的リポジトリと組み合わせることで、RAGは相乗効果を達成する。 しかしながら、RAGには、コンテキストウィンドウの制限、関係のない情報、広範囲なコンテキストデータに対する高い処理オーバーヘッドなど、制限がない。 本研究は,文脈圧縮パラダイムの進化を考察し,その分野の詳細な検討を行う。 最後に,現状の課題を概説し,今後の研究・開発方向性を示唆し,今後の発展への道を開く。

Large Language Models (LLMs) showcase remarkable abilities, yet they struggle with limitations such as hallucinations, outdated knowledge, opacity, and inexplicable reasoning. To address these challenges, Retrieval-Augmented Generation (RAG) has proven to be a viable solution, leveraging external databases to improve the consistency and coherence of generated content, especially valuable for complex, knowledge-rich tasks, and facilitates continuous improvement by leveraging domain-specific insights. By combining the intrinsic knowledge of LLMs with the vast, dynamic repositories of external databases, RAG achieves a synergistic effect. However, RAG is not without its limitations, including a limited context window, irrelevant information, and the high processing overhead for extensive contextual data. In this comprehensive work, we explore the evolution of Contextual Compression paradigms, providing an in-depth examination of the field. Finally, we outline the current challenges and suggest potential research and development directions, paving the way for future advancements in this area.
翻訳日:2024-11-07 07:28:56 公開日:2024-10-02
# 大規模言語モデルのための検索拡張生成における文脈圧縮

Contextual Compression in Retrieval-Augmented Generation for Large Language Models: A Survey ( http://arxiv.org/abs/2409.13385v2 )

ライセンス: Link先を確認
Sourav Verma, (参考訳) 大きな言語モデル(LLM)は目覚ましい能力を示すが、幻覚、時代遅れの知識、不透明さ、説明不能な推論といった制限に悩まされている。 これらの課題に対処するため、Retrieval-Augmented Generation (RAG)は、外部データベースを活用して、生成したコンテンツの一貫性と一貫性、特に複雑な知識豊富なタスクに有用なこと、ドメイン固有の洞察を活用することで継続的改善を促進する、実行可能なソリューションであることが証明されている。 LLMの本質的な知識を外部データベースの巨大な動的リポジトリと組み合わせることで、RAGは相乗効果を達成する。 しかしながら、RAGには、コンテキストウィンドウの制限、関係のない情報、広範囲なコンテキストデータに対する高い処理オーバーヘッドなど、制限がない。 本研究は,文脈圧縮パラダイムの進化を考察し,その分野の詳細な検討を行う。 最後に,現状の課題を概説し,今後の研究・開発方向性を示唆し,今後の発展への道を開く。

Large Language Models (LLMs) showcase remarkable abilities, yet they struggle with limitations such as hallucinations, outdated knowledge, opacity, and inexplicable reasoning. To address these challenges, Retrieval-Augmented Generation (RAG) has proven to be a viable solution, leveraging external databases to improve the consistency and coherence of generated content, especially valuable for complex, knowledge-rich tasks, and facilitates continuous improvement by leveraging domain-specific insights. By combining the intrinsic knowledge of LLMs with the vast, dynamic repositories of external databases, RAG achieves a synergistic effect. However, RAG is not without its limitations, including a limited context window, irrelevant information, and the high processing overhead for extensive contextual data. In this comprehensive work, we explore the evolution of Contextual Compression paradigms, providing an in-depth examination of the field. Finally, we outline the current challenges and suggest potential research and development directions, paving the way for future advancements in this area.
翻訳日:2024-11-07 07:28:56 公開日:2024-10-02
# Heuristic Semantic Dependency Inquiry Networkによる事象因果同定の促進

Advancing Event Causality Identification via Heuristic Semantic Dependency Inquiry Network ( http://arxiv.org/abs/2409.13621v1 )

ライセンス: Link先を確認
Haoran Li, Qiang Gao, Hongmei Wu, Li Huang, (参考訳) 事象因果同定(ECI)は、テキスト中の事象間の因果関係を抽出することに焦点を当てている。 既存のECIの手法は主に因果的特徴と外部知識に依存している。 しかし、これらのアプローチは、(1) テキスト内の事象間の因果的特徴は、しばしば明確な手がかりを欠いている、(2) 外部知識はバイアスをもたらすが、一方、特定の問題は、調整された分析を必要とする。 これらの問題に対処するため、我々は、ECIのためのシンプルで効果的なセマンティック依存問い合わせネットワークSemDIを提案する。 SemDIは統合エンコーダを使用してコンテキスト内のセマンティック依存関係をキャプチャする。 次に、Cloze Analyzerを使用して、包括的なコンテキスト理解に基づいた埋め合わせトークンを生成する。 最後に、このフィリングトークンは、2つのイベント間の因果関係について問い合わせるために使用される。 大規模な実験は、広く使用されている3つのベンチマークに対して、最先端の手法を超越したSemDIの有効性を示す。 コードはhttps://github.com/hrlics/SemDI.comで入手できる。

Event Causality Identification (ECI) focuses on extracting causal relations between events in texts. Existing methods for ECI primarily rely on causal features and external knowledge. However, these approaches fall short in two dimensions: (1) causal features between events in a text often lack explicit clues, and (2) external knowledge may introduce bias, while specific problems require tailored analyses. To address these issues, we propose SemDI - a simple and effective Semantic Dependency Inquiry Network for ECI. SemDI captures semantic dependencies within the context using a unified encoder. Then, it utilizes a Cloze Analyzer to generate a fill-in token based on comprehensive context understanding. Finally, this fill-in token is used to inquire about the causal relation between two events. Extensive experiments demonstrate the effectiveness of SemDI, surpassing state-of-the-art methods on three widely used benchmarks. Code is available at https://github.com/hrlics/SemDI.
翻訳日:2024-11-07 06:19:44 公開日:2024-10-02
# Heuristic Semantic Dependency Inquiry Networkによる事象因果同定の促進

Advancing Event Causality Identification via Heuristic Semantic Dependency Inquiry Network ( http://arxiv.org/abs/2409.13621v2 )

ライセンス: Link先を確認
Haoran Li, Qiang Gao, Hongmei Wu, Li Huang, (参考訳) 事象因果同定(ECI)は、テキスト中の事象間の因果関係を抽出することに焦点を当てている。 既存のECIの手法は主に因果的特徴と外部知識に依存している。 しかし、これらのアプローチは、(1) テキスト内の事象間の因果的特徴は、しばしば明確な手がかりを欠いている、(2) 外部知識はバイアスをもたらすが、一方、特定の問題は、調整された分析を必要とする。 これらの問題に対処するため、我々は、ECIのためのシンプルで効果的なセマンティック依存問い合わせネットワークSemDIを提案する。 SemDIは統合エンコーダを使用してコンテキスト内のセマンティック依存関係をキャプチャする。 次に、Cloze Analyzerを使用して、包括的なコンテキスト理解に基づいた埋め合わせトークンを生成する。 最後に、このフィリングトークンは、2つのイベント間の因果関係について問い合わせるために使用される。 大規模な実験は、広く使用されている3つのベンチマークに対して、最先端の手法を超越したSemDIの有効性を示す。 コードはhttps://github.com/hrlics/SemDI.comで入手できる。

Event Causality Identification (ECI) focuses on extracting causal relations between events in texts. Existing methods for ECI primarily rely on causal features and external knowledge. However, these approaches fall short in two dimensions: (1) causal features between events in a text often lack explicit clues, and (2) external knowledge may introduce bias, while specific problems require tailored analyses. To address these issues, we propose SemDI - a simple and effective Semantic Dependency Inquiry Network for ECI. SemDI captures semantic dependencies within the context using a unified encoder. Then, it utilizes a Cloze Analyzer to generate a fill-in token based on comprehensive context understanding. Finally, this fill-in token is used to inquire about the causal relation between two events. Extensive experiments demonstrate the effectiveness of SemDI, surpassing state-of-the-art methods on three widely used benchmarks. Code is available at https://github.com/hrlics/SemDI.
翻訳日:2024-11-07 06:19:44 公開日:2024-10-02
# 時系列予測のためのテスト時間学習

Test Time Learning for Time Series Forecasting ( http://arxiv.org/abs/2409.14012v1 )

ライセンス: Link先を確認
Panayiotis Christou, Shichu Chen, Xupeng Chen, Parijat Dube, (参考訳) 時系列予測は,マルチヘッドアテンションなどのトークン予測機構の導入によって,大幅な進歩を遂げている。 しかしながら、これらの手法は、主に2次計算コストと時系列データにおける長距離依存をキャプチャする複雑さのために、言語モデリングと同じパフォーマンスを達成するのに苦労することが多い。 Mambaのような状態空間モデル(SSM)は、より大きなコンテキストウィンドウを持つ長いシーケンスをモデル化できる線形RNNによる効率的なソリューションを提供することで、これらの課題に対処することを約束している。 しかし、精度とスケーラビリティの改善の余地は残っている。 本稿では, 長期連続予測における性能向上のために, 並列アーキテクチャにおけるTTTモジュールの利用を提案する。 標準ベンチマークデータセットに関する広範な実験を通じて、TTTモジュールは、特に拡張シーケンスや予測長を含むシナリオにおいて、MambaベースのTimeMachineを含む最先端モデルよりも一貫して優れていることを示した。 以上の結果から,Mean Squared Error (MSE) とMean Absolute Error (MAE) の大幅な改善,特にElectricity, Traffic, Weatherなどの大規模データセットにおいて,TTTが長距離依存の捕捉に有効であることを示唆した。 さらに、TTTフレームワーク内のさまざまな畳み込みアーキテクチャについて検討し、1D畳み込みのような単純な構成であっても、競合的な結果が得られることを示した。 この研究は、時系列予測の新しいベンチマークを設定し、スケーラブルで高性能な予測モデルにおける将来の研究の基礎を定めている。

Time-series forecasting has seen significant advancements with the introduction of token prediction mechanisms such as multi-head attention. However, these methods often struggle to achieve the same performance as in language modeling, primarily due to the quadratic computational cost and the complexity of capturing long-range dependencies in time-series data. State-space models (SSMs), such as Mamba, have shown promise in addressing these challenges by offering efficient solutions with linear RNNs capable of modeling long sequences with larger context windows. However, there remains room for improvement in accuracy and scalability. We propose the use of Test-Time Training (TTT) modules in a parallel architecture to enhance performance in long-term time series forecasting. Through extensive experiments on standard benchmark datasets, we demonstrate that TTT modules consistently outperform state-of-the-art models, including the Mamba-based TimeMachine, particularly in scenarios involving extended sequence and prediction lengths. Our results show significant improvements in Mean Squared Error (MSE) and Mean Absolute Error (MAE), especially on larger datasets such as Electricity, Traffic, and Weather, underscoring the effectiveness of TTT in capturing long-range dependencies. Additionally, we explore various convolutional architectures within the TTT framework, showing that even simple configurations like 1D convolution with small filters can achieve competitive results. This work sets a new benchmark for time-series forecasting and lays the groundwork for future research in scalable, high-performance forecasting models.
翻訳日:2024-11-07 04:06:38 公開日:2024-10-02
# 時系列予測のためのテスト時間学習

Test Time Learning for Time Series Forecasting ( http://arxiv.org/abs/2409.14012v2 )

ライセンス: Link先を確認
Panayiotis Christou, Shichu Chen, Xupeng Chen, Parijat Dube, (参考訳) 時系列予測は,マルチヘッドアテンションなどのトークン予測機構の導入によって,大幅な進歩を遂げている。 しかしながら、これらの手法は、主に2次計算コストと時系列データにおける長距離依存をキャプチャする複雑さのために、言語モデリングと同じパフォーマンスを達成するのに苦労することが多い。 Mambaのような状態空間モデル(SSM)は、より大きなコンテキストウィンドウを持つ長いシーケンスをモデル化できる線形RNNによる効率的なソリューションを提供することで、これらの課題に対処することを約束している。 しかし、精度とスケーラビリティの改善の余地は残っている。 本稿では, 長期連続予測における性能向上のために, 並列アーキテクチャにおけるTTTモジュールの利用を提案する。 標準ベンチマークデータセットに関する広範な実験を通じて、TTTモジュールは、特に拡張シーケンスや予測長を含むシナリオにおいて、MambaベースのTimeMachineを含む最先端モデルよりも一貫して優れていることを示した。 以上の結果から,Mean Squared Error (MSE) とMean Absolute Error (MAE) の大幅な改善,特にElectricity, Traffic, Weatherなどの大規模データセットにおいて,TTTが長距離依存の捕捉に有効であることを示唆した。 さらに、TTTフレームワーク内のさまざまな畳み込みアーキテクチャについて検討し、1D畳み込みのような単純な構成であっても、競合的な結果が得られることを示した。 この研究は、時系列予測の新しいベンチマークを設定し、スケーラブルで高性能な予測モデルにおける将来の研究の基礎を定めている。

Time-series forecasting has seen significant advancements with the introduction of token prediction mechanisms such as multi-head attention. However, these methods often struggle to achieve the same performance as in language modeling, primarily due to the quadratic computational cost and the complexity of capturing long-range dependencies in time-series data. State-space models (SSMs), such as Mamba, have shown promise in addressing these challenges by offering efficient solutions with linear RNNs capable of modeling long sequences with larger context windows. However, there remains room for improvement in accuracy and scalability. We propose the use of Test-Time Training (TTT) modules in a parallel architecture to enhance performance in long-term time series forecasting. Through extensive experiments on standard benchmark datasets, we demonstrate that TTT modules consistently outperform state-of-the-art models, including the Mamba-based TimeMachine, particularly in scenarios involving extended sequence and prediction lengths. Our results show significant improvements in Mean Squared Error (MSE) and Mean Absolute Error (MAE), especially on larger datasets such as Electricity, Traffic, and Weather, underscoring the effectiveness of TTT in capturing long-range dependencies. Additionally, we explore various convolutional architectures within the TTT framework, showing that even simple configurations like 1D convolution with small filters can achieve competitive results. This work sets a new benchmark for time-series forecasting and lays the groundwork for future research in scalable, high-performance forecasting models.
翻訳日:2024-11-07 04:06:38 公開日:2024-10-02
# PretextTrans: 述語テキストのデュアルトランスフォーメーションを用いたLCMの医療ファクチュアル知識の育成

PretextTrans: Investigating Medical Factual Knowledge Mastery of LLMs with Predicate-text Dual Transformation ( http://arxiv.org/abs/2409.14302v1 )

ライセンス: Link先を確認
Yuxuan Zhou, Xien Liu, Chen Ning, Ji Wu, (参考訳) 本研究では,各医療事実知識ポイント毎に複数の検査サンプルを自動生成する動的評価スキーマを用いて,現在のLLMの医療事実知識の習得について検討することを目的とする。 LLMが直接作成したテストサンプルは、常に事実エラーを導入し、知識表現の方法の多様性を欠いている。 そこで本研究では,動的評価スキーマに述語変換を導入することにより,新しい評価手法であるPredicate-text Dual Transformation(PretextTrans)を提案する。 具体的には、まず、各医学知識点は述語表現に変換され、次に述語表現は述語変換を通して一連の変種を導出する。 提案したPretextTrans法を用いて,2つの医療データセットに基づいて,12の有名なLCMによる医療事実知識の習得を体系的に検討した。 比較の結果,現在のLSMは医療知識を十分に習得するにはまだ重大な欠陥があることが明らかとなった。 提案手法は,医学領域におけるLSMの評価に有効な解法であり,医学固有のLSMの開発に有用な知見を提供する。

In the study, we aim to investigate current LLMs' mastery of medical factual knowledge with a dynamic evaluation schema, which can automatically generate multiple test samples for each medical factual knowledge point. Test samples produced directly by LLMs always introduce factual errors and lack diversity in the manner of knowledge expression. To overcome the drawbacks, here we propose a novel evaluation method, Predicate-text Dual Transformation (PretextTrans), by introducing predicate transformations into the dynamic evaluation schema. Specifically, each medical knowledge point is firstly transformed into a predicate expression; then, the predicate expression derives a series of variants through predicate transformations; lastly, the produced predicate variants are transformed back into textual expressions, resulting in a series of test samples with both factual reliability and expression diversity. Using the proposed PretextTrans method, we systematically investigate 12 well-known LLMs' mastery of medical factual knowledge based on two medical datasets. The comparison results show that current LLMs still have significant deficiencies in fully mastering medical knowledge, which may illustrate why current LLMs still perform unsatisfactorily in real-world medical scenarios despite having achieved considerable performance on public benchmarks. Our proposed method serves as an effective solution for evaluation of LLMs in medical domain and offers valuable insights for developing medical-specific LLMs.
翻訳日:2024-11-06 23:15:03 公開日:2024-10-02
# LLM医療知識習得の信頼性と多様性

Reliable and diverse evaluation of LLM medical knowledge mastery ( http://arxiv.org/abs/2409.14302v2 )

ライセンス: Link先を確認
Yuxuan Zhou, Xien Liu, Chen Ning, Xiao Zhang, Ji Wu, (参考訳) 医学知識の習得は医学専門のLLMにとって不可欠である。 しかし、MedQAのような医療ベンチマークが存在するにもかかわらず、LLMの医療知識の習得を評価するために既存の知識基盤を完全に活用する統一的なフレームワークはいまだに不足している。 本研究では,任意の医療知識ベースを対象としたLCMを評価するために,信頼性と多種多様なテストサンプルを動的に生成する新しいフレームワークPretexEvalを提案する。 テンプレートやLCMによる知識ベースから直接生成されたテストサンプルは,事実エラーを発生させる可能性があり,多様性も欠如していることに気付く。 これらの課題に対処するため,提案する評価フレームワークに,述語同値変換を用いた新しいスキーマを導入し,任意の医学的知識ポイントに対して一連の変種を生成する。 最後に、これら生成した述語変種はテキスト言語に変換され、その結果、LSMが与えられた医学的事実知識ポイントを完全にマスターするかどうかを評価するための信頼性と多様なテストサンプルが連続する。 そこで本研究では,臨床診断と治療に不可欠な2つの知識ベースに基づいて,12の有名なLCMの医学的事実知識の習得を体系的に検討する。 評価結果は、現在のLLMは、いくつかの有名な公開ベンチマークでかなりの成功を収めたにもかかわらず、医療知識を完全に習得する上で、依然として重大な欠陥があることを示している。 これらの新たな発見は、医学固有のLSMを開発する上で貴重な洞察を与え、現在のLSMは、現実の医療シナリオに適用される前に、医療知識の包括的かつ詳細な熟達を早急に強化する必要があることを浮き彫りにしている。

Mastering medical knowledge is crucial for medical-specific LLMs. However, despite the existence of medical benchmarks like MedQA, a unified framework that fully leverages existing knowledge bases to evaluate LLMs' mastery of medical knowledge is still lacking. In the study, we propose a novel framework PretexEval that dynamically generates reliable and diverse test samples to evaluate LLMs for any given medical knowledge base. We notice that test samples produced directly from knowledge bases by templates or LLMs may introduce factual errors and also lack diversity. To address these issues, we introduce a novel schema into our proposed evaluation framework that employs predicate equivalence transformations to produce a series of variants for any given medical knowledge point. Finally, these produced predicate variants are converted into textual language, resulting in a series of reliable and diverse test samples to evaluate whether LLMs fully master the given medical factual knowledge point. Here, we use our proposed framework to systematically investigate the mastery of medical factual knowledge of 12 well-known LLMs, based on two knowledge bases that are crucial for clinical diagnosis and treatment. The evaluation results illustrate that current LLMs still exhibit significant deficiencies in fully mastering medical knowledge, despite achieving considerable success on some famous public benchmarks. These new findings provide valuable insights for developing medical-specific LLMs, highlighting that current LLMs urgently need to strengthen their comprehensive and in-depth mastery of medical knowledge before being applied to real-world medical scenarios.
翻訳日:2024-11-06 23:15:03 公開日:2024-10-02
# 大規模言語モデルのためのパラメータ効率的な微調整法としてのボーンブロックアフィン変換

Bone: Block Affine Transformation as Parameter Efficient Fine-tuning Methods for Large Language Models ( http://arxiv.org/abs/2409.15371v2 )

ライセンス: Link先を確認
Jiale Kang, (参考訳) Low-Rank Adaptation (LoRA) は、オリジナルの重量を凍結し、低ランク行列のみを訓練することで、優れたトレーニング結果を得た。 フルパラメータトレーニングに近いパフォーマンスを追求するために、LoRA+、PISSA、Oora、LoRA-GAといった一連のLoRA派生型が登場した。 しかし、これらの改善はモデルトレーニングの初期設定を複雑にし、初期化時間を増加させる。 さらに重要なのは、それらは元の重み情報の内部的な相互作用を見落としていることだ。 これらの課題に対処するために、トレーニング中にトレーニング可能な行列を元のウェイトを通して継続的に誘導し、ウェイト情報の利用を高めることを目的とした「ウェイトガイド」という新しい理論を導入する。 この理論に基づいて,Borth (\textbf{B}l\textbf{o}ck Affi\textbf{ne}) と呼ばれる新しいPEFT手法を設計した。 2つの異なるLLMアーキテクチャ (LLaMA2, RWKV6) と様々なパラメータスケールの比較により、骨構造が複雑な初期化を必要とせず、迅速に収束し、優れたデータフィッティングを実現できることを示した。 例えば、MetaMathQAデータセット上でLLaMA2-7Bを微調整し、GSM8kと数学ベンチマークで検証すると、ボーンはそれぞれ49.36と8.8の微調整スコアを達成し、PISSAの5.84\%と1.96\%を上回った。

Low-Rank Adaptation (LoRA) has achieved remarkable training results by freezing the original weights and training only low-rank matrices, establishing itself as the predominant fine-tuning method for LLMs. In pursuit of performance closer to full-parameter training, a series of LoRA variants have emerged, such as LoRA+, PISSA, Olora, and LoRA-GA. However, these improvements complicate the initial setup of model training and increase initialization time. More importantly, they overlook the internal interactions of the original weight information. To address these issues, we introduce a novel theory, ``Weight Guide'' aimed at continuously guiding trainable matrices through the original weights during training to enhance the utilization of weight information. Based on this theory, we designed a new PEFT technique called Bone (\textbf{B}l\textbf{o}ck Affi\textbf{ne}), which not only enhances the utilization of original weight information but also emphasizes the internal connections between weights, leading to faster convergence and better data fitting. Experimental comparisons across two different LLM architectures (LLaMA2, RWKV6) and various parameter scales demonstrate that the Bone structure can achieve rapid convergence and superior data fitting without the need for complex initialization. For example, when fine-tuning LLaMA2-7B on the MetaMathQA dataset and validating on GSM8k and math benchmarks, Bone achieved fine-tuning scores of 49.36 and 8.8, respectively, outperforming PISSA by 5.84\% and 1.96\%.
翻訳日:2024-11-06 19:43:38 公開日:2024-10-02
# 大規模言語モデルのためのパラメータ効率的な微調整法としてのボーンブロックアフィン変換

Bone: Block Affine Transformation as Parameter Efficient Fine-tuning Methods for Large Language Models ( http://arxiv.org/abs/2409.15371v3 )

ライセンス: Link先を確認
Jiale Kang, (参考訳) Low-Rank Adaptation (LoRA) は、オリジナルの重量を凍結し、低ランク行列のみを訓練することで、優れたトレーニング結果を得た。 フルパラメータトレーニングに近いパフォーマンスを追求するために、LoRA+、PISSA、Oora、LoRA-GAといった一連のLoRA派生型が登場した。 しかし、これらの改善はモデルトレーニングの初期設定を複雑にし、初期化時間を増加させる。 さらに重要なのは、それらは元の重み情報の内部的な相互作用を見落としていることだ。 これらの課題に対処するために、トレーニング中にトレーニング可能な行列を元のウェイトを通して継続的に誘導し、ウェイト情報の利用を高めることを目的とした「ウェイトガイド」という新しい理論を導入する。 この理論に基づいて,Borth (\textbf{B}l\textbf{o}ck Affi\textbf{ne}) と呼ばれる新しいPEFT手法を設計した。 2つの異なるLLMアーキテクチャ (LLaMA2, RWKV6) と様々なパラメータスケールの比較により、骨構造が複雑な初期化を必要とせず、迅速に収束し、優れたデータフィッティングを実現できることを示した。 例えば、MetaMathQAデータセット上でLLaMA2-7Bを微調整し、GSM8kと数学ベンチマークで検証すると、ボーンはそれぞれ49.36と8.8の微調整スコアを達成し、PISSAの5.84\%と1.96\%を上回った。

Low-Rank Adaptation (LoRA) has achieved remarkable training results by freezing the original weights and training only low-rank matrices, establishing itself as the predominant fine-tuning method for LLMs. In pursuit of performance closer to full-parameter training, a series of LoRA variants have emerged, such as LoRA+, PISSA, Olora, and LoRA-GA. However, these improvements complicate the initial setup of model training and increase initialization time. More importantly, they overlook the internal interactions of the original weight information. To address these issues, we introduce a novel theory, ``Weight Guide'' aimed at continuously guiding trainable matrices through the original weights during training to enhance the utilization of weight information. Based on this theory, we designed a new PEFT technique called Bone (\textbf{B}l\textbf{o}ck Affi\textbf{ne}), which not only enhances the utilization of original weight information but also emphasizes the internal connections between weights, leading to faster convergence and better data fitting. Experimental comparisons across two different LLM architectures (LLaMA2, RWKV6) and various parameter scales demonstrate that the Bone structure can achieve rapid convergence and superior data fitting without the need for complex initialization. For example, when fine-tuning LLaMA2-7B on the MetaMathQA dataset and validating on GSM8k and math benchmarks, Bone achieved fine-tuning scores of 49.36 and 8.8, respectively, outperforming PISSA by 5.84\% and 1.96\%.
翻訳日:2024-11-06 19:43:38 公開日:2024-10-02
# CUTE:LLMの知識を計測する

CUTE: Measuring LLMs' Understanding of Their Tokens ( http://arxiv.org/abs/2409.15452v2 )

ライセンス: Link先を確認
Lukas Edman, Helmut Schmid, Alexander Fraser, (参考訳) 大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。 ほとんどのLCMはテキストを複数文字のトークンに分割し、個々の文字に直接アクセスせずに原子単位として処理する。 LLMはどの程度の間、正書法情報を学ぶことができるのか? そこで我々は,LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークCUTEを提案する。 CUTE 上での人気 LLM を評価したところ,その多くがトークンの綴りを知っているように思われるが,この情報を効果的にテキスト操作に用いておらず,どの程度の知識が一般化可能かという疑問が投げかけられている。

Large Language Models (LLMs) show remarkable performance on a wide variety of tasks. Most LLMs split text into multi-character tokens and process them as atomic units without direct access to individual characters. This raises the question: To what extent can LLMs learn orthographic information? To answer this, we propose a new benchmark, CUTE, which features a collection of tasks designed to test the orthographic knowledge of LLMs. We evaluate popular LLMs on CUTE, finding that most of them seem to know the spelling of their tokens, yet fail to use this information effectively to manipulate text, calling into question how much of this knowledge is generalizable.
翻訳日:2024-11-06 19:43:38 公開日:2024-10-02
# Time-MoE:10億ドル規模の時系列モデルとエキスパートの混成

Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts ( http://arxiv.org/abs/2409.16040v2 )

ライセンス: Link先を確認
Xiaoming Shi, Shiyu Wang, Yuqi Nie, Dianqi Li, Zhou Ye, Qingsong Wen, Ming Jin, (参考訳) 時系列予測のためのディープラーニングは、過去数十年で大きな進歩を遂げてきた。 しかし、言語や視覚領域における大規模な事前訓練の成功にもかかわらず、事前訓練された時系列モデルは大規模に制限され、高コストで運用され、現実世界のアプリケーションにおいてより大きな有能な予測モデルの開発を妨げている。 これに対し、我々は、より大きく、より有能な予測基盤モデルを事前訓練し、推論コストを削減できるように設計された、スケーラブルで統一されたアーキテクチャであるTime-MoEを紹介した。 sparse Mixed-of-experts (MoE) 設計を活用することで、Time-MoEは予測毎にネットワークのサブセットのみを活性化し、高いモデル容量を維持しながら計算負荷を削減することにより、計算効率を向上させる。 これにより、Time-MoEは推論コストが増加することなく効果的にスケールできる。 Time-MoEは、自動回帰方式で動作し、入力コンテキスト長の異なる柔軟な予測水平線をサポートするデコーダのみのトランスフォーマーモデルである。 私たちはこれらのモデルを、新たに導入した大規模データであるTime-300Bで事前トレーニングしました。 時系列基礎モデルを24億のパラメータに拡張し,予測精度を大幅に向上させた。 本結果は,時系列予測の文脈において,トークンのトレーニングとモデルサイズに対するスケーリング法則の適用性を検証するものである。 同じ数の活性化パラメータや等価な計算予算を持つ高密度モデルと比較して、我々のモデルはずっと大きなマージンでそれらを上回ります。 これらの進歩により、Time-MoEは、優れた能力、効率、柔軟性を持つ課題を予測する現実世界の時系列に対処するための最先端のソリューションとして位置づけられる。

Deep learning for time series forecasting has seen significant advancements over the past decades. However, despite the success of large-scale pre-training in language and vision domains, pre-trained time series models remain limited in scale and operate at a high cost, hindering the development of larger capable forecasting models in real-world applications. In response, we introduce Time-MoE, a scalable and unified architecture designed to pre-train larger, more capable forecasting foundation models while reducing inference costs. By leveraging a sparse mixture-of-experts (MoE) design, Time-MoE enhances computational efficiency by activating only a subset of networks for each prediction, reducing computational load while maintaining high model capacity. This allows Time-MoE to scale effectively without a corresponding increase in inference costs. Time-MoE comprises a family of decoder-only transformer models that operate in an auto-regressive manner and support flexible forecasting horizons with varying input context lengths. We pre-trained these models on our newly introduced large-scale data Time-300B, which spans over 9 domains and encompassing over 300 billion time points. For the first time, we scaled a time series foundation model up to 2.4 billion parameters, achieving significantly improved forecasting precision. Our results validate the applicability of scaling laws for training tokens and model size in the context of time series forecasting. Compared to dense models with the same number of activated parameters or equivalent computation budgets, our models consistently outperform them by large margin. These advancements position Time-MoE as a state-of-the-art solution for tackling real-world time series forecasting challenges with superior capability, efficiency, and flexibility.
翻訳日:2024-11-06 18:04:33 公開日:2024-10-02
# 前立腺癌診断における深層学習のセグメンテーション戦略--マンバ,SAM,YOLOの比較研究

Segmentation Strategies in Deep Learning for Prostate Cancer Diagnosis: A Comparative Study of Mamba, SAM, and YOLO ( http://arxiv.org/abs/2409.16205v2 )

ライセンス: Link先を確認
Ali Badiezadeh, Amin Malekmohammadi, Seyed Mostafa Mirhassani, Parisa Gifani, Majid Vafaeezadeh, (参考訳) 前立腺癌病理像の正確な分節化は診断と治療計画に不可欠である。 本研究は,前立腺癌組織像の分画のための深層学習法であるMamba,SAM,YOLOの比較分析を行った。 Gleason 2019 と SICAPv2 という2つの総合データセット上で,Dice スコア,精度,リコール指標を用いてこれらのモデルの性能を評価した。 以上の結果から,高次視覚マンバUNet(H-vmunet)モデルが他の2モデルより優れており,両データセットのすべての指標で最高のスコアが得られた。 H-Vmunetモデルの高度なアーキテクチャは、高階の視覚状態空間と2D選択的スキャン操作を統合し、異なるスケールにわたる効率的で機密性の高い病変検出を可能にする。 本研究は, 臨床応用におけるH-Vmunetモデルの可能性を示し, 医用画像解析における堅牢な検証の重要性と深層学習法の比較を明らかにする。 本研究は,前立腺癌に対する正確かつ信頼性の高いコンピュータ支援診断システムの開発に寄与する。 コードはhttp://github.com/alibdz/prostate-segmentation.comで入手できる。

Accurate segmentation of prostate cancer histopathology images is crucial for diagnosis and treatment planning. This study presents a comparative analysis of three deep learning-based methods, Mamba, SAM, and YOLO, for segmenting prostate cancer histopathology images. We evaluated the performance of these models on two comprehensive datasets, Gleason 2019 and SICAPv2, using Dice score, precision, and recall metrics. Our results show that the High-order Vision Mamba UNet (H-vmunet) model outperforms the other two models, achieving the highest scores across all metrics on both datasets. The H-vmunet model's advanced architecture, which integrates high-order visual state spaces and 2D-selective-scan operations, enables efficient and sensitive lesion detection across different scales. Our study demonstrates the potential of the H-vmunet model for clinical applications and highlights the importance of robust validation and comparison of deep learning-based methods for medical image analysis. The findings of this study contribute to the development of accurate and reliable computer-aided diagnosis systems for prostate cancer. The code is available at http://github.com/alibdz/prostate-segmentation.
翻訳日:2024-11-06 17:52:35 公開日:2024-10-02
# 多言語推論のための多言語大言語モデルの作成

Pruning Multilingual Large Language Models for Multilingual Inference ( http://arxiv.org/abs/2409.16911v2 )

ライセンス: Link先を確認
Hwichan Kim, Jun Suzuki, Tosho Hirasawa, Mamoru Komachi, (参考訳) 多言語大言語モデル(MLLM)は、多言語バランスデータに基づいて訓練され、英語以外の言語において、英語が支配するデータに基づいて訓練された大言語モデルと比較して、ゼロショット学習性能が向上することを示す。 しかし、英語と非英語のパフォーマンスの相違は、まだ完全には解決されていない。 MLLMの特徴的な特徴は、その高品質な翻訳能力であり、言語間の整合の習熟度を示している。 本研究では,非英語言語におけるMLLMのゼロショット性能を,英語言語と非英語言語のアライメント能力を活用して向上させる方法について検討する。 そこで我々はまず,翻訳を行う際のMLLMの挙動を解析し,翻訳過程において重要な役割を果たす大きな特徴があることを明らかにする。 これらの知見に触発されて、我々は、大規模な特徴を含む操作に関連する重みを保ち、MLLMがこれらの特徴を翻訳以外のタスクに頼らざるを得ないよう、他の重みを創り出します。 我々は、この刈り取り戦略が、英語以外の言語におけるMLLMのパフォーマンスを向上させることを実証的に実証した。

Multilingual large language models (MLLMs), trained on multilingual balanced data, demonstrate better zero-shot learning performance in non-English languages compared to large language models trained on English-dominant data. However, the disparity in performance between English and non-English languages remains a challenge yet to be fully addressed. A distinctive characteristic of MLLMs is their high-quality translation capabilities, indicating an acquired proficiency in aligning between languages. This study explores how to enhance the zero-shot performance of MLLMs in non-English languages by leveraging their alignment capability between English and non-English languages. To achieve this, we first analyze the behavior of MLLMs when performing translation and reveal that there are large magnitude features that play a critical role in the translation process. Inspired by these findings, we retain the weights associated with operations involving the large magnitude features and prune other weights to force MLLMs to rely on these features for tasks beyond translation. We empirically demonstrate that this pruning strategy can enhance the MLLMs' performance in non-English language.
翻訳日:2024-11-06 17:10:14 公開日:2024-10-02
# 深層学習法による前立腺癌組織像のグリーソングレーディングの分類 : YOLO, Vision Transformers, Vision Mamba

Classification of Gleason Grading in Prostate Cancer Histopathology Images Using Deep Learning Techniques: YOLO, Vision Transformers, and Vision Mamba ( http://arxiv.org/abs/2409.17122v2 )

ライセンス: Link先を確認
Amin Malekmohammadi, Ali Badiezadeh, Seyed Mostafa Mirhassani, Parisa Gifani, Majid Vafaeezadeh, (参考訳) 前立腺がんは男性に影響を及ぼす主要な健康問題の一つであり、グリーソンスコアシステムは診断と予後の主要な方法である。 このシステムは、専門家の病理学者に頼って前立腺組織のサンプルを評価し、グリーソングレードを割り当てる。 この課題に対処するため、人工知能(AI)ソリューションは、グレーティングプロセスを自動化するために研究されている。 本研究は,これらの課題を考慮した3つの深層学習手法(YOLO,Vision Transformers,Vision Mamba)の有効性を,病理組織像からグリーソングレードを正確に分類し,比較した。 目的は前立腺癌管理における診断精度と効率を高めることである。 この研究では、2つの公開データセットであるGleason2019とSICAPv2を使用して、YOLO、Vision Transformers、Vision Mambaモデルのパフォーマンスをトレーニングし、テストした。 各モデルは、偽陽性率、偽陰性率、精度、リコールなどの指標を考慮して、グリーソンの成績を正確に分類する能力に基づいて評価された。 また,臨床環境における各手法の計算効率と適用性についても検討した。 Vision Mamba氏はすべての指標で優れたパフォーマンスを示し、偽陽性と負の最小化をしながら高い精度とリコール率を達成した。 YOLOは、特にリアルタイム分析において、スピードと効率の面で有望であった。 視覚変換器は画像内の長距離依存を捉えるのに優れていたが、他のモデルに比べて計算の複雑さが高かった。 ビジョン・マンバ(Vision Mamba)は、病理画像におけるグリーソン分類の最も効果的なモデルとして登場し、精度と計算効率のバランスを提供する。

Prostate cancer ranks among the leading health issues impacting men, with the Gleason scoring system serving as the primary method for diagnosis and prognosis. This system relies on expert pathologists to evaluate samples of prostate tissue and assign a Gleason grade, a task that requires significant time and manual effort. To address this challenge, artificial intelligence (AI) solutions have been explored to automate the grading process. In light of these challenges, this study evaluates and compares the effectiveness of three deep learning methodologies, YOLO, Vision Transformers, and Vision Mamba, in accurately classifying Gleason grades from histopathology images. The goal is to enhance diagnostic precision and efficiency in prostate cancer management. This study utilized two publicly available datasets, Gleason2019 and SICAPv2, to train and test the performance of YOLO, Vision Transformers, and Vision Mamba models. Each model was assessed based on its ability to classify Gleason grades accurately, considering metrics such as false positive rate, false negative rate, precision, and recall. The study also examined the computational efficiency and applicability of each method in a clinical setting. Vision Mamba demonstrated superior performance across all metrics, achieving high precision and recall rates while minimizing false positives and negatives. YOLO showed promise in terms of speed and efficiency, particularly beneficial for real-time analysis. Vision Transformers excelled in capturing long-range dependencies within images, although they presented higher computational complexity compared to the other models. Vision Mamba emerges as the most effective model for Gleason grade classification in histopathology images, offering a balance between accuracy and computational efficiency.
翻訳日:2024-11-06 17:00:06 公開日:2024-10-02
# ドメイン特化小言語モデルを用いたクロスドメインコンテンツ生成

Cross-Domain Content Generation with Domain-Specific Small Language Models ( http://arxiv.org/abs/2409.17171v1 )

ライセンス: Link先を確認
Ankit Maloo Abhinav Garg, (参考訳) 小さな言語モデルを使用してドメイン固有のコンテンツを生成することは、特に重複を最小限にした複数の異なるデータセットを扱う場合、課題となる。 本研究では,小さな言語モデルを用いて,ストーリ(データセットA)とレシピ(データセットB)の2つの異なる領域に対して,一貫性と関連する出力を生成する方法を検討する。 最初の実験では、各データセット上で個々のモデルをトレーニングすると満足な結果が得られ、各モデルはドメイン内で適切なコンテンツを生成する。 それぞれのデータセットに合わせてカスタマイズされたカスタムトークン化ツールを利用することで、ジェネリックトークン化ツールに比べて生成品質が大幅に向上することがわかった。 Low-Rank Adaptation (LoRA) や標準微調整を用いて、両方のドメインに単一モデルを適用しようとする試みは、大きな成果を出さず、しばしば有意義な出力を得られない。 さらに、モデルの既存の重みを凍結することなく完全な微調整を行うと、それまでの学習情報を失い、新しいデータからのみ知識を保持するという破滅的な忘れ込みが発生する。 これらの課題を克服するために、我々は知識拡張戦略、すなわち、追加のパラメータでのみ訓練する。 このアプローチにより、モデルは要求に応じてストーリーとレシピの両方を生成することができ、破滅的な忘れに苦しむことなく、複数のドメインを効果的に扱うことができる。 凍結層を用いた知識拡張は,小言語モデルにおいて,異なるデータセット間でドメイン固有のコンテンツを生成するのに有効な方法であることを示す。 この研究は、効率的なマルチドメイン言語モデルの開発に寄与し、小規模アーキテクチャにおける破滅的な忘れの管理に関する洞察を提供する。

Generating domain-specific content using small language models poses challenges, especially when dealing with multiple distinct datasets with minimal overlap. In this study, we explore methods to enable a small language model to produce coherent and relevant outputs for two different domains: stories (Dataset A) and recipes (Dataset B). Our initial experiments show that training individual models on each dataset yields satisfactory results, with each model generating appropriate content within its domain. We find that utilizing custom tokenizers tailored to each dataset significantly enhances generation quality compared to using a generic tokenizer. Attempts to adapt a single model to both domains using Low-Rank Adaptation (LoRA) or standard fine-tuning do not yield substantial results, often failing to produce meaningful outputs. Moreover, full fine-tuning without freezing the model's existing weights leads to catastrophic forgetting, where the model loses previously learned information and only retains knowledge from the new data. To overcome these challenges, we employ a knowledge expansion strategy: training only with additional parameters. This approach enables the model to generate both stories and recipes upon request, effectively handling multiple domains without suffering from catastrophic forgetting. Our findings demonstrate that knowledge expansion with frozen layers is an effective method for small language models to generate domain-specific content across distinct datasets. This work contributes to the development of efficient multi-domain language models and provides insights into managing catastrophic forgetting in small-scale architectures.
翻訳日:2024-11-06 16:50:22 公開日:2024-10-02
# ドメイン特化小言語モデルを用いたクロスドメインコンテンツ生成

Cross-Domain Content Generation with Domain-Specific Small Language Models ( http://arxiv.org/abs/2409.17171v2 )

ライセンス: Link先を確認
Ankit Maloo, Abhinav Garg, (参考訳) 小さな言語モデルを使用してドメイン固有のコンテンツを生成することは、特に重複を最小限にした複数の異なるデータセットを扱う場合、課題となる。 本研究では,小さな言語モデルを用いて,ストーリ(データセットA)とレシピ(データセットB)の2つの異なる領域に対して,一貫性と関連する出力を生成する方法を検討する。 最初の実験では、各データセット上で個々のモデルをトレーニングすると満足な結果が得られ、各モデルはドメイン内で適切なコンテンツを生成する。 それぞれのデータセットに合わせてカスタマイズされたカスタムトークン化ツールを利用することで、ジェネリックトークン化ツールに比べて生成品質が大幅に向上することがわかった。 Low-Rank Adaptation (LoRA) や標準微調整を用いて、両方のドメインに単一モデルを適用しようとする試みは、大きな成果を出さず、しばしば有意義な出力を得られない。 さらに、モデルの既存の重みを凍結することなく完全な微調整を行うと、それまでの学習情報を失い、新しいデータからのみ知識を保持するという破滅的な忘れ込みが発生する。 これらの課題を克服するために、我々は知識拡張戦略、すなわち、追加のパラメータでのみ訓練する。 このアプローチにより、モデルは要求に応じてストーリーとレシピの両方を生成することができ、破滅的な忘れに苦しむことなく、複数のドメインを効果的に扱うことができる。 凍結層を用いた知識拡張は,小言語モデルにおいて,異なるデータセット間でドメイン固有のコンテンツを生成するのに有効な方法であることを示す。 この研究は、効率的なマルチドメイン言語モデルの開発に寄与し、小規模アーキテクチャにおける破滅的な忘れの管理に関する洞察を提供する。

Generating domain-specific content using small language models poses challenges, especially when dealing with multiple distinct datasets with minimal overlap. In this study, we explore methods to enable a small language model to produce coherent and relevant outputs for two different domains: stories (Dataset A) and recipes (Dataset B). Our initial experiments show that training individual models on each dataset yields satisfactory results, with each model generating appropriate content within its domain. We find that utilizing custom tokenizers tailored to each dataset significantly enhances generation quality compared to using a generic tokenizer. Attempts to adapt a single model to both domains using Low-Rank Adaptation (LoRA) or standard fine-tuning do not yield substantial results, often failing to produce meaningful outputs. Moreover, full fine-tuning without freezing the model's existing weights leads to catastrophic forgetting, where the model loses previously learned information and only retains knowledge from the new data. To overcome these challenges, we employ a knowledge expansion strategy: training only with additional parameters. This approach enables the model to generate both stories and recipes upon request, effectively handling multiple domains without suffering from catastrophic forgetting. Our findings demonstrate that knowledge expansion with frozen layers is an effective method for small language models to generate domain-specific content across distinct datasets. This work contributes to the development of efficient multi-domain language models and provides insights into managing catastrophic forgetting in small-scale architectures.
翻訳日:2024-11-06 16:50:22 公開日:2024-10-02
# 人間のフィードバックを伴わない抽象的要約におけるモデルに基づく選好最適化

Model-based Preference Optimization in Abstractive Summarization without Human Feedback ( http://arxiv.org/abs/2409.18618v2 )

ライセンス: Link先を確認
Jaepill Choi, Kyubyung Chae, Jiwoo Song, Yohan Jo, Taesup Kim, (参考訳) 抽象要約では、ソース文書に含まれる大量の情報から簡潔で正確な要約を作成するという課題が生じる。 したがって、Large Language Models (LLMs) は、流動的なテキストを生成することができるが、元のソースにないコンテンツを幻覚させることによって不正確を導入することが多い。 この問題を最大化するための教師付き微調整手法は、この問題に寄与するが、要約の忠実さを一貫して強化するわけではない。 直接選好最適化(DPO)のような嗜好に基づく最適化手法は、人間の選好に合わせたモデルをさらに洗練することができる。 しかし、これらの手法は依然として費用のかかる人間のフィードバックに大きく依存している。 本研究では,モデルベース推論最適化(MPO)と呼ばれる新しいアプローチを導入し,人間のフィードバックを伴わずに要約能力を向上させる。 モデル固有の要約機能を利用することで、異なる復号戦略を用いてモデルによって完全に生成される選好データセットを作成する。 標準要約データセットと各種測定値を用いた実験により,提案したMPOは,人間のフィードバックに頼らずに生成した要約の質を著しく向上することが示された。

In abstractive summarization, the challenge of producing concise and accurate summaries arises from the vast amount of information contained in the source document. Consequently, although Large Language Models (LLMs) can generate fluent text, they often introduce inaccuracies by hallucinating content not found in the original source. While supervised fine-tuning methods that maximize likelihood contribute to this issue, they do not consistently enhance the faithfulness of the summaries. Preference-based optimization methods, such as Direct Preference Optimization (DPO), can further refine the model to align with human preferences. However, these methods still heavily depend on costly human feedback. In this work, we introduce a novel and straightforward approach called Model-based Preference Optimization (MPO) to fine-tune LLMs for improved summarization abilities without any human feedback. By leveraging the model's inherent summarization capabilities, we create a preference dataset that is fully generated by the model using different decoding strategies. Our experiments on standard summarization datasets and various metrics demonstrate that our proposed MPO significantly enhances the quality of generated summaries without relying on human feedback.
翻訳日:2024-11-06 05:42:34 公開日:2024-10-02
# 人間のフィードバックを伴わない抽象的要約におけるモデルに基づく選好最適化

Model-based Preference Optimization in Abstractive Summarization without Human Feedback ( http://arxiv.org/abs/2409.18618v3 )

ライセンス: Link先を確認
Jaepill Choi, Kyubyung Chae, Jiwoo Song, Yohan Jo, Taesup Kim, (参考訳) 抽象要約では、ソース文書に含まれる大量の情報から簡潔で正確な要約を作成するという課題が生じる。 したがって、Large Language Models (LLMs) は、流動的なテキストを生成することができるが、元のソースにないコンテンツを幻覚させることによって不正確を導入することが多い。 この問題を最大化するための教師付き微調整手法は、この問題に寄与するが、要約の忠実さを一貫して強化するわけではない。 直接選好最適化(DPO)のような嗜好に基づく最適化手法は、人間の選好に合わせたモデルをさらに洗練することができる。 しかし、これらの手法は依然として費用のかかる人間のフィードバックに大きく依存している。 本研究では,モデルベース推論最適化(MPO)と呼ばれる新しいアプローチを導入し,人間のフィードバックを伴わずに要約能力を向上させる。 モデル固有の要約機能を利用することで、異なる復号戦略を用いてモデルによって完全に生成される選好データセットを作成する。 標準要約データセットと各種測定値を用いた実験により,提案したMPOは,人間のフィードバックに頼らずに生成した要約の質を著しく向上することが示された。

In abstractive summarization, the challenge of producing concise and accurate summaries arises from the vast amount of information contained in the source document. Consequently, although Large Language Models (LLMs) can generate fluent text, they often introduce inaccuracies by hallucinating content not found in the original source. While supervised fine-tuning methods that maximize likelihood contribute to this issue, they do not consistently enhance the faithfulness of the summaries. Preference-based optimization methods, such as Direct Preference Optimization (DPO), can further refine the model to align with human preferences. However, these methods still heavily depend on costly human feedback. In this work, we introduce a novel and straightforward approach called Model-based Preference Optimization (MPO) to fine-tune LLMs for improved summarization abilities without any human feedback. By leveraging the model's inherent summarization capabilities, we create a preference dataset that is fully generated by the model using different decoding strategies. Our experiments on standard summarization datasets and various metrics demonstrate that our proposed MPO significantly enhances the quality of generated summaries without relying on human feedback.
翻訳日:2024-11-06 05:42:34 公開日:2024-10-02
# シングルオーディオを超えて:オーディオ大言語モデルにおけるマルチオーディオ処理の改善

Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models ( http://arxiv.org/abs/2409.18680v2 )

ライセンス: Link先を確認
Yiming Chen, Xianghu Yue, Xiaoxue Gao, Chen Zhang, Luis Fernando D'Haro, Robby T. Tan, Haizhou Li, (参考訳) 近年,複数のオーディオ-LLM (ALLMs) が単一の統一モデルを用いて,複数のオーディオタスクを同時に処理するために研究されている。 ALLMの既存の評価は主に単一オーディオタスクに焦点を当てているが、現実のアプリケーションは複数のオーディオストリームを同時に処理することが多い。 このギャップを埋めるために、音声と音声の両方のシナリオを含む11のマルチオーディオタスクから20のデータセットからなる、最初のマルチオーディオ評価(MAE)ベンチマークを提案する。 MAEに関する総合的な実験では、既存のALLMは個々のオーディオ入力における一次オーディオ要素の解釈に強力でありながら、マルチオーディオシナリオを扱うのに苦労していることが示されている。 この目的のために,提案した合成データに対する識別学習を用いて,複数の類似音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。 その結果,提案したMALLMはすべてのベースラインを上回り,人間のアノテーションを必要とせずに合成データを用いて高いデータ効率を実現することができた。 提案されたMALLMは、マルチオーディオ処理時代へのALLMの扉を開き、機械における人間の聴覚能力の複製に近づきつつある。

Various audio-LLMs (ALLMs) have been explored recently for tackling different audio tasks simultaneously using a single, unified model. While existing evaluations of ALLMs primarily focus on single-audio tasks, real-world applications often involve processing multiple audio streams simultaneously. To bridge this gap, we propose the first multi-audio evaluation (MAE) benchmark that consists of 20 datasets from 11 multi-audio tasks encompassing both speech and sound scenarios. Comprehensive experiments on MAE demonstrate that the existing ALLMs, while being powerful in comprehending primary audio elements in individual audio inputs, struggling to handle multi-audio scenarios. To this end, we propose a novel multi-audio-LLM (MALLM) to capture audio context among multiple similar audios using discriminative learning on our proposed synthetic data. The results demonstrate that the proposed MALLM outperforms all baselines and achieves high data efficiency using synthetic data without requiring human annotations. The proposed MALLM opens the door for ALLMs towards multi-audio processing era and brings us closer to replicating human auditory capabilities in machines.
翻訳日:2024-11-06 05:42:34 公開日:2024-10-02
# Face Fusion for Customized Identity-Preserving Image Synthesis

Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis ( http://arxiv.org/abs/2409.19111v1 )

ライセンス: Link先を確認
Salaheldin Mohamed, Dong Han, Yong Li, (参考訳) テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させ、特定のテキスト・プロンプトに基づいて様々な文脈で高品質な画像を生成することができる。 しかしながら、既存のT2Iベースの手法は、参照画像から個人を正確に再現し、それらの個人を様々な設定で表現するのに苦労することが多い。 この問題に対処するために、我々は、Stable Diffusionから事前訓練されたUNetを活用して、ターゲットの顔画像を直接生成プロセスに組み込む。 我々のアプローチは、固定エンコーダや静的な顔埋め込みに依存する従来の方法と異なり、しばしば符号化ギャップのブリッジに失敗する。 代わりに、複数のスケールにわたる参照イメージを処理するために、UNetの洗練されたエンコーディング機能を活用しています。 UNetのクロスアテンション層を革新的に変更することにより、個々のアイデンティティを生成プロセスに効果的に融合する。 様々なスケールにわたる顔の特徴の戦略的統合は、生成した画像の堅牢性と一貫性を高めるだけでなく、効率的なマルチ参照とマルチアイデンティティ生成を促進する。 提案手法は, 画像生成の精度を向上し, 即時アライメントを維持しつつ, 類似度を計測する手法である。

Text-to-image (T2I) models have significantly advanced the development of artificial intelligence, enabling the generation of high-quality images in diverse contexts based on specific text prompts. However, existing T2I-based methods often struggle to accurately reproduce the appearance of individuals from a reference image and to create novel representations of those individuals in various settings. To address this, we leverage the pre-trained UNet from Stable Diffusion to incorporate the target face image directly into the generation process. Our approach diverges from prior methods that depend on fixed encoders or static face embeddings, which often fail to bridge encoding gaps. Instead, we capitalize on UNet's sophisticated encoding capabilities to process reference images across multiple scales. By innovatively altering the cross-attention layers of the UNet, we effectively fuse individual identities into the generative process. This strategic integration of facial features across various scales not only enhances the robustness and consistency of the generated images but also facilitates efficient multi-reference and multi-identity generation. Our method sets a new benchmark in identity-preserving image generation, delivering state-of-the-art results in similarity metrics while maintaining prompt alignment.
翻訳日:2024-11-06 04:30:57 公開日:2024-10-02
# Face Fusion for Customized Identity-Preserving Image Synthesis

Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis ( http://arxiv.org/abs/2409.19111v2 )

ライセンス: Link先を確認
Salaheldin Mohamed, Dong Han, Yong Li, (参考訳) テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させ、特定のテキスト・プロンプトに基づいて様々な文脈で高品質な画像を生成することができる。 しかしながら、既存のT2Iベースの手法は、参照画像から個人を正確に再現し、それらの個人を様々な設定で表現するのに苦労することが多い。 この問題に対処するために、我々は、Stable Diffusionから事前訓練されたUNetを活用して、ターゲットの顔画像を直接生成プロセスに組み込む。 我々のアプローチは、固定エンコーダや静的な顔埋め込みに依存する従来の方法と異なり、しばしば符号化ギャップのブリッジに失敗する。 代わりに、複数のスケールにわたる参照イメージを処理するために、UNetの洗練されたエンコーディング機能を活用しています。 UNetのクロスアテンション層を革新的に変更することにより、個々のアイデンティティを生成プロセスに効果的に融合する。 様々なスケールにわたる顔の特徴の戦略的統合は、生成した画像の堅牢性と一貫性を高めるだけでなく、効率的なマルチ参照とマルチアイデンティティ生成を促進する。 提案手法は, 画像生成の精度を向上し, 即時アライメントを維持しつつ, 類似度を計測する手法である。

Text-to-image (T2I) models have significantly advanced the development of artificial intelligence, enabling the generation of high-quality images in diverse contexts based on specific text prompts. However, existing T2I-based methods often struggle to accurately reproduce the appearance of individuals from a reference image and to create novel representations of those individuals in various settings. To address this, we leverage the pre-trained UNet from Stable Diffusion to incorporate the target face image directly into the generation process. Our approach diverges from prior methods that depend on fixed encoders or static face embeddings, which often fail to bridge encoding gaps. Instead, we capitalize on UNet's sophisticated encoding capabilities to process reference images across multiple scales. By innovatively altering the cross-attention layers of the UNet, we effectively fuse individual identities into the generative process. This strategic integration of facial features across various scales not only enhances the robustness and consistency of the generated images but also facilitates efficient multi-reference and multi-identity generation. Our method sets a new benchmark in identity-preserving image generation, delivering state-of-the-art results in similarity metrics while maintaining prompt alignment.
翻訳日:2024-11-06 04:21:02 公開日:2024-10-02
# HybridFlow: 柔軟で効率的なRLHFフレームワーク

HybridFlow: A Flexible and Efficient RLHF Framework ( http://arxiv.org/abs/2409.19256v1 )

ライセンス: Link先を確認
Guangming Sheng, Chi Zhang, Zilingfeng Ye, Xibin Wu, Wang Zhang, Ru Zhang, Yanghua Peng, Haibin Lin, Chuan Wu, (参考訳) Reinforcement Learning from Human Feedback (RLHF) はLarge Language Model (LLM) アライメントで広く使われている。 従来のRLはデータフローとしてモデル化することができ、各ノードはニューラルネットワーク(NN)の計算を表し、各エッジはNN間のデータ依存関係を表す。 RLHFは、各ノードを分散LLMトレーニングまたは生成プログラムに拡張し、各エッジを多対多のマルチキャストにすることで、データフローを複雑化する。 従来のRLフレームワークは、単一コントローラを使用してデータフローを実行し、ノード内計算とノード間通信の両方を指示する。 既存のRLHFシステムはマルチコントローラパラダイムを採用しており、分散計算とデータ通信のネストにより柔軟性が低い。 RLHFデータフローの柔軟な表現と効率的な実行を可能にするために,シングルコントローラとマルチコントローラのパラダイムをハイブリッド方式で組み合わせたHybridFlowを提案する。 我々は、複雑なRLHFデータフローで計算とデータ依存関係を分離・カプセル化する階層型APIを慎重に設計し、効率的な演算オーケストレーションにより、RLHFアルゴリズムを実装し、計算の様々なデバイスへの柔軟なマッピングを可能にする。 さらに、トレーニングと生成フェーズ間の効率的なアクターモデルリシャーディングのための3D-HybridEngineを設計し、メモリ冗長性をなくし、通信オーバーヘッドを大幅に削減する。 実験の結果,HybridFlowを用いてRLHFアルゴリズムを動作させる場合のスループットは,最先端のベースラインと比較して1.53$\times$~20.57$\times$であることがわかった。 HybridFlowのソースコードはhttps://github.com/volcengine/verl.comで入手できる。

Reinforcement Learning from Human Feedback (RLHF) is widely used in Large Language Model (LLM) alignment. Traditional RL can be modeled as a dataflow, where each node represents computation of a neural network (NN) and each edge denotes data dependencies between the NNs. RLHF complicates the dataflow by expanding each node into a distributed LLM training or generation program, and each edge into a many-to-many multicast. Traditional RL frameworks execute the dataflow using a single controller to instruct both intra-node computation and inter-node communication, which can be inefficient in RLHF due to large control dispatch overhead for distributed intra-node computation. Existing RLHF systems adopt a multi-controller paradigm, which can be inflexible due to nesting distributed computation and data communication. We propose HybridFlow, which combines single-controller and multi-controller paradigms in a hybrid manner to enable flexible representation and efficient execution of the RLHF dataflow. We carefully design a set of hierarchical APIs that decouple and encapsulate computation and data dependencies in the complex RLHF dataflow, allowing efficient operation orchestration to implement RLHF algorithms and flexible mapping of the computation onto various devices. We further design a 3D-HybridEngine for efficient actor model resharding between training and generation phases, with zero memory redundancy and significantly reduced communication overhead. Our experimental results demonstrate 1.53$\times$~20.57$\times$ throughput improvement when running various RLHF algorithms using HybridFlow, as compared with state-of-the-art baselines. HybridFlow source code is available at https://github.com/volcengine/verl.
翻訳日:2024-11-06 00:18:22 公開日:2024-10-02
# HybridFlow: 柔軟で効率的なRLHFフレームワーク

HybridFlow: A Flexible and Efficient RLHF Framework ( http://arxiv.org/abs/2409.19256v2 )

ライセンス: Link先を確認
Guangming Sheng, Chi Zhang, Zilingfeng Ye, Xibin Wu, Wang Zhang, Ru Zhang, Yanghua Peng, Haibin Lin, Chuan Wu, (参考訳) Reinforcement Learning from Human Feedback (RLHF) はLarge Language Model (LLM) アライメントで広く使われている。 従来のRLはデータフローとしてモデル化することができ、各ノードはニューラルネットワーク(NN)の計算を表し、各エッジはNN間のデータ依存関係を表す。 RLHFは、各ノードを分散LLMトレーニングまたは生成プログラムに拡張し、各エッジを多対多のマルチキャストにすることで、データフローを複雑化する。 従来のRLフレームワークは、単一コントローラを使用してデータフローを実行し、ノード内計算とノード間通信の両方を指示する。 既存のRLHFシステムはマルチコントローラパラダイムを採用しており、分散計算とデータ通信のネストにより柔軟性が低い。 RLHFデータフローの柔軟な表現と効率的な実行を可能にするために,シングルコントローラとマルチコントローラのパラダイムをハイブリッド方式で組み合わせたHybridFlowを提案する。 我々は、複雑なRLHFデータフローで計算とデータ依存関係を分離・カプセル化する階層型APIを慎重に設計し、効率的な演算オーケストレーションにより、RLHFアルゴリズムを実装し、計算の様々なデバイスへの柔軟なマッピングを可能にする。 さらに、トレーニングと生成フェーズ間の効率的なアクターモデルリシャーディングのための3D-HybridEngineを設計し、メモリ冗長性をなくし、通信オーバーヘッドを大幅に削減する。 実験の結果,HybridFlowを用いてRLHFアルゴリズムを動作させる場合のスループットは,最先端のベースラインと比較して1.53$\times$~20.57$\times$であることがわかった。 HybridFlowのソースコードはhttps://github.com/volcengine/verl.comから入手できる。

Reinforcement Learning from Human Feedback (RLHF) is widely used in Large Language Model (LLM) alignment. Traditional RL can be modeled as a dataflow, where each node represents computation of a neural network (NN) and each edge denotes data dependencies between the NNs. RLHF complicates the dataflow by expanding each node into a distributed LLM training or generation program, and each edge into a many-to-many multicast. Traditional RL frameworks execute the dataflow using a single controller to instruct both intra-node computation and inter-node communication, which can be inefficient in RLHF due to large control dispatch overhead for distributed intra-node computation. Existing RLHF systems adopt a multi-controller paradigm, which can be inflexible due to nesting distributed computation and data communication. We propose HybridFlow, which combines single-controller and multi-controller paradigms in a hybrid manner to enable flexible representation and efficient execution of the RLHF dataflow. We carefully design a set of hierarchical APIs that decouple and encapsulate computation and data dependencies in the complex RLHF dataflow, allowing efficient operation orchestration to implement RLHF algorithms and flexible mapping of the computation onto various devices. We further design a 3D-HybridEngine for efficient actor model resharding between training and generation phases, with zero memory redundancy and significantly reduced communication overhead. Our experimental results demonstrate 1.53$\times$~20.57$\times$ throughput improvement when running various RLHF algorithms using HybridFlow, as compared with state-of-the-art baselines. HybridFlow source code will be available at https://github.com/volcengine/verl.
翻訳日:2024-11-06 00:18:22 公開日:2024-10-02
# CLIP-MoE: 多様化した多重アップサイクルによるCLIPのエキスパートの混在構築を目指す

CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling ( http://arxiv.org/abs/2409.19291v1 )

ライセンス: Link先を確認
Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng, (参考訳) 近年,コントラスト言語-画像事前学習(CLIP)がマルチモーダルインテリジェンスの基礎となっている。 しかし、最近の研究では、CLIP符号化プロセスにおける情報損失がかなり大きいことが確認されており、CLIPは入力から粗い特徴のみをキャプチャする傾向にある。 この欠陥は、単一のCLIPモデルが視覚的なディテールに富んだ画像を処理できることを著しく制限する。 そこで本研究では,CLIPのためのモデルに依存しないシンプルな手法であるDiversified Multiplet Upcycling(DMU)を提案する。 DMUは、高密度にトレーニングされたCLIPチェックポイントからフィードフォワードネットワーク(FFN)を除くパラメータの共有に至るまで、さまざまな特徴空間をキャプチャする一連のCLIPモデルを効率的に微調整する。 これらのモデルは、より大きなモデルキャパシティを持つCLIP-MoEに変換できるため、計算オーバーヘッドを最小限に抑えた性能が大幅に向上する。 私たちの知る限りでは、Diversified Multiplet UpcyclingはCLIPファウンデーションモデルに疎活性化されたMoEを導入する最初のアプローチです。 広汎な実験により、様々なゼロショット検索、ゼロショット画像分類タスク、下流マルチモーダル大言語モデル(MLLM)ベンチマークにおけるCLIP-MoEの性能が視覚エンコーダとして機能することを示した。 さらに、Diversified Multiplet Upcyclingでは、任意の高密度CLIPモデルをCLIP-MoEに変換することが可能で、下流フレームワークにさらなる適応を必要とせずに、プラグイン・アンド・プレイでCLIPをシームレスに置き換えることができる。 多様化したマルチモーダル・ラーニング・システムの構築をめざして,より効率的かつ効果的なマルチモーダル・ラーニング・システムの構築に向けた今後の研究に価値ある洞察を提供することを目的とする。

In recent years, Contrastive Language-Image Pre-training (CLIP) has become a cornerstone in multimodal intelligence. However, recent studies have identified that the information loss in the CLIP encoding process is substantial, and CLIP tends to capture only coarse-grained features from the input. This deficiency significantly limits the ability of a single CLIP model to handle images rich in visual detail. In this work, we propose a simple yet effective model-agnostic strategy, Diversified Multiplet Upcycling (DMU), for CLIP. DMU efficiently fine-tunes a series of CLIP models that capture different feature spaces, from a dense pre-trained CLIP checkpoint, sharing parameters except for the Feed-Forward Network (FFN). These models can then be transformed into a CLIP-MoE with a larger model capacity, leading to significantly enhanced performance with minimal computational overhead. To the best of our knowledge, Diversified Multiplet Upcycling is the first approach to introduce sparsely activated MoE into CLIP foundation models. Extensive experiments demonstrate the significant performance of CLIP-MoE across various zero-shot retrieval, zero-shot image classification tasks, and downstream Multimodal Large Language Model (MLLM) benchmarks by serving as a vision encoder. Furthermore, Diversified Multiplet Upcycling enables the conversion of any dense CLIP model into CLIP-MoEs, which can seamlessly replace CLIP in a plug-and-play manner without requiring further adaptation in downstream frameworks. Through Diversified Multiplet Upcycling, we aim to provide valuable insights for future research on developing more efficient and effective multimodal learning systems.
翻訳日:2024-11-06 00:08:33 公開日:2024-10-02
# CLIP-MoE: 多様化した多重アップサイクルによるCLIPのエキスパートの混在構築を目指す

CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling ( http://arxiv.org/abs/2409.19291v2 )

ライセンス: Link先を確認
Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng, (参考訳) 近年,コントラスト言語-画像事前学習(CLIP)がマルチモーダルインテリジェンスの基礎となっている。 しかし、最近の研究では、CLIP符号化プロセスにおける情報損失がかなり大きいことが確認されており、CLIPは入力から粗い特徴のみをキャプチャする傾向にある。 この欠陥は、単一のCLIPモデルが視覚的なディテールに富んだ画像を処理できることを著しく制限する。 そこで本研究では,CLIPのためのモデルに依存しないシンプルな手法であるDiversified Multiplet Upcycling(DMU)を提案する。 DMUは、高密度にトレーニングされたCLIPチェックポイントからフィードフォワードネットワーク(FFN)を除くパラメータの共有に至るまで、さまざまな特徴空間をキャプチャする一連のCLIPモデルを効率的に微調整する。 これらのモデルは、より大きなモデルキャパシティを持つCLIP-MoEに変換できるため、計算オーバーヘッドを最小限に抑えた性能が大幅に向上する。 私たちの知る限りでは、Diversified Multiplet UpcyclingはCLIPファウンデーションモデルに疎活性化されたMoEを導入する最初のアプローチです。 広汎な実験により、様々なゼロショット検索、ゼロショット画像分類タスク、下流マルチモーダル大言語モデル(MLLM)ベンチマークにおけるCLIP-MoEの性能が視覚エンコーダとして機能することを示した。 さらに、Diversified Multiplet Upcyclingでは、任意の高密度CLIPモデルをCLIP-MoEに変換することが可能で、下流フレームワークにさらなる適応を必要とせずに、プラグイン・アンド・プレイでCLIPをシームレスに置き換えることができる。 多様化したマルチモーダル・ラーニング・システムの構築をめざして,より効率的かつ効果的なマルチモーダル・ラーニング・システムの構築に向けた今後の研究に価値ある洞察を提供することを目的とする。

In recent years, Contrastive Language-Image Pre-training (CLIP) has become a cornerstone in multimodal intelligence. However, recent studies have identified that the information loss in the CLIP encoding process is substantial, and CLIP tends to capture only coarse-grained features from the input. This deficiency significantly limits the ability of a single CLIP model to handle images rich in visual detail. In this work, we propose a simple yet effective model-agnostic strategy, Diversified Multiplet Upcycling (DMU), for CLIP. DMU efficiently fine-tunes a series of CLIP models that capture different feature spaces, from a dense pre-trained CLIP checkpoint, sharing parameters except for the Feed-Forward Network (FFN). These models can then be transformed into a CLIP-MoE with a larger model capacity, leading to significantly enhanced performance with minimal computational overhead. To the best of our knowledge, Diversified Multiplet Upcycling is the first approach to introduce sparsely activated MoE into CLIP foundation models. Extensive experiments demonstrate the significant performance of CLIP-MoE across various zero-shot retrieval, zero-shot image classification tasks, and downstream Multimodal Large Language Model (MLLM) benchmarks by serving as a vision encoder. Furthermore, Diversified Multiplet Upcycling enables the conversion of any dense CLIP model into CLIP-MoEs, which can seamlessly replace CLIP in a plug-and-play manner without requiring further adaptation in downstream frameworks. Through Diversified Multiplet Upcycling, we aim to provide valuable insights for future research on developing more efficient and effective multimodal learning systems.
翻訳日:2024-11-06 00:08:33 公開日:2024-10-02
# MTDを利用した非IIDデータを用いた分散型FLにおけるポジショニング攻撃の軽減

Leveraging MTD to Mitigate Poisoning Attacks in Decentralized FL with Non-IID Data ( http://arxiv.org/abs/2409.19302v1 )

ライセンス: Link先を確認
Chao Feng, Alberto Huertas Celdrán, Zien Zeng, Zi Ye, Jan von der Assen, Gerome Bovet, Burkhard Stiller, (参考訳) ビッグデータをプライバシ保護された方法で管理するためのパラダイムである分散フェデレート学習(DFL)は、悪意のあるクライアントがデータやモデルを改ざんする攻撃に対して、依然として脆弱である。 現在の防衛法は、現実のアプリケーションでは非現実的な独立分散(IID)データを仮定することが多い。 非IIDの文脈では、既存の防衛戦略は、妥協されたモデルと異種データ分布で訓練されたモデルとを区別し、効果を低下させるという課題に直面している。 そこで本研究では,DFLモデルのロバスト性を高めるため,移動目標防衛(MTD)アプローチを用いたフレームワークを提案する。 この枠組みはDFLシステムの攻撃面を継続的に修正することにより、効果的に中毒攻撃を緩和することを目的としている。 提案するMTDフレームワークは,モデル類似度と損失の指標と,様々な防御技術を組み合わせた評価システムを利用して,プロアクティブモードとリアクティブモードの両方を含む。 総合的な実験的評価により、MTDに基づくメカニズムは、異なるトポロジを持つ複数のデータセットにまたがる様々な毒性攻撃タイプを著しく軽減することが示された。

Decentralized Federated Learning (DFL), a paradigm for managing big data in a privacy-preserved manner, is still vulnerable to poisoning attacks where malicious clients tamper with data or models. Current defense methods often assume Independently and Identically Distributed (IID) data, which is unrealistic in real-world applications. In non-IID contexts, existing defensive strategies face challenges in distinguishing between models that have been compromised and those that have been trained on heterogeneous data distributions, leading to diminished efficacy. In response, this paper proposes a framework that employs the Moving Target Defense (MTD) approach to bolster the robustness of DFL models. By continuously modifying the attack surface of the DFL system, this framework aims to mitigate poisoning attacks effectively. The proposed MTD framework includes both proactive and reactive modes, utilizing a reputation system that combines metrics of model similarity and loss, alongside various defensive techniques. Comprehensive experimental evaluations indicate that the MTD-based mechanism significantly mitigates a range of poisoning attack types across multiple datasets with different topologies.
翻訳日:2024-11-06 00:08:33 公開日:2024-10-02
# MTDを利用した非IIDデータを用いた分散型FLにおけるポジショニング攻撃の軽減

Leveraging MTD to Mitigate Poisoning Attacks in Decentralized FL with Non-IID Data ( http://arxiv.org/abs/2409.19302v2 )

ライセンス: Link先を確認
Chao Feng, Alberto Huertas Celdrán, Zien Zeng, Zi Ye, Jan von der Assen, Gerome Bovet, Burkhard Stiller, (参考訳) ビッグデータをプライバシ保護された方法で管理するためのパラダイムである分散フェデレート学習(DFL)は、悪意のあるクライアントがデータやモデルを改ざんする攻撃に対して、依然として脆弱である。 現在の防衛法は、現実のアプリケーションでは非現実的な独立分散(IID)データを仮定することが多い。 非IIDの文脈では、既存の防衛戦略は、妥協されたモデルと異種データ分布で訓練されたモデルとを区別し、効果を低下させるという課題に直面している。 そこで本研究では,DFLモデルのロバスト性を高めるため,移動目標防衛(MTD)アプローチを用いたフレームワークを提案する。 この枠組みはDFLシステムの攻撃面を継続的に修正することにより、効果的に中毒攻撃を緩和することを目的としている。 提案するMTDフレームワークは,モデル類似度と損失の指標と,様々な防御技術を組み合わせた評価システムを利用して,プロアクティブモードとリアクティブモードの両方を含む。 総合的な実験的評価により、MTDに基づくメカニズムは、異なるトポロジを持つ複数のデータセットにまたがる様々な毒性攻撃タイプを著しく軽減することが示された。

Decentralized Federated Learning (DFL), a paradigm for managing big data in a privacy-preserved manner, is still vulnerable to poisoning attacks where malicious clients tamper with data or models. Current defense methods often assume Independently and Identically Distributed (IID) data, which is unrealistic in real-world applications. In non-IID contexts, existing defensive strategies face challenges in distinguishing between models that have been compromised and those that have been trained on heterogeneous data distributions, leading to diminished efficacy. In response, this paper proposes a framework that employs the Moving Target Defense (MTD) approach to bolster the robustness of DFL models. By continuously modifying the attack surface of the DFL system, this framework aims to mitigate poisoning attacks effectively. The proposed MTD framework includes both proactive and reactive modes, utilizing a reputation system that combines metrics of model similarity and loss, alongside various defensive techniques. Comprehensive experimental evaluations indicate that the MTD-based mechanism significantly mitigates a range of poisoning attack types across multiple datasets with different topologies.
翻訳日:2024-11-06 00:08:33 公開日:2024-10-02
# RMLR: 一般測地への多項ロジスティック回帰の拡張

RMLR: Extending Multinomial Logistic Regression into General Geometries ( http://arxiv.org/abs/2409.19433v1 )

ライセンス: Link先を確認
Ziheng Chen, Yue Song, Rui Wang, Xiaojun Wu, Nicu Sebe, (参考訳) ディープラーニング技術をリーマン空間に拡張したリーマンニューラルネットワークは、機械学習において大きな注目を集めている。 多様体値の特徴をよりよく分類するために、研究者はユークリッド多項ロジスティック回帰(MLR)をリーマン多様体に拡張し始めた。 しかし、既存のアプローチは特定の幾何学的性質に強く依存するため、適用性に制限がある。 本稿では, RMLR と呼ばれる一般測地上のリーマン MLR を設計するためのフレームワークを提案する。 我々のフレームワークは、最小限の幾何学的性質しか必要とせず、広い適用性を示し、幅広い測地で使用することができる。 具体的には、Symmetric Positive Definite (SPD) 多様体と特別な直交群、すなわち回転行列の集合に関する枠組みを紹介する。 SPD多様体上では、5種類のパワー変形測定値に基づいてSPD MLRの5つのファミリーを開発する。 回転行列上では、人気のある双不変計量に基づいてリー MLR を提案する。 異なるリーマンのバックボーンネットワークに関する大規模な実験は、我々のフレームワークの有効性を検証する。

Riemannian neural networks, which extend deep learning techniques to Riemannian spaces, have gained significant attention in machine learning. To better classify the manifold-valued features, researchers have started extending Euclidean multinomial logistic regression (MLR) into Riemannian manifolds. However, existing approaches suffer from limited applicability due to their strong reliance on specific geometric properties. This paper proposes a framework for designing Riemannian MLR over general geometries, referred to as RMLR. Our framework only requires minimal geometric properties, thus exhibiting broad applicability and enabling its use with a wide range of geometries. Specifically, we showcase our framework on the Symmetric Positive Definite (SPD) manifold and special orthogonal group, i.e., the set of rotation matrices. On the SPD manifold, we develop five families of SPD MLRs under five types of power-deformed metrics. On rotation matrices we propose Lie MLR based on the popular bi-invariant metric. Extensive experiments on different Riemannian backbone networks validate the effectiveness of our framework.
翻訳日:2024-11-05 23:19:24 公開日:2024-10-02
# RMLR: 一般測地への多項ロジスティック回帰の拡張

RMLR: Extending Multinomial Logistic Regression into General Geometries ( http://arxiv.org/abs/2409.19433v2 )

ライセンス: Link先を確認
Ziheng Chen, Yue Song, Rui Wang, Xiaojun Wu, Nicu Sebe, (参考訳) ディープラーニング技術をリーマン空間に拡張したリーマンニューラルネットワークは、機械学習において大きな注目を集めている。 多様体値の特徴をよりよく分類するために、研究者はユークリッド多項ロジスティック回帰(MLR)をリーマン多様体に拡張し始めた。 しかし、既存のアプローチは特定の幾何学的性質に強く依存するため、適用性に制限がある。 本稿では, RMLR と呼ばれる一般測地上のリーマン MLR を設計するためのフレームワークを提案する。 我々のフレームワークは、最小限の幾何学的性質しか必要とせず、広い適用性を示し、幅広い測地で使用することができる。 具体的には、Symmetric Positive Definite (SPD) 多様体と特別な直交群、すなわち回転行列の集合に関する枠組みを紹介する。 SPD多様体上では、5種類のパワー変形測定値に基づいてSPD MLRの5つのファミリーを開発する。 回転行列上では、人気のある双不変計量に基づいてリー MLR を提案する。 異なるリーマンのバックボーンネットワークに関する大規模な実験は、我々のフレームワークの有効性を検証する。

Riemannian neural networks, which extend deep learning techniques to Riemannian spaces, have gained significant attention in machine learning. To better classify the manifold-valued features, researchers have started extending Euclidean multinomial logistic regression (MLR) into Riemannian manifolds. However, existing approaches suffer from limited applicability due to their strong reliance on specific geometric properties. This paper proposes a framework for designing Riemannian MLR over general geometries, referred to as RMLR. Our framework only requires minimal geometric properties, thus exhibiting broad applicability and enabling its use with a wide range of geometries. Specifically, we showcase our framework on the Symmetric Positive Definite (SPD) manifold and special orthogonal group, i.e., the set of rotation matrices. On the SPD manifold, we develop five families of SPD MLRs under five types of power-deformed metrics. On rotation matrices we propose Lie MLR based on the popular bi-invariant metric. Extensive experiments on different Riemannian backbone networks validate the effectiveness of our framework.
翻訳日:2024-11-05 23:19:24 公開日:2024-10-02
# クラスワイド低分散規則化による下流タスクのラベルなしデバイアス化

Unlabeled Debiasing in Downstream Tasks via Class-wise Low Variance Regularization ( http://arxiv.org/abs/2409.19541v1 )

ライセンス: Link先を確認
Shahed Masoudian, Markus Frohman, Navid Rekabsaz, Markus Schedl, (参考訳) 言語モデルは、しばしばトレーニングデータから社会的バイアスを継承する。 事前学習と微調整の両方の段階で、これらのバイアスを軽減するために多くの技術が提案されている。 しかし、下流タスクで事前訓練されたデバイアス付き言語モデルを微調整することで、モデルにバイアスを再導入することができる。 さらに、ダウンストリームタスクのための既存のデバイアス手法も。 (i)しばしば利用できない保護属性(例えば、年齢、人種、政治的見解)のラベルが必要。 (ii) 偏見の指標に依存しており, 性別特化語に依存しているため, 性嫌悪への適応性を制限している。 そこで本研究では, 組込みのクラスワイドな分散に基づく, 新規なデバイアス正規化手法を提案する。 重要なことは、我々の手法は属性ラベルを必要とせず、いかなる属性もターゲットとしないため、既存のデバイアス手法の欠点に対処する。 エンコーダ言語モデルと3つのデータセットに関する実験により,本手法は,目標タスクの性能を維持しつつ,目標属性ラベルに依存した既存の強力なデバイアスベースラインよりも優れていることを示した。

Language models frequently inherit societal biases from their training data. Numerous techniques have been proposed to mitigate these biases during both the pre-training and fine-tuning stages. However, fine-tuning a pre-trained debiased language model on a downstream task can reintroduce biases into the model. Additionally, existing debiasing methods for downstream tasks either (i) require labels of protected attributes (e.g., age, race, or political views) that are often not available or (ii) rely on indicators of bias, which restricts their applicability to gender debiasing since they rely on gender-specific words. To address this, we introduce a novel debiasing regularization technique based on the class-wise variance of embeddings. Crucially, our method does not require attribute labels and targets any attribute, thus addressing the shortcomings of existing debiasing methods. Our experiments on encoder language models and three datasets demonstrate that our method outperforms existing strong debiasing baselines that rely on target attribute labels while maintaining performance on the target task.
翻訳日:2024-11-05 22:38:15 公開日:2024-10-02
# クラスワイド低分散規則化による下流タスクのラベルなしデバイアス化

Unlabeled Debiasing in Downstream Tasks via Class-wise Low Variance Regularization ( http://arxiv.org/abs/2409.19541v2 )

ライセンス: Link先を確認
Shahed Masoudian, Markus Frohman, Navid Rekabsaz, Markus Schedl, (参考訳) 言語モデルは、しばしばトレーニングデータから社会的バイアスを継承する。 事前学習と微調整の両方の段階で、これらのバイアスを軽減するために多くの技術が提案されている。 しかし、下流タスクで事前訓練されたデバイアス付き言語モデルを微調整することで、モデルにバイアスを再導入することができる。 さらに、ダウンストリームタスクのための既存のデバイアス手法も。 (i)しばしば利用できない保護属性(例えば、年齢、人種、政治的見解)のラベルが必要。 (ii) 偏見の指標に依存しており, 性別特化語に依存しているため, 性嫌悪への適応性を制限している。 そこで本研究では, 組込みのクラスワイドな分散に基づく, 新規なデバイアス正規化手法を提案する。 重要なことは、我々の手法は属性ラベルを必要とせず、いかなる属性もターゲットとしないため、既存のデバイアス手法の欠点に対処する。 エンコーダ言語モデルと3つのデータセットに関する実験により,本手法は,目標タスクの性能を維持しつつ,目標属性ラベルに依存した既存の強力なデバイアスベースラインよりも優れていることを示した。

Language models frequently inherit societal biases from their training data. Numerous techniques have been proposed to mitigate these biases during both the pre-training and fine-tuning stages. However, fine-tuning a pre-trained debiased language model on a downstream task can reintroduce biases into the model. Additionally, existing debiasing methods for downstream tasks either (i) require labels of protected attributes (e.g., age, race, or political views) that are often not available or (ii) rely on indicators of bias, which restricts their applicability to gender debiasing since they rely on gender-specific words. To address this, we introduce a novel debiasing regularization technique based on the class-wise variance of embeddings. Crucially, our method does not require attribute labels and targets any attribute, thus addressing the shortcomings of existing debiasing methods. Our experiments on encoder language models and three datasets demonstrate that our method outperforms existing strong debiasing baselines that rely on target attribute labels while maintaining performance on the target task.
翻訳日:2024-11-05 22:38:15 公開日:2024-10-02
# クラスワイド低分散規則化による下流タスクのラベルなしデバイアス化

Unlabeled Debiasing in Downstream Tasks via Class-wise Low Variance Regularization ( http://arxiv.org/abs/2409.19541v3 )

ライセンス: Link先を確認
Shahed Masoudian, Markus Frohmann, Navid Rekabsaz, Markus Schedl, (参考訳) 言語モデルは、しばしばトレーニングデータから社会的バイアスを継承する。 事前学習と微調整の両方の段階で、これらのバイアスを軽減するために多くの技術が提案されている。 しかし、下流タスクで事前訓練されたデバイアス付き言語モデルを微調整することで、モデルにバイアスを再導入することができる。 さらに、ダウンストリームタスクのための既存のデバイアス手法も。 (i)しばしば利用できない保護属性(例えば、年齢、人種、政治的見解)のラベルが必要。 (ii) 偏見の指標に依存しており, 性別特化語に依存しているため, 性嫌悪への適応性を制限している。 そこで本研究では, 組込みのクラスワイドな分散に基づく, 新規なデバイアス正規化手法を提案する。 重要なことは、我々の手法は属性ラベルを必要とせず、いかなる属性もターゲットとしないため、既存のデバイアス手法の欠点に対処する。 エンコーダ言語モデルと3つのデータセットに関する実験により,本手法は,目標タスクの性能を維持しつつ,目標属性ラベルに依存した既存の強力なデバイアスベースラインよりも優れていることを示した。

Language models frequently inherit societal biases from their training data. Numerous techniques have been proposed to mitigate these biases during both the pre-training and fine-tuning stages. However, fine-tuning a pre-trained debiased language model on a downstream task can reintroduce biases into the model. Additionally, existing debiasing methods for downstream tasks either (i) require labels of protected attributes (e.g., age, race, or political views) that are often not available or (ii) rely on indicators of bias, which restricts their applicability to gender debiasing since they rely on gender-specific words. To address this, we introduce a novel debiasing regularization technique based on the class-wise variance of embeddings. Crucially, our method does not require attribute labels and targets any attribute, thus addressing the shortcomings of existing debiasing methods. Our experiments on encoder language models and three datasets demonstrate that our method outperforms existing strong debiasing baselines that rely on target attribute labels while maintaining performance on the target task.
翻訳日:2024-11-05 22:38:15 公開日:2024-10-02
# 平均逆時間差学習のほぼ確実な収束性

Almost Sure Convergence of Average Reward Temporal Difference Learning ( http://arxiv.org/abs/2409.19546v1 )

ライセンス: Link先を確認
Ethan Blaser, Shangtong Zhang, (参考訳) タブラル平均報酬差分法(TD)学習は、おそらく平均報酬強化学習において最も単純かつ最も基本的な政策評価アルゴリズムである。 発見から少なくとも25年が経ち、私たちはついに、待ち望まれていたほぼ確実に収束分析を提供することができた。 すなわち、非常に穏やかな条件下では、表平均報酬 TD が標本パス依存の固定点にほぼ確実に収束することを初めて証明する。 この成功の鍵となるのは、マルコフ的でない写像と加法的雑音に関する新しい一般確率的近似結果である。

Tabular average reward Temporal Difference (TD) learning is perhaps the simplest and the most fundamental policy evaluation algorithm in average reward reinforcement learning. After at least 25 years since its discovery, we are finally able to provide a long-awaited almost sure convergence analysis. Namely, we are the first to prove that, under very mild conditions, tabular average reward TD converges almost surely to a sample path dependent fixed point. Key to this success is a new general stochastic approximation result concerning nonexpansive mappings with Markovian and additive noise, built on recent advances in stochastic Krasnoselskii-Mann iterations.
翻訳日:2024-11-05 22:38:15 公開日:2024-10-02
# 平均逆時間差学習のほぼ確実な収束性

Almost Sure Convergence of Average Reward Temporal Difference Learning ( http://arxiv.org/abs/2409.19546v2 )

ライセンス: Link先を確認
Ethan Blaser, Shangtong Zhang, (参考訳) タブラル平均報酬差分法(TD)学習は、おそらく平均報酬強化学習において最も単純かつ最も基本的な政策評価アルゴリズムである。 発見から少なくとも25年が経ち、私たちはついに、待ち望まれていたほぼ確実に収束分析を提供することができた。 すなわち、非常に穏やかな条件下では、表平均報酬 TD が標本パス依存の固定点にほぼ確実に収束することを初めて証明する。 この成功の鍵となるのは、マルコフ的でない写像と加法的雑音に関する新しい一般確率的近似結果である。

Tabular average reward Temporal Difference (TD) learning is perhaps the simplest and the most fundamental policy evaluation algorithm in average reward reinforcement learning. After at least 25 years since its discovery, we are finally able to provide a long-awaited almost sure convergence analysis. Namely, we are the first to prove that, under very mild conditions, tabular average reward TD converges almost surely to a sample path dependent fixed point. Key to this success is a new general stochastic approximation result concerning nonexpansive mappings with Markovian and additive noise, built on recent advances in stochastic Krasnoselskii-Mann iterations.
翻訳日:2024-11-05 22:38:15 公開日:2024-10-02
# 平均逆時間差学習のほぼ確実な収束性

Almost Sure Convergence of Average Reward Temporal Difference Learning ( http://arxiv.org/abs/2409.19546v3 )

ライセンス: Link先を確認
Ethan Blaser, Shangtong Zhang, (参考訳) タブラル平均報酬差分法(TD)学習は、おそらく平均報酬強化学習において最も単純かつ最も基本的な政策評価アルゴリズムである。 発見から少なくとも25年が経ち、私たちはついに、待ち望まれていたほぼ確実に収束分析を提供することができた。 すなわち、非常に穏やかな条件下では、表平均報酬 TD が標本パス依存の固定点にほぼ確実に収束することを初めて証明する。 この成功の鍵となるのは、マルコフ的でない写像と加法的雑音に関する新しい一般確率的近似結果である。

Tabular average reward Temporal Difference (TD) learning is perhaps the simplest and the most fundamental policy evaluation algorithm in average reward reinforcement learning. After at least 25 years since its discovery, we are finally able to provide a long-awaited almost sure convergence analysis. Namely, we are the first to prove that, under very mild conditions, tabular average reward TD converges almost surely to a sample path dependent fixed point. Key to this success is a new general stochastic approximation result concerning nonexpansive mappings with Markovian and additive noise, built on recent advances in stochastic Krasnoselskii-Mann iterations.
翻訳日:2024-11-05 22:38:15 公開日:2024-10-02
# T2VsがVLMと出会う: 視覚的ハームフルネス認識のためのスケーラブルなマルチモーダルデータセット

T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition ( http://arxiv.org/abs/2409.19734v1 )

ライセンス: Link先を確認
Chen Yeh, You-Ming Chang, Wei-Chen Chiu, Ning Yu, (参考訳) 不適切または有害なコンテンツに遭遇するリスクに対処するため、研究者はいくつかの有害なコンテンツデータセットを機械学習手法に組み込んで有害な概念を検出することに成功した。 しかし、既存の有害なデータセットは、限られた有害なオブジェクトの存在によってキュレートされ、真の有害なコンテンツソースのみをカバーする。 これにより、そのようなデータセットに基づいたメソッドの一般化が妨げられ、誤判断につながる可能性がある。 そこで本研究では,インターネットからクロールして4つの生成モデルによって生成された1万枚の画像と1,000本の動画からなる包括的有害なデータセットであるVisual Harmful Dataset 11K (VHD11K)を提案する。 また、アノテーション処理をマルチエージェント視覚質問回答(VQA)タスクとして定式化し、与えられた画像/ビデオが有害かどうかを3つの異なるVLMで議論し、議論プロセスに文脈内学習戦略を取り入れることで、新しいアノテーションフレームワークを提案する。 したがって、VLMは、決定を下す前に、与えられた画像/ビデオのコンテキストと議論の両側を徹底的に考慮し、さらに、エッジケースにおける誤判断の可能性を低減できる。 評価および実験結果から,(1)新規アノテーションフレームワークからのアノテーションとヒトからのアノテーションの整合性,(2)VHD11Kの信頼性の確保,(2)既存の有害コンテンツ検出手法が有意な有害コンテンツを検出できないこと,および既存の有害コンテンツ認識手法の性能向上,(3)VHD11KがベースラインデータセットSMIDより優れていること,の証明が得られた。 完全なデータセットとコードはhttps://github.com/nctu-eva-lab/VHD11Kで見ることができる。

To address the risks of encountering inappropriate or harmful content, researchers managed to incorporate several harmful contents datasets with machine learning methods to detect harmful concepts. However, existing harmful datasets are curated by the presence of a narrow range of harmful objects, and only cover real harmful content sources. This hinders the generalizability of methods based on such datasets, potentially leading to misjudgments. Therefore, we propose a comprehensive harmful dataset, Visual Harmful Dataset 11K (VHD11K), consisting of 10,000 images and 1,000 videos, crawled from the Internet and generated by 4 generative models, across a total of 10 harmful categories covering a full spectrum of harmful concepts with nontrivial definition. We also propose a novel annotation framework by formulating the annotation process as a multi-agent Visual Question Answering (VQA) task, having 3 different VLMs "debate" about whether the given image/video is harmful, and incorporating the in-context learning strategy in the debating process. Therefore, we can ensure that the VLMs consider the context of the given image/video and both sides of the arguments thoroughly before making decisions, further reducing the likelihood of misjudgments in edge cases. Evaluation and experimental results demonstrate that (1) the great alignment between the annotation from our novel annotation framework and those from human, ensuring the reliability of VHD11K; (2) our full-spectrum harmful dataset successfully identifies the inability of existing harmful content detection methods to detect extensive harmful contents and improves the performance of existing harmfulness recognition methods; (3) VHD11K outperforms the baseline dataset, SMID, as evidenced by the superior improvement in harmfulness recognition methods. The complete dataset and code can be found at https://github.com/nctu-eva-lab/VHD11K.
翻訳日:2024-11-05 21:19:41 公開日:2024-10-02
# T2VsがVLMと出会う: 視覚的ハームフルネス認識のためのスケーラブルなマルチモーダルデータセット

T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition ( http://arxiv.org/abs/2409.19734v2 )

ライセンス: Link先を確認
Chen Yeh, You-Ming Chang, Wei-Chen Chiu, Ning Yu, (参考訳) 不適切または有害なコンテンツに遭遇するリスクに対処するため、研究者はいくつかの有害なコンテンツデータセットを機械学習手法に組み込んで有害な概念を検出することに成功した。 しかし、既存の有害なデータセットは、限られた有害なオブジェクトの存在によってキュレートされ、真の有害なコンテンツソースのみをカバーする。 これにより、そのようなデータセットに基づいたメソッドの一般化が妨げられ、誤判断につながる可能性がある。 そこで本研究では,インターネットからクロールして4つの生成モデルによって生成された1万枚の画像と1,000本の動画からなる包括的有害なデータセットであるVisual Harmful Dataset 11K (VHD11K)を提案する。 また、アノテーション処理をマルチエージェント視覚質問回答(VQA)タスクとして定式化し、与えられた画像/ビデオが有害かどうかを3つの異なるVLMで議論し、議論プロセスに文脈内学習戦略を取り入れることで、新しいアノテーションフレームワークを提案する。 したがって、VLMは、決定を下す前に、与えられた画像/ビデオのコンテキストと議論の両側を徹底的に考慮し、さらに、エッジケースにおける誤判断の可能性を低減できる。 評価および実験結果から,(1)新規アノテーションフレームワークからのアノテーションとヒトからのアノテーションの整合性,(2)VHD11Kの信頼性の確保,(2)既存の有害コンテンツ検出手法が有意な有害コンテンツを検出できないこと,および既存の有害コンテンツ認識手法の性能向上,(3)VHD11KがベースラインデータセットSMIDより優れていること,の証明が得られた。 完全なデータセットとコードはhttps://github.com/nctu-eva-lab/VHD11Kで見ることができる。

To address the risks of encountering inappropriate or harmful content, researchers managed to incorporate several harmful contents datasets with machine learning methods to detect harmful concepts. However, existing harmful datasets are curated by the presence of a narrow range of harmful objects, and only cover real harmful content sources. This hinders the generalizability of methods based on such datasets, potentially leading to misjudgments. Therefore, we propose a comprehensive harmful dataset, Visual Harmful Dataset 11K (VHD11K), consisting of 10,000 images and 1,000 videos, crawled from the Internet and generated by 4 generative models, across a total of 10 harmful categories covering a full spectrum of harmful concepts with nontrivial definition. We also propose a novel annotation framework by formulating the annotation process as a multi-agent Visual Question Answering (VQA) task, having 3 different VLMs "debate" about whether the given image/video is harmful, and incorporating the in-context learning strategy in the debating process. Therefore, we can ensure that the VLMs consider the context of the given image/video and both sides of the arguments thoroughly before making decisions, further reducing the likelihood of misjudgments in edge cases. Evaluation and experimental results demonstrate that (1) the great alignment between the annotation from our novel annotation framework and those from human, ensuring the reliability of VHD11K; (2) our full-spectrum harmful dataset successfully identifies the inability of existing harmful content detection methods to detect extensive harmful contents and improves the performance of existing harmfulness recognition methods; (3) VHD11K outperforms the baseline dataset, SMID, as evidenced by the superior improvement in harmfulness recognition methods. The complete dataset and code can be found at https://github.com/nctu-eva-lab/VHD11K.
翻訳日:2024-11-05 21:19:41 公開日:2024-10-02
# Token Horizonにおける最適LRのスケーリング

Scaling Optimal LR Across Token Horizon ( http://arxiv.org/abs/2409.19913v1 )

ライセンス: Link先を確認
Johan Bjorck, Alon Benhaim, Vishrav Chaudhary, Furu Wei, Xia Song, (参考訳) State-of-the-the-art LLMs are powered by scaling -- scale model size, dataset size and cluster size. it is be capableable to widely tune hyperparameter for the largest run。その代わりに、およそ最適なハイパーパラメータを小さな実験から推論するか、あるいは \textit{transferred} にする必要がある。モデルサイズをまたいだハイパーパラメータ転送は、 Yang et alで研究されているが、データセットサイズをまたいだハイパーパラメータ転送(ハイパーパラメータ転送) -- トークン水平線(トークン水平線) -- は、まだ研究されていない。ここでは、LLMトレーニングにおける最適な学習率(LR)がトークン水平線(トークン水平線)にどのように依存するかに関する大規模な実証的研究を行う。 第二に、最適LRはスケーリング法則に従い、より長い水平線に対する最適LRはスケーリング法則を介して短い水平線から正確に推定できることを示す。 また、トークン水平線を横切るLRの転送を、現在のプラクティスのオーバーヘッドをゼロにするためのルール・オブ・タブも提供します。 最後に、LLama-1が高LRを多用した証拠を提供し、これによる性能低下を推定する。 したがって、データサイズを越えたハイパーパラメータ転送は、LLMトレーニングの重要なコンポーネントであり、見過ごされている。

State-of-the-art LLMs are powered by scaling -- scaling model size, dataset size and cluster size. It is economically infeasible to extensively tune hyperparameter for the largest runs. Instead, approximately optimal hyperparameters must be inferred or \textit{transferred} from smaller experiments. Hyperparameter transfer across model sizes has been studied in Yang et al. However, hyperparameter transfer across dataset size -- or token horizon -- has not been studied yet. To remedy this we conduct a large scale empirical study on how optimal learning rate (LR) depends on token horizon in LLM training. We first demonstrate that the optimal LR changes significantly with token horizon -- longer training necessitates smaller LR. Secondly we demonstrate the the optimal LR follows a scaling law, and that the optimal LR for longer horizons can be accurately estimated from shorter horizons via our scaling laws. We also provide a rule-of-thumb for transferring LR across token horizons with zero overhead over current practices. Lastly we provide evidence that LLama-1 used too high LR, and estimate the performance hit from this. We thus argue that hyperparameter transfer across data size is an important and overlooked component of LLM training.
翻訳日:2024-11-05 16:57:15 公開日:2024-10-02
# トーケン・ホライズンズにおける最適LRのスケーリング

Scaling Optimal LR Across Token Horizons ( http://arxiv.org/abs/2409.19913v2 )

ライセンス: Link先を確認
Johan Bjorck, Alon Benhaim, Vishrav Chaudhary, Furu Wei, Xia Song, (参考訳) State-of-the-the-art LLMs are powered by scaling -- scale model size, dataset size and cluster size. it is be capableable to widely tune hyperparameter for the largest run。その代わりに、およそ最適なハイパーパラメータを小さな実験から推論するか、あるいは \textit{transferred} にする必要がある。モデルサイズをまたいだハイパーパラメータ転送は、 Yang et alで研究されているが、データセットサイズをまたいだハイパーパラメータ転送(ハイパーパラメータ転送) -- トークン水平線(トークン水平線) -- は、まだ研究されていない。ここでは、LLMトレーニングにおける最適な学習率(LR)がトークン水平線(トークン水平線)にどのように依存するかに関する大規模な実証的研究を行う。 第二に、最適LRはスケーリング法則に従い、より長い水平線に対する最適LRはそのようなスケーリング法則によって短い水平線から正確に推定できることを示す。 また、トークン水平線を横切るLRの転送を、現在のプラクティスのオーバーヘッドをゼロにするためのルール・オブ・タブも提供します。 最後に、LLama-1が高LRを多用した証拠を提供し、これによる性能低下を推定する。 したがって、データサイズを越えたハイパーパラメータ転送は、LLMトレーニングの重要なコンポーネントであり、見過ごされている。

State-of-the-art LLMs are powered by scaling -- scaling model size, dataset size and cluster size. It is economically infeasible to extensively tune hyperparameter for the largest runs. Instead, approximately optimal hyperparameters must be inferred or \textit{transferred} from smaller experiments. Hyperparameter transfer across model sizes has been studied in Yang et al. However, hyperparameter transfer across dataset size -- or token horizon -- has not been studied yet. To remedy this we conduct a large scale empirical study on how optimal learning rate (LR) depends on token horizon in LLM training. We first demonstrate that the optimal LR changes significantly with token horizon -- longer training necessitates smaller LR. Secondly we demonstrate the the optimal LR follows a scaling law, and that the optimal LR for longer horizons can be accurately estimated from shorter horizons via such scaling laws. We also provide a rule-of-thumb for transferring LR across token horizons with zero overhead over current practices. Lastly we provide evidence that LLama-1 used too high LR, and estimate the performance hit from this. We thus argue that hyperparameter transfer across data size is an important and overlooked component of LLM training.
翻訳日:2024-11-05 16:57:15 公開日:2024-10-02
# ウェイクストリンクの法則:大規模言語モデルのクロス能力

Law of the Weakest Link: Cross Capabilities of Large Language Models ( http://arxiv.org/abs/2409.19951v1 )

ライセンス: Link先を確認
Ming Zhong, Aston Zhang, Xuewei Wang, Rui Hou, Wenhan Xiong, Chenguang Zhu, Zhengxing Chen, Liang Tan, Chloe Bi, Mike Lewis, Sravya Popuri, Sharan Narang, Melanie Kambadur, Dhruv Mahajan, Sergey Edunov, Jiawei Han, Laurens van der Maaten, (参考訳) LLM(Large Language Models)の開発と評価は、主に個々の機能に焦点を当てている。 しかし、これは、現実世界のタスクにしばしば必要とされる様々なタイプの専門知識をまたいだ複数の能力の交差を見落としている。 この概念を体系的に探求するために、まず最初に7つのコア個別能力を定義し、それらを組み合わせて7つの共通クロス能力を形成し、それぞれが手動で構築された分類によって支持される。 これらの定義に基づいて、私たちはCrossEvalを紹介します。これは1,400の人間アノテーション付きプロンプトと、個々のプロンプトとクロス能力のための100のプロンプトからなるベンチマークです。 信頼性の高い評価を行うため、専門家アノテータによる4,200モデル応答の評価を行い、8,400人の評価を収集し、詳細な説明を行い、参照例として機能させる。 以上の結果から,現在のLCMは,静的評価と機能強化の両面において,最も弱いコンポーネントによってクロスキャパビリティ性能が著しく制約される「ウェイクストリンクの法則」を常に示していることが明らかとなった。 具体的には、17モデルの58のクロスキャパビリティスコアのうち38のスコアは、すべての個々の能力よりも低いが、20のスコアは、強みと弱さの間にあるが、より弱い能力に近い。 これらの結果から, クロスキャパビリティタスクにおけるLCMの低性能が強調され, より弱い能力の識別と改善が, 複雑な多次元シナリオにおける性能を最適化する上で重要な課題となっている。

The development and evaluation of Large Language Models (LLMs) have largely focused on individual capabilities. However, this overlooks the intersection of multiple abilities across different types of expertise that are often required for real-world tasks, which we term cross capabilities. To systematically explore this concept, we first define seven core individual capabilities and then pair them to form seven common cross capabilities, each supported by a manually constructed taxonomy. Building on these definitions, we introduce CrossEval, a benchmark comprising 1,400 human-annotated prompts, with 100 prompts for each individual and cross capability. To ensure reliable evaluation, we involve expert annotators to assess 4,200 model responses, gathering 8,400 human ratings with detailed explanations to serve as reference examples. Our findings reveal that, in both static evaluations and attempts to enhance specific abilities, current LLMs consistently exhibit the "Law of the Weakest Link," where cross-capability performance is significantly constrained by the weakest component. Specifically, across 58 cross-capability scores from 17 models, 38 scores are lower than all individual capabilities, while 20 fall between strong and weak, but closer to the weaker ability. These results highlight the under-performance of LLMs in cross-capability tasks, making the identification and improvement of the weakest capabilities a critical priority for future research to optimize performance in complex, multi-dimensional scenarios.
翻訳日:2024-11-05 16:37:45 公開日:2024-10-02
# ウェイクストリンクの法則:大規模言語モデルのクロス能力

Law of the Weakest Link: Cross Capabilities of Large Language Models ( http://arxiv.org/abs/2409.19951v2 )

ライセンス: Link先を確認
Ming Zhong, Aston Zhang, Xuewei Wang, Rui Hou, Wenhan Xiong, Chenguang Zhu, Zhengxing Chen, Liang Tan, Chloe Bi, Mike Lewis, Sravya Popuri, Sharan Narang, Melanie Kambadur, Dhruv Mahajan, Sergey Edunov, Jiawei Han, Laurens van der Maaten, (参考訳) LLM(Large Language Models)の開発と評価は、主に個々の機能に焦点を当てている。 しかし、これは、現実世界のタスクにしばしば必要とされる様々なタイプの専門知識をまたいだ複数の能力の交差を見落としている。 この概念を体系的に探求するために、まず最初に7つのコア個別能力を定義し、それらを組み合わせて7つの共通クロス能力を形成し、それぞれが手動で構築された分類によって支持される。 これらの定義に基づいて、私たちはCrossEvalを紹介します。これは1,400の人間アノテーション付きプロンプトと、個々のプロンプトとクロス能力のための100のプロンプトからなるベンチマークです。 信頼性の高い評価を行うため、専門家アノテータによる4,200モデル応答の評価を行い、8,400人の評価を収集し、詳細な説明を行い、参照例として機能させる。 以上の結果から,現在のLCMは,静的評価と機能強化の両面において,最も弱いコンポーネントによってクロスキャパビリティ性能が著しく制約される「ウェイクストリンクの法則」を常に示していることが明らかとなった。 具体的には、17モデルの58のクロスキャパビリティスコアのうち38のスコアは、すべての個々の能力よりも低いが、20のスコアは、強みと弱さの間にあるが、より弱い能力に近い。 これらの結果から, クロスキャパビリティタスクにおけるLCMの低性能が強調され, より弱い能力の識別と改善が, 複雑な多次元シナリオにおける性能を最適化する上で重要な課題となっている。

The development and evaluation of Large Language Models (LLMs) have largely focused on individual capabilities. However, this overlooks the intersection of multiple abilities across different types of expertise that are often required for real-world tasks, which we term cross capabilities. To systematically explore this concept, we first define seven core individual capabilities and then pair them to form seven common cross capabilities, each supported by a manually constructed taxonomy. Building on these definitions, we introduce CrossEval, a benchmark comprising 1,400 human-annotated prompts, with 100 prompts for each individual and cross capability. To ensure reliable evaluation, we involve expert annotators to assess 4,200 model responses, gathering 8,400 human ratings with detailed explanations to serve as reference examples. Our findings reveal that, in both static evaluations and attempts to enhance specific abilities, current LLMs consistently exhibit the "Law of the Weakest Link," where cross-capability performance is significantly constrained by the weakest component. Specifically, across 58 cross-capability scores from 17 models, 38 scores are lower than all individual capabilities, while 20 fall between strong and weak, but closer to the weaker ability. These results highlight the under-performance of LLMs in cross-capability tasks, making the identification and improvement of the weakest capabilities a critical priority for future research to optimize performance in complex, multi-dimensional scenarios.
翻訳日:2024-11-05 16:37:45 公開日:2024-10-02
# 拡散モデルのための画像コピー検出

Image Copy Detection for Diffusion Models ( http://arxiv.org/abs/2409.19952v1 )

ライセンス: Link先を確認
Wenhao Wang, Yifan Sun, Zhentao Tan, Yi Yang, (参考訳) 拡散モデルによって生成された画像は、デジタルアートワークやビジュアルマーケティングでますます人気がある。 しかし、そのような生成された画像は、既存のものからのコンテンツを複製し、コンテンツの独創性に挑戦する可能性がある。 既存の画像コピー検出(ICD)モデルは手作りのレプリカの検出には正確だが、拡散モデルから課題を見落としている。 これは拡散モデルに特化した最初のICDであるICDiffの導入を動機付けます。 この目的のために,拡散複製(D-Rep)データセットを構築し,それに対応する新しい深層埋め込み手法を提案する。 D-Repは最先端拡散モデル(Stable Diffusion V1.5)を使用して40,000のイメージ-レプリカペアを生成する。 本手法は,各画像複製ペアの複製レベルを,教師信号として確率密度関数(PDF)に変換する。 直感的には、隣り合う複製レベルの確率は連続的で滑らかであるべきである。 実験の結果,D-Rep テストセット上での PDF-Embedding はプロトコル駆動方式や非PDF選択を超越していることがわかった。 さらに,PDF-Embeddingを用いて,オープンソースギャラリーに対する拡散モデルの複製率は10%から20%であることがわかった。

Images produced by diffusion models are increasingly popular in digital artwork and visual marketing. However, such generated images might replicate content from existing ones and pose the challenge of content originality. Existing Image Copy Detection (ICD) models, though accurate in detecting hand-crafted replicas, overlook the challenge from diffusion models. This motivates us to introduce ICDiff, the first ICD specialized for diffusion models. To this end, we construct a Diffusion-Replication (D-Rep) dataset and correspondingly propose a novel deep embedding method. D-Rep uses a state-of-the-art diffusion model (Stable Diffusion V1.5) to generate 40, 000 image-replica pairs, which are manually annotated into 6 replication levels ranging from 0 (no replication) to 5 (total replication). Our method, PDF-Embedding, transforms the replication level of each image-replica pair into a probability density function (PDF) as the supervision signal. The intuition is that the probability of neighboring replication levels should be continuous and smooth. Experimental results show that PDF-Embedding surpasses protocol-driven methods and non-PDF choices on the D-Rep test set. Moreover, by utilizing PDF-Embedding, we find that the replication ratios of well-known diffusion models against an open-source gallery range from 10% to 20%.
翻訳日:2024-11-05 16:37:45 公開日:2024-10-02
# 拡散モデルのための画像コピー検出

Image Copy Detection for Diffusion Models ( http://arxiv.org/abs/2409.19952v2 )

ライセンス: Link先を確認
Wenhao Wang, Yifan Sun, Zhentao Tan, Yi Yang, (参考訳) 拡散モデルによって生成された画像は、デジタルアートワークやビジュアルマーケティングでますます人気がある。 しかし、そのような生成された画像は、既存のものからのコンテンツを複製し、コンテンツの独創性に挑戦する可能性がある。 既存の画像コピー検出(ICD)モデルは手作りのレプリカの検出には正確だが、拡散モデルから課題を見落としている。 これは拡散モデルに特化した最初のICDであるICDiffの導入を動機付けます。 この目的のために,拡散複製(D-Rep)データセットを構築し,それに対応する新しい深層埋め込み手法を提案する。 D-Repは最先端拡散モデル(Stable Diffusion V1.5)を使用して40,000のイメージ-レプリカペアを生成する。 本手法は,各画像複製ペアの複製レベルを,教師信号として確率密度関数(PDF)に変換する。 直感的には、隣り合う複製レベルの確率は連続的で滑らかであるべきである。 実験の結果,D-Rep テストセット上での PDF-Embedding はプロトコル駆動方式や非PDF選択を超越していることがわかった。 さらに,PDF-Embeddingを用いて,オープンソースギャラリーに対する拡散モデルの複製率は10%から20%であることがわかった。 このプロジェクトはhttps://icdiff.github.io/.comで公開されている。

Images produced by diffusion models are increasingly popular in digital artwork and visual marketing. However, such generated images might replicate content from existing ones and pose the challenge of content originality. Existing Image Copy Detection (ICD) models, though accurate in detecting hand-crafted replicas, overlook the challenge from diffusion models. This motivates us to introduce ICDiff, the first ICD specialized for diffusion models. To this end, we construct a Diffusion-Replication (D-Rep) dataset and correspondingly propose a novel deep embedding method. D-Rep uses a state-of-the-art diffusion model (Stable Diffusion V1.5) to generate 40, 000 image-replica pairs, which are manually annotated into 6 replication levels ranging from 0 (no replication) to 5 (total replication). Our method, PDF-Embedding, transforms the replication level of each image-replica pair into a probability density function (PDF) as the supervision signal. The intuition is that the probability of neighboring replication levels should be continuous and smooth. Experimental results show that PDF-Embedding surpasses protocol-driven methods and non-PDF choices on the D-Rep test set. Moreover, by utilizing PDF-Embedding, we find that the replication ratios of well-known diffusion models against an open-source gallery range from 10% to 20%. The project is publicly available at https://icdiff.github.io/.
翻訳日:2024-11-05 16:37:45 公開日:2024-10-02
# Visual Context Window Extension: 長いビデオ理解のための新しい視点

Visual Context Window Extension: A New Perspective for Long Video Understanding ( http://arxiv.org/abs/2409.20018v2 )

ライセンス: Link先を確認
Hongchen Wei, Zhenzhong Chen, (参考訳) 大規模マルチモーダルモデル(LMM)は、短いビデオ理解タスクにおいて印象的な性能を示してきたが、長いビデオ理解に適用した場合、大きな課題に直面している。 対照的に、Large Language Models (LLMs) は長文のモデリングにおいて優れた機能を示す。 既存の作業は、トレーニング中に長いビデオテキストペアを導入することで、この問題に対処しようとするものだ。 しかし、これらのアプローチには相当な計算資源とデータ資源が必要である。 本稿では,LMMを長いビデオデータセットに再学習することなく,長いビデオタスクに適用することを目的とした,コンテキストウィンドウの観点からの長いビデオ理解の課題に取り組む。 まず、事前学習したLMMが長大なビデオコンテンツを理解するのになぜ苦労しているかを詳細に分析し、視覚的・言語的モダリティの相違が視覚的・言語的トークンの異なるコンテキストウィンドウにつながることを確認し、視覚的トークンを直接拡張して言語的コンテキストウィンドウに適合させることが困難であることを示す。 そこで本稿では,視覚的コンテキストウィンドウを拡張し,大規模ビデオデータセットの再トレーニングを不要にすることで,LMMを長時間ビデオ理解タスクに適用することを提案する。 長いシーケンスによる大きなメモリ消費を軽減するため,フレーム埋め込みの空間分解能を選択的に調整し,重要な空間情報を保持しながら視覚トークンの数を減らすプログレッシブプール推論戦略を導入する。 複数の長大なビデオ理解ベンチマークにおいて,ビデオフレーム数の増加に伴い,提案手法は一貫して性能の向上を図っている。 MLVUベンチマークでは,モデルサイズが7Bであるにもかかわらず,GPT-4oよりも優れていた。 さらに256フレーム設定では,メモリ使用量をベースラインに比べて約45%削減する。

Large Multimodal Models (LMMs) have demonstrated impressive performance in short video understanding tasks but face great challenges when applied to long video understanding. In contrast, Large Language Models (LLMs) exhibit outstanding capabilities in modeling long texts. Existing work attempts to address this issue by introducing long video-text pairs during training. However, these approaches require substantial computational and data resources. In this paper, we tackle the challenge of long video understanding from the perspective of context windows, aiming to apply LMMs to long video tasks without retraining on long video datasets. We first conduct an in-depth analysis of why pretrained LMMs struggle to understand lengthy video content, identifying that discrepancies between visual and language modalities lead to different context windows for visual and language tokens, making it difficult to directly extend the visual tokens to match the language context window. Based on this, we propose to adapt LMMs for long video understanding tasks by extending the visual context window, eliminating the need for retraining on large scalelong video datasets. To further mitigate the significant memory consumption caused by long sequences, we introduce a progressive pooling inference strategy that selectively adjusts the spatial resolution of frame embeddings, reducing the number of visual tokens while retaining important spatial information. Across multiple long video understanding benchmarks, our method consistently improves the performance as the number of video frames increases. On the MLVU benchmark, our method outperforms GPT-4o, even though our model size is only 7B. Additionally, in the 256-frame setting, our method reduces memory usage by approximately 45% compared to the baseline, without introducing any performance loss.
翻訳日:2024-11-05 16:08:18 公開日:2024-10-02
# CBAM-SwinT-BL:ブロックレベルCBAM強化スウィントランスを用いた小型鉄道表面欠陥検出法

CBAM-SwinT-BL: Small Rail Surface Defect Detection Method Based on Swin Transformer with Block Level CBAM Enhancement ( http://arxiv.org/abs/2409.20113v2 )

ライセンス: Link先を確認
Jiayi Zhao, Alison Wun-lam Yeung, Ali Muhammad, Songjiang Lai, Vincent To-Yee NG, (参考訳) 高強度鉄道の下では、鉄道線路はかなりのストレスに耐え、腐食やスペルなどの様々な欠陥が生じた。 欠陥を効果的に検出し、時間内にメンテナンスを提供することで、サービスの信頼性と公共の安全を損なう。 近年、先進的なモデルが開発されているが、特にダートやスクワットなどの鉄道表面の小型鉄道欠陥を効率的に同定する研究はまだ行われていない。 この課題に対処するために,本研究では,Swin Transformer(SwinT)をベースラインとして,CBAM(Convolutional Block Attention Module)を組み込んで拡張する。 提案手法は,スイニングトランスブロックにCBAMを連続的に組み込むことで,鉄道欠陥検出,特に小型インスタンスサイズでの性能向上を実現している。 提案フレームワークはCBAM-Enhanced Swin Transformer in Block Level (CBAM-SwinT-BL)と名付けられた。 実験およびアブレーション研究は、このフレームワークの有効性を証明した。 提案したフレームワークは,RIIIデータセットの汚れやデントなどの小型欠陥の精度を著しく向上し,mAP-50はそれぞれ+23.0%,+38.3%増加し,MUETデータセットのスクワットカテゴリも+13.2%上昇した。 オリジナルのSwinTと比較すると、CBAM-SwinT-BLはMUETデータセットでは+5%、RIIIデータセットでは+7%の精度で、それぞれ69.1%と88.1%に達した。 一方、追加モジュールCBAMはモデルトレーニング速度を平均+0.04秒/イテレーションで拡張するだけで、システム性能の大幅な改善に比べて許容できる。

Under high-intensity rail operations, rail tracks endure considerable stresses resulting in various defects such as corrugation and spellings. Failure to effectively detect defects and provide maintenance in time would compromise service reliability and public safety. While advanced models have been developed in recent years, efficiently identifying small-scale rail defects has not yet been studied, especially for categories such as Dirt or Squat on rail surface. To address this challenge, this study utilizes Swin Transformer (SwinT) as baseline and incorporates the Convolutional Block Attention Module (CBAM) for enhancement. Our proposed method integrates CBAM successively within the swin transformer blocks, resulting in significant performance improvement in rail defect detection, particularly for categories with small instance sizes. The proposed framework is named CBAM-Enhanced Swin Transformer in Block Level (CBAM-SwinT-BL). Experiment and ablation study have proven the effectiveness of the framework. The proposed framework has a notable improvement in the accuracy of small size defects, such as dirt and dent categories in RIII dataset, with mAP-50 increasing by +23.0% and +38.3% respectively, and the squat category in MUET dataset also reaches +13.2% higher than the original model. Compares to the original SwinT, CBAM-SwinT-BL increase overall precision around +5% in the MUET dataset and +7% in the RIII dataset, reaching 69.1% and 88.1% respectively. Meanwhile, the additional module CBAM merely extend the model training speed by an average of +0.04s/iteration, which is acceptable compared to the significant improvement in system performance.
翻訳日:2024-11-05 16:08:18 公開日:2024-10-02
# 数級蒸留における教師の埋め込みの線形投影

Linear Projections of Teacher Embeddings for Few-Class Distillation ( http://arxiv.org/abs/2409.20449v2 )

ライセンス: Link先を確認
Noel Loo, Fotis Iliopoulos, Wei Hu, Erik Vee, (参考訳) 知識蒸留(KD)は、より大規模で複雑な教師モデルからより小さな学生モデルへ知識を移行するための有望なアプローチとして登場した。 伝統的に、KDは教師の出力確率を模倣するために学生を訓練するが、より高度な技術は教師の内部表現を採用するよう指導する。 広く成功したにもかかわらず、二項分類と少数クラス問題におけるKDの性能は不十分である。 これは、教師モデルの一般化パターンに関する情報が、クラス数と直接的にスケールするためである。 さらに、いくつかの高度な蒸留法は、コンピュータビジョン以外のデータタイプに普遍的に適用できないか、有効でない可能性がある。 その結果, 感情分析, 検索クエリ理解, 広告クエリ関連性評価など, 実世界の重要な応用分野において, 有効蒸留技術はいまだ解明されていない。 これらの観察を考慮に入れ,教師のモデル表現から知識を抽出する新たな手法を導入し,Learning Embedding Linear Projections (LELP) と呼ぶ。 最終層表現の構造に関する最近の知見に触発されて、LELPは教師の埋め込み空間における情報的線形部分空間を特定し、それらを擬似サブクラスに分割することで機能する。 学生モデルはこれらの擬似クラスを複製するように訓練される。 Amazon ReviewsやSentiment140のような大規模NLPベンチマークに関する我々の実験的評価では、LELPは、ほとんどのKDメソッドが苦しむバイナリおよび少数クラスの問題に対して、既存の最先端の蒸留アルゴリズムと一貫して競合し、典型的には優れていることが示されている。

Knowledge Distillation (KD) has emerged as a promising approach for transferring knowledge from a larger, more complex teacher model to a smaller student model. Traditionally, KD involves training the student to mimic the teacher's output probabilities, while more advanced techniques have explored guiding the student to adopt the teacher's internal representations. Despite its widespread success, the performance of KD in binary classification and few-class problems has been less satisfactory. This is because the information about the teacher model's generalization patterns scales directly with the number of classes. Moreover, several sophisticated distillation methods may not be universally applicable or effective for data types beyond Computer Vision. Consequently, effective distillation techniques remain elusive for a range of key real-world applications, such as sentiment analysis, search query understanding, and advertisement-query relevance assessment. Taking these observations into account, we introduce a novel method for distilling knowledge from the teacher's model representations, which we term Learning Embedding Linear Projections (LELP). Inspired by recent findings about the structure of final-layer representations, LELP works by identifying informative linear subspaces in the teacher's embedding space, and splitting them into pseudo-subclasses. The student model is then trained to replicate these pseudo-classes. Our experimental evaluation on large-scale NLP benchmarks like Amazon Reviews and Sentiment140 demonstrate the LELP is consistently competitive with, and typically superior to, existing state-of-the-art distillation algorithms for binary and few-class problems, where most KD methods suffer.
翻訳日:2024-11-05 15:48:47 公開日:2024-10-02
# 言語中心の人間活動認識

Language-centered Human Activity Recognition ( http://arxiv.org/abs/2410.00003v2 )

ライセンス: Link先を確認
Hua Yan, Heng Tan, Yi Ding, Pengfei Zhou, Vinod Namboodiri, Yu Yang, (参考訳) Inertial Measurement Unit(IMU)センサーを用いたHAR(Human Activity Recognition)は、医療、安全、産業生産における応用において重要である。 しかし、アクティビティパターン、デバイスタイプ、センサー配置のバリエーションはデータセット間の分散ギャップを生じさせ、HARモデルの性能を低下させる。 そこで本研究では,LanHARを提案する。LanHARはLarge Language Models(LLM)を利用して,センサ読み取りやアクティビティラベルのセマンティック解釈を生成するシステムである。 このアプローチは、データセット間の不均一性を緩和するだけでなく、新しいアクティビティの認識を促進する。 LanHARは、LLMによる高品質なセマンティック解釈を生成するために反復的再生成法と、センサー読み取りとアクティビティラベルのセマンティック解釈をブリッジする2段階のトレーニングフレームワークを採用している。 これにより、モバイルデプロイメントに適した軽量なセンサーエンコーダが実現され、任意のセンサ読み取りをセマンティック解釈空間にマッピングできるようになる。 4つの公開データセットの実験により、我々のアプローチは、クロスデータセットHARと新しいアクティビティ認識の両方において最先端の手法を大幅に上回っていることが示された。 ソースコードは一般公開される予定だ。

Human Activity Recognition (HAR) using Inertial Measurement Unit (IMU) sensors is critical for applications in healthcare, safety, and industrial production. However, variations in activity patterns, device types, and sensor placements create distribution gaps across datasets, reducing the performance of HAR models. To address this, we propose LanHAR, a novel system that leverages Large Language Models (LLMs) to generate semantic interpretations of sensor readings and activity labels for cross-dataset HAR. This approach not only mitigates cross-dataset heterogeneity but also enhances the recognition of new activities. LanHAR employs an iterative re-generation method to produce high-quality semantic interpretations with LLMs and a two-stage training framework that bridges the semantic interpretations of sensor readings and activity labels. This ultimately leads to a lightweight sensor encoder suitable for mobile deployment, enabling any sensor reading to be mapped into the semantic interpretation space. Experiments on four public datasets demonstrate that our approach significantly outperforms state-of-the-art methods in both cross-dataset HAR and new activity recognition. The source code will be made publicly available.
翻訳日:2024-11-05 15:38:59 公開日:2024-10-02
# モシ:リアルタイム対話のための音声文基盤モデル

Moshi: a speech-text foundation model for real-time dialogue ( http://arxiv.org/abs/2410.00037v2 )

ライセンス: Link先を確認
Alexandre Défossez, Laurent Mazaré, Manu Orsini, Amélie Royer, Patrick Pérez, Hervé Jégou, Edouard Grave, Neil Zeghidour, (参考訳) 音声文基盤モデルと全二重音声対話フレームワークであるMoshiを紹介する。 現在の音声対話システムは、音声活動の検出、音声認識、テキスト対話、音声合成など、独立したコンポーネントのパイプラインに依存している。 このようなフレームワークは、実際の会話の体験をエミュレートすることはできない。 まず、その複雑さは相互作用間の数秒の遅延を引き起こす。 第二に、対話の中間的モダリティであるテキストは、感情や非音声音などの意味を修飾する非言語情報である。 最後に、それらは話者のターンへのセグメンテーションに依存しており、重複する音声、中断、干渉を考慮していない。 モシは、音声対話を音声音声生成としてキャストすることで、これらの独立した問題を解決する。 テキスト言語モデルバックボーンから始まるMoshiは、ニューラルネットワークコーデックの残留量子化器から音声をトークンとして生成し、独自の音声とユーザの音声を別々に並列ストリームにモデル化する。 これにより、明示的な話者回転の除去と任意の会話力学のモデリングが可能になる。 さらに,先行研究の階層的意味-音響トークン生成を拡張し,まず音声トークンの接頭辞として時刻順のテキストトークンを予測する。 この「インナー・モノローグ」手法は、生成した音声の言語的品質を著しく向上させるだけでなく、ストリーミング音声認識とテキスト・トゥ・音声を提供する方法についても説明する。 得られたモデルは,160ms,200msの理論的待ち時間を持つ,初めての実時間2倍音声大言語モデルであり,https://github.com/kyutai-labs/moshiで利用可能である。

We introduce Moshi, a speech-text foundation model and full-duplex spoken dialogue framework. Current systems for spoken dialogue rely on pipelines of independent components, namely voice activity detection, speech recognition, textual dialogue and text-to-speech. Such frameworks cannot emulate the experience of real conversations. First, their complexity induces a latency of several seconds between interactions. Second, text being the intermediate modality for dialogue, non-linguistic information that modifies meaning -- such as emotion or non-speech sounds -- is lost in the interaction. Finally, they rely on a segmentation into speaker turns, which does not take into account overlapping speech, interruptions and interjections. Moshi solves these independent issues altogether by casting spoken dialogue as speech-to-speech generation. Starting from a text language model backbone, Moshi generates speech as tokens from the residual quantizer of a neural audio codec, while modeling separately its own speech and that of the user into parallel streams. This allows for the removal of explicit speaker turns, and the modeling of arbitrary conversational dynamics. We moreover extend the hierarchical semantic-to-acoustic token generation of previous work to first predict time-aligned text tokens as a prefix to audio tokens. Not only this "Inner Monologue" method significantly improves the linguistic quality of generated speech, but we also illustrate how it can provide streaming speech recognition and text-to-speech. Our resulting model is the first real-time full-duplex spoken large language model, with a theoretical latency of 160ms, 200ms in practice, and is available at https://github.com/kyutai-labs/moshi.
翻訳日:2024-11-05 15:29:12 公開日:2024-10-02
# 少数ショットテキスト分類前のラベル付きテストデータに基づくタスク適応型事前学習の公平性の評価

Evaluating the fairness of task-adaptive pretraining on unlabeled test data before few-shot text classification ( http://arxiv.org/abs/2410.00179v2 )

ライセンス: Link先を確認
Kush Dubey, (参考訳) 現代のNLP技術を評価するには、少ないショットの学習ベンチマークが重要である。 しかし、研究者はテストセットからラベルなしのテキストを使ってモデルを事前訓練できるため、ラベルなしのテキストを簡単に利用する手法が好まれる可能性がある。 この潜在的な問題に関する研究の難しさを鑑みて、未ラベルの独立したテキストではなく、未ラベルのテストセットのテキストで事前学習することによるバイアスを定量化する実験を行う。 25の分類タスクと3つの言語モデル(BERT、GPT-2、Mistral 7B)に関するいくつかのショットとゼロショットの制御実験では、過度な最適化の証拠は見つからない。 さらに,数発のテキスト分類を学習する場合の繰り返しサブサンプリングの重要性を実証し,複数の訓練用フォルダを含む場合の学習ベンチマークを推奨する。 コードとデータはhttps://github.com/kddubey/pretrain-on-test/で公開されている。

Few-shot learning benchmarks are critical for evaluating modern NLP techniques. It is possible, however, that benchmarks favor methods which easily make use of unlabeled text, because researchers can use unlabeled text from the test set to pretrain their models. Given the dearth of research on this potential problem, we run experiments to quantify the bias caused by pretraining on unlabeled test set text instead of on unlabeled, independently drawn text. Controlled few-shot and zero-shot experiments on 25 classification tasks and 3 language models -- BERT, GPT-2, and Mistral 7B -- do not find evidence of overoptimism. Furthermore, we demonstrate the importance of repeated subsampling when studying few-shot text classification, and recommend that few-shot learning benchmarks include multiple training folds. Code and data are available at https://github.com/kddubey/pretrain-on-test/.
翻訳日:2024-11-05 10:14:04 公開日:2024-10-02
# 層状ヘテロ構造の元素特異的非破壊プロファイリング

Element-specific, non-destructive profiling of layered heterostructures ( http://arxiv.org/abs/2410.00241v2 )

ライセンス: Link先を確認
Nicolò D'Anna, Jamie Bragg, Elizabeth Skoropata, Nazareth Ortiz Hernández, Aidan G. McConnell, Maël Clémence, Hiroki Ueda, Procopios C. Constantinou, Kieran Spruce, Taylor J. Z. Stock, Sarah Fearn, Steven R. Schofield, Neil J. Curson, Dario Ferreira Sanchez, Daniel Grolimund, Urs Staub, Guy Matmon, Simon Gerber, Gabriel Aeppli, (参考訳) 半導体ヘテロ構造の作製は非常に正確であるため、メトロロジーは科学や応用の進歩の鍵となる課題となっている。 現在、X線回折、高エネルギーX線光電子分光法、二次イオン質量分析法などの高度なツールを用いて、厚さが$\sim$5 nm以上の異なる半導体合金のスラブからなる古典III-VおよびIV族ヘテロ構造を特徴付けることは比較的容易である。 しかし、変調ドーピングやスピンベースの量子および古典的情報技術に必要な不純物、例えば原子的に薄いドーパント層(\delta$-layers)で薄い層をプロファイリングすることはより困難である。 本稿では、共振コントラストX線反射率計がこの課題にどのように対応しているかを示す理論と実験を示す。 この技術は、原子の散乱率の変化を利用して、核レベルの共鳴がX線エネルギーの変化によってスキャンされる。 シリコン中の1つのヒ素$\delta$-layerに対する元素選択非破壊プロファイロメトリーの能力を示し、$\delta$-layersのサブnm電子厚がサブnm化学厚に対応することを示した。 蛍光X線イメージングと組み合わせることで、ナノ構造量子デバイスの非破壊的な3次元キャラクタリゼーションが可能になる。 ソフトなX線波長での強い共鳴のため、この技術はカップレートや局所的な無限層ニッケル酸塩などの層状量子材料の特徴付けにも適している。

Fabrication of semiconductor heterostructures is now so precise that metrology has become a key challenge for progress in science and applications. It is now relatively straightforward to characterize classic III-V and group IV heterostructures consisting of slabs of different semiconductor alloys with thicknesses of $\sim$5 nm and greater using sophisticated tools such as X-ray diffraction, high energy X-ray photoemission spectroscopy, and secondary ion mass spectrometry. However, profiling thin layers with nm or sub-nm thickness, e.g. atomically thin dopant layers ($\delta$-layers), of impurities required for modulation doping and spin-based quantum and classical information technologies is more challenging. Here, we present theory and experiment showing how resonant-contrast X-ray reflectometry meets this challenge. The technique takes advantage of the change in the scattering factor of atoms as their core level resonances are scanned by varying the X-ray energy. We demonstrate the capability of the resulting element-selective, non-destructive profilometry for single arsenic $\delta$-layers within silicon, and show that the sub-nm electronic thickness of the $\delta$-layers corresponds to sub-nm chemical thickness. In combination with X-ray fluorescence imaging, this enables non-destructive three-dimensional characterization of nano-structured quantum devices. Due to the strong resonances at soft X-ray wavelengths, the technique is also ideally suited to characterize layered quantum materials, such as cuprates or the topical infinite-layer nickelates.
翻訳日:2024-11-05 06:46:17 公開日:2024-10-02
# Social Conjuring: 仮想3Dワールド構築におけるAIとのマルチユーザランタイムコラボレーション

Social Conjuring: Multi-User Runtime Collaboration with AI in Building Virtual 3D Worlds ( http://arxiv.org/abs/2410.00274v2 )

ライセンス: Link先を確認
Amina Kobenova, Cyan DeVeaux, Samyak Parajuli, Andrzej Banburski-Fahey, Judith Amores Fernandez, Jaron Lanier, (参考訳) 生成的人工知能は、仮想世界の存在を促進するという約束を示しているが、このプロセスがどのように社会的相互作用として展開するかを理解することにはほとんど注意が払われていない。 我々は,AIを活用した動的3Dシーンの共同制作のためのフレームワークであるSocial Conjurerを紹介した。 ソーシャルおよびツールベースのエンゲージメントや空間的推論など、幅広いインタラクションを通じて、当社のフレームワークは、リッチで多様な仮想環境の作成を促進する。 予備的ユーザスタディ(N=12)からの発見は、このアプローチのユーザエクスペリエンス、社会的文脈が空間環境の促進をいかに形作るか、そして、プロンプトベースの3D共創の社会的応用に対する視点について、洞察を与える。 この記事では、AIをサポートするマルチユーザの世界創造の可能性を強調し、VRにおけるAI強化された創造プロセスのための新しい経路を提供するとともに、AIモデルを3Dコンテンツ生成に組み込む、人間中心のインターフェースを設計するための一連の意味を示す。

Generative artificial intelligence has shown promise in prompting virtual worlds into existence, yet little attention has been given to understanding how this process unfolds as social interaction. We present Social Conjurer, a framework for AI-augmented dynamic 3D scene co-creation, where multiple users collaboratively build and modify virtual worlds in real-time. Through an expanded set of interactions, including social and tool-based engagements as well as spatial reasoning, our framework facilitates the creation of rich, diverse virtual environments. Findings from a preliminary user study (N=12) provide insight into the user experience of this approach, how social contexts shape the prompting of spatial environments, and perspective on social applications of prompt-based 3D co-creation. In addition to highlighting the potential of AI-supported multi-user world creation and offering new pathways for AI-augmented creative processes in VR, this article presents a set of implications for designing human-centered interfaces that incorporate AI models into 3D content generation.
翻訳日:2024-11-05 06:35:59 公開日:2024-10-02
# NetMob23データセット:4つのLMIC諸国の人口密度とOD行列

The NetMob23 Dataset: Population Density and OD Matrices from Four LMIC Countries ( http://arxiv.org/abs/2410.00453v1 )

ライセンス: Link先を確認
Wenlan Zhang, Miguel Nunez del Prado, Vincent Gauthier, Sveta Milusheva, (参考訳) NetMob24データセットは、さまざまな学術分野の研究者が、2年間(2019年と2020年)にわたって4つの国(インド、メキシコ、インドネシア、コロンビア)にまたがる包括的な時空間データセットにアクセスする特別な機会を提供する。 このデータセットは、Cuebiq(AlsoはSpectusと呼ばれている)と共同で開発され、研究目的のために匿名データ収集に自発的に同意したユーザから収集されたモバイルアプリケーション(アプリ)データから得られる、プライバシー保護の集約データセットを含む。 この基準データセットが新たな研究手法の創出と研究成果の再現性を促進することを願っている。

The NetMob24 dataset offers a unique opportunity for researchers from a range of academic fields to access comprehensive spatiotemporal data sets spanning four countries (India, Mexico, Indonesia, and Colombia) over the course of two years (2019 and 2020). This dataset, developed in collaboration with Cuebiq (Also referred to as Spectus), comprises privacy-preserving aggregated data sets derived from mobile application (app) data collected from users who have voluntarily consented to anonymous data collection for research purposes. It is our hope that this reference dataset will foster the production of new research methods and the reproducibility of research outcomes.
翻訳日:2024-11-05 05:27:01 公開日:2024-10-02
# NetMob2024データセット:4つのLMIC諸国の人口密度とOD行列

The NetMob2024 Dataset: Population Density and OD Matrices from Four LMIC Countries ( http://arxiv.org/abs/2410.00453v2 )

ライセンス: Link先を確認
Wenlan Zhang, Miguel Nunez del Prado, Vincent Gauthier, Sveta Milusheva, (参考訳) NetMob24データセットは、さまざまな学術分野の研究者が、2年間(2019年と2020年)にわたって4つの国(インド、メキシコ、インドネシア、コロンビア)にまたがる包括的な時空間データセットにアクセスする特別な機会を提供する。 このデータセットは、Cuebiq(AlsoはSpectusと呼ばれている)と共同で開発され、研究目的のために匿名データ収集に自発的に同意したユーザから収集されたモバイルアプリケーション(アプリ)データから得られる、プライバシー保護の集約データセットを含む。 この基準データセットが新たな研究手法の創出と研究成果の再現性を促進することを願っている。

The NetMob24 dataset offers a unique opportunity for researchers from a range of academic fields to access comprehensive spatiotemporal data sets spanning four countries (India, Mexico, Indonesia, and Colombia) over the course of two years (2019 and 2020). This dataset, developed in collaboration with Cuebiq (Also referred to as Spectus), comprises privacy-preserving aggregated data sets derived from mobile application (app) data collected from users who have voluntarily consented to anonymous data collection for research purposes. It is our hope that this reference dataset will foster the production of new research methods and the reproducibility of research outcomes.
翻訳日:2024-11-05 05:27:01 公開日:2024-10-02
# 著作権論争の確率論的分析と生成AI安全性

Probabilistic Analysis of Copyright Disputes and Generative AI Safety ( http://arxiv.org/abs/2410.00475v2 )

ライセンス: Link先を確認
Hiroaki Chiba-Okabe, (参考訳) 本稿では,ランダムワールド法に基づくコヒーレントな枠組みの中で,関連する司法原則を定式化し,著作権侵害問題を分析するための確率論的アプローチを提案する。 このアプローチは、特に「逆比則(inverse ratio rule)」に重点を置いて、重要な顕在主義の構造化された分析を提供する。 この規則は重大な批判を受けたが、形式的な証明はその妥当性を証明しており、適切に定義されている。 さらに、生成AIによる著作権リスクの増大について検討し、生成モデルによる著作権物質へのアクセスが侵害のリスクを高めることを明らかにする。 確率論的アプローチを用いることで、以前は潜在的緩和戦略として提案されていたNear Access-Free (NAF) 条件を評価する。 この分析によると、NAF条件はいくつかの侵害リスクを緩和するが、その正当性と有効性は特定の文脈で疑わしい。 これらの知見は, 厳密な確率論的アプローチが, 著作権侵害の理解と新興技術との相互作用をいかに進めるかを示すものである。

This paper presents a probabilistic approach to analyzing copyright infringement disputes by formalizing relevant judicial principles within a coherent framework based on the random-worlds method. The approach provides a structured analysis of key evidentiary principles, with particular emphasis on the "inverse ratio rule"--a controversial doctrine adopted by some courts. Although this rule has faced significant criticism, a formal proof demonstrates its validity, provided it is properly defined. Additionally, the paper examines the heightened copyright risks posed by generative AI, highlighting how extensive access to copyrighted material by generative models increases the risk of infringement. Utilizing the probabilistic approach, the Near Access-Free (NAF) condition, previously proposed as a potential mitigation strategy, is evaluated. The analysis reveals that while the NAF condition mitigates some infringement risks, its justifiability and efficacy are questionable in certain contexts. These findings demonstrate how a rigorous probabilistic approach can advance our understanding of copyright jurisprudence and its interaction with emerging technologies.
翻訳日:2024-11-05 05:27:01 公開日:2024-10-02
# CaRtGS: リアルタイムガウス散乱SLAMのための計算アライメント

CaRtGS: Computational Alignment for Real-Time Gaussian Splatting SLAM ( http://arxiv.org/abs/2410.00486v2 )

ライセンス: Link先を確認
Dapeng Feng, Zhiqiang Chen, Yizhen Yin, Shipeng Zhong, Yuhua Qi, Hongbo Chen, (参考訳) 同時局在マッピング(SLAM)は、ロボット工学において重要な課題であり、光リアルなシーン再構築が重要な課題である。 そこで本稿では,リアルタイム環境における光リアルなシーン再構築の効率と品質を向上させる手法であるCaRtGS (Computational Alignment for Real-Time Gaussian Splatting SLAM)を紹介する。 CaRtGSは3D Gaussian Splatting (3DGS)を活用することで、レンダリング品質と処理速度の向上を実現している。 提案手法は,学習を最適化し,長期最適化に対処し,密度を改良する適応戦略により,ガウススティングSLAM(GS-SLAM)の計算ミスアライメントに対処する。 ReplicaとTUM-RGBDデータセットの実験は、ガウスプリミティブの少ない高忠実性レンダリングの実現におけるCaRtGSの有効性を示している。 この研究はSLAMをリアルタイムでフォトリアリスティックな高密度レンダリングへと推進し、フォトリアリスティックなシーン表現を著しく前進させる。 リサーチコミュニティの利益のために、私たちはプロジェクトのウェブサイトでコードを公開しています。

Simultaneous Localization and Mapping (SLAM) is pivotal in robotics, with photorealistic scene reconstruction emerging as a key challenge. To address this, we introduce Computational Alignment for Real-Time Gaussian Splatting SLAM (CaRtGS), a novel method enhancing the efficiency and quality of photorealistic scene reconstruction in real-time environments. Leveraging 3D Gaussian Splatting (3DGS), CaRtGS achieves superior rendering quality and processing speed, which is crucial for scene photorealistic reconstruction. Our approach tackles computational misalignment in Gaussian Splatting SLAM (GS-SLAM) through an adaptive strategy that optimizes training, addresses long-tail optimization, and refines densification. Experiments on Replica and TUM-RGBD datasets demonstrate CaRtGS's effectiveness in achieving high-fidelity rendering with fewer Gaussian primitives. This work propels SLAM towards real-time, photorealistic dense rendering, significantly advancing photorealistic scene representation. For the benefit of the research community, we release the code on our project website: https://dapengfeng.github.io/cartgs.
翻訳日:2024-11-05 05:16:55 公開日:2024-10-02
# 最適因果表現と因果情報ボトルネック

Optimal Causal Representations and the Causal Information Bottleneck ( http://arxiv.org/abs/2410.00535v2 )

ライセンス: Link先を確認
Francisco N. F. Q. Simoes, Mehdi Dastani, Thijs van Ommen, (参考訳) 複雑な因果系を効果的に研究するためには、重要な特徴を保ちながら無関係な詳細を排除し、システムの一部を単純化する表現を構築することが有用である。 Information Bottleneck (IB) 法は、対象変数に関する情報を保持しながらランダム変数を圧縮する表現学習において広く用いられている手法である。 IBのような従来の手法は純粋に統計的であり、根底にある因果構造を無視する。 IB の因果拡張である Causal Information Bottleneck (CIB) を提案し、対象変数に対する因果制御を維持しつつ、選択した変数の集合を圧縮する。 本発明の方法は、因果的解釈が可能な表現を生成し、介入を推論する際に使用することができる。 本研究では,学習した表現が意図した因果関係を正確に捉えていることを示す実験結果を示す。

To effectively study complex causal systems, it is often useful to construct representations that simplify parts of the system by discarding irrelevant details while preserving key features. The Information Bottleneck (IB) method is a widely used approach in representation learning that compresses random variables while retaining information about a target variable. Traditional methods like IB are purely statistical and ignore underlying causal structures, making them ill-suited for causal tasks. We propose the Causal Information Bottleneck (CIB), a causal extension of the IB, which compresses a set of chosen variables while maintaining causal control over a target variable. This method produces representations which are causally interpretable, and which can be used when reasoning about interventions. We present experimental results demonstrating that the learned representations accurately capture causality as intended.
翻訳日:2024-11-05 04:57:03 公開日:2024-10-02
# 浸漬開始時の量子相関、混合状態、不安定性

Quantum correlations, mixed states and bistability at the onset of lasing ( http://arxiv.org/abs/2410.00588v2 )

ライセンス: Link先を確認
Francesco Papoff, Mark Anthony Carroll, Gian Luca Lippi, Gian-Luca Oppo, Giampaolo D'Alessandro, (参考訳) 我々は、光子と電子の間の2つの粒子量子相関を全て含む単一モードレーザーのモデルを導出した。 半古典的モデルの予測とは対照的に、ラシングは非ラッシングと非古典的コヒーレント状態の間の量子的不安定性の存在下で起こる。 コヒーレント状態は、中心周波数と有限直線幅で特徴づけられ、不安定なコヒーレント状態とともにサドルノード分岐から有限振幅で現れる。 したがって、ナノレーザーのコヒーレント発光は、溶出状態と非溶出状態の混合によって生じる。 多数のエミッタと非共鳴モードを持つマクロレーザーの極限において、レーザー閾値は半古典理論の予測に近づいたが、ラシングが有限サイズ摂動の存在下でのみ達成できる重要な違いがある。

We derive a model for a single mode laser that includes all two particle quantum correlations between photons and electrons. In contrast to the predictions of semi-classical models, we find that lasing takes place in the presence of quantum bistability between a non-lasing and a non-classical coherent state. The coherent state is characterized by a central frequency and a finite linewidth and emerges with finite amplitude from a saddle-node bifurcation together with an unstable coherent state. Hence coherent emission in nanolasers originates through a mixing of lasing and non-lasing states. In the limit of a macrolaser with a large number of emitters and non-resonant modes, the laser threshold approaches the prediction of the semi-classical theory, but with the important difference that lasing can be achieved only in the presence of finite size perturbations.
翻訳日:2024-11-05 04:47:16 公開日:2024-10-02
# ソフトウェアリポジトリの代表例作成について

On the Creation of Representative Samples of Software Repositories ( http://arxiv.org/abs/2410.00639v2 )

ライセンス: Link先を確認
June Gorostidi, Adem Ait, Jordi Cabot, Javier Luis Cánovas Izquierdo, (参考訳) ソフトウェアリポジトリは、経験的ソフトウェアエンジニアリングにおけるデータソースの1つであり、主に、ソフトウェアプロジェクトのダイナミクスと実践から知識を抽出することを目的とした、マイニングソフトウェアリポジトリの分野にある。 GitHubのようなソーシャルコーディングプラットフォームの出現により、研究者は研究のソースデータとして使うために何百万ものソフトウェアリポジトリにアクセスできるようになった。 この膨大なデータによって、より管理可能なデータセットを作成するためにサンプリング技術が必要である。 これらのデータセットの作成は重要なステップであり、研究者は興味のある変数のセットに従って代表サンプルを作成するために、慎重にリポジトリを選択する必要がある。 しかし、現在のサンプリング手法は、しばしばランダムな選択に基づいており、研究(例えば、人気や活動)と関係のない変数に依存している。 本稿では,ソフトウェアリポジトリの代表例を作成する手法を提案する。このような代表性は,リポジトリの個体群の特徴と実証研究の要件の両方に適切に一致している。 私たちはHugging Faceリポジトリに基づいたユースケースでアプローチを説明します。

Software repositories is one of the sources of data in Empirical Software Engineering, primarily in the Mining Software Repositories field, aimed at extracting knowledge from the dynamics and practice of software projects. With the emergence of social coding platforms such as GitHub, researchers have now access to millions of software repositories to use as source data for their studies. With this massive amount of data, sampling techniques are needed to create more manageable datasets. The creation of these datasets is a crucial step, and researchers have to carefully select the repositories to create representative samples according to a set of variables of interest. However, current sampling methods are often based on random selection or rely on variables which may not be related to the research study (e.g., popularity or activity). In this paper, we present a methodology for creating representative samples of software repositories, where such representativeness is properly aligned with both the characteristics of the population of repositories and the requirements of the empirical study. We illustrate our approach with use cases based on Hugging Face repositories.
翻訳日:2024-11-05 04:35:05 公開日:2024-10-02
# 自分自身の秘密をマイニングする: テキストと画像の拡散モデルの連続的パーソナライズのための拡散分類器スコア

Mining Your Own Secrets: Diffusion Classifier Scores for Continual Personalization of Text-to-Image Diffusion Models ( http://arxiv.org/abs/2410.00700v2 )

ライセンス: Link先を確認
Saurav Jha, Shiqi Yang, Masato Ishii, Mengjie Zhao, Christian Simon, Muhammad Jehanzeb Mirza, Dong Gong, Lina Yao, Shusuke Takahashi, Yuki Mitsufuji, (参考訳) パーソナライズされたテキスト・ツー・イメージの拡散モデルは、ユーザ定義のテキスト記述といくつかの画像から新しい概念を効率的に取得できる能力で人気が高まっている。 しかし、現実の世界では、ユーザーは複数の概念に基づいてモデルをパーソナライズしたいと願うが、ストレージ/プライバシの懸念により、以前の概念からのデータにアクセスできない。 この継続的学習(CL)のセットアップに直面した場合、ほとんどのパーソナライズ手法は、新しい概念の獲得と以前の概念の維持のバランスを見つけることができず、これは継続的パーソナライズ(CP)が解決しようとしている課題である。 正規化のためのクラス固有情報に依存するCL法に着想を得て,テキスト・ツー・イメージ拡散モデルの連続的パーソナライズのために,拡散分類器(DC)スコアと呼ばれる固有クラス条件密度推定を利用する。 そこで本研究では,連続的なパーソナライゼーションを実現するために,テキスト間拡散モデルのパラメータ空間と関数空間を正規化するためのDCスコアを提案する。 いくつかの多様な評価設定、データセット、メトリクスを用いて、提案した正規化ベースのCP手法が、最先端のC-LoRAや他のベースラインよりも優れていることを示す。 最後に,リプレイフリーのCLセットアップと低ランクのアダプタで動作することにより,各手法は,最先端技術上で,ゼロストレージとパラメータオーバヘッドを発生させる。

Personalized text-to-image diffusion models have grown popular for their ability to efficiently acquire a new concept from user-defined text descriptions and a few images. However, in the real world, a user may wish to personalize a model on multiple concepts but one at a time, with no access to the data from previous concepts due to storage/privacy concerns. When faced with this continual learning (CL) setup, most personalization methods fail to find a balance between acquiring new concepts and retaining previous ones -- a challenge that continual personalization (CP) aims to solve. Inspired by the successful CL methods that rely on class-specific information for regularization, we resort to the inherent class-conditioned density estimates, also known as diffusion classifier (DC) scores, for continual personalization of text-to-image diffusion models. Namely, we propose using DC scores for regularizing the parameter-space and function-space of text-to-image diffusion models, to achieve continual personalization. Using several diverse evaluation setups, datasets, and metrics, we show that our proposed regularization-based CP methods outperform the state-of-the-art C-LoRA, and other baselines. Finally, by operating in the replay-free CL setup and on low-rank adapters, our method incurs zero storage and parameter overhead, respectively, over the state-of-the-art.
翻訳日:2024-11-05 04:25:20 公開日:2024-10-02
# Flex3D:フレキシブルリコンストラクションモデルと入力ビューキュレーションによるフィードフォワード3D生成

Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation ( http://arxiv.org/abs/2410.00890v2 )

ライセンス: Link先を確認
Junlin Han, Jianyuan Wang, Andrea Vedaldi, Philip Torr, Filippos Kokkinos, (参考訳) テキスト、シングルイメージ、あるいはスパースビューイメージから高品質な3Dコンテンツを生成することは、幅広いアプリケーションにおいて難しい課題である。 既存の方法は、通常、多視点画像を合成するために多視点拡散モデルを使用し、3次元再構成のためのフィードフォワードプロセスが続く。 しかしながら、これらのアプローチは、少数の一定数の入力ビューによって制約されることが多く、多様な視点をキャプチャする能力が制限され、さらに悪いことに、合成されたビューが品質の悪い場合、最適以下の生成結果をもたらす。 これらの制約に対処するため、任意の数の高品質な入力ビューを活用できる新しい2段階フレームワークFlex3Dを提案する。 最初のステージは、候補ビュー生成とキュレーションパイプラインで構成される。 我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。 その後、ビュー選択パイプラインは、これらのビューを品質と一貫性に基づいてフィルタリングし、高品質で信頼性の高いビューのみが再構成に使用されることを保証する。 第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。 FlemRMは、3次元平面表現を利用する3次元ガウス点を直接出力し、効率的で詳細な3次元生成を可能にする。 設計およびトレーニング戦略の広範な探索を通じて、FlexRMを最適化し、再構築および生成タスクの両方において優れたパフォーマンスを達成する。 以上の結果から,Flex3Dは最新のフィードフォワード3D生成モデルと比較して,3D生成タスクにおいて92%以上の勝利率を達成できた。

Generating high-quality 3D content from text, single images, or sparse view images remains a challenging task with broad applications. Existing methods typically employ multi-view diffusion models to synthesize multi-view images, followed by a feed-forward process for 3D reconstruction. However, these approaches are often constrained by a small and fixed number of input views, limiting their ability to capture diverse viewpoints and, even worse, leading to suboptimal generation results if the synthesized views are of poor quality. To address these limitations, we propose Flex3D, a novel two-stage framework capable of leveraging an arbitrary number of high-quality input views. The first stage consists of a candidate view generation and curation pipeline. We employ a fine-tuned multi-view image diffusion model and a video diffusion model to generate a pool of candidate views, enabling a rich representation of the target 3D object. Subsequently, a view selection pipeline filters these views based on quality and consistency, ensuring that only the high-quality and reliable views are used for reconstruction. In the second stage, the curated views are fed into a Flexible Reconstruction Model (FlexRM), built upon a transformer architecture that can effectively process an arbitrary number of inputs. FlemRM directly outputs 3D Gaussian points leveraging a tri-plane representation, enabling efficient and detailed 3D generation. Through extensive exploration of design and training strategies, we optimize FlexRM to achieve superior performance in both reconstruction and generation tasks. Our results demonstrate that Flex3D achieves state-of-the-art performance, with a user study winning rate of over 92% in 3D generation tasks when compared to several of the latest feed-forward 3D generative models.
翻訳日:2024-11-05 00:19:53 公開日:2024-10-02
# エネルギー効率の良い言語モデルに必要な追加

Addition is All You Need for Energy-efficient Language Models ( http://arxiv.org/abs/2410.00907v2 )

ライセンス: Link先を確認
Hongyin Luo, Wei Sun, (参考訳) 大規模なニューラルネットワークは、ほとんどの計算を浮動小数点テンソル乗算に費やす。 本研究では,浮動小数点乗算器を高い精度で1つの整数加算器で近似できることを示す。 浮動小数点数乗算と整数加算演算を近似した線形複雑度乗算L-Mulアルゴリズムを提案する。 この新しいアルゴリズムは8ビット浮動小数点乗算よりも計算資源を著しく削減するが、精度は高い。 8ビット浮動小数点乗算と比較して,提案手法は高い精度を達成できるが,ビットレベルの計算は著しく少ない。 浮動小数点数の乗算は整数加算演算に比べてかなり高いエネルギーを必要とするため、テンソル処理ハードウェアにおけるL-Mul演算を適用することで、要素ワイド浮動小数点乗算による95%のエネルギーコストとドット積の80%のエネルギーコストを削減できる可能性がある。 我々はL-Mulの理論的誤り予測を計算し、自然言語理解、構造的推論、数学、常識的質問応答を含む幅広いテキスト・視覚・記号的タスクでアルゴリズムの評価を行った。 数値解析実験は, 4ビットマンティッサを持つL-Mulがfloat8_e4m3乗算と同等の精度を達成し, 3ビットマンティッサを持つL-Mulがfloat8_e5m2より優れていることを示す理論的誤差推定と一致した。 評価結果は,L-Mulをアテンション機構に直接適用することはほとんど損失がないことを示している。 さらに, 変圧器モデルにおける浮動小数点乗算を3ビットマティッサL-Mulに置き換えることにより, 微調整と推論の両方において, 積算精度としてfloat8_e4m3を用いて等価な精度が得られることを示す。

Large neural networks spend most computation on floating point tensor multiplications. In this work, we find that a floating point multiplier can be approximated by one integer adder with high precision. We propose the linear-complexity multiplication L-Mul algorithm that approximates floating point number multiplication with integer addition operations. The new algorithm costs significantly less computation resource than 8-bit floating point multiplication but achieves higher precision. Compared to 8-bit floating point multiplications, the proposed method achieves higher precision but consumes significantly less bit-level computation. Since multiplying floating point numbers requires substantially higher energy compared to integer addition operations, applying the L-Mul operation in tensor processing hardware can potentially reduce 95% energy cost by element-wise floating point tensor multiplications and 80% energy cost of dot products. We calculated the theoretical error expectation of L-Mul, and evaluated the algorithm on a wide range of textual, visual, and symbolic tasks, including natural language understanding, structural reasoning, mathematics, and commonsense question answering. Our numerical analysis experiments agree with the theoretical error estimation, which indicates that L-Mul with 4-bit mantissa achieves comparable precision as float8_e4m3 multiplications, and L-Mul with 3-bit mantissa outperforms float8_e5m2. Evaluation results on popular benchmarks show that directly applying L-Mul to the attention mechanism is almost lossless. We further show that replacing all floating point multiplications with 3-bit mantissa L-Mul in a transformer model achieves equivalent precision as using float8_e4m3 as accumulation precision in both fine-tuning and inference.
翻訳日:2024-11-05 00:19:53 公開日:2024-10-02
# NLPとLCMを用いた意味的類似性に着目した経済研究用紙の復号化手法の評価

Evaluating Deduplication Techniques for Economic Research Paper Titles with a Focus on Semantic Similarity using NLP and LLMs ( http://arxiv.org/abs/2410.01141v1 )

ライセンス: Link先を確認
Doohee You, Karim Lasri, Samuel Fraiberger, (参考訳) 本研究では, 大規模NLPデータセットの効率的な復号化手法について検討した。 我々は,確立された距離測定(Levenshtein distance,cosine similarity)と意味評価のためのsBERTモデルとともに,様々なペアリング手法を探索する。 以上の結果から,異なる手法で観察された意味的類似性に基づく重複の頻度が低い可能性が示唆された。 より決定的な評価のために、人間の注釈付き地上真実セットによるさらなる探索が完了する。 その結果,NLP,LPMに基づく距離測定結果が得られた。

This study investigates efficient deduplication techniques for a large NLP dataset of economic research paper titles. We explore various pairing methods alongside established distance measures (Levenshtein distance, cosine similarity) and a sBERT model for semantic evaluation. Our findings suggest a potentially low prevalence of duplicates based on the observed semantic similarity across different methods. Further exploration with a human-annotated ground truth set is completed for a more conclusive assessment. The result supports findings from the NLP, LLM based distance metrics.
翻訳日:2024-11-04 23:00:28 公開日:2024-10-02
# 基礎モデルによる運転知覚システムの不確実性誘導強化

Uncertainty-Guided Enhancement on Driving Perception System via Foundation Models ( http://arxiv.org/abs/2410.01144v1 )

ライセンス: Link先を確認
Yunhao Yang, Yuxin Hu, Mao Ye, Zaiwei Zhang, Zhichao Lu, Yi Xu, Ufuk Topcu, Ben Snyder, (参考訳) マルチモーダルファウンデーションモデルは、駆動認識システムを強化するための有望な進歩を提供するが、その高い計算コストと財政コストは課題を生じさせる。 本研究では,これらの資源集約モデルの使用頻度を最小化しつつ,既存の駆動知覚モデル(オブジェクト分類精度の向上など)から予測を洗練するために基礎モデルを活用する手法を開発する。 この方法は、知覚モデルの予測の不確かさを定量的に特徴づけ、これらの不確かさが予め特定された閾値を超えた場合にのみ基礎モデルに係わる。 具体的には、認識モデルの信頼度スコアを、共形予測を用いた正しい予測の確率の理論的下限に校正することで不確実性を特徴づける。 そして、基礎モデルに画像を送り、知覚モデルの結果の理論的境界がしきい値以下である場合にのみ予測を精算する。 さらに、過去の予測を統合することによって予測精度を高める時間的推論機構を提案し、より厳密な理論的境界を導いた。 この手法は予測精度を10~15%改善し、運転データセットの定量的評価に基づいて基礎モデルに対するクエリ数を50%削減する。

Multimodal foundation models offer promising advancements for enhancing driving perception systems, but their high computational and financial costs pose challenges. We develop a method that leverages foundation models to refine predictions from existing driving perception models -- such as enhancing object classification accuracy -- while minimizing the frequency of using these resource-intensive models. The method quantitatively characterizes uncertainties in the perception model's predictions and engages the foundation model only when these uncertainties exceed a pre-specified threshold. Specifically, it characterizes uncertainty by calibrating the perception model's confidence scores into theoretical lower bounds on the probability of correct predictions using conformal prediction. Then, it sends images to the foundation model and queries for refining the predictions only if the theoretical bound of the perception model's outcome is below the threshold. Additionally, we propose a temporal inference mechanism that enhances prediction accuracy by integrating historical predictions, leading to tighter theoretical bounds. The method demonstrates a 10 to 15 percent improvement in prediction accuracy and reduces the number of queries to the foundation model by 50 percent, based on quantitative evaluations from driving datasets.
翻訳日:2024-11-04 23:00:28 公開日:2024-10-02
# ProxiMix: サブグループにおける近接サンプルによるフェアネス向上

ProxiMix: Enhancing Fairness with Proximity Samples in Subgroups ( http://arxiv.org/abs/2410.01145v1 )

ライセンス: Link先を確認
Jingyu Hu, Jun Hong, Mengnan Du, Weiru Liu, (参考訳) 機械学習における公平性問題に対処するために、多くのバイアス緩和法が開発されている。 バイアス軽減のためのデータ拡張手法である線形ミックスアップのみを用いることで、データセットラベルに存在するバイアスを維持できることがわかった。 本稿では,既存の混合手法と新しいバイアス緩和アルゴリズムを併用して,近縁な拡張サンプルのラベル生成を改善する,新しい前処理戦略を提案する。 具体的には、より公平なデータ拡張のためのペアワイズと近接関係を維持するProxiMixを提案する。 3つのデータセット、3つのMLモデル、異なるハイパーパラメータ設定で徹底的な実験を行った。 実験結果から,予測の公平さと会話視点の公平さの両方から ProxiMix の有効性が示された。

Many bias mitigation methods have been developed for addressing fairness issues in machine learning. We found that using linear mixup alone, a data augmentation technique, for bias mitigation, can still retain biases present in dataset labels. Research presented in this paper aims to address this issue by proposing a novel pre-processing strategy in which both an existing mixup method and our new bias mitigation algorithm can be utilized to improve the generation of labels of augmented samples, which are proximity aware. Specifically, we proposed ProxiMix which keeps both pairwise and proximity relationships for fairer data augmentation. We conducted thorough experiments with three datasets, three ML models, and different hyperparameters settings. Our experimental results showed the effectiveness of ProxiMix from both fairness of predictions and fairness of recourse perspectives.
翻訳日:2024-11-04 23:00:28 公開日:2024-10-02
# 密度重み付き特徴マッチングに基づく食道ライニングビデオの自動展開とスティッチ化フレームワーク

Automatic Image Unfolding and Stitching Framework for Esophageal Lining Video Based on Density-Weighted Feature Matching ( http://arxiv.org/abs/2410.01148v1 )

ライセンス: Link先を確認
Muyang Li, Juming Xiong, Ruining Deng, Tianyuan Yao, Regina N Tyree, Girish Hiremath, Yuankai Huo, (参考訳) 内視鏡は消化管を診断するための重要なツールであるが、その効果は、特に食道の狭い視野と内部環境、特に複雑で反復的なパターンが画像縫合を困難にする食道のダイナミックな性質によって制限されることが多い。 本稿では,内視鏡撮影時に撮影した食道ビデオに適した新しい自動画像展開・縫合フレームワークを提案する。 この方法は、LoFTR、SIFT、ORBなどの特徴マッチングアルゴリズムを組み合わせて特徴フィルタリングプールを作成し、縫合精度を高めるために密度重み付けホログラフィ最適化(DWHO)アルゴリズムを用いる。 連続したフレームをマージすることにより、食道の詳細なパノラマビューを生成し、徹底的かつ正確な視覚分析を可能にする。 実験により,このフレームワークは広範囲なビデオシーケンスに対して低根平均角誤差 (RMSE) と高構造類似度指数 (SSIM) を達成し,臨床応用の可能性を示し,内視鏡的視覚データの品質と連続性を改善した。

Endoscopy is a crucial tool for diagnosing the gastrointestinal tract, but its effectiveness is often limited by a narrow field of view and the dynamic nature of the internal environment, especially in the esophagus, where complex and repetitive patterns make image stitching challenging. This paper introduces a novel automatic image unfolding and stitching framework tailored for esophageal videos captured during endoscopy. The method combines feature matching algorithms, including LoFTR, SIFT, and ORB, to create a feature filtering pool and employs a Density-Weighted Homography Optimization (DWHO) algorithm to enhance stitching accuracy. By merging consecutive frames, the framework generates a detailed panoramic view of the esophagus, enabling thorough and accurate visual analysis. Experimental results show the framework achieves low Root Mean Square Error (RMSE) and high Structural Similarity Index (SSIM) across extensive video sequences, demonstrating its potential for clinical use and improving the quality and continuity of endoscopic visual data.
翻訳日:2024-11-04 23:00:28 公開日:2024-10-02
# Ollivier-Ricci曲率を用いたマニフォールド構造の復元

Recovering Manifold Structure Using Ollivier-Ricci Curvature ( http://arxiv.org/abs/2410.01149v1 )

ライセンス: Link先を確認
Tristan Luca Saidi, Abigail Hickok, Andrew J. Blumberg, (参考訳) 我々は、Ollivier-Ricci曲率と推定距離歪みに基づく基準を用いて、隣り合うグラフからスプリアスエッジをプルーする新しいアルゴリズムであるORC-ManLを紹介する。 我々のモチベーションは多様体学習から来ており、最も近い近傍グラフを生成するデータが低次元多様体からのノイズのあるサンプルで構成されている場合、周辺空間をショートカットするエッジは、データ多様体に沿って配置されるエッジよりも負のオリヴィエ・リッチ曲率を持つことを示す。 提案手法は代替プルーニング法よりも優れており,隣接するグラフを入力として使用する下流の幾何データ解析タスクの性能を著しく向上することを示す。 具体的には、多様体学習、永続ホモロジー、次元推定等について評価する。 また,ORC-ManLは単一セルRNAシークエンシングデータのクラスタリングや多様体学習に利用できることを示す。 最後に, 理論的知見を裏付ける経験的収束実験を行った。

We introduce ORC-ManL, a new algorithm to prune spurious edges from nearest neighbor graphs using a criterion based on Ollivier-Ricci curvature and estimated metric distortion. Our motivation comes from manifold learning: we show that when the data generating the nearest-neighbor graph consists of noisy samples from a low-dimensional manifold, edges that shortcut through the ambient space have more negative Ollivier-Ricci curvature than edges that lie along the data manifold. We demonstrate that our method outperforms alternative pruning methods and that it significantly improves performance on many downstream geometric data analysis tasks that use nearest neighbor graphs as input. Specifically, we evaluate on manifold learning, persistent homology, dimension estimation, and others. We also show that ORC-ManL can be used to improve clustering and manifold learning of single-cell RNA sequencing data. Finally, we provide empirical convergence experiments that support our theoretical findings.
翻訳日:2024-11-04 23:00:28 公開日:2024-10-02
# Sagnac-Mach-Zehnder干渉計に基づく位相符号化量子キー分布系

Phase-coding quantum-key-distribution system based on Sagnac-Mach-Zehnder interferometers ( http://arxiv.org/abs/2410.01152v1 )

ライセンス: Link先を確認
Xiao-Tian Song, Dong Wang, Xiao-Ming Lu, Da-Jun Huang, Di Jiang, Li-Xian Li, Xi Fang, Yi-Bo Zhao, Liang-Jiang Zhou, (参考訳) 量子鍵分布(QKD)システムの性能評価には,安定性とロバスト性が重要である。 しかし,QKDシステムの展開環境の変化による繊維チャネルの固有複屈折効果と乱れは,その性能を著しく低下させる。 この悪影響をなくすために,サニャック・マハ・ツェンダー干渉計に基づく偏光無感位相符号化QKDシステムを提案する。 理論的解析と実験により検証され、このQKDシステムはチャネル分極障害に対して堅牢である。 QKDシステムの堅牢性と長期安定性は、50km繊維スプールと偏光スクランブラ(2rad/s)からなる12.6dBチャネル上での10日間の連続運転によって確認される。 その結果、平均量子ビット誤り率0.958%、持続安全鍵レート3.68kbpsが得られる。 さらに、10dBの典型的なチャネル損失に対するQKDシステムの安全な鍵レートは6.89kbpsに達し、達成可能な最大伝送距離は125kmを超える。

Stability and robustness are important criteria to evaluate the performance of a quantum-key-distribution (QKD) system in real-life applications. However, the inherent birefringence effect of the fiber channel and disturbance caused by the variation of the deployment environment of the QKD system tremendously decreases its performance. To eliminate this adverse impact, we propose a polarization-insensitive phase-coding QKD system based on Sagnac-Mach-Zehnder interferometers. Verified by theoretical analysis and experimental tests, this QKD system is robust against channel polarization disturbance. The robustness and long-term stability of the QKD system is confirmed with a 10-day continuous operation over a 12.6-dB channel, which consists of a 50-km fiber spool and a polarization scrambler (2 rad/s). As a result, an average quantum bit error rate of 0.958% and a sustained secure key rate of 3.68 kbps are obtained. Moreover, the secure key rate of the QKD system for a typical channel loss of 10 dB reaches 6.89 kbps, and the achievable maximum transmission distance exceeds 125 km.
翻訳日:2024-11-04 23:00:28 公開日:2024-10-02
# Text2PDE:アクセシブル物理シミュレーションのための潜在拡散モデル

Text2PDE: Latent Diffusion Models for Accessible Physics Simulation ( http://arxiv.org/abs/2410.01153v1 )

ライセンス: Link先を確認
Anthony Zhou, Zijie Li, Michael Schneier, John R Buchanan Jr, Amir Barati Farimani, (参考訳) 近年のディープラーニングの進歩は、偏微分方程式(PDE)問題に対するデータ駆動型解に関する多くの研究に影響を与えた。 これらのニューラルPDEソルバは、数値よりもはるかに高速であることが多いが、それぞれに固有の制限があり、トレーニングコスト、数値精度、異なる問題設定への適用容易性のバランスをとる。 これらの制約に対処するため,物理シミュレーションに潜時拡散モデルを適用するためのいくつかの手法を提案する。 まず、任意に離散化されたPDEデータを圧縮するメッシュオートエンコーダを導入し、様々な物理学における効率的な拡散訓練を可能にする。 さらに, 自己回帰誤差の蓄積を軽減するために, 完全時空間解の生成について検討する。 最後に、初期物理量の条件付けと、テキストプロンプトのみを条件付けし、text2PDE生成を導入する。 我々は、言語が物理シミュレーションを生成するためのコンパクトで解釈可能で正確なモダリティであり、より使いやすくアクセスしやすいPDEソルバへの道を開くことができることを示す。 均一グリッドと構造化グリッドの両方の実験を通して、提案手法は現在のニューラルPDEソルバと精度と効率の両方で競合し、最大30億ドルのパラメータのスケーリング動作が期待できることを示す。 スケーラブルで正確で使用可能な物理シミュレータを導入することで、ニューラルPDEソルバを実用化に近づけたいと思っています。

Recent advances in deep learning have inspired numerous works on data-driven solutions to partial differential equation (PDE) problems. These neural PDE solvers can often be much faster than their numerical counterparts; however, each presents its unique limitations and generally balances training cost, numerical accuracy, and ease of applicability to different problem setups. To address these limitations, we introduce several methods to apply latent diffusion models to physics simulation. Firstly, we introduce a mesh autoencoder to compress arbitrarily discretized PDE data, allowing for efficient diffusion training across various physics. Furthermore, we investigate full spatio-temporal solution generation to mitigate autoregressive error accumulation. Lastly, we investigate conditioning on initial physical quantities, as well as conditioning solely on a text prompt to introduce text2PDE generation. We show that language can be a compact, interpretable, and accurate modality for generating physics simulations, paving the way for more usable and accessible PDE solvers. Through experiments on both uniform and structured grids, we show that the proposed approach is competitive with current neural PDE solvers in both accuracy and efficiency, with promising scaling behavior up to $\sim$3 billion parameters. By introducing a scalable, accurate, and usable physics simulator, we hope to bring neural PDE solvers closer to practical use.
翻訳日:2024-11-04 23:00:28 公開日:2024-10-02
# 自己プロンピングによるゼロショット関係抽出における大言語モデルのパワーの解放

Unleashing the Power of Large Language Models in Zero-shot Relation Extraction via Self-Prompting ( http://arxiv.org/abs/2410.01154v1 )

ライセンス: Link先を確認
Siyi Liu, Yang Li, Jiang Li, Shan Yang, Yunshi Lan, (参考訳) ゼロショット関係抽出(RE)の最近の研究は、その印象的なゼロショット機能のために、Large Language Models(LLM)の使用に焦点を当てている。 しかしながら、現在の手法は、主に様々な文や関係を理解するのに必要な詳細でコンテキスト固有のプロンプトが欠如しているため、亜最適に実行されることが多い。 これを解決するために,LLM内に組み込まれたRE知識を完全に活用する新しい手法であるSelf-Promptingフレームワークを導入する。 具体的には、3段階の多様性アプローチを用いてLSMを誘導し、スクラッチから特定の関係をカプセル化する複数の合成サンプルを生成する。 これらのサンプルはコンテキスト内学習サンプルとして機能し、REのためにLLMを効率的に促す明示的でコンテキスト固有のガイダンスを提供する。 ベンチマークデータセットを用いた実験により,既存のLCMベースのゼロショットRE法よりも優れた性能を示した。 さらに,本実験は,高性能な合成データの生成において,生成パイプラインの有効性を確認した。

Recent research in zero-shot Relation Extraction (RE) has focused on using Large Language Models (LLMs) due to their impressive zero-shot capabilities. However, current methods often perform suboptimally, mainly due to a lack of detailed, context-specific prompts needed for understanding various sentences and relations. To address this, we introduce the Self-Prompting framework, a novel method designed to fully harness the embedded RE knowledge within LLMs. Specifically, our framework employs a three-stage diversity approach to prompt LLMs, generating multiple synthetic samples that encapsulate specific relations from scratch. These generated samples act as in-context learning samples, offering explicit and context-specific guidance to efficiently prompt LLMs for RE. Experimental evaluations on benchmark datasets show our approach outperforms existing LLM-based zero-shot RE methods. Additionally, our experiments confirm the effectiveness of our generation pipeline in producing high-quality synthetic data that enhances performance.
翻訳日:2024-11-04 23:00:28 公開日:2024-10-02
# アドバタイザ・プロポーティングにおける不均衡話者データに対する深層学習アプローチ:ダイレクトメール・プロポーティングを事例として

A Deep Learning Approach for Imbalanced Tabular Data in Advertiser Prospecting: A Case of Direct Mail Prospecting ( http://arxiv.org/abs/2410.01157v1 )

ライセンス: Link先を確認
Sadegh Farhang, William Hayes, Nick Murphy, Jonathan Neddenriep, Nicholas Tyris, (参考訳) 新規顧客獲得は、ビジネスの成長にとって重要なプロセスだ。 展望とは、オンラインデジタル広告、リニアテレビ、在宅勤務、ダイレクトメールなど、潜在的な顧客を識別し、マーケティングするプロセスである。 デジタル広告(特にソーシャルと検索)の急速な成長にもかかわらず、ダイレクトメールは依然として新規顧客獲得の最も効果的な方法の1つだ。 しかし、ダイレクトメール空間における現代の機械学習技術の適用には顕著なギャップがあり、ターゲティングとパーソナライズ戦略が大幅に強化される可能性がある。 ダイレクトメールを通じて配信される手法が本論文の焦点である。 本稿では,新たな顧客を特定するための教師付き学習手法を提案する。 教師付き学習問題に対する予測のキャストは、不均衡な表データをもたらす。 現在のグラフデータに対する最先端のアプローチは、ランダムフォレストやXGBoostのようなツリーベースの手法の集合である。 本稿では,表の不均衡データのためのディープラーニングフレームワークを提案する。 このフレームワークは、膨大な数の数値的および分類的特徴を持つ大きな不均衡データセットに取り組むように設計されている。 我々のフレームワークは、オートエンコーダとフィードフォワードニューラルネットワークの2つのコンポーネントで構成されている。 我々は,ダイレクトメール広告における予測の透明な実世界のケーススタディを通じて,我々のフレームワークの有効性を実証する。 以上の結果から,本提案のディープラーニングフレームワークは,実世界に適用した場合に,最先端の樹木をベースとしたランダムな森林アプローチよりも優れていたことが示唆された。

Acquiring new customers is a vital process for growing businesses. Prospecting is the process of identifying and marketing to potential customers using methods ranging from online digital advertising, linear television, out of home, and direct mail. Despite the rapid growth in digital advertising (particularly social and search), research shows that direct mail remains one of the most effective ways to acquire new customers. However, there is a notable gap in the application of modern machine learning techniques within the direct mail space, which could significantly enhance targeting and personalization strategies. Methodologies deployed through direct mail are the focus of this paper. In this paper, we propose a supervised learning approach for identifying new customers, i.e., prospecting, which comprises how we define labels for our data and rank potential customers. The casting of prospecting to a supervised learning problem leads to imbalanced tabular data. The current state-of-the-art approach for tabular data is an ensemble of tree-based methods like random forest and XGBoost. We propose a deep learning framework for tabular imbalanced data. This framework is designed to tackle large imbalanced datasets with vast number of numerical and categorical features. Our framework comprises two components: an autoencoder and a feed-forward neural network. We demonstrate the effectiveness of our framework through a transparent real-world case study of prospecting in direct mail advertising. Our results show that our proposed deep learning framework outperforms the state of the art tree-based random forest approach when applied in the real-world.
翻訳日:2024-11-04 23:00:28 公開日:2024-10-02
# GraphRevisedIE: Graph-Revised Networkによるマルチモーダル情報抽出

GraphRevisedIE: Multimodal Information Extraction with Graph-Revised Network ( http://arxiv.org/abs/2410.01160v1 )

ライセンス: Link先を確認
Panfeng Cao, Jian Wu, (参考訳) 視覚的にリッチなドキュメント(VRD)からキー情報抽出(KIE)は、VRDの複雑な多彩なレイアウトだけでなく、VRDのマルチモーダル機能を利用する方法の欠如により、ドキュメントインテリジェンスにおいて難しい課題となっている。 本稿では,VRDからテキスト,視覚,レイアウトなどのマルチモーダルな特徴を効果的に埋め込み,グラフのリビジョンとグラフの畳み込みを活用し,グローバルなコンテキストによるマルチモーダルな埋め込みを充実させる,GraphRevisedIEという軽量モデルを提案する。 複数の実世界のデータセットに対する大規模な実験は、GraphRevisedIEが様々なレイアウトのドキュメントに一般化し、以前のKIEメソッドと同等またはより良いパフォーマンスを達成することを示している。 また、実物と合成文書の両方を含むビジネスライセンスデータセットを公開し、文書KIEの研究を容易にする。

Key information extraction (KIE) from visually rich documents (VRD) has been a challenging task in document intelligence because of not only the complicated and diverse layouts of VRD that make the model hard to generalize but also the lack of methods to exploit the multimodal features in VRD. In this paper, we propose a light-weight model named GraphRevisedIE that effectively embeds multimodal features such as textual, visual, and layout features from VRD and leverages graph revision and graph convolution to enrich the multimodal embedding with global context. Extensive experiments on multiple real-world datasets show that GraphRevisedIE generalizes to documents of varied layouts and achieves comparable or better performance compared to previous KIE methods. We also publish a business license dataset that contains both real-life and synthesized documents to facilitate research of document KIE.
翻訳日:2024-11-04 22:50:44 公開日:2024-10-02
# 凍結型大規模言語モデルは音声のパラ言語的側面を知覚できる

Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech ( http://arxiv.org/abs/2410.01162v1 )

ライセンス: Link先を確認
Wonjune Kang, Junteng Jia, Chunyang Wu, Wei Zhou, Egor Lakomkin, Yashesh Gaur, Leda Sari, Suyoun Kim, Ke Li, Jay Mahadeokar, Ozlem Kalinli, (参考訳) 音声が大規模言語モデル(LLM)と対話するための一般的なモダリティとなるにつれ,LLMがユーザの感情や発話スタイルを考慮に入れたシステムを開発することが求められている。 本研究では,LLMが重みを微調整することなく音声のこれらの側面を理解する可能性について検討する。 エンコーダは,表現的音声プロンプトに対するLLMの応答が,話者の感情が特定された意味的に一致するテキストプロンプトに対する応答と一致するように,トークン埋め込みを生成するように訓練される。 このトレーニングフレームワークにより,LLM が完全に凍結されている場合でも,音声中の意味的情報とパラ言語的情報の両方を捕捉し,LLM に効果的に伝達するトークンを生成することができる。 また、追加の感情とスタイルに関連した応答アライメントタスクのトレーニングについても検討し、音声トークンで明示的にキャプチャされたパラ言語情報の量をさらに増やすことを見出した。 実験により,本システムでは,複数のベースラインと比較して,表現的発話のプロンプトに対して,より高品質で共感的な応答が得られることが示された。

As speech becomes an increasingly common modality for interacting with large language models (LLMs), it is becoming desirable to develop systems where LLMs can take into account users' emotions or speaking styles when providing their responses. In this work, we study the potential of an LLM to understand these aspects of speech without fine-tuning its weights. To do this, we utilize an end-to-end system with a speech encoder; the encoder is trained to produce token embeddings such that the LLM's response to an expressive speech prompt is aligned with its response to a semantically matching text prompt where the speaker's emotion has also been specified. We find that this training framework allows the encoder to generate tokens that capture both semantic and paralinguistic information in speech and effectively convey it to the LLM, even when the LLM remains completely frozen. We also explore training on additional emotion and style-related response alignment tasks, finding that they further increase the amount of paralinguistic information explicitly captured in the speech tokens. Experiments demonstrate that our system is able to produce higher quality and more empathetic responses to expressive speech prompts compared to several baselines.
翻訳日:2024-11-04 22:50:44 公開日:2024-10-02
# ファイル名を用いた文書型分類

Document Type Classification using File Names ( http://arxiv.org/abs/2410.01166v1 )

ライセンス: Link先を確認
Zhijian Li, Stefan Larson, Kevin Leach, (参考訳) 迅速な文書分類は、デジタル法医学や大規模メディア分類といった、時間に敏感ないくつかの応用において重要である。 重厚なディープラーニングモデルに依存する従来のアプローチは、膨大な入力データセットとドキュメント全体の分析に関連する計算リソースに対する高い推論時間のために、不足している。 本稿では,TF-IDF特徴抽出に基づくトークン化手法と組み合わせた軽量教師付き学習モデルを用いて,推論時間を大幅に短縮するファイル名のみに基づいて,文書を高精度かつ効率的に分類する手法を提案する。 このアプローチは、信頼スコアとあいまいなファイル名を表す負のクラスを使用することにより、曖昧なファイル名と指示的なファイル名とを区別することができる。 以上の結果から、ファイル名分類器は、トレーニングデータセットに対して、スコープ内データの80%以上を96.7%の精度で処理でき、DiTなどの複雑なモデルよりも442.43倍高速であることがわかった。 本手法は,膨大なデータセットを重要なシナリオで効率的に処理し,より高速で信頼性の高い文書分類を可能にする。

Rapid document classification is critical in several time-sensitive applications like digital forensics and large-scale media classification. Traditional approaches that rely on heavy-duty deep learning models fall short due to high inference times over vast input datasets and computational resources associated with analyzing whole documents. In this paper, we present a method using lightweight supervised learning models, combined with a TF-IDF feature extraction-based tokenization method, to accurately and efficiently classify documents based solely on file names that substantially reduces inference time. This approach can distinguish ambiguous file names from the indicative file names through confidence scores and through using a negative class representing ambiguous file names. Our results indicate that file name classifiers can process more than 80% of the in-scope data with 96.7% accuracy when tested on a dataset with a large portion of out-of-scope data with respect to the training dataset while being 442.43x faster than more complex models such as DiT. Our method offers a crucial solution for efficiently processing vast datasets in critical scenarios, enabling fast, more reliable document classification.
翻訳日:2024-11-04 22:50:44 公開日:2024-10-02
# GADFA: タイミング識別を表現したオピニオン表現のためのジェネレータ支援意思決定手法

GADFA: Generator-Assisted Decision-Focused Approach for Opinion Expressing Timing Identification ( http://arxiv.org/abs/2410.01169v1 )

ライセンス: Link先を確認
Chung-Chi Chen, Hiroya Takamura, Ichiro Kobayashi, Yusuke Miyao, (参考訳) テキスト生成モデルの進歩により、要求に応じて一貫性のある説得力のあるテキストを生成する能力が得られました。 しかし、現実の状況では、個人はテキストを連続的に生成したり、意見を述べることはない。 例えば、消費者は製品のメリットとデメリットを評価して製品レビューを入力し、プロのアナリストは重要なニュースリリースの後にレポートを発行する。 本質的には、意見表現は典型的には特定の理由や信号によって引き起こされる。 長期にわたる意見採鉱の進展にもかかわらず、意見を表現する適切なタイミングは明らかにされていない。 この欠点に対処するため,本稿では,タイミングを表すニューストリガーによる意見の特定という,革新的な課題を紹介した。 我々は、この課題を専門家の株価アナリストの行動に根ざし、調査のための新しいデータセットを開発する。 我々のアプローチは、テキスト生成モデルを利用して分類モデルを操り、全体的な性能を向上させる、意思決定に重点を置いている。 実験結果から,本モデルが生成したテキストは,さまざまな角度からの新たな洞察に寄与し,意見表現の最適タイミングの同定に有効であることが示された。

The advancement of text generation models has granted us the capability to produce coherent and convincing text on demand. Yet, in real-life circumstances, individuals do not continuously generate text or voice their opinions. For instance, consumers pen product reviews after weighing the merits and demerits of a product, and professional analysts issue reports following significant news releases. In essence, opinion expression is typically prompted by particular reasons or signals. Despite long-standing developments in opinion mining, the appropriate timing for expressing an opinion remains largely unexplored. To address this deficit, our study introduces an innovative task - the identification of news-triggered opinion expressing timing. We ground this task in the actions of professional stock analysts and develop a novel dataset for investigation. Our approach is decision-focused, leveraging text generation models to steer the classification model, thus enhancing overall performance. Our experimental findings demonstrate that the text generated by our model contributes fresh insights from various angles, effectively aiding in identifying the optimal timing for opinion expression.
翻訳日:2024-11-04 22:50:44 公開日:2024-10-02
# 英語におけるブリジング・アナフォラのスコープの統一:ArRAUとGUMにおけるブリジング・アノテーション

Unifying the Scope of Bridging Anaphora Types in English: Bridging Annotations in ARRAU and GUM ( http://arxiv.org/abs/2410.01170v1 )

ライセンス: Link先を確認
Lauren Levine, Amir Zeldes, (参考訳) 主な原因は、定義やアノテーションスキーマ間の標準化の欠如と、リソース間で異なるテキストドメインの範囲が狭いためである。 本稿では,GUM,GENTLE,ARRAUコーパスにアノテートされたブリッジインスタンスを解析するために,ドメインカバレッジ問題を緩和し,スキーマを統合するためにガイドラインを比較し,解釈可能な予測モデルを使用する。 これらの事例を調べたところ、ブリッジングに注釈付けされた現象の種類には大きな違いがあることが判明した。 理論的結果以外にも,GUM,GENTLE,ARRAU Wall Street Journalの各テストセットの調和したサブカテゴリ化バージョンを公開し,ドメイン間のブリッジ解像度の有意義で信頼性の高い評価を促進する。

Comparing bridging annotations across coreference resources is difficult, largely due to a lack of standardization across definitions and annotation schemas and narrow coverage of disparate text domains across resources. To alleviate domain coverage issues and consolidate schemas, we compare guidelines and use interpretable predictive models to examine the bridging instances annotated in the GUM, GENTLE and ARRAU corpora. Examining these cases, we find that there is a large difference in types of phenomena annotated as bridging. Beyond theoretical results, we release a harmonized, subcategorized version of the test sets of GUM, GENTLE and the ARRAU Wall Street Journal data to promote meaningful and reliable evaluation of bridging resolution across domains.
翻訳日:2024-11-04 22:50:44 公開日:2024-10-02
# BordIRlines: 言語横断検索拡張ジェネレーションを評価するデータセット

BordIRlines: A Dataset for Evaluating Cross-lingual Retrieval-Augmented Generation ( http://arxiv.org/abs/2410.01171v1 )

ライセンス: Link先を確認
Bryan Li, Samar Haider, Fiona Luo, Adwait Agashe, Chris Callison-Burch, (参考訳) 大規模な言語モデルは創造的な世代で優れているが、幻覚や偏見の問題に悩まされ続けている。 検索強化世代(RAG)は、LLMの応答を正確かつ最新の情報でグラウンド化するためのフレームワークを提供するが、それでもバイアスの問題を提起する:どのソースをコンテキストに含めるべきか? そして、その重要性はどのように重み付けされるべきなのか? 本稿では,言語的・文化的・政治的境界の共通点に存在する地政学的紛争の問合せに答える上で,既存のシステムの堅牢性を評価するためのデータセットについて,言語間RAGの課題について検討する。 我々のデータセットは,与えられたクエリに関連する情報を含むウィキペディアページから得られたものであり,LLMの応答に対する言語とソースの観点から,追加のコンテキストを含めることによる影響と,このコンテキストの構成について検討する。 以上の結果から,既存のRAGシステムは多言語で競合する情報を提供する場合の整合性の欠如に悩まされ続けていることが明らかとなった。 本稿では,これらの課題を説明するケーススタディと,これらの課題に対処するための今後の研究手順について概説する。 データセットとコードはhttps://github.com/manestay/bordIRlines.comで公開しています。

Large language models excel at creative generation but continue to struggle with the issues of hallucination and bias. While retrieval-augmented generation (RAG) provides a framework for grounding LLMs' responses in accurate and up-to-date information, it still raises the question of bias: which sources should be selected for inclusion in the context? And how should their importance be weighted? In this paper, we study the challenge of cross-lingual RAG and present a dataset to investigate the robustness of existing systems at answering queries about geopolitical disputes, which exist at the intersection of linguistic, cultural, and political boundaries. Our dataset is sourced from Wikipedia pages containing information relevant to the given queries and we investigate the impact of including additional context, as well as the composition of this context in terms of language and source, on an LLM's response. Our results show that existing RAG systems continue to be challenged by cross-lingual use cases and suffer from a lack of consistency when they are provided with competing information in multiple languages. We present case studies to illustrate these issues and outline steps for future research to address these challenges. We make our dataset and code publicly available at https://github.com/manestay/bordIRlines.
翻訳日:2024-11-04 22:50:44 公開日:2024-10-02
# 量子鍵分布に基づく量子セキュアイメージングの実証実験

Proof-of-principle experimental demonstration of quantum secure imaging based on quantum key distribution ( http://arxiv.org/abs/2410.01172v1 )

ライセンス: Link先を確認
Yi-Bo Zhao, Wan-Li Zhang, Dong Wang, Xiao-Tian Song, Liang-Jiang Zhou, Chi-Biao Ding, (参考訳) 本稿では、量子鍵分布(QKD)の位相エンコーディングと弱+真空デコイ状態BB84プロトコルに基づく量子セキュアイメージング(QSI)方式を提案する。 これにより、デジタルマイクロミラー装置(DMD)を用いて光強度の特定の空間分布を予め設定することにより、より簡易な機器と再構成アルゴリズムを備えた計算ゴーストイメージング(CGI)システムを実現することができる。 さらに、QKDの量子ビット誤り率(QBER)とセキュアな鍵レート分析関数は、インターセプト-レスポンス・ジャミング攻撃を通じて、画像情報の信頼性を保証するために使用される。 実験では, 単一光子検出器(SPD)を用いて信号光子数を測定することにより, 高速かつ効率的に物体の画像を取得し, 571.0bps, 安全なQBERの3.99%を達成した。 さらに、我々のイメージングシステムは、1550nmの可視波長のレーザーを使用し、その強度は単光子として低く、弱光像を実現し、成層圏の光や空気の乱流に免疫するので、インターセプト・リセプション・ジャミング攻撃に対する量子セキュリティレーダの選択肢として好まれる。

We present a quantum secure imaging (QSI) scheme based on the phase encoding and weak + vacuum decoy-state BB84 protocol of quantum key distribution (QKD). It allows us to implement a computational ghost imaging (CGI) system with more simplified equipment and reconstructed algorithms by using a digital micro-mirror device (DMD) to preset the specific spatial distribution of the light intensity. What's more, the quantum bit error rate (QBER) and the secure key rate analytical functions of QKD are used to see through the intercept-resend jamming attacks and ensure the authenticity of the imaging information. In the experiment, we obtained the image of the object quickly and efficiently by measuring the signal photon counts with single-photon detector (SPD), and achieved a secure key rate of 571.0 bps and a secure QBER of 3.99%, which is well below the lower bound of QBER of 14.51$\%$. Besides, our imaging system uses a laser with invisible wavelength of 1550 nm, whose intensity is low as single-photon, that can realize weak-light imaging and is immune to the stray light or air turbulence, thus it will become a better choice for quantum security radar against intercept-resend jamming attacks.
翻訳日:2024-11-04 22:50:44 公開日:2024-10-02
# 試行錯誤を伴わない低深さ振幅推定

Low depth amplitude estimation without really trying ( http://arxiv.org/abs/2410.01173v1 )

ライセンス: Link先を確認
Dinh-Long Vu, Bin Cheng, Patrick Rebentrost, (参考訳) 標準量子振幅推定アルゴリズムはモンテカルロシミュレーションに二次的なスピードアップを提供するが、推定誤差の逆としてスケールする回路深さを必要とする。 短期装置の浅い深さを考慮すると、これらのアルゴリズムによって達成される精度は低いだろう。 本稿では、量子アルゴリズム自体に古典モンテカルロ法を適用し、低深度回路を用いた古典的精度よりも高い精度を実現することにより、この制限を回避した。 このプロセス中にエラーの蓄積を避けるために、量子アルゴリズムは弱いバイアスを受ける必要がある。 我々の手法は並列であり、いくつかの場合において構成アルゴリズムと同じくらい弱いバイアスを受けることができる。

Standard quantum amplitude estimation algorithms provide quadratic speedup to Monte-Carlo simulations but require a circuit depth that scales as inverse of the estimation error. In view of the shallow depth in near-term devices, the precision achieved by these algorithms would be low. In this paper we bypass this limitation by performing the classical Monte-Carlo method on the quantum algorithm itself, achieving a higher than classical precision using low-depth circuits. We require the quantum algorithm to be weakly biased in order to avoid error accumulation during this process. Our method is parallel and can be as weakly biased as the constituent algorithm in some cases.
翻訳日:2024-11-04 22:50:44 公開日:2024-10-02
# 大規模言語モデルのための推論時カテゴリー的安全ステアリングに向けて

Towards Inference-time Category-wise Safety Steering for Large Language Models ( http://arxiv.org/abs/2410.01174v1 )

ライセンス: Link先を確認
Amrita Bhattacharjee, Shaona Ghosh, Traian Rebedea, Christopher Parisien, (参考訳) 大規模言語モデル(LLM)は様々なユースケースにおける能力や応用に先例のない進歩を遂げてきたが、これらのモデルの安全性の整合性はまだ研究の活発な領域である。 LLMの脆弱な性質は、広範囲なアライメントと安全訓練体制を経たモデルでさえ、トレーニングなしの推論時間法による追加の安全ステアリングステップを保証している。 近年の機械的解釈可能性の分野における研究は、潜在表現空間における活性化が概念をエンコードする方法を研究し、その後、LLM出力でそのような概念を誘導するために表現工学が実施されているが、そのような安全性に対する適用性は比較的過小評価されている。 近年の推論時安全ステアリングとは違って,本論文ではLLM出力の安全ステアリングについて述べる。 一 カテゴリー別ステアリングベクトルであって、ステアリングのきめ細かい制御を可能にすること。 二 生成したテキストの品質を維持しつつ、より効果的な安全操舵のための情報操舵ベクターの抽出方法。 我々は,複数のLCMとデータセットの探索を実演し,提案手法の有効性を実証するとともに,その意義とベストプラクティスについて議論した。

While large language models (LLMs) have seen unprecedented advancements in capabilities and applications across a variety of use-cases, safety alignment of these models is still an area of active research. The fragile nature of LLMs, even models that have undergone extensive alignment and safety training regimes, warrants additional safety steering steps via training-free, inference-time methods. While recent work in the area of mechanistic interpretability has investigated how activations in latent representation spaces may encode concepts, and thereafter performed representation engineering to induce such concepts in LLM outputs, the applicability of such for safety is relatively under-explored. Unlike recent inference-time safety steering works, in this paper we explore safety steering of LLM outputs using: (i) category-specific steering vectors, thereby enabling fine-grained control over the steering, and (ii) sophisticated methods for extracting informative steering vectors for more effective safety steering while retaining quality of the generated text. We demonstrate our exploration on multiple LLMs and datasets, and showcase the effectiveness of the proposed steering method, along with a discussion on the implications and best practices.
翻訳日:2024-11-04 22:50:44 公開日:2024-10-02
# 粘着型AIネットワークにおける効率的なAI双対移動のための拡散型契約設計

Generative Diffusion-based Contract Design for Efficient AI Twins Migration in Vehicular Embodied AI Networks ( http://arxiv.org/abs/2410.01176v1 )

ライセンス: Link先を確認
Yue Zhong, Jiawen Kang, Jinbo Wen, Dongdong Ye, Jiangtian Nie, Dusit Niyato, Xiaozheng Gao, Shengli Xie, (参考訳) Embodied AIは、サイバースペースと物理空間のギャップを埋め、幅広いアプリケーションを可能にする、急速に進歩する分野である。 この進化はVehicular Embodied AI NET(VEANET)の開発につながった。 自律走行車 (AVs) のような身体的エージェントは、環境を知覚し、特定の目標を達成するために行動を起こすことができる自律的な実体であり、物理的世界と積極的に相互作用する。 エンボディード・ツイン(Embodied twins)は、これらのエンボディードエージェントのデジタルモデルであり、サイバースペースにおけるインテリジェントな応用のための様々なエンボディードAIツインである。 VEANETでは、組み込まれたAIツインが車載AIアシスタントとして機能し、生成AIモデルを使用して自律運転をサポートするさまざまなタスクを実行する。 AVの計算資源が限られているため、これらのAVは、組み込みAIツインの構築や更新など、計算集約的なタスクを近くのRSUにオフロードすることが多い。 しかし、AVの迅速な移動と単一のRSUの限られた供給範囲のため、インボデードAIツインは、現在のRSUから他のRSUへの動的移行をリアルタイムで要求する。 情報非対称性が与えられた場合、AVはRSUの詳細な情報を知ることができない。 そこで本稿では, AV と代替 RSU の多次元契約理論モデルを構築した。 AVが不合理な振る舞いを示す可能性があることを考慮し、予測ユーティリティ理論の代わりに予測理論を用いて、AVの実際のユーティリティをモデル化する。 最後に、最適契約設計を特定するために、生成拡散モデルに基づくアルゴリズムを用いる。 従来の強化学習アルゴリズムと比較して,提案手法の有効性を数値的に示す。

Embodied AI is a rapidly advancing field that bridges the gap between cyberspace and physical space, enabling a wide range of applications. This evolution has led to the development of the Vehicular Embodied AI NETwork (VEANET), where advanced AI capabilities are integrated into vehicular systems to enhance autonomous operations and decision-making. Embodied agents, such as Autonomous Vehicles (AVs), are autonomous entities that can perceive their environment and take actions to achieve specific goals, actively interacting with the physical world. Embodied twins are digital models of these embodied agents, with various embodied AI twins for intelligent applications in cyberspace. In VEANET, embodied AI twins act as in-vehicle AI assistants to perform diverse tasks supporting autonomous driving using generative AI models. Due to limited computational resources of AVs, these AVs often offload computationally intensive tasks, such as constructing and updating embodied AI twins, to nearby RSUs. However, since the rapid mobility of AVs and the limited provision coverage of a single RSU, embodied AI twins require dynamic migrations from current RSU to other RSUs in real-time, resulting in the challenge of selecting suitable RSUs for efficient embodied AI twins migrations. Given information asymmetry, AVs cannot know the detailed information of RSUs. To this end, in this paper, we construct a multi-dimensional contract theoretical model between AVs and alternative RSUs. Considering that AVs may exhibit irrational behavior, we utilize prospect theory instead of expected utility theory to model the actual utilities of AVs. Finally, we employ a generative diffusion model-based algorithm to identify the optimal contract designs. Compared with traditional deep reinforcement learning algorithms, numerical results demonstrate the effectiveness of the proposed scheme.
翻訳日:2024-11-04 22:50:44 公開日:2024-10-02
# UAL-Bench: 初の総合的ユビキタスなアクティビティローカライゼーションベンチマーク

UAL-Bench: The First Comprehensive Unusual Activity Localization Benchmark ( http://arxiv.org/abs/2410.01180v1 )

ライセンス: Link先を確認
Hasnat Md Abdullah, Tian Liu, Kangda Wei, Shu Kong, Ruihong Huang, (参考訳) ビデオにおけるヒューマンエラーや監視インシデントなどの異常な活動のローカライズは、現実的に重要な意味を持つ。 しかし、現在のビデオ理解モデルは、モデルの事前学習データセットに不十分な表現があるため、これらの異常な事象をローカライズするのに苦労している。 UAG-OOPS, UAG-SSBD, UAG-FunQAの3つのビデオデータセットと、OOPS-UAG-Instructというインストラクション・トゥーン・データセットを特徴とする、異常なアクティビティローカライゼーションのための総合的なベンチマークであるUAL-Benchを紹介する。 UAL-Benchは、ビデオ言語モデル(Vid-LLM)、命令調整型Vid-LLM(Vid-LLM)、ビジョン言語モデルと大規模言語モデル(VLM-LLM)の新たな統合の3つのアプローチを評価する。 以上の結果から,VLM-LLMアプローチはVid-LLMよりも短時間の異常事象の局所化や開始時刻の予測に優れていた。 また、既存の評価手法の限界に対処するため、新しい計量 R@1, TD <= p も提案する。 以上の結果から,特に自閉症の診断シナリオにおける長期経過ビデオの課題と,ローカライゼーション技術のさらなる進歩の必要性が浮き彫りになった。 我々の研究は、異常な活動ローカライゼーションのベンチマークを提供するだけでなく、既存の基盤モデルにおける重要な課題を概説し、この重要な課題に関する今後の研究方向性を示唆している。

Localizing unusual activities, such as human errors or surveillance incidents, in videos holds practical significance. However, current video understanding models struggle with localizing these unusual events likely because of their insufficient representation in models' pretraining datasets. To explore foundation models' capability in localizing unusual activity, we introduce UAL-Bench, a comprehensive benchmark for unusual activity localization, featuring three video datasets: UAG-OOPS, UAG-SSBD, UAG-FunQA, and an instruction-tune dataset: OOPS-UAG-Instruct, to improve model capabilities. UAL-Bench evaluates three approaches: Video-Language Models (Vid-LLMs), instruction-tuned Vid-LLMs, and a novel integration of Vision-Language Models and Large Language Models (VLM-LLM). Our results show the VLM-LLM approach excels in localizing short-span unusual events and predicting their onset (start time) more accurately than Vid-LLMs. We also propose a new metric, R@1, TD <= p, to address limitations in existing evaluation methods. Our findings highlight the challenges posed by long-duration videos, particularly in autism diagnosis scenarios, and the need for further advancements in localization techniques. Our work not only provides a benchmark for unusual activity localization but also outlines the key challenges for existing foundation models, suggesting future research directions on this important task.
翻訳日:2024-11-04 22:50:44 公開日:2024-10-02
# FastLexRank:ソーシャルメディアの投稿を構造化するための効率的な語彙ランク付け

FastLexRank: Efficient Lexical Ranking for Structuring Social Media Posts ( http://arxiv.org/abs/2410.01183v1 )

ライセンス: Link先を確認
Mao Li, Frederick Conrad, Johann Gagnon-Bartsch, (参考訳) 我々は、テキストランキングのためのLexRankアルゴリズムの効率的かつスケーラブルな実装であるFastLexRank\footnote{https://github.com/LiMaoUM/FastLexRank}を提案する。 元のLexRank法の計算とメモリの複雑さに対処するために設計されたFastLexRankは、結果の品質や精度を損なうことなく、$\mathcal{O}(n^2)$から$\mathcal{O}(n)$に時間とメモリの要求を著しく削減する。 FastLexRankは、文グラフの定常分布を計算するために最適化されたアプローチを採用することで、計算効率を向上しながら、元のLexRankスコアと同じ結果を維持する。 本稿では,ソーシャルメディアコーパスなどの大規模データセットをリアルタイムに処理できるアルゴリズムの改良について述べる。 実験により,その効果を実証し,より高度なNLP技術を用いてさらに分析できる中心的ツイートの同定に利用することを提案する。 FastLexRankはテキスト中心性計算のためのスケーラブルなソリューションを提供する。

We present FastLexRank\footnote{https://github.com/LiMaoUM/FastLexRank}, an efficient and scalable implementation of the LexRank algorithm for text ranking. Designed to address the computational and memory complexities of the original LexRank method, FastLexRank significantly reduces time and memory requirements from $\mathcal{O}(n^2)$ to $\mathcal{O}(n)$ without compromising the quality or accuracy of the results. By employing an optimized approach to calculating the stationary distribution of sentence graphs, FastLexRank maintains an identical results with the original LexRank scores while enhancing computational efficiency. This paper details the algorithmic improvements that enable the processing of large datasets, such as social media corpora, in real-time. Empirical results demonstrate its effectiveness, and we propose its use in identifying central tweets, which can be further analyzed using advanced NLP techniques. FastLexRank offers a scalable solution for text centrality calculation, addressing the growing need for efficient processing of digital content.
翻訳日:2024-11-04 22:50:44 公開日:2024-10-02
# 網膜層分割のためのフォーミュラ駆動データ拡張と部分網膜層コピー

Formula-Driven Data Augmentation and Partial Retinal Layer Copying for Retinal Layer Segmentation ( http://arxiv.org/abs/2410.01185v1 )

ライセンス: Link先を確認
Tsubasa Konno, Takahiro Ninomiya, Kanta Miura, Koichi Ito, Noriko Himori, Parmanand Sharma, Toru Nakazawa, Takafumi Aoki, (参考訳) OCT画像からの主要な網膜層分割法は、網膜が事前に平坦化されていると仮定し、眼筋症および/または近視による曲率による網膜構造の変化を常に扱うことはできない。 このような手法を実用化するために,網膜層分割における平坦化を不要にするため,OCT画像の新たなデータ拡張手法を提案する。 フォーミュラ駆動データ拡張(FDDA)は、与えられた数学的公式に従ってOCT画像の各列を垂直にシフトすることで、様々な網膜構造をエミュレートする。 また、網膜層の一部をコピーし、網膜層の外側の領域に貼り付ける部分網膜層コピー(PRLC)を提案する。 OCT MSとHealthy ControlデータセットとDuke Cyst DMEデータセットを用いた実験により、FDDAとPRLCを使用することで、網膜の平坦化を前提とした網膜層セグメンテーション方法さえもフラット化せずに網膜層の境界を検出することができることを示した。

Major retinal layer segmentation methods from OCT images assume that the retina is flattened in advance, and thus cannot always deal with retinas that have changes in retinal structure due to ophthalmopathy and/or curvature due to myopia. To eliminate the use of flattening in retinal layer segmentation for practicality of such methods, we propose novel data augmentation methods for OCT images. Formula-driven data augmentation (FDDA) emulates a variety of retinal structures by vertically shifting each column of the OCT images according to a given mathematical formula. We also propose partial retinal layer copying (PRLC) that copies a part of the retinal layers and pastes it into a region outside the retinal layers. Through experiments using the OCT MS and Healthy Control dataset and the Duke Cyst DME dataset, we demonstrate that the use of FDDA and PRLC makes it possible to detect the boundaries of retinal layers without flattening even retinal layer segmentation methods that assume flattening of the retina.
翻訳日:2024-11-04 22:50:44 公開日:2024-10-02
# 語彙におけるゴールド・パニング:ドメイン特化LDMの語彙拡張のための適応的手法

Gold Panning in Vocabulary: An Adaptive Method for Vocabulary Expansion of Domain-Specific LLMs ( http://arxiv.org/abs/2410.01188v1 )

ライセンス: Link先を確認
Chengyuan Liu, Shihang Wang, Lizhi Qing, Kun Kuang, Yangyang Kang, Changlong Sun, Fei Wu, (参考訳) 大きな言語モデル(LLM)は印象的な生成能力を示すが、ドメイン固有の知識が限られているため、特殊なドメインに関してはしばしば苦労する。 ドメイン固有のLLMは、ドメイン固有のコーパスを微調整する前に語彙を拡大し、異なるドメインにまたがるLLMへの語彙拡張の結果を徹底的に調べることなく、シーケンス長を減少させ、復号時の効率を高めることを目的としている。 パイロットスタディでは,語彙全体のサブセットのみによる拡張が,優れたパフォーマンスをもたらす可能性が示唆された。 この発見によって導かれた本論文は、語彙サブセットを同定して最適な結果を得る方法について考察する。 本稿では,あるドメイン語彙から価値ある単語を自動的に識別する適応的手法であるVEGADを紹介する。 提案手法は,中国の3つのデータセットを用いて実験を行い,その有効性を実証した。 さらに,本手法の総合的な解析を行った。 拡張のための最適なサブセットの選択は、ドメイン固有のタスクと一般的なタスクの両方のパフォーマンスを高め、VEGADの可能性を示している。

While Large Language Models (LLMs) demonstrate impressive generation abilities, they frequently struggle when it comes to specialized domains due to their limited domain-specific knowledge. Studies on domain-specific LLMs resort to expanding the vocabulary before fine-tuning on domain-specific corpus, aiming to decrease the sequence length and enhance efficiency during decoding, without thoroughly investigating the results of vocabulary expansion to LLMs over different domains. Our pilot study reveals that expansion with only a subset of the entire vocabulary may lead to superior performance. Guided by the discovery, this paper explores how to identify a vocabulary subset to achieve the optimal results. We introduce VEGAD, an adaptive method that automatically identifies valuable words from a given domain vocabulary. Our method has been validated through experiments on three Chinese datasets, demonstrating its effectiveness. Additionally, we have undertaken comprehensive analyses of the method. The selection of a optimal subset for expansion has shown to enhance performance on both domain-specific tasks and general tasks, showcasing the potential of VEGAD.
翻訳日:2024-11-04 22:40:58 公開日:2024-10-02
# ネットワークデコンボリューション [Re] ネットワークデコンボリューション

[Re] Network Deconvolution ( http://arxiv.org/abs/2410.01189v1 )

ライセンス: Link先を確認
Rochana R. Obadage, Kumushini Thennakoon, Sarah M. Rajtmajer, Jian Wu, (参考訳) 本研究の目的は,Ye et al (2020)[1] の "Network Deconvolution" で発表された一連の発見を再現することである。 本稿では,畳み込みニューラルネットワークにおけるモデルトレーニングの最適化手法を提案する。 提案手法である「ネットワークデコンボリューション」は畳み込みニューラルネットワークにおいて,各層にデータが供給される前に画素ワイドおよびチャネルワイドの相関を除去するために用いられる。 特に,バッチ正規化の代わりにネットワークデコンボリューションを用いることで,ディープラーニングモデルの性能が向上するという著者の主張の妥当性を疑問視する。 本主張の有効性を確認し,本論文の表1,2に記載された結果の再現に成功した。 本研究では,複数のアーキテクチャ,データセット,ハイパーパラメータ構成を対象とした367のユニークな実験を行った。 表1では、元の値と比較した場合(10%)に若干の精度差があったが、全体的な傾向は、エポック20と100のモデルのトレーニングにおいて、元の研究結果と一致していた。 表2では、14の再生された値は元の値と一致していた。 さらに,CIFAR-10とCIFAR-100の両方のデータセットに対して,1,20,100エポックな設定で表1の各アーキテクチャのトレーニング時間とテスト時間を文書化する。 我々は、ImageNetデータセットを用いて、テーブル2アーキテクチャの総実行時間を文書化する。 この再現性の研究に使用されるデータとソフトウェアはhttps://github.com/lamps-lab/rep-network-deconvolutionで公開されている。

Our work aims to reproduce the set of findings published in "Network Deconvolution" by Ye et al. (2020)[1]. That paper proposes an optimization technique for model training in convolutional neural networks. The proposed technique "network deconvolution" is used in convolutional neural networks to remove pixel-wise and channel-wise correlations before data is fed into each layer. In particular, we interrogate the validity of the authors' claim that using network deconvolution instead of batch normalization improves deep learning model performance. Our effort confirms the validity of this claim, successfully reproducing the results reported in Tables 1 and 2 of the original paper. Our study involved 367 unique experiments across multiple architectures, datasets, and hyper parameter configurations. For Table 1, while there were some minor deviations in accuracy when compared to the original values (within 10%), the overall trend was consistent with the original study's findings when training the models with epochs 20 and 100. For Table 2, all 14 reproduced values were consistent with the original values. Additionally, we document the training and testing times for each architecture in Table 1 with 1, 20, and 100 epoch settings for both CIFAR-10 and CIFAR-100 datasets. We document the total execution times for Table 2 architectures with the ImageNet dataset. The data and software used for this reproducibility study are publicly available at https://github.com/lamps-lab/rep-network-deconvolution.
翻訳日:2024-11-04 22:40:58 公開日:2024-10-02
# アダプティブデータを用いた確率的グラディエントDescence

Stochastic Gradient Descent with Adaptive Data ( http://arxiv.org/abs/2410.01195v1 )

ライセンス: Link先を確認
Ethan Che, Jing Dong, Xin T. Tong, (参考訳) 確率勾配降下(SGD)は、オンライン学習シナリオにおいて特に有用である強力な最適化手法である。 その収束解析は、データサンプルが独立で同一に分散している(iid)という仮定の下で比較的よく理解されている。 しかし、運用研究における政策最適化問題へのSGDの適用には、環境を変えてポリシー更新に使用するデータに影響を与えるという、明確な課題が伴う。 適応的に生成されたデータストリームは、非定常的で、もはや互いに独立せず、以前の決定の影響を受けないサンプルを含んでいる。 過去の決定が生成したデータに与える影響は、勾配推定におけるバイアスを導入し、iidケースに存在しないオンライン学習の不安定性の潜在的な原因を示す。 本稿では、SGDの収束を保証するために、適応的に生成されたデータストリームの簡単な基準を導入する。 適応データによるSGDの収束速度は, 政策誘起力学の混合時間に係わる限り, 古典的イド設定とほとんど同様であることを示す。 我々のリアプノフ関数解析は、SGDの収束率に関する操作研究で研究された確率システムの既存の安定性解析を変換し、キューおよび在庫管理問題に対してこれを実証する。 また,アクタ-批判的ポリシー勾配アルゴリズムのサンプル複雑性を解析するために,我々の結果がどのように適用できるかを示す。

Stochastic gradient descent (SGD) is a powerful optimization technique that is particularly useful in online learning scenarios. Its convergence analysis is relatively well understood under the assumption that the data samples are independent and identically distributed (iid). However, applying SGD to policy optimization problems in operations research involves a distinct challenge: the policy changes the environment and thereby affects the data used to update the policy. The adaptively generated data stream involves samples that are non-stationary, no longer independent from each other, and affected by previous decisions. The influence of previous decisions on the data generated introduces bias in the gradient estimate, which presents a potential source of instability for online learning not present in the iid case. In this paper, we introduce simple criteria for the adaptively generated data stream to guarantee the convergence of SGD. We show that the convergence speed of SGD with adaptive data is largely similar to the classical iid setting, as long as the mixing time of the policy-induced dynamics is factored in. Our Lyapunov-function analysis allows one to translate existing stability analysis of stochastic systems studied in operations research into convergence rates for SGD, and we demonstrate this for queueing and inventory management problems. We also showcase how our result can be applied to study the sample complexity of an actor-critic policy gradient algorithm.
翻訳日:2024-11-04 22:40:58 公開日:2024-10-02
# Diverse expected Improvement (DEI): 費用対効果型計算機シミュレータの逆ベイズ最適化

Diverse Expected Improvement (DEI): Diverse Bayesian Optimization of Expensive Computer Simulators ( http://arxiv.org/abs/2410.01196v1 )

ライセンス: Link先を確認
John Joshua Miller, Simon Mak, Benny Sun, Sai Ranjeet Narayanan, Suo Yang, Zongxuan Sun, Kenneth S. Kim, Chol-Bum Mike Kweon, (参考訳) 高価なブラックボックスシミュレーターの最適化は、現代の科学や工学の応用の無数に存在する。 ベイズ最適化(Bayesian optimization)は、飽和代理モデルを利用して、その後のシミュレータ評価の選択を導出することにより、魅力的な解を提供する。 しかし、実際には、1つの良いソリューションを得るのではなく、ユーザーが下流の意思決定を選択できる優れたソリューションの「バスケット」を得るのが目的であることが多い。 このニーズは、安定した飛行制御に様々な制御戦略が不可欠である飛行推進用内燃機関のリアルタイム制御に、我々のモチベーション応用に現れます。 ベイジアン最適化のこの面での作業はほとんど行われていない。 そこで我々は,多種多様な ''$\epsilon$-optimal'' ソリューションを探索する新たな Diverse expecteded Improvement (DEI) 法を提案する。 本稿では,DIEがガウス過程サロゲートモデルの下でクローズドフォーム取得関数を出力し,自動微分による効率的なシーケンシャルクエリを容易にすることを示す。 この閉じた形態はさらに、探索・探索・多様性のトレードオフを新たに明らかにし、よく知られた探検・探索のトレードオフに望ましい多様性特性を取り入れている。 本研究では, 従来の手法よりも優れたDIEを数値実験で示し, ローバー軌道最適化とエンジン制御の2つの応用でDIEを探索する。

The optimization of expensive black-box simulators arises in a myriad of modern scientific and engineering applications. Bayesian optimization provides an appealing solution, by leveraging a fitted surrogate model to guide the selection of subsequent simulator evaluations. In practice, however, the objective is often not to obtain a single good solution, but rather a ''basket'' of good solutions from which users can choose for downstream decision-making. This need arises in our motivating application for real-time control of internal combustion engines for flight propulsion, where a diverse set of control strategies is essential for stable flight control. There has been little work on this front for Bayesian optimization. We thus propose a new Diverse Expected Improvement (DEI) method that searches for diverse ''$\epsilon$-optimal'' solutions: locally-optimal solutions within a tolerance level $\epsilon > 0$ from a global optimum. We show that DEI yields a closed-form acquisition function under a Gaussian process surrogate model, which facilitates efficient sequential queries via automatic differentiation. This closed form further reveals a novel exploration-exploitation-diversity trade-off, which incorporates the desired diversity property within the well-known exploration-exploitation trade-off. We demonstrate the improvement of DEI over existing methods in a suite of numerical experiments, then explore the DEI in two applications on rover trajectory optimization and engine control for flight propulsion.
翻訳日:2024-11-04 22:40:58 公開日:2024-10-02
# QLDPC符号のインフォームド動的スケジューリング

Informed Dynamic Scheduling for QLDPC Codes ( http://arxiv.org/abs/2410.01197v1 )

ライセンス: Link先を確認
Tzu-Hsuan Huang, Yeong-Luh Ueng, (参考訳) 近年の研究では、階層型スケジューリング(sLBP)を用いたシンドロームに基づく信念伝播は収束率を加速するだけでなく、量子低密度パリティチェック(QLDPC)符号に対する量子トラップセットを破り、古典的な誤り訂正符号とは異なる結果を示すことによってエラー率を向上させることが示されている。 本稿では,シンドロームに基づく残信伝達(sRBP)に基づくQLDPC符号に対するエッジワイド動的スケジューリング(IDS)について検討する。 しかし、QLDPC符号とそれ以前の同一の固有情報代入は、多くのエッジで等しく残され、sRBPの性能が制限される。 この障害と量子トラップセットに対処するために、エッジプール設計とエラー事前補正を含む2つの戦略が導入された。 そこで,予測・再現・エラー機構(PRE-sRBP)を備えた新しいsRBPを提案する。

Recent research has shown that syndrome-based belief propagation using layered scheduling (sLBP) can not only accelerate the convergence rate but also improve the error rate performance by breaking the quantum trapping sets for quantum low-density parity-check (QLDPC) codes, showcasing a result distinct from classical error correction codes. In this paper, we consider edge-wise informed dynamic scheduling (IDS) for QLDPC codes based on syndrome-based residual belief propagation (sRBP). However, the construction of QLDPC codes and the identical prior intrinsic information assignment will result in an equal residual in many edges, causing a performance limitation for sRBP. Two strategies, including edge pool design and error pre-correction, are introduced to tackle this obstacle and quantum trapping sets. Then, a novel sRBP equipped with a predict-and-reduce-error mechanism (PRE-sRBP) is proposed, which can provide a performance gain on considered QLDPC codes of over one order of magnitude compared to sLBP.
翻訳日:2024-11-04 22:40:58 公開日:2024-10-02
# 偏光基底制御によるマクロ量子特性のコヒーレンス法とそのレーザー光の投影計測

A coherence method generating macroscopic quantum features using polarization-basis control and its projection measurements of laser light ( http://arxiv.org/abs/2410.01198v1 )

ライセンス: Link先を確認
Byoung S. Ham, (参考訳) 対光子間の量子絡み合いは、光量子コンピューティング、量子センシング、量子ネットワークの基礎である。 伝統的に、量子情報科学は微視的なスケールで光子の粒子の性質に焦点を合わせてきた。 近年、コヒーレンスに基づくアプローチは、局所ランダム性から生じる非局所強度のいわゆる量子ミステリーを理解するために研究されている。 ここでは、線形光学に基づく測定による従来のレーザー光を用いたマクロ量子特性を作成するために、純粋コヒーレンス法を提案する。 これを実現するために、レーザ光の偏光基底制御を行い、直交偏光対間の識別不能な特性を発生させる。 偏光制御光対のプロジェクション測定を用いて、独立に制御された局所パラメータ間の局所ランダム性と非局所相関のコヒーレンス解を導出する。

Quantum entanglement between paired photons is the foundation of optical quantum computing, quantum sensing, and quantum networks. Traditionally, quantum information science has focused on the particle nature of photons at the microscopic scale, often neglecting the phase information of single photons, even for the bipartite quantum entanglement. Recently, a coherence-based approach has been explored to understand the so-called quantum mystery of nonlocal intensity fringes emerging from local randomness. Here, a pure coherence method is presented to create macroscopic quantum features using conventional laser light via linear optics-based measurement modifications. To achieve this, a polarization-basis control of the laser light is conducted to generate indistinguishable characteristics between orthogonally polarized light pairs. Using projection measurements of the polarization-controlled light pairs, we derive coherence solutions of local randomness and nonlocal correlations between independently controlled local parameters, where a fixed relative phase relationship between paired lights is an essential condition to determine the corresponding Bell states.
翻訳日:2024-11-04 22:40:58 公開日:2024-10-02
# 2次元材料における量子欠陥の第一原理計算法

First-principles computational methods for quantum defects in two-dimensional materials: A perspective ( http://arxiv.org/abs/2410.01200v1 )

ライセンス: Link先を確認
Hosung Seo, Viktor Ivády, Yuan Ping, (参考訳) 量子欠陥は、単一光子エミッタ(SPE)やスピン量子ビットなどの量子情報デバイスを構築するリソースを提供する材料における原子欠陥である。 最近、二次元(2D)材料は、原子的に薄く層状になった材料から派生した多くの魅力的な特徴を持つ量子欠陥のホストとして有名になった。 本稿では、2次元材料における量子欠陥のスピンおよび電子的性質を予測するための第一原理計算法と課題について論じる。 我々は、欠陥の開量子系の性質と、電場、磁場、格子ひずみなどの外部パラメータとの相互作用に焦点をあてる。 また、このような予測と理解が、欠陥識別からスピンや光学特性のチューニングまで、実験的な研究を導くためにどのように使用できるかについても論じる。 この視点は、欠陥、ホスト物質、および理想的な2次元量子欠陥プラットフォームの追求に不可欠である環境の間の相互作用に関する重要な洞察を提供する。

Quantum defects are atomic defects in materials that provide resources to construct quantum information devices such as single-photon emitters (SPEs) and spin qubits. Recently, two-dimensional (2D) materials gained prominence as a host of quantum defects with many attractive features derived from their atomically thin and layered material formfactor. In this perspective, we discuss first-principles computational methods and challenges to predict the spin and electronic properties of quantum defects in 2D materials. We focus on the open quantum system nature of the defects and their interaction with external parameters such as electric field, magnetic field, and lattice strain. We also discuss how such prediction and understanding can be used to guide experimental studies, ranging from defect identification to tuning of their spin and optical properties. This perspective provides significant insights into the interplay between the defect, the host material, and the environment, which will be essential in the pursuit of ideal two-dimensional quantum defect platforms.
翻訳日:2024-11-04 22:40:58 公開日:2024-10-02
# AniSDF:高忠実度3次元再構成のための異方性符号化を用いた融解粒状神経表面

AniSDF: Fused-Granularity Neural Surfaces with Anisotropic Encoding for High-Fidelity 3D Reconstruction ( http://arxiv.org/abs/2410.01202v1 )

ライセンス: Link先を確認
Jingnan Gao, Zhuo Chen, Yichao Yan, Xiaokang Yang, (参考訳) ニューラルラディアンス場は、最近、新しいビュー合成に革命をもたらし、高忠実度レンダリングを実現した。 しかし、これらの手法はレンダリング品質の幾何を犠牲にして、リライティングや変形を含むさらなる応用を制限している。 正確な幾何学を再構築しながら、フォトリアリスティックレンダリングをどのように合成するかは未解決の問題である。 本研究では,高忠実度3次元再構成のための物理に基づく符号化による融合粒度ニューラル表面の学習手法であるAniSDFを提案する。 従来のニューラルサーフェスとは異なり、我々の融合粒度幾何学構造は全体構造と微細な幾何学的詳細とのバランスを保ち、正確な幾何学的再構成をもたらす。 物理に基づくレンダリングパイプラインである異方性球面ガウス符号化の後, 拡散と特異性をモデル化するための混合放射場を導入する。 これらの設計により、AniSDFは複雑な構造でオブジェクトを再構成し、高品質なレンダリングを生成することができる。 さらに,本手法は,特定の対象に対して複雑なハイパーパラメータチューニングを必要としない統一モデルである。 大規模な実験により,本手法は幾何再構成と新規ビュー合成の両方において,SDF法の品質を飛躍的に向上させることが示された。

Neural radiance fields have recently revolutionized novel-view synthesis and achieved high-fidelity renderings. However, these methods sacrifice the geometry for the rendering quality, limiting their further applications including relighting and deformation. How to synthesize photo-realistic rendering while reconstructing accurate geometry remains an unsolved problem. In this work, we present AniSDF, a novel approach that learns fused-granularity neural surfaces with physics-based encoding for high-fidelity 3D reconstruction. Different from previous neural surfaces, our fused-granularity geometry structure balances the overall structures and fine geometric details, producing accurate geometry reconstruction. To disambiguate geometry from reflective appearance, we introduce blended radiance fields to model diffuse and specularity following the anisotropic spherical Gaussian encoding, a physics-based rendering pipeline. With these designs, AniSDF can reconstruct objects with complex structures and produce high-quality renderings. Furthermore, our method is a unified model that does not require complex hyperparameter tuning for specific objects. Extensive experiments demonstrate that our method boosts the quality of SDF-based methods by a great scale in both geometry reconstruction and novel-view synthesis.
翻訳日:2024-11-04 22:40:58 公開日:2024-10-02
# 2次元トーリック符号のための低温ギブス状態の多項式時間生成

Polynomial-Time Preparation of Low-Temperature Gibbs States for 2D Toric Code ( http://arxiv.org/abs/2410.01206v1 )

ライセンス: Link先を確認
Zhiyan Ding, Bowen Li, Lin Lin, Ruizhe Zhang, (参考訳) 本研究では,任意の温度から開始する2次元トーリック符号ハミルトニアンのギブス状態を作成する多項式時間アルゴリズムを提案する。 我々のアプローチは、局所デイヴィス生成器と単純な大域ジャンプ演算子を用いてリンドブラッド力学を組み合わせ、論理セクター間の効率的な遷移を可能にする。 また、デジタル的に実装された低温局所デイヴィス発生器を用いたリンドブラッド力学は、量子状態を基底状態多様体へ効率的に駆動することができることを証明した。 このような進展にもかかわらず、2次元トーリック符号における量子情報の保護が、受動的に困難なままである理由を説明している。

We propose a polynomial-time algorithm for preparing the Gibbs state of the two-dimensional toric code Hamiltonian at any temperature, starting from any initial condition, significantly improving upon prior estimates that suggested exponential scaling with inverse temperature. Our approach combines the Lindblad dynamics using a local Davies generator with simple global jump operators to enable efficient transitions between logical sectors. We also prove that the Lindblad dynamics with a digitally implemented low temperature local Davies generator is able to efficiently drive the quantum state towards the ground state manifold. Despite this progress, we explain why protecting quantum information in the 2D toric code with passive dynamics remains challenging.
翻訳日:2024-11-04 22:40:58 公開日:2024-10-02
# 関連顧客参加によるフェデレーション学習の嫌悪

Debiasing Federated Learning with Correlated Client Participation ( http://arxiv.org/abs/2410.01209v1 )

ライセンス: Link先を確認
Zhenyu Sun, Ziyang Zhang, Zheng Xu, Gauri Joshi, Pranay Sharma, Ermin Wei, (参考訳) 数百万のモバイルクライアントを抱えるクロスデバイス・フェデレーション・ラーニング(FL)では、すべてのコミュニケーションラウンドでトレーニングに参加するクライアントはごく一部のみであり、フェデレーション・アベレーティング(FedAvg)は実際に最も人気のあるアルゴリズムである。 既存のFedAvgの分析では、通常、参加するクライアントは、実際のシナリオを反映しない均一な分布から各ラウンドで個別にサンプリングされていると仮定する。 本稿では,FLにおけるクライアント参加をマルコフ連鎖としてモデル化する理論的枠組みを提案する。 すべてのクライアントは、再参加する前に最低限の$R$ラウンド(最小分離)を待たなければならない。 理論的には,最小分離の増大は,デバイス間FLシステムにおけるクライアント可利用性の固有の非均一性に起因するバイアスを低減することを実証し,実証する。 さらに,任意の最小分離と未知のクライアント可用性分布の下で,非バイアス最適解に確実に収束するFedAvgの効率的なデバイアス化アルゴリズムを開発した。

In cross-device federated learning (FL) with millions of mobile clients, only a small subset of clients participate in training in every communication round, and Federated Averaging (FedAvg) is the most popular algorithm in practice. Existing analyses of FedAvg usually assume the participating clients are independently sampled in each round from a uniform distribution, which does not reflect real-world scenarios. This paper introduces a theoretical framework that models client participation in FL as a Markov chain to study optimization convergence when clients have non-uniform and correlated participation across rounds. We apply this framework to analyze a more general and practical pattern: every client must wait a minimum number of $R$ rounds (minimum separation) before re-participating. We theoretically prove and empirically observe that increasing minimum separation reduces the bias induced by intrinsic non-uniformity of client availability in cross-device FL systems. Furthermore, we develop an effective debiasing algorithm for FedAvg that provably converges to the unbiased optimal solution under arbitrary minimum separation and unknown client availability distribution.
翻訳日:2024-11-04 22:40:58 公開日:2024-10-02
# Polyp-SES:自己富化セマンティックモデルによる自動ポリプセグメンテーション

Polyp-SES: Automatic Polyp Segmentation with Self-Enriched Semantic Model ( http://arxiv.org/abs/2410.01210v1 )

ライセンス: Link先を確認
Quang Vinh Nguyen, Thanh Hoang Son Vo, Sae-Ryung Kang, Soo-Hyung Kim, (参考訳) 大腸内視鏡画像の有効診断と治療には,自動ポリープセグメンテーションが重要である。 従来の手法では、特徴表現の制限や、ポリプの外観における可変性の扱いなどにより、ポリプを正確に記述する上で重要な課題に直面している。 CNNやTransformerベースの手法を含むディープラーニング技術は,ポリプのセグメンテーション精度を向上させるために研究されている。 しかし、既存のアプローチは、しばしば追加の意味論を無視し、大腸内視鏡画像におけるポリプの適切なコンテキストを取得する能力を制限する。 本稿では,これらの制約に対処する「自己富化セマンティックモデルを用いた自動ポリプセグメンテーション」という革新的な手法を提案する。 まず、入力画像から一連の特徴を抽出し、ハイレベルな特徴をデコードし、初期セグメンテーションマスクを生成する。 提案する自己富化セマンティックモジュールを用いて,潜在的なセマンティクスを検索し,さらにセマンティクスを付加することで,コンテキスト理解のモデルを支援する。 広汎な実験により,提案手法は5つのPolypベンチマークにおいて,高度な学習能力と一般化能力の両方において,最先端のPolypセグメンテーションベースラインに対して優れたセグメンテーション性能を示す。

Automatic polyp segmentation is crucial for effective diagnosis and treatment in colonoscopy images. Traditional methods encounter significant challenges in accurately delineating polyps due to limitations in feature representation and the handling of variability in polyp appearance. Deep learning techniques, including CNN and Transformer-based methods, have been explored to improve polyp segmentation accuracy. However, existing approaches often neglect additional semantics, restricting their ability to acquire adequate contexts of polyps in colonoscopy images. In this paper, we propose an innovative method named ``Automatic Polyp Segmentation with Self-Enriched Semantic Model'' to address these limitations. First, we extract a sequence of features from an input image and decode high-level features to generate an initial segmentation mask. Using the proposed self-enriched semantic module, we query potential semantics and augment deep features with additional semantics, thereby aiding the model in understanding context more effectively. Extensive experiments show superior segmentation performance of the proposed method against state-of-the-art polyp segmentation baselines across five polyp benchmarks in both superior learning and generalization capabilities.
翻訳日:2024-11-04 22:28:32 公開日:2024-10-02
# 中性原子qLDPCメモリを用いた遅延選択量子絡み合いに基づくスニーカーネットの資源推定

Resource Estimation for Delayed Choice Quantum Entanglement Based Sneakernet Networks Using Neutral Atom qLDPC Memories ( http://arxiv.org/abs/2410.01211v1 )

ライセンス: Link先を確認
S. Srikara, Andrew D. Greentree, Simon J. Devitt, (参考訳) 量子エンタングルメントはセキュアな量子ネットワークの実現に必要な重要な現象であり、分散エンタングルメントはこれらのネットワークを有効・維持するために取引できる商品として再想像できる。 我々は、絡み合いベースの暗号を商用化するアイデアと、先進的な量子メモリシステムがより先進的なユーザをサポートする将来のアプリケーションについて検討する。 我々は、中性原子上に量子密度-パリティ-チェック(qLDPC)エンコードされた量子量子ビットを用いて、遅延チョイス量子エンタングルメントスワップによってユーザを接続する中央パーティを備えたスニーカーネットベースの量子通信ネットワークを設計する。 この手法を従来の曲面符号と比較し、qLDPC符号が資源効率と論理量子ビット数において優れたスケーリングを提供することを示した。 短期的な到達可能なパッチサイズでは、中~高忠実度相関が達成でき、大規模商用量子ネットワークへの道を歩むことができる。

Quantum Entanglement is a vital phenomenon required for realizing secure quantum networks, so much that distributed entanglement can be re-imagined as a commodity which can be traded to enable and maintain these networks. We explore the idea of commercializing entanglement-based cryptography and future applications where advanced quantum memory systems support less advanced users. We design a sneakernet-based quantum communication network with a central party connecting the users through delayed-choice quantum entanglement swapping, using quantum Low-Density-Parity-Check (qLDPC) encoded qubits on neutral atoms. Our analysis compares this approach with traditional surface codes, demonstrating that qLDPC codes offer superior scaling in terms of resource efficiency and logical qubit count. We show that with near-term attainable patch sizes, one can attain medium-to-high fidelity correlations, paving the way towards large-scale commercial quantum networks.
翻訳日:2024-11-04 22:28:32 公開日:2024-10-02
# 絶対的状態制約政策最適化:高確率状態制約満足度

Absolute State-wise Constrained Policy Optimization: High-Probability State-wise Constraints Satisfaction ( http://arxiv.org/abs/2410.01212v1 )

ライセンス: Link先を確認
Weiye Zhao, Feihan Li, Yifan Sun, Yujie Wang, Rui Chen, Tianhao Wei, Changliu Liu, (参考訳) 自律運転やロボット操作といった実世界の問題に強化学習(RL)を適用するためには、国家の安全上の制約を強制することが重要である。 しかし、既存の安全なRL法は、期待する状態の制約を強制するか、強い仮定で厳格な状態の制約を強制するのみである。 前者は安全違反の可能性を除外しないが、後者は非現実的である。 我々の見解は、モデルのない環境では厳格な状態制限を保証することは困難であるが、強い仮定を除外しながら高い確率で状態制約を強制することができるということである。 この目的を達成するために,確率的システムに対する高確率な状態制約満足度を保証する新しい汎用ポリシー探索アルゴリズムであるAbsolute State-Strained Policy Optimization (ASCPO)を提案する。 我々は,エージェントが様々な国家的安全制約に従わなければならない広範囲なロボット移動タスクに対して,ニューラルネットワークポリシーをトレーニングすることにより,アプローチの有効性を実証する。 この結果から, ASCPO は実世界のアプリケーションにおいて, 課題のある連続制御タスクに対する状態制約処理において, 既存の手法よりも大幅に優れていたことが示唆された。

Enforcing state-wise safety constraints is critical for the application of reinforcement learning (RL) in real-world problems, such as autonomous driving and robot manipulation. However, existing safe RL methods only enforce state-wise constraints in expectation or enforce hard state-wise constraints with strong assumptions. The former does not exclude the probability of safety violations, while the latter is impractical. Our insight is that although it is intractable to guarantee hard state-wise constraints in a model-free setting, we can enforce state-wise safety with high probability while excluding strong assumptions. To accomplish the goal, we propose Absolute State-wise Constrained Policy Optimization (ASCPO), a novel general-purpose policy search algorithm that guarantees high-probability state-wise constraint satisfaction for stochastic systems. We demonstrate the effectiveness of our approach by training neural network policies for extensive robot locomotion tasks, where the agent must adhere to various state-wise safety constraints. Our results show that ASCPO significantly outperforms existing methods in handling state-wise constraints across challenging continuous control tasks, highlighting its potential for real-world applications.
翻訳日:2024-11-04 22:28:32 公開日:2024-10-02
# 担持金属触媒粒子の高スループット解析のための汎用機械学習ワークフロー

A versatile machine learning workflow for high-throughput analysis of supported metal catalyst particles ( http://arxiv.org/abs/2410.01213v1 )

ライセンス: Link先を確認
Arda Genc, Justin Marlowe, Anika Jalil, Libor Kovarik, Phillip Christopher, (参考訳) ナノ粒子(NP)の精密かつ効率的なキャラクタリゼーションは, 粒子の粒径分布において, それらの構造・物性関係の理解を深め, 様々な用途に設計を容易にするために不可欠である。 本研究では,最先端の単一ステージオブジェクト検出と大規模ビジョントランスフォーマー(ViT)アーキテクチャの迅速な技術を活用した,NP分析のための2段階人工知能駆動ワークフローを提案する。 この手法は、不均一触媒の透過電子顕微鏡(TEM)および走査TEM(STEM)画像に適用され、担持金属触媒の粒子径分布の高分解能、高スループット解析を可能にした。 NPの検出とセグメンテーションにおけるモデルの性能は、様々な金属(Cu, Ru, Pt, PtCo)、サポート(シリカ(\text{SiO}_2$),$\gamma$-alumina(\gamma$-$\text{Al}_2\text{O}_3$),およびカーボンブラック)、粒子径分布(平均と標準偏差2.9$\pm$ 1.1 nm,1.6$\pm$0.2 nm, 9.7$\pm$4.6 nm, 4$\pm$1.0 nm)を含む多種多種多種触媒系(Cu, Ru, Pt, PtCo)で検証された。 さらに、機械学習(ML)アプローチは、非一様触媒支持材料に固定されたNPの重なり合う部分を検出し、空間配置や相互作用について重要な洞察を与える。 我々のAI支援NP分析ワークフローは、多様なデータセットにまたがる堅牢な一般化を示し、コストのかかるモデル再トレーニングを必要とせずに、類似のNPセグメンテーションタスクに容易に適用できる。

Accurate and efficient characterization of nanoparticles (NPs), particularly regarding particle size distribution, is essential for advancing our understanding of their structure-property relationships and facilitating their design for various applications. In this study, we introduce a novel two-stage artificial intelligence (AI)-driven workflow for NP analysis that leverages prompt engineering techniques from state-of-the-art single-stage object detection and large-scale vision transformer (ViT) architectures. This methodology was applied to transmission electron microscopy (TEM) and scanning TEM (STEM) images of heterogeneous catalysts, enabling high-resolution, high-throughput analysis of particle size distributions for supported metal catalysts. The model's performance in detecting and segmenting NPs was validated across diverse heterogeneous catalyst systems, including various metals (Cu, Ru, Pt, and PtCo), supports (silica ($\text{SiO}_2$), $\gamma$-alumina ($\gamma$-$\text{Al}_2\text{O}_3$), and carbon black), and particle diameter size distributions with means and standard deviations of 2.9 $\pm$ 1.1 nm, 1.6 $\pm$ 0.2 nm, 9.7 $\pm$ 4.6 nm, and 4 $\pm$ 1.0 nm. Additionally, the proposed machine learning (ML) approach successfully detects and segments overlapping NPs anchored on non-uniform catalytic support materials, providing critical insights into their spatial arrangements and interactions. Our AI-assisted NP analysis workflow demonstrates robust generalization across diverse datasets and can be readily applied to similar NP segmentation tasks without requiring costly model retraining.
翻訳日:2024-11-04 22:28:32 公開日:2024-10-02
# RS-FME-SwinT: サルポックス診断のためのカスタマイズSwinTと残留空間CNNを統合した新しい特徴マップ拡張フレームワーク

RS-FME-SwinT: A Novel Feature Map Enhancement Framework Integrating Customized SwinT with Residual and Spatial CNN for Monkeypox Diagnosis ( http://arxiv.org/abs/2410.01216v1 )

ライセンス: Link先を確認
Saddam Hussain Khan, Rashid Iqbal, (参考訳) Monkeypox(MPox)は世界的な重要な関心事として現れており、ケースは毎日着実に増えている。 PCR (PCR) や手動検査などの従来の検出方法では、感度が低く、コストが高く、作業負荷が大きい。 したがって、ディープラーニングは自動化されたソリューションを提供するが、データセットにはデータ不足、テクスチャ、コントラスト、クラス間の多様性、その他の皮膚感染症との類似性が含まれる。 本稿では, 残留学習と空間爆発的畳み込みニューラルネットワーク(CNN)の学習能力と, カスタマイズしたスウィン変換器(RS-FME-SwinT)を統合するハイブリッド手法を提案する。 提案したRS-FME-SwinT技術は,グローバル情報取得のためのカスタマイズされたSwinTと,テクスチャ抽出のための残留ブロックと,局所コントラスト変動のための空間ブロックを統合し,転送学習に基づく特徴マップ拡張(FME)技術を用いている。 さらに、提案したSwinTに新しい逆残差ブロックを組み込むことで、局所的なパターンを効果的に捕捉し、消滅する勾配を緩和する。 The proposed RS-FME-SwinT has strong learning potential of various features that systemally reduce-class MPox variation and enable accurate discrimination from other skin disease。 最後に、提案されたRS-FME-SwinTは、多種多様なMPoxデータセット上でクロスバリデーションされたホールドアウトであり、最先端のCNNとViTの性能を達成した。 提案されたRS-FME-SwinTは、精度97.80%、感度96.82%、精度98.06%、Fスコア97.44%のMPox検出結果を示す。 RS-FME-SwinTは医療従事者にとって貴重なツールであり、迅速かつ正確なMPox診断を可能にし、緩和努力に大きく貢献する。

Monkeypox (MPox) has emerged as a significant global concern, with cases steadily increasing daily. Conventional detection methods, including polymerase chain reaction (PCR) and manual examination, exhibit challenges of low sensitivity, high cost, and substantial workload. Therefore, deep learning offers an automated solution; however, the datasets include data scarcity, texture, contrast, inter-intra class variability, and similarities with other skin infectious diseases. In this regard, a novel hybrid approach is proposed that integrates the learning capacity of Residual Learning and Spatial Exploitation Convolutional Neural Network (CNN) with a customized Swin Transformer (RS-FME-SwinT) to capture multi-scale global and local correlated features for MPox diagnosis. The proposed RS-FME-SwinT technique employs a transfer learning-based feature map enhancement (FME) technique, integrating the customized SwinT for global information capture, residual blocks for texture extraction, and spatial blocks for local contrast variations. Moreover, incorporating new inverse residual blocks within the proposed SwinT effectively captures local patterns and mitigates vanishing gradients. The proposed RS-FME-SwinT has strong learning potential of diverse features that systematically reduce intra-class MPox variation and enable precise discrimination from other skin diseases. Finally, the proposed RS-FME-SwinT is a holdout cross-validated on a diverse MPox dataset and achieved outperformance on state-of-the-art CNNs and ViTs. The proposed RS-FME-SwinT demonstrates commendable results of an accuracy of 97.80%, sensitivity of 96.82%, precision of 98.06%, and an F-score of 97.44% in MPox detection. The RS-FME-SwinT could be a valuable tool for healthcare practitioners, enabling prompt and accurate MPox diagnosis and contributing significantly to mitigation efforts.
翻訳日:2024-11-04 22:28:32 公開日:2024-10-02
# 地下マルチモーダルCO2貯蔵監視のための不確実性を考慮したディジタルシャドウ

An uncertainty-aware Digital Shadow for underground multimodal CO2 storage monitoring ( http://arxiv.org/abs/2410.01218v1 )

ライセンス: Link先を確認
Abhinav Prakash Gahlot, Rafael Orozco, Ziyi Yin, Felix J. Herrmann, (参考訳) Geological Carbon Storage GCSは、おそらく唯一、スケーラブルなネット負のCO2排出技術である。 将来的な地下の複雑さと貯水池特性の不均一性は、生産を最適化し、注入された超臨界CO2の汚染の保証を含むストレージリスクを緩和する上で、不確実性を定量化するための体系的なアプローチを要求する。 地下のストレージ操作を監視するためのDigital Twinの設計と実装に向けた第一歩として、機械学習ベースのデータ同化フレームワークを導入して、慎重に設計された現実的な数値シミュレーションに基づいて検証する 当社の実装は、ベイズ推論に基づいているが、制御と意思決定をまだサポートしていない。

Geological Carbon Storage GCS is arguably the only scalable net-negative CO2 emission technology available While promising subsurface complexities and heterogeneity of reservoir properties demand a systematic approach to quantify uncertainty when optimizing production and mitigating storage risks which include assurances of Containment and Conformance of injected supercritical CO2 As a first step towards the design and implementation of a Digital Twin for monitoring underground storage operations a machine learning based data-assimilation framework is introduced and validated on carefully designed realistic numerical simulations As our implementation is based on Bayesian inference but does not yet support control and decision-making we coin our approach an uncertainty-aware Digital Shadow To characterize the posterior distribution for the state of CO2 plumes conditioned on multi-modal time-lapse data the envisioned Shadow combines techniques from Simulation-Based Inference SBI and Ensemble Bayesian Filtering to establish probabilistic baselines and assimilate multi-modal data for GCS problems that are challenged by large degrees of freedom nonlinear multi-physics non-Gaussianity and computationally expensive to evaluate fluid flow and seismic simulations To enable SBI for dynamic systems a recursive scheme is proposed where the Digital Shadows neural networks are trained on simulated ensembles for their state and observed data well and/or seismic Once training is completed the systems state is inferred when time-lapse field data becomes available In this computational study we observe that a lack of knowledge on the permeability field can be factored into the Digital Shadows uncertainty quantification To our knowledge this work represents the first proof of concept of an uncertainty-aware in-principle scalable Digital Shadow.
翻訳日:2024-11-04 22:28:32 公開日:2024-10-02
# 汎用ロボットマニピュレーション政策のための効果的なチューニング戦略

Effective Tuning Strategies for Generalist Robot Manipulation Policies ( http://arxiv.org/abs/2410.01220v1 )

ライセンス: Link先を確認
Wenbo Zhang, Yang Li, Yanyuan Qiao, Siyuan Huang, Jiajun Liu, Feras Dayoub, Xiao Ma, Lingqiao Liu, (参考訳) 汎用ロボット操作ポリシー(GMP)は、幅広いタスク、デバイス、環境にまたがって一般化する可能性がある。 しかし、多様な領域をカバーする十分なアクションデータを集めることの難しさから、既存の政策は、配布外シナリオに苦慮し続けている。 ファインチューニングは、新しいドメインやタスクに限られたサンプルで迅速に適応する実用的な方法であるが、その結果のGMPの性能は、ファインチューニング戦略の設計選択に関して大きく異なる。 本研究は,まず,GMPの微調整戦略における重要な要素の影響について,アクション空間,ポリシーヘッド,監督信号,調整可能なパラメータの選択について検討し,2500個のロールアウトを単一構成で評価する実験である。 本研究の成果を体系的に議論し要約し,GMPの微調整の実践的指針となる重要な設計選択を同定する。 我々は、慎重に選択された微調整戦略により、低データ体制において、GMPは最先端の模倣学習アルゴリズムよりも著しく優れていることを観察する。 本研究で提示された成果は、今後の微調整GMP研究のベースラインを確立し、コミュニティ向けのGMPsツールボックスに重要な追加を提供するものである。

Generalist robot manipulation policies (GMPs) have the potential to generalize across a wide range of tasks, devices, and environments. However, existing policies continue to struggle with out-of-distribution scenarios due to the inherent difficulty of collecting sufficient action data to cover extensively diverse domains. While fine-tuning offers a practical way to quickly adapt a GMPs to novel domains and tasks with limited samples, we observe that the performance of the resulting GMPs differs significantly with respect to the design choices of fine-tuning strategies. In this work, we first conduct an in-depth empirical study to investigate the effect of key factors in GMPs fine-tuning strategies, covering the action space, policy head, supervision signal and the choice of tunable parameters, where 2,500 rollouts are evaluated for a single configuration. We systematically discuss and summarize our findings and identify the key design choices, which we believe give a practical guideline for GMPs fine-tuning. We observe that in a low-data regime, with carefully chosen fine-tuning strategies, a GMPs significantly outperforms the state-of-the-art imitation learning algorithms. The results presented in this work establish a new baseline for future studies on fine-tuned GMPs, and provide a significant addition to the GMPs toolbox for the community.
翻訳日:2024-11-04 22:28:32 公開日:2024-10-02
# 線形スパース構造における因果発見のための共分散

Induced Covariance for Causal Discovery in Linear Sparse Structures ( http://arxiv.org/abs/2410.01221v1 )

ライセンス: Link先を確認
Saeed Mohseni-Sehdeh, Walid Saad, (参考訳) 因果モデルでは、従来の回帰モデルのような単なるマッピングとは対照的に、観測データから変数間の因果関係を解き明かそうとしている。 本稿では,変数が線形に疎結合な関係を示す設定のための新しい因果探索アルゴリズムを提案する。 このようなシナリオでは、有向非巡回グラフ(DAG)で表される因果リンクは構造行列にカプセル化することができる。 提案手法は、構造行列がデータを再構成する能力と、それがデータに課す統計的特性を利用して正しい構造行列を同定する。 この方法は独立性テストやグラフフィッティングの手順には依存せず、限られたトレーニングデータを持つシナリオに適している。 シミュレーションの結果,提案手法はよく知られたPC, GES, BIC の正確な探索, lingAM に基づく線形疎結合因果構造を復元する手法よりも優れていた。

Causal models seek to unravel the cause-effect relationships among variables from observed data, as opposed to mere mappings among them, as traditional regression models do. This paper introduces a novel causal discovery algorithm designed for settings in which variables exhibit linearly sparse relationships. In such scenarios, the causal links represented by directed acyclic graphs (DAGs) can be encapsulated in a structural matrix. The proposed approach leverages the structural matrix's ability to reconstruct data and the statistical properties it imposes on the data to identify the correct structural matrix. This method does not rely on independence tests or graph fitting procedures, making it suitable for scenarios with limited training data. Simulation results demonstrate that the proposed method outperforms the well-known PC, GES, BIC exact search, and LINGAM-based methods in recovering linearly sparse causal structures.
翻訳日:2024-11-04 22:28:32 公開日:2024-10-02
# 3次元頭部アバターのネイティブ生成モデルに向けて

Towards Native Generative Model for 3D Head Avatar ( http://arxiv.org/abs/2410.01226v1 )

ライセンス: Link先を確認
Yiyu Zhuang, Yuxiao He, Jiawei Zhang, Yanwen Wang, Jiahe Zhu, Yao Yao, Siyu Zhu, Xun Cao, Hao Zhu, (参考訳) 3Dヘッドアバターを作成することは、多くの応用シナリオにおいて大きな課題である。 従来の研究では、巨大な2次元画像データを用いて、人間の頭部生成モデルを学習することを目的としていた。 これらのモデルは人間の外観に対して非常に一般化できるが、結果モデルは360$^\circ$-renderableではなく、予測された3次元幾何学は信頼できない。 したがって、このような結果は、360$^\circ$-renderable 3Dヘッドモデルを必要とするVR、ゲームモデリング、その他のシナリオでは利用できない。 直感的なアイデアは、限られた量ながら高い3D精度を持つ3Dヘッドモデルは、高品質な3D生成モデルのためのより信頼性の高いトレーニングデータであるということである。 この方法では、限られた3Dヘッドデータセットから360$^\circ$フルヘッドのネイティブ生成モデルを学習する方法を探索する。 特に3つの大きな問題が研究されている。 1)360$^\circ$-renderableの人頭を生成するために、様々な表現を効果的に活用する方法。 2 人間の顔の外観、形状、動きを乱して、外観で編集し、動きで駆動できる3次元頭部モデルを作成する方法。 3)下流タスクをサポートするために生成モデルの一般化能力を拡張する方法。 提案モデルの有効性を検証するための総合的な実験を行った。 提案されたモデルとアーティストが設計したデータセットが、限られた3Dデータセットからネイティブな生成3Dヘッドモデルを学習するための将来の研究を刺激することを期待しています。

Creating 3D head avatars is a significant yet challenging task for many applicated scenarios. Previous studies have set out to learn 3D human head generative models using massive 2D image data. Although these models are highly generalizable for human appearance, their result models are not 360$^\circ$-renderable, and the predicted 3D geometry is unreliable. Therefore, such results cannot be used in VR, game modeling, and other scenarios that require 360$^\circ$-renderable 3D head models. An intuitive idea is that 3D head models with limited amount but high 3D accuracy are more reliable training data for a high-quality 3D generative model. In this vein, we delve into how to learn a native generative model for 360$^\circ$ full head from a limited 3D head dataset. Specifically, three major problems are studied: 1) how to effectively utilize various representations for generating the 360$^\circ$-renderable human head; 2) how to disentangle the appearance, shape, and motion of human faces to generate a 3D head model that can be edited by appearance and driven by motion; 3) and how to extend the generalization capability of the generative model to support downstream tasks. Comprehensive experiments are conducted to verify the effectiveness of the proposed model. We hope the proposed models and artist-designed dataset can inspire future research on learning native generative 3D head models from limited 3D datasets.
翻訳日:2024-11-04 22:18:47 公開日:2024-10-02
# 医療における証言不公正の因果性と間欠性

See Me and Believe Me: Causality and Intersectionality in Testimonial Injustice in Healthcare ( http://arxiv.org/abs/2410.01227v1 )

ライセンス: Link先を確認
Kenya S. Andrews, Mesrob I. Ohannessian, Elena Zheleva, (参考訳) 医療現場では、ケアを必要としているすべての人が正しく聴取され、理解されることが重要である。 聴取者が持つ偏見によってそうでない場合、話者は「emph{testimonial injustice}」を経験しており、これは最近の研究に基づいて、医療ノートに不当な語彙のいくつかのカテゴリが存在することによって定量化される。 本稿では, 因果発見法であるFCIを用いて, 年齢, 年齢, 性別, 人種などの年齢的特徴が, 証言の不正に寄与する可能性について検討する。 そこで我々は,各患者に対する医師のノートをレビューし,不適切な語彙の発生と人口動態の特徴を同定し,因果発見を用いて,それらの特徴を証言的不正に関連付ける構造因果モデル(Structure Causal Model, SCM)を構築した。 我々は、これらの要因の相互作用と、それらが不正経験に与える影響を示すために、結果のSCMを分析し、議論する。 共起変数が存在する可能性にもかかわらず、ある寄与特徴が、ある人が他の証言的不正を経験する傾向があることを観察する。 不正の唯一の根は存在しないので、交差性は無視できない。 これらの結果は、偏見や不公平な経験を分析し改善する際に、個人が誰であるかの特異な属性または等化属性以上のものを検討することを要求する。 この研究は、因果発見を用いて、医療現場で患者が経験した微妙な経験を理解するための最初の試みであり、その洞察は、医療全体のデザイン原則をガイドし、信頼を築き、より良い患者ケアを促進するために利用することができる。

In medical settings, it is critical that all who are in need of care are correctly heard and understood. When this is not the case due to prejudices a listener has, the speaker is experiencing \emph{testimonial injustice}, which, building upon recent work, we quantify by the presence of several categories of unjust vocabulary in medical notes. In this paper, we use FCI, a causal discovery method, to study the degree to which certain demographic features could lead to marginalization (e.g., age, gender, and race) by way of contributing to testimonial injustice. To achieve this, we review physicians' notes for each patient, where we identify occurrences of unjust vocabulary, along with the demographic features present, and use causal discovery to build a Structural Causal Model (SCM) relating those demographic features to testimonial injustice. We analyze and discuss the resulting SCMs to show the interaction of these factors and how they influence the experience of injustice. Despite the potential presence of some confounding variables, we observe how one contributing feature can make a person more prone to experiencing another contributor of testimonial injustice. There is no single root of injustice and thus intersectionality cannot be ignored. These results call for considering more than singular or equalized attributes of who a person is when analyzing and improving their experiences of bias and injustice. This work is thus a first foray at using causal discovery to understand the nuanced experiences of patients in medical settings, and its insights could be used to guide design principles throughout healthcare, to build trust and promote better patient care.
翻訳日:2024-11-04 22:18:46 公開日:2024-10-02
# ConServe: 低レイテンシと高スループット大言語モデルのハーベスティングGPU

ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving ( http://arxiv.org/abs/2410.01228v1 )

ライセンス: Link先を確認
Yifan Qiao, Shu Anzai, Shan Yu, Haoran Ma, Yang Wang, Miryung Kim, Harry Xu, (参考訳) 多くのアプリケーションは複雑なタスクに大規模言語モデル(LLM)を活用しており、一般的にチャットボットのようなインタラクティブなオンラインジョブに低い推論レイテンシと高いサービススループットを要求する。 しかし、レイテンシの厳しい要求とアプリケーションの負荷分散は、高いGPU利用を達成するためのシステム提供に困難をもたらす。 スケジューリングとプリエンプションのコストが高いため、今日のシステムは一般的に、オンラインとオフラインの推論タスクに別々のクラスタを使用し、干渉を避けるためにオンラインの推論にGPUを集中する。 このアプローチは、平均負荷が低い場合でも、ピーク期待負荷に対して十分なGPUリソースを予約する必要があるため、未使用のGPUにつながる。 本稿では,文書要約やLLMベンチマークなどのオフラインLLM推論タスクのためのストランドGPUリソースの抽出を提案する。 オンライン推論とは異なり、これらのタスクは通常、緩やかなレイテンシ要件でバッチ処理で実行される。 オンラインタスクに干渉することなく、安全で効率的なGPU収穫を可能にするために、オンラインタスクの到着時にオフラインタスクの実行をプリエンプトする実行エンジンであるConServeと、プリエンプションで必要となる再計算の量を最小化するインクリメンタルチェックポイント機構と、GPU利用率を高めるためにオフラインタスクを適応的にバッチするスケジューラを含むLLMサービスシステムを構築した。 評価の結果,ConServeは,オンラインタスクとオフラインタスクの共用時に高いパフォーマンスを達成できるが,GPU利用率が向上していることがわかった。 Llama-2-7Bのような一般的なモデル上で、実用的なオンラインおよびオフラインのワークロードをコロケーションする場合、ConServeは、最先端のオンラインサービスシステムよりも2.35$\times$高いスループットを達成し、既存の共同サービスシステムと比較してレイテンシーを84$\times$に削減する。

Many applications are leveraging large language models (LLMs) for complex tasks, and they generally demand low inference latency and high serving throughput for interactive online jobs such as chatbots. However, the tight latency requirement and high load variance of applications pose challenges to serving systems in achieving high GPU utilization. Due to the high costs of scheduling and preemption, today's systems generally use separate clusters to serve online and offline inference tasks, and dedicate GPUs for online inferences to avoid interference. This approach leads to underutilized GPUs because one must reserve enough GPU resources for the peak expected load, even if the average load is low. This paper proposes to harvest stranded GPU resources for offline LLM inference tasks such as document summarization and LLM benchmarking. Unlike online inferences, these tasks usually run in a batch-processing manner with loose latency requirements, making them a good fit for stranded resources that are only available shortly. To enable safe and efficient GPU harvesting without interfering with online tasks, we built ConServe, an LLM serving system that contains (1) an execution engine that preempts running offline tasks upon the arrival of online tasks, (2) an incremental checkpointing mechanism that minimizes the amount of recomputation required by preemptions, and (3) a scheduler that adaptively batches offline tasks for higher GPU utilization. Our evaluation demonstrates that ConServe achieves strong performance isolation when co-serving online and offline tasks but at a much higher GPU utilization. When colocating practical online and offline workloads on popular models such as Llama-2-7B, ConServe achieves 2.35$\times$ higher throughput than state-of-the-art online serving systems and reduces serving latency by 84$\times$ compared to existing co-serving systems.
翻訳日:2024-11-04 22:18:46 公開日:2024-10-02
# 代替学習:学習可能なパラメータが少ないビジョンタスクの訓練

Replacement Learning: Training Vision Tasks with Fewer Learnable Parameters ( http://arxiv.org/abs/2410.01239v1 )

ライセンス: Link先を確認
Yuming Zhang, Peizhe Wang, Shouxin Zhang, Dongzhi Guan, Jiabin Liu, Junhao Su, (参考訳) 従来のエンドツーエンドのディープラーニングモデルは、トレーニング中のネットワークの深さと複雑さを増大させることで、機能表現と全体的なパフォーマンスを向上させることが多い。 しかし,本手法は,特に深層ネットワークにおいて,パラメータ冗長性と資源非効率性の問題を必然的に導入する。 既存の作業では、これらの問題を緩和するためにある種の冗長なレイヤをスキップしようとするが、パフォーマンスの低下、計算の複雑さ、メモリ使用効率の低下に関連する課題が残っている。 これらの問題に対処するために,冷凍層の全パラメータを2つの学習可能なパラメータに置き換えることで,これらの制限を緩和するReplacement Learningという,革新的なトレーニング手法を提案する。 具体的には、置換学習は特定の層のパラメータを選択的に凍結し、凍結した層は隣接する層のパラメータを利用し、2つの学習可能なパラメータによって制御されるパラメータ統合機構を通じてそれらを更新する。 この方法は、周辺構造からの情報を活用し、計算を減らし、GPUメモリを保存し、履歴コンテキストと新しい入力のバランスを維持し、最終的に全体のモデル性能を向上させる。 CIFAR-10, STL-10, SVHN, ImageNet の4つのベンチマークデータセットを用いて, CNN や ViT などのアーキテクチャを用いて, 置換学習の有効性を検証する実験を行った。 実験結果から,本手法は,エンドツーエンドトレーニングの性能を大幅に超えながら,パラメータ数,トレーニング時間,メモリ消費を減少させることを示した。

Traditional end-to-end deep learning models often enhance feature representation and overall performance by increasing the depth and complexity of the network during training. However, this approach inevitably introduces issues of parameter redundancy and resource inefficiency, especially in deeper networks. While existing works attempt to skip certain redundant layers to alleviate these problems, challenges related to poor performance, computational complexity, and inefficient memory usage remain. To address these issues, we propose an innovative training approach called Replacement Learning, which mitigates these limitations by completely replacing all the parameters of the frozen layers with only two learnable parameters. Specifically, Replacement Learning selectively freezes the parameters of certain layers, and the frozen layers utilize parameters from adjacent layers, updating them through a parameter integration mechanism controlled by two learnable parameters. This method leverages information from surrounding structures, reduces computation, conserves GPU memory, and maintains a balance between historical context and new inputs, ultimately enhancing overall model performance. We conducted experiments across four benchmark datasets, including CIFAR-10, STL-10, SVHN, and ImageNet, utilizing various architectures such as CNNs and ViTs to validate the effectiveness of Replacement Learning. Experimental results demonstrate that our approach reduces the number of parameters, training time, and memory consumption while completely surpassing the performance of end-to-end training.
翻訳日:2024-11-04 22:18:46 公開日:2024-10-02
# 談話分析における自動帰納的符号化--学習分析における大規模言語モデルの応用

Automatic deductive coding in discourse analysis: an application of large language models in learning analytics ( http://arxiv.org/abs/2410.01240v1 )

ライセンス: Link先を確認
Lishan Zhang, Han Wu, Xiaoshan Huang, Tengfei Duan, Hanxiang Du, (参考訳) デダクティブ・コーディング(英: deductive coding)は、科学と学習分析研究者が教えと学習の相互作用を理解するために広く使われている一般的な談話分析手法である。 しばしば研究者は、時間と労働集約的な理論的に導かれたコーディングスキームに従って分析されるすべての言説を手動でラベル付けする必要がある。 GPTのような大規模言語モデルの出現は、従来の演典符号化の限界を克服するために、自動演典符号化のための新たな道を開いた。 自動推論符号化における大規模言語モデルの有用性を評価するため,テキスト特徴工学を用いた従来型テキスト分類法,BERT型事前学習言語モデル,GPT型事前学習型大規模言語モデル(LLM)など,異なる人工知能技術によって駆動される3つの異なる分類手法を用いた。 提案手法を2つの異なるデータセットに適用し,GPTの可能性を探究し,自動帰納的符号化におけるエンジニアリングの促進を図った。 これら3つの分類手法の精度とKappa値を解析・比較することにより,GPTと迅速なエンジニアリングにより,トレーニングサンプル数に制限のある両方のデータセットにおいて,他の2つの手法よりも優れた性能を示した。 詳細なプロンプト構造を提供することで、この報告された研究は、自動帰納的符号化の実装において、いかに大きな言語モデルを利用できるかを実証した。

Deductive coding is a common discourse analysis method widely used by learning science and learning analytics researchers for understanding teaching and learning interactions. It often requires researchers to manually label all discourses to be analyzed according to a theoretically guided coding scheme, which is time-consuming and labor-intensive. The emergence of large language models such as GPT has opened a new avenue for automatic deductive coding to overcome the limitations of traditional deductive coding. To evaluate the usefulness of large language models in automatic deductive coding, we employed three different classification methods driven by different artificial intelligence technologies, including the traditional text classification method with text feature engineering, BERT-like pretrained language model and GPT-like pretrained large language model (LLM). We applied these methods to two different datasets and explored the potential of GPT and prompt engineering in automatic deductive coding. By analyzing and comparing the accuracy and Kappa values of these three classification methods, we found that GPT with prompt engineering outperformed the other two methods on both datasets with limited number of training samples. By providing detailed prompt structures, the reported work demonstrated how large language models can be used in the implementation of automatic deductive coding.
翻訳日:2024-11-04 22:18:46 公開日:2024-10-02
# 等価スコアに基づく生成モデルは対称性を持つ分布を効果的に学習する

Equivariant score-based generative models provably learn distributions with symmetries efficiently ( http://arxiv.org/abs/2410.01244v1 )

ライセンス: Link先を確認
Ziyu Chen, Markos A. Katsoulakis, Benjamin J. Zhang, (参考訳) 対称性は、物理、画像、分子シミュレーションなど、多くの現実世界の現象やタスクにおいてユビキタスである。 実験的な研究により、生成モデルに対称性を組み込むことで、基礎となるデータ分布が群対称性を持つ場合、より優れた一般化とサンプリング効率が得られることが示されている。 本研究では、ある群対称性に対して不変な分布を学習するためのスコアベース生成モデル(SGM)の第一の理論解析と保証を行い、データの増大と同変帰納バイアスの追加の間の最初の定量的比較を提供する。 まず、群対称性の下での確率発散のSGMの保証と経験的推定に関する最近の研究に基づいて、データ分布が群不変であるときに改善された$\mathbf{d}_1$一般化を与える。 第二に、ハミルトン・ヤコビ・ベルマン理論を用いて同変SGMの帰納バイアスを記述し、同変ベクトル場を用いた対称性分布のスコアをデータ拡張なしで学習できることを、スコアマッチング対象の最適性と等価性の分析により厳密に証明する。 これはまた、ベクトル場やニューラルネットワークのパラメトリゼーションが等式である限り、データセットを増強する必要はない、という実践的なガイダンスを提供する。 さらに、同変でないベクトル場がより悪い一般化境界をもたらすことを示すことにより、同変構造をスコアパラメトリゼーションに含まない影響を定量化する。 これは、非同変ベクトル場の欠落構造を記述するモデル形式誤差の一種と見なすことができる。 数値シミュレーションは、我々の分析を裏付け、データ拡張が等変ベクトル場の役割に取って代わることができないことを強調する。

Symmetry is ubiquitous in many real-world phenomena and tasks, such as physics, images, and molecular simulations. Empirical studies have demonstrated that incorporating symmetries into generative models can provide better generalization and sampling efficiency when the underlying data distribution has group symmetry. In this work, we provide the first theoretical analysis and guarantees of score-based generative models (SGMs) for learning distributions that are invariant with respect to some group symmetry and offer the first quantitative comparison between data augmentation and adding equivariant inductive bias. First, building on recent works on the Wasserstein-1 ($\mathbf{d}_1$) guarantees of SGMs and empirical estimations of probability divergences under group symmetry, we provide an improved $\mathbf{d}_1$ generalization bound when the data distribution is group-invariant. Second, we describe the inductive bias of equivariant SGMs using Hamilton-Jacobi-Bellman theory, and rigorously demonstrate that one can learn the score of a symmetrized distribution using equivariant vector fields without data augmentations through the analysis of the optimality and equivalence of score-matching objectives. This also provides practical guidance that one does not have to augment the dataset as long as the vector field or the neural network parametrization is equivariant. Moreover, we quantify the impact of not incorporating equivariant structure into the score parametrization, by showing that non-equivariant vector fields can yield worse generalization bounds. This can be viewed as a type of model-form error that describes the missing structure of non-equivariant vector fields. Numerical simulations corroborate our analysis and highlight that data augmentations cannot replace the role of equivariant vector fields.
翻訳日:2024-11-04 22:18:46 公開日:2024-10-02
# オープンエンド応答の多点評価のための AHP を用いた LLM 推論

AHP-Powered LLM Reasoning for Multi-Criteria Evaluation of Open-Ended Responses ( http://arxiv.org/abs/2410.01246v1 )

ライセンス: Link先を確認
Xiaotian Lu, Jiyi Li, Koh Takeuchi, Hisashi Kashima, (参考訳) 質問応答(QA)タスクは自然言語処理(NLP)の分野で広く研究されている。 オープンエンドの質問に対する回答は、非常に多様で定量化が困難であり、決定的な答えを持つクローズエンドの質問とは異なり、単に正しい、または正しく評価することはできない。 大規模言語モデル(LLM)は様々なタスクにまたがる強力な能力を示しているが、オープンエンドの質問に対する回答を評価する際には、比較的弱い性能を示す。 本研究では,LLMと解析階層プロセス(AHP)を利用して,オープンエンド質問に対する回答を評価する手法を提案する。 我々はLLMを用いて質問に対する複数の評価基準を作成した。 その後,各基準下での回答はLLMとペア比較され,各回答のスコアはAHPで計算された。 また,ChatGPT-3.5-turbo と GPT-4 の2つのデータセットについて実験を行った。 以上の結果から,本研究のアプローチは4つの基準線よりも人間の判断と密接に一致していることが示唆された。 さらに、基準数、モデルのバリエーション、データセットの違いが結果に与える影響についても検討した。

Question answering (QA) tasks have been extensively studied in the field of natural language processing (NLP). Answers to open-ended questions are highly diverse and difficult to quantify, and cannot be simply evaluated as correct or incorrect, unlike close-ended questions with definitive answers. While large language models (LLMs) have demonstrated strong capabilities across various tasks, they exhibit relatively weaker performance in evaluating answers to open-ended questions. In this study, we propose a method that leverages LLMs and the analytic hierarchy process (AHP) to assess answers to open-ended questions. We utilized LLMs to generate multiple evaluation criteria for a question. Subsequently, answers were subjected to pairwise comparisons under each criterion with LLMs, and scores for each answer were calculated in the AHP. We conducted experiments on four datasets using both ChatGPT-3.5-turbo and GPT-4. Our results indicate that our approach more closely aligns with human judgment compared to the four baselines. Additionally, we explored the impact of the number of criteria, variations in models, and differences in datasets on the results.
翻訳日:2024-11-04 22:18:46 公開日:2024-10-02
# 双対近似ポリシ最適化

Dual Approximation Policy Optimization ( http://arxiv.org/abs/2410.01249v1 )

ライセンス: Link先を確認
Zhihan Xiong, Maryam Fazel, Lin Xiao, (参考訳) 本稿では、一般関数近似をポリシーミラー降下法に組み込んだフレームワークであるDual Approximation Policy Optimization (DAPO)を提案する。 関数近似誤差を測定するために$L_2$-normを使用する一般的なアプローチとは対照的に、DAPOはミラーマップによって誘導される二重ブレグマン発散をポリシー投影に使用する。 この双対性フレームワークは、理論的および実用的両方の意味を持ち、一般関数近似による高速線型収束を達成するだけでなく、特殊ケースとしてよく知られたいくつかの実践的手法も含み、すぐに強い収束を保証する。

We propose Dual Approximation Policy Optimization (DAPO), a framework that incorporates general function approximation into policy mirror descent methods. In contrast to the popular approach of using the $L_2$-norm to measure function approximation errors, DAPO uses the dual Bregman divergence induced by the mirror map for policy projection. This duality framework has both theoretical and practical implications: not only does it achieve fast linear convergence with general function approximation, but it also includes several well-known practical methods as special cases, immediately providing strong convergence guarantees.
翻訳日:2024-11-04 22:18:46 公開日:2024-10-02
# 自己注意と因果分解サンプルの適応的拘束による顔行動単位の検出

Facial Action Unit Detection by Adaptively Constraining Self-Attention and Causally Deconfounding Sample ( http://arxiv.org/abs/2410.01251v1 )

ライセンス: Link先を確認
Zhiwen Shao, Hancheng Zhu, Yong Zhou, Xiang Xiang, Bing Liu, Rui Yao, Lizhuang Ma, (参考訳) 顔行動単位(AU)検出は、AUの微妙さ、ダイナミクス、多様性のため、依然として困難な課題である。 近年,AU検出には自己注意法や因果推論法が広く採用されている。 しかしながら、既存のほとんどの方法は、AU検出によって導かれる自己注意を直接学習するか、因果的介入中にすべてのAUに対して共通のパターンを採用する。 前者はグローバル範囲で無関係な情報をキャプチャすることが多く、後者は各AUの特定の因果特性を無視している。 本稿では,自己注意重み分布を適応的に制限し,共同創設者を因果的に分解し,AC2Dと呼ばれる新しいAU検出フレームワークを提案する。 具体的には,各AUの自己注意重み分布を空間分布と見なす自己注意重み分布のメカニズムについて検討し,位置予め定義された注意の制約とAU検出の指針の下で適応的に学習する。 さらに,各AUに対する因果介入モジュールを提案し,トレーニングサンプルによるバイアスと無関係なAUからの干渉を両立させる。 本手法は,制約シナリオにおけるBP4D, DISFA, GFT, BP4D+, 制約のないシナリオにおけるAff-Wild2など,挑戦的ベンチマークにおける最先端のAU検出手法と比較して,競争性能が向上することを示す。 コードはhttps://github.com/ZhiwenShao/AC2Dで公開されている。

Facial action unit (AU) detection remains a challenging task, due to the subtlety, dynamics, and diversity of AUs. Recently, the prevailing techniques of self-attention and causal inference have been introduced to AU detection. However, most existing methods directly learn self-attention guided by AU detection, or employ common patterns for all AUs during causal intervention. The former often captures irrelevant information in a global range, and the latter ignores the specific causal characteristic of each AU. In this paper, we propose a novel AU detection framework called AC2D by adaptively constraining self-attention weight distribution and causally deconfounding the sample confounder. Specifically, we explore the mechanism of self-attention weight distribution, in which the self-attention weight distribution of each AU is regarded as spatial distribution and is adaptively learned under the constraint of location-predefined attention and the guidance of AU detection. Moreover, we propose a causal intervention module for each AU, in which the bias caused by training samples and the interference from irrelevant AUs are both suppressed. Extensive experiments show that our method achieves competitive performance compared to state-of-the-art AU detection approaches on challenging benchmarks, including BP4D, DISFA, GFT, and BP4D+ in constrained scenarios and Aff-Wild2 in unconstrained scenarios. The code is available at https://github.com/ZhiwenShao/AC2D.
翻訳日:2024-11-04 22:18:46 公開日:2024-10-02
# 資源効率の等価量子畳み込みニューラルネットワーク

Resource-efficient equivariant quantum convolutional neural networks ( http://arxiv.org/abs/2410.01252v1 )

ライセンス: Link先を確認
Koki Chinzei, Quoc Hoan Tran, Yasuhiro Endo, Hirotaka Oshima, (参考訳) 等価量子ニューラルネットワーク(QNN)は、対称性を利用して潜在的な量子優位性を提供する量子機械学習モデルである。 等変QNNの理論的発展にもかかわらず、その短期量子デバイスへの実装は、限られた計算資源のために難しいままである。 本研究では、同変量子畳み込みニューラルネットワーク(QCNN)の資源効率モデルとして、同変分割並列化QCNN(sp-QCNN)を提案する。 グループ理論的アプローチを用いて、以前のsp-QCNNで対処された翻訳対称性を超えて、一般対称性をモデルにエンコードする。 対称性を保ちながらプール層で回路を分割することでこれを実現できる。 この分割構造はQCNNを効果的に並列化し、観測可能な観測値とその勾配をキュービット数順に推定することで測定効率を向上させる。 また,本モデルでは,バレン高原の欠如を含む,高い訓練性と一般化性能を示す。 数値実験により、同変のsp-QCNNは、ノイズの多い量子データ分類タスクにおいて、従来の同変のQCNNよりも少ない測定資源で訓練および一般化できることが示されている。 この結果は,実用的な量子機械学習アルゴリズムの進歩に寄与する。

Equivariant quantum neural networks (QNNs) are promising quantum machine learning models that exploit symmetries to provide potential quantum advantages. Despite theoretical developments in equivariant QNNs, their implementation on near-term quantum devices remains challenging due to limited computational resources. This study proposes a resource-efficient model of equivariant quantum convolutional neural networks (QCNNs) called equivariant split-parallelizing QCNN (sp-QCNN). Using a group-theoretical approach, we encode general symmetries into our model beyond the translational symmetry addressed by previous sp-QCNNs. We achieve this by splitting the circuit at the pooling layer while preserving symmetry. This splitting structure effectively parallelizes QCNNs to improve measurement efficiency in estimating the expectation value of an observable and its gradient by order of the number of qubits. Our model also exhibits high trainability and generalization performance, including the absence of barren plateaus. Numerical experiments demonstrate that the equivariant sp-QCNN can be trained and generalized with fewer measurement resources than a conventional equivariant QCNN in a noisy quantum data classification task. Our results contribute to the advancement of practical quantum machine learning algorithms.
翻訳日:2024-11-04 22:18:46 公開日:2024-10-02
# HelpSteer2-Preference: 優先度付きレーティングを補完する

HelpSteer2-Preference: Complementing Ratings with Preferences ( http://arxiv.org/abs/2410.01257v1 )

ライセンス: Link先を確認
Zhilin Wang, Alexander Bukharin, Olivier Delalleau, Daniel Egert, Gerald Shen, Jiaqi Zeng, Oleksii Kuchaiev, Yi Dong, (参考訳) リワードモデルはモデルが指示に従うために重要なものであり、一般的にはブラッドリー・テリースタイルまたは回帰スタイルという2つの一般的なパラダイムの1つに従って訓練される。 しかし、データに適切に一致する場合、どちらのアプローチも他方よりも優れているという証拠が不足している。 これは主に、これらのアプローチが異なる(互換性のない)フォーマットで収集されたデータを必要とするためである。 この問題に対処するため、HelpSteer2データセットの既存のレーティング(回帰スタイルのトレーニング用に設計された)を補完するために、プライオリティアノテーション(Bradley-Terryトレーニング用に設計された)をリリースしました。 データ解釈性を改善するため、嗜好アノテーションには人間による正当化が伴う。 このデータを用いてBradley-TerryモデルとRegressionモデルの比較を行った。 このような比較から得られた知見に基づいて、Bradley-TerryとRegressionの報酬モデリングを組み合わせた新しい手法を提案する。 このアプローチをチューニングしたLlama-3.1-70B-InstructモデルはRewardBenchで94.1得点を記録し、2024年10月1日時点で140以上の報酬モデルでトップとなった。 また、この報酬モデルの有効性をRLHFの命令に従うためにモデルを調整する際にも示す。 私たちはこのデータセット(CC-BY-4.0ライセンス)をhttps://huggingface.co/datasets/nvidia/HelpSteer2でオープンソース化し、トレーニング済みのReward Modelをhttps://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Rewardで公開しました。

Reward models are critical for aligning models to follow instructions, and are typically trained following one of two popular paradigms: Bradley-Terry style or Regression style. However, there is a lack of evidence that either approach is better than the other, when adequately matched for data. This is primarily because these approaches require data collected in different (but incompatible) formats, meaning that adequately matched data is not available in existing public datasets. To tackle this problem, we release preference annotations (designed for Bradley-Terry training) to complement existing ratings (designed for Regression style training) in the HelpSteer2 dataset. To improve data interpretability, preference annotations are accompanied with human-written justifications. Using this data, we conduct the first head-to-head comparison of Bradley-Terry and Regression models when adequately matched for data. Based on insights derived from such a comparison, we propose a novel approach to combine Bradley-Terry and Regression reward modeling. A Llama-3.1-70B-Instruct model tuned with this approach scores 94.1 on RewardBench, emerging top of more than 140 reward models as of 1 Oct 2024. We also demonstrate the effectiveness of this reward model at aligning models to follow instructions in RLHF. We open-source this dataset (CC-BY-4.0 license) at https://huggingface.co/datasets/nvidia/HelpSteer2 and openly release the trained Reward Model at https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward
翻訳日:2024-11-04 22:18:46 公開日:2024-10-02
# 過度にパラメータ化された機械学習のウェイクにおける最適化とモデル複雑度の再検討

Revisiting Optimism and Model Complexity in the Wake of Overparameterized Machine Learning ( http://arxiv.org/abs/2410.01259v1 )

ライセンス: Link先を確認
Pratik Patil, Jin-Hong Du, Ryan J. Tibshirani, (参考訳) 現代の機械学習における一般的な実践は、観測数に対して多数のパラメータを適合させることである。 これらの過度パラメータ化モデルは、モデルパラメータの生数に対してプロットされた場合の予測誤差曲線において、驚くべき一般化挙動を示すことがある。 本稿では、まず、古典統計学における自由度の概念を再解釈し、拡張することにより、第一原理からモデル複雑性を再考する。 古典的定義は固定X予測誤差(トレーニング中と同じ平均で非ランダムな共変点を平均化することによって予測誤差が定義される)に結び付けられているのに対し、我々の自由度の拡張はランダムX予測誤差(共変点分布からの新しいランダムサンプルに対して予測誤差が平均化される)に結びついている。 ランダムX設定は、トレーニングデータを補間するのに十分な複雑なモデルでさえ、適切な条件下での望ましい一般化性能をもたらす、現代の機械学習問題をより自然に具現化している。 本稿では,概念的議論,理論,実験の混合を通じて提案した複雑性尺度の有用性を実証し,任意の予測モデルを解釈・比較する方法について述べる。

Common practice in modern machine learning involves fitting a large number of parameters relative to the number of observations. These overparameterized models can exhibit surprising generalization behavior, e.g., ``double descent'' in the prediction error curve when plotted against the raw number of model parameters, or another simplistic notion of complexity. In this paper, we revisit model complexity from first principles, by first reinterpreting and then extending the classical statistical concept of (effective) degrees of freedom. Whereas the classical definition is connected to fixed-X prediction error (in which prediction error is defined by averaging over the same, nonrandom covariate points as those used during training), our extension of degrees of freedom is connected to random-X prediction error (in which prediction error is averaged over a new, random sample from the covariate distribution). The random-X setting more naturally embodies modern machine learning problems, where highly complex models, even those complex enough to interpolate the training data, can still lead to desirable generalization performance under appropriate conditions. We demonstrate the utility of our proposed complexity measures through a mix of conceptual arguments, theory, and experiments, and illustrate how they can be used to interpret and compare arbitrary prediction models.
翻訳日:2024-11-04 22:09:02 公開日:2024-10-02
# OCC-MLLM:Occluded Objects理解のためのマルチモーダル大言語モデルの構築

OCC-MLLM:Empowering Multimodal Large Language Model For the Understanding of Occluded Objects ( http://arxiv.org/abs/2410.01261v1 )

ライセンス: Link先を確認
Wenmo Qiu, Xinhan Di, (参考訳) 既存の大規模視覚言語マルチモーダルモデルでは、隠蔽対象の理解にギャップがある。 現在の最先端マルチモーダルモデルは、普遍的なビジュアルエンコーダを通して視覚言語マルチモーダルモデルのための隠蔽オブジェクトを記述するのに十分な結果を与えられなかった。 もう1つの課題は、多数の隠蔽されたオブジェクトを持つ画像とテキストのペアを含むデータセットの限られた数である。 そこで我々は,新たに設計されたビジュアルエンコーダを用いて,RGB画像の隠蔽対象を理解する新しいマルチモーダルモデルを提案する。 また、大規模視覚言語ペアデータセットを導入し、大規模視覚言語マルチモーダルモデルを訓練し、隠蔽対象を理解する。 私たちは、最先端のモデルと比較し、実験を始めます。

There is a gap in the understanding of occluded objects in existing large-scale visual language multi-modal models. Current state-of-the-art multimodal models fail to provide satisfactory results in describing occluded objects for visual-language multimodal models through universal visual encoders. Another challenge is the limited number of datasets containing image-text pairs with a large number of occluded objects. Therefore, we introduce a novel multimodal model that applies a newly designed visual encoder to understand occluded objects in RGB images. We also introduce a large-scale visual-language pair dataset for training large-scale visual-language multimodal models and understanding occluded objects. We start our experiments comparing with the state-of-the-art models.
翻訳日:2024-11-04 22:09:02 公開日:2024-10-02
# 学習表現の強化のための多次元拡散モデルの集約

Aggregation of Multi Diffusion Models for Enhancing Learned Representations ( http://arxiv.org/abs/2410.01262v1 )

ライセンス: Link先を確認
Conghan Yue, Zhengwei Peng, Shiyan Du, Zhi Ji, Dongyu Zhang, (参考訳) 拡散モデルは画像生成において顕著に成功し、特に分類器なし誘導条件拡散モデルの様々な応用で成功している。 多くの拡散モデルは、スタイル、キャラクタ、インタラクションの特定の側面を制御するときによく機能するが、データセットの制限や複雑なモデルアーキテクチャ設計のために細かい制御に苦労する。 本稿では、複数の拡散モデルから特定のモデルに特徴を合成し、その学習表現を拡張して、細かい制御のために特定の特徴を活性化する新しいアルゴリズム、AMDM(Aggregation of Multi Diffusion Models)を提案する。 AMDMは球面アグリゲーションと多様体最適化という2つの重要な要素から構成される。 球面アグリゲーションは、最小の多様体偏差を持つ異なる拡散モデルから中間変数をマージする一方、多様体最適化は、これらの変数を中間データ多様体と整合させ、サンプリング品質を向上する。 実験の結果,AMDMはトレーニングや推論時間を増やすことなく微粒化制御を著しく改善し,その効果が証明された。 さらに、拡散モデルは最初は位置、属性、スタイルなどの機能に重点を置いており、後段では生成品質と一貫性を改善している。 AMDMは、拡散モデルにおけるきめ細かい条件制御生成の課題に対処するための新しい視点を提供する: 特定の側面を制御したり、新しいものを開発したり、AMDMアルゴリズムを使ってそれらを集約する既存の条件拡散モデルを完全に活用することができる。 これにより、複雑なデータセットの構築、複雑なモデルアーキテクチャの設計、高いトレーニングコストが不要になる。 コードは、https://github.com/Hammour-steak/AMDMで入手できる。

Diffusion models have achieved remarkable success in image generation, particularly with the various applications of classifier-free guidance conditional diffusion models. While many diffusion models perform well when controlling for particular aspect among style, character, and interaction, they struggle with fine-grained control due to dataset limitations and intricate model architecture design. This paper introduces a novel algorithm, Aggregation of Multi Diffusion Models (AMDM), which synthesizes features from multiple diffusion models into a specified model, enhancing its learned representations to activate specific features for fine-grained control. AMDM consists of two key components: spherical aggregation and manifold optimization. Spherical aggregation merges intermediate variables from different diffusion models with minimal manifold deviation, while manifold optimization refines these variables to align with the intermediate data manifold, enhancing sampling quality. Experimental results demonstrate that AMDM significantly improves fine-grained control without additional training or inference time, proving its effectiveness. Additionally, it reveals that diffusion models initially focus on features such as position, attributes, and style, with later stages improving generation quality and consistency. AMDM offers a new perspective for tackling the challenges of fine-grained conditional control generation in diffusion models: We can fully utilize existing conditional diffusion models that control specific aspects, or develop new ones, and then aggregate them using the AMDM algorithm. This eliminates the need for constructing complex datasets, designing intricate model architectures, and incurring high training costs. Code is available at: https://github.com/Hammour-steak/AMDM
翻訳日:2024-11-04 22:09:02 公開日:2024-10-02
# 外部分布データを用いたバックドアビジョンランゲージモデル

Backdooring Vision-Language Models with Out-Of-Distribution Data ( http://arxiv.org/abs/2410.01264v1 )

ライセンス: Link先を確認
Weimin Lyu, Jiachen Yao, Saumya Gupta, Lu Pang, Tao Sun, Lingjie Yi, Lijie Hu, Haibin Ling, Chao Chen, (参考訳) VLM(Vision-Language Models)の出現は、コンピュータビジョンとLLM(Large Language Models)の統合において、視覚入力から詳細なテキスト記述を生成する大きな進歩を示している。 重要性は増しているが、特にバックドア攻撃に対するVLMの安全性は検討中である。 さらに、以前の作業では、攻撃者が元のトレーニングデータにアクセスできると仮定することが多いが、これは現実的ではないことが多い。 本稿では,攻撃者がOF-Distribution(OOD)データのみに頼らなければならない,より実践的で困難なシナリオに対処する。 VLOOD(Backdooring Vision-Language Models with Out-of-Distriion Data)は,(1)複雑な画像・テキストタスクにおけるVLMに対するバックドア攻撃の実証と,(2)オリジナルのトレーニングデータへのアクセスを必要とせずにバックドアインジェクションの革新的な技術を提案する。 画像キャプションと視覚的質問応答(VQA)タスクの評価は、VLOODの有効性を確認し、VLMの重大なセキュリティ脆弱性を明らかにし、高度な脅威に対してマルチモーダルモデルを保護するための基礎を築いた。

The emergence of Vision-Language Models (VLMs) represents a significant advancement in integrating computer vision with Large Language Models (LLMs) to generate detailed text descriptions from visual inputs. Despite their growing importance, the security of VLMs, particularly against backdoor attacks, is under explored. Moreover, prior works often assume attackers have access to the original training data, which is often unrealistic. In this paper, we address a more practical and challenging scenario where attackers must rely solely on Out-Of-Distribution (OOD) data. We introduce VLOOD (Backdooring Vision-Language Models with Out-of-Distribution Data), a novel approach with two key contributions: (1) demonstrating backdoor attacks on VLMs in complex image-to-text tasks while minimizing degradation of the original semantics under poisoned inputs, and (2) proposing innovative techniques for backdoor injection without requiring any access to the original training data. Our evaluation on image captioning and visual question answering (VQA) tasks confirms the effectiveness of VLOOD, revealing a critical security vulnerability in VLMs and laying the foundation for future research on securing multimodal models against sophisticated threats.
翻訳日:2024-11-04 22:09:02 公開日:2024-10-02
# 変圧器はインテクスト線形回帰における不均一性を扱う

Transformers Handle Endogeneity in In-Context Linear Regression ( http://arxiv.org/abs/2410.01265v1 )

ライセンス: Link先を確認
Haodong Liang, Krishnakumar Balasubramanian, Lifeng Lai, (参考訳) インコンテキスト線形回帰における変換器の内在性に対処する能力について検討する。 我々の主な発見は、インストゥルメンタル変数(IV)を用いて内在性を効果的に扱うメカニズムをトランスフォーマーが本質的に持っていることである。 まず、変圧器アーキテクチャは、広く使われている2段最小二乗法$(\textsf{2SLS})$解に指数率で収束する勾配に基づく二段階最適化手順をエミュレートできることを実証する。 次に、文脈内事前学習方式を提案し、事前学習損失のグローバル最小化が少ない余剰損失を達成することを示す理論的保証を提供する。 筆者らはこれらの理論的な知見を検証し,内在性の存在下での$\textsf{2SLS}$法よりも頑健で信頼性の高い文脈内予測と係数推定を提供することを示した。

We explore the capability of transformers to address endogeneity in in-context linear regression. Our main finding is that transformers inherently possess a mechanism to handle endogeneity effectively using instrumental variables (IV). First, we demonstrate that the transformer architecture can emulate a gradient-based bi-level optimization procedure that converges to the widely used two-stage least squares $(\textsf{2SLS})$ solution at an exponential rate. Next, we propose an in-context pretraining scheme and provide theoretical guarantees showing that the global minimizer of the pre-training loss achieves a small excess loss. Our extensive experiments validate these theoretical findings, showing that the trained transformer provides more robust and reliable in-context predictions and coefficient estimates than the $\textsf{2SLS}$ method, in the presence of endogeneity.
翻訳日:2024-11-04 22:09:02 公開日:2024-10-02
# ディープラーニングと機械学習、ビッグデータ分析と管理の強化 - ツール、テクニック、アプリケーションを通じてAIの可能性を明らかにする

Deep Learning and Machine Learning, Advancing Big Data Analytics and Management: Unveiling AI's Potential Through Tools, Techniques, and Applications ( http://arxiv.org/abs/2410.01268v1 )

ライセンス: Link先を確認
Pohsun Feng, Ziqian Bi, Yizhu Wen, Xuanhe Pan, Benji Peng, Ming Liu, Jiawei Xu, Keyu Chen, Junyu Liu, Caitlyn Heqi Yin, Sen Zhang, Jinlang Wang, Qian Niu, Ming Li, Tianyang Wang, (参考訳) この本は、ビッグデータ分析における彼らの応用に焦点を当てた、ディープラーニングと機械学習の紹介として機能する。 基本的な概念、ChatGPTやClaudeといったツール、ハードウェアレコメンデーション、PyTorchやTensorFlowといったライブラリを使った開発環境のセットアップに関する実践的なガイダンスなどだ。 初心者や高度なユーザ向けに設計されたもので、ステップバイステップの指示、ハンズオンプロジェクト、AutoMLやエッジコンピューティングを含むAIの将来に関する洞察を提供する。

This book serves as an introduction to deep learning and machine learning, focusing on their applications in big data analytics. It covers essential concepts, tools like ChatGPT and Claude, hardware recommendations, and practical guidance on setting up development environments using libraries like PyTorch and TensorFlow. Designed for beginners and advanced users alike, it provides step-by-step instructions, hands-on projects, and insights into AI's future, including AutoML and edge computing.
翻訳日:2024-11-04 22:09:02 公開日:2024-10-02
# Panopticus:資源制約エッジデバイスを用いた全方位3次元物体検出

Panopticus: Omnidirectional 3D Object Detection on Resource-constrained Edge Devices ( http://arxiv.org/abs/2410.01270v1 )

ライセンス: Link先を確認
Jeho Lee, Chanyoung Jung, Jiwon Kim, Hojung Cha, (参考訳) 全方位ビューによる3Dオブジェクト検出は、移動ロボットナビゲーションのような安全クリティカルなアプリケーションを可能にする。 このようなアプリケーションは、リソース制約のあるエッジデバイスでますます動作し、プライバシの懸念やネットワーク遅延のない信頼性の高い処理を容易にする。 低コストの展開を可能にするため、カメラはLiDARセンサーの安価な代替品として広く採用されている。 しかし、エッジデバイスの計算能力の限界のため、カメラベースのソリューションの高性能を実現するための計算集約的な作業負荷は依然として困難である。 本稿では,エッジデバイス上での全方位およびカメラによる3D検出システムであるPanopticusを提案する。 Panopticusでは、空間的複雑さを考慮に入れた適応型マルチブランチ検出方式を採用している。 レイテンシ制限内での精度を最適化するために、Panopticusは利用可能なエッジリソースと空間特性に基づいてモデルのアーキテクチャと操作を動的に調整する。 3つのエッジデバイスにPanopticusを実装し、パブリックな自動運転データセットとモバイルの360{\deg}カメラデータセットに基づいて、実環境にわたって実験を行った。 実験の結果,33msの厳密な遅延目標から,Panopticusの精度は平均62%向上した。 また、Panopticusはベースラインと比較して平均2.1{\times}レイテンシの削減を実現している。

3D object detection with omnidirectional views enables safety-critical applications such as mobile robot navigation. Such applications increasingly operate on resource-constrained edge devices, facilitating reliable processing without privacy concerns or network delays. To enable cost-effective deployment, cameras have been widely adopted as a low-cost alternative to LiDAR sensors. However, the compute-intensive workload to achieve high performance of camera-based solutions remains challenging due to the computational limitations of edge devices. In this paper, we present Panopticus, a carefully designed system for omnidirectional and camera-based 3D detection on edge devices. Panopticus employs an adaptive multi-branch detection scheme that accounts for spatial complexities. To optimize the accuracy within latency limits, Panopticus dynamically adjusts the model's architecture and operations based on available edge resources and spatial characteristics. We implemented Panopticus on three edge devices and conducted experiments across real-world environments based on the public self-driving dataset and our mobile 360{\deg} camera dataset. Experiment results showed that Panopticus improves accuracy by 62% on average given the strict latency objective of 33ms. Also, Panopticus achieves a 2.1{\times} latency reduction on average compared to baselines.
翻訳日:2024-11-04 22:09:02 公開日:2024-10-02
# グラフニューラルネットワークにおけるバックドアアタックの軽減

"No Matter What You Do!": Mitigating Backdoor Attacks in Graph Neural Networks ( http://arxiv.org/abs/2410.01272v1 )

ライセンス: Link先を確認
Jiale Zhang, Chengcheng Zhu, Bosen Rao, Hao Sui, Xiaobing Sun, Bing Chen, Chunyi Zhou, Shouling Ji, (参考訳) 近年の研究では、GNNはいくつかの敵攻撃に弱いことが明らかにされており、中でもバックドア攻撃は最も難しい攻撃の一つである。 ディープニューラルネットワーク(DNN)と同様に、GNNのバックドア攻撃は、攻撃者がトリガーを埋め込んでグラフデータの一部を修正し、モデルトレーニングプロセス中にトリガー機能を学ぶためにモデルを強制するという事実にある。 DNNのバックドア防衛の大規模な作業にもかかわらず、GNNのバックドア攻撃に対する防御はほとんど未調査であり、現実世界のタスクにおけるGNNの広範な適用を著しく妨げている。 このギャップを埋めるために、GNNにおける最初のバックドア緩和法であるGCleanerを提案する。 GCleanerは、バックドア学習手順を逆転することで、バックドアロジックの存在を軽減し、元のクリーンデータセットで直接トレーニングされたようなレベルにモデルパフォーマンスを回復することを目指している。 この目的を達成するために,我々は,GNNにおける普遍的かつハードなバックドアトリガの回復方法について尋ねる。 モデルパフォーマンスを維持しながら、バックドアトリガー機能を開放する方法? 解析手法を用いてグラフトリガの復元を行い、最適トリガ位置を同定し、最大類似性を通してバックドアモデルの特徴空間における普遍的かつハードなトリガの探索を容易にする。 次に, 知識蒸留と勾配に基づく説明可能な知識を組み合わせて, きめ細かいバックドア消去を行うバックドア・アンラーニング機構を提案する。 4つのベンチマークデータセットに対する大規模な実験的評価により、GCleanerは、クリーンデータのわずか1%でバックドア攻撃の成功率を10%に減らし、ほぼ無視可能なモデル性能の低下を示し、最先端(SOTA)防御手法よりもはるかに優れている。

Recent studies have exposed that GNNs are vulnerable to several adversarial attacks, among which backdoor attack is one of the toughest. Similar to Deep Neural Networks (DNNs), backdoor attacks in GNNs lie in the fact that the attacker modifies a portion of graph data by embedding triggers and enforces the model to learn the trigger feature during the model training process. Despite the massive prior backdoor defense works on DNNs, defending against backdoor attacks in GNNs is largely unexplored, severely hindering the widespread application of GNNs in real-world tasks. To bridge this gap, we present GCleaner, the first backdoor mitigation method on GNNs. GCleaner can mitigate the presence of the backdoor logic within backdoored GNNs by reversing the backdoor learning procedure, aiming to restore the model performance to a level similar to that is directly trained on the original clean dataset. To achieve this objective, we ask: How to recover universal and hard backdoor triggers in GNNs? How to unlearn the backdoor trigger feature while maintaining the model performance? We conduct the graph trigger recovery via the explanation method to identify optimal trigger locations, facilitating the search of universal and hard backdoor triggers in the feature space of the backdoored model through maximal similarity. Subsequently, we introduce the backdoor unlearning mechanism, which combines knowledge distillation and gradient-based explainable knowledge for fine-grained backdoor erasure. Extensive experimental evaluations on four benchmark datasets demonstrate that GCleaner can reduce the backdoor attack success rate to 10% with only 1% of clean data, and has almost negligible degradation in model performance, which far outperforms the state-of-the-art (SOTA) defense methods.
翻訳日:2024-11-04 22:09:02 公開日:2024-10-02
# CANVAS:直感的人間-ロボットインタラクションのための常識認識ナビゲーションシステム

CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction ( http://arxiv.org/abs/2410.01273v1 )

ライセンス: Link先を確認
Suhwan Choi, Yongjun Cho, Minchan Kim, Jaeyoon Jung, Myunchul Joe, Yubeen Park, Minseo Kim, Sungwoong Kim, Sungjae Lee, Hwiseong Park, Jiwan Chung, Youngjae Yu, (参考訳) 現実のロボットナビゲーションは目的地に到達するだけでなく、シナリオ固有の目標に対処しながら動きを最適化する必要がある。 人間がこれらの目標を表現する直感的な方法は、言葉の命令や粗いスケッチのような抽象的な方法を通じて行われる。 このような人的指導は詳細を欠いたりうるし、うるさい。 それでも私たちは、ロボットが意図した通りにナビゲートされることを期待しています。 ロボットが人間の期待に沿う抽象的な指示を解釈し実行するためには、基本的なナビゲーション概念を人間と共通に理解する必要がある。 そこで我々は,コモンセンス認識ナビゲーションのための視覚的および言語的指示を組み合わせた新しいフレームワークであるCANVASを紹介する。 その成功は模倣学習によって引き起こされ、ロボットは人間のナビゲーション行動から学ぶことができる。 シミュレーション環境でのコモンセンス対応ナビゲーションシステムのトレーニングを目的として,48時間から219kmに及ぶ人為的なナビゲーション結果を備えた総合データセットCOMMANDを提案する。 実験の結果,CANVASはすべての環境において強力なルールベースシステムであるROS NavStackよりも優れており,ノイズの多い命令で優れた性能を示すことがわかった。 特に、ROS NavStackが0%の総成功率を記録した果樹園環境では、CANVASは67%の総成功率を達成する。 CANVASは、目に見えない環境であっても、人間のデモンストレーションや常識的な制約と密接に一致している。 さらに、CANVASの実際の展開では、印象的なSim2Real転送が69%の成功率で、実世界のアプリケーションのシミュレーション環境における人間のデモから学ぶ可能性を示している。

Real-life robot navigation involves more than just reaching a destination; it requires optimizing movements while addressing scenario-specific goals. An intuitive way for humans to express these goals is through abstract cues like verbal commands or rough sketches. Such human guidance may lack details or be noisy. Nonetheless, we expect robots to navigate as intended. For robots to interpret and execute these abstract instructions in line with human expectations, they must share a common understanding of basic navigation concepts with humans. To this end, we introduce CANVAS, a novel framework that combines visual and linguistic instructions for commonsense-aware navigation. Its success is driven by imitation learning, enabling the robot to learn from human navigation behavior. We present COMMAND, a comprehensive dataset with human-annotated navigation results, spanning over 48 hours and 219 km, designed to train commonsense-aware navigation systems in simulated environments. Our experiments show that CANVAS outperforms the strong rule-based system ROS NavStack across all environments, demonstrating superior performance with noisy instructions. Notably, in the orchard environment, where ROS NavStack records a 0% total success rate, CANVAS achieves a total success rate of 67%. CANVAS also closely aligns with human demonstrations and commonsense constraints, even in unseen environments. Furthermore, real-world deployment of CANVAS showcases impressive Sim2Real transfer with a total success rate of 69%, highlighting the potential of learning from human demonstrations in simulated environments for real-world applications.
翻訳日:2024-11-04 22:09:02 公開日:2024-10-02
# 量子・古典通信用シリカ光ファイバーのブラックボディノイズ測定

Measuring Blackbody Noise in Silica Optical Fibres for Quantum and Classical Communication ( http://arxiv.org/abs/2410.01274v1 )

ライセンス: Link先を確認
Michael Hencz, Mark Baker, Erik W. Streed, (参考訳) 単一光子レベル近くで動作する実用的な量子ネットワークの展開には、ノイズ処理を慎重に定量化する必要がある。 室内温度付近のシリカ単一モード光ファイバーの誘導モードに放射される黒体放射によるノイズについて検討した。 シリカ繊維の光学的に厚い限界に近い40{\deg}Cで、単光子アバランシェ検出器とロックイン検出を使用して、$\approx$0.1 photons/s/THz(\approx$-170dBm/THz)を測定する。 また、粗いスペクトルを測定し、ブラックボディの挙動を検証し、1430nm CWDMチャネルの周囲で顕著な異常を観測した。 このノイズの大きさは小さいが、量子通信における生の忠実度に基本的な限界を課す付加ノイズであり、光ファイバー上の古典的な通信における基本ノイズフロアである。

Deployment of practical quantum networks, which operate at or near single photon levels, requires carefully quantifying noise processes. We investigate noise due to blackbody radiation emitted into the guided mode of silica single mode optical fibres near room temperature, which to date is under-explored in the literature. We utilise a single photon avalanche detector and lock in detection to measure $\approx$0.1 photons/s/THz ($\approx$-170dBm/THz) at 40{\deg}C near the optically thick limit of 20km in silica fibre. We also measure a coarse spectrum to validate the blackbody behaviour, and observe a prominent anomaly around the 1430nm CWDM channel, likely due to -OH impurities. Though the magnitude of this noise is small, it is additive noise which imposes a fundamental limit in raw fidelity in quantum communication, and a fundamental noise floor in classical communication over optical fibres.
翻訳日:2024-11-04 22:09:02 公開日:2024-10-02
# Deep Unlearn: ベンチマークマシンのアンラーニング

Deep Unlearn: Benchmarking Machine Unlearning ( http://arxiv.org/abs/2410.01276v1 )

ライセンス: Link先を確認
Xavier F. Cadet, Anastasia Borovykh, Mohammad Malekzadeh, Sara Ahmadi-Abhari, Hamed Haddadi, (参考訳) 機械学習(MU)は、訓練された機械学習モデルの学習可能なパラメータから、特定のデータポイントの影響を取り除くことを目的としている。 これは、データプライバシ要件、信頼性、デプロイされたモデルの安全性を考慮して、重要な機能である。 MUは、畳み込みネットやビジョントランスフォーマーのようなディープニューラルネットワーク(DNN)では特に難しい。 にもかかわらず、コミュニティはDNNのためのMUメソッドの成功を探求する厳格で多面的な研究を欠いている。 本稿では,ベンチマークデータセットとモデルを用いた18の最先端MU手法について検討し,それぞれ10種類の初期化を行い,MUを100K以上のモデルで包括的に評価する。 適切なハイパーパラメータでは、Masked Small Gradients (MSG) とConvolution Transpose (CT) が、モデル精度やデータセット、初期化における実行時の効率の点で一貫して優れており、人口ベースメンバーシップ推論攻撃 (MIA) とサンプルごとの未学習確率比攻撃 (U-LiRA) によって評価されている。 さらに、我々のベンチマークでは、MU法をグラディエント・アセント (GA) や逐次ランダム・リラベル (SRL) のような一般的なベースラインのみと比較するのが不十分であり、負のグラディエント・プラス (NG+) のようなより良いベースラインと適切なハイパーパラメータ選択が必要であるという事実を強調した。

Machine unlearning (MU) aims to remove the influence of particular data points from the learnable parameters of a trained machine learning model. This is a crucial capability in light of data privacy requirements, trustworthiness, and safety in deployed models. MU is particularly challenging for deep neural networks (DNNs), such as convolutional nets or vision transformers, as such DNNs tend to memorize a notable portion of their training dataset. Nevertheless, the community lacks a rigorous and multifaceted study that looks into the success of MU methods for DNNs. In this paper, we investigate 18 state-of-the-art MU methods across various benchmark datasets and models, with each evaluation conducted over 10 different initializations, a comprehensive evaluation involving MU over 100K models. We show that, with the proper hyperparameters, Masked Small Gradients (MSG) and Convolution Transpose (CT), consistently perform better in terms of model accuracy and run-time efficiency across different models, datasets, and initializations, assessed by population-based membership inference attacks (MIA) and per-sample unlearning likelihood ratio attacks (U-LiRA). Furthermore, our benchmark highlights the fact that comparing a MU method only with commonly used baselines, such as Gradient Ascent (GA) or Successive Random Relabeling (SRL), is inadequate, and we need better baselines like Negative Gradient Plus (NG+) with proper hyperparameter selection.
翻訳日:2024-11-04 22:09:02 公開日:2024-10-02
# エレガンス・ファクト・科学的真理

Elegance, Facts, and Scientific Truths ( http://arxiv.org/abs/2410.01279v1 )

ライセンス: Link先を確認
Nicolas Gisin, (参考訳) 科学的決定論は事実によって支持されないが、数学的言語物理学者が用いているエレガンス、特にいわゆる実数とその無限の桁列から得られる結果である。 したがって古典物理学は決定論的あるいは非決定論的に解釈できる。 しかし、量子物理学を用いて、いくつかの実験は自然が新しい情報を連続的に生成できることを証明し、したがって物理学の非決定性を支持する。

I argue that scientific determinism is not supported by facts, but results from the elegance of the mathematical language physicists use, in particular from the so-called real numbers and their infinite series of digits. Classical physics can thus be interpreted in a deterministic or indeterministic way. However, using quantum physics, some experiments prove that nature is able to continually produce new information, hence support indeterminism in physics.
翻訳日:2024-11-04 22:09:02 公開日:2024-10-02
# スパースオートエンコーダによる大規模言語モデルにおける時間差学習の検討

Sparse Autoencoders Reveal Temporal Difference Learning in Large Language Models ( http://arxiv.org/abs/2410.01280v1 )

ライセンス: Link先を確認
Can Demircan, Tankred Saanum, Akshay K. Jagadish, Marcel Binz, Eric Schulz, (参考訳) インコンテキスト学習(In-context learning)は、入力プロンプトのいくつかの例に基づいて適応する能力であり、大きな言語モデル(LLM)のユビキタスな特徴である。 しかし、LLMの文脈内学習能力は向上し続けており、この現象を機械的に理解することがますます重要になっている。 特に、LLMが強化学習(RL)問題などの特定の問題のクラスを、文脈内でどのように学習するかはよく理解されていない。 3つの異なるタスクを通して、Llamaが$70$Bの簡単なRL問題をコンテキスト内で解決できることを最初に示します。 次に、スパースオートエンコーダ(SAE)を用いてLlamaの残差ストリームを分析し、時間差(TD)誤差によく一致する表現を求める。 特に、モデルが次のトークンを予測するためにのみ訓練されているにもかかわらず、これらの表現が現れる。 これらの表現が、慎重に設計された介入を行うことで、TDエラーや$Q$値の計算に慎重に関与していることを検証する。 我々の研究は、SAEを用いて文脈内学習を研究・操作するための方法論を確立し、より機械的な理解の道を開く。

In-context learning, the ability to adapt based on a few examples in the input prompt, is a ubiquitous feature of large language models (LLMs). However, as LLMs' in-context learning abilities continue to improve, understanding this phenomenon mechanistically becomes increasingly important. In particular, it is not well-understood how LLMs learn to solve specific classes of problems, such as reinforcement learning (RL) problems, in-context. Through three different tasks, we first show that Llama $3$ $70$B can solve simple RL problems in-context. We then analyze the residual stream of Llama using Sparse Autoencoders (SAEs) and find representations that closely match temporal difference (TD) errors. Notably, these representations emerge despite the model only being trained to predict the next token. We verify that these representations are indeed causally involved in the computation of TD errors and $Q$-values by performing carefully designed interventions on them. Taken together, our work establishes a methodology for studying and manipulating in-context learning with SAEs, paving the way for a more mechanistic understanding.
翻訳日:2024-11-04 22:09:02 公開日:2024-10-02
# 不確実性を考慮したヒューマンモビリティモデリングと異常検出

Uncertainty-aware Human Mobility Modeling and Anomaly Detection ( http://arxiv.org/abs/2410.01281v1 )

ライセンス: Link先を確認
Haomin Wen, Shurui Cao, Leman Akoglu, (参考訳) 時間とともに大量の人間のエージェントのGPS座標を考えると、ラベル付きデータを使わずに、効果的な異常検出(悪者や悪意のある行動検出など)に向けて、その移動行動をどのようにモデル化できるか? 人間のモビリティと軌道モデリングは、複雑な入力を扱うための様々な能力と、性能と効率のトレードオフで広く研究されている。 機械学習において、より表現力のあるモデルが登場し、GPSデータを、時空間の特徴を特徴付ける一連のイベントとしてモデル化し、トランスフォーマーのような近代的なシーケンスモデルを、教師なしトレーニングや推論に活用しようと試みる。 特に、特定の個人の行動に固有の確率性によって駆動されるので、アレータリック/データ不確実性推定をモデルに当てはめます。 さらに,多種多様な行動のデータの分散性を扱うために,疫学・モデルの不確かさをモデルに組み込む。 ともに、失語症とてんかんの不確実性は、異常スコアにおける不確実性を考慮した決定と同様に、堅牢な損失とトレーニングのダイナミクスを可能にする。 数万のエージェントによる大規模専門家シミュレーションデータセットの実験は、予測ベースラインと異常検出ベースラインの両方に対して、我々のモデルの有効性を実証している。

Given the GPS coordinates of a large collection of human agents over time, how can we model their mobility behavior toward effective anomaly detection (e.g. for bad-actor or malicious behavior detection) without any labeled data? Human mobility and trajectory modeling have been studied extensively with varying capacity to handle complex input, and performance-efficiency trade-offs. With the arrival of more expressive models in machine learning, we attempt to model GPS data as a sequence of stay-point events, each with a set of characterizing spatiotemporal features, and leverage modern sequence models such as Transformers for un/self-supervised training and inference. Notably, driven by the inherent stochasticity of certain individuals' behavior, we equip our model with aleatoric/data uncertainty estimation. In addition, to handle data sparsity of a large variety of behaviors, we incorporate epistemic/model uncertainty into our model. Together, aleatoric and epistemic uncertainty enable a robust loss and training dynamics, as well as uncertainty-aware decision making in anomaly scoring. Experiments on large expert-simulated datasets with tens of thousands of agents demonstrate the effectiveness of our model against both forecasting and anomaly detection baselines.
翻訳日:2024-11-04 22:09:02 公開日:2024-10-02
# 無限変数事前重み付きディープカーネル後部学習

Deep Kernel Posterior Learning under Infinite Variance Prior Weights ( http://arxiv.org/abs/2410.01284v1 )

ライセンス: Link先を確認
Jorge Loría, Anindya Bhadra, (参考訳) Neal (1996) は、ネットワーク重みが事前の分散に束縛されたとき、無限に浅いベイズニューラルネットワーク (BNN) がガウス過程 (GP) に収束することを証明した。 Cho & Saul (2009) は、各層の共分散カーネルを直下の層に関連付けるために、ディープカーネルプロセスに有用な再帰公式を提供した。 さらに、複数の共通活性化関数に対して、レイヤワイズ共分散カーネルの形式を明示的に研究した。 Aitchison et al (2021) を含む最近の研究は、この方法で得られた共分散カーネルは決定論的であり、したがって表現学習の可能性を妨げている。 これを解決するために、彼らは確率性を維持するためにカーネルに人工ノイズを追加し、深層カーネル逆ウィッシュアートプロセスを開発することを提案した。 それでも、この人工ノイズ注入は、無限幅の制限の下で古典的なBNNアーキテクチャで自然に現れるものではないと批判される可能性がある。 これを解決するために、各層幅が無限大に近づき、全てのネットワーク重みが無限分散で楕円的に分布するベイズディープニューラルネットワークが、条件付きガウス表現を持つ各層に$$\alpha$stable境界を持つプロセスに収束することを示す。 これらの条件付きランダムな共分散核は Cho & Saul (2009) のやり方で再帰的にリンクできるが、その過程は比較的安定な振る舞いを示し、従って共分散は必ずしも定義されない。 また, 浅層ネットワーク上でのLor\'ia & Bhadra (2024) の最近の結果を多層ネットワークに一般化し, その計算負担を軽減した。 競合するアプローチに対する計算的および統計的利点は、シミュレーションやベンチマークデータセットでの実証において際立っている。

Neal (1996) proved that infinitely wide shallow Bayesian neural networks (BNN) converge to Gaussian processes (GP), when the network weights have bounded prior variance. Cho & Saul (2009) provided a useful recursive formula for deep kernel processes for relating the covariance kernel of each layer to the layer immediately below. Moreover, they worked out the form of the layer-wise covariance kernel in an explicit manner for several common activation functions. Recent works, including Aitchison et al. (2021), have highlighted that the covariance kernels obtained in this manner are deterministic and hence, precludes any possibility of representation learning, which amounts to learning a non-degenerate posterior of a random kernel given the data. To address this, they propose adding artificial noise to the kernel to retain stochasticity, and develop deep kernel inverse Wishart processes. Nonetheless, this artificial noise injection could be critiqued in that it would not naturally emerge in a classic BNN architecture under an infinite-width limit. To address this, we show that a Bayesian deep neural network, where each layer width approaches infinity, and all network weights are elliptically distributed with infinite variance, converges to a process with $\alpha$-stable marginals in each layer that has a conditionally Gaussian representation. These conditional random covariance kernels could be recursively linked in the manner of Cho & Saul (2009), even though marginally the process exhibits stable behavior, and hence covariances are not even necessarily defined. We also provide useful generalizations of the recent results of Lor\'ia & Bhadra (2024) on shallow networks to multi-layer networks, and remedy the computational burden of their approach. The computational and statistical benefits over competing approaches stand out in simulations and in demonstrations on benchmark data sets.
翻訳日:2024-11-04 22:09:02 公開日:2024-10-02
# 誤りを考慮した大規模言語モデルの学習データ属性向上

Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration ( http://arxiv.org/abs/2410.01285v1 )

ライセンス: Link先を確認
Kangxi Wu, Liang Pang, Huawei Shen, Xueqi Cheng, (参考訳) 大規模言語モデル(LLM)のブラックボックスの性質は、結果の解釈において問題を引き起こし、データ知的財産保護や幻覚追跡といった問題に影響を及ぼす。 トレーニングデータ属性(TDA)手法は,これらの課題に対処するための効果的な解決策と考えられる。 最近のTDA法は、モデルが経験的リスクを最小限に抑えると仮定して、影響関数に依存している。 しかし、この基準を達成することは困難であり、モデルのトレーニング中にエラーを適合させることで、ソーシング精度を損なうことができる。 本稿では,Debias and Denoise Attribution (DDA)と呼ばれる新しいTDA手法を提案する。 具体的には、デバイアス戦略は、微調整前のベースモデルに存在する知識バイアスを排除し、インフルエンス関数の性能を向上させることを目的としており、一方、デノイズ戦略は、スムーズ化技術により、トレーニング過程におけるフィッティングの様々な度合いから生じるインフルエンススコアの相違を低減することを目的としている。 実験の結果,提案手法は既存の手法よりも優れており,平均91.64%のAUCを実現していることがわかった。 さらに、DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。

The black-box nature of large language models (LLMs) poses challenges in interpreting results, impacting issues such as data intellectual property protection and hallucination tracing. Training data attribution (TDA) methods are considered effective solutions to address these challenges. Most recent TDA methods rely on influence functions, assuming the model achieves minimized empirical risk. However, achieving this criterion is difficult, and sourcing accuracy can be compromised by fitting errors during model training. In this paper, we introduce a novel TDA method called Debias and Denoise Attribution (DDA), which enhances influence functions by addressing fitting errors. Specifically, the debias strategy seeks to improve the performance of influence functions by eliminating the knowledge bias present in the base model before fine-tuning, while the denoise strategy aims to reduce discrepancies in influence scores arising from varying degrees of fitting during the training process through smoothing techniques. Experimental results demonstrate that our method significantly outperforms existing approaches, achieving an averaged AUC of 91.64%. Moreover, DDA exhibits strong generality and scalability across various sources and different-scale models like LLaMA2, QWEN2, and Mistral.
翻訳日:2024-11-04 21:59:16 公開日:2024-10-02
# 古典・量子系の統計的仮想温度

Statistical Virtual Temperature of Classical and Quantum Systems ( http://arxiv.org/abs/2410.01286v1 )

ライセンス: Link先を確認
Tariq Aziz, Meng-Long Song, Liu Ye, Dong Wang, José J. Gil, Sabre Kais, (参考訳) 本稿では,Gibs Kubo-Martin-Schwinger(KMS)状態のスペクトルから導かれる統計仮想温度の基本的定義を導入し,C*-代数フレームワーク内のヒルベルト空間次元を表す純度(IP)のd-1指標を用いて定式化した。 我々は、フォン・ノイマンエントロピーと統計的仮想温度の間の普遍的な物理的境界がこれらのIPによって制約されていることを証明し、量子システムへのより広範な応用を提供するかもしれない。 さらに、任意の電磁場の古典的な光偏光状態を測地し、より高い統計的仮想温度で準備された量子系が低い温度で1よりも早く平衡に緩和する量子Mpemba効果の解釈を与える。 この挙動は、温度分解性絡み合い非対称性という新しい概念によって説明される。 さらに、これらのエントロピー-温度図を用いた熱力学の第三法則の幾何学的解釈を示す。 それでも、定義された統計的仮想温度は本質的に熱力学の第3法則を示す。 この研究は古典分極理論、量子情報理論、量子熱力学の理解を著しく前進させる可能性があり、これらの分野への新たなつながりと洞察を確立する可能性があると我々は信じている。

In this work, we introduce a foundational definition of statistical virtual temperature, derived from the spectrum of the Gibbs Kubo-Martin-Schwinger (KMS) state and formulated using d-1 indices of purity (IP), where d represents the Hilbert space dimension within the C*-algebra framework. We demonstrate that the universal physical bounds between von Neumann entropy and statistical virtual temperature are constrained by these IPs, which may offer broader applications to quantum systems. Additionally, we geometrize classical optical polarization states of an arbitrary electromagnetic field and provide an interpretation of the quantum Mpemba effect, where a quantum system prepared at a higher statistical virtual temperature relaxes to equilibrium faster than one at a lower temperature. This behavior is explained through a novel concept of temperature-resolved entanglement asymmetry. Additionally, we present a geometric interpretation of the third law of thermodynamics using these entropy-temperature diagrams. Nevertheless, the defined statistical virtual temperature inherently exhibits the third law of thermodynamics. We believe that this work has the potential to significantly advance our understanding of classical polarization theory, quantum information theory, and quantum thermodynamics, and it may establish new connections and insights into these fields.
翻訳日:2024-11-04 21:59:16 公開日:2024-10-02
# アナログフォトニックニューラルネットワークにおける非理想性:敵対的攻撃に対する防御の内蔵

The Unlikely Hero: Nonideality in Analog Photonic Neural Networks as Built-in Defender Against Adversarial Attacks ( http://arxiv.org/abs/2410.01289v1 )

ライセンス: Link先を確認
Haotian Lu, Ziang Yin, Partho Bhoumik, Sanmitra Banerjee, Krishnendu Chakrabarty, Jiaqi Gu, (参考訳) 電子フォトニクスコンピューティングシステムは、ディープニューラルネットワーク(DNN)ワークロードを加速するための有望なプラットフォームとして登場した。 ハードウェアの非理想に対処し、様々なハードウェア/アルゴリズムの共同設計手法による効率の向上に注力してきた。 しかし、このようなフォトニックアナログ混合信号AIハードウェアの対角的堅牢性は未解明のままである。 ハードウェアのバリエーションはロバストネス駆動の最適化手法で緩和できるが、ハードウェアに対する悪意のある攻撃は、光学アナログハードウェアに合わせてカスタマイズされた保護方法を必要とするノイズとは異なる振る舞いを示す。 本研究では、フォトニックアナログ加速器における従来の望ましくない非イデオロギーの役割を再考し、敵の重み付けに対する防御に対する彼らの驚くべき効果を主張する。 DNN量子化とプルーニングの保護効果にインスパイアされた光アナログハードウェアに適した相乗的防御フレームワークを提案する。 効率-信頼性トレードオフは、制約付き最適化問題として定式化され、モデル再学習コストなしで効率よくオフラインで解決される。 マルチコア・フォトニック・アクセラレーターを用いた各種DNNベンチマークの大規模評価により, 逆ビットフリップ攻撃においては, メモリオーバーヘッドが3%に過ぎず, ほぼ理想的オンチップ推定精度が維持されていることがわかった。 私たちのコードはhttps://github.com/ScopeX-ASU/Unlikely_Hero.comでオープンソース化されています。

Electronic-photonic computing systems have emerged as a promising platform for accelerating deep neural network (DNN) workloads. Major efforts have been focused on countering hardware non-idealities and boosting efficiency with various hardware/algorithm co-design methods. However, the adversarial robustness of such photonic analog mixed-signal AI hardware remains unexplored. Though the hardware variations can be mitigated with robustness-driven optimization methods, malicious attacks on the hardware show distinct behaviors from noises, which requires a customized protection method tailored to optical analog hardware. In this work, we rethink the role of conventionally undesired non-idealities in photonic analog accelerators and claim their surprising effects on defending against adversarial weight attacks. Inspired by the protection effects from DNN quantization and pruning, we propose a synergistic defense framework tailored for optical analog hardware that proactively protects sensitive weights via pre-attack unary weight encoding and post-attack vulnerability-aware weight locking. Efficiency-reliability trade-offs are formulated as constrained optimization problems and efficiently solved offline without model re-training costs. Extensive evaluation of various DNN benchmarks with a multi-core photonic accelerator shows that our framework maintains near-ideal on-chip inference accuracy under adversarial bit-flip attacks with merely <3% memory overhead. Our codes are open-sourced at https://github.com/ScopeX-ASU/Unlikely_Hero.
翻訳日:2024-11-04 21:59:16 公開日:2024-10-02
# ヒューリスティック推定器の反復予測法に向けて

Towards a Law of Iterated Expectations for Heuristic Estimators ( http://arxiv.org/abs/2410.01290v1 )

ライセンス: Link先を確認
Paul Christiano, Jacob Hilton, Andrea Lincoln, Eric Neyman, Mark Xu, (参考訳) Christiano et al (2022) は *heuristic estimator* を数学式の価値を引数から推定する仮説的アルゴリズムとして定義している。 簡単に言うと、ヒューリスティック推定器 $\mathbb{G}$ は数学式 $Y$ と公式の "ヒューリスティック引数" $\pi$ を入力として、推定値 $\mathbb{G}(Y \mid \pi)$ を$Y$ と出力する。 本研究では,ヒューリスティックな推定器が自身の誤りを予測できないという非公式な原理を論じ,この原理を定式化するためのアプローチを検討する。 より単純に、この原理は、$\mathbb{G}(Y - \mathbb{G}(Y \mid \pi) \mid \pi)$ がすべての$Y$と$\pi$に対してゼロに等しいことを示唆している。 理想的なヒューリスティック推定子は、この静脈の2つのより強い性質を満たすべきであり、これは*定性的推定*(反復期待の法則に類似して)と*エラー直交*(英語版)とよばれる。 反復推定と誤差直交性は直感的に魅力的であるが、与えられたヒューリスティック推定器が特性を満たすかどうかを判断することは困難である。 別のアプローチとして *accuracy*:$\mathbb{G}$ が数学的表現の分布平均誤差をゼロとする性質を探求する。 しかし、2つの推定問題の文脈では、正確なヒューリスティック推定器を作成するための障壁を示す。 我々は、ニューラルネットワークの振る舞いを理解するためのヒューリスティックな推定器の潜在的な応用と同様に、そのような推定器がどのように振る舞うべきかを直感的に理解するヒューリスティックな推定器を見つけるための課題と潜在的な経路について議論する。

Christiano et al. (2022) define a *heuristic estimator* to be a hypothetical algorithm that estimates the values of mathematical expressions from arguments. In brief, a heuristic estimator $\mathbb{G}$ takes as input a mathematical expression $Y$ and a formal "heuristic argument" $\pi$, and outputs an estimate $\mathbb{G}(Y \mid \pi)$ of $Y$. In this work, we argue for the informal principle that a heuristic estimator ought not to be able to predict its own errors, and we explore approaches to formalizing this principle. Most simply, the principle suggests that $\mathbb{G}(Y - \mathbb{G}(Y \mid \pi) \mid \pi)$ ought to equal zero for all $Y$ and $\pi$. We argue that an ideal heuristic estimator ought to satisfy two stronger properties in this vein, which we term *iterated estimation* (by analogy to the law of iterated expectations) and *error orthogonality*. Although iterated estimation and error orthogonality are intuitively appealing, it can be difficult to determine whether a given heuristic estimator satisfies the properties. As an alternative approach, we explore *accuracy*: a property that (roughly) states that $\mathbb{G}$ has zero average error over a distribution of mathematical expressions. However, in the context of two estimation problems, we demonstrate barriers to creating an accurate heuristic estimator. We finish by discussing challenges and potential paths forward for finding a heuristic estimator that accords with our intuitive understanding of how such an estimator ought to behave, as well as the potential applications of heuristic estimators to understanding the behavior of neural networks.
翻訳日:2024-11-04 21:59:16 公開日:2024-10-02
# SurgeoNet: 合成学習ネットワークを用いたステレオ画像からの人工手術機器のリアルタイム3次元計測

SurgeoNet: Realtime 3D Pose Estimation of Articulated Surgical Instruments from Stereo Images using a Synthetically-trained Network ( http://arxiv.org/abs/2410.01293v1 )

ライセンス: Link先を確認
Ahmed Tawfik Aboukhadra, Nadia Robertini, Jameel Malik, Ahmed Elhayek, Gerd Reis, Didier Stricker, (参考訳) MR(Mixed Reality)環境における手術モニタリングは,画像に基づく意思決定,スキルアセスメント,ロボット支援手術の重要性から,近年大きく注目されている。 手の追跡と手術器具の調音はこれらの応用の成功に不可欠である。 注釈付きデータセットの欠如とタスクの複雑さのため、この問題に対処した研究はごくわずかである。 本研究では、ステレオVRビューから手術器具を正確に検出し、追跡するリアルタイムニューラルネットワークパイプラインであるSurgeoNetを提案する。 私たちのマルチステージアプローチは、YOLOやTransformersといった最先端のニューラルネットワークアーキテクチャ設計にインスパイアされています。 本稿では,SurgeoNetの現実シナリオにおける一般化能力を実証する。 このアプローチは、新しい手術器具のセットに容易に拡張できる。 SurgeoNetのコードとデータは公開されている。

Surgery monitoring in Mixed Reality (MR) environments has recently received substantial focus due to its importance in image-based decisions, skill assessment, and robot-assisted surgery. Tracking hands and articulated surgical instruments is crucial for the success of these applications. Due to the lack of annotated datasets and the complexity of the task, only a few works have addressed this problem. In this work, we present SurgeoNet, a real-time neural network pipeline to accurately detect and track surgical instruments from a stereo VR view. Our multi-stage approach is inspired by state-of-the-art neural-network architectural design, like YOLO and Transformers. We demonstrate the generalization capabilities of SurgeoNet in challenging real-world scenarios, achieved solely through training on synthetic data. The approach can be easily extended to any new set of articulated surgical instruments. SurgeoNet's code and data are publicly available.
翻訳日:2024-11-04 21:59:16 公開日:2024-10-02
# ビジェクション学習による終わりのない脱獄

Endless Jailbreaks with Bijection Learning ( http://arxiv.org/abs/2410.01294v1 )

ライセンス: Link先を確認
Brian R. Y. Huang, Maximilian Li, Leonard Tang, (参考訳) 広範囲な安全訓練にもかかわらず、LLMは敵の入力に対して脆弱である。 本研究では,単純だが強力な攻撃パラダイムであるビジェクション学習を導入し,事実上無限のジェイルブレイクプロンプトを発生させる。 言語モデルの高度な推論機能を活用して、コンテキスト内で非可逆言語(ビジェクション)を教え、エンコードされたクエリをモデルに渡すことで、組込み安全メカニズムをバイパスし、最後に応答を英語に復号し、有害な要求に対する有用な応答を得る。 我々のアプローチは、幅広いフロンティア言語モデルと有害カテゴリーに有効であることを示す。 より高度な推論能力を持つ大型モデルは、より強力な安全メカニズムにもかかわらず、ビジェクション学習のジェイルブレイクの影響を受けやすい。

Despite extensive safety training, LLMs are vulnerable to adversarial inputs. In this work, we introduce a simple but powerful attack paradigm, bijection learning, that yields a practically endless set of jailbreak prompts. We exploit language models' advanced reasoning capabilities to teach them invertible languages (bijections) in context, pass encoded queries to the model to bypass built-in safety mechanisms, and finally decode responses back into English, yielding helpful replies to harmful requests. Our approach proves effective on a wide range of frontier language models and harm categories. Bijection learning is an automated and universal attack that grows stronger with scale: larger models with more advanced reasoning capabilities are more susceptible to bijection learning jailbreaks despite stronger safety mechanisms.
翻訳日:2024-11-04 21:59:16 公開日:2024-10-02
# LaGeM:3次元表現学習と拡散のための大規模幾何学モデル

LaGeM: A Large Geometry Model for 3D Representation Learning and Diffusion ( http://arxiv.org/abs/2410.01295v1 )

ライセンス: Link先を確認
Biao Zhang, Peter Wonka, (参考訳) 本稿では3次元モデルを高度に圧縮された潜在空間にマッピングする新しい階層型オートエンコーダを提案する。 階層型オートエンコーダは、大規模なデータセットや拡散を用いた生成的モデリングから生じる課題に対処するように設計されている。 通常の画像やボリュームグリッドでしか動作しない従来のアプローチとは異なり、階層的オートエンコーダは順序のないベクトルの集合で動作する。 オートエンコーダの各レベルは、異なる幾何学的詳細レベルを制御する。 このモデルは,高分解能な幾何学的詳細を忠実に表現しながら,広範囲な3次元モデルを表現するために使用できることを示す。 新しいアーキテクチャのトレーニングには、ベースラインと比較して0.70倍の時間と0.58倍のメモリが必要だ。 また、新しい表現が生成モデリングにどのように使われるかについても検討する。 具体的には,各ステージを前段に条件付けしたケースケード拡散フレームワークを提案する。 我々の設計は、画像とボリュームグリッドの既存のカスケード設計をベクトル集合に拡張する。

This paper introduces a novel hierarchical autoencoder that maps 3D models into a highly compressed latent space. The hierarchical autoencoder is specifically designed to tackle the challenges arising from large-scale datasets and generative modeling using diffusion. Different from previous approaches that only work on a regular image or volume grid, our hierarchical autoencoder operates on unordered sets of vectors. Each level of the autoencoder controls different geometric levels of detail. We show that the model can be used to represent a wide range of 3D models while faithfully representing high-resolution geometry details. The training of the new architecture takes 0.70x time and 0.58x memory compared to the baseline. We also explore how the new representation can be used for generative modeling. Specifically, we propose a cascaded diffusion framework where each stage is conditioned on the previous stage. Our design extends existing cascaded designs for image and volume grids to vector sets.
翻訳日:2024-11-04 21:59:16 公開日:2024-10-02
# タスク特化ファインチューニングのための投機的コアセット選択

Speculative Coreset Selection for Task-Specific Fine-tuning ( http://arxiv.org/abs/2410.01296v1 )

ライセンス: Link先を確認
Xiaoyu Zhang, Juan Zhai, Shiqing Ma, Chao Shen, Tianlin Li, Weipeng Jiang, Yang Liu, (参考訳) タスク固有の微調整は、大規模言語モデル(LLM)の展開には不可欠であるが、かなりの計算資源と時間を要する。 既存のソリューションでは、データ効率を改善し、モデルのトレーニングオーバーヘッドを減らすために、コアセットの選択方法が提案されている。 1) 高プルーニングレートで貴重なサンプルを見渡すと,コアセットの性能は低下する。 2) コアセット選択時に高い時間オーバーヘッドを要し, 目標LLMを微調整し, 評価する。 本稿では,投機的コアセット選択法であるSTAFFを紹介する。 STAFFは、目標LLMと同じ家系の小さなモデルを利用して、データスコアを効率的に推定し、目標LLMのスコアを確認し、容易な領域のカバレッジを維持しながら、重要な領域により多くの選択予算を正確に特定し割り当てる。 STAFFを3つのLLMおよび3つのダウンストリームタスクで評価し、STAFFが最大54.3%改善し、異なるプルーニングレートで選択オーバーヘッドを最大70.5%低減することを示す。 さらに、STAFFが選択したコアセットを低プルーニングレート(すなわち20%)で、フルデータセットよりも優れた微調整性能が得られることを観察した。

Task-specific fine-tuning is essential for the deployment of large language models (LLMs), but it requires significant computational resources and time. Existing solutions have proposed coreset selection methods to improve data efficiency and reduce model training overhead, but they still have limitations: 1) Overlooking valuable samples at high pruning rates, which degrades the coreset's performance. 2) Requiring high time overhead during coreset selection to fine-tune and evaluate the target LLM. In this paper, we introduce STAFF, a speculative coreset selection method. STAFF leverages a small model from the same family as the target LLM to efficiently estimate data scores and then verifies the scores on the target LLM to accurately identify and allocate more selection budget to important regions while maintaining coverage of easy regions. We evaluate STAFF on three LLMs and three downstream tasks and show that STAFF improves the performance of SOTA methods by up to 54.3% and reduces selection overhead by up to 70.5% at different pruning rates. Furthermore, we observe that the coreset selected by STAFF at low pruning rates (i.e., 20%) can even obtain better fine-tuning performance than the full dataset.
翻訳日:2024-11-04 21:59:16 公開日:2024-10-02
# サッカービデオにおけるアクションスポッティングの深層学習

Deep learning for action spotting in association football videos ( http://arxiv.org/abs/2410.01304v1 )

ライセンス: Link先を確認
Silvio Giancola, Anthony Cioppa, Bernard Ghanem, Marc Van Droogenbroeck, (参考訳) アクションスポッティングのタスクは、アクションの識別と、タイムスタンプを1つのタイムスタンプで、長く、トリミングされていないビデオストリームで正確に位置決めすることの両方から成り立っている。 これらのアクションを自動的に抽出することは、スポーツ分析がゲームアクションに関する広範な統計データを生成すること、ビデオアナリストのサポートを提供するコーチング、特定のアクションが発生したときに放送中のコンテンツを自動的にオーバーレイするファンエンゲージメントなど、多くのスポーツアプリケーションにとって重要である。 しかし、2018年以前、スポーツにおけるアクションスポッティングのための大規模なデータセットは公開されておらず、ベンチマークアクションスポッティングの方法が妨げられた。 これに対し、私たちのチームは、サッカーネットの傘下で、最大のデータセットと、スポーツビデオ理解のための最も包括的なベンチマークを構築しました。 特に、我々のデータセットには、アクションスポッティングに特化したサブセットが含まれており、フットボールの試合で起こりうるほとんどすべてのアクションが注釈付けされた550以上の完全なブロードキャストゲームを含んでいる。 このデータセットは、大量の手動で注釈付けされたアクションを提供することで、ディープラーニングアプローチを含む、興味のあるアクションを自動的にスポッティングする方法を開発するように調整されている。 科学コミュニティに参加するために、サッカーネットイニシアチブは毎年の課題を組織し、世界中の参加者が最先端のパフォーマンスを達成するために競う。 われわれのデータセットと課題のおかげで、過去5年間に60以上の方法が開発または公開された。 本稿では,スポーツにおけるアクションスポッティングの歴史を,2018年の課題の創出から,現在研究やスポーツ業界で果たす役割まで遡る。

The task of action spotting consists in both identifying actions and precisely localizing them in time with a single timestamp in long, untrimmed video streams. Automatically extracting those actions is crucial for many sports applications, including sports analytics to produce extended statistics on game actions, coaching to provide support to video analysts, or fan engagement to automatically overlay content in the broadcast when specific actions occur. However, before 2018, no large-scale datasets for action spotting in sports were publicly available, which impeded benchmarking action spotting methods. In response, our team built the largest dataset and the most comprehensive benchmarks for sports video understanding, under the umbrella of SoccerNet. Particularly, our dataset contains a subset specifically dedicated to action spotting, called SoccerNet Action Spotting, containing more than 550 complete broadcast games annotated with almost all types of actions that can occur in a football game. This dataset is tailored to develop methods for automatic spotting of actions of interest, including deep learning approaches, by providing a large amount of manually annotated actions. To engage with the scientific community, the SoccerNet initiative organizes yearly challenges, during which participants from all around the world compete to achieve state-of-the-art performances. Thanks to our dataset and challenges, more than 60 methods were developed or published over the past five years, improving on the first baselines and making action spotting a viable option for the sports industry. This paper traces the history of action spotting in sports, from the creation of the task back in 2018, to the role it plays today in research and the sports industry.
翻訳日:2024-11-04 21:59:16 公開日:2024-10-02
# LLMを用いた感情認識型埋め込みによる感情応答生成

Emotion-Aware Response Generation Using Affect-Enriched Embeddings with LLMs ( http://arxiv.org/abs/2410.01306v1 )

ライセンス: Link先を確認
Abdur Rasool, Muhammad Irfan Shahzad, Hafsa Aslam, Vincent Chan, (参考訳) 自動チャットボットファシリケート精神療法セッションでは共感的かつ一貫性のある反応が必要である。 本研究は,精神医学的応用における大規模言語モデル(LLM)の感情的・文脈的理解を高めることの課題に対処する。 我々は,NRC Emotion Lexicon, VADER, WordNet, SentiWordNetなどの複数の感情レキシコンを,LAMA2, Flan-T5, ChatGPT 3.0, ChatGPT 4.0といった最先端のLLMと統合する新しいフレームワークを提案する。 一次データセットは、カウンセリング・アンド・サイコセラピー・データベースから2000以上の治療セッションの書き起こしを含み、不安、うつ病、トラウマ、中毒に関する議論をカバーしている。 テキストを小さなチャンクに分割し、語彙的特徴で拡張し、BERT、GPT-3、RoBERTaを用いて埋め込みを計算し、意味的および感情的なニュアンスを捉える。 これらの埋め込みはFAISSベクトルデータベースに格納され、コサイン類似性に基づいた効率的な類似性探索とクラスタリングを可能にする。 ユーザクエリでは、最も関連性の高いセグメントが検索され、LLMのコンテキストとして提供され、共感的かつコンテキスト的に適切な応答を生成するモデルの能力が大幅に向上する。 実験により, 感情の語彙が共感, コヒーレンス, 情報性, 流布度を高めることが確認された。 精神療法におけるLLM改善における感情埋め込みの重要性について検討した。

There is a need for empathetic and coherent responses in automated chatbot-facilitated psychotherapy sessions. This study addresses the challenge of enhancing the emotional and contextual understanding of large language models (LLMs) in psychiatric applications. We introduce a novel framework that integrates multiple emotion lexicons, including NRC Emotion Lexicon, VADER, WordNet, and SentiWordNet, with state-of-the-art LLMs such as LLAMA 2, Flan-T5, ChatGPT 3.0, and ChatGPT 4.0. The primary dataset comprises over 2,000 therapy session transcripts from the Counseling and Psychotherapy database, covering discussions on anxiety, depression, trauma, and addiction. We segment the transcripts into smaller chunks, enhancing them with lexical features and computing embeddings using BERT, GPT-3, and RoBERTa to capture semantic and emotional nuances. These embeddings are stored in a FAISS vector database, enabling efficient similarity search and clustering based on cosine similarity. Upon user query, the most relevant segments are retrieved and provided as context to the LLMs, significantly improving the models' ability to generate empathetic and contextually appropriate responses. Experimental evaluations demonstrate that in-corporating emotion lexicons enhances empathy, coherence, informativeness, and fluency scores. Our findings highlight the critical role of emotional embeddings in improving LLM performance for psychotherapy.
翻訳日:2024-11-04 21:49:06 公開日:2024-10-02
# FanCric : ファンタシー11クリケットチームを作るためのマルチエージェントフレームワーク

FanCric : Multi-Agentic Framework for Crafting Fantasy 11 Cricket Teams ( http://arxiv.org/abs/2410.01307v1 )

ライセンス: Link先を確認
Mohit Bhatnagar, (参考訳) クリケットは複雑な戦略と深い歴史を持ち、ますます世界的な聴衆を魅了している。 インド・プレミアリーグ(IPL)は、Twenty20クリケットを誇示し、長い形式のゲームとは対照的に数時間しか持たないスタイルでタレントを誇示している。 IPLは技術とファンエンゲージメントの融合で知られており、世界で最も人気のあるクリケットリーグである。 この研究は、インドにおけるIPLの主要なファンタジークリケットリーグであるDream11に集中しており、参加者は実際のプレイヤーのパフォーマンスに基づいて仮想チームを作り、国際的に競争する。 勝利したファンタジーチームを作るには、プレイヤーフォームやマッチ条件を含む様々な複雑な要素をナビゲートする必要がある。 伝統的に、これはオペレーションリサーチと機械学習を通じてアプローチされてきた。 本稿では,Large Language Models(LLM)を活用した高度なマルチエージェントシステムであるFanCricフレームワークと,クリケットにおけるファンタジーチーム選択を強化する堅牢なオーケストレーションフレームワークを紹介する。 FanCricは構造化データと非構造化データの両方を使って、高度なAI技術を組み込むことで従来の手法を超越している。 この分析では、ドリーム11コンテストから約1270万のユニークなエントリを精査し、ファンクリックの群衆の集団知恵に対する効果と、より単純なプロンプトエンジニアリングアプローチを評価した。 アブレーション調査は、さまざまな数のチームを生成する影響をさらに評価した。 探索的な発見は有望であり、ファンクリックの能力に関するさらなる調査は、ファンタジースポーツやビジネス全般においてLSMを用いた戦略的意思決定の強化の可能性を十分に実現することが保証されている。

Cricket, with its intricate strategies and deep history, increasingly captivates a global audience. The Indian Premier League (IPL), epitomizing Twenty20 cricket, showcases talent in a format that lasts just a few hours as opposed to the longer forms of the game. Renowned for its fusion of technology and fan engagement, the IPL stands as the world's most popular cricket league. This study concentrates on Dream11, India's leading fantasy cricket league for IPL, where participants craft virtual teams based on real player performances to compete internationally. Building a winning fantasy team requires navigating various complex factors including player form and match conditions. Traditionally, this has been approached through operations research and machine learning. This research introduces the FanCric framework, an advanced multi-agent system leveraging Large Language Models (LLMs) and a robust orchestration framework to enhance fantasy team selection in cricket. FanCric employs both structured and unstructured data to surpass traditional methods by incorporating sophisticated AI technologies. The analysis involved scrutinizing approximately 12.7 million unique entries from a Dream11 contest, evaluating FanCric's efficacy against the collective wisdom of crowds and a simpler Prompt Engineering approach. Ablation studies further assessed the impact of generating varying numbers of teams. The exploratory findings are promising, indicating that further investigation into FanCric's capabilities is warranted to fully realize its potential in enhancing strategic decision-making using LLMs in fantasy sports and business in general.
翻訳日:2024-11-04 21:49:06 公開日:2024-10-02
# GNNの表現性を再考する:計算モデルの視点から

Rethinking the Expressiveness of GNNs: A Computational Model Perspective ( http://arxiv.org/abs/2410.01308v1 )

ライセンス: Link先を確認
Guanyu Cui, Zhewei Wei, Hsin-Hao Su, (参考訳) グラフニューラルネットワーク(GNN)はグラフ機械学習に広く採用されており、その表現性に重点を置いている。 現代の研究は、それらをWeisfeiler-Lehman (WL)テストや古典グラフアルゴリズムと比較することによって、GNN表現性を評価することが多い。 しかし、既存の分析では、(1)事前処理を用いて表現性を高め、計算コストを見落としている研究、(2)匿名のWLテストの限られたパワーを主張する研究、(3)匿名でない特徴を用いて表現性を高め、ミスマッチを発生させる研究、(3)ConGESTモデルでメッセージパスGNN(MPGNN)を特徴付ける研究があるが、計算資源に関する非現実的な仮定を行い、$\textsf{NP-Complete}$問題を$O(m)$で解決する研究がある。 我々は、GNN表現性に関する議論の基盤となるために、適切に定義された計算モデルが緊急に必要であると主張している。 これらの問題に対処するために、予備処理と後処理を任意に取り入れたResource-Limited CONGEST(RL-CONGEST)モデルを導入し、GNN表現性を解析するためのフレームワークを構築した。 我々のフレームワークは、WLテストにおけるハッシュ関数の計算硬度や、ネットワーク容量の削減における仮想ノードの役割など、計算面に光を当てている。 さらに、高次GNNは1次モデルチェック問題に対応し、表現性に関する新たな洞察を提供することを示唆する。

Graph Neural Networks (GNNs) are extensively employed in graph machine learning, with considerable research focusing on their expressiveness. Current studies often assess GNN expressiveness by comparing them to the Weisfeiler-Lehman (WL) tests or classical graph algorithms. However, we identify three key issues in existing analyses: (1) some studies use preprocessing to enhance expressiveness but overlook its computational costs; (2) some claim the anonymous WL test's limited power while enhancing expressiveness using non-anonymous features, creating a mismatch; and (3) some characterize message-passing GNNs (MPGNNs) with the CONGEST model but make unrealistic assumptions about computational resources, allowing $\textsf{NP-Complete}$ problems to be solved in $O(m)$ depth. We contend that a well-defined computational model is urgently needed to serve as the foundation for discussions on GNN expressiveness. To address these issues, we introduce the Resource-Limited CONGEST (RL-CONGEST) model, incorporating optional preprocessing and postprocessing to form a framework for analyzing GNN expressiveness. Our framework sheds light on computational aspects, including the computational hardness of hash functions in the WL test and the role of virtual nodes in reducing network capacity. Additionally, we suggest that high-order GNNs correspond to first-order model-checking problems, offering new insights into their expressiveness.
翻訳日:2024-11-04 21:49:06 公開日:2024-10-02
# LLMにおける回転対称性からの自由ビットを得る

Getting Free Bits Back from Rotational Symmetries in LLMs ( http://arxiv.org/abs/2410.01309v1 )

ライセンス: Link先を確認
Jiajun He, Gergely Flamich, José Miguel Hernández-Lobato, (参考訳) 分解、プルーニング、量子化、チャネルシミュレーションなどのニューラルネットワーク重みを圧縮する現在の方法は、しばしばこれらのネットワーク内の固有の対称性を見落とし、余分な情報を符号化するビットを無駄にする。 本稿では、回転対称トランスフォーマー重みを同じ浮動小数点精度で通常の配列配置よりも効率的に記憶するためのビットバック符号化に基づくフォーマットを提案する。 我々は,SliceGPT (Ashkboos et al , 2024) によるLarge Language Models (LLMs) の評価を行った。

Current methods for compressing neural network weights, such as decomposition, pruning, quantization, and channel simulation, often overlook the inherent symmetries within these networks and thus waste bits on encoding redundant information. In this paper, we propose a format based on bits-back coding for storing rotationally symmetric Transformer weights more efficiently than the usual array layout at the same floating-point precision. We evaluate our method on Large Language Models (LLMs) pruned by SliceGPT (Ashkboos et al., 2024) and achieve a 3-5% reduction in total bit usage for free across different model sizes and architectures without impacting model performance within a certain numerical precision.
翻訳日:2024-11-04 21:49:06 公開日:2024-10-02
# 拡散を利用したエネルギー政策からのサンプリング

Sampling from Energy-based Policies using Diffusion ( http://arxiv.org/abs/2410.01312v1 )

ライセンス: Link先を確認
Vineet Jain, Tara Akhound-Sadegh, Siamak Ravanbakhsh, (参考訳) エネルギーベースの政策は、強化学習(RL)における複雑なマルチモーダルな振る舞いをモデル化するための柔軟な枠組みを提供する。 最大エントロピー RL では、最適ポリシーはソフトQ-函数から導かれるボルツマン分布であるが、連続作用空間におけるこの分布から直接のサンプリングは計算的に難解である。 その結果、既存のメソッドは通常、ポリシー表現のためにガウシアンのような単純なパラメトリック分布を使用し、マルチモーダルなアクション分布の完全な複雑さを捉える能力を制限する。 本稿では, 負のQ関数がエネルギー関数を定義するエネルギーベースの政策から, 拡散に基づくアプローチを導入する。 提案手法はDQS(Diffusion Q-Sampling)と呼ばれる,より表現力のあるポリシー表現を可能にし,多様な環境における安定した学習を可能にするアクタクリティカルな手法を提案する。 提案手法は,連続制御タスクにおけるマルチモーダル動作の探索と捕捉を促進し,既存手法の重要な制約に対処することを示す。

Energy-based policies offer a flexible framework for modeling complex, multimodal behaviors in reinforcement learning (RL). In maximum entropy RL, the optimal policy is a Boltzmann distribution derived from the soft Q-function, but direct sampling from this distribution in continuous action spaces is computationally intractable. As a result, existing methods typically use simpler parametric distributions, like Gaussians, for policy representation - limiting their ability to capture the full complexity of multimodal action distributions. In this paper, we introduce a diffusion-based approach for sampling from energy-based policies, where the negative Q-function defines the energy function. Based on this approach, we propose an actor-critic method called Diffusion Q-Sampling (DQS) that enables more expressive policy representations, allowing stable learning in diverse environments. We show that our approach enhances exploration and captures multimodal behavior in continuous control tasks, addressing key limitations of existing methods.
翻訳日:2024-11-04 21:49:06 公開日:2024-10-02
# ADEPT-Z:Pareto-Optimal Photonic Tensor Coreのゼロショット自動回路トポロジー探索

ADEPT-Z: Zero-Shot Automated Circuit Topology Search for Pareto-Optimal Photonic Tensor Cores ( http://arxiv.org/abs/2410.01313v1 )

ライセンス: Link先を確認
Ziyang Jiang, Pingchuan Ma, Meng Zhang, Rena Huang, Jiaqi Gu, (参考訳) フォトニックテンソルコア(PTC)は、プログラマブルフォトニック集積回路に基づく光人工知能(AI)アクセラレーターに必要なビルディングブロックである。 現在、ほとんどのPTC設計は手動で設計されており、設計効率は低く、ソリューションの品質は満足できない。 これにより、さまざまなハードウェア仕様を満たし、急速に進化するAIアプリケーションに追いつくことが困難になる。 それまでの研究では、優れたPSC構造を異なる方法で学習するための勾配に基づく手法が検討されてきた。 しかし、複数の非微分不可能な目標と制約を扱う場合、トレーニング速度の遅さと最適化の難しさに悩まされる。 そこで本研究では,よりフレキシブルで効率的な多目的進化的トポロジ探索フレームワークADEPT-Zを提案する。 複雑なハードウェア制約を尊重しながら、複数の目的を協調最適化することができる。 3時間以内の探索で、従来の勾配法よりも100倍高速な数十種類のパレート最適解を得ることができ、2倍精度の重み付き面積エネルギー効率で以前の手動設計より優れる。 ADEPT-Zのコードはhttps://github.com/ScopeX-ASU/ADEPT-Zで公開されている。

Photonic tensor cores (PTCs) are essential building blocks for optical artificial intelligence (AI) accelerators based on programmable photonic integrated circuits. Most PTC designs today are manually constructed, with low design efficiency and unsatisfying solution quality. This makes it challenging to meet various hardware specifications and keep up with rapidly evolving AI applications. Prior work has explored gradient-based methods to learn a good PTC structure differentiably. However, it suffers from slow training speed and optimization difficulty when handling multiple non-differentiable objectives and constraints. Therefore, in this work, we propose a more flexible and efficient zero-shot multi-objective evolutionary topology search framework ADEPT-Z that explores Pareto-optimal PTC designs with advanced devices in a larger search space. Multiple objectives can be co-optimized while honoring complicated hardware constraints. With only <3 hours of search, we can obtain tens of diverse Pareto-optimal solutions, 100x faster than the prior gradient-based method, outperforming prior manual designs with 2x higher accuracy weighted area-energy efficiency. The code of ADEPT-Z is available at https://github.com/ScopeX-ASU/ADEPT-Z.
翻訳日:2024-11-04 21:49:06 公開日:2024-10-02
# QMCスライシングによるラジアルカーネルの高速化

Fast Summation of Radial Kernels via QMC Slicing ( http://arxiv.org/abs/2410.01316v1 )

ライセンス: Link先を確認
Johannes Hertrich, Tim Jahn, Michael Quellmalz, (参考訳) 大規模なカーネル和の高速な計算は、あらゆるカーネルメソッドのサブプロブレムとして生じる挑戦的なタスクである。 一次元部分空間へのランダム射影と高速フーリエ和に依存するスライシングによりこの問題にアプローチする。 我々はスライシング誤差の有界性を証明し、球状二次規則に基づいて投影を選択するための準モンテカルロ(QMC)アプローチを提案する。 我々のQMCスライシング手法は, (QMC-)ランダムフーリエ特徴, 直交フーリエ特徴, 標準テストデータセット上での非QMCスライシングなど, 既存の手法を著しく上回っていることを示す。

The fast computation of large kernel sums is a challenging task, which arises as a subproblem in any kernel method. We approach the problem by slicing, which relies on random projections to one-dimensional subspaces and fast Fourier summation. We prove bounds for the slicing error and propose a quasi-Monte Carlo (QMC) approach for selecting the projections based on spherical quadrature rules. Numerical examples demonstrate that our QMC-slicing approach significantly outperforms existing methods like (QMC-)random Fourier features, orthogonal Fourier features or non-QMC slicing on standard test datasets.
翻訳日:2024-11-04 21:49:06 公開日:2024-10-02
# デコヒーレンスと確率

Decoherence and Probability ( http://arxiv.org/abs/2410.01317v1 )

ライセンス: Link先を確認
Richard Dawid, Karim P. Y. Thébault, (参考訳) 完全に解釈されていない量子形式論の使用に基づいて、デコヒーレンス理論によって導かれる構造の物理的サリエンスを正当化できない。 したがって、デコヒーレンスによる確率の出現に関する非確率的な説明は、説得力がない。 確率の出現に関する別の説明は、部分的に解釈されたデコヒーレンスモデルを介して \textit{quasi-probabilistic appearance} と \textit{semi-classical appearance} を組み合わせ、正の定値な \textit{quasi-probability} 関数に対する可観測物の平均化と$O(\hbar)$ の無視を含む。 このアプローチは、量子論の全ての状態の文脈で古典的確率測度を構築する際によく知られた問題を避ける。 むしろ、一般化された \textit{quasi-measure} 構造である \textit{partially interpretation} を、より一般的な代数よりも可能性の重み付けとみなし、デコヒーレンスと半古典的平均化の組み合わせが、$O(\hbar)$ を無視する粗粒度の記述として古典的確率モデルを回復することを可能にする文脈を減らしている。

One cannot justifiably presuppose the physical salience of structures derived via decoherence theory based upon an entirely uninterpreted use of the quantum formalism. Non-probabilistic accounts of the emergence of probability via decoherence are thus unconvincing. An alternative account of the emergence of probability involves the combination of \textit{quasi-probabilistic emergence}, via a partially interpreted decoherence model, with \textit{semi-classical emergence}, via averaging of observables with respect to a positive-definite \textit{quasi-probability} function and neglect of terms $O(\hbar)$. This approach avoids well-known issues with constructing classical probability measures in the context of the full set of states of a quantum theory. Rather, it considers a generalised \textit{quasi-measure} structure, \textit{partially interpreted} as weighting of possibilities, over a more general algebra, and delimits the context in which the combination of decoherence and a semi-classical averaging allows us to recover a classical probability model as a coarse-grained description which neglects terms $O(\hbar)$.
翻訳日:2024-11-04 21:49:06 公開日:2024-10-02
# ブリッジング領域ギャップによるLiDARに基づく3次元物体検出のための限定データ付き微調整事前学習モデル

Finetuning Pre-trained Model with Limited Data for LiDAR-based 3D Object Detection by Bridging Domain Gaps ( http://arxiv.org/abs/2410.01319v1 )

ライセンス: Link先を確認
Jiyun Jang, Mincheol Chang, Jongwon Park, Jinkyu Kim, (参考訳) LiDARをベースとした3Dオブジェクト検出器は、自動運転車や移動ロボットなど、さまざまな用途で広く利用されている。 しかし、LiDARベースの検出器は、センサー構成の異なるターゲットドメイン(例えば、センサーの種類、空間分解能、FOV)や位置シフトによく適応しないことが多い。 新しいセットアップでのデータセットの収集と注釈付けは、このようなギャップを減らすために一般的に必要だが、しばしば高価で時間を要する。 近年の研究では、トレーニング済みのバックボーンは大規模でラベルのないLiDARフレームで自己管理的に学習できることが示唆されている。 しかし、表現力のある表現にもかかわらず、ターゲット領域からかなりの量のデータを得ることなく、適切に一般化することは依然として困難である。 そこで本稿では,DADT (Domain Adaptive Distill-Tuning) と呼ばれる新しい手法を提案する。 具体的には、教師-学生アーキテクチャにおける事前訓練されたモデルと微調整されたモデル間のオブジェクトレベルとコンテキストレベルの表現の整合化に正規化器を用いる。 ドライビングベンチマーク,すなわちWaymo OpenデータセットとKITTIを用いた実験により,本手法がトレーニング済みモデルを効果的に微調整し,精度を大幅に向上することを確認した。

LiDAR-based 3D object detectors have been largely utilized in various applications, including autonomous vehicles or mobile robots. However, LiDAR-based detectors often fail to adapt well to target domains with different sensor configurations (e.g., types of sensors, spatial resolution, or FOVs) and location shifts. Collecting and annotating datasets in a new setup is commonly required to reduce such gaps, but it is often expensive and time-consuming. Recent studies suggest that pre-trained backbones can be learned in a self-supervised manner with large-scale unlabeled LiDAR frames. However, despite their expressive representations, they remain challenging to generalize well without substantial amounts of data from the target domain. Thus, we propose a novel method, called Domain Adaptive Distill-Tuning (DADT), to adapt a pre-trained model with limited target data (approximately 100 LiDAR frames), retaining its representation power and preventing it from overfitting. Specifically, we use regularizers to align object-level and context-level representations between the pre-trained and finetuned models in a teacher-student architecture. Our experiments with driving benchmarks, i.e., Waymo Open dataset and KITTI, confirm that our method effectively finetunes a pre-trained model, achieving significant gains in accuracy.
翻訳日:2024-11-04 21:49:06 公開日:2024-10-02
# Forte : 表現の典型推定による外乱の発見

Forte : Finding Outliers with Representation Typicality Estimation ( http://arxiv.org/abs/2410.01322v1 )

ライセンス: Link先を確認
Debargha Ganguly, Warren Morningstar, Andrew Yu, Vipin Chaudhary, (参考訳) 生成モデルは、それを訓練する実際のデータとほぼ区別できない、フォトリアリスティックな合成データを生成することができる。 これは、トレーニングデータの妥当なファクシミリを生成することができる以前のモデルよりも大きな進化であるが、人間の評価によってトレーニングデータと視覚的に区別できるモデルである。 OOD検出に関する最近の研究は、生成過程における誤推定、エントロピー、典型性などの問題により、生成モデルの可能性が最適なOOD検出器であることに疑問を呈している。 生成OOD検出器は,データのセマンティックな内容ではなく,画素に焦点を絞ったモデルであり,画素が類似する可能性があるが情報内容が著しく異なる場合においても失敗する可能性がある。 自己教師付き学習器を用いて典型的な集合を推定すると、より優れたOOD検出器が得られるという仮説を立てる。 本稿では,表現学習と,多様体推定に基づく情報的要約統計を利用して,上記の問題に対処する手法を提案する。 提案手法は他の教師なし手法よりも優れており、確立された挑戦的ベンチマーク上での最先端の性能、新しい合成データ検出タスクを実現している。

Generative models can now produce photorealistic synthetic data which is virtually indistinguishable from the real data used to train it. This is a significant evolution over previous models which could produce reasonable facsimiles of the training data, but ones which could be visually distinguished from the training data by human evaluation. Recent work on OOD detection has raised doubts that generative model likelihoods are optimal OOD detectors due to issues involving likelihood misestimation, entropy in the generative process, and typicality. We speculate that generative OOD detectors also failed because their models focused on the pixels rather than the semantic content of the data, leading to failures in near-OOD cases where the pixels may be similar but the information content is significantly different. We hypothesize that estimating typical sets using self-supervised learners leads to better OOD detectors. We introduce a novel approach that leverages representation learning, and informative summary statistics based on manifold estimation, to address all of the aforementioned issues. Our method outperforms other unsupervised approaches and achieves state-of-the art performance on well-established challenging benchmarks, and new synthetic data detection tasks.
翻訳日:2024-11-04 21:49:06 公開日:2024-10-02
# サンプル重み付けによる公平なクラスインクリメンタル学習

Fair Class-Incremental Learning using Sample Weighting ( http://arxiv.org/abs/2410.01324v1 )

ライセンス: Link先を確認
Jaeyoung Park, Minsu Kim, Steven Euijong Whang, (参考訳) 信頼に値するAIのためのクラスインクリメンタル学習において、モデルフェアネスが重要になりつつある。 正確性は、クラス増分学習において中心的な焦点となっているが、公平性は比較的研究されている。 しかし、現在の課題のすべてのサンプルを鼻で使用することで、クラスを含む特定のセンシティブなグループに対して不公平な破滅的な忘れを生じさせる。 理論的には、現在のタスクデータの平均勾配ベクトルが、センシティブなグループの平均勾配ベクトルと比較して「正の方向」である場合、その内部積が負となる。 そこで本研究では,現在のタスクサンプルのトレーニング重みを調整し,平均勾配ベクトルの方向を変えるための公平なクラス増分学習フレームワークを提案する。 グループフェアネス対策の多種多様さに対して、各グループ間の差異を最小化しつつ、センシティブなグループ全体の損失を最小化するために最適化問題を定式化する。 また,線形プログラミングで解ける問題を示し,Fairness-aware Sample Weighting (FSW)アルゴリズムを提案する。 実験により、FSWは実際のデータセットに対する最先端のアプローチよりも精度・公正なトレードオフ結果が得られることが示された。

Model fairness is becoming important in class-incremental learning for Trustworthy AI. While accuracy has been a central focus in class-incremental learning, fairness has been relatively understudied. However, naively using all the samples of the current task for training results in unfair catastrophic forgetting for certain sensitive groups including classes. We theoretically analyze that forgetting occurs if the average gradient vector of the current task data is in an "opposite direction" compared to the average gradient vector of a sensitive group, which means their inner products are negative. We then propose a fair class-incremental learning framework that adjusts the training weights of current task samples to change the direction of the average gradient vector and thus reduce the forgetting of underperforming groups and achieve fairness. For various group fairness measures, we formulate optimization problems to minimize the overall losses of sensitive groups while minimizing the disparities among them. We also show the problems can be solved with linear programming and propose an efficient Fairness-aware Sample Weighting (FSW) algorithm. Experiments show that FSW achieves better accuracy-fairness tradeoff results than state-of-the-art approaches on real datasets.
翻訳日:2024-11-04 21:49:06 公開日:2024-10-02
# 平均逆設定における観測モデルによるPOMDPの効率的な学習

Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting ( http://arxiv.org/abs/2410.01331v1 )

ライセンス: Link先を確認
Alessio Russo, Alberto Maria Metelli, Marcello Restelli, (参考訳) 部分的に観察可能なマルコフ決定プロセスとのディーリングは、特に難しい作業である。 我々は、未知の遷移モデルを持つ平均逆無限水平PMDP設定に直面し、そこで観測モデルの知識を仮定する。 本仮定では,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。 次に,不確実性に直面した$\textit{optimism}=原則に従って探索・探索トレードオフを暗黙的にバランスさせるOAS-UCRLアルゴリズムを提案する。 アルゴリズムは長さが増加するエピソードを通している。 各エピソードについて、推定されたPOMDPの最適信念に基づくポリシーは環境と相互作用し、次のエピソードで使用されるサンプルをOAS推定手順で収集し、POMDPパラメータの新しい推定値を算出する。 推定モデルを考えると、最適化オラクルは新たな最適ポリシーを計算する。 提案したOAS-UCRLアルゴリズムに対して, OAS 手順の整合性を示し, 命令 $\mathcal{O}(\sqrt{T \log(T)})$ の後悔の保証を証明した。 我々は,最適な確率的信念に基づく政策を実践するオラクルと比較し,状態,行動,観察空間の次元に関して,我々のアプローチの効率的なスケーリングを示す。 最終的に,提案手法を他のベースライン手法と比較し,検証するために数値シミュレーションを行った。

Dealing with Partially Observable Markov Decision Processes is notably a challenging task. We face an average-reward infinite-horizon POMDP setting with an unknown transition model, where we assume the knowledge of the observation model. Under this assumption, we propose the Observation-Aware Spectral (OAS) estimation technique, which enables the POMDP parameters to be learned from samples collected using a belief-based policy. Then, we propose the OAS-UCRL algorithm that implicitly balances the exploration-exploitation trade-off following the $\textit{optimism in the face of uncertainty}$ principle. The algorithm runs through episodes of increasing length. For each episode, the optimal belief-based policy of the estimated POMDP interacts with the environment and collects samples that will be used in the next episode by the OAS estimation procedure to compute a new estimate of the POMDP parameters. Given the estimated model, an optimization oracle computes the new optimal policy. We show the consistency of the OAS procedure, and we prove a regret guarantee of order $\mathcal{O}(\sqrt{T \log(T)})$ for the proposed OAS-UCRL algorithm. We compare against the oracle playing the optimal stochastic belief-based policy and show the efficient scaling of our approach with respect to the dimensionality of the state, action, and observation space. We finally conduct numerical simulations to validate and compare the proposed technique with other baseline approaches.
翻訳日:2024-11-04 21:49:06 公開日:2024-10-02
# サーキットによる言語スキルの解き方

Unveiling Language Skills under Circuits ( http://arxiv.org/abs/2410.01334v1 )

ライセンス: Link先を確認
Hang Chen, Jiaying Zhu, Xinyu Yang, Wenya Wang, (参考訳) 言語モデル(LM)における言語スキルの探索は、機械的解釈可能性において常に中心的な目標の1つとなっている。 しかし、既存の回路解析は、主にフィードフォワード層を排除したために、これらのモデルの完全な機能範囲を表現できないことが多い。 さらに、複数の絡み合ったスキルを本質的に含むテキストから単一の言語スキルの効果を分離することは、大きな課題となる。 これらのギャップに対処するために,言語モデルのメモリ読み取り機能を完全かつ独立に操作する最小単位であるメモリ回路を導入し,異なるメモリ回路を接続する経路のアンサンブルである回路グラフに変換器モデルを正確に切り離す。 この不整合に基づいて、我々は3つの重要な言語スキル、すなわち先進トケンスキル、誘導スキル、インコンテキストラーニング(ICL)スキルに責任を負うスキルパスとして名付けられた有能な回路経路を同定し、介入と対策による因果効果推定を活用する。 各種データセットを用いた実験により,認識されたスキルパスと言語スキルの対応性を確認し,長期にわたる3つの仮説を検証した。 1) 言語スキルは,回路分割により識別することができる。 2) 単純な言語スキルは浅い層に、複雑な言語スキルは深い層に存在している。 3)より単純な言語スキルの上に複雑な言語スキルが形成される。 私たちのコードは、https://github.com/Zodiark-ch/Language-Skill-of-LLMsで利用可能です。

The exploration of language skills in language models (LMs) has always been one of the central goals in mechanistic interpretability. However, existing circuit analyses often fall short in representing the full functional scope of these models, primarily due to the exclusion of Feed-Forward layers. Additionally, isolating the effect of a single language skill from a text, which inherently involves multiple entangled skills, poses a significant challenge. To address these gaps, we introduce a novel concept, Memory Circuit, a minimum unit that fully and independently manipulates the memory-reading functionality of a language model, and disentangle the transformer model precisely into a circuit graph which is an ensemble of paths connecting different memory circuits. Based on this disentanglement, we identify salient circuit paths, named as skill paths, responsible for three crucial language skills, i.e., the Previous Token Skill, Induction Skill and In-Context Learning (ICL) Skill, leveraging causal effect estimation through interventions and counterfactuals. Our experiments on various datasets confirm the correspondence between our identified skill paths and language skills, and validate three longstanding hypotheses: 1) Language skills are identifiable through circuit dissection; 2) Simple language skills reside in shallow layers, whereas complex language skills are found in deeper layers; 3) Complex language skills are formed on top of simpler language skills. Our codes are available at: https://github.com/Zodiark-ch/Language-Skill-of-LLMs.
翻訳日:2024-11-04 21:49:06 公開日:2024-10-02
# 大規模言語モデルにおけるゼロショット言語間移動のための層スワッピング

Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models ( http://arxiv.org/abs/2410.01335v1 )

ライセンス: Link先を確認
Lucas Bandarkar, Benjamin Muller, Pritish Yuvraj, Rui Hou, Nayan Singhal, Hongjiang Lv, Bing Liu, (参考訳) モデルマージ(モデルマージング)は、モデルスープング(英語版)のようなモデルマージ(英語版)は、異なるモデルと同じアーキテクチャを更なるトレーニングなしで組み合わせるプラクティスである。 本研究では,タスク固有のデータがしばしば利用できない非英語言語における目的タスクに対して,LLM(Large Language Models)を微調整することの難しさに対処するモデルマージ手法を提案する。 我々は、数学的推論に焦点をあて、言語と数学の機能を構成することで言語間移動を容易にする。 同じ事前学習モデルから、英語の数学の命令データと対象言語の汎用的な命令データに「専門家」を微調整する。 次に、数学の専門家の上位と下位のトランスフォーマー層を直接言語専門家のレイヤーに置き換え、それによって対象言語の数学性能が向上する。 その結果、マージされたモデルは、数学の訓練データが不足している4つの主要言語で、個々の専門家や他のマージ手法であるMGSMを10%上回った。 さらに、このレイヤスワップは、各専門家の微調整中の最も重要なパラメータの変化の解釈分析に基づいて、シンプルで安価で直感的なものである。 この方法でLLMを再構成して言語間転送を成功させる能力は、モデル専門知識を組み合わせたり、モジュール化されたソリューションを作成したり、すべての言語間で推論機能を伝達する将来の可能性を開くものだ。

Model merging, such as model souping, is the practice of combining different models with the same architecture together without further training. In this work, we present a model merging methodology that addresses the difficulty of fine-tuning Large Language Models (LLMs) for target tasks in non-English languages, where task-specific data is often unavailable. We focus on mathematical reasoning and without in-language math data, facilitate cross-lingual transfer by composing language and math capabilities. Starting from the same pretrained model, we fine-tune separate "experts" on math instruction data in English and on generic instruction data in the target language. We then replace the top and bottom transformer layers of the math expert directly with layers from the language expert, which consequently enhances math performance in the target language. The resulting merged models outperform the individual experts and other merging methods on the math benchmark, MGSM, by 10% across four major languages where math instruction data is scarce. In addition, this layer swapping is simple, inexpensive, and intuitive, as it is based on an interpretative analysis of the most important parameter changes during the fine-tuning of each expert. The ability to successfully re-compose LLMs for cross-lingual transfer in this manner opens up future possibilities to combine model expertise, create modular solutions, and transfer reasoning capabilities across languages all post hoc.
翻訳日:2024-11-04 21:39:21 公開日:2024-10-02
# VectorGraphNET:複雑な技術図面の正確なセグメンテーションのためのグラフ注意ネットワーク

VectorGraphNET: Graph Attention Networks for Accurate Segmentation of Complex Technical Drawings ( http://arxiv.org/abs/2410.01336v1 )

ライセンス: Link先を確認
Andrea Carrara, Stavros Nousias, André Borrmann, (参考訳) 本稿では,PDF形式での技術図面からベクトルデータを抽出し,解析する手法を提案する。 提案手法では,PDFファイルをSVG形式に変換し,幾何学的情報を用いてベクトル要素間の関係をキャプチャする特徴豊富なグラフ表現を作成する。 次に、階層的なラベル定義を持つグラフアテンション変換器を適用し、正確な線レベルセグメンテーションを実現する。 提案手法は,既存手法を超越した重み付きF1スコアの最先端結果が得られる公開FloorplanCADデータセットを含む2つのデータセットで評価される。 提案したベクトルベース手法は、ビジョンベースのアプローチよりも大規模技術描画解析にスケーラブルなソリューションを提供すると同時に、現在の最先端のベクトルベース手法よりもGPUパワーをはるかに少なくする。 さらに,意味的セグメンテーションタスクにおける重み付けされたF1スコア(wF1)の性能向上を示す。 本研究は,技術図面から有意義な情報を抽出し,新たなアプリケーションを実現し,AEC産業における既存のワークフローを改善するためのアプローチの有効性を実証するものである。 このアプローチの潜在的な応用としては、自動建築情報モデリング(BIM)と建設計画があり、これは産業の効率と生産性に大きな影響を及ぼす可能性がある。

This paper introduces a new approach to extract and analyze vector data from technical drawings in PDF format. Our method involves converting PDF files into SVG format and creating a feature-rich graph representation, which captures the relationships between vector entities using geometrical information. We then apply a graph attention transformer with hierarchical label definition to achieve accurate line-level segmentation. Our approach is evaluated on two datasets, including the public FloorplanCAD dataset, which achieves state-of-the-art results on weighted F1 score, surpassing existing methods. The proposed vector-based method offers a more scalable solution for large-scale technical drawing analysis compared to vision-based approaches, while also requiring significantly less GPU power than current state-of-the-art vector-based techniques. Moreover, it demonstrates improved performance in terms of the weighted F1 (wF1) score on the semantic segmentation task. Our results demonstrate the effectiveness of our approach in extracting meaningful information from technical drawings, enabling new applications, and improving existing workflows in the AEC industry. Potential applications of our approach include automated building information modeling (BIM) and construction planning, which could significantly impact the efficiency and productivity of the industry.
翻訳日:2024-11-04 21:39:21 公開日:2024-10-02
# PhyMPGN:時空間PDEシステムのための物理符号化メッセージパッシンググラフネットワーク

PhyMPGN: Physics-encoded Message Passing Graph Network for spatiotemporal PDE systems ( http://arxiv.org/abs/2410.01337v1 )

ライセンス: Link先を確認
Bocheng Zeng, Qi Wang, Mengtao Yan, Yang Liu, Ruizhi Chengze, Yi Zhang, Hongsheng Liu, Zidong Wang, Hao Sun, (参考訳) 偏微分方程式(PDE)の解法は、複雑な力学系をモデル化するための基礎となる。 近年の進歩は、時空間力学(例えば、古典的な数値法と比較して驚くほどのスピードアップゲイン)を予測するために、データ駆動型ニューラルネットワークモデルの大きな利点を示している。 しかし、既存のほとんどのニューラルネットワークモデルは、リッチなトレーニングデータに依存しており、外挿と一般化能力が限られており、複雑な条件(例えば、不規則メッシュや幾何学、複雑な境界条件、多様なPDEパラメータなど)の下で正確で信頼性の高い物理予測が得られない。 そこで本研究では,物理符号化されたメッセージパッシンググラフネットワーク(PhyMPGN)というグラフ学習手法を提案する。 具体的には、GNNを数値積分器に組み込んで、与えられたPDE系に対する時空間力学の時間的行進を近似する。 多くの物理現象が拡散過程によって制御されていることを考慮し、離散的なラプラス・ベルトラミ演算子を符号化した学習可能なラプラスブロックを設計し、GNN学習を物理的に実現可能な解空間で支援し指導する。 また、モデル収束性と精度を向上させるために境界条件パディング戦略も設計されている。 大規模な実験により、PhyMPGNは粗い非構造メッシュ上での様々な時空間ダイナミクスを正確に予測し、一貫して最先端の結果を達成し、他のベースラインをかなり上回ることを示した。

Solving partial differential equations (PDEs) serves as a cornerstone for modeling complex dynamical systems. Recent progresses have demonstrated grand benefits of data-driven neural-based models for predicting spatiotemporal dynamics (e.g., tremendous speedup gain compared with classical numerical methods). However, most existing neural models rely on rich training data, have limited extrapolation and generalization abilities, and suffer to produce precise or reliable physical prediction under intricate conditions (e.g., irregular mesh or geometry, complex boundary conditions, diverse PDE parameters, etc.). To this end, we propose a new graph learning approach, namely, Physics-encoded Message Passing Graph Network (PhyMPGN), to model spatiotemporal PDE systems on irregular meshes given small training datasets. Specifically, we incorporate a GNN into a numerical integrator to approximate the temporal marching of spatiotemporal dynamics for a given PDE system. Considering that many physical phenomena are governed by diffusion processes, we further design a learnable Laplace block, which encodes the discrete Laplace-Beltrami operator, to aid and guide the GNN learning in a physically feasible solution space. A boundary condition padding strategy is also designed to improve the model convergence and accuracy. Extensive experiments demonstrate that PhyMPGN is capable of accurately predicting various types of spatiotemporal dynamics on coarse unstructured meshes, consistently achieves the state-of-the-art results, and outperforms other baselines with considerable gains.
翻訳日:2024-11-04 21:39:21 公開日:2024-10-02
# テキスト教師付きエゴセントリックセマンティックセマンティックセグメンテーションにおける認知伝達とデカップリング

Cognition Transferring and Decoupling for Text-supervised Egocentric Semantic Segmentation ( http://arxiv.org/abs/2410.01341v1 )

ライセンス: Link先を確認
Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Fanman Meng, Qingbo Wu, Hongliang Li, (参考訳) 本稿では,画像レベルラベルからのテキストで弱中心画像に画素レベルのカテゴリを割り当てることを目的とした,テキスト管理エゴセントリックセマンティックセマンティックセマンティックセマンティックセマンティクス(TESS)タスクについて検討する。 本課題では, 被写体間干渉と被写体間干渉の密接な関係を, エゴセントリックなシーンで表現する。 しかし、最近の第3のビュー手法では、"リレーショナル・インセンティブ"問題により、セマンティック指向のサードビューデータとエゴセントリックな視点で事前訓練された、フリーズされたコントラシブ・ランゲージ・イメージ・プレトレーニング(CLIP)モデルを活用している。 そこで我々は,まず,画像とテキストを関連づけることで,自我中心の装着者・対象関係を学習する認知伝達デカップリングネットワーク(CTDN)を提案する。 さらに,認知伝達モジュール (CTM) を用いて, 大規模事前学習モデルから認知知識を抽出し, 多様な意味を持つ自我中心の物体を認識する。 転送された認識に基づいて、フォアグラウンド・バックグラウンド・デカップリング・モジュール(FDM)は、エゴセントリックな関係学習中に、フォアグラウンド・バックグラウンド・デカップリング・モジュール(FDM)が、フォアグラウンド・バックグラウンド・デカップリング・モジュール(FDM)をアンタングルして、フォアグラウンドとバックグラウンド領域を明示的に識別し、フォアグラウンド・バックグラウンド・インターフェクティブ・オブジェクトによる偽のアクティベーション領域を緩和する。 4つのTESSベンチマークの大規模な実験により、我々のアプローチの有効性が示され、これは最近の多くのメソッドよりも大きなマージンで優れています。 コードはhttps://github.com/ZhaofengSHI/CTDN.comで入手できる。

In this paper, we explore a novel Text-supervised Egocentic Semantic Segmentation (TESS) task that aims to assign pixel-level categories to egocentric images weakly supervised by texts from image-level labels. In this task with prospective potential, the egocentric scenes contain dense wearer-object relations and inter-object interference. However, most recent third-view methods leverage the frozen Contrastive Language-Image Pre-training (CLIP) model, which is pre-trained on the semantic-oriented third-view data and lapses in the egocentric view due to the ``relation insensitive" problem. Hence, we propose a Cognition Transferring and Decoupling Network (CTDN) that first learns the egocentric wearer-object relations via correlating the image and text. Besides, a Cognition Transferring Module (CTM) is developed to distill the cognitive knowledge from the large-scale pre-trained model to our model for recognizing egocentric objects with various semantics. Based on the transferred cognition, the Foreground-background Decoupling Module (FDM) disentangles the visual representations to explicitly discriminate the foreground and background regions to mitigate false activation areas caused by foreground-background interferential objects during egocentric relation learning. Extensive experiments on four TESS benchmarks demonstrate the effectiveness of our approach, which outperforms many recent related methods by a large margin. Code will be available at https://github.com/ZhaofengSHI/CTDN.
翻訳日:2024-11-04 21:39:21 公開日:2024-10-02
# 汎用ビジョンランゲージロボットマニピュレーションに向けて:ベンチマークとLLM誘導型3Dポリシー

Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy ( http://arxiv.org/abs/2410.01345v1 )

ライセンス: Link先を確認
Ricardo Garcia, Shizhe Chen, Cordelia Schmid, (参考訳) 言語条件のロボットポリシーを新しいタスクに一般化することは、適切なシミュレーションベンチマークが欠如していることから、依然として大きな課題である。 本稿では,視覚言語ロボット操作ポリシーの一般化能力を評価する新しいベンチマークであるGemBenchを導入することにより,このギャップに対処する。 GemBenchには7つの一般的なアクションプリミティブと4つのレベルの一般化、新しい配置、堅固で明瞭なオブジェクト、複雑な長距離タスクが含まれている。 GemBenchにおける最先端のアプローチを評価し,新しい手法を提案する。 我々の3D-LOTUSは、リッチな3D情報を利用して、言語による行動予測を行う。 3D-LOTUSは、目に見えるタスクの効率とパフォーマンスの両方に優れていますが、新しいタスクでは苦労しています。 3D-LOTUS++は3D-LOTUSの動作計画能力とLLMのタスク計画能力と、VLMのオブジェクト基底精度を統合したフレームワークである。 3D-LOTUS++はGemBenchの新しいタスクで最先端のパフォーマンスを実現し、ロボット操作の一般化のための新しい標準を設定している。 ベンチマーク、コード、トレーニングされたモデルは、 \url{https://www.di.ens.fr/willow/research/gembench/} で公開されている。

Generalizing language-conditioned robotic policies to new tasks remains a significant challenge, hampered by the lack of suitable simulation benchmarks. In this paper, we address this gap by introducing GemBench, a novel benchmark to assess generalization capabilities of vision-language robotic manipulation policies. GemBench incorporates seven general action primitives and four levels of generalization, spanning novel placements, rigid and articulated objects, and complex long-horizon tasks. We evaluate state-of-the-art approaches on GemBench and also introduce a new method. Our approach 3D-LOTUS leverages rich 3D information for action prediction conditioned on language. While 3D-LOTUS excels in both efficiency and performance on seen tasks, it struggles with novel tasks. To address this, we present 3D-LOTUS++, a framework that integrates 3D-LOTUS's motion planning capabilities with the task planning capabilities of LLMs and the object grounding accuracy of VLMs. 3D-LOTUS++ achieves state-of-the-art performance on novel tasks of GemBench, setting a new standard for generalization in robotic manipulation. The benchmark, codes and trained models are available at \url{https://www.di.ens.fr/willow/research/gembench/}.
翻訳日:2024-11-04 21:39:21 公開日:2024-10-02
# 生命の発見方法:システマティック・ニューラル・サーチ

Life, uh, Finds a Way: Systematic Neural Search ( http://arxiv.org/abs/2410.01349v1 )

ライセンス: Link先を確認
Alex Baranski, Jun Tani, (参考訳) エージェントの行動に迅速に適応し、新しい環境における時空間連続的な問題を解決するという課題に取り組む。 動物は新しい状況に適応する素晴らしい能力を示しており、これは人工システムに適合しない能力である。 深い強化学習を通した一般化に焦点をあてる代わりに、探索手順の物理的顕在化として観察行動を提案する。 驚くべきことに、これは行動のガイドとなる認知グラフのオンライン修正を使って効率的に行うことができ、連続空間における徹底的な探索は現実的ではないという圧倒的な見解に挑戦する。 本稿では,行動実行とグラフの変異の間の厳密なフィードバックループを調節することにより,行動の暗黙的に列挙するアルゴリズムについて述べる。 探索として振舞いをフレーミングすることで、リアルタイムな振舞い適応のための数学的に単純で生物学的に妥当なモデルを提供し、様々な状態空間ナビゲーション問題の解決に成功している。 このフレームワークは、他のアプリケーションに柔軟なニューラルネットワークを提供するだけでなく、適応的な振る舞いを理解するための強力なパラダイムも提供する。 以上の結果から,自律型ロボットが柔軟性を必要とするデータ分散環境において,複雑なスキルを習得する上で,発達学習と教師なしスキル獲得の潜在的な進歩が示唆された。

We tackle the challenge of rapidly adapting an agent's behavior to solve spatiotemporally continuous problems in novel settings. Animals exhibit extraordinary abilities to adapt to new contexts, a capacity unmatched by artificial systems. Instead of focusing on generalization through deep reinforcement learning, we propose viewing behavior as the physical manifestation of a search procedure, where robust problem-solving emerges from an exhaustive search across all possible behaviors. Surprisingly, this can be done efficiently using online modification of a cognitive graph that guides action, challenging the predominant view that exhaustive search in continuous spaces is impractical. We describe an algorithm that implicitly enumerates behaviors by regulating the tight feedback loop between execution of behaviors and mutation of the graph, and provide a neural implementation based on Hebbian learning and a novel high-dimensional harmonic representation inspired by entorhinal cortex. By framing behavior as search, we provide a mathematically simple and biologically plausible model for real-time behavioral adaptation, successfully solving a variety of continuous state-space navigation problems. This framework not only offers a flexible neural substrate for other applications but also presents a powerful paradigm for understanding adaptive behavior. Our results suggest potential advancements in developmental learning and unsupervised skill acquisition, paving the way for autonomous robots to master complex skills in data-sparse environments demanding flexibility.
翻訳日:2024-11-04 21:39:21 公開日:2024-10-02
# Takin-VC: 統合ハイブリッドコンテンツとメモリ拡張コンテキスト対応音色モデリングによるゼロショット音声変換

Takin-VC: Zero-shot Voice Conversion via Jointly Hybrid Content and Memory-Augmented Context-Aware Timbre Modeling ( http://arxiv.org/abs/2410.01350v1 )

ライセンス: Link先を確認
Yuguang Yang, Yu Pan, Jixun Yao, Xiang Zhang, Jianhao Ye, Hongbin Zhou, Lei Xie, Lei Ma, Jianjun Zhao, (参考訳) ゼロショット音声変換(VC)は、元話者の音色を元の音声内容を変えることなく任意の未知の音色に変換することを目的としており、近年のゼロショットVC手法の進歩は目覚ましい進歩を遂げているが、話者類似性や音声自然性の改善の観点からは、改善の余地は依然として残っており、本稿では、この課題に対処するために、共同ハイブリッドコンテンツとメモリ拡張コンテキスト対応の音色モデリングに基づく新しいゼロショットVCフレームワークであるTakin-VCを提案する。 具体的には、トレーニング済みのWavLMとHybridFormerの量子化特徴を利用する、ニューラルネットワークトレーニングでガイドされた効果的なハイブリッドコンテンツエンコーダを最初に提示し、ソース音声の言語的内容の抽出を行う。 次に, 意味論的に関連づけられたターゲットの音色を微粒化し学習する, 文脈認識型音色モデリング手法を提案する。 話者の類似性と実時間性能をさらに向上するために,条件付きフローマッチングモデルを用いて,音源のメルスペクトルを再構成する。 さらに,フローマッチングプロセスのための高品質な条件付きターゲット入力を生成するための効率的なメモリ拡張モジュールを提案し,システム全体の性能を向上する。 実験結果から,Takin-VC法は最先端のゼロショットVCシステムを超え,音声の自然性と話者類似性の両方において優れた性能が得られることが示された。

Zero-shot voice conversion (VC) aims to transform the source speaker timbre into an arbitrary unseen one without altering the original speech content.While recent advancements in zero-shot VC methods have shown remarkable progress, there still remains considerable potential for improvement in terms of improving speaker similarity and speech naturalness.In this paper, we propose Takin-VC, a novel zero-shot VC framework based on jointly hybrid content and memory-augmented context-aware timbre modeling to tackle this challenge. Specifically, an effective hybrid content encoder, guided by neural codec training, that leverages quantized features from pre-trained WavLM and HybridFormer is first presented to extract the linguistic content of the source speech. Subsequently, we introduce an advanced cross-attention-based context-aware timbre modeling approach that learns the fine-grained, semantically associated target timbre features. To further enhance both speaker similarity and real-time performance, we utilize a conditional flow matching model to reconstruct the Mel-spectrogram of the source speech. Additionally, we advocate an efficient memory-augmented module designed to generate high-quality conditional target inputs for the flow matching process, thereby improving the overall performance of the proposed system. Experimental results demonstrate that the proposed Takin-VC method surpasses state-of-the-art zero-shot VC systems, delivering superior performance in terms of both speech naturalness and speaker similarity.
翻訳日:2024-11-04 21:39:21 公開日:2024-10-02
# 生体伝導体コミュニティにおける生物データ科学の学習と教育

Learning and teaching biological data science in the Bioconductor community ( http://arxiv.org/abs/2410.01351v1 )

ライセンス: Link先を確認
Jenny Drnevich, Frederick J. Tan, Fabricio Almeida-Silva, Robert Castelo, Aedin C. Culhane, Sean Davis, Maria A. Doyle, Susan Holmes, Leo Lahti, Alexandru Mahmoud, Kozo Nishida, Marcel Ramos, Kevin Rue-Albrecht, David J. H. Shih, Laurent Gatto, Charlotte Soneson, (参考訳) 現代の生物学的研究はデータ集約化が進み、生物データ科学における効果的なトレーニングの需要が高まっている。 本稿では、バイオコンダクタプロジェクト(オミクスデータ分析に焦点を当てたオープンソースソフトウェアコミュニティ)における重要なリソースとベストプラクティスの概要について述べる。 このガイドは、この分野の学習者と教育者の両方にとって貴重な参考資料となっている。

Modern biological research is increasingly data-intensive, leading to a growing demand for effective training in biological data science. In this article, we provide an overview of key resources and best practices available within the Bioconductor project - an open-source software community focused on omics data analysis. This guide serves as a valuable reference for both learners and educators in the field.
翻訳日:2024-11-04 21:39:21 公開日:2024-10-02
# テキスト文書からのビジネスプロセス情報抽出のためのデータアノテーション支援

Assisted Data Annotation for Business Process Information Extraction from Textual Documents ( http://arxiv.org/abs/2410.01356v1 )

ライセンス: Link先を確認
Julian Neuberger, Han van der Aa, Lars Ackermann, Daniel Buschek, Jannic Herrmann, Stefan Jablonski, (参考訳) 自然言語のテキストプロセス記述から機械学習に基づくプロセスモデルの生成は、時間集約的で高価なプロセス発見フェーズのソリューションを提供する。 多くの組織は、ビジネスプロセス管理とその利益を利用する前に、このフェーズを実行する必要があります。 しかし、これに対する研究は、大規模で高品質なデータセットが明らかに欠如していることによって厳しく抑制されている。 このデータ不足は、データセット作成のための適切なツールアシストが欠如していることや、高いワークロードとデータ品質の低下に起因する可能性がある。 本稿では、データセット作成を支援する2つの支援機能、テキスト中のプロセス情報を特定するレコメンデーションシステム、すでに特定されているプロセス情報の現在の状態をグラフィカルなビジネスプロセスモデルとして可視化する2つの支援機能について検討する。 31人の参加者によるコントロールされたユーザスタディによると、データセット作成を支援するリコメンデーションは、ワークロードのすべての側面を最大51.0\%$に下げ、アノテーションの品質を最大38.9\%$に大幅に改善する。 新たな支援戦略のさらなる研究を奨励するために、すべてのデータとコードを利用可能にしています。

Machine-learning based generation of process models from natural language text process descriptions provides a solution for the time-intensive and expensive process discovery phase. Many organizations have to carry out this phase, before they can utilize business process management and its benefits. Yet, research towards this is severely restrained by an apparent lack of large and high-quality datasets. This lack of data can be attributed to, among other things, an absence of proper tool assistance for dataset creation, resulting in high workloads and inferior data quality. We explore two assistance features to support dataset creation, a recommendation system for identifying process information in the text and visualization of the current state of already identified process information as a graphical business process model. A controlled user study with 31 participants shows that assisting dataset creators with recommendations lowers all aspects of workload, up to $-51.0\%$, and significantly improves annotation quality, up to $+38.9\%$. We make all data and code available to encourage further research on additional novel assistance strategies.
翻訳日:2024-11-04 21:39:21 公開日:2024-10-02
# FlashMask: FlashAttentionの効率的でリッチなマスク拡張

FlashMask: Efficient and Rich Mask Extension of FlashAttention ( http://arxiv.org/abs/2410.01359v1 )

ライセンス: Link先を確認
Guoxia Wang, Jinle Zeng, Xiyuan Xiao, Siming Wu, Jiabin Yang, Lujing Zheng, Zeyu Chen, Jiang Bian, Dianhai Yu, Haifeng Wang, (参考訳) バニラアテンションの計算とメモリ要求は、シーケンス長が$N$で2次的にスケールし、Transformerモデルで長いシーケンスを処理する上で重要な課題となった。 FlashAttentionは、$O(N^2)$メモリ依存を排除し、IO対応メモリ最適化を通じて注意の遅延を低減することで、これらの課題を軽減する。 しかし、特定の注意マスクタイプに対するネイティブサポートは限られており、本質的にはより複雑なマスク要求に対応していない。 以前のアプローチでは、O(N^2)$メモリの複雑さを持つ高密度マスクを使用することで非効率になる。 本稿では,FlashAttentionの拡張であるFlashMaskを提案する。 このアプローチは、幅広いマスクタイプを効率よく表現し、最適化されたカーネル実装の開発を容易にする。 この新しい表現を採用することで、FlashMaskは長いコンテキストシーケンスのモデリングに適した線形メモリ複雑性$O(N)$を達成する。 さらに、この表現により、計算精度を犠牲にすることなく、アテンションマスクのスパーシティを活用することで不要な計算を不要にするカーネル最適化が可能となり、計算効率が向上する。 SFT, LoRA, DPO, RMなどのLLMの微調整およびアライメント訓練におけるFlashMaskの性能を評価する。 FlashMaskは、既存のFlashAttention高密度メソッドと比較して、エンドツーエンドのスピードアップが1.65倍から3.22倍まで、大幅なスループット向上を実現している。 さらに、カーネルレベルの比較では、A100 GPUの最大FLOP/sの37.8%から62.3%を達成し、最新のFlexAttentionを12.1%から60.7%上回った。 コードはPaddlePaddle上でオープンソースとして公開されており、PaddleNLPに統合されている。

The computational and memory demands of vanilla attention scale quadratically with the sequence length $N$, posing significant challenges for processing long sequences in Transformer models. FlashAttention alleviates these challenges by eliminating the $O(N^2)$ memory dependency and reducing attention latency through IO-aware memory optimizations. However, its native support for certain attention mask types is limited, and it does not inherently accommodate more complex masking requirements. Previous approaches resort to using dense masks with $O(N^2)$ memory complexity, leading to inefficiencies. In this paper, we propose FlashMask, an extension of FlashAttention that introduces a column-wise sparse representation of attention masks. This approach efficiently represents a wide range of mask types and facilitates the development of optimized kernel implementations. By adopting this novel representation, FlashMask achieves linear memory complexity $O(N)$, suitable for modeling long-context sequences. Moreover, this representation enables kernel optimizations that eliminate unnecessary computations by leveraging sparsity in the attention mask, without sacrificing computational accuracy, resulting in higher computational efficiency. We evaluate FlashMask's performance in fine-tuning and alignment training of LLMs such as SFT, LoRA, DPO, and RM. FlashMask achieves significant throughput improvements, with end-to-end speedups ranging from 1.65x to 3.22x compared to existing FlashAttention dense method. Additionally, our kernel-level comparisons demonstrate that FlashMask surpasses the latest counterpart, FlexAttention, by 12.1% to 60.7% in terms of kernel TFLOPs/s, achieving 37.8% to 62.3% of the theoretical maximum FLOPs/s on the A100 GPU. The code is open-sourced on PaddlePaddle and integrated into PaddleNLP, supporting models with over 100 billion parameters for contexts up to 128K tokens.
翻訳日:2024-11-04 21:39:21 公開日:2024-10-02
# 軽量カメラによる高品質アニマタブルアイライド形状

High-quality Animatable Eyelid Shapes from Lightweight Captures ( http://arxiv.org/abs/2410.01360v1 )

ライセンス: Link先を確認
Junfeng Lyu, Feng Xu, (参考訳) 高品質なアイライド再構成とアニメーションは、微妙な細部と複雑な変形のために難しい。 従来の作業は通常、捕獲コストと細部の品質の間のトレードオフに悩まされる。 本稿では,携帯電話で撮影したRGBビデオのみを用いて,詳細なアイライド再構成とアニメーションを実現する新しい手法を提案する。 本手法では,眼球の静的および動的情報(例えば,位置,回転)を用いて眼球再構成を支援し,眼球自動校正法と協調して眼球パラメータの取得を行う。 さらに,眼科のセマンティックアニメーション制御を実現するために,ニューラルアイリッド制御モジュールを開発した。 我々の知る限り、我々は軽量撮影から高品質なアイライド再構成とアニメーションを初めて提案する。 合成データと実データの両方に対する大規模な実験により,本手法は,同レベルのキャプチャ設定に基づく従来の手法と比較して,より詳細かつ現実的な結果が得られることが示された。 コードはhttps://github.com/StoryMY/AniEyelid.comで入手できる。

High-quality eyelid reconstruction and animation are challenging for the subtle details and complicated deformations. Previous works usually suffer from the trade-off between the capture costs and the quality of details. In this paper, we propose a novel method that can achieve detailed eyelid reconstruction and animation by only using an RGB video captured by a mobile phone. Our method utilizes both static and dynamic information of eyeballs (e.g., positions and rotations) to assist the eyelid reconstruction, cooperating with an automatic eyeball calibration method to get the required eyeball parameters. Furthermore, we develop a neural eyelid control module to achieve the semantic animation control of eyelids. To the best of our knowledge, we present the first method for high-quality eyelid reconstruction and animation from lightweight captures. Extensive experiments on both synthetic and real data show that our method can provide more detailed and realistic results compared with previous methods based on the same-level capture setups. The code is available at https://github.com/StoryMY/AniEyelid.
翻訳日:2024-11-04 21:29:22 公開日:2024-10-02
# 量子ボルツマン方程式における温度依存性熱ポテンシャル

The temperature dependent thermal potential in Quantum Boltzmann equation ( http://arxiv.org/abs/2410.01362v1 )

ライセンス: Link先を確認
Zheng-Chuan Wang, (参考訳) 線形応答理論の観点から温度勾配によって駆動される熱輸送過程を探るため、Luttingerらは熱スカラーとベクトルポテンシャル[1,2]を提案した。 本稿では,これらの現象学的熱ポテンシャルの微妙な起源について考察する。 量子ボルツマン方程式(QBE)から導かれる温度依存減衰力に基づいて、導電性電子の散乱から生じる減衰力の分布関数による熱スカラーとベクトルポテンシャルを表現する。 いくつかの系における電子-フォノン相互作用の散乱によってこれを説明できる。 局所平衡分布関数の温度と温度勾配は、以前の研究[1,2]と互換性のある熱スカラーおよびベクトルポテンシャルに影響を及ぼす。 QBEにおける量子補正項の影響も考慮され、減衰力だけでなく、ドリフト項の異常速度にも寄与する。 QBEの近似解が与えられ、減衰力、熱電流密度、その他の物理観測可能な数値が図に示される。

To explore the thermal transport procedure driven by temperature gradient in terms of linear response theory, Luttinger et al. proposed the thermal scalar and vector potential[1,2] . In this manuscript, we try to address the microscopic origin of these phenomenological thermal potentials. Based on the temperature dependent damping force derived from quantum Boltzmann equation (QBE), we express the thermal scalar and vector potential by the distribution function in damping force, which originates from the scattering of conduction electrons. We illustrate this by the scattering of electron-phonon interaction in some systems. The temperature and temperature gradient in the local equilibrium distribution function will have effect on the thermal scalar and vector potentials, which is compatible with the previous works[1,2] . The influence from quantum correction terms in QBE are also considered, which contribute not only to the damping force, but also to the anomalous velocity in the drift term. An approximated solution for the QBE is given, the numerical results for the damping force, thermal current density as well as other physical observable are shown in figures.
翻訳日:2024-11-04 21:29:22 公開日:2024-10-02
# PCQPR:反射を用いた積極的に対話型質問計画

PCQPR: Proactive Conversational Question Planning with Reflection ( http://arxiv.org/abs/2410.01363v1 )

ライセンス: Link先を確認
Shasha Guo, Lizi Liao, Jing Zhang, Cuiping Li, Hong Chen, (参考訳) 会話質問生成(CQG)は、教育、カスタマーサービス、エンターテイメントなどの分野における会話質問応答システムの対話性を高める。 しかし、従来のCQGは、主に即時的な文脈に焦点を当てており、特定の結論に向けて会話を導くのに必要な会話の見通しを欠いている。 この制限は、結論指向の会話結果を達成する能力を大幅に制限する。 本研究は,CQGタスクを,会話の展開に反応するだけでなく,結論指向の質問応答対に向けて積極的に操作することで,協調型会話質問生成(CCQG)として再定義する。 そこで我々は,PCQPR(Proactive Conversational Question Planning with Self-Refining)と呼ばれる新しい手法を提案する。 具体的には、モンテカルロ木探索(MCTS)にインスパイアされた計画アルゴリズムと、大規模言語モデル(LLM)の分析能力を統合することで、PCQPRは今後の会話のターンを予測し、質問戦略を継続的に洗練する。 この反復的な自己修復機構は、特定の結果に到達するために戦略的に考案された文脈関連質問の生成を保証する。 我々は,PCQPRが既存のCQG手法をはるかに上回っていることを示し,結論指向の対話型質問応答システムへのパラダイムシフトを示す。

Conversational Question Generation (CQG) enhances the interactivity of conversational question-answering systems in fields such as education, customer service, and entertainment. However, traditional CQG, focusing primarily on the immediate context, lacks the conversational foresight necessary to guide conversations toward specified conclusions. This limitation significantly restricts their ability to achieve conclusion-oriented conversational outcomes. In this work, we redefine the CQG task as Conclusion-driven Conversational Question Generation (CCQG) by focusing on proactivity, not merely reacting to the unfolding conversation but actively steering it towards a conclusion-oriented question-answer pair. To address this, we propose a novel approach, called Proactive Conversational Question Planning with self-Refining (PCQPR). Concretely, by integrating a planning algorithm inspired by Monte Carlo Tree Search (MCTS) with the analytical capabilities of large language models (LLMs), PCQPR predicts future conversation turns and continuously refines its questioning strategies. This iterative self-refining mechanism ensures the generation of contextually relevant questions strategically devised to reach a specified outcome. Our extensive evaluations demonstrate that PCQPR significantly surpasses existing CQG methods, marking a paradigm shift towards conclusion-oriented conversational question-answering systems.
翻訳日:2024-11-04 21:29:22 公開日:2024-10-02
# 深層学習に基づく画像再構成によるアンチバイオフリングレンズレスカメラシステム

Anti-biofouling Lensless Camera System with Deep Learning based Image Reconstruction ( http://arxiv.org/abs/2410.01365v1 )

ライセンス: Link先を確認
Naoki Ide, Tomohiro Kawahara, Hiroshi Ueno, Daiki Yanagidaira, Susumu Takatsuka, (参考訳) 近年、海底カメラの需要が高まり、海洋構造物の状況を監視し、長期間の観測で水環境の個体数をチェックしている。 この観察で大きな問題の1つは、バイオファウリングスティックが開口部とレンズに密集し、カメラが鮮明な画像を撮影するのを防ぐことである。 本研究では、深層学習による画像再構成に基づくバイオファウリングやコンピュータビジョン技術に高い耐性を持つ材料技術を適用した水中カメラをレンズレスカメラに適用する。 この目的のために、プロトタイプカメラは、銅などの薄い金属板に1kの長方形のピンホールを持つ符号化開口を用いており、生物汚泥の成長を妨げ、表面をきれいに保っている。 レンズレスカメラで撮影される画像は、従来のガラスベースのレンズが欠如しているため、一般的にはあまり形成されていないが、ViT (Vision Transformer) を用いたディープラーニングアプローチは、最近、オリジナル画像の再構成をよく示しており、我々はゲート型MDP (Multilayer Perceptron) を用いても良好な結果が得られることを示した。 一方, 生体忌避材料の厚みは, 壁面の非意図的な反射や吸収を避けるために, ピンホールの大きさよりも十分に細い開口部を使用することが要求される。 そこで, 画像再構成のための十分な薄板を作製し, 現在, 防水性のみの通常のカメラと比較して, 生物汚染効果を十分に実証できるかどうかを判断するために, 実際の海水環境とバイオレペレンス開口のレンズレスカメラの試験を行っている。

In recent years, there has been an increasing demand for underwater cameras that monitor the condition of offshore structures and check the number of individuals in aqua culture environments with long-period observation. One of the significant issues with this observation is that biofouling sticks to the aperture and lens densely and prevents cameras from capturing clear images. This study examines an underwater camera that applies material technologies with high inherent resistance to biofouling and computer vision technologies based on image reconstruction by deep learning to lens-less cameras. For this purpose, our prototype camera uses a coded aperture with 1k rectangular shape pinholes in a thin metal plate, such as copper, which hinder the growth of biofouling and keep the surface clean. Although images taken by lens-less cameras are usually not well formed due to lack of the traditional glass-based lens, a deep learning approach using ViT (Vision Transformer) has recently demonstrated reconstructing original photo images well and our study shows that using gated MLP (Multilayer Perceptron) also yields good results. On the other hand, a certain degree of thickness for bio-repellence materials is required to exhibit their effect the thickness of aperture is necessary to use apertures sufficiently thinner than the size of the pinholes to avoid unintentional reflection and absorption on the sidewalls. Therefore, we prepared a sufficiently thin plate for image reconstruction and now currently we conduct tests of the lens-less camera of the bio-repellence aperture with actual seawater environments to determine whether it can sufficiently demonstrate the biofouling effect compared with usual camera with only waterproof.
翻訳日:2024-11-04 21:29:22 公開日:2024-10-02
# 学習自由な画像スタイル伝達のための潜時拡散モデルの有用性

Harnessing the Latent Diffusion Model for Training-Free Image Style Transfer ( http://arxiv.org/abs/2410.01366v1 )

ライセンス: Link先を確認
Kento Masui, Mayu Otani, Masahiro Nomura, Hideki Nakayama, (参考訳) 拡散モデルは、最近、高品質な画像を生成する能力を示した。 しかし、生成過程の制御は依然として課題となっている。 イメージスタイル転送タスクは、スタイルイメージの視覚特性を他のコンテンツイメージに転送する課題の1つである。 このタスクの典型的な障害は、事前訓練されたモデルの追加トレーニングの必要性である。 本研究では,事前学習した潜在拡散モデル(LDM)に対して,学習不要なスタイル伝達アルゴリズムであるスタイルトラッキング逆拡散プロセス(STRDP)を提案する。 本アルゴリズムでは,LDMの逆拡散過程において,スタイル画像の符号化履歴を追跡しながら,適応インスタンス正規化(AdaIN)関数を異なる方法で適用する。 このアルゴリズムは、計算コストの削減のために、LDMの潜在空間におけるスタイル転送を可能にし、様々なLDMモデルの互換性を提供する。 本手法は,一連の実験とユーザスタディを通じて,追加の訓練を伴わずに画像のスタイルを素早く転送できることを示す。 アルゴリズムのスピード、互換性、トレーニングなしの側面は、広範なアプリケーションのためのスタイルとLCMの組み合わせによるアジャイル実験を促進する。

Diffusion models have recently shown the ability to generate high-quality images. However, controlling its generation process still poses challenges. The image style transfer task is one of those challenges that transfers the visual attributes of a style image to another content image. Typical obstacle of this task is the requirement of additional training of a pre-trained model. We propose a training-free style transfer algorithm, Style Tracking Reverse Diffusion Process (STRDP) for a pretrained Latent Diffusion Model (LDM). Our algorithm employs Adaptive Instance Normalization (AdaIN) function in a distinct manner during the reverse diffusion process of an LDM while tracking the encoding history of the style image. This algorithm enables style transfer in the latent space of LDM for reduced computational cost, and provides compatibility for various LDM models. Through a series of experiments and a user study, we show that our method can quickly transfer the style of an image without additional training. The speed, compatibility, and training-free aspect of our algorithm facilitates agile experiments with combinations of styles and LDMs for extensive application.
翻訳日:2024-11-04 21:29:22 公開日:2024-10-02
# 高次表現力を有する動的グラフニューラルネットワークの実現に向けて

Towards Dynamic Graph Neural Networks with Provably High-Order Expressive Power ( http://arxiv.org/abs/2410.01367v1 )

ライセンス: Link先を確認
Zhe Wang, Tianjian Zhao, Zhen Zhang, Jiawei Chen, Sheng Zhou, Yan Feng, Chun Chen, Can Wang, (参考訳) 動的グラフニューラルネットワーク(DyGNN)は、進化するグラフに関する学習表現に対して、研究の注目を集めている。 その効果にもかかわらず、既存のDyGNNの表現力の制限は、動的グラフの重要な進化パターンをキャプチャすることを妨げる。 ヒューリスティックな特徴を持つ表現能力を向上しようとする研究もあるが、証明可能で定量的な高次表現力を持つDyGNNフレームワークはいまだに不足している。 そこで我々はまず,DyGNNの表現力の定量化のための参照アルゴリズムとして,k次元動的WLテスト(k-DWL)を提案する。 既存のDyGNNの表現力は1-DWLテストにより上界となることを示した。 表現力を高めるために,周辺ノードペアとの相互作用履歴を集約して中央ノードペアの表現を更新する高次表現力を有する動的グラフニューラルネットワーク(HopeDGN)を提案する。 理論的な結果から,ホープDGNは2-DWL検定と同等の表現力が得られることが示された。 次に,局所変種であるHopeDGN に対する Transformer ベースの実装を提案する。 実験の結果、ホープDGNは最大3.12%の性能向上を達成し、ホープDGNの有効性を示した。

Dynamic Graph Neural Networks (DyGNNs) have garnered increasing research attention for learning representations on evolving graphs. Despite their effectiveness, the limited expressive power of existing DyGNNs hinders them from capturing important evolving patterns of dynamic graphs. Although some works attempt to enhance expressive capability with heuristic features, there remains a lack of DyGNN frameworks with provable and quantifiable high-order expressive power. To address this research gap, we firstly propose the k-dimensional Dynamic WL tests (k-DWL) as the referencing algorithms to quantify the expressive power of DyGNNs. We demonstrate that the expressive power of existing DyGNNs is upper bounded by the 1-DWL test. To enhance the expressive power, we propose Dynamic Graph Neural Network with High-order expressive power (HopeDGN), which updates the representation of central node pair by aggregating the interaction history with neighboring node pairs. Our theoretical results demonstrate that HopeDGN can achieve expressive power equivalent to the 2-DWL test. We then present a Transformer-based implementation for the local variant of HopeDGN. Experimental results show that HopeDGN achieved performance improvements of up to 3.12%, demonstrating the effectiveness of HopeDGN.
翻訳日:2024-11-04 21:29:22 公開日:2024-10-02
# オーブンスケジューリング問題に対する理論的下界

Theoretical Lower Bounds for the Oven Scheduling Problem ( http://arxiv.org/abs/2410.01368v1 )

ライセンス: Link先を確認
Francesca Da Ros, Marie-Louise Lackner, Nysret Musliu, (参考訳) オーブンスケジューリング問題(オーブンスケジューリング問題、英: Oven Scheduling Problem、OSP)は、半導体産業で発生するNPハードな実世界の並列バッチスケジューリング問題である。 問題の目的は、オーブン全体の実行時間、仕事の難易度、セットアップコストを最小化しながら、オーブン上の一連のジョブをスケジュールすることである。 同時に、オーブンの適格性と可用性、ジョブのリリース日、バッチ間のセットアップ時間、オーブンの容量制限など、さまざまな制約にも従わなければならない。 効率的なスケジュールを得るための鍵は、バッチで互換性のあるジョブを同時に処理することだ。 本稿では,OSPの論理的,問題固有の下限を高速に計算する手法を提案する。 これらの下位境界を徹底的に検討し、それらの品質を評価し、既存のソリューション手法への統合を探求する。 具体的には, シミュレーションアニーリングを用いて, 高精度な手法とメタヒューリスティックな局所探索手法について検討する。 さらに、これらの問題固有の下限は、厳密な下限の提供に失敗することが多い大規模インスタンスの解の質を評価することができる。

The Oven Scheduling Problem (OSP) is an NP-hard real-world parallel batch scheduling problem arising in the semiconductor industry. The objective of the problem is to schedule a set of jobs on ovens while minimizing several factors, namely total oven runtime, job tardiness, and setup costs. At the same time, it must adhere to various constraints such as oven eligibility and availability, job release dates, setup times between batches, and oven capacity limitations. The key to obtaining efficient schedules is to process compatible jobs simultaneously in batches. In this paper, we develop theoretical, problem-specific lower bounds for the OSP that can be computed very quickly. We thoroughly examine these lower bounds, evaluating their quality and exploring their integration into existing solution methods. Specifically, we investigate their contribution to exact methods and a metaheuristic local search approach using simulated annealing. Moreover, these problem-specific lower bounds enable us to assess the solution quality for large instances for which exact methods often fail to provide tight lower bounds.
翻訳日:2024-11-04 21:29:22 公開日:2024-10-02
# メタ複雑性からの量子暗号

Quantum Cryptography from Meta-Complexity ( http://arxiv.org/abs/2410.01369v1 )

ライセンス: Link先を確認
Taiga Hiroka, Tomoyuki Morimae, (参考訳) 古典暗号において、一方通行関数(OWF)は最小の仮定であるが、近年の活発な研究により、OWFは必ずしも量子暗号における最小の仮定ではないことが示されている。 擬似ランダム状態発生器(PRSG)、一方向状態発生器(OWSG)、一方向パズル(OWPuzzs)、EFIペアなど、いくつかの新しいプリミティブが導入されている。 それらはOWFよりも弱いと考えられているが、それでも多くの有用な応用を暗示している。 OWFのない量子暗号の可能性が開かれた今、この分野における最も重要なゴールは、具体的なインスタンス化を提供することである。 しかし、量子暗号では、これらのプリミティブのすべての既知の構成はOWFからのみである。 それらは、OWFを暗示しない具体的な硬さの仮定に基づいてインスタンス化されているか? 理想的には、仮定は暗号以外の文脈で研究されるべきである。 本稿では,GapK問題の量子平均硬度がOWPuzzsの存在を意味することを示すことによって,この問題に対する候補解を与える。 私たちが知る限り、'`Microcrypt''プリミティブがOWFを暗示していない具体的な硬さの仮定に基づいて構築されたのは、これが初めてです。 さらに、仮定は暗号以外の文脈、特にメタ複雑さの分野で研究される。

In classical cryptography, one-way functions (OWFs) are the minimal assumption, while recent active studies have demonstrated that OWFs are not necessarily the minimum assumption in quantum cryptography. Several new primitives have been introduced such as pseudorandom state generators (PRSGs), one-way state generators (OWSGs), one-way puzzles (OWPuzzs), and EFI pairs. They are believed to be weaker than OWFs, but they still imply many useful applications. Now that the possibility of quantum cryptography without OWFs has opened up, the most important goal in the field is to provide them with concrete instantiations. However, in quantum cryptography, all known constructions of those primitives are only from OWFs. We therefore have the following important open problem: Do they have instantiations based on some concrete hardness assumptions that will not imply OWFs? Ideally, the assumptions should be the ones that are studied in other contexts than cryptography. In this paper, we give a candidate answer to the question by showing that quantum-average-hardness of GapK problem implies the existence of OWPuzzs. As far as we know, this is the first time that a ``Microcrypt'' primitive is constructed based on concrete hardness assumptions that do not seem to imply OWFs. Moreover, the assumptions are studied in other contexts than cryptography, especially in the field of meta-complexity.
翻訳日:2024-11-04 21:29:22 公開日:2024-10-02
# Newton が Marchenko-Pastur を発表 - Hessian Sketching と Debiasing による超並列2階最適化

Newton Meets Marchenko-Pastur: Massively Parallel Second-Order Optimization with Hessian Sketching and Debiasing ( http://arxiv.org/abs/2410.01374v1 )

ライセンス: Link先を確認
Elad Romanov, Fangzhao Zhang, Mert Pilanci, (参考訳) サーバーレスクラウドコンピューティングの最近の進歩、特にFaaS(Function as a Service)モデルに触発された私たちは、労働者間の通信が制限された、非常に並列な方法で凸関数を最小化する問題を考える。 L2ペナルティの対象となる2つの微分可能な対象に焦点をあてて、中央ノード(サーバ)がニュートン法を効果的に実行し、その高イテレーションコスト(ヘッセン語を反転させる必要から生じる)を労働者にオフロードするスキームを提案する。 提案手法では, 適応的スケッチ手法を用いて, 作業者は独立に粗いが, 低バイアスで逆ヘッセン推定を行う。 すると、サーバは労働者が生成する降下方向を平均化し、正確なニュートンステップを近似する。 適応スケッチ方式の主な構成要素は,分散最適化のためのヘッセンスケッチに関する既存の文献にほとんど記載されていない,スケッチ次元を選択するための低複雑さ手順である。 我々の解は漸近的ランダム行列論、特にマルテンコ・パストゥル法に基づく。 ガウススケッチ行列に対しては、本質的に無次元であるアルゴリズムの漸近的保証を導出する。 最後に、目的が自己調和である場合、我々は、この論文で考慮された設定を超えて独立した関心を持つうる、うるさいヘッセンを持つニュートン法に対する収束保証を提供する。

Motivated by recent advances in serverless cloud computing, in particular the "function as a service" (FaaS) model, we consider the problem of minimizing a convex function in a massively parallel fashion, where communication between workers is limited. Focusing on the case of a twice-differentiable objective subject to an L2 penalty, we propose a scheme where the central node (server) effectively runs a Newton method, offloading its high per-iteration cost -- stemming from the need to invert the Hessian -- to the workers. In our solution, workers produce independently coarse but low-bias estimates of the inverse Hessian, using an adaptive sketching scheme. The server then averages the descent directions produced by the workers, yielding a good approximation for the exact Newton step. The main component of our adaptive sketching scheme is a low-complexity procedure for selecting the sketching dimension, an issue that was left largely unaddressed in the existing literature on Hessian sketching for distributed optimization. Our solution is based on ideas from asymptotic random matrix theory, specifically the Marchenko-Pastur law. For Gaussian sketching matrices, we derive non asymptotic guarantees for our algorithm which are essentially dimension-free. Lastly, when the objective is self-concordant, we provide convergence guarantees for the approximate Newton's method with noisy Hessians, which may be of independent interest beyond the setting considered in this paper.
翻訳日:2024-11-04 21:29:22 公開日:2024-10-02
# ビデオから物理を学ぶ:連続力学系の教師なし物理パラメータ推定

Learning Physics From Video: Unsupervised Physical Parameter Estimation for Continuous Dynamical Systems ( http://arxiv.org/abs/2410.01376v1 )

ライセンス: Link先を確認
Alejandro Castañeda Garcia, Jan van Gemert, Daan Brinks, Nergis Tömen, (参考訳) ビデオから物理力学系パラメータを抽出することは、自然科学やテクノロジーの応用に大きな関心を持つ。 ビデオからの自動パラメータ推定の最先端は、大規模データセット上で教師付きディープネットワークをトレーニングすることによって解決される。 このようなデータセットにはラベルが必要ですが、取得は困難です。 フレーム予測に依存する教師なしのテクニックがいくつか存在するが、それらは長い訓練時間、異なる初期化の下で不安定であり、手書き動作の問題に限られている。 本研究では, 動き以外の動的システムに適合し, 従来の手法に比べて初期化に頑健である, 一つのビデオから, 既知の連続支配方程式の物理パラメータを推定する手法を提案する。 さらに,KL分割に基づく損失関数を潜在空間に実装することにより,フレーム予測の必要性を排除し,自明な解への収束を回避し,モデルサイズと計算量を削減する。

Extracting physical dynamical system parameters from videos is of great interest to applications in natural science and technology. The state-of-the-art in automatic parameter estimation from video is addressed by training supervised deep networks on large datasets. Such datasets require labels, which are difficult to acquire. While some unsupervised techniques -- which depend on frame prediction -- exist, they suffer from long training times, instability under different initializations, and are limited to hand-picked motion problems. In this work, we propose a method to estimate the physical parameters of any known, continuous governing equation from single videos; our solution is suitable for different dynamical systems beyond motion and is robust to initialization compared to previous approaches. Moreover, we remove the need for frame prediction by implementing a KL-divergence-based loss function in the latent space, which avoids convergence to trivial solutions and reduces model size and compute.
翻訳日:2024-11-04 21:29:22 公開日:2024-10-02
# 言語モデルの事前学習における知識エントロピーの減少が新たな知識獲得を妨げている

Knowledge Entropy Decay during Language Model Pretraining Hinders New Knowledge Acquisition ( http://arxiv.org/abs/2410.01380v1 )

ライセンス: Link先を確認
Jiyeon Kim, Hyunji Lee, Hyowon Cho, Joel Jang, Hyeonbin Hwang, Seungpil Won, Youbin Ahn, Dohaeng Lee, Minjoon Seo, (参考訳) 本研究では,モデルがパラメトリック知識を広範囲に統合する傾向が,事前学習を通じてどのように発展していくのか,また,この行動が全体的なパフォーマンス,特に知識獲得や忘れやすさにどのように影響するかを考察する。 高知識エントロピーは、モデルが幅広いメモリ源を利用することを示す一方、低知識エントロピーは、より確実性の高い特定のソースに依存することを示唆する。 分析の結果,事前学習の進展に伴い,知識のエントロピーが一貫した低下がみられた。 また,この減少は,知識の獲得・保持能力の低下と密接に関連していることから,知識のエントロピーの低下(アクティブな記憶源の数が少ない)がモデルの知識獲得・保持能力を損なうという結論に至った。 不活性な記憶源の活動を増大させることで、知識獲得と保持のためのモデルの能力を高めることが示される。

In this work, we investigate how a model's tendency to broadly integrate its parametric knowledge evolves throughout pretraining, and how this behavior affects overall performance, particularly in terms of knowledge acquisition and forgetting. We introduce the concept of knowledge entropy, which quantifies the range of memory sources the model engages with; high knowledge entropy indicates that the model utilizes a wide range of memory sources, while low knowledge entropy suggests reliance on specific sources with greater certainty. Our analysis reveals a consistent decline in knowledge entropy as pretraining advances. We also find that the decline is closely associated with a reduction in the model's ability to acquire and retain knowledge, leading us to conclude that diminishing knowledge entropy (smaller number of active memory sources) impairs the model's knowledge acquisition and retention capabilities. We find further support for this by demonstrating that increasing the activity of inactive memory sources enhances the model's capacity for knowledge acquisition and retention.
翻訳日:2024-11-04 21:29:22 公開日:2024-10-02
# PairDistill:Dense RetrievalのためのPairwise Relevance Distillation

PairDistill: Pairwise Relevance Distillation for Dense Retrieval ( http://arxiv.org/abs/2410.01383v1 )

ライセンス: Link先を確認
Chao-Wei Huang, Yun-Nung Chen, (参考訳) 膨大なデータセットからの効果的な情報検索(IR)は、クエリに応答して関連情報を抽出する高度な技術に依存している。 近年の高密度検索の進歩は,従来のスパース検索法と比較して顕著な効果を示した。 検索性能をより高めるため、しばしば堅牢なクロスエンコーダリランカーを活用する知識蒸留技術が広く研究されている。 しかし、既存のアプローチは主に文書に絶対的関連性スコアを割り当てるポイントワイド・リランカからの知識を抽出し、矛盾する比較に関する課題に直面している。 本稿では,Pairwise Relevance Distillation(PairDistill)を導入し,Pairwise Relevelation(PairDistill)を用いて,類似の文書間の微妙な区別を行い,高密度検索モデルのトレーニングを充実させる。 実験の結果、PairDistillは既存の手法よりも優れており、複数のベンチマークで最新の結果が得られることがわかった。 このことは、高密度検索技術の進歩におけるPairDistillの可能性を強調している。 私たちのソースコードとトレーニングされたモデルはhttps://github.com/MiuLab/PairDistillでリリースされます。

Effective information retrieval (IR) from vast datasets relies on advanced techniques to extract relevant information in response to queries. Recent advancements in dense retrieval have showcased remarkable efficacy compared to traditional sparse retrieval methods. To further enhance retrieval performance, knowledge distillation techniques, often leveraging robust cross-encoder rerankers, have been extensively explored. However, existing approaches primarily distill knowledge from pointwise rerankers, which assign absolute relevance scores to documents, thus facing challenges related to inconsistent comparisons. This paper introduces Pairwise Relevance Distillation (PairDistill) to leverage pairwise reranking, offering fine-grained distinctions between similarly relevant documents to enrich the training of dense retrieval models. Our experiments demonstrate that PairDistill outperforms existing methods, achieving new state-of-the-art results across multiple benchmarks. This highlights the potential of PairDistill in advancing dense retrieval techniques effectively. Our source code and trained models are released at https://github.com/MiuLab/PairDistill
翻訳日:2024-11-04 21:29:22 公開日:2024-10-02
# 任意のタイプのチャネル間のスーパーマップ

Supermaps between channels of any type ( http://arxiv.org/abs/2410.01389v1 )

ライセンス: Link先を確認
Robert Allen, Dominic Verdon, (参考訳) 行列代数の量子チャネル間のスーパーマップ(完全正のトレース保存(CPTP)写像)は [Chiribella et al , EPL 83(3) (2008)] で導入された。 この研究において、任意のタイプのチャネル間のスーパーマップに一般化し、チャネルによって有限次元C*-代数のCPTP写像を意味する。 チャネルには、POVM、量子機器、古典的に制御された量子チャネルのファミリー、古典的なチャネル、量子マルチメーターなどが含まれる。 任意のタイプのチャネル間の決定論的スーパーマップは、特別な場合として、[Chiribella et al , EPL 83(3) (2008)] (量子チャネル間の決定論的スーパーマップ) と [Bluhm et al (2024)] (量子マルチメーター間の決定論的スーパーマップ) の以前の実現定理を回復し、単純な回路を用いて実現可能であることを示す。 この実現定理を証明するために、有限次元2-ヒルベルト空間の2-圏の図式計算を用いる。

Supermaps between quantum channels (completely positive trace-preserving (CPTP) maps of matrix algebras) were introduced in [Chiribella et al., EPL 83(3) (2008)]. In this work we generalise to supermaps between channels of any type; by channels we mean CPTP maps of finite-dimensional C*-algebras. Channels include POVMs, quantum instruments, classically controlled families of quantum channels, classical channels, quantum multimeters, and more. We show that deterministic supermaps between channels of any type can be realised using simple circuits, recovering the previous realisation theorems of [Chiribella et al., EPL 83(3) (2008)] (for deterministic supermaps between quantum channels) and [Bluhm et al. (2024)] (for deterministic supermaps between quantum multimeters) as special cases. To prove this realisation theorem we use the graphical calculus of the 2-category of finite-dimensional 2-Hilbert spaces; the paper includes an accessible and elementary introduction to this graphical calculus, and no prior knowledge of category theory is expected of the reader.
翻訳日:2024-11-04 21:29:22 公開日:2024-10-02
# 癌類似性の定量化 : 病理画像診断への統計的アプローチ

Quantifying Cancer Likeness: A Statistical Approach for Pathological Image Diagnosis ( http://arxiv.org/abs/2410.01391v1 )

ライセンス: Link先を確認
Toshiki Kindo, (参考訳) 本稿では,病理画像中の癌領域を自動的に同定する新しい統計手法を提案する。 提案手法は,エビデンスベースの医学に基づく統計理論に基づいて構築される。 2つの中心となる技術は画像の特徴の分類情報であり、それは情報理論に基づいて導入され、がんの特徴が正の値を取るか、正常特徴が負の値を取るか、空間分布を決定するための計算技術である。 次に、分類情報内容が病理画像中の癌領域として正の値を示す領域を推定する。 この方法はがん分類タスクにおいて0.95以上のAUCを達成する。 さらに, 本手法は, 癌と正常の正確な境界線を必要としないという実用的利点がある。 これにより、病理学者は、他の病理学者とのコンセンサスを構築するという単調で退屈な作業から解放される。

In this paper, we present a new statistical approach to automatically identify cancer regions in pathological images. The proposed method is built from statistical theory in line with evidence-based medicine. The two core technologies are the classification information of image features, which was introduced based on information theory and which cancer features take positive values, normal features take negative values, and the calculation technique for determining their spatial distribution. This method then estimates areas where the classification information content shows a positive value as cancer areas in the pathological image. The method achieves AUCs of 0.95 or higher in cancer classification tasks. In addition, the proposed method has the practical advantage of not requiring a precise demarcation line between cancer and normal. This frees pathologists from the monotonous and tedious work of building consensus with other pathologists.
翻訳日:2024-11-04 21:19:25 公開日:2024-10-02
# 機械学習のより良い評価のための因果推論ツール

Causal Inference Tools for a Better Evaluation of Machine Learning ( http://arxiv.org/abs/2410.01392v1 )

ライセンス: Link先を確認
Michaël Soumm, (参考訳) 本稿では,エコノメトリから厳密な統計手法を適用し,機械学習システムの解析と改善を行う包括的フレームワークを提案する。 本稿では,通常最小方形(OLS)回帰,ANOVA(Analytic of Variance)回帰,ロジスティック回帰などの重要な統計手法を紹介し,その理論的基礎と機械学習評価における実践的応用について説明する。 この文書は研究者や実践者のガイドとして機能し、これらのテクニックがモデル行動、パフォーマンス、公平性に対する深い洞察を提供する方法について詳述している。 本稿では,各手法の背景にある数学的原理を概説し,その仮定と限界について議論し,その実装について段階的に説明する。 また、統計的意義と効果サイズの重要性を強調して、結果の解釈方法についても論じる。 具体例を通して、従来の評価指標から明らかでない機械学習モデルにおいて、これらのツールがどのように微妙なパターンや相互作用を明らかにするかを実証する。 この研究は、計量学と機械学習の分野を結びつけることによって、AIシステムのより厳密で包括的な評価を行うための強力な分析ツールを読者に提供することを目的としている。 ここで提示されるフレームワークは、より堅牢で、解釈可能で、公正な機械学習技術の開発に寄与する。

We present a comprehensive framework for applying rigorous statistical techniques from econometrics to analyze and improve machine learning systems. We introduce key statistical methods such as Ordinary Least Squares (OLS) regression, Analysis of Variance (ANOVA), and logistic regression, explaining their theoretical foundations and practical applications in machine learning evaluation. The document serves as a guide for researchers and practitioners, detailing how these techniques can provide deeper insights into model behavior, performance, and fairness. We cover the mathematical principles behind each method, discuss their assumptions and limitations, and provide step-by-step instructions for their implementation. The paper also addresses how to interpret results, emphasizing the importance of statistical significance and effect size. Through illustrative examples, we demonstrate how these tools can reveal subtle patterns and interactions in machine learning models that are not apparent from traditional evaluation metrics. By connecting the fields of econometrics and machine learning, this work aims to equip readers with powerful analytical tools for more rigorous and comprehensive evaluation of AI systems. The framework presented here contributes to developing more robust, interpretable, and fair machine learning technologies.
翻訳日:2024-11-04 21:19:25 公開日:2024-10-02
# ホワイトボックス攻撃による信号検出ネットワークの信号反転例生成

Signal Adversarial Examples Generation for Signal Detection Network via White-Box Attack ( http://arxiv.org/abs/2410.01393v1 )

ライセンス: Link先を確認
Dongyang Li, Linyuan Wang, Guangwei Xiong, Bin Yan, Dekui Ma, Jinxian Peng, (参考訳) 信号検出タスクにおけるディープラーニングの開発と応用により、敵攻撃に対するニューラルネットワークの脆弱性は、信号検出ネットワークに対するセキュリティ脅威にもなっている。 本稿では,信号に摂動を加える観点から,信号検出ネットワークの逆例生成モデルを定義する。 このモデルは、時間領域と時間周波数領域の間のL2ノルムの不等式関係を利用して、信号摂動のエネルギーを制限している。 このモデルに基づいて,勾配に基づく攻撃と短時間フーリエ変換を用いた信号対向例を生成する手法を提案する。 実験の結果,信号摂動エネルギー比が3%未満の制約下では,平均平均精度(mAP)が28.1%低下し,リコールが24.7%低下し,信号検出網の精度が30.4%低下した。 等価強度のランダムノイズ摂動と比較して,我々の対向攻撃は大きな攻撃効果を示す。

With the development and application of deep learning in signal detection tasks, the vulnerability of neural networks to adversarial attacks has also become a security threat to signal detection networks. This paper defines a signal adversarial examples generation model for signal detection network from the perspective of adding perturbations to the signal. The model uses the inequality relationship of L2-norm between time domain and time-frequency domain to constrain the energy of signal perturbations. Building upon this model, we propose a method for generating signal adversarial examples utilizing gradient-based attacks and Short-Time Fourier Transform. The experimental results show that under the constraint of signal perturbation energy ratio less than 3%, our adversarial attack resulted in a 28.1% reduction in the mean Average Precision (mAP), a 24.7% reduction in recall, and a 30.4% reduction in precision of the signal detection network. Compared to random noise perturbation of equivalent intensity, our adversarial attack demonstrates a significant attack effect.
翻訳日:2024-11-04 21:19:25 公開日:2024-10-02
# $\mathcal{L}_{\infty}$で一様有界な基底関数を持つガウス核展開

Gaussian kernel expansion with basis functions uniformly bounded in $\mathcal{L}_{\infty}$ ( http://arxiv.org/abs/2410.01394v1 )

ライセンス: Link先を確認
Mauro Bisiacco, Gianluigi Pillonetto, (参考訳) カーネル拡張は、機械学習で導入されたいわゆるフィーチャーマップとの関係から、機械学習にかなりの関心を持つトピックである。 関連する基底関数とウェイトの性質(マーサー設定における固有関数と固有値に対応する)は、例えば、関連する再生カーネルヒルベルト空間の構造、近似スキームの良さ、カーネルマシンの収束率と一般化特性に関する洞察を与える。 この論文における最近の研究は、$\mathcal{L}_\infty$に一様有界基底関数を仮定することによって、これらの結果のいくつかを導いた。 この一連の研究により、機械学習において最も広く使われているモデルの一つであるガウス核の全ての可能なカーネル拡張について、この制約の下で検討する。 我々の主な結果は、任意の$p>1$に対して$\ell_p$の重みを持つガウス核展開の$\mathbb{R}^2$の構成である。 この結果が最適であるのは、$p=1$ がガウスカーネルや文献でよく用いられる他のラジアル基底関数カーネルによっても到達できないことを証明しているからである。 この種の核の帰結は、任意の有限測度に対して$\mathbb{R}^2$上のマーサー展開が存在しないことであり、その固有函数はすべて$\mathcal{L}_\infty$の閉球に属する。

Kernel expansions are a topic of considerable interest in machine learning, also because of their relation to the so-called feature maps introduced in machine learning. Properties of the associated basis functions and weights (corresponding to eigenfunctions and eigenvalues in the Mercer setting) give insight into for example the structure of the associated reproducing kernel Hilbert space, the goodness of approximation schemes, the convergence rates and generalization properties of kernel machines. Recent work in the literature has derived some of these results by assuming uniformly bounded basis functions in $\mathcal{L}_\infty$. Motivated by this line of research, we investigate under this constraint all possible kernel expansions of the Gaussian kernel, one of the most widely used models in machine learning. Our main result is the construction on $\mathbb{R}^2$ of a Gaussian kernel expansion with weights in $\ell_p$ for any $p>1$. This result is optimal since we also prove that $p=1$ cannot be reached by the Gaussian kernel, nor by any of the other radial basis function kernels commonly used in the literature. A consequence for this kind of kernels is also the non-existence of Mercer expansions on $\mathbb{R}^2$, with respect to any finite measure, whose eigenfunctions all belong to a closed ball of $\mathcal{L}_\infty$.
翻訳日:2024-11-04 21:19:25 公開日:2024-10-02
# 外科手術ロボットの視覚的脱ハージングのためのゼロショット学習に向けて

Toward Zero-Shot Learning for Visual Dehazing of Urological Surgical Robots ( http://arxiv.org/abs/2410.01395v1 )

ライセンス: Link先を確認
Renkai Wu, Xianjin Wang, Pengchen Liang, Zhenyu Zhang, Qing Chang, Hao Tang, (参考訳) ロボット支援手術は、現在行われている最小侵襲手術の形式に大きな影響を与えている。 しかし、尿道下尿道手術ロボットでは、液体環境で働く必要がある。 これにより、せん断加熱時に液体が蒸発し、ロボットの視覚的知覚に影響を与える泡の微粒化が発生する。 これにより、外科手術の中断を中断する必要が生じ、手術が長引くことになる。 手術ロボット視下での液体の微粒化特性に対処するために, 教師なしゼロショット脱灰法(RSF-Dehaze)を提案する。 具体的には, RSF-Dehaze の領域類似性充填モジュール (RSFM) は, ぼやけた部位組織の回復を著しく改善する。 さらに, 子宮外科手術におけるロボットビジョンのための脱湿データセット (USRobot-Dehaze データセット) の編成と提案を行った。 特に、このデータセットは、最も一般的な3つの手術ロボット手術シナリオを含んでいる。 我々の知識を最大限に活用するために、私たちは初めて、オーロジカルなロボットビジョンのための公開の脱湿データセットを組織し、提案しました。 提案したRCF-Dehazeは, 従来型および先進型20種類の脱ハージングおよび画像回復アルゴリズムを用いて, 大規模な比較実験を行った3つの手術ロボット手術シナリオにおいて, 本手法の有効性を実証した。 提案されたソースコードとデータセットはhttps://github.com/wurenkai/RSF-Dehaze で公開されている。

Robot-assisted surgery has profoundly influenced current forms of minimally invasive surgery. However, in transurethral suburethral urological surgical robots, they need to work in a liquid environment. This causes vaporization of the liquid when shearing and heating is performed, resulting in bubble atomization that affects the visual perception of the robot. This can lead to the need for uninterrupted pauses in the surgical procedure, which makes the surgery take longer. To address the atomization characteristics of liquids under urological surgical robotic vision, we propose an unsupervised zero-shot dehaze method (RSF-Dehaze) for urological surgical robotic vision. Specifically, the proposed Region Similarity Filling Module (RSFM) of RSF-Dehaze significantly improves the recovery of blurred region tissues. In addition, we organize and propose a dehaze dataset for robotic vision in urological surgery (USRobot-Dehaze dataset). In particular, this dataset contains the three most common urological surgical robot operation scenarios. To the best of our knowledge, we are the first to organize and propose a publicly available dehaze dataset for urological surgical robot vision. The proposed RSF-Dehaze proves the effectiveness of our method in three urological surgical robot operation scenarios with extensive comparative experiments with 20 most classical and advanced dehazing and image recovery algorithms. The proposed source code and dataset are available at https://github.com/wurenkai/RSF-Dehaze .
翻訳日:2024-11-04 21:19:25 公開日:2024-10-02
# 学習を自動化に委譲できるか?: LLMチャットボット,検索エンジン,書籍の比較研究

Can We Delegate Learning to Automation?: A Comparative Study of LLM Chatbots, Search Engines, and Books ( http://arxiv.org/abs/2410.01396v1 )

ライセンス: Link先を確認
Yeonsun Yang, Ahyeon Shin, Mincheol Kang, Jiheon Kang, Jean Young Song, (参考訳) 学習は情報検索行動の鍵となる動機である。 LLMベースのチャットボットの出現に伴い、学生たちは知識を得るための主要なリソースとしてこれらのツールに目を向けている。 しかし、教科書やウェブ検索といった伝統的なリソースからの移行は、教育者の間で懸念を呼び起こす。 彼らは、これらの完全に自動化されたLLMが、学生に学習として検索の重要なステップを委譲するきっかけになるのではないかと心配している。 本稿では,教育者の立場から3つの主な懸念点を体系的に明らかにする。 これらの懸念に応えて,92人の大学生を対象に,異なる自動化レベルを持つ3つの学習源を比較した。 その結果,LLMは受動的学習を促進することなく,鍵概念の包括的理解を支援するが,知識保持効果は限られていた。 さらに,学術的業績が学習結果と探索パターンの両方に影響を及ぼすことがわかった。 特に,高能力学習者は,検索活動に頼らず,読書集約的な行動を通じてコンテンツに深く関与した。

Learning is a key motivator behind information search behavior. With the emergence of LLM-based chatbots, students are increasingly turning to these tools as their primary resource for acquiring knowledge. However, the transition from traditional resources like textbooks and web searches raises concerns among educators. They worry that these fully-automated LLMs might lead students to delegate critical steps of search as learning. In this paper, we systematically uncover three main concerns from educators' perspectives. In response to these concerns, we conducted a mixed-methods study with 92 university students to compare three learning sources with different automation levels. Our results show that LLMs support comprehensive understanding of key concepts without promoting passive learning, though their effectiveness in knowledge retention was limited. Additionally, we found that academic performance impacted both learning outcomes and search patterns. Notably, higher-competence learners engaged more deeply with content through reading-intensive behaviors rather than relying on search activities.
翻訳日:2024-11-04 21:19:25 公開日:2024-10-02
# フェデレーション学習における過剰予測信号分析:アルゴリズムと分析

Overpredictive Signal Analytics in Federated Learning: Algorithms and Analysis ( http://arxiv.org/abs/2410.01399v1 )

ライセンス: Link先を確認
Vijay Anavangot, (参考訳) エッジ信号処理は、フェデレート学習で提案されるクライアントサーバモデルにおける分散学習と推論を容易にする。 従来の機械学習では、生の信号サンプルを取得するクライアント(IoTデバイス)は、データセンター(サーバ)が、これらの分散サンプルをサードパーティの場所でプールすることで、グローバルな信号モデルを学ぶのに役立つ。 IoTの有望な機能にもかかわらず、これらの分散デプロイメントは、機密性の高いプライベートデータと通信速度の制約という課題に直面していることが多い。 これは、生信号の代わりに分散サンプルの処理された近似を伝達する学習アプローチを必要とする。 このような信号近似を用いた分散学習手法を分散信号解析と呼ぶ。 過大予測信号近似は、特にフェデレーション学習によって動機付けられたネットワーク需要(容量)計画アプリケーションにおいて、分散信号分析のために望まれる。 本研究では,効率的な凸最適化フレームワークを用いて,クライアントデバイスにおける過剰予測信号近似を計算するアルゴリズムを提案する。 数式解析により,通信コスト,サンプリングレート,信号近似誤差のトレードオフを定量化する。 また,提案した分散アルゴリズムの性能を,公用住宅エネルギー消費データセット上で示す。

Edge signal processing facilitates distributed learning and inference in the client-server model proposed in federated learning. In traditional machine learning, clients (IoT devices) that acquire raw signal samples can aid a data center (server) learn a global signal model by pooling these distributed samples at a third-party location. Despite the promising capabilities of IoTs, these distributed deployments often face the challenge of sensitive private data and communication rate constraints. This necessitates a learning approach that communicates a processed approximation of the distributed samples instead of the raw signals. Such a decentralized learning approach using signal approximations will be termed distributed signal analytics in this work. Overpredictive signal approximations may be desired for distributed signal analytics, especially in network demand (capacity) planning applications motivated by federated learning. In this work, we propose algorithms that compute an overpredictive signal approximation at the client devices using an efficient convex optimization framework. Tradeoffs between communication cost, sampling rate, and the signal approximation error are quantified using mathematical analysis. We also show the performance of the proposed distributed algorithms on a publicly available residential energy consumption dataset.
翻訳日:2024-11-04 21:19:25 公開日:2024-10-02
# CrowdCounter: ベンチマーク型固有のマルチターゲット対応データセット

CrowdCounter: A benchmark type-specific multi-target counterspeech dataset ( http://arxiv.org/abs/2410.01400v1 )

ライセンス: Link先を確認
Punyajoy Saha, Abhilash Datta, Abhik Jana, Animesh Mukherjee, (参考訳) Counterspeechは、ヘイトスピーチを禁止または停止する代わりに、表現の自由を保ちながら実行可能な選択肢を提供する。 しかし,モデレーターやユーザにとっては,効果的なカウンター音声を書くことは困難である。 したがって、対訳を書くための提案ツールを開発することが時間の必要性である。 このようなツールを開発する上で重要な課題のひとつは、既存のデータセットにおける応答の品質と多様性の欠如である。 したがって、新しいデータセットであるCrowdCounterには、6つの異なるカウンター音声タイプ(共感、ユーモア、質問、警告、シェーピング、矛盾)にまたがる3,425のヘイトスピーチとカウンセラーペアが含まれている。 アノテーションプラットフォーム自体の設計は、アノテーションに対して、タイプ固有の、非冗長で高品質なカウンター音声を書くことを奨励します。 我々は,4つの大きな言語モデルに対して,対音声応答を生成する2つのフレームワーク,バニラとタイプ制御プロンプトを評価した。 メトリクスの面では、関連性、多様性、品質を用いて応答を評価します。 我々は、Flan-T5がさまざまなモデルにまたがるバニラフレームワークで最高のモデルであることを観察する。 タイプ固有のプロンプトは応答の関連性を高めるが、言語品質を低下させる可能性がある。 DialoGPTは命令に従い、型固有の逆音声を正確に生成するのに最適であることが証明されている。

Counterspeech presents a viable alternative to banning or suspending users for hate speech while upholding freedom of expression. However, writing effective counterspeech is challenging for moderators/users. Hence, developing suggestion tools for writing counterspeech is the need of the hour. One critical challenge in developing such a tool is the lack of quality and diversity of the responses in the existing datasets. Hence, we introduce a new dataset - CrowdCounter containing 3,425 hate speech-counterspeech pairs spanning six different counterspeech types (empathy, humor, questioning, warning, shaming, contradiction), which is the first of its kind. The design of our annotation platform itself encourages annotators to write type-specific, non-redundant and high-quality counterspeech. We evaluate two frameworks for generating counterspeech responses - vanilla and type-controlled prompts - across four large language models. In terms of metrics, we evaluate the responses using relevance, diversity and quality. We observe that Flan-T5 is the best model in the vanilla framework across different models. Type-specific prompts enhance the relevance of the responses, although they might reduce the language quality. DialoGPT proves to be the best at following the instructions and generating the type-specific counterspeech accurately.
翻訳日:2024-11-04 21:19:25 公開日:2024-10-02
# 知識グラフ質問応答のための質問ガイド付き知識グラフ再構成とインジェクション

Question-guided Knowledge Graph Re-scoring and Injection for Knowledge Graph Question Answering ( http://arxiv.org/abs/2410.01401v1 )

ライセンス: Link先を確認
Yu Zhang, Kehai Chen, Xuefeng Bai, zhao kang, Quanjiang Guo, Min Zhang, (参考訳) 知識グラフ質問応答(KGQA)は、知識グラフに格納された構造化情報を活用することで、自然言語の質問に答える。 典型的には、KGQAは最初、大規模知識グラフから対象のサブグラフを検索するが、これはクエリに対処する推論モデルの基礎となる。 しかし、抽出されたサブグラフは、必然的に知識利用の邪魔となる情報をもたらし、モデルが正確な推論を行う能力を阻害する。 この問題に対処するために,質問ガイド付き知識グラフ再構成手法(Q-KGR)を提案する。 さらに,大規模言語モデルに再認識された知識グラフを注入するパラメータ効率の高い手法であるKnowformerを導入し,事実推論を行う能力を高める。 複数のKGQAベンチマークに対する大規模な実験は、既存のシステムよりも提案手法が優れていることを示す。

Knowledge graph question answering (KGQA) involves answering natural language questions by leveraging structured information stored in a knowledge graph. Typically, KGQA initially retrieve a targeted subgraph from a large-scale knowledge graph, which serves as the basis for reasoning models to address queries. However, the retrieved subgraph inevitably brings distraction information for knowledge utilization, impeding the model's ability to perform accurate reasoning. To address this issue, we propose a Question-guided Knowledge Graph Re-scoring method (Q-KGR) to eliminate noisy pathways for the input question, thereby focusing specifically on pertinent factual knowledge. Moreover, we introduce Knowformer, a parameter-efficient method for injecting the re-scored knowledge graph into large language models to enhance their ability to perform factual reasoning. Extensive experiments on multiple KGQA benchmarks demonstrate the superiority of our method over existing systems.
翻訳日:2024-11-04 21:19:25 公開日:2024-10-02
# Gaussian-Det: 3Dオブジェクト検出のためのクローズドサーフェスガウスの学習

Gaussian-Det: Learning Closed-Surface Gaussians for 3D Object Detection ( http://arxiv.org/abs/2410.01404v1 )

ライセンス: Link先を確認
Hongru Yan, Yu Zheng, Yueqi Duan, (参考訳) 体を包む皮膚、ソファーを覆う革、車体をコーティングする金属シート ― 物体が連続した表面で囲まれていることを示唆している。 本稿では,多視点に基づく3次元物体検出のための表面表現としてガウス・スプレイティングを利用するガウス・デットを提案する。 離散的な位置データを通して対象を描写する既存の単分子法やNeRF法とは異なり、ガウス・デットは入力ガウスを部分曲面の質量上の特徴記述子として定式化し、連続的に対象をモデル化する。 さらに,ガウススプラッティングによって本質的に導入された多数の外れ値に対処するため,包括的対象性推論のためのクロージャ推論モジュール(CIM)を考案した。 CIMはまず、ガウススメッティングの過小な性質を考慮に入れた部分表面の確率的特徴残差を推定し、対象の全体表面の閉包に関する全体像に結合する。 このようにして、ガウス・デットによる表面情報の利用は、客観性の品質と信頼性、及び提案の改良の情報基盤の先行として機能する。 合成データセットと実世界のデータセットの両方の実験では、ガウス・デットは平均精度とリコールの両方の観点から、様々な既存手法より優れていることが示されている。

Skins wrapping around our bodies, leathers covering over the sofa, sheet metal coating the car - it suggests that objects are enclosed by a series of continuous surfaces, which provides us with informative geometry prior for objectness deduction. In this paper, we propose Gaussian-Det which leverages Gaussian Splatting as surface representation for multi-view based 3D object detection. Unlike existing monocular or NeRF-based methods which depict the objects via discrete positional data, Gaussian-Det models the objects in a continuous manner by formulating the input Gaussians as feature descriptors on a mass of partial surfaces. Furthermore, to address the numerous outliers inherently introduced by Gaussian splatting, we accordingly devise a Closure Inferring Module (CIM) for the comprehensive surface-based objectness deduction. CIM firstly estimates the probabilistic feature residuals for partial surfaces given the underdetermined nature of Gaussian Splatting, which are then coalesced into a holistic representation on the overall surface closure of the object proposal. In this way, the surface information Gaussian-Det exploits serves as the prior on the quality and reliability of objectness and the information basis of proposal refinement. Experiments on both synthetic and real-world datasets demonstrate that Gaussian-Det outperforms various existing approaches, in terms of both average precision and recall.
翻訳日:2024-11-04 21:19:25 公開日:2024-10-02
# AgriCLIP: ドメイン特化クロスモデルアライメントによる農業・畜産用CLIPの適応

AgriCLIP: Adapting CLIP for Agriculture and Livestock via Domain-Specialized Cross-Model Alignment ( http://arxiv.org/abs/2410.01407v1 )

ライセンス: Link先を確認
Umair Nawaz, Muhammad Awais, Hanan Gani, Muzammal Naseer, Fahad Khan, Salman Khan, Rao Muhammad Anwer, (参考訳) 大量の画像テキストデータを活用することで、大規模視覚言語による事前訓練は目覚ましいゼロショット機能を示し、いくつかのアプリケーションで利用されてきた。 しかし、一般的な日々のWebクローリングデータに基づいてトレーニングされたモデルは、ドメインシフトのため、しばしば特定のドメインに対するサブ最適性能を示す。 最近の研究は、ドメイン特化画像テキストデータを構築することで、いくつかのドメイン(例えば医療)でこの問題に対処している。 しかし, 農業・畜産の持続可能な領域を対象とした大規模画像テキストデータセットの構築は, 依然として研究が進められている。 さらに、下流作業の微妙な性質(栄養欠乏の検出、家畜品種分類など)により、細粒度の特徴学習が望まれている。 これを解決するために,農業・畜産分野に特化したビジョン言語基盤モデルであるAgriCLIPを紹介する。 まず,専門家アノテーションの不足を克服するために,カスタマイズしたプロンプト生成戦略を活用する大規模データセットALiveを提案する。 私たちのALiveデータセットは、作物、家畜、漁業をカバーしています。 第2に、コントラスト学習と自己教師学習を統合し、グローバルセマンティクスと局所的なきめ細かいドメイン特化特徴を学習する訓練パイプラインを提案する。 さまざまな20のダウンストリームタスクの実験は、AgriCLIPフレームワークの有効性を示し、ドメイン特化ALiveデータセットによる標準CLIP適応よりも平均ゼロショット分類精度で7.8\%の絶対的な向上を達成した。 私たちのALiveデータセットとコードは、 \href{https://github.com/umair1221/AgriCLIP/tree/main}{Github}でアクセスできます。

Capitalizing on vast amount of image-text data, large-scale vision-language pre-training has demonstrated remarkable zero-shot capabilities and has been utilized in several applications. However, models trained on general everyday web-crawled data often exhibit sub-optimal performance for specialized domains, likely due to domain shift. Recent works have tackled this problem for some domains (e.g., healthcare) by constructing domain-specialized image-text data. However, constructing a dedicated large-scale image-text dataset for sustainable area of agriculture and livestock is still open to research. Further, this domain desires fine-grained feature learning due to the subtle nature of the downstream tasks (e.g, nutrient deficiency detection, livestock breed classification). To address this we present AgriCLIP, a vision-language foundational model dedicated to the domain of agriculture and livestock. First, we propose a large-scale dataset, named ALive, that leverages customized prompt generation strategy to overcome the scarcity of expert annotations. Our ALive dataset covers crops, livestock, and fishery, with around 600,000 image-text pairs. Second, we propose a training pipeline that integrates both contrastive and self-supervised learning to learn both global semantic and local fine-grained domain-specialized features. Experiments on diverse set of 20 downstream tasks demonstrate the effectiveness of AgriCLIP framework, achieving an absolute gain of 7.8\% in terms of average zero-shot classification accuracy, over the standard CLIP adaptation via domain-specialized ALive dataset. Our ALive dataset and code can be accessible at \href{https://github.com/umair1221/AgriCLIP/tree/main}{Github}.
翻訳日:2024-11-04 21:19:25 公開日:2024-10-02
# SHAP-CAT: 仮想染色とシェープ値に基づくマルチモーダル融合によるWSI分類を促進する解釈可能なマルチモーダルフレームワーク

SHAP-CAT: A interpretable multi-modal framework enhancing WSI classification via virtual staining and shapley-value-based multimodal fusion ( http://arxiv.org/abs/2410.01408v1 )

ライセンス: Link先を確認
Jun Wang, Yu Mao, Nan Guan, Chun Jason Xue, (参考訳) マルチモーダルモデルは病理学において有望であることを示す。 しかし、ほとんどのマルチモーダルモデルはH&Eとゲノミクスに基づいており、ますます複雑なブラックボックスの設計を採用する。 本稿では,Shapley-value-based dimension reduction techniqueを有効マルチモーダル融合に用いるSHAP-CATという新しい解釈可能なマルチモーダルフレームワークを提案する。 H\&E画像とIHC画像の2つの組み合わせから始めると、我々は、新しい臨床関連モダリティを発生させることで、限られた入力データを強化するために仮想染色技術を用いている。 画像のモダリティから軽量なバッグレベルの表現を抽出し、寸法の縮小にシェープリー値に基づくメカニズムを用いる。 バッグレベルの表現の各次元について、帰属値を算出し、入力の特定の次元の変化がモデル出力にどのように影響するかを示す。 このようにして、各画像のモダリティから後期融合へのバッグレベルの表現について、いくつかの重要な次元を選定する。 実験の結果,合成モダリティを組み込んだSHAP-CATフレームワークはモデル性能を著しく向上し,BCIの精度は5倍,IHC4BC-ERは8倍,IHC4BC-PRデータセットは11倍向上した。

The multimodal model has demonstrated promise in histopathology. However, most multimodal models are based on H\&E and genomics, adopting increasingly complex yet black-box designs. In our paper, we propose a novel interpretable multimodal framework named SHAP-CAT, which uses a Shapley-value-based dimension reduction technique for effective multimodal fusion. Starting with two paired modalities -- H\&E and IHC images, we employ virtual staining techniques to enhance limited input data by generating a new clinical-related modality. Lightweight bag-level representations are extracted from image modalities and a Shapley-value-based mechanism is used for dimension reduction. For each dimension of the bag-level representation, attribution values are calculated to indicate how changes in the specific dimensions of the input affect the model output. In this way, we select a few top important dimensions of bag-level representation for each image modality to late fusion. Our experimental results demonstrate that the proposed SHAP-CAT framework incorporating synthetic modalities significantly enhances model performance, yielding a 5\% increase in accuracy for the BCI, an 8\% increase for IHC4BC-ER, and an 11\% increase for the IHC4BC-PR dataset.
翻訳日:2024-11-04 21:19:25 公開日:2024-10-02
# FedProx の外挿と非接触 Prox との収束性について

On the Convergence of FedProx with Extrapolation and Inexact Prox ( http://arxiv.org/abs/2410.01410v1 )

ライセンス: Link先を確認
Hanmin Li, Peter Richtárik, (参考訳) FedExProxフェデレーション学習アルゴリズム(Li et al , 2020)をサーバ側の外挿で強化するLi et al (2024a)は先日,FedExProxメソッドを導入した。 しかし、それらの理論的分析は、各クライアントが特定の近位演算子を正確に計算するという仮定に依存している。 本稿では,FedExProxの挙動を,滑らかで大まかに強い凸条件下で,この正確さを仮定せずに検討する。 一般収束結果を確立し、不完全性が解の近傍に収束することを示す。 さらに、注意深い制御により、この不有効性の悪影響を軽減できることを実証した。 偏差圧縮(Beznosikov et al , 2023)に不連続性をリンクすることにより, 解析を洗練し, 近位更新に対する外挿の堅牢性を強調した。 また、各クライアントが様々なローカルオプティマイザを用いて要求される不正確なレベルを達成するのに必要な局所的なイテレーションの複雑さについても検討する。 我々の理論的洞察は総合的な数値実験によって検証される。

Enhancing the FedProx federated learning algorithm (Li et al., 2020) with server-side extrapolation, Li et al. (2024a) recently introduced the FedExProx method. Their theoretical analysis, however, relies on the assumption that each client computes a certain proximal operator exactly, which is impractical since this is virtually never possible to do in real settings. In this paper, we investigate the behavior of FedExProx without this exactness assumption in the smooth and globally strongly convex setting. We establish a general convergence result, showing that inexactness leads to convergence to a neighborhood of the solution. Additionally, we demonstrate that, with careful control, the adverse effects of this inexactness can be mitigated. By linking inexactness to biased compression (Beznosikov et al., 2023), we refine our analysis, highlighting robustness of extrapolation to inexact proximal updates. We also examine the local iteration complexity required by each client to achieved the required level of inexactness using various local optimizers. Our theoretical insights are validated through comprehensive numerical experiments.
翻訳日:2024-11-04 21:19:25 公開日:2024-10-02
# ブレインストーム最適化とルール修正によるファジィルール分類器の改良

Improving Fuzzy Rule Classifier with Brain Storm Optimization and Rule Modification ( http://arxiv.org/abs/2410.01413v1 )

ライセンス: Link先を確認
Yan Huang, Wei Liu, Xiaogang Zang, (参考訳) 探索空間における複雑性と次元性の増大はファジィルール分類器の帰納学習に悪影響を及ぼし、ファジィシステムのスケーラビリティと精度に影響を及ぼす。 本研究では,ブレインストーム最適化(BSO)アルゴリズムを用いて,この文脈におけるルール生成を再定義するファジィシステムを提案することによって,糖尿病分類の課題を具体的に解決する。 指数モデルが標準BSOアルゴリズムに統合され、糖尿病関連データに特化された規則導出が強化される。 このファジィシステムは、糖尿病データセットを含む分類タスクに適用され、我々の実験で証明されたように、分類精度が大幅に向上したことを示す。

The expanding complexity and dimensionality in the search space can adversely affect inductive learning in fuzzy rule classifiers, thus impacting the scalability and accuracy of fuzzy systems. This research specifically addresses the challenge of diabetic classification by employing the Brain Storm Optimization (BSO) algorithm to propose a novel fuzzy system that redefines rule generation for this context. An exponential model is integrated into the standard BSO algorithm to enhance rule derivation, tailored specifically for diabetes-related data. The innovative fuzzy system is then applied to classification tasks involving diabetic datasets, demonstrating a substantial improvement in classification accuracy, as evidenced by our experiments.
翻訳日:2024-11-04 21:09:23 公開日:2024-10-02
# QCRMut: 量子回路ランダム変異生成ツール

QCRMut: Quantum Circuit Random Mutant generator tool ( http://arxiv.org/abs/2410.01415v1 )

ライセンス: Link先を確認
Sinhué García Gil, Luis Llana Díaz, José Ignacio Requeno Jarabo, (参考訳) 量子コンピューティングは近年増加しており、量子ソフトウェア工学とテストに関する出版物が急増していることが証明されている。 量子ハードウェアの進歩は注目に値するもので、Condorは1121量子ビットを誇っており、IBM Quantum System Twoは133量子ビットのHeronプロセッサを3基採用している。 この技術が実用化に近づくにつれ、ソフトウェアの有効性の確保が不可欠になる。 古典コンピューティングにおいて確立されたテクニックである突然変異テストは、この文脈で価値のあるアプローチとして現れます。 本稿では,量子回路構造を利用した量子プログラムに適した突然変異ツールであるQCRMutを導入することを目的とする。 提案手法は, 回路内の不変位置をマークする機能と, 排他的生成プロセスを用いた従来の手法と比較して, ランダムなアプローチを提案する。 これらの特徴は、メタモルフィックテストのような将来の応用に欠かせないプログラム構造の保存を促進する。

Quantum computing has been on the rise in recent years, evidenced by a surge in publications on quantum software engineering and testing. Progress in quantum hardware has also been notable, with the introduction of impressive systems like Condor boasting 1121 qubits, and IBM Quantum System Two, which employs three 133-qubit Heron processors. As this technology edges closer to practical application, ensuring the efficacy of our software becomes imperative. Mutation testing, a well-established technique in classical computing, emerges as a valuable approach in this context. In our paper, we aim to introduce QCRMut, a mutation tool tailored for quantum programs, leveraging the inherent Quantum Circuit structure. We propose a randomised approach compared to previous works with exhaustive creation processes and the capability for marking immutable positions within the circuit. These features facilitate the preservation of program structure, which is crucial for future applications such as metamorphic testing.
翻訳日:2024-11-04 21:09:23 公開日:2024-10-02
# リンクのラビリンス:多モードLCMの連想迷路をナビゲートする

The Labyrinth of Links: Navigating the Associative Maze of Multi-modal LLMs ( http://arxiv.org/abs/2410.01417v1 )

ライセンス: Link先を確認
Hong Li, Nanxi Li, Yuanjie Chen, Jianbin Zhu, Qinlu Guo, Cewu Lu, Yong-Lu Li, (参考訳) MLLM(Multi-modal Large Language Models)は印象的な能力を示す。 しかし、近年、人間の知能と比較してMLLMの欠陥が多数発見されている。 MLLMの研究を進めるために、コミュニティは複雑なタスクでより大きなベンチマークを構築する努力を注いだ。 本稿では、観察と事前の実践記憶をリンクする人間の基本的な能力である$\textbf{association}$という、必須だが一般的に見過ごされるインテリジェンスをベンチマークする。 本研究は,MLLMの性能を包括的に調査するため,関連課題を定式化し,形容詞と動詞の意味概念に基づく標準ベンチマークを考案する。 コストのかかるデータアノテーションやキュレーションの代わりに、関連タスクの一般的なデータセットを変換する便利な$\textbf{annotation-free}$構築法を提案する。 同時に、生データセットの混乱を解消するため、厳密なデータ精錬プロセスを考案する。 このデータベースに基づいて、単一ステップ、同期、非同期の3段階のアソシエーションタスクを構築します。 さらに,オープンソースのMLLMとクローズドソースMLLMの3つの異なるメモリ戦略,最先端のMixture-of-Experts(MoE)モデル,人間専門家の関与など,MLLMのゼロショットアソシエーション機能に関する包括的な調査を行っている。 我々の体系的な調査によると、現在のオープンソースMLLMは、我々の関連タスクにおいて、常に機能不足を示しており、現在最先端のGPT-4V(vision)でさえ、人間に比べて大きなギャップがある。 我々のベンチマークは将来のMLLM研究の道を開くと信じている。 $\textit{Our data and code are available at:}$ https://mvig-rhos.com/llm_inception.com

Multi-modal Large Language Models (MLLMs) have exhibited impressive capability. However, recently many deficiencies of MLLMs have been found compared to human intelligence, $\textit{e.g.}$, hallucination. To drive the MLLMs study, the community dedicated efforts to building larger benchmarks with complex tasks. In this paper, we propose benchmarking an essential but usually overlooked intelligence: $\textbf{association}$, a human's basic capability to link observation and prior practice memory. To comprehensively investigate MLLM's performance on the association, we formulate the association task and devise a standard benchmark based on adjective and verb semantic concepts. Instead of costly data annotation and curation, we propose a convenient $\textbf{annotation-free}$ construction method transforming the general dataset for our association tasks. Simultaneously, we devise a rigorous data refinement process to eliminate confusion in the raw dataset. Building on this database, we establish three levels of association tasks: single-step, synchronous, and asynchronous associations. Moreover, we conduct a comprehensive investigation into the MLLMs' zero-shot association capabilities, addressing multiple dimensions, including three distinct memory strategies, both open-source and closed-source MLLMs, cutting-edge Mixture-of-Experts (MoE) models, and the involvement of human experts. Our systematic investigation shows that current open-source MLLMs consistently exhibit poor capability in our association tasks, even the currently state-of-the-art GPT-4V(vision) also has a significant gap compared to humans. We believe our benchmark would pave the way for future MLLM studies. $\textit{Our data and code are available at:}$ https://mvig-rhos.com/llm_inception.
翻訳日:2024-11-04 21:09:23 公開日:2024-10-02
# Fair4Free:データフリー蒸留による高忠実度フェアシンセティックサンプルの生成

Fair4Free: Generating High-fidelity Fair Synthetic Samples using Data Free Distillation ( http://arxiv.org/abs/2410.01423v1 )

ライセンス: Link先を確認
Md Fahim Sikder, Daniel de Leng, Fredrik Heintz, (参考訳) この研究は、潜在空間におけるデータフリー蒸留を用いて合成公正データを生成する新しい生成モデルであるFair4Freeを提示する。 Fair4Freeは、データがプライベートでもアクセス不能でも、状況に対処できる。 このアプローチでは、まず教師モデルをトレーニングし、公正な表現を作成し、その後、(より小さなアーキテクチャを使って)学生モデルに知識を流用する。 学生モデルを蒸留するプロセスはデータフリーであり、すなわち、学生モデルは蒸留中にトレーニングデータセットにアクセスできない。 蒸留後, 蒸留モデルを用いて, 公正な合成試料を生成する。 以上の結果から,3つの基準(公正性,実用性,合成品質)において,我々の合成サンプルは,正当性,実用性,合成品質の5パーセント,実用性8%,合成品質の12%を達成できた。

This work presents Fair4Free, a novel generative model to generate synthetic fair data using data-free distillation in the latent space. Fair4Free can work on the situation when the data is private or inaccessible. In our approach, we first train a teacher model to create fair representation and then distil the knowledge to a student model (using a smaller architecture). The process of distilling the student model is data-free, i.e. the student model does not have access to the training dataset while distilling. After the distillation, we use the distilled model to generate fair synthetic samples. Our extensive experiments show that our synthetic samples outperform state-of-the-art models in all three criteria (fairness, utility and synthetic quality) with a performance increase of 5% for fairness, 8% for utility and 12% in synthetic quality for both tabular and image datasets.
翻訳日:2024-11-04 21:09:23 公開日:2024-10-02
# EVA-Gaussian:D Gaussian-based Real-time Human Novel View Synthesis under Diverse Camerasets (特集:バイオサイバネティックスとバイオサイバネティックス)

EVA-Gaussian: 3D Gaussian-based Real-time Human Novel View Synthesis under Diverse Camera Settings ( http://arxiv.org/abs/2410.01425v1 )

ライセンス: Link先を確認
Yingdong Hu, Zhening Liu, Jiawei Shao, Zehong Lin, Jun Zhang, (参考訳) フィードフォワードをベースとした3次元ガウススメッティング法は、リアルタイムなヒトの新規ビュー合成において、例外的な能力を示した。 しかし、既存のアプローチは高密度視点設定に限定されており、広い範囲のカメラビュー角の相違による自由視点レンダリングの柔軟性が制限されている。 この制限に対処するために,多様なカメラ設定にまたがる3次元新規ビュー合成のためのEVA-Gaussianというリアルタイムパイプラインを提案する。 具体的には、まず、ソース画像から各3次元ガウスの位置を正確に推定する効率的なクロスビューアテンション(EVA)モジュールを導入する。 次に,ソース画像と推定されたガウス位置マップを統合し,3次元ガウスの属性と特徴埋め込みを予測する。 さらに,位置推定における幾何誤差によるアーティファクトの補正と視覚的忠実度の向上のために,逐次機能改善器を用い,さらに合成品質を向上させるために,3次元ガウス属性と人間の顔のランドマークの両方に強力なアンカー損失関数を組み込んだ。 THuman2.0とThumansitデータセットの実験結果は、多様なカメラ設定における品質のレンダリングにおけるEVA-Gaussアプローチの優位性を示している。 プロジェクトページ: https://zhenliuzju.github.io/huyingdong/EVA-Gaussian

The feed-forward based 3D Gaussian Splatting method has demonstrated exceptional capability in real-time human novel view synthesis. However, existing approaches are restricted to dense viewpoint settings, which limits their flexibility in free-viewpoint rendering across a wide range of camera view angle discrepancies. To address this limitation, we propose a real-time pipeline named EVA-Gaussian for 3D human novel view synthesis across diverse camera settings. Specifically, we first introduce an Efficient cross-View Attention (EVA) module to accurately estimate the position of each 3D Gaussian from the source images. Then, we integrate the source images with the estimated Gaussian position map to predict the attributes and feature embeddings of the 3D Gaussians. Moreover, we employ a recurrent feature refiner to correct artifacts caused by geometric errors in position estimation and enhance visual fidelity.To further improve synthesis quality, we incorporate a powerful anchor loss function for both 3D Gaussian attributes and human face landmarks. Experimental results on the THuman2.0 and THumansit datasets showcase the superiority of our EVA-Gaussian approach in rendering quality across diverse camera settings. Project page: https://zhenliuzju.github.io/huyingdong/EVA-Gaussian.
翻訳日:2024-11-04 21:09:23 公開日:2024-10-02
# Steklov ニューラルネットワーク演算子による近似

Approximation by Steklov Neural Network Operators ( http://arxiv.org/abs/2410.01426v1 )

ライセンス: Link先を確認
S. N. Karaman, M. Turgay, T. Acar, (参考訳) 本稿では,新しいニューラルネットワーク演算子群であるSteklov Neural Network演算子群の構築について述べる。 ステクロフ型積分を用いてニューラルネット作用素の新バージョンを導入し,次数$r$の滑らかさのモジュラーを通した収束の点次数および一様収束率などの収束定理を得る。

The present paper deals with construction of newly family of Neural Network operators, that is,Steklov Neural Network operators. By using Steklov type integral, we introduce a new version of Neural Network operators and we obtain some convergence theorems for the family, such as, pointwise and uniform convergence,rate of convergence via moduli of smoothness of order $r$.
翻訳日:2024-11-04 21:09:23 公開日:2024-10-02
# LLMにおけるさらなる推論は可能か? : 問題解決のための検索強化による批判誘導計画

Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks ( http://arxiv.org/abs/2410.01428v1 )

ライセンス: Link先を確認
Xingxuan Li, Weiwen Xu, Ruochen Zhao, Fangkai Jiao, Shafiq Joty, Lidong Bing, (参考訳) 最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。 既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。 これらの手法は、単純な推論タスクではうまく機能するが、しばしば推論エラーや無関係な知識検索のために、競合するプログラミングや数学のような挑戦的なタスクに悩まされる。 CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批評家モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。 CR-Plannerは、サブゴールを反復的に選択し実行することで問題を解決する。 当初は、サブゴール評論家と呼ばれる批評家モデルによって与えられる報酬によって導かれる推論、クエリ生成、検索から最も有望なサブゴールを特定する。 次に、このサブゴールをサンプリングし、別の批評家モデルから評価に基づいて最適な出力を選択する。 この反復的プロセスは、検索された情報や批評家モデルによって通知され、CR-Plannerが解空間を最終解へと効果的にナビゲートすることを可能にする。 我々はモンテカルロ木探索を用いて、批評家モデルを訓練するためのデータを収集し、アクションシーケンスとその長期的影響の体系的な探索を可能にする。 我々はCR-Plannerを、競合プログラミング、定理駆動型数学推論、複雑なドメイン検索問題を含む、ドメイン知識集約および推論重大課題に挑戦する上で検証する。 実験の結果,CR-Plannerはベースラインを著しく上回り,推論と検索の両方を改善することで,課題に対処する上での有効性を強調した。

State-of-the-art large language models (LLMs) exhibit impressive problem-solving capabilities but may struggle with complex reasoning and factual correctness. Existing methods harness the strengths of chain-of-thought and retrieval-augmented generation (RAG) to decompose a complex problem into simpler steps and apply retrieval to improve factual correctness. These methods work well on straightforward reasoning tasks but often falter on challenging tasks such as competitive programming and mathematics, due to frequent reasoning errors and irrelevant knowledge retrieval. To address this, we introduce Critic-guided planning with Retrieval-augmentation, CR-Planner, a novel framework that leverages fine-tuned critic models to guide both reasoning and retrieval processes through planning. CR-Planner solves a problem by iteratively selecting and executing sub-goals. Initially, it identifies the most promising sub-goal from reasoning, query generation, and retrieval, guided by rewards given by a critic model named sub-goal critic. It then executes this sub-goal through sampling and selecting the optimal output based on evaluations from another critic model named execution critic. This iterative process, informed by retrieved information and critic models, enables CR-Planner to effectively navigate the solution space towards the final answer. We employ Monte Carlo Tree Search to collect the data for training the critic models, allowing for a systematic exploration of action sequences and their long-term impacts. We validate CR-Planner on challenging domain-knowledge-intensive and reasoning-heavy tasks, including competitive programming, theorem-driven math reasoning, and complex domain retrieval problems. Our experiments demonstrate that CR-Planner significantly outperforms baselines, highlighting its effectiveness in addressing challenging problems by improving both reasoning and retrieval.
翻訳日:2024-11-04 21:09:23 公開日:2024-10-02
# スケーラブル強化学習に基づくニューラルアーキテクチャ探索

Scalable Reinforcement Learning-based Neural Architecture Search ( http://arxiv.org/abs/2410.01431v1 )

ライセンス: Link先を確認
Amber Cassimon, Siegfried Mercelis, Kevin Mets, (参考訳) 本稿では,ニューラルネットワーク探索問題に対する新しい強化学習ベースソリューションの能力を評価する。そこでは,強化学習(RL)エージェントが,一つの最適なアーキテクチャを返すのではなく,優れたアーキテクチャを探すことを学習する。 我々はNAS-Bench-101とNAS-Bench-301の両方の設定を検討し、ローカル検索やランダム検索など、既知の強力なベースラインと比較する。 探索空間の大きさに関して,我々の強化学習エージェントは高いスケーラビリティを示すが,ハイパーパラメータの変化に対するロバスト性は限られている。

In this publication, we assess the ability of a novel Reinforcement Learning-based solution to the problem of Neural Architecture Search, where a Reinforcement Learning (RL) agent learns to search for good architectures, rather than to return a single optimal architecture. We consider both the NAS-Bench-101 and NAS- Bench-301 settings, and compare against various known strong baselines, such as local search and random search. We conclude that our Reinforcement Learning agent displays strong scalability with regards to the size of the search space, but limited robustness to hyperparameter changes.
翻訳日:2024-11-04 21:09:23 公開日:2024-10-02
# 償却標本作成者のための適応型教師

Adaptive teachers for amortized samplers ( http://arxiv.org/abs/2410.01432v1 )

ライセンス: Link先を確認
Minsu Kim, Sanghyeok Choi, Taeyoung Yun, Emmanuel Bengio, Leo Feng, Jarrid Rector-Brooks, Sungsoo Ahn, Jinkyoo Park, Nikolay Malkin, Yoshua Bengio, (参考訳) 償却推論(英: Amortized inference)とは、ニューラルネットワークなどのパラメトリックモデルをトレーニングし、正確なサンプリングが可能な所定の非正規化密度で分布を近似するタスクである。 サンプリングをシーケンシャルな意思決定プロセスとして実施する場合、生成フローネットワークなどの強化学習(RL)手法を用いてサンプリングポリシーのトレーニングを行うことができる。 オフ・ポリティクスのRLトレーニングは多様でハイ・リワードな候補の発見を促進するが、既存の手法は依然として効率的な探索の課題に直面している。 そこで本研究では,高次領域の優先順位付けにより,適応的なトレーニング分布(教師)を用いて,初等補正標本作成者(学生)のトレーニングを指導することを提案する。 補助行動モデルである教師は、学生のハイエラー領域をサンプリングするように訓練され、探索されていないモードをまたいで一般化することができ、効率的な訓練カリキュラムを提供することでモードカバレッジを向上させることができる。 提案手法の有効性を, 探索課題, 拡散に基づく2つのサンプリング課題, および, 試料効率とモードカバレッジを向上させる能力を示す4つの生化学的発見課題を示す合成環境において検証した。

Amortized inference is the task of training a parametric model, such as a neural network, to approximate a distribution with a given unnormalized density where exact sampling is intractable. When sampling is implemented as a sequential decision-making process, reinforcement learning (RL) methods, such as generative flow networks, can be used to train the sampling policy. Off-policy RL training facilitates the discovery of diverse, high-reward candidates, but existing methods still face challenges in efficient exploration. We propose to use an adaptive training distribution (the Teacher) to guide the training of the primary amortized sampler (the Student) by prioritizing high-loss regions. The Teacher, an auxiliary behavior model, is trained to sample high-error regions of the Student and can generalize across unexplored modes, thereby enhancing mode coverage by providing an efficient training curriculum. We validate the effectiveness of this approach in a synthetic environment designed to present an exploration challenge, two diffusion-based sampling tasks, and four biochemical discovery tasks demonstrating its ability to improve sample efficiency and mode coverage.
翻訳日:2024-11-04 21:09:23 公開日:2024-10-02
# 回路構成:トランスフォーマーに基づく言語モデルにおけるモジュール構造探索

Circuit Compositions: Exploring Modular Structures in Transformer-Based Language Models ( http://arxiv.org/abs/2410.01434v1 )

ライセンス: Link先を確認
Philipp Mondorf, Sondre Wold, Barbara Plank, (参考訳) 解釈可能性研究における根本的な疑問は、ニューラルネットワーク、特に言語モデルが、より複雑なタスクを実行するために構成できるサブネットワークを介して、再利用可能な機能を実装するかである。 近年の機械的解釈可能性の発達により、特定のタスクにおけるモデルの振る舞いに責任を負う最小限の計算部分グラフを表すサブネット(しばしばサーキットと呼ばれる)の同定が進んでいる。 しかし、ほとんどの研究は、機能的に類似した回路が相互にどのように関連しているかを調査することなく、個々のタスクの回路を特定することに重点を置いている。 このギャップに対処するために、トランスフォーマーベース言語モデル内の高構成サブタスクの回路を解析し、ニューラルネットワークのモジュラリティについて検討する。 具体的には、確率論的文脈自由文法を考慮し、10個のモジュール型文字列編集操作に責任を負う回路を特定し比較する。 以上の結果から,機能的に類似した回路は,ノード重なりとクロスタスク忠実度の両方を示すことが明らかとなった。 さらに、同定された回路は、サブネットワークセット演算によって再利用され、結合され、モデルのより複雑な機能的能力を表現できることを実証する。

A fundamental question in interpretability research is to what extent neural networks, particularly language models, implement reusable functions via subnetworks that can be composed to perform more complex tasks. Recent developments in mechanistic interpretability have made progress in identifying subnetworks, often referred to as circuits, which represent the minimal computational subgraph responsible for a model's behavior on specific tasks. However, most studies focus on identifying circuits for individual tasks without investigating how functionally similar circuits relate to each other. To address this gap, we examine the modularity of neural networks by analyzing circuits for highly compositional subtasks within a transformer-based language model. Specifically, given a probabilistic context-free grammar, we identify and compare circuits responsible for ten modular string-edit operations. Our results indicate that functionally similar circuits exhibit both notable node overlap and cross-task faithfulness. Moreover, we demonstrate that the circuits identified can be reused and combined through subnetwork set operations to represent more complex functional capabilities of the model.
翻訳日:2024-11-04 21:09:23 公開日:2024-10-02
# 視覚言語モデルにおけるジェイルブレーカビリティとステルスネス間の情報理論原則トレードオフ

Information-Theoretical Principled Trade-off between Jailbreakability and Stealthiness on Vision Language Models ( http://arxiv.org/abs/2410.01438v1 )

ライセンス: Link先を確認
Ching-Chia Kao, Chia-Mu Yu, Chun-Shien Lu, Chu-Song Chen, (参考訳) 近年、ビジョン・ランゲージ・モデル(VLM)は人工知能の大幅な進歩を示し、様々な領域でタスクを変換している。 それらの能力にもかかわらず、これらのモデルはジェイルブレイク攻撃の影響を受けやすいため、安全性と信頼性を損なう可能性がある。 本稿では,VLMにおける脱獄性と盗難のトレードオフを考察し,非盗難脱獄攻撃を検知し,モデルロバスト性を高める新しいアルゴリズムを提案する。 拡散モデルを用いたステルスネスを意識したジェイルブレイク攻撃を導入し,AI生成コンテンツ検出の課題を強調した。 我々のアプローチは、ファノの不平等を利用して、攻撃の成功率とステルスネススコアの関係を解明し、これらの脅威を評価するための説明可能なフレームワークを提供する。 当社のコントリビューションは、高度な攻撃に対してAIシステムを強化し、そのアウトプットが倫理基準とユーザの期待に沿うことを保証することを目的としています。

In recent years, Vision-Language Models (VLMs) have demonstrated significant advancements in artificial intelligence, transforming tasks across various domains. Despite their capabilities, these models are susceptible to jailbreak attacks, which can compromise their safety and reliability. This paper explores the trade-off between jailbreakability and stealthiness in VLMs, presenting a novel algorithm to detect non-stealthy jailbreak attacks and enhance model robustness. We introduce a stealthiness-aware jailbreak attack using diffusion models, highlighting the challenge of detecting AI-generated content. Our approach leverages Fano's inequality to elucidate the relationship between attack success rates and stealthiness scores, providing an explainable framework for evaluating these threats. Our contributions aim to fortify AI systems against sophisticated attacks, ensuring their outputs remain aligned with ethical standards and user expectations.
翻訳日:2024-11-04 21:09:23 公開日:2024-10-02
# 教師識別のためのデコレーションに基づく自己監督型視覚表現学習

Decorrelation-based Self-Supervised Visual Representation Learning for Writer Identification ( http://arxiv.org/abs/2410.01441v1 )

ライセンス: Link先を確認
Arkadip Maitra, Shree Mitra, Siladittya Manna, Saumik Bhattacharya, Umapada Pal, (参考訳) 自己教師型学習は過去10年間で急速に発展し、コンピュータビジョンの多くの分野に応用されてきた。 相関性に基づく自己教師付き事前学習は、非競合性アルゴリズムの間で大きな可能性を示しており、教師付きで対照的な自己教師付きベースラインと同等のパフォーマンスが得られる。 本研究では,自己教師型学習のデコリレーションに基づくパラダイムを探求し,著者識別のためのアンタングル型ストローク特徴の学習に適用する。 本稿では,既存のフレームワーク上の各次元に沿った特徴を標準化し,署名検証のために提案したSWISというデコリレーションベースのフレームワークを改良した定式化を提案する。 提案手法は,著者識別ベンチマークにおいて,現代の自己教師付き学習フレームワークよりも優れており,また,教師付き手法よりも優れていることを示す。 我々の知る限りでは、本研究は、著者検証タスクの学習表現に自己教師付き学習を適用した最初のものである。

Self-supervised learning has developed rapidly over the last decade and has been applied in many areas of computer vision. Decorrelation-based self-supervised pretraining has shown great promise among non-contrastive algorithms, yielding performance at par with supervised and contrastive self-supervised baselines. In this work, we explore the decorrelation-based paradigm of self-supervised learning and apply the same to learning disentangled stroke features for writer identification. Here we propose a modified formulation of the decorrelation-based framework named SWIS which was proposed for signature verification by standardizing the features along each dimension on top of the existing framework. We show that the proposed framework outperforms the contemporary self-supervised learning framework on the writer identification benchmark and also outperforms several supervised methods as well. To the best of our knowledge, this work is the first of its kind to apply self-supervised learning for learning representations for writer verification tasks.
翻訳日:2024-11-04 17:44:25 公開日:2024-10-02
# モノフォニックおよびポリフォニックシンボリック音楽におけるバイトペア符号化の分析 : 音楽的フレーズセグメンテーションに着目して

Analyzing Byte-Pair Encoding on Monophonic and Polyphonic Symbolic Music: A Focus on Musical Phrase Segmentation ( http://arxiv.org/abs/2410.01448v1 )

ライセンス: Link先を確認
Dinh-Viet-Toan Le, Louis Bigo, Mikaela Keller, (参考訳) Byte-Pair Encoding (BPE) は、自然言語処理において、最近シンボリック音楽に適用されたサブワードの語彙を構築するためによく使われるアルゴリズムである。 シンボリック音楽はテキスト,特にポリフォニーとは大きく異なるので,BPEが音楽コンテンツの種類によってどのように振る舞うかを考察する。 本研究は,BPEの動作をさまざまな楽器で定性的に分析し,モノフォニック音楽とポリフォニック音楽の両方に対する音節セグメンテーション課題に与える影響を評価する。 以上の結果から,BPEのトレーニングプロセスは楽器に大きく依存しており,BPEの「スーパートケン」が抽象的な音楽内容の収集に成功していることが明らかとなった。 音楽句セグメンテーションタスクでは、BPEは特にポリフォニックセッティングのパフォーマンスを向上させるが、特定のBPEマージの範囲内でのみ、モノフォニックチューンのパフォーマンスを向上させる。

Byte-Pair Encoding (BPE) is an algorithm commonly used in Natural Language Processing to build a vocabulary of subwords, which has been recently applied to symbolic music. Given that symbolic music can differ significantly from text, particularly with polyphony, we investigate how BPE behaves with different types of musical content. This study provides a qualitative analysis of BPE's behavior across various instrumentations and evaluates its impact on a musical phrase segmentation task for both monophonic and polyphonic music. Our findings show that the BPE training process is highly dependent on the instrumentation and that BPE "supertokens" succeed in capturing abstract musical content. In a musical phrase segmentation task, BPE notably improves performance in a polyphonic setting, but enhances performance in monophonic tunes only within a specific range of BPE merges.
翻訳日:2024-11-04 17:44:25 公開日:2024-10-02
# マンダリン歌詞生成のためのエージェント駆動型大言語モデル

Agent-Driven Large Language Models for Mandarin Lyric Generation ( http://arxiv.org/abs/2410.01450v1 )

ライセンス: Link先を確認
Hong-Hsiang Liu, Yi-Wen Liu, (参考訳) 生成可能な大規模言語モデルは、インコンテキスト学習能力に優れており、プロンプトだけで様々なタスクでうまく機能している。 これまでのメロディから歌詞への研究は、高品質な整列データが少ないことと、創造性に関する不明瞭な基準によって制限されてきた。 ほとんどの取り組みは、現在の言語モデル能力を考えると価値の低い一般的なテーマや感情に焦点を当てています。 マンダリンのような音節の輪郭言語では、ピッチの輪郭はメロディとトーンの両方に影響され、歌詞とメロディの適合性が変化する。 Mpop600データセットで検証した結果, 作詞家やメロディ作家が作曲過程に適合すると考えられることが確認された。 本研究では,メロディから歌詞へのタスクをサブタスクに分解するマルチエージェントシステムを開発し,各エージェントが韻律,音節数,歌詞・メロディのアライメント,一貫性を制御している。 異なるエージェント群が生成する歌詞の質を評価するために,拡散型歌唱音声合成器を用いて聴取試験を行った。

Generative Large Language Models have shown impressive in-context learning abilities, performing well across various tasks with just a prompt. Previous melody-to-lyric research has been limited by scarce high-quality aligned data and unclear standard for creativeness. Most efforts focused on general themes or emotions, which are less valuable given current language model capabilities. In tonal contour languages like Mandarin, pitch contours are influenced by both melody and tone, leading to variations in lyric-melody fit. Our study, validated by the Mpop600 dataset, confirms that lyricists and melody writers consider this fit during their composition process. In this research, we developed a multi-agent system that decomposes the melody-to-lyric task into sub-tasks, with each agent controlling rhyme, syllable count, lyric-melody alignment, and consistency. Listening tests were conducted via a diffusion-based singing voice synthesizer to evaluate the quality of lyrics generated by different agent groups.
翻訳日:2024-11-04 17:44:25 公開日:2024-10-02
# アンサンブルはデータ拡張による等価性を確実に学習する

Ensembles provably learn equivariance through data augmentation ( http://arxiv.org/abs/2410.01452v1 )

ライセンス: Link先を確認
Oskar Nordenfors, Axel Flinth, (参考訳) 近年,無限大のニューラルネットワーク(ニューラルネットワークの限界)の限界が完全に増大した結果,群同値がニューラルネットワークのアンサンブルに現れることが証明された。 本稿では,この結果を著しく拡張する。 この出現は、ニューラルネットワークのカーネル制限に全く依存しないことを示す。 また、確率的設定、さらに一般的なアーキテクチャについても検討する。 後者の場合、アーキテクチャと結果を保持するためのグループの動作の関係について、簡単な条件を提供する。 簡単な数値実験により得られた知見を検証した。

Recently, it was proved that group equivariance emerges in ensembles of neural networks as the result of full augmentation in the limit of infinitely wide neural networks (neural tangent kernel limit). In this paper, we extend this result significantly. We provide a proof that this emergence does not depend on the neural tangent kernel limit at all. We also consider stochastic settings, and furthermore general architectures. For the latter, we provide a simple sufficient condition on the relation between the architecture and the action of the group for our results to hold. We validate our findings through simple numeric experiments.
翻訳日:2024-11-04 17:44:25 公開日:2024-10-02
# 新型コロナウイルスパンデミックが女性の公法への貢献に及ぼす影響

The Impact of the COVID-19 Pandemic on Women's Contribution to Public Code ( http://arxiv.org/abs/2410.01454v1 )

ライセンス: Link先を確認
Annalí Casanueva, Davide Rossi, Stefano Zacchiroli, Théo Zimmermann, (参考訳) オープン性と包括性という約束にもかかわらず、フリーかつオープンソースソフトウェア(FOSS)の開発は、コントリビュータ間のジェンダー表現の観点からも、相変わらず不均衡なままである。 この不均衡に対処する上で,オープンソースプロジェクトのメンテナやコミュニティを支援するためには,この不平等の原因を理解することが不可欠である。 そのために、公開コードに対する最大のコミットデータセットを保持するSoftware Heritageアーカイブと、歴史的データから因果関係の導出を可能にするエコノメトリとの違い(DID)方法論を使用しています。 さらに, コントリビューション・サブグループの観察では, 特に女性ホビイストに影響を及ぼし, コントリビューション・パターンやメールアドレス・ドメインを用いて同定した。

Despite its promise of openness and inclusiveness, the development of free and open source software (FOSS) remains significantly unbalanced in terms of gender representation among contributors. To assist open source project maintainers and communities in addressing this imbalance, it is crucial to understand the causes of this inequality.In this study, we aim to establish how the COVID-19 pandemic has influenced the ability of women to contribute to public code. To do so, we use the Software Heritage archive, which holds the largest dataset of commits to public code, and the difference in differences (DID) methodology from econometrics that enables the derivation of causality from historical data.Our findings show that the COVID-19 pandemic has disproportionately impacted women's ability to contribute to the development of public code, relatively to men. Further, our observations of specific contributor subgroups indicate that COVID-19 particularly affected women hobbyists, identified using contribution patterns and email address domains.
翻訳日:2024-11-04 17:44:25 公開日:2024-10-02
# Reward ShapingからQ-Shapingへ:LLM指導による未経験学習の実現

From Reward Shaping to Q-Shaping: Achieving Unbiased Learning with LLM-Guided Knowledge ( http://arxiv.org/abs/2410.01458v1 )

ライセンス: Link先を確認
Xiefeng Wu, (参考訳) Q-シェーピングはQ-値初期化の拡張であり、ドメイン知識を取り入れてエージェントトレーニングを加速する報酬シェーピングの代替として機能し、Q-値を直接整形することでサンプル効率を向上させる。 このアプローチは多種多様なタスクにまたがって汎用的かつ堅牢であり、最適性を保証しながら即時に影響評価を可能にする。 我々は,大言語モデル(LLM)をヒューリスティックプロバイダとして,20の異なる環境におけるQ-シェーピングを評価した。 その結果、Q字型化はサンプル効率を著しく向上させ、各環境における最良基準値に対して「textbf{16.87\%」の改善と「textbf{253.80\%」の改善を実現し、LLMベースの報酬形化法と比較して「textbf{253.80\%」の改善を達成した。 これらの知見は、強化学習における従来の報酬形成に代わる、優良で偏見のない代替手段としてQ字形が確立されている。

Q-shaping is an extension of Q-value initialization and serves as an alternative to reward shaping for incorporating domain knowledge to accelerate agent training, thereby improving sample efficiency by directly shaping Q-values. This approach is both general and robust across diverse tasks, allowing for immediate impact assessment while guaranteeing optimality. We evaluated Q-shaping across 20 different environments using a large language model (LLM) as the heuristic provider. The results demonstrate that Q-shaping significantly enhances sample efficiency, achieving a \textbf{16.87\%} improvement over the best baseline in each environment and a \textbf{253.80\%} improvement compared to LLM-based reward shaping methods. These findings establish Q-shaping as a superior and unbiased alternative to conventional reward shaping in reinforcement learning.
翻訳日:2024-11-04 17:34:40 公開日:2024-10-02
# 物質中の原子輸送の加速シミュレーションのためのフローマッチング

Flow Matching for Accelerated Simulation of Atomic Transport in Materials ( http://arxiv.org/abs/2410.01464v1 )

ライセンス: Link先を確認
Juno Nam, Sulin Liu, Gavin Winter, KyuJung Jun, Soojung Yang, Rafael Gómez-Bombarelli, (参考訳) 原子変位の条件生成としてタスクを定式化する結晶材料の分子動力学(MD)シミュレーションを高速化する生成フレームワークであるLiFlowを紹介する。 このモデルはフローマッチングを使用し、原子変位を生成するための Propagator サブモデルと、非物理的幾何学を局所的に補正する Corrector と、化学的および熱的条件を考慮した Maxwell-Boltzmann 分布に基づく適応的な事前計算を組み込む。 4,186固体電解質 (SSE) 候補を4温度で25-psのリチウム拡散を観測した。 このモデルでは、リチウム平均二乗変位(MSD)予測において、一貫したスピアマンランク相関が 0.7-0.8 となる。 さらに、LiFlowは、短い訓練軌道からより大きなスーパーセルへと一般化し、高い精度を維持しながら、より長いシミュレーションを行う。 第一原理法と比較して最大600,000$\times$のスピードアップにより、LiFlowは、はるかに大きな長さと時間スケールでスケーラブルなシミュレーションを可能にする。

We introduce LiFlow, a generative framework to accelerate molecular dynamics (MD) simulations for crystalline materials that formulates the task as conditional generation of atomic displacements. The model uses flow matching, with a Propagator submodel to generate atomic displacements and a Corrector to locally correct unphysical geometries, and incorporates an adaptive prior based on the Maxwell-Boltzmann distribution to account for chemical and thermal conditions. We benchmark LiFlow on a dataset comprising 25-ps trajectories of lithium diffusion across 4,186 solid-state electrolyte (SSE) candidates at four temperatures. The model obtains a consistent Spearman rank correlation of 0.7-0.8 for lithium mean squared displacement (MSD) predictions on unseen compositions. Furthermore, LiFlow generalizes from short training trajectories to larger supercells and longer simulations while maintaining high accuracy. With speed-ups of up to 600,000$\times$ compared to first-principles methods, LiFlow enables scalable simulations at significantly larger length and time scales.
翻訳日:2024-11-04 17:34:40 公開日:2024-10-02
# TIGER:効率的な音声分離のための時間周波数インターリーブ利得抽出と再構成

TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation ( http://arxiv.org/abs/2410.01469v1 )

ライセンス: Link先を確認
Mohan Xu, Kai Li, Guo Chen, Xiaolin Hu, (参考訳) 近年,多くの音声分離研究が,主にモデル性能の向上に重点を置いている。 しかし,低遅延音声処理システムにおいては,高効率化が重要である。 そこで本研究では,時間周波数インターリーブ付きゲイン抽出・再構成ネットワーク(TIGER)を用いて,パラメータと計算コストを大幅に削減した音声分離モデルを提案する。 TIGERは事前の知識を活用して周波数帯域を分割し、周波数情報を圧縮する。 我々は、時間的・周波数的両方のコンテキスト情報をキャプチャするフル周波数フレームアテンションモジュールを導入しながら、コンテキスト的特徴を抽出するために、マルチスケールの選択的アテンションモジュールを用いている。 さらに,複雑な音響環境下での音声分離モデルの性能をより現実的に評価するために,EchoSetというデータセットを導入する。 このデータセットには、雑音とより現実的な残響(例えば、物体の閉塞や材料特性を考慮して)が含まれており、2人の話者の発話はランダムな比率で重なる。 実験の結果、EchoSetでトレーニングされたモデルは、物理的な世界で収集されたデータに対して、他のデータセットでトレーニングされたモデルよりも、より優れた一般化能力を示し、EchoSetの実用的価値が検証された。 EchoSetと現実世界のデータでは、TIGERはパラメータ数を94.3%、MACを95.3%削減し、最先端(SOTA)モデルTF-GridNetを上回るパフォーマンスを実現している。 これは、SOTAモデルに匹敵する性能を達成する100万未満のパラメータを持つ最初の音声分離モデルである。

In recent years, much speech separation research has focused primarily on improving model performance. However, for low-latency speech processing systems, high efficiency is equally important. Therefore, we propose a speech separation model with significantly reduced parameters and computational costs: Time-frequency Interleaved Gain Extraction and Reconstruction network (TIGER). TIGER leverages prior knowledge to divide frequency bands and compresses frequency information. We employ a multi-scale selective attention module to extract contextual features, while introducing a full-frequency-frame attention module to capture both temporal and frequency contextual information. Additionally, to more realistically evaluate the performance of speech separation models in complex acoustic environments, we introduce a dataset called EchoSet. This dataset includes noise and more realistic reverberation (e.g., considering object occlusions and material properties), with speech from two speakers overlapping at random proportions. Experimental results showed that models trained on EchoSet had better generalization ability than those trained on other datasets to the data collected in the physical world, which validated the practical value of the EchoSet. On EchoSet and real-world data, TIGER significantly reduces the number of parameters by 94.3% and the MACs by 95.3% while achieving performance surpassing state-of-the-art (SOTA) model TF-GridNet. This is the first speech separation model with fewer than 1 million parameters that achieves performance comparable to the SOTA model.
翻訳日:2024-11-04 17:34:40 公開日:2024-10-02
# 層を振り返る:ニューラルニュースレコメンダにおけるエンコーダアーキテクチャの深さ評価

Peeling Back the Layers: An In-Depth Evaluation of Encoder Architectures in Neural News Recommenders ( http://arxiv.org/abs/2410.01470v1 )

ライセンス: Link先を確認
Andreea Iana, Goran Glavaš, Heiko Paulheim, (参考訳) エンコーダアーキテクチャは、ニュースやユーザのセマンティック情報とコンテキスト情報を埋め込むことによって、ニューラルニュースレコメンデータにおいて重要な役割を果たす。 このように、ニュースやユーザエンコーダの表現能力の向上に重点を置いて、レコメンダ性能の向上に努めてきた。 エンコーダアーキテクチャがニュースやユーザ表現の品質に与える影響は大きいが、既存のエンコーダ設計の分析では、全体的なダウンストリームレコメンデーションのパフォーマンスにのみ焦点が当てられている。 これは、エンコーダの類似性を一方的に評価し、その振る舞いの微妙な違いを無視し、潜在的に準最適モデル選択をもたらす。 本研究では,ニューラルニュースレコメンデータシステムにおけるエンコーダアーキテクチャの包括的解析を行う。 我々は、最も顕著なニュースとユーザエンコーダアーキテクチャを体系的に評価し、それらに焦点を当てた。 (i)中央カーネルアライメントで測定された表現的類似性 (二 生成された推薦リストの重複、ジャカード類似度と定量化、及び (三)全体的な推薦公演。 我々の分析によると、特定の符号化技法の複雑さは、しばしば経験的に不適切であり、よりシンプルで効率的なアーキテクチャの可能性を強調している。 個々のコンポーネントの効果を分離することにより、研究者や実践者たちは、エンコーダの選択に関するより良い情報決定を行い、ニュースレコメンデータの設計において不要な複雑さを避けるための貴重な洞察を提供する。

Encoder architectures play a pivotal role in neural news recommenders by embedding the semantic and contextual information of news and users. Thus, research has heavily focused on enhancing the representational capabilities of news and user encoders to improve recommender performance. Despite the significant impact of encoder architectures on the quality of news and user representations, existing analyses of encoder designs focus only on the overall downstream recommendation performance. This offers a one-sided assessment of the encoders' similarity, ignoring more nuanced differences in their behavior, and potentially resulting in sub-optimal model selection. In this work, we perform a comprehensive analysis of encoder architectures in neural news recommender systems. We systematically evaluate the most prominent news and user encoder architectures, focusing on their (i) representational similarity, measured with the Central Kernel Alignment, (ii) overlap of generated recommendation lists, quantified with the Jaccard similarity, and (iii) the overall recommendation performance. Our analysis reveals that the complexity of certain encoding techniques is often empirically unjustified, highlighting the potential for simpler, more efficient architectures. By isolating the effects of individual components, we provide valuable insights for researchers and practitioners to make better informed decisions about encoder selection and avoid unnecessary complexity in the design of news recommenders.
翻訳日:2024-11-04 17:34:40 公開日:2024-10-02
# SinkSAM: 自動シンクホールセグメンテーションのための単眼深度ガイド付きSAMフレームワーク

SinkSAM: A Monocular Depth-Guided SAM Framework for Automatic Sinkhole Segmentation ( http://arxiv.org/abs/2410.01473v1 )

ライセンス: Link先を確認
Osher Rafaeli, Tal Svoray, Ariel Nahlieli, (参考訳) 土壌シンクホールは土壌の劣化に大きく影響するが、その不規則な形状は影や植生からの干渉とともに、リモートセンシングデータを用いてその特性を正確に定量化することは困難である。 本稿では, 閉鎖型うつ病の従来の地形計算と, SAM(Segment Anything Model)を併用したシンクホールセグメンテーションの枠組みを提案する。 SinkSAM と呼ばれるこのフレームワークでは,(1) SAM とのトポグラフィ計算の統合により,シンクホール境界セグメンテーションのピクセルレベル改善が可能になること,(2) クローズドプレッションに基づくコヒーレントな数学的プロンプト戦略は,未定義のシンクホール特徴の検出とセグメンテーションにおける純粋学習モデル(CNN)の限界に対処すること,(3) 自動プロンプトにDepth Anything V2 の単分子深度を用いることで,光グラム量バイアスを排除し,LiDAR データに依存することなくシンクホールマッピングを可能にすること,(4) 既存のシンクホールデータベースは,シンクホール境界セグメンテーションを微調整し,そのゼロショット性能を向上させる。 これらの進歩により、SinkSAMは、高度に可変なセミアリド領域で、40.27\%のインターチェンジ・オーバー・ユニオン(IoU)を達成し、以前の結果を上回った。 また,1枚のRGB画像からシンクホールマップを抽出する際のSinkSAMのロバスト性を示す。

Soil sinkholes significantly influence soil degradation, but their irregular shapes, along with interference from shadow and vegetation, make it challenging to accurately quantify their properties using remotely sensed data. We present a novel framework for sinkhole segmentation that combines traditional topographic computations of closed depressions with the newly developed prompt-based Segment Anything Model (SAM). Within this framework, termed SinkSAM, we highlight four key improvements: (1) The integration of topographic computations with SAM enables pixel-level refinement of sinkhole boundaries segmentation; (2) A coherent mathematical prompting strategy, based on closed depressions, addresses the limitations of purely learning-based models (CNNs) in detecting and segmenting undefined sinkhole features, while improving generalization to new, unseen regions; (3) Using Depth Anything V2 monocular depth for automatic prompts eliminates photogrammetric biases, enabling sinkhole mapping without the dependence on LiDAR data; and (4) An established sinkhole database facilitates fine-tuning of SAM, improving its zero-shot performance in sinkhole segmentation. These advancements allow the deployment of SinkSAM, in an unseen test area, in the highly variable semiarid region, achieving an intersection-over-union (IoU) of 40.27\% and surpassing previous results. This paper also presents the first SAM implementation for sinkhole segmentation and demonstrates the robustness of SinkSAM in extracting sinkhole maps using a single RGB image.
翻訳日:2024-11-04 17:34:40 公開日:2024-10-02
# 分子時計センサを用いたゼロ磁場磁力計の普遍的およびロバストな動的疎結合制御

Universal and robust dynamic decoupling controls for zero-field magnetometry by using molecular clock sensors ( http://arxiv.org/abs/2410.01479v1 )

ライセンス: Link先を確認
Jiawen Jiang, Q. Chen, (参考訳) ダイヤモンドと炭化ケイ素(SiC)における色中心とホストマトリックス制御による分子スピンは、光学的にアドレス化可能で、コヒーレントに制御可能で、ターゲットに親和性を持たせることができるため、ナノスケールの量子センシングに期待できる。 しかし、その内在対称性や宿主行列の高局所ひずみのため、大きな横ゼロフィールド分割(ZFS)は避けられないことが多い。 スピンコヒーレンス(スピンコヒーレンス)は、消滅する磁場における磁気ノイズ非感受性クロック遷移によって拡張できるが、これらのセンサの固有状態は線形方向の弱い磁気信号には敏感ではない。 我々は、NV方向に沿った高周波(RF)フィールド駆動とマイクロ波(MW)ダイナミックデカップリングパルスシーケンスを組み合わせることで、この問題に対処する。 RF駆動は、逆ZFS効果を効果的に軽減し、交流磁場信号に対するNV中心の感度を高める。 この組み合わせは環境ノイズを抑制するだけでなく、逆ZFSと信号間の量子周波数の混合を可能にする。 また、中間周波数と高周波数で弱い交流信号を高分解能で検出する能力も提供しており、従来の方法では達成が難しい。

Color centers in diamond and silicon carbide (SiC), and molecular spins through a host matrix control are promising for nanoscale quantum sensing because they can be optically addressable, coherently controllable, and placed proximate to the targets. However, large transverse zero-field splitting (ZFS) is often inevitable due to their intrinsic symmetry and/or the high local strains of the host matrix. Although spin coherence can be extended due to magnetic noise-insensitive clock transitions at a vanishing magnetic field, the eigenstates of these sensors are not sensitive to weak magnetic signals in the linear order. We address this challenge by employing a combination of radio-frequency (RF) field driving along the NV orientation and microwave (MW) dynamic decoupling pulse sequences. RF driving can effectively mitigate the transverse ZFS effect and enhance the NV center's sensitivity to AC magnetic field signals. This combination not only suppresses environmental noise but also enables quantum frequency mixing between the transverse ZFS and the signal. It also offers the potential to detect weak AC signals at intermediate and high frequencies with high resolution, a task difficult to achieve using conventional methods.
翻訳日:2024-11-04 17:34:40 公開日:2024-10-02
# フレキシブルモノトン多成分反応モデルとビットスケールの導入

Introducing Flexible Monotone Multiple Choice Item Response Theory Models and Bit Scales ( http://arxiv.org/abs/2410.01480v1 )

ライセンス: Link先を確認
Joakim Wallmark, Maria Josefsson, Marie Wiberg, (参考訳) 項目応答理論(IRT)は、テスト項目の評価と反応分析によるテストテイカーの能力決定のための強力な統計手法である。 データに適合するIRTモデルは、より正確な潜在特性推定をもたらす。 本研究では,複数選択データに対する新しいモデルであるモノトーン多重選択(MMC)モデルを提案する。 スウェーデンのスコラスタティック適性テストのシミュレーションシナリオと実データの両方を用いて、MCCモデルが従来の名目応答IRTモデルよりも適合性で優れていることを実証的に実証した。 さらに,任意のIRTモデルから潜在特性尺度を比例尺度に変換し,スコアの解釈を支援し,IRTモデルの異なるタイプの比較を容易にする方法について述べる。 これらの新しいスケールをビットスケールと呼ぶ。 ビットスケールは,本研究におけるオートエンコーダ適応モデルのような潜在特性尺度分布に対して最小あるいは無仮定のモデルに特に有用である。

Item Response Theory (IRT) is a powerful statistical approach for evaluating test items and determining test taker abilities through response analysis. An IRT model that better fits the data leads to more accurate latent trait estimates. In this study, we present a new model for multiple choice data, the monotone multiple choice (MMC) model, which we fit using autoencoders. Using both simulated scenarios and real data from the Swedish Scholastic Aptitude Test, we demonstrate empirically that the MMC model outperforms the traditional nominal response IRT model in terms of fit. Furthermore, we illustrate how the latent trait scale from any fitted IRT model can be transformed into a ratio scale, aiding in score interpretation and making it easier to compare different types of IRT models. We refer to these new scales as bit scales. Bit scales are especially useful for models for which minimal or no assumptions are made for the latent trait scale distributions, such as for the autoencoder fitted models in this study.
翻訳日:2024-11-04 17:34:40 公開日:2024-10-02
# SonicSim:移動音源シナリオにおける音声処理のためのカスタマイズ可能なシミュレーションプラットフォーム

SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios ( http://arxiv.org/abs/2410.01481v1 )

ライセンス: Link先を確認
Kai Li, Wendi Sang, Chang Zeng, Runxuan Yang, Guo Chen, Xiaolin Hu, (参考訳) 移動音源条件下での音声分離と強化モデルの体系的評価は、典型的には多様なシナリオからなる広範囲なデータを必要とする。 しかし、実世界のデータセットは、モデルのトレーニングと評価の要求を満たすのに不十分なデータを含んでいることが多い。 合成データセットは大量のデータを提供するが、音響シミュレーションには現実性がない。 その結果、実世界のデータセットも合成データセットも現実的なニーズを効果的に満たさない。 これらの問題に対処するために、音源を移動させるための高度にカスタマイズ可能なデータを生成するための合成ツールキットであるSonicSimを紹介する。 SonicSimは、組み込みAIシミュレーションプラットフォームであるHabitat-simに基づいて開発されており、シーンレベル、マイクレベル、ソースレベルを含む複数レベルの調整をサポートし、より多様な合成データを生成する。 SonicSimを応用して、Librispeech、Freesound Dataset 50k(FSD50K)、Free Music Archive(FMA)を用いて、移動音源ベンチマークデータセットSonicSetを構築し、Matterport3Dから90のシーンを作成し、音声分離と拡張モデルの評価を行った。 さらに、合成データと実世界のデータの違いを検証するために、SonicSet検証セットから残響のない5時間の生データをランダムに選択し、実世界の音声分離データセットを記録し、対応する合成データセットと比較した。 同様に、実世界の音声強調データセットRealMANを用いて、他の合成データセットと音声強調用SonicSetデータセットの音響的ギャップを検証する。 その結果,SonicSimが生成した合成データは実世界のシナリオに効果的に一般化できることが示唆された。 デモとコードはhttps://cslikai.cn/SonicSim/で公開されている。

The systematic evaluation of speech separation and enhancement models under moving sound source conditions typically requires extensive data comprising diverse scenarios. However, real-world datasets often contain insufficient data to meet the training and evaluation requirements of models. Although synthetic datasets offer a larger volume of data, their acoustic simulations lack realism. Consequently, neither real-world nor synthetic datasets effectively fulfill practical needs. To address these issues, we introduce SonicSim, a synthetic toolkit de-designed to generate highly customizable data for moving sound sources. SonicSim is developed based on the embodied AI simulation platform, Habitat-sim, supporting multi-level adjustments, including scene-level, microphone-level, and source-level, thereby generating more diverse synthetic data. Leveraging SonicSim, we constructed a moving sound source benchmark dataset, SonicSet, using the Librispeech, the Freesound Dataset 50k (FSD50K) and Free Music Archive (FMA), and 90 scenes from the Matterport3D to evaluate speech separation and enhancement models. Additionally, to validate the differences between synthetic data and real-world data, we randomly selected 5 hours of raw data without reverberation from the SonicSet validation set to record a real-world speech separation dataset, which was then compared with the corresponding synthetic datasets. Similarly, we utilized the real-world speech enhancement dataset RealMAN to validate the acoustic gap between other synthetic datasets and the SonicSet dataset for speech enhancement. The results indicate that the synthetic data generated by SonicSim can effectively generalize to real-world scenarios. Demo and code are publicly available at https://cslikai.cn/SonicSim/.
翻訳日:2024-11-04 17:34:40 公開日:2024-10-02
# すべてを説明するひとつの波:ポストホックな説明可能性に関する統一的な視点

One Wave to Explain Them All: A Unifying Perspective on Post-hoc Explainability ( http://arxiv.org/abs/2410.01482v1 )

ライセンス: Link先を確認
Gabriel Kasmi, Amandine Brunetto, Thomas Fel, Jayneel Parekh, (参考訳) 安全クリティカルな意思決定におけるディープニューラルネットワークの利用の増加にもかかわらず、その固有のブラックボックスの性質は透明性と解釈可能性を妨げる。 説明可能なAI(XAI)手法は、モデルの内部動作、特にサリエンシマップ(英語版)と呼ばれる帰属的手法を理解するために登場した。 従来の属性メソッドは通常、入力内の重要な領域の場所(場所)を識別する。 しかし、これらの手法は入力データ固有の構造を見落としているため、これらの領域がどのような構造成分(例えば、画像のテクスチャや音のトランジェント)で表すかを理解するのに失敗することが多い。 さらに、既存のメソッドは通常、単一のデータモダリティに合わせて調整され、一般化性を制限する。 本稿では,ウェーブレット領域を属性の頑健な数学的基礎として活用することを提案する。 我々のアプローチであるWavelet Attribution Method (WAM)は、既存の勾配に基づく特徴属性をウェーブレット領域に拡張し、画像、オーディオ、および3次元形状の分類器を記述するための統一的なフレームワークを提供する。 実験的な評価は、WAMが画像、オーディオ、および3D説明可能性において、忠実度メトリクスとモデルにまたがる最先端の手法と一致するか、あるいは超えていることを示している。 最後に、私たちのメソッドが、入力の重要な部分である場所だけでなく、関連するパターンを構造的コンポーネントの観点からどのように説明しているかを示します。

Despite the growing use of deep neural networks in safety-critical decision-making, their inherent black-box nature hinders transparency and interpretability. Explainable AI (XAI) methods have thus emerged to understand a model's internal workings, and notably attribution methods also called saliency maps. Conventional attribution methods typically identify the locations -- the where -- of significant regions within an input. However, because they overlook the inherent structure of the input data, these methods often fail to interpret what these regions represent in terms of structural components (e.g., textures in images or transients in sounds). Furthermore, existing methods are usually tailored to a single data modality, limiting their generalizability. In this paper, we propose leveraging the wavelet domain as a robust mathematical foundation for attribution. Our approach, the Wavelet Attribution Method (WAM) extends the existing gradient-based feature attributions into the wavelet domain, providing a unified framework for explaining classifiers across images, audio, and 3D shapes. Empirical evaluations demonstrate that WAM matches or surpasses state-of-the-art methods across faithfulness metrics and models in image, audio, and 3D explainability. Finally, we show how our method explains not only the where -- the important parts of the input -- but also the what -- the relevant patterns in terms of structural components.
翻訳日:2024-11-04 17:34:40 公開日:2024-10-02
# Foldable SuperNets: 初期化とタスクの異なるトランスフォーマーのスケーラブルなマージ

Foldable SuperNets: Scalable Merging of Transformers with Different Initializations and Tasks ( http://arxiv.org/abs/2410.01483v1 )

ライセンス: Link先を確認
Edan Kinderman, Itay Hubara, Haggai Maron, Daniel Soudry, (参考訳) 最近の多くの手法は、異なるタスクでトレーニングされた同一アーキテクチャとニューラルネットワーク(NN)をマージして、単一のマルチタスクモデルを得ることを目的としている。 既存の作業の多くは、一般的なトレーニング済みネットワークから初期化されたNNのマージの簡単なセットアップに取り組み、重量平均化のような単純なヒューリスティックがうまく機能する。 この作業は、さまざまなタスクでトレーニングされた大きなトランスフォーマーと、別の初期化とのマージという、より困難な目標を目標としています。 まず、従来のマージ手法が破滅的に失敗することを示す。 この課題を克服するために,スーパーネットを最適化したFoldable SuperNet Merge (FS-Merge)を提案する。 FS-Mergeは単純でデータ効率が高く、様々な幅のモデルをマージできる。 FS-Mergeは、知識蒸留を含む既存の手法に対して、様々な設定、サイズ、タスク、モダリティにまたがるMDPやトランスフォーマーでテストする。 FS-Mergeは、特に限られたデータシナリオにおいて、SOTA結果を達成することで、それらを一貫して上回る。

Many recent methods aim to merge neural networks (NNs) with identical architectures trained on different tasks to obtain a single multi-task model. Most existing works tackle the simpler setup of merging NNs initialized from a common pre-trained network, where simple heuristics like weight averaging work well. This work targets a more challenging goal: merging large transformers trained on different tasks from distinct initializations. First, we demonstrate that traditional merging methods fail catastrophically in this setup. To overcome this challenge, we propose Foldable SuperNet Merge (FS-Merge), a method that optimizes a SuperNet to fuse the original models using a feature reconstruction loss. FS-Merge is simple, data-efficient, and capable of merging models of varying widths. We test FS-Merge against existing methods, including knowledge distillation, on MLPs and transformers across various settings, sizes, tasks, and modalities. FS-Merge consistently outperforms them, achieving SOTA results, particularly in limited data scenarios.
翻訳日:2024-11-04 17:34:40 公開日:2024-10-02
# 長い道のり:部分的文脈による効率的な長期学習と推論

A Little Goes a Long Way: Efficient Long Context Training and Inference with Partial Contexts ( http://arxiv.org/abs/2410.01485v1 )

ライセンス: Link先を確認
Suyu Ge, Xihui Lin, Yunan Zhang, Jiawei Han, Hao Peng, (参考訳) LLM(long-context large language model)のトレーニングと提供は、かなりのオーバーヘッドを引き起こす。 事前訓練されたLCMは、長いコンテキストデータでトレーニングすることでコンテキスト長拡張のための別々の段階を経、その後、サービス中のKVキャッシュのオーバーヘッドを減らすためにアーキテクチャの変更が行われる。 本稿では,GPUフレンドリなKVキャッシュ削減アーキテクチャと長さ拡張を統合することで,長さ拡張時のトレーニングオーバーヘッドを低減できるだけでなく,長文性能も向上する。 これによりLongGenが提案され、LongGenはトレーニング済みのLLMを長さ拡張中に効率的なアーキテクチャに微調整する。 ウィンドウアテンション(最近のトークン)、アテンションシンク(初期トークン)、ブロックワイズアテンション(ストリップトークンブロック)といったスパースアテンションパターンは、GPUフレンドリーなメモリアクセスパターンのために、効率的なロングコンテキストモデルを構築するのに適しています。 2) モデルがすべてのトークンに直接アクセスすることが不可欠である。 1/3の注意層と2/3の効率のよいハイブリッドアーキテクチャは、効率性と長文のパフォーマンスのバランスのとれたトレードオフを実現する。 3)5B長コンテキストデータの軽量トレーニングは,ハイブリッドモデルのコンテキスト長を4Kから128Kに拡張するのに十分である。 Llama-2 7BとLlama-2 70Bの両方でLongGenを評価し,その有効性を示した。 128Kのコンテキストでのトレーニングでは、LongGenはトレーニング速度を1.55倍に向上し、フルアテンションベースラインに比べてウォールタイム時間を36%短縮する。 推論中、LongGenはKVキャッシュメモリを62%削減し、1.67倍のプリフィルスピードアップと1.41倍のデコードスピードアップを達成した。

Training and serving long-context large language models (LLMs) incurs substantial overhead. To address this, two critical steps are often required: a pretrained LLM typically undergoes a separate stage for context length extension by training on long-context data, followed by architectural modifications to reduce the overhead of KV cache during serving. This paper argues that integrating length extension with a GPU-friendly KV cache reduction architecture not only reduces training overhead during length extension, but also achieves better long-context performance. This leads to our proposed LongGen, which finetunes a pretrained LLM into an efficient architecture during length extension. LongGen builds on three key insights: (1) Sparse attention patterns, such as window attention (attending to recent tokens), attention sink (initial ones), and blockwise sparse attention (strided token blocks) are well-suited for building efficient long-context models, primarily due to their GPU-friendly memory access patterns, enabling efficiency gains not just theoretically but in practice as well. (2) It is essential for the model to have direct access to all tokens. A hybrid architecture with 1/3 full attention layers and 2/3 efficient ones achieves a balanced trade-off between efficiency and long-context performance. (3) Lightweight training on 5B long-context data is sufficient to extend the hybrid model's context length from 4K to 128K. We evaluate LongGen on both Llama-2 7B and Llama-2 70B, demonstrating its effectiveness across different scales. During training with 128K-long contexts, LongGen achieves 1.55x training speedup and reduces wall-clock time by 36%, compared to a full-attention baseline. During inference, LongGen reduces KV cache memory by 62%, achieving 1.67x prefilling speedup and 1.41x decoding speedup.
翻訳日:2024-11-04 17:34:40 公開日:2024-10-02
# 小語彙のような小さな言語モデル:グラファイムと音素に基づく子ラマの言語能力について

Small Language Models Like Small Vocabularies: Probing the Linguistic Abilities of Grapheme- and Phoneme-Based Baby Llamas ( http://arxiv.org/abs/2410.01487v1 )

ライセンス: Link先を確認
Bastian Bunzeck, Daniel Duran, Leonie Schade, Sina Zarrieß, (参考訳) 現在の言語モデルはByte Pair Encodingのようなサブワードベースのトークン化アルゴリズムを使用しており、言語表現のモデルとしての有効性を疑問視している。 本稿では,トークンフリー,音素ベース,およびグラファイムベース言語モデルの可能性について検討する。 我々は,Llamaアーキテクチャに基づく小型モデルは,文字レベルの語彙で訓練した場合に,標準構文および新しい語彙/音声のベンチマーク上で強力な言語性能が得られることを示した。 さらに, 音素モデルにグラデミックバイアスを伴わないモデルが, 標準課題におけるグラデミックモデルと新しい評価にほぼ一致することを示す。 本研究は,言語習得と処理の計算研究に適する言語学的に妥当な言語モデルを作成するための,有望な方向性を示唆するものである。

Current language models use subword-based tokenization algorithms like Byte Pair Encoding, which put their validity as models of linguistic representations into question. In this paper, we explore the potential of tokenization-free, phoneme- and grapheme-based language models. We demonstrate that small models based on the Llama architecture can achieve strong linguistic performance on standard syntactic and novel lexical/phonetic benchmarks when trained with character-level vocabularies. We further show that phoneme-based models without any graphemic biases almost match grapheme-based models in standard tasks and novel evaluations. Our findings suggest a promising direction for creating more linguistically plausible language models that are better suited for computational studies of language acquisition and processing.
翻訳日:2024-11-04 17:24:31 公開日:2024-10-02
# 位相的絡み合いと数論

Topological entanglement and number theory ( http://arxiv.org/abs/2410.01492v1 )

ライセンス: Link先を確認
Siddharth Dwivedi, (参考訳) 3dチャーン・サイモンズ理論(ゲージ群$G$とレベル$k$)の文脈における位相的多界絡みの研究の最近の発展は、絡み合い測度と数論の間の強い相互作用を示唆している。 このメモの目的は2つある。 まず、「レベル$k$」の積分可能な最高重み表現の全ての量子次元の負のパワーの仮定は、$k \to \infty$のときに$G$のウィッテンゼータ函数の整数倍である」と推測する。 これにより、これらのゼータ関数を計算する代替方法が提供され、いくつかの例を示す。 次に、この予想を用いて、$T_{p,p}$ のトーラスリンクの $S^3$ の補集合に付随する量子状態の R'enyi エントロピーの数論的性質を調べる。 特に、$k \to \infty$ の半古典的極限において、これらのエントロピーは有限値に収束することを示す。 この有限値は、正の偶数で評価された群$G$のウィッテンゼータ函数の言葉で書くことができる。

The recent developments in the study of topological multi-boundary entanglement in the context of 3d Chern-Simons theory (with gauge group $G$ and level $k$) suggest a strong interplay between entanglement measures and number theory. The purpose of this note is twofold. First, we conjecture that the 'sum of the negative powers of the quantum dimensions of all integrable highest weight representations at level $k$' is an integer multiple of the Witten zeta function of $G$ when $k \to \infty$. This provides an alternative way to compute these zeta functions, and we present some examples. Next, we use this conjecture to investigate number-theoretic properties of the R\'enyi entropies of the quantum state associated with the $S^3$ complement of torus links of type $T_{p,p}$. In particular, we show that in the semiclassical limit of $k \to \infty$, these entropies converge to a finite value. This finite value can be written in terms of the Witten zeta functions of the group $G$ evaluated at positive even integers.
翻訳日:2024-11-04 17:24:31 公開日:2024-10-02
# DLP-LoRA:大規模言語モデルのための動的軽量プラグインを用いたタスク特化LoRA融合

DLP-LoRA: Efficient Task-Specific LoRA Fusion with a Dynamic, Lightweight Plugin for Large Language Models ( http://arxiv.org/abs/2410.01497v1 )

ライセンス: Link先を確認
Yuxuan Zhang, Ruizhe Li, (参考訳) 近年のLarge Language Models (LLM) の進歩は多種多様なタスクにまたがって堅牢なパフォーマンスを実現している。 Low-Rank Adaptation (LoRA) のようなパラメータ効率の良いファインチューニング(PEFT)手法は、パラメータの小さなサブセットを微調整することでこの問題に対処する。 しかし、複数のLoRAを融合させる既存の手法では、コンテキスト入力に基づく動的融合が欠如しており、トークンレベルの操作による推論時間の増加も少なくない。 DLP-LoRAは,5Mパラメータしか持たないミニMLPモジュールを用いて,テキストレベルで複数のLoRAを動的に融合する動的軽量プラグインである。 このアプローチは、並列計算を利用することで、単一のLoRA推論の2倍未満まで推論時間を短縮する。 DLP-LoRAは複数の選択データセットで平均92.34%の精度を達成し、QAデータセットでBLEUとROUGEのスコアを大幅に改善し、複合タスク設定下で異なるLLMのバックボーンを上回っている。 DLP-LoRAは性能と効率のバランスを効果的に保ち、LLMにおける動的マルチタスク適応の実用的なソリューションである。 私たちのコードはhttps://github.com/MeCuping/DLP-LoRAで利用可能です。

Recent advancements in Large Language Models (LLMs) have achieved robust performance across diverse tasks, but fine-tuning these models for specific domains remains resource-intensive. Parameter-Efficient Fine-Tuning (PEFT) methods like Low-Rank Adaptation (LoRA) address this challenge by fine-tuning a small subset of parameters. However, existing methods for fusing multiple LoRAs lack dynamic fusion based on contextual inputs and often increase inference time due to token-level operations. We propose DLP-LoRA, a Dynamic Lightweight Plugin that employs a mini-MLP module with only 5M parameters to dynamically fuse multiple LoRAs at the sentence level using top-p sampling strategies. This approach reduces inference time to less than twice that of single LoRA inference by leveraging parallel computation. Evaluations across 26 tasks-including multiple-choice questions and question answering-demonstrate that DLP-LoRA achieves an average accuracy of 92.34% on multiple-choice datasets and significant improvements in BLEU and ROUGE scores on QA datasets, outperforming different LLMs backbones under composite task settings. DLP-LoRA effectively balances performance and efficiency, making it a practical solution for dynamic multi-task adaptation in LLMs. Our code is available at https://github.com/MeCuping/DLP-LoRA.
翻訳日:2024-11-04 17:24:31 公開日:2024-10-02
# Quo Vadis RankListを用いた顔認識システム

Quo Vadis RankList-based System in Face Recognition? ( http://arxiv.org/abs/2410.01498v1 )

ライセンス: Link先を確認
Xinyi Zhang, Manuel Günther, (参考訳) 顔認識はここ数年で注目され、多くの顔認識モデルは中質の画像の顔を検証するように設計されている。 特に、同様の条件で大規模なトレーニングデータセットが利用可能であるため、深層顔認証モデルはそのようなタスクで非常によく機能する。 しかし、トレーニングデータが少ない他のタスクでは、特に高品質の登録画像と低品質のプローブを比較するのに苦労する。 一方,コホート顔と類似した条件で顔を間接的に比較するRanListベースの手法が開発されている。 本稿では、これらのRanListメソッドを再検討し、外部コホートの代わりに最先端のDaliFaceネットワークのロジットを使用するように拡張する。 合理的なLogit-Cohort Selection (LoCoS) により, RankList ベースの関数の性能を大幅に改善できることを示す。 2つの難解な顔認識データセットの実験は、提案手法の性能向上を実証するだけでなく、多様な画像品質を扱うための将来の進歩のステージも設定した。

Face recognition in the wild has gained a lot of focus in the last few years, and many face recognition models are designed to verify faces in medium-quality images. Especially due to the availability of large training datasets with similar conditions, deep face recognition models perform exceptionally well in such tasks. However, in other tasks where substantially less training data is available, such methods struggle, especially when required to compare high-quality enrollment images with low-quality probes. On the other hand, traditional RankList-based methods have been developed that compare faces indirectly by comparing to cohort faces with similar conditions. In this paper, we revisit these RankList methods and extend them to use the logits of the state-of-the-art DaliFace network, instead of an external cohort. We show that through a reasonable Logit-Cohort Selection (LoCoS) the performance of RankList-based functions can be improved drastically. Experiments on two challenging face recognition datasets not only demonstrate the enhanced performance of our proposed method but also set the stage for future advancements in handling diverse image qualities.
翻訳日:2024-11-04 17:24:31 公開日:2024-10-02
# グラフ変換のための離散拡散シュレーディンガーブリッジマッチング

Discrete Diffusion Schrödinger Bridge Matching for Graph Transformation ( http://arxiv.org/abs/2410.01500v1 )

ライセンス: Link先を確認
Jun Hyeong Kim, Seonghwan Kim, Seokhyun Moon, Hyeongwoo Kim, Jeheon Woo, Woo Youn Kim, (参考訳) 任意の分布間の移動は生成的モデリングの基本的な目標である。 最近提案された拡散ブリッジモデルは潜在的な解決策を提供するが、実際は得られ難い共同分布に依存している。 さらに、連続領域に基づく定式化はグラフのような離散領域に適用性を制限する。 これらの制約を克服するため、高次元離散状態空間におけるSB問題の解決に連続的なマルコフ連鎖を利用する新しいフレームワークであるDDSBM(Disdisrete Diffusion Schr\"odinger Bridge Matching)を提案する。 我々のアプローチは、イテレーティブマルコフフィッティングを離散領域に拡張し、その収束性をSBに証明した。 さらに,グラフ変換の枠組みを適応させ,ノードとエッジの独立な変更を特徴とする基盤力学の設計選択を,グラフ編集距離によって記述されたコスト関数を持つ最適輸送のエントロピー正規化版として解釈できることを示す。 本フレームワークの有効性を示すため,化学分野における分子最適化にDDSBMを適用した。 実験の結果,DDSBMは最小限のグラフ変換で分子の性質を効果的に最適化し,他の特徴の保持に成功した。

Transporting between arbitrary distributions is a fundamental goal in generative modeling. Recently proposed diffusion bridge models provide a potential solution, but they rely on a joint distribution that is difficult to obtain in practice. Furthermore, formulations based on continuous domains limit their applicability to discrete domains such as graphs. To overcome these limitations, we propose Discrete Diffusion Schr\"odinger Bridge Matching (DDSBM), a novel framework that utilizes continuous-time Markov chains to solve the SB problem in a high-dimensional discrete state space. Our approach extends Iterative Markovian Fitting to discrete domains, and we have proved its convergence to the SB. Furthermore, we adapt our framework for the graph transformation and show that our design choice of underlying dynamics characterized by independent modifications of nodes and edges can be interpreted as the entropy-regularized version of optimal transport with a cost function described by the graph edit distance. To demonstrate the effectiveness of our framework, we have applied DDSBM to molecular optimization in the field of chemistry. Experimental results demonstrate that DDSBM effectively optimizes molecules' property-of-interest with minimal graph transformation, successfully retaining other features.
翻訳日:2024-11-04 17:24:31 公開日:2024-10-02
# PersonaMath:ペルソナ駆動データ拡張による数学推論の強化

PersonaMath: Enhancing Math Reasoning through Persona-Driven Data Augmentation ( http://arxiv.org/abs/2410.01504v1 )

ライセンス: Link先を確認
Jing Luo, Run Luo, Longze Chen, Liang Zhu, Chang Ao, Jiaming Li, Yukun Chen, Xin Cheng, Wen Yang, Jiayuan Su, Chengming Li, Min Yang, (参考訳) クローズドソースのLarge Language Models (LLM) は強力な数学的問題解決能力を示しているが、オープンソースモデルはそのようなタスクに苦戦し続けている。 このギャップを埋めるために,PersonaMathQAを提案する。PersonaMathQAはMATHとGSM8Kから派生したデータセットで,PersonaMathモデルをトレーニングする。 第1段階はペルソナの多様化から学び,第2段階はリフレクションから学ぶ。 最初の段階では、クローズドソースLCMを用いた指示として詳細なチェーン・オブ・シント(CoT)ソリューションを再生し、データセットの量と多様性を高めるために、新しいペルソナ駆動型データ拡張技術を導入する。 第2段階では、リフレクションを取り入れて、より困難で価値のある質問をフル活用します。 MATHおよびGSM8K上でのPersonaMathモデルの評価は、PersonaMath-7Bモデル(LLaMA-2-7Bに基づく)がMATHで24.2%、GSM8Kで68.7%の精度を達成し、すべてのベースライン手法を超越し、最先端性能を達成することを明らかにしている。 特に、私たちのデータセットには、MetaMathQAの17.8%とMathInstructの27%の70.3Kのデータポイントしか含まれていません。 我々は、PersonaMathQAデータセット、PersonaMathモデル、およびパブリック利用のためのコードをオープンソース化した。

While closed-source Large Language Models (LLMs) demonstrate strong mathematical problem-solving abilities, open-source models continue to struggle with such tasks. To bridge this gap, we propose a data augmentation approach and introduce PersonaMathQA, a dataset derived from MATH and GSM8K, on which we train the PersonaMath models. Our approach consists of two stages: the first stage is learning from Persona Diversification, and the second stage is learning from Reflection. In the first stage, we regenerate detailed chain-of-thought (CoT) solutions as instructions using a closed-source LLM and introduce a novel persona-driven data augmentation technique to enhance the dataset's quantity and diversity. In the second stage, we incorporate reflection to fully leverage more challenging and valuable questions. Evaluation of our PersonaMath models on MATH and GSM8K reveals that the PersonaMath-7B model (based on LLaMA-2-7B) achieves an accuracy of 24.2% on MATH and 68.7% on GSM8K, surpassing all baseline methods and achieving state-of-the-art performance. Notably, our dataset contains only 70.3K data points-merely 17.8% of MetaMathQA and 27% of MathInstruct-yet our model outperforms these baselines, demonstrating the high quality and diversity of our dataset, which enables more efficient model training. We open-source the PersonaMathQA dataset, PersonaMath models, and our code for public usage.
翻訳日:2024-11-04 17:24:31 公開日:2024-10-02
# NISQハードウェアのアプリケーションアウェアベンチマーク

Application-Aware Benchmarking of NISQ Hardware ( http://arxiv.org/abs/2410.01505v1 )

ライセンス: Link先を確認
Joseph Harris, Peter K. Schuhmacher, (参考訳) 最近の実験は、量子ハードウェアが様々な現実世界のアプリケーションにおいて古典的なシミュレーション手法を上回り得る量子ユーティリティの時代を示唆している。 本研究では、Clifford回路のアプリケーションインスパイアされたファミリーを用いて、特定のアプリケーションを実行するための現在のハードウェアの能力をベンチマークし、回路深度で期待値がどうスケールするかを予測する。 キックド・イシング回路をシミュレーションする具体例を考慮すると、127量子ビット超伝導デバイスをベンチマークし、我々の回路が最近の古典的シミュレーション手法のベンチマークにどのように使えるかを提案する。

Recent experiments have hinted towards an upcoming era of quantum utility, in which quantum hardware is able to outperform classical simulation methods for a variety of real-world applications. In this work, we show how application-inspired families of Clifford circuits can be used to benchmark the capabilities of current hardware for running certain applications, providing a prediction as to how measured expectation value fidelities scale with circuit depth. Considering the specific example of simulating kicked-Ising circuits, we benchmark a 127-qubit superconducting device and suggest how our circuits can also be used to benchmark recent classical simulation methods.
翻訳日:2024-11-04 17:24:31 公開日:2024-10-02
# 自己学習によるインテクスト学習の潜時変化の遠ざかる

Disentangling Latent Shifts of In-Context Learning Through Self-Training ( http://arxiv.org/abs/2410.01508v1 )

ライセンス: Link先を確認
Josip Jukić, Jan Šnajder, (参考訳) In-context Learning (ICL) は、自然言語処理、特にプロンプト内で提供される実演から学習できる自己回帰的な大規模言語モデルにおいて欠かせないものとなっている。 しかし、ICLは、特にデモの数が増加するにつれて、安定性と長期的文脈の課題に直面し、一般化や非効率な推論に繋がる。 これらの問題に対処するため,STICL (Self-Training ICL) を導入する。 STICLは擬似ラベルを生成するために教師モデルを使用し、アダプタモジュールにエンコードされたこれらのラベルを使用して学生モデルを訓練する。 学生モデルは弱いから強い一般化を示し、時間とともにその予測を徐々に洗練する。 実験の結果、STICLは一般化と安定性を向上し、ドメイン内データとドメイン外データの両方をまたいだ従来のICLメソッドおよびその他のアンタングリング戦略を一貫して上回ります。

In-context learning (ICL) has become essential in natural language processing, particularly with autoregressive large language models capable of learning from demonstrations provided within the prompt. However, ICL faces challenges with stability and long contexts, especially as the number of demonstrations grows, leading to poor generalization and inefficient inference. To address these issues, we introduce STICL (Self-Training ICL), an approach that disentangles the latent shifts of demonstrations from the latent shift of the query through self-training. STICL employs a teacher model to generate pseudo-labels and trains a student model using these labels, encoded in an adapter module. The student model exhibits weak-to-strong generalization, progressively refining its predictions over time. Our empirical results show that STICL improves generalization and stability, consistently outperforming traditional ICL methods and other disentangling strategies across both in-domain and out-of-domain data.
翻訳日:2024-11-04 17:24:31 公開日:2024-10-02
# InstaTrans:ノンイングリッシュインストラクションデータセットのためのインストラクション対応翻訳フレームワーク

InstaTrans: An Instruction-Aware Translation Framework for Non-English Instruction Datasets ( http://arxiv.org/abs/2410.01512v1 )

ライセンス: Link先を確認
Yungi Kim, Chanjun Park, (参考訳) 少ない頻度で観測されるデータの性能を制限する尾の現象のために、英語以外の言語に対して高品質な命令データセットを生成することは困難である。 この問題を軽減するために、既存の高品質な英語の命令データセットをソリューションとして翻訳することを提案し、これらのデータセット固有の属性を維持するために、完全かつ命令対応の翻訳の必要性を強調した。 このような方法で翻訳されたデータセットによる微調整 LLM は、ターゲット言語における性能を向上させることができる、と我々は主張する。 そこで本研究では,InstaTrans (INSTruction-Aware Translation) という,命令データセットに適した新しい翻訳フレームワークを提案する。 広範な実験を通じて、翻訳の完全性や命令認識の点で、InstaTransが他社よりも優れていることを実証し、多様な言語にまたがるLLMのアクセシビリティを比較的低コストで拡張する可能性を強調した。 さらに,InstaTrans が翻訳したデータセットを用いた微調整 LLM がターゲット言語の性能を効果的に向上できることを確認した。

It is challenging to generate high-quality instruction datasets for non-English languages due to tail phenomena, which limit performance on less frequently observed data. To mitigate this issue, we propose translating existing high-quality English instruction datasets as a solution, emphasizing the need for complete and instruction-aware translations to maintain the inherent attributes of these datasets. We claim that fine-tuning LLMs with datasets translated in this way can improve their performance in the target language. To this end, we introduces a new translation framework tailored for instruction datasets, named InstaTrans (INSTruction-Aware TRANSlation). Through extensive experiments, we demonstrate the superiority of InstaTrans over other competitors in terms of completeness and instruction-awareness of translation, highlighting its potential to broaden the accessibility of LLMs across diverse languages at a relatively low cost. Furthermore, we have validated that fine-tuning LLMs with datasets translated by InstaTrans can effectively improve their performance in the target language.
翻訳日:2024-11-04 17:24:31 公開日:2024-10-02
# $f$-divergence Loss関数による密度比推定における$L_p$エラーのバウンド

Bounds on $L_p$ Errors in Density Ratio Estimation via $f$-Divergence Loss Functions ( http://arxiv.org/abs/2410.01516v1 )

ライセンス: Link先を確認
Yoshiaki Kitazawa, (参考訳) 密度比推定(DRE)は2つの確率分布の関係を同定する基礎的な機械学習手法である。 $f$-divergence損失関数は、$f$-divergenceの変分表現から派生したもので、DREで最先端の結果を達成するために一般的に使用される。 本研究では,$L_p$エラーの上下境界を導出することにより,$f$-divergence損失関数を用いたDREの新しい視点を示す。 これらの境界は、特定の$f$分割損失関数によらず、リプシッツ連続推定器のクラス内の任意の推定器に適用できる。 境界は、データ次元と密度比の期待値が$p$まで上がる項の積として定式化される。 特に、下界はクルバック-リーブラーの発散に依存する指数項を包含しており、$L_p$誤差は、$p > 1$のクルバック-リーブラーの発散によって著しく増加し、この増加は$p$の増加とともにより顕著になる。 さらに、これらの理論的知見は数値実験によって裏付けられている。

Density ratio estimation (DRE) is a fundamental machine learning technique for identifying relationships between two probability distributions. $f$-divergence loss functions, derived from variational representations of $f$-divergence, are commonly employed in DRE to achieve state-of-the-art results. This study presents a novel perspective on DRE using $f$-divergence loss functions by deriving the upper and lower bounds on $L_p$ errors. These bounds apply to any estimator within a class of Lipschitz continuous estimators, irrespective of the specific $f$-divergence loss functions utilized. The bounds are formulated as a product of terms that include the data dimension and the expected value of the density ratio raised to the power of $p$. Notably, the lower bound incorporates an exponential term dependent on the Kullback--Leibler divergence, indicating that the $L_p$ error significantly increases with the Kullback--Leibler divergence for $p > 1$, and this increase becomes more pronounced as $p$ increases. Furthermore, these theoretical findings are substantiated through numerical experiments.
翻訳日:2024-11-04 17:24:31 公開日:2024-10-02
# UW-GS:水中シーン再構築のための3Dガウス平滑化

UW-GS: Distractor-Aware 3D Gaussian Splatting for Enhanced Underwater Scene Reconstruction ( http://arxiv.org/abs/2410.01517v1 )

ライセンス: Link先を確認
Haoran Wang, Nantheera Anantrasirichai, Fan Zhang, David Bull, (参考訳) 3D Gaussian splatting (3DGS) はリアルタイムの高品質な3Dシーンレンダリングを実現する機能を提供する。 しかし、3DGSは、シーンが透明な中性環境にあると仮定し、光の吸収と散乱が一般的であり、動く物体が関与する水中のシーンで満足できる表現を生成するのに苦労している。 これらを克服するために,水中用途に特化して設計された新しいガウススプラッティング方式UW-GSを提案する。 距離に依存した色の変化をモデル化するカラーの外観を導入し、物理に基づく新しい密度制御戦略を採用して、離れた物体の明度を高め、動的コンテンツを扱うためにバイナリモーションマスクを使用する。 散乱媒体をサポートするよく設計された損失関数で最適化され、擬似深度マップにより強化され、UW-GSはPSNRが1.26dBまで向上する既存の手法よりも優れている。 また, モデルの有効性を検証するために, 動的物体マスクを用いた新しい水中データセットS-UWを開発した。

3D Gaussian splatting (3DGS) offers the capability to achieve real-time high quality 3D scene rendering. However, 3DGS assumes that the scene is in a clear medium environment and struggles to generate satisfactory representations in underwater scenes, where light absorption and scattering are prevalent and moving objects are involved. To overcome these, we introduce a novel Gaussian Splatting-based method, UW-GS, designed specifically for underwater applications. It introduces a color appearance that models distance-dependent color variation, employs a new physics-based density control strategy to enhance clarity for distant objects, and uses a binary motion mask to handle dynamic content. Optimized with a well-designed loss function supporting for scattering media and strengthened by pseudo-depth maps, UW-GS outperforms existing methods with PSNR gains up to 1.26dB. To fully verify the effectiveness of the model, we also developed a new underwater dataset, S-UW, with dynamic object masks.
翻訳日:2024-11-04 17:24:31 公開日:2024-10-02
# InfiniPot: メモリ制約 LLM 上の無限コンテキスト処理

InfiniPot: Infinite Context Processing on Memory-Constrained LLMs ( http://arxiv.org/abs/2410.01518v1 )

ライセンス: Link先を確認
Minsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang, (参考訳) 長い入力コンテキストを扱うことは、特にモバイルデバイスのようなリソース制約のある環境では、LLM(Large Language Models)にとって重要な課題である。 InfiniPotは、事前学習されたLLMが追加のトレーニングを必要とせず、固定メモリ制約内で広範囲のシーケンスを効率的に管理できるように設計された新しいKVキャッシュ制御フレームワークである。 InfiniPotは連続的コンテキスト蒸留(Continuous Context Distillation, CCD)を利用する。これは、新しい重要なメトリクスを通じて重要な情報を圧縮し、保持する反復プロセスであり、将来のコンテキストにアクセスしなくても、重要なデータを効果的に維持する。 総合評価の結果、InfiniPotは様々なNLPタスクにおいて長いコンテキストで訓練されたモデルよりも優れており、その有効性と汎用性を確立していることがわかった。 この研究は、LLMをより広い範囲の現実世界のシナリオに適用できるようにするための大きな進歩を示している。

Handling long input contexts remains a significant challenge for Large Language Models (LLMs), particularly in resource-constrained environments such as mobile devices. Our work aims to address this limitation by introducing InfiniPot, a novel KV cache control framework designed to enable pre-trained LLMs to manage extensive sequences within fixed memory constraints efficiently, without requiring additional training. InfiniPot leverages Continual Context Distillation (CCD), an iterative process that compresses and retains essential information through novel importance metrics, effectively maintaining critical data even without access to future context. Our comprehensive evaluations indicate that InfiniPot significantly outperforms models trained for long contexts in various NLP tasks, establishing its efficacy and versatility. This work represents a substantial advancement toward making LLMs applicable to a broader range of real-world scenarios.
翻訳日:2024-11-04 17:14:45 公開日:2024-10-02
# MiraGe:ガウススプティングによる編集可能な2D画像

MiraGe: Editable 2D Images using Gaussian Splatting ( http://arxiv.org/abs/2410.01521v1 )

ライセンス: Link先を確認
Joanna Waczyńska, Tomasz Szczepanik, Piotr Borycki, Sławomir Tadeja, Thomas Bohné, Przemysław Spurek, (参考訳) Inlicit Neural Representation (INR) は連続関数を通して離散データを近似し、2次元画像を符号化するのによく用いられる。 従来の画像ベースのINRでは、ニューラルネットワークを使用してピクセル座標をRGB値にマッピングし、ネットワークの重み内の形状、色、テクスチャをキャプチャする。 近年,ニューラルネットワークの代わりにガウス関数を用いて同等の品質と圧縮を実現する手法としてガウス画像が提案されている。 このような解は、古典的なINRモデルと同様の品質と圧縮率を得るが、画像修正はできない。 対照的に,本研究では,ミラー反射法を用いて3次元空間内の2次元画像を知覚し,平面制御されたガウスアンを用いて正確な2次元画像編集を行う新しい手法であるMiraGeを導入する。 われわれのアプローチは、レンダリングの質を改善し、リアルな画像修正を可能にする。 3次元空間における画像のモデリングにより、2次元画像における3次元修正の錯覚が得られる。 また,ガウス表現を物理エンジンと組み合わせることで,物理に基づく2次元画像の修正が容易に可能であることを示す。 その結果、MiraGeは標準的なアプローチや2D画像の自然な修正よりも品質が向上する。

Implicit Neural Representations (INRs) approximate discrete data through continuous functions and are commonly used for encoding 2D images. Traditional image-based INRs employ neural networks to map pixel coordinates to RGB values, capturing shapes, colors, and textures within the network's weights. Recently, GaussianImage has been proposed as an alternative, using Gaussian functions instead of neural networks to achieve comparable quality and compression. Such a solution obtains a quality and compression ratio similar to classical INR models but does not allow image modification. In contrast, our work introduces a novel method, MiraGe, which uses mirror reflections to perceive 2D images in 3D space and employs flat-controlled Gaussians for precise 2D image editing. Our approach improves the rendering quality and allows realistic image modifications, including human-inspired perception of photos in the 3D world. Thanks to modeling images in 3D space, we obtain the illusion of 3D-based modification in 2D images. We also show that our Gaussian representation can be easily combined with a physics engine to produce physics-based modification of 2D images. Consequently, MiraGe allows for better quality than the standard approach and natural modification of 2D images.
翻訳日:2024-11-04 17:14:45 公開日:2024-10-02
# Robo-MUTUAL: 一様学習によるロボットマルチモーダルタスク仕様

Robo-MUTUAL: Robotic Multimodal Task Specification via Unimodal Learning ( http://arxiv.org/abs/2410.01529v1 )

ライセンス: Link先を確認
Jianxiong Li, Zhihao Wang, Jinliang Zheng, Xiaoai Zhou, Guanming Wang, Guanglu Song, Yu Liu, Jingjing Liu, Ya-Qin Zhang, Junzhi Yu, Xianyuan Zhan, (参考訳) マルチモーダルタスク仕様は、ロボットが複雑なタスク命令をホリスティックに理解できるように、ロボットのパフォーマンス向上に不可欠である。 モデルトレーニングのためのマルチモーダル命令を直接アノテートすることは、ペア化されたマルチモーダルデータの空間性のために実用的でないことを証明している。 本研究では,実データに豊富な一元的命令を活用することで,ロボットにマルチモーダルタスク仕様の学習を効果的に指導できることを実証する。 まず,大規模なドメイン外データを用いたロボットマルチモーダルエンコーダの事前訓練により,強力な‘textit{Cross-modality Alignment}’機能を備えたロボットを開発した。 次に、学習したマルチモーダル表現の残りのモダリティギャップをさらに橋渡しするために、2つのCollapse と Corrupt 演算を用いる。 このアプローチは、同一タスク目標の異なるモダリティを交換可能な表現として提案し、適切に整列されたマルチモーダル潜在空間内での正確なロボット操作を可能にする。 シミュレーションされたLIBEROベンチマークと実ロボットプラットフォームの両方における130以上のタスクと4000以上の評価は、提案したフレームワークの優れた能力を示し、ロボット学習におけるデータ制約を克服する上で大きな優位性を示している。 ウェブサイト:zh1hao.wang/Robo_MUTUAL

Multimodal task specification is essential for enhanced robotic performance, where \textit{Cross-modality Alignment} enables the robot to holistically understand complex task instructions. Directly annotating multimodal instructions for model training proves impractical, due to the sparsity of paired multimodal data. In this study, we demonstrate that by leveraging unimodal instructions abundant in real data, we can effectively teach robots to learn multimodal task specifications. First, we endow the robot with strong \textit{Cross-modality Alignment} capabilities, by pretraining a robotic multimodal encoder using extensive out-of-domain data. Then, we employ two Collapse and Corrupt operations to further bridge the remaining modality gap in the learned multimodal representation. This approach projects different modalities of identical task goal as interchangeable representations, thus enabling accurate robotic operations within a well-aligned multimodal latent space. Evaluation across more than 130 tasks and 4000 evaluations on both simulated LIBERO benchmark and real robot platforms showcases the superior capabilities of our proposed framework, demonstrating significant advantage in overcoming data constraints in robotic learning. Website: zh1hao.wang/Robo_MUTUAL
翻訳日:2024-11-04 17:14:45 公開日:2024-10-02
# TiVaT:リードラグダイナミクスを用いた時系列予測のための統合軸アテンション

TiVaT: Joint-Axis Attention for Time Series Forecasting with Lead-Lag Dynamics ( http://arxiv.org/abs/2410.01531v1 )

ライセンス: Link先を確認
Junwoo Ha, Hyukjae Kwon, Sungsoo Kim, Kisu Lee, Ha Young Kim, (参考訳) 多変量時系列(MTS)予測は、様々な実世界のアプリケーションにおいて重要な役割を果たすが、同時に時間的および変数間の依存関係をキャプチャすることは依然として課題である。 従来のChannel-Dependent(CD)モデルはこれらの依存関係を別々に扱い、リードラグのダイナミクスのような複雑な相互作用をモデル化する能力を制限する。 このような制約に対処するため,TyVaT (Time-Variable Transformer) を提案する。 TiVaTが非同期インタラクションを含む複雑な時間的依存関係をキャプチャする能力は、ノイズを低減し、キーインタラクションに焦点を当てた学習された2Dマップを通じて精度を向上させる、距離対応の時間可変サンプリング(DTV)の導入によってさらに強化される。 TiVaTは、時間的および変動的な依存関係の両方を効果的にモデル化し、さまざまなデータセット間で一貫して強力なパフォーマンスを提供する。 特に、多変量時系列内の複雑なパターンのキャプチャに優れており、最先端の手法に勝ったり、競合したりすることができる。 これによってTiVaTは、特に複雑で困難な依存関係を特徴とするデータセットの処理において、MTS予測の新しいベンチマークとして位置づけられる。

Multivariate time series (MTS) forecasting plays a crucial role in various real-world applications, yet simultaneously capturing both temporal and inter-variable dependencies remains a challenge. Conventional Channel-Dependent (CD) models handle these dependencies separately, limiting their ability to model complex interactions such as lead-lag dynamics. To address these limitations, we propose TiVaT (Time-Variable Transformer), a novel architecture that integrates temporal and variate dependencies through its Joint-Axis (JA) attention mechanism. TiVaT's ability to capture intricate variate-temporal dependencies, including asynchronous interactions, is further enhanced by the incorporation of Distance-aware Time-Variable (DTV) Sampling, which reduces noise and improves accuracy through a learned 2D map that focuses on key interactions. TiVaT effectively models both temporal and variate dependencies, consistently delivering strong performance across diverse datasets. Notably, it excels in capturing complex patterns within multivariate time series, enabling it to surpass or remain competitive with state-of-the-art methods. This positions TiVaT as a new benchmark in MTS forecasting, particularly in handling datasets characterized by intricate and challenging dependencies.
翻訳日:2024-11-04 17:14:45 公開日:2024-10-02
# AIに目を向ける: 大規模な言語モデルのための視線に基づく応答リワードによる人間のアライメント

Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models ( http://arxiv.org/abs/2410.01532v1 )

ライセンス: Link先を確認
Angela Lopez-Cardona, Carlos Segura, Alexandros Karatzoglou, Sergi Abadal, Ioannis Arapakis, (参考訳) 自然言語処理(NLP)の進歩は、GPT、Llama、Claude、Geminiといった大規模言語モデル(LLM)の出現につながった。 このアライメントを達成するための広く使われている方法は、人間からのフィードバックからの強化学習(RLHF)である。 本稿では、暗黙のフィードバック(特に視線追跡(ET)データ)をReward Model(RM)に統合する新しいフレームワークであるGazeRewardを紹介する。 さらに、ETベースの機能がユーザの好みに対する洞察を提供する方法についても検討する。 アブレーション研究を通じて、我々は異なる統合手法、LCM、ETジェネレータモデルを用いてフレームワークを試験し、確立した人間の嗜好データセット上でのRMの精度を大幅に向上することを示した。 この研究は、人間の価値とAIのアライメントを最適化するための進行中の議論を前進させ、将来のNLP研究を形成するための認知データの可能性を探る。

Advancements in Natural Language Processing (NLP), have led to the emergence of Large Language Models (LLMs) such as GPT, Llama, Claude, and Gemini, which excel across a range of tasks but require extensive fine-tuning to align their outputs with human expectations. A widely used method for achieving this alignment is Reinforcement Learning from Human Feedback (RLHF), which, despite its success, faces challenges in accurately modelling human preferences. In this paper, we introduce GazeReward, a novel framework that integrates implicit feedback -- and specifically eye-tracking (ET) data -- into the Reward Model (RM). In addition, we explore how ET-based features can provide insights into user preferences. Through ablation studies we test our framework with different integration methods, LLMs, and ET generator models, demonstrating that our approach significantly improves the accuracy of the RM on established human preference datasets. This work advances the ongoing discussion on optimizing AI alignment with human values, exploring the potential of cognitive data for shaping future NLP research.
翻訳日:2024-11-04 17:14:45 公開日:2024-10-02
# CLIPモデルにおけるロバスト性の評価に向けて

Toward a Holistic Evaluation of Robustness in CLIP Models ( http://arxiv.org/abs/2410.01534v1 )

ライセンス: Link先を確認
Weijie Tu, Weijian Deng, Tom Gedeon, (参考訳) 対照的な言語-画像事前学習(CLIP)モデルは、特に分散シフトの異なるゼロショット分類において、大きな可能性を示している。 本研究は,全体分類のロバスト性に関する既存の評価に基づいて,いくつかの新たな視点を導入することで,CLIPのより包括的な評価を提供することを目的とする。 まず,視覚的要因の変動に対する頑健さについて検討する。 第2に,信頼性の不確かさとアウト・オブ・ディストリビューション検出という2つの重要な安全性目標を評価する。 第3に、CLIPモデルが画像とテキストのモダリティを橋渡しする精細さを評価する。 第4に,従来の2次元画像理解を超えて,CLIPモデルにおける3次元認識に拡張する。 最後に、CLIPを視覚バックボーンとして利用する現代の大規模マルチモーダルモデル(LMM)における視覚と言語エンコーダの相互作用について検討し、この相互作用が分類ロバスト性に与える影響について考察する。 それぞれの側面において、モデルアーキテクチャ、トレーニング配布、トレーニングセットサイズ、微調整、コントラスト損失、テストタイムプロンプトの6つの要因がCLIPモデルに与える影響を検討する。 本稿では,CLIPに関するこれまで不明な知見をいくつか明らかにする。 例えば、CLIPのビジュアルエンコーダのアーキテクチャは、3Dの破損に対する堅牢性において重要な役割を果たす。 CLIPモデルは、予測を行うときに形状に対するバイアスを示す傾向があります。 さらに、ImageNetを微調整すると、このバイアスは減少する傾向にある。 LLaVAのようなビジョン言語モデルは、CLIPビジョンエンコーダを活用しており、CLIPのみよりも挑戦的なカテゴリに対して、分類性能のメリットを示す可能性がある。 この結果から,CLIPモデルの堅牢性と信頼性を高めるための貴重なガイダンスが得られた。

Contrastive Language-Image Pre-training (CLIP) models have shown significant potential, particularly in zero-shot classification across diverse distribution shifts. Building on existing evaluations of overall classification robustness, this work aims to provide a more comprehensive assessment of CLIP by introducing several new perspectives. First, we investigate their robustness to variations in specific visual factors. Second, we assess two critical safety objectives--confidence uncertainty and out-of-distribution detection--beyond mere classification accuracy. Third, we evaluate the finesse with which CLIP models bridge the image and text modalities. Fourth, we extend our examination to 3D awareness in CLIP models, moving beyond traditional 2D image understanding. Finally, we explore the interaction between vision and language encoders within modern large multimodal models (LMMs) that utilize CLIP as the visual backbone, focusing on how this interaction impacts classification robustness. In each aspect, we consider the impact of six factors on CLIP models: model architecture, training distribution, training set size, fine-tuning, contrastive loss, and test-time prompts. Our study uncovers several previously unknown insights into CLIP. For instance, the architecture of the visual encoder in CLIP plays a significant role in their robustness against 3D corruption. CLIP models tend to exhibit a bias towards shape when making predictions. Moreover, this bias tends to diminish after fine-tuning on ImageNet. Vision-language models like LLaVA, leveraging the CLIP vision encoder, could exhibit benefits in classification performance for challenging categories over CLIP alone. Our findings are poised to offer valuable guidance for enhancing the robustness and reliability of CLIP models.
翻訳日:2024-11-04 17:14:45 公開日:2024-10-02
# 注意層は単一位置回帰を確実に解決する

Attention layers provably solve single-location regression ( http://arxiv.org/abs/2410.01537v1 )

ライセンス: Link先を確認
Pierre Marion, Raphaël Berthier, Gérard Biau, Claire Boyer, (参考訳) Transformerのような注意に基づくモデルは、様々なタスクにまたがるが、特にトークンの幅と内部線形表現に関する包括的な理論的理解は欠如している。 このギャップに対処するために、シーケンス内の1つのトークンだけが出力を決定する単一位置回帰タスクを導入し、その位置は入力の線形射影によって取得可能な潜在確率変数である。 そこで本研究では,非線形自己保持層の簡易版である専用予測器を提案する。 我々は、その漸近的ベイズ最適性を示し、その訓練力学を解析することによって、その理論的性質を研究する。 特に、非凸性にもかかわらず、予測子は基礎構造を効果的に学習する。 この研究は、スパーストークン情報や内部線形構造を扱うための注意機構の能力を強調している。

Attention-based models, such as Transformer, excel across various tasks but lack a comprehensive theoretical understanding, especially regarding token-wise sparsity and internal linear representations. To address this gap, we introduce the single-location regression task, where only one token in a sequence determines the output, and its position is a latent random variable, retrievable via a linear projection of the input. To solve this task, we propose a dedicated predictor, which turns out to be a simplified version of a non-linear self-attention layer. We study its theoretical properties, by showing its asymptotic Bayes optimality and analyzing its training dynamics. In particular, despite the non-convex nature of the problem, the predictor effectively learns the underlying structure. This work highlights the capacity of attention mechanisms to handle sparse token information and internal linear structures.
翻訳日:2024-11-04 17:14:45 公開日:2024-10-02
# オブジェクト表現のためのマルチスケール融合

Multi-Scale Fusion for Object Representation ( http://arxiv.org/abs/2410.01539v1 )

ライセンス: Link先を確認
Rongzhen Zhao, Vivienne Wang, Juho Kannala, Joni Pajarinen, (参考訳) 画像やビデオをピクセルレベルの特徴マップではなく、オブジェクトレベルの特徴ベクトルとして表現することは、高度な視覚的タスクを促進する。 OCL(Object-Centric Learning)は、変分オートエンコーダ(VAE)中間表現の指示で入力を再構築し、いわゆる「textit{slots}」を駆動し、できるだけ多くのオブジェクト情報を集約することで、これを実現している。 しかしながら、既存のVAEガイダンスでは、オブジェクトがピクセルサイズで変化できることに明示的に言及していない。 我々は,OCL訓練のためのVAEガイダンスを強化するために,<textit{Multi-Scale Fusion} (MSF)を提案する。 オブジェクトの超画素におけるスケール不変/分散を促進するために、あるスケールの低品質オブジェクトの超画素を別のスケールの高画質な超画素で拡大する \textit{inter}/\textit{intra-scale fusion} を考案する。 標準のOCLベンチマークでは、最先端の拡散に基づく手法を含む主流の手法が改良されている。 ソースコードは補足資料で入手できる。

Representing images or videos as object-level feature vectors, rather than pixel-level feature maps, facilitates advanced visual tasks. Object-Centric Learning (OCL) primarily achieves this by reconstructing the input under the guidance of Variational Autoencoder (VAE) intermediate representation to drive so-called \textit{slots} to aggregate as much object information as possible. However, existing VAE guidance does not explicitly address that objects can vary in pixel sizes while models typically excel at specific pattern scales. We propose \textit{Multi-Scale Fusion} (MSF) to enhance VAE guidance for OCL training. To ensure objects of all sizes fall within VAE's comfort zone, we adopt the \textit{image pyramid}, which produces intermediate representations at multiple scales; To foster scale-invariance/variance in object super-pixels, we devise \textit{inter}/\textit{intra-scale fusion}, which augments low-quality object super-pixels of one scale with corresponding high-quality super-pixels from another scale. On standard OCL benchmarks, our technique improves mainstream methods, including state-of-the-art diffusion-based ones. The source code is available in the supplemental material.
翻訳日:2024-11-04 17:14:45 公開日:2024-10-02
# プログレッシブ・コングリゲーションによる参照画像セグメンテーションの強化

Boosting Weakly-Supervised Referring Image Segmentation via Progressive Comprehension ( http://arxiv.org/abs/2410.01544v1 )

ライセンス: Link先を確認
Zaiquan Yang, Yuhao Liu, Jiaying Lin, Gerhard Hancke, Rynson W. H. Lau, (参考訳) 本稿では、弱教師付き参照画像セグメンテーション(WRIS)問題について検討し、画像とテキストのペアから直接ターゲットのローカライゼーションを学習する挑戦的なセットアップに焦点を当てる。 入力されたテキスト記述には、通常、対象対象のローカライズ方法に関する詳細な情報が含まれており、対象対象を特定するために、ステップバイステップの理解プロセス(段階的にターゲット関連属性と関係をキューとして活用する)に人間が従うこともよく見られる。 そこで本稿では,対象対象物を段階的に局所化するために,入力記述からターゲット関連テキストキューを活用する新しいプログレッシブ・コングリゲーション・ネットワーク(PCNet)を提案する。 具体的には、入力されたテキスト記述を短いフレーズに分解するために、まずLarge Language Model (LLM) を用いる。 これらの短いフレーズはターゲット関連キューとして、複数の段階で条件付き参照モジュール(CRM)に入力され、参照テキストの埋め込みを更新し、ターゲットのローカライゼーションのための応答マップを多段階的に拡張することができる。 次に、CRMに基づいて、各段階にわたる粗大な視覚的局所化を段階的に抑制するために、地域対応収縮(RaS)損失を提案する。 最後に、同一画像上の異なる参照テキストによって生成された重なり合う応答マップを微分することにより、インスタンスの局所化の曖昧さを抑制するために、インスタンス対応の曖昧さ(IaD)損失を導入する。 本手法は3つのベンチマークでSOTA法より優れていることを示す。

This paper explores the weakly-supervised referring image segmentation (WRIS) problem, and focuses on a challenging setup where target localization is learned directly from image-text pairs. We note that the input text description typically already contains detailed information on how to localize the target object, and we also observe that humans often follow a step-by-step comprehension process (\ie, progressively utilizing target-related attributes and relations as cues) to identify the target object. Hence, we propose a novel Progressive Comprehension Network (PCNet) to leverage target-related textual cues from the input description for progressively localizing the target object. Specifically, we first use a Large Language Model (LLM) to decompose the input text description into short phrases. These short phrases are taken as target-related cues and fed into a Conditional Referring Module (CRM) in multiple stages, to allow updating the referring text embedding and enhance the response map for target localization in a multi-stage manner. Based on the CRM, we then propose a Region-aware Shrinking (RaS) loss to constrain the visual localization to be conducted progressively in a coarse-to-fine manner across different stages. Finally, we introduce an Instance-aware Disambiguation (IaD) loss to suppress instance localization ambiguity by differentiating overlapping response maps generated by different referring texts on the same image. Extensive experiments show that our method outperforms SOTA methods on three common benchmarks.
翻訳日:2024-11-04 17:04:38 公開日:2024-10-02
# QESM:地球と気候モデリングのための量子強化MLエミュレーションフレームワークを目指して

QESM: A Leap Towards Quantum-Enhanced ML Emulation Framework for Earth and Climate Modeling ( http://arxiv.org/abs/2410.01551v1 )

ライセンス: Link先を確認
Adib Bazgir, Yuwen Zhang, (参考訳) 現在の気候モデルは、計算の制約によって引き起こされる限界である十分な解像度が欠如しているため、しばしば正確性に苦しむ。 これにより天気予報と長期気象予報の精度が低下する。 この問題に対処するために、従来の機械学習(ML)モデルを強化するために量子コンピューティングの使用について検討した。 我々は、量子畳み込みニューラルネットワーク(QCNN)、量子多層パーセプトロン(QMLP)、量子エンコーダ-デコーダ(QED)といった従来のモデルに置き換えた。 これらの量子モデルは、古典的なモデルに比べて、気候に関する結果を予測する上でより正確であることが判明した。 ClimSimデータセットは、MLベースの気候予測専用に作成された大量の気候データであり、これらの量子モデルをトレーニングし、テストした。 個々の量子モデルの性能は向上したが,メタアンサンブルアプローチを用いて組み合わせることで,それらの性能がさらに向上し,各モデルの強度を総合的に高い精度を達成することができた。 この研究は、量子機械学習が気候シミュレーションの解像度と精度を大幅に改善できることを示した。 この結果は、地球温暖化問題に直面した科学的理解と政策決定の両方に重要な影響を及ぼす可能性がある、気候のトレンドと気象イベントの予測を改善する新たな可能性を提供する。

Current climate models often struggle with accuracy because they lack sufficient resolution, a limitation caused by computational constraints. This reduces the precision of weather forecasts and long-term climate predictions. To address this issue, we explored the use of quantum computing to enhance traditional machine learning (ML) models. We replaced conventional models like Convolutional Neural Networks (CNN), Multilayer Perceptrons (MLP), and Encoder-Decoder frameworks with their quantum versions: Quantum Convolutional Neural Networks (QCNN), Quantum Multilayer Perceptrons (QMLP), and Quantum Encoder-Decoders (QED). These quantum models proved to be more accurate in predicting climate-related outcomes compared to their classical counterparts. Using the ClimSim dataset, a large collection of climate data created specifically for ML-based climate prediction, we trained and tested these quantum models. Individually, the quantum models performed better, but their performance was further improved when we combined them using a meta-ensemble approach, which merged the strengths of each model to achieve the highest accuracy overall. This study demonstrates that quantum machine learning can significantly improve the resolution and accuracy of climate simulations. The results offer new possibilities for better predicting climate trends and weather events, which could have important implications for both scientific understanding and policy-making in the face of global climate challenges.
翻訳日:2024-11-04 17:04:38 公開日:2024-10-02
# MedQA-CS:AI-SCEフレームワークを用いた大規模言語モデルの臨床スキルのベンチマーク

MedQA-CS: Benchmarking Large Language Models Clinical Skills Using an AI-SCE Framework ( http://arxiv.org/abs/2410.01553v1 )

ライセンス: Link先を確認
Zonghai Yao, Zihao Zhang, Chaolong Tang, Xingyu Bian, Youxia Zhao, Zhichao Yang, Junda Wang, Huixue Zhou, Won Seok Jang, Feiyun Ouyang, Hong Yu, (参考訳) 医療における人工知能(AI)と大規模言語モデル(LLM)は高度な臨床スキル(CS)を必要とするが、現在のベンチマークではこれらを総合的に評価することができない。 我々は,このギャップに対処するために,医学教育の客観的構造化臨床検査(OSCE)に触発されたAI-SCEフレームワークであるMedQA-CSを紹介する。 MedQA-CS は LLM-as-medical-student と LLM-as-CS-examiner という2つの命令フォロータスクを通して LLM を評価する。 コントリビューションには,公開データとエキスパートアノテーションを備えた総合的な評価フレームワークであるMedQA-CSの開発,CS評価における信頼性評価としてのLCMの定量的,質的な評価などが含まれている。 MedQA-CSは,従来のマルチ選択QAベンチマーク(MedQAなど)よりも,臨床スキルを評価する上で,より困難なベンチマークであることを示す。 既存のベンチマークと組み合わせることで、MedQA-CS はオープンソース LLM とクローズドソース LLM の両方に対して LLM の臨床能力をより包括的な評価を可能にする。

Artificial intelligence (AI) and large language models (LLMs) in healthcare require advanced clinical skills (CS), yet current benchmarks fail to evaluate these comprehensively. We introduce MedQA-CS, an AI-SCE framework inspired by medical education's Objective Structured Clinical Examinations (OSCEs), to address this gap. MedQA-CS evaluates LLMs through two instruction-following tasks, LLM-as-medical-student and LLM-as-CS-examiner, designed to reflect real clinical scenarios. Our contributions include developing MedQA-CS, a comprehensive evaluation framework with publicly available data and expert annotations, and providing the quantitative and qualitative assessment of LLMs as reliable judges in CS evaluation. Our experiments show that MedQA-CS is a more challenging benchmark for evaluating clinical skills than traditional multiple-choice QA benchmarks (e.g., MedQA). Combined with existing benchmarks, MedQA-CS enables a more comprehensive evaluation of LLMs' clinical capabilities for both open- and closed-source LLMs.
翻訳日:2024-11-04 17:04:38 公開日:2024-10-02
# ACE: LLMによるネゴシエーションコーチングシステム

ACE: A LLM-based Negotiation Coaching System ( http://arxiv.org/abs/2410.01555v1 )

ライセンス: Link先を確認
Ryan Shea, Aymen Kallala, Xin Lucy Liu, Michael W. Morris, Zhou Yu, (参考訳) LLMの普及は、AI教育システムの開発に繋がった。 これらの制度は、価値ある教育へのアクセスを改善するために、過小評価された人口を提供するのに不可欠である。 多くの学習者が利用できない重要な教育分野の1つは、交渉に関する戦略的交渉である。 そこで我々は,LLMをベースとしたnEgotiation (ACE) 支援支援システムを開発した。 ACEはユーザのための交渉パートナとして機能するだけでなく、改善のための目標とするフィードバックも提供する。 システム構築のために,MBA学生間の交渉書のデータセットを収集する。 これらの書き起こしは、訓練された交渉者から生まれ、現実的な交渉シナリオをエミュレートする。 このデータセットと専門家のコンサルテーションを用いて、交渉ミスを検出するためのアノテーションスキームを設計する。 ACEはこのスキームを使ってミスを特定し、ユーザにターゲットとするフィードバックを提供する。 ACE生成したフィードバックの有効性を検証するため,ユーザによる2回の交渉実験を行い,フィードバックを提供しないシステムとフィードバックを提供する代替手法を用いたシステムと比較して,交渉性能を著しく向上することを確認した。

The growing prominence of LLMs has led to an increase in the development of AI tutoring systems. These systems are crucial in providing underrepresented populations with improved access to valuable education. One important area of education that is unavailable to many learners is strategic bargaining related to negotiation. To address this, we develop a LLM-based Assistant for Coaching nEgotiation (ACE). ACE not only serves as a negotiation partner for users but also provides them with targeted feedback for improvement. To build our system, we collect a dataset of negotiation transcripts between MBA students. These transcripts come from trained negotiators and emulate realistic bargaining scenarios. We use the dataset, along with expert consultations, to design an annotation scheme for detecting negotiation mistakes. ACE employs this scheme to identify mistakes and provide targeted feedback to users. To test the effectiveness of ACE-generated feedback, we conducted a user experiment with two consecutive trials of negotiation and found that it improves negotiation performances significantly compared to a system that doesn't provide feedback and one which uses an alternative method of providing feedback.
翻訳日:2024-11-04 17:04:38 公開日:2024-10-02
# Score-based Prior を用いたHRTF推定

HRTF Estimation using a Score-based Prior ( http://arxiv.org/abs/2410.01562v1 )

ライセンス: Link先を確認
Etienne Thuillier, Jean-Marie Lemercier, Eloi Moliner, Timo Gerkmann, Vesa Välimäki, (参考訳) 本稿では、スコアベース拡散モデルによって与えられるデータ駆動の事前情報に依存する頭部伝達関数(HRTF)の推定手法を提案する。 HRTFは自然励起信号、例えば人間の発話を用いて残響環境で推定される。 室内音響の統計的挙動に基づいて、残響のパラメトリックモデルを最適化することにより、部屋のインパルス応答をHRTFとともに推定する。 残響測定および励起信号が与えられたHRTFの後部分布は、スコアベースHRTFの前とログ様近似を用いてモデル化する。 提案手法は,最短距離に基づいてトレーニングセットに最適なHRTFを割り当てるオラクルレコメンデータシステムを含む,いくつかのベースラインよりも優れていることを示す。 特に, HRTFにおける高周波コンテンツの大きなばらつきを, 拡散先行が考慮できることを示す。

We present a head-related transfer function (HRTF) estimation method which relies on a data-driven prior given by a score-based diffusion model. The HRTF is estimated in reverberant environments using natural excitation signals, e.g. human speech. The impulse response of the room is estimated along with the HRTF by optimizing a parametric model of reverberation based on the statistical behaviour of room acoustics. The posterior distribution of HRTF given the reverberant measurement and excitation signal is modelled using the score-based HRTF prior and a log-likelihood approximation. We show that the resulting method outperforms several baselines, including an oracle recommender system that assigns the optimal HRTF in our training set based on the smallest distance to the true HRTF at the given direction of arrival. In particular, we show that the diffusion prior can account for the large variability of high-frequency content in HRTFs.
翻訳日:2024-11-04 17:04:38 公開日:2024-10-02
# 文脈内学習の一般化を説明するベイズの力

Bayes' Power for Explaining In-Context Learning Generalizations ( http://arxiv.org/abs/2410.01565v1 )

ライセンス: Link先を確認
Samuel Müller, Noah Hollmann, Frank Hutter, (参考訳) 伝統的に、ニューラルネットワークトレーニングは、主に最大推定(MLE)の近似と見なされてきた。 この解釈は、小さなデータセット上で複数のエポックのトレーニングが一般的で、パフォーマンスはデータバウンドであったのに始まりました。 この新しいセットアップでは、パフォーマンスは計算バウンドだが、データを容易に利用できる。 モデルがより強力になるにつれて、インコンテキスト学習(ICL、In-context Learning)、すなわちコンテキストに基づいた1つのフォワードパスでの学習が支配的なパラダイムの1つとして現れた。 本稿では、この時代のニューラルネットワークの振る舞いをより有用な解釈は、データ生成プロセスで定義される真の後部の近似であると論じる。 我々は、ICLに対するこの解釈のパワーと、以前に見つからなかったタスクの一般化を予測するのに有用であることを示す。 トレーニングデータから知識を効果的に構築することにより,モデルがコンテキスト内学習者に対して堅牢になることを示す。 我々はこれを、すべてが正確な後部を通して説明可能な、驚くべき一般化を示す実験で説明する。 最後に,後肢の一般化能力の制約と,後肢の近似におけるニューラルネットワークの制約について述べる。

Traditionally, neural network training has been primarily viewed as an approximation of maximum likelihood estimation (MLE). This interpretation originated in a time when training for multiple epochs on small datasets was common and performance was data bound; but it falls short in the era of large-scale single-epoch trainings ushered in by large self-supervised setups, like language models. In this new setup, performance is compute-bound, but data is readily available. As models became more powerful, in-context learning (ICL), i.e., learning in a single forward-pass based on the context, emerged as one of the dominant paradigms. In this paper, we argue that a more useful interpretation of neural network behavior in this era is as an approximation of the true posterior, as defined by the data-generating process. We demonstrate this interpretations' power for ICL and its usefulness to predict generalizations to previously unseen tasks. We show how models become robust in-context learners by effectively composing knowledge from their training data. We illustrate this with experiments that reveal surprising generalizations, all explicable through the exact posterior. Finally, we show the inherent constraints of the generalization capabilities of posteriors and the limitations of neural networks in approximating these posteriors.
翻訳日:2024-11-04 17:04:38 公開日:2024-10-02
# セキュリティデバイスとセキュリティAPIに対する適応的エクスプロイト生成

Adaptive Exploit Generation against Security Devices and Security APIs ( http://arxiv.org/abs/2410.01568v1 )

ライセンス: Link先を確認
Robert Künnemann, Julian Biehl, (参考訳) 概念実証エクスプロイトは、疑い以上のソフトウェア脆弱性を実証し、非専門家に攻撃を伝えるのに役立つ。 しかし、エクスプロイトは、例えばSecurity APIでは、APIが提供するアプリケーションやエンタープライズ用にキーを特別に設定するなど、設定固有のものになり得る。 本研究では,形式的手法を用いて,Security APIに対する概念実証を自動生成する方法を示す。 一般的なプロトコル検証器ProVerifを言語に依存しないテンプレート機構で拡張する。 モデルのステップにアタッチされたプログラムスニペットを使用することで、攻撃トレース(通常はProVerifが自動的に見つける)をプログラムに変換することができます。 私たちの方法は一般的で柔軟で便利です。 我々は、W3C Web Cryptography API、PKCS#11、YubiHSM2での使用を実演し、後者の最初の形式モデルを提供する。

Proof-of-concept exploits help demonstrate software vulnerability beyond doubt and communicate attacks to non-experts. But exploits can be configuration-specific, for example when in Security APIs, where keys are set up specifically for the application and enterprise the API serves. In this work, we show how to automatically derive proof-of-concept exploits against Security APIs using formal methods. We extend the popular protocol verifier ProVerif with a language-agnostic template mechanism. Employing program snippets attached to steps in the model, we can transform attack traces (which ProVerif typically finds automatically) into programs. Our method is general, flexible and convenient. We demonstrate its use for the W3C Web Cryptography API, for PKCS#11 and for the YubiHSM2, providing the first formal model of the latter.
翻訳日:2024-11-04 16:54:49 公開日:2024-10-02
# フォトニック状態注入による量子優位性を目指して

Towards quantum advantage with photonic state injection ( http://arxiv.org/abs/2410.01572v1 )

ライセンス: Link先を確認
Léo Monbroussou, Eliott Z. Mamon, Hugo Thomas, Verena Yacoub, Ulysse Chabaud, Elham Kashefi, (参考訳) 我々は、線形光学ができることを超えて、量子モデルの表現力を高めることができる、近距離フォトニック量子デバイスのための新しいスキームを提案する。 このスキームは、より制御可能な状態を生成し、古典的に取り組まれていないと信じられている学習タスクを解決するための測定ベースの手法であるステートインジェクションに依存している。 我々は、状態注入によって分離された線形光学構造からなる回路が実験的な実装にどのように役立つかを説明する。 さらに、得られた状態の純度の進化に関する理論的結果を与え、それが回路出力の識別性に与える影響について論じる。 最後に、確率推定と呼ばれる学習アルゴリズムの計算サブルーチンについて検討し、提案する状態注入方式が、最先端適応技術よりも容易に達成できるような状況下で、潜在的に量子的優位性をもたらす可能性があることを示す。 我々の分析は、より少ない実験的な困難に対処する必要のある、短期的な優位性に対する新たな可能性を提供する。

We propose a new scheme for near-term photonic quantum device that allows to increase the expressive power of the quantum models beyond what linear optics can do. This scheme relies upon state injection, a measurement-based technique that can produce states that are more controllable, and solve learning tasks that are not believed to be tackled classically. We explain how circuits made of linear optical architectures separated by state injections are keen for experimental implementation. In addition, we give theoretical results on the evolution of the purity of the resulting states, and we discuss how it impacts the distinguishability of the circuit outputs. Finally, we study a computational subroutines of learning algorithms named probability estimation, and we show the state injection scheme we propose may offer a potential quantum advantage in a regime that can be more easily achieved that state-of-the-art adaptive techniques. Our analysis offers new possibilities for near-term advantage that require to tackle fewer experimental difficulties.
翻訳日:2024-11-04 16:54:49 公開日:2024-10-02
# PASS:医用画像分割におけるスタイルと意味的形状に適応するテストタイムプロンプト

PASS:Test-Time Prompting to Adapt Styles and Semantic Shapes in Medical Image Segmentation ( http://arxiv.org/abs/2410.01573v1 )

ライセンス: Link先を確認
Chuyan Zhang, Hao Zheng, Xin You, Yefeng Zheng, Yun Gu, (参考訳) テストタイム適応(TTA)は、追加のトレーニングデータを用いることなく、異なる機関からの医療画像のテスト時にドメインシフトを処理するための有望なパラダイムとして登場した。 しかし, セグメンテーションタスクの既存のTTAソリューションは, (1) ソーストレーニング段階の変更や, (2) セグメンテーションタスクに不可欠な形状に関するセグメンテーション知識の欠如に悩まされている。 画像スタイルのシフトに対する一般的な懸念に加えて、形状の変動がパフォーマンス低下の原因となるもう一つの重要な要因であることも明らかにした。 この問題を解決するためにPASS(Prompting to Adapt Styles and Semantic shapes)と呼ばれるTTAフレームワークを提案する。このフレームワークは2種類のプロンプトを共同で学習する。 固定プロンプトを鼻で挿入する代わりに、入力データに条件付き自己制御視覚プロンプトを生成する入力デコレータを導入する。 そこで本研究では,各テストサンプルの知識表現を検索し,目標表現とリッチな形状プロンプトバンクとのインタラクションを行うクロスアテンション・プロンプト・モジュレータを提案する。 複数の医用画像セグメンテーションデータセットにおける最先端手法よりもPASSの方が優れた性能を示す。 コードはhttps://github.com/EndoluminalSurgicalVision-IMR/PASSで公開されている。

Test-time adaptation (TTA) has emerged as a promising paradigm to handle the domain shifts at test time for medical images from different institutions without using extra training data. However, existing TTA solutions for segmentation tasks suffer from (1) dependency on modifying the source training stage and access to source priors or (2) lack of emphasis on shape-related semantic knowledge that is crucial for segmentation tasks.Recent research on visual prompt learning achieves source-relaxed adaptation by extended parameter space but still neglects the full utilization of semantic features, thus motivating our work on knowledge-enriched deep prompt learning. Beyond the general concern of image style shifts, we reveal that shape variability is another crucial factor causing the performance drop. To address this issue, we propose a TTA framework called PASS (Prompting to Adapt Styles and Semantic shapes), which jointly learns two types of prompts: the input-space prompt to reformulate the style of the test image to fit into the pretrained model and the semantic-aware prompts to bridge high-level shape discrepancy across domains. Instead of naively imposing a fixed prompt, we introduce an input decorator to generate the self-regulating visual prompt conditioned on the input data. To retrieve the knowledge representations and customize target-specific shape prompts for each test sample, we propose a cross-attention prompt modulator, which performs interaction between target representations and an enriched shape prompt bank. Extensive experiments demonstrate the superior performance of PASS over state-of-the-art methods on multiple medical image segmentation datasets. The code is available at https://github.com/EndoluminalSurgicalVision-IMR/PASS.
翻訳日:2024-11-04 16:54:49 公開日:2024-10-02
# 不均一ゼロサムチームゲームにおけるエクイティ平衡の計算

Computing Ex Ante Equilibrium in Heterogeneous Zero-Sum Team Games ( http://arxiv.org/abs/2410.01575v1 )

ライセンス: Link先を確認
Naming Liu, Mingzhi Wang, Xihuai Wang, Weinan Zhang, Yaodong Yang, Youzhi Zhang, Bo An, Ying Wen, (参考訳) 2チーム間のゼロサムゲームでは、各チームのエージェントが相手チームと競争するために協力し、チームが調整するためにできる最善の方法として知られています。 エキサイト均衡解に関する多くの既存の研究は、エキサイト均衡解のスコープを政策空間応答オラクル(PSRO)に基づく大規模チームゲームに拡張することを目指している。 しかし、最も著名な方法であるチームPSROによって構成される共同チームポリシー空間は、チームメイトが異なる役割を演じる異種チームゲームにおいて、チームポリシー空間全体をカバーできない。 このような政策表現性が不十分なため、チームPSROは、非常に高い利用性を持つ準最適エキアンテ均衡に閉じ込められ、グローバルエキアンテ均衡に収束することはない。 計算量を増やすことなくグローバルなエクアンテ均衡を見出すため、まずチームメイトの異種ポリシーをパラメータ化し、不均一なチームメイトのポリシーを逐次最適化することでチーム報酬の単調な改善を保証できることを証明した。 さらに、PSROフレームワークにシーケンシャル相関機構を統合し、異種チームゲームのための最初のPSROフレームワークとして機能する、異種チームゲームのための新しいフレームワークであるHeterogeneous-PSRO(H-PSRO)を提案する。 我々は,ヘテロジニアスなチームゲームにおいて,H-PSROがチームPSROよりも低いエクスプロイザビリティを実現することを証明した。 経験的に、H-PSROは非異種基底線で解けない行列不均一ゲームにおいて収束する。 さらなる実験により、H-PSROは不均一なチームゲームと均質な設定の両方において非不均一なベースラインよりも優れていることが明らかになった。

The ex ante equilibrium for two-team zero-sum games, where agents within each team collaborate to compete against the opposing team, is known to be the best a team can do for coordination. Many existing works on ex ante equilibrium solutions are aiming to extend the scope of ex ante equilibrium solving to large-scale team games based on Policy Space Response Oracle (PSRO). However, the joint team policy space constructed by the most prominent method, Team PSRO, cannot cover the entire team policy space in heterogeneous team games where teammates play distinct roles. Such insufficient policy expressiveness causes Team PSRO to be trapped into a sub-optimal ex ante equilibrium with significantly higher exploitability and never converges to the global ex ante equilibrium. To find the global ex ante equilibrium without introducing additional computational complexity, we first parameterize heterogeneous policies for teammates, and we prove that optimizing the heterogeneous teammates' policies sequentially can guarantee a monotonic improvement in team rewards. We further propose Heterogeneous-PSRO (H-PSRO), a novel framework for heterogeneous team games, which integrates the sequential correlation mechanism into the PSRO framework and serves as the first PSRO framework for heterogeneous team games. We prove that H-PSRO achieves lower exploitability than Team PSRO in heterogeneous team games. Empirically, H-PSRO achieves convergence in matrix heterogeneous games that are unsolvable by non-heterogeneous baselines. Further experiments reveal that H-PSRO outperforms non-heterogeneous baselines in both heterogeneous team games and homogeneous settings.
翻訳日:2024-11-04 16:54:49 公開日:2024-10-02
# 3次元マルチパラメトリック定量的MRIのためのゼロショット学習に基づくコーディネートベースニューラル表現

Coordinate-Based Neural Representation Enabling Zero-Shot Learning for 3D Multiparametric Quantitative MRI ( http://arxiv.org/abs/2410.01577v1 )

ライセンス: Link先を確認
Guoyan Lao, Ruimin Feng, Haikun Qi, Zhenfeng Lv, Qiangqiang Liu, Chunlei Liu, Yuyao Zhang, Hongjiang Wei, (参考訳) 定量的磁気共鳴イメージング(qMRI)は、神経科学研究や臨床実践に重要な可能性を持つ組織特異的物理パラメータを提供する。 しかし、3次元マルチパラメトリック qMRI 取得に要するスキャン時間は臨床的有用性に制限される。 本稿では,同時マルチパラメトリックqMRIのためのデータ取得と教師なし再構成を含む,革新的なイメージング手法であるSUMMITを提案する。 SUMMIT はまず複数の重要な量的特性を高度にアンサンプされた k-空間に符号化する。 さらに、専用の物理モデルに組み込まれた暗黙の神経表現を活用して、外部トレーニングデータセットを必要とせずに、所望のマルチパラメトリックマップを再構築する。 SUMMITは、共同登録されたT1、T2、T2*、および定量的感受性マッピングを提供する。 広範囲なシミュレーションとファントムイメージングは、SUMMITの精度を実証している。 さらに、qMRI再構成のための教師なしアプローチでは、様々な医療画像に適応するマルチパラメトリック画像のための新しいゼロショット学習パラダイムも導入されている。

Quantitative magnetic resonance imaging (qMRI) offers tissue-specific physical parameters with significant potential for neuroscience research and clinical practice. However, lengthy scan times for 3D multiparametric qMRI acquisition limit its clinical utility. Here, we propose SUMMIT, an innovative imaging methodology that includes data acquisition and an unsupervised reconstruction for simultaneous multiparametric qMRI. SUMMIT first encodes multiple important quantitative properties into highly undersampled k-space. It further leverages implicit neural representation incorporated with a dedicated physics model to reconstruct the desired multiparametric maps without needing external training datasets. SUMMIT delivers co-registered T1, T2, T2*, and quantitative susceptibility mapping. Extensive simulations and phantom imaging demonstrate SUMMIT's high accuracy. Additionally, the proposed unsupervised approach for qMRI reconstruction also introduces a novel zero-shot learning paradigm for multiparametric imaging applicable to various medical imaging modalities.
翻訳日:2024-11-04 16:54:49 公開日:2024-10-02
# LLMを用いた音声文法評価

Spoken Grammar Assessment Using LLM ( http://arxiv.org/abs/2410.01579v1 )

ライセンス: Link先を確認
Sunil Kumar Kopparapu, Chitralekha Bhat, Ashish Panda, (参考訳) 音声言語アセスメント(SLA)システムは、読み上げ音声と自発音声をそれぞれ分析することにより、話者の発音と口頭流速を評価することを制限する。 言語文法や語彙の評価は、文章言語評価システム(WLA)に委ねられる。 ほとんどのWLAシステムは、キュレートされた有限サイズの文データベースから一連の文を表示し、テスト質問を予測し、自分自身を訓練することができる。 本稿では,音声音声からの言語文法を冗長に評価する新しいエンドツーエンドSLAシステムを提案する。また,大規模な言語モデル(LLM)を用いることで,その評価をほぼ不可能にする。 さらに、カスタム構築言語モデルを用いたハイブリッド自動音声認識(ASR)が、音声文法評価のための最先端のASRエンジンより優れていることを示す。

Spoken language assessment (SLA) systems restrict themselves to evaluating the pronunciation and oral fluency of a speaker by analysing the read and spontaneous spoken utterances respectively. The assessment of language grammar or vocabulary is relegated to written language assessment (WLA) systems. Most WLA systems present a set of sentences from a curated finite-size database of sentences thereby making it possible to anticipate the test questions and train oneself. In this paper, we propose a novel end-to-end SLA system to assess language grammar from spoken utterances thus making WLA systems redundant; additionally, we make the assessment largely unteachable by employing a large language model (LLM) to bring in variations in the test. We further demonstrate that a hybrid automatic speech recognition (ASR) with a custom-built language model outperforms the state-of-the-art ASR engine for spoken grammar assessment.
翻訳日:2024-11-04 16:54:49 公開日:2024-10-02
# 学習強化ロバストアルゴリズムの講義

Learning-Augmented Robust Algorithmic Recourse ( http://arxiv.org/abs/2410.01580v1 )

ライセンス: Link先を確認
Kshitij Kayastha, Vasilis Gkatzelis, Shahin Jabbari, (参考訳) ハイテイク領域における機械学習モデルの普及は、特に望ましくない結果を受ける個人に対して大きなネガティブな影響を及ぼす可能性がある。 アルゴリズムによるリコースは、このような個人に、将来望ましい結果を達成するためにできる最小限のコスト改善の提案を提供する。 しかし、機械学習モデルは時間とともに更新されることが多く、それによってリコースが無効になる可能性がある(すなわち、望ましい結果に結びつかない)。 堅牢なリコース文献は、敵のモデル変更に対してさえ、より敏感でないリコースを選択することを目的としているが、これはよりコストがかかる。 この障害を克服するため、学習強化フレームワークを通じてアルゴリズムによる会話の研究を開始し、将来のモデル変更に関する予測を備えたデザイナが、予測が正確(一貫性)でありながら、予測が不正確(ロバストネス)であってもコストを抑えることができる範囲を評価する。 本稿では,この問題に対する新しいアルゴリズムを提案し,ロバスト性・一貫性のトレードオフについて検討し,予測精度が性能に与える影響を分析する。

The widespread use of machine learning models in high-stakes domains can have a major negative impact, especially on individuals who receive undesirable outcomes. Algorithmic recourse provides such individuals with suggestions of minimum-cost improvements they can make to achieve a desirable outcome in the future. However, machine learning models often get updated over time and this can cause a recourse to become invalid (i.e., not lead to the desirable outcome). The robust recourse literature aims to choose recourses that are less sensitive, even against adversarial model changes, but this comes at a higher cost. To overcome this obstacle, we initiate the study of algorithmic recourse through the learning-augmented framework and evaluate the extent to which a designer equipped with a prediction regarding future model changes can reduce the cost of recourse when the prediction is accurate (consistency) while also limiting the cost even when the prediction is inaccurate (robustness). We propose a novel algorithm for this problem, study the robustness-consistency trade-off, and analyze how prediction accuracy affects performance.
翻訳日:2024-11-04 16:54:49 公開日:2024-10-02
# Linkage Learning を用いた反復局所探索

Iterated Local Search with Linkage Learning ( http://arxiv.org/abs/2410.01583v1 )

ライセンス: Link先を確認
Renato Tinós, Michal W. Przewozniczek, Darrell Whitley, Francisco Chicano, (参考訳) 擬ブール最適化において、変数相互作用グラフは変数を頂点として表現し、変数のペア間の相互作用をエッジとして表現する。 ブラックボックス最適化では、経験的リンケージ学習技術を用いて、変数相互作用グラフを少なくとも部分的に発見することができる。 これらの手法は誤った変数の相互作用を報告しないが、計算上は高価である。 最近提案されたリンケージ学習を用いた局所探索は、反復局所探索の副作用として部分変数相互作用グラフを発見する。 しかし、相互作用の強さに関する情報はアルゴリズムでは学ばない。 本稿では,変数間の相互作用の強度に関する情報を格納する重み付き変数相互作用グラフを構築するリンクラーニング2を用いた局所探索を提案する。 重み付き変数相互作用グラフは、最適化問題と最適化者の振舞いに関する新しい洞察を与えることができる。 NKランドスケープ、knapsack問題、特徴選択による実験により、リンケージ学習2を用いた局所探索により、重み付き可変相互作用グラフを効率的に構築できることが示されている。 特に、特徴選択を用いた実験では、重み付けされた変数相互作用グラフが機械学習における特徴相互作用の可視化に利用できることが示されている。 さらに、変数間の相互作用を利用する新しい変換演算子も設計できる。 局所探索を反復する新しい摂動演算子を提案する。

In pseudo-Boolean optimization, a variable interaction graph represents variables as vertices, and interactions between pairs of variables as edges. In black-box optimization, the variable interaction graph may be at least partially discovered by using empirical linkage learning techniques. These methods never report false variable interactions, but they are computationally expensive. The recently proposed local search with linkage learning discovers the partial variable interaction graph as a side-effect of iterated local search. However, information about the strength of the interactions is not learned by the algorithm. We propose local search with linkage learning 2, which builds a weighted variable interaction graph that stores information about the strength of the interaction between variables. The weighted variable interaction graph can provide new insights about the optimization problem and behavior of optimizers. Experiments with NK landscapes, knapsack problem, and feature selection show that local search with linkage learning 2 is able to efficiently build weighted variable interaction graphs. In particular, experiments with feature selection show that the weighted variable interaction graphs can be used for visualizing the feature interactions in machine learning. Additionally, new transformation operators that exploit the interactions between variables can be designed. We illustrate this ability by proposing a new perturbation operator for iterated local search.
翻訳日:2024-11-04 16:54:49 公開日:2024-10-02
# DynFrs: ランダムフォレストにおける機械学習のための効率的なフレームワーク

DynFrs: An Efficient Framework for Machine Unlearning in Random Forest ( http://arxiv.org/abs/2410.01588v1 )

ライセンス: Link先を確認
Shurong Wang, Zhuoyang Shen, Xinbao Qiao, Tongning Zhang, Meng Zhang, (参考訳) ランダムフォレストは、医学診断、財務、パーソナライズされたレコメンデーションなど、様々な領域で際立った分類や回帰作業において有効性を確立するために広く認識されている。 しかしこれらのドメインは、個人データと機密データが関係しているため、本質的にプライバシー上の懸念に敏感である。 GDPRやCCPAなどの規制の下では、忘れられる権利の需要が高まっているため、ランダムフォレストにとって機械のアンラーニングを行う能力は重要になっている。 しかし、このトピックには十分な注意が払われず、既存のアプローチは現実のシナリオに適用することの難しさに直面している。 このギャップに対処し、予測精度を維持しつつ、ランダムフォレストにおける効率的な機械学習を可能にするために設計されたDynFrsフレームワークを提案する。 Dynfrs はサブサンプリング法 Occ(q) と遅延タグ戦略 Lzy を利用しており、Random Forest の亜種にも適用可能である。 本質的には、Occ(q) は、トレーニングセットの各サンプルが、サンプルの削除の影響が限定されるように、木の比率でのみ発生することを保証し、Lzy はツリーノードの再構築を必要に応じて遅らせるため、ツリー構造への不必要な変更を避ける。 実験では、Dynfrsを極端にランダム化された木に適用すると大幅に改善され、ランサムフォレストにおける既存のマシンアンラーニング手法よりも桁違いに高速で予測精度が向上する。

Random Forests are widely recognized for establishing efficacy in classification and regression tasks, standing out in various domains such as medical diagnosis, finance, and personalized recommendations. These domains, however, are inherently sensitive to privacy concerns, as personal and confidential data are involved. With increasing demand for the right to be forgotten, particularly under regulations such as GDPR and CCPA, the ability to perform machine unlearning has become crucial for Random Forests. However, insufficient attention was paid to this topic, and existing approaches face difficulties in being applied to real-world scenarios. Addressing this gap, we propose the DynFrs framework designed to enable efficient machine unlearning in Random Forests while preserving predictive accuracy. Dynfrs leverages subsampling method Occ(q) and a lazy tag strategy Lzy, and is still adaptable to any Random Forest variant. In essence, Occ(q) ensures that each sample in the training set occurs only in a proportion of trees so that the impact of deleting samples is limited, and Lzy delays the reconstruction of a tree node until necessary, thereby avoiding unnecessary modifications on tree structures. In experiments, applying Dynfrs on Extremely Randomized Trees yields substantial improvements, achieving orders of magnitude faster unlearning performance and better predictive accuracy than existing machine unlearning methods for Random Forests.
翻訳日:2024-11-04 16:54:49 公開日:2024-10-02
# 非理想的CTの普遍的拡張のためのイメージング基礎モデル

Imaging foundation model for universal enhancement of non-ideal measurement CT ( http://arxiv.org/abs/2410.01591v1 )

ライセンス: Link先を確認
Yuxin Liu, Rongjun Ge, Yuting He, Zhan Wu, Chenyu You, Shuo Li, Yang Chen, (参考訳) CT画像の新たな優位性のために最適な画像標準を犠牲にした非理想的計測CT(NICT)は、CT画像の臨床応用範囲を拡大している。 しかし, 画像基準の引き下げにより画像品質も低下し, 臨床受容性は極めて低下した。 特定のシナリオにおけるNICT強化のためのディープラーニングの実現可能性を示す研究は数多くあるが、その高コストと限定的な一般化性は大きな障害となっている。 ファンデーションモデルに関する最近の研究は、画像品質の劣化を最小限のデータコストで埋める、ユニバーサルなNICT拡張モデルを構築する新たな機会をもたらした。 しかし、大規模な事前トレーニングデータセットの収集とデータの互換性の課題のため、成功は報告されていない。 本稿では,NICT拡張のための最初のイメージング基盤モデルであるマルチスケール統合トランスフォーマーAMP(TAMP)を提案する。 360万のNICT-ICTイメージペアを持つ大規模物理駆動シミュレーションデータセットで事前訓練され、様々な非理想的設定や身体領域を持つNICT拡張タスクに直接一般化することができる。 少ないデータで適応することで、現実の特定のシナリオでさらにプロのパフォーマンスを達成することができる。 我々の広範な実験により,提案したTAMPは,NICTの探索と適用を促進し,幅広い医療シナリオに役立てる大きな可能性を実証した。

Non-ideal measurement computed tomography (NICT), which sacrifices optimal imaging standards for new advantages in CT imaging, is expanding the clinical application scope of CT images. However, with the reduction of imaging standards, the image quality has also been reduced, extremely limiting the clinical acceptability. Although numerous studies have demonstrated the feasibility of deep learning for the NICT enhancement in specific scenarios, their high data cost and limited generalizability have become large obstacles. The recent research on the foundation model has brought new opportunities for building a universal NICT enhancement model - bridging the image quality degradation with minimal data cost. However, owing to the challenges in the collection of large pre-training datasets and the compatibility of data variation, no success has been reported. In this paper, we propose a multi-scale integrated Transformer AMPlifier (TAMP), the first imaging foundation model for universal NICT enhancement. It has been pre-trained on a large-scale physical-driven simulation dataset with 3.6 million NICT-ICT image pairs, and is able to directly generalize to the NICT enhancement tasks with various non-ideal settings and body regions. Via the adaptation with few data, it can further achieve professional performance in real-world specific scenarios. Our extensive experiments have demonstrated that the proposed TAMP has significant potential for promoting the exploration and application of NICT and serving a wider range of medical scenarios.
翻訳日:2024-11-04 16:44:34 公開日:2024-10-02
# 二次元ランダムウォーカーを用いた量子フォトニックゲート

Quantum Photonic Gates with Two-Dimensional Random Walkers ( http://arxiv.org/abs/2410.01592v1 )

ライセンス: Link先を確認
S. Ali Hassani Gangaraj, Dan T Nguyen, (参考訳) 量子ゲートは、量子情報を処理するための重要な要素である。 しかし、光子を光子プラットフォームで実現することは、光子が伝播し干渉するユニークな方法のために困難である。 本研究では,連続時間2次元ランダムウォーキング光子に基づく量子フォトニックゲートの設計を提案する。 これらのゲートは、光子が二酸化ケイ素散乱体を埋め込んだ2次元シリコンホスト媒体の中をランダムに歩く逆設計法を用いて実装することができる。 マルチキュービットゲートとしてC-NOTゲート,シングルキュービットゲートとしてXゲートを提案する。 また、量子フォーマリズムを用いたゲート演算の数値的な実演も行う。 さらに, ランダムウォーキング光子の非自明な空間相関を量子相関関数を用いて検討する。 その結果,高忠実性確率量子ゲートが得られた。 誤り訂正に対処するためには、さらなる作業が必要である。 この研究は線形量子光学における集積フォトニクスの実践的実装を前進させる。

Quantum gates are essential elements for processing quantum information. However, realizing them in a photonic platform is challenging due to the unique way photons propagate and interfere. In this study, we introduce new design of quantum photonic gates that operate based on continuous time two-dimensional random walking photons. These gates can be implemented using the inverse design method, where photons randomly walk in a two-dimensional silicon host medium embedded with silicon dioxide scatterers. We propose a C-NOT gate as a multiqubit gate and an X-gate as a single qubit gate. We will also provide numerical demonstrations of the gate operations using quantum formalism. Additionally, our investigation involves studying the non-trivial spatial correlations of random walking photons by utilizing the quantum correlation function. The results demonstrate high-fidelity probabilistic quantum gates. Further work is required to address error-correction. This work advances the practical implementation of integrated photonics in linear quantum optics.
翻訳日:2024-11-04 16:44:34 公開日:2024-10-02
# MM-LDM:音声映像生成のための多モード潜時拡散モデル

MM-LDM: Multi-Modal Latent Diffusion Model for Sounding Video Generation ( http://arxiv.org/abs/2410.01594v1 )

ライセンス: Link先を確認
Mingzhen Sun, Weining Wang, Yanyuan Qiao, Jiahui Sun, Zihan Qin, Longteng Guo, Xinxin Zhu, Jing Liu, (参考訳) Sounding Video Generation (SVG) は、高次元信号空間、異なるデータフォーマット、およびコンテンツ情報の異なるパターンに挑戦される、オーディオとビデオの共同生成タスクである。 これらの課題に対処するために,SVGタスクのための新しい多モード潜在拡散モデル(MM-LDM)を提案する。 まず、音声とビデオデータの表現を、それらを1つか2つの画像に変換することによって統一する。 次に,階層型マルチモーダルオートエンコーダを導入し,各モダリティに対する低レベルの知覚潜在空間と共有高レベルの意味的特徴空間を構築する。 前者の空間は、各モダリティの生信号空間と知覚的に等価であるが、信号次元を劇的に減少させる。 後者の空間は、モダリティ間の情報ギャップを埋め、より洞察に富んだクロスモーダルガイダンスを提供するのに役立つ。 提案手法は, 高い品質と効率性を有する新しい最先端結果を実現する。 具体的には,すべての評価指標を総合的に改善し,ランドスケープとAIST++データセットの学習とサンプリングの高速化を実現している。 さらに,オープンドメイン音声生成,長時間音声生成,音声継続,映像継続,条件付き単一モーダル生成タスクの性能を総合評価し,MM-LDMはエキサイティングな適応性と一般化能力を示す。

Sounding Video Generation (SVG) is an audio-video joint generation task challenged by high-dimensional signal spaces, distinct data formats, and different patterns of content information. To address these issues, we introduce a novel multi-modal latent diffusion model (MM-LDM) for the SVG task. We first unify the representation of audio and video data by converting them into a single or a couple of images. Then, we introduce a hierarchical multi-modal autoencoder that constructs a low-level perceptual latent space for each modality and a shared high-level semantic feature space. The former space is perceptually equivalent to the raw signal space of each modality but drastically reduces signal dimensions. The latter space serves to bridge the information gap between modalities and provides more insightful cross-modal guidance. Our proposed method achieves new state-of-the-art results with significant quality and efficiency gains. Specifically, our method achieves a comprehensive improvement on all evaluation metrics and a faster training and sampling speed on Landscape and AIST++ datasets. Moreover, we explore its performance on open-domain sounding video generation, long sounding video generation, audio continuation, video continuation, and conditional single-modal generation tasks for a comprehensive evaluation, where our MM-LDM demonstrates exciting adaptability and generalization ability.
翻訳日:2024-11-04 16:44:34 公開日:2024-10-02
# SAFE: 6G無線通信におけるレート制御によるセマンティック適応特徴抽出

SAFE: Semantic Adaptive Feature Extraction with Rate Control for 6G Wireless Communications ( http://arxiv.org/abs/2410.01597v1 )

ライセンス: Link先を確認
Yuna Yan, Lixin Li, Xin Zhang, Wensheng Lin, Wenchi Cheng, Zhu Han, (参考訳) 現在のDeep Learning-based Semantic Communication (DeepSC) システムは、特定の単一チャネル条件に対してのみ設計・訓練されており、適応性と帯域幅の利用を制限している。 そこで本稿では,ユーザがチャネル条件に基づいて異なるサブセマンティック組み合わせを選択することで,帯域幅効率を大幅に向上する,革新的なセマンティック適応特徴抽出(SAFE)フレームワークを提案する。 本稿では,SAFEフレームワーク全体の性能を最適化する3つの高度な学習アルゴリズムについても紹介する。 一連のシミュレーション実験により,SAFEフレームワークは,異なるチャネル帯域条件下でのセマンティクスを効果的かつ適応的に抽出し,伝達し,その有効性は客観的および主観的品質評価によって検証できることを実証した。

Most current Deep Learning-based Semantic Communication (DeepSC) systems are designed and trained exclusively for particular single-channel conditions, which restricts their adaptability and overall bandwidth utilization. To address this, we propose an innovative Semantic Adaptive Feature Extraction (SAFE) framework, which significantly improves bandwidth efficiency by allowing users to select different sub-semantic combinations based on their channel conditions. This paper also introduces three advanced learning algorithms to optimize the performance of SAFE framework as a whole. Through a series of simulation experiments, we demonstrate that the SAFE framework can effectively and adaptively extract and transmit semantics under different channel bandwidth conditions, of which effectiveness is verified through objective and subjective quality evaluations.
翻訳日:2024-11-04 16:44:34 公開日:2024-10-02
# 旅行先推薦における広帯域および間接クエリの協調的サブトピッククエリ再構成

Elaborative Subtopic Query Reformulation for Broad and Indirect Queries in Travel Destination Recommendation ( http://arxiv.org/abs/2410.01598v1 )

ライセンス: Link先を確認
Qianfeng Wen, Yifan Liu, Joshua Zhang, George Saad, Anton Korikov, Yury Sambale, Scott Sanner, (参考訳) クエリ駆動のトラベルレコメンダシステム(RS)では、広義の「若者フレンドリーな活動」や間接的な「高校卒業旅行」といった自然言語(NL)宛先クエリの背景にあるユーザの意図を理解することが不可欠である。 このようなクエリは、WikiVoyageのような利用可能なテキスト記述から関連する宛先を推測する検索方法の能力を阻害する潜在的なユーザ意図の広い範囲と微妙さのため、難しい。 クエリ再構成(QR)は、ユーザの意図に対処することで、検索の強化に有効であることが証明されているが、既存のQRメソッドは、潜在的にマッチするクエリのサブトピック(ブレッドス)の範囲を広げるか、あるいはクエリの潜在的な意味(深度)を解明するだけにのみ焦点を絞っているが、両方ではない。 本稿では,多言語モデルに基づくQR手法であるEQR(Elaborative Subtopic Query Reformulation)を提案する。 また、クエリ駆動の旅行先RSのための新しいデータセットであるTravelDestをリリースする。 TravelDestの実験によると、EQRは既存の最先端QRメソッドよりもリコールと精度が大幅に向上している。

In Query-driven Travel Recommender Systems (RSs), it is crucial to understand the user intent behind challenging natural language(NL) destination queries such as the broadly worded "youth-friendly activities" or the indirect description "a high school graduation trip". Such queries are challenging due to the wide scope and subtlety of potential user intents that confound the ability of retrieval methods to infer relevant destinations from available textual descriptions such as WikiVoyage. While query reformulation (QR) has proven effective in enhancing retrieval by addressing user intent, existing QR methods tend to focus only on expanding the range of potentially matching query subtopics (breadth) or elaborating on the potential meaning of a query (depth), but not both. In this paper, we introduce Elaborative Subtopic Query Reformulation (EQR), a large language model-based QR method that combines both breadth and depth by generating potential query subtopics with information-rich elaborations. We also release TravelDest, a novel dataset for query-driven travel destination RSs. Experiments on TravelDest show that EQR achieves significant improvements in recall and precision over existing state-of-the-art QR methods.
翻訳日:2024-11-04 16:44:34 公開日:2024-10-02
# ドメイン分割とPINNを用いたモデル発見に向けて

Towards Model Discovery Using Domain Decomposition and PINNs ( http://arxiv.org/abs/2410.01599v1 )

ライセンス: Link先を確認
Tirtho S. Saha, Alexander Heinlein, Cordula Reisch, (参考訳) 一般微分方程式(ODE)で表される複雑なシステムのモデルパラメータをドメイン分解法で学習するための機械学習アルゴリズムを強化する。 この研究は、準定常長時間挙動を持つ試験モデルの力学を学ぶために、(バニラ)物理情報ニューラルネットワーク(PINN)と有限基底物理情報ニューラルネットワーク(FBPINN)の2つのアプローチの性能を評価する。 異なる動的領域と異なるノイズレベルのデータセットに対するアプローチをテストする。 その結果、準定常時間領域のみのデータがほとんどない場合であっても、バニラPINNアプローチよりもFBPINNアプローチの方が優れた性能が得られることがわかった。

We enhance machine learning algorithms for learning model parameters in complex systems represented by ordinary differential equations (ODEs) with domain decomposition methods. The study evaluates the performance of two approaches, namely (vanilla) Physics-Informed Neural Networks (PINNs) and Finite Basis Physics-Informed Neural Networks (FBPINNs), in learning the dynamics of test models with a quasi-stationary longtime behavior. We test the approaches for data sets in different dynamical regions and with varying noise level. As results, we find a better performance for the FBPINN approach compared to the vanilla PINN approach, even in cases with data from only a quasi-stationary time domain with few dynamics.
翻訳日:2024-11-04 16:44:34 公開日:2024-10-02
# ENTP:エンコーダのみの次のトークン予測

ENTP: Encoder-only Next Token Prediction ( http://arxiv.org/abs/2410.01600v1 )

ライセンス: Link先を確認
Ethan Ewer, Daewon Chae, Thomas Zeng, Jinkyu Kim, Kangwook Lee, (参考訳) 次世代の予測モデルは、未来のトークンを隠蔽することで「加熱」を防ぐのに因果的注意が不可欠であるという共通の信念によって、因果的注意を持つデコーダのみのトランスフォーマーに大きく依存している。 私たちはこの広く受け入れられている概念に挑戦し、この設計選択は必要ではなく効率性に関するものだと論じます。 デコーダのみのトランスフォーマーは、実際的な理由から依然として良い選択だが、唯一の選択肢ではない。 本研究では,EncoderのみのNext Token Prediction (ENTP)を紹介する。 我々は、ENTPとデコーダのみの変換器の違いを表現力と複雑性で検討し、ENTPの潜在的な利点を浮き彫りにする。 我々はTriplet-Countingタスクを導入し、理論上も実験上も、ENTPは容易にこのタスクを実行できるが、デコーダのみのTransformerでは実行できないことを示す。 最後に、長さの一般化や文脈内学習など、様々な現実的なタスクにおいて、ENTPの優れた性能を実証的に示す。

Next-token prediction models have predominantly relied on decoder-only Transformers with causal attention, driven by the common belief that causal attention is essential to prevent "cheating" by masking future tokens. We challenge this widely accepted notion and argue that this design choice is about efficiency rather than necessity. While decoder-only Transformers are still a good choice for practical reasons, they are not the only viable option. In this work, we introduce Encoder-only Next Token Prediction (ENTP). We explore the differences between ENTP and decoder-only Transformers in expressive power and complexity, highlighting potential advantages of ENTP. We introduce the Triplet-Counting task and show, both theoretically and experimentally, that while ENTP can perform this task easily, a decoder-only Transformer cannot. Finally, we empirically demonstrate ENTP's superior performance across various realistic tasks, such as length generalization and in-context learning.
翻訳日:2024-11-04 16:44:34 公開日:2024-10-02
# GOATとの共同作業の自動化 - ジェネレーティブな攻撃エージェントテスタ

Automated Red Teaming with GOAT: the Generative Offensive Agent Tester ( http://arxiv.org/abs/2410.01606v1 )

ライセンス: Link先を確認
Maya Pavlova, Erik Brinkman, Krithika Iyer, Vitor Albiero, Joanna Bitton, Hailey Nguyen, Joe Li, Cristian Canton Ferrer, Ivan Evtimov, Aaron Grattafiori, (参考訳) Red Teamingは、安全トレーニング中に設定された規範やポリシー、ルールに違反したコンテンツを、大規模な言語モデル(LLM)がどのように生成できるかを評価する。 しかしながら、文献における既存の自動化手法のほとんどは、人間がAIモデルと対話する傾向を示すものではない。 AIモデルの一般的なユーザは、敵の機械学習メソッドやモデル内部へのアクセスに関する高度な知識を持っておらず、非常に効果的な1つの敵のプロンプトを作るのに多くの時間を費やしていない。 代わりに、オンラインで共有されるテクニックを利用し、LLMのマルチターン会話の性質を利用する可能性が高い。 手動テストはこのギャップに対処するが、非効率でしばしば高価なプロセスである。 これらの制約に対処するために,GOAT (Generative Offensive Agent Tester) を導入し,LLMの脆弱性を特定するために,複数の対向的プロンプト技術を活用しながら,平易な言語対話をシミュレートする自動エージェントレッドチームシステムを提案する。 GOATを7つのレッドチームによる攻撃でインスタンス化し、利用可能なメソッドの選択や現在のターゲットモデルの応答、次のステップの推論を促進する方法として汎用モデルを促す。 私たちのアプローチは拡張可能で効率的で、人間のテスタが新たなリスク領域の探索に集中できるように設計されています。 GOATの設計と評価を行い,現在最先端のLLMの脆弱性を特定する上での有効性を実証し,JailbreakBenchデータセットのLlama 3.1に対してASR@10が97%,GPT-4に対して88%を示した。

Red teaming assesses how large language models (LLMs) can produce content that violates norms, policies, and rules set during their safety training. However, most existing automated methods in the literature are not representative of the way humans tend to interact with AI models. Common users of AI models may not have advanced knowledge of adversarial machine learning methods or access to model internals, and they do not spend a lot of time crafting a single highly effective adversarial prompt. Instead, they are likely to make use of techniques commonly shared online and exploit the multiturn conversational nature of LLMs. While manual testing addresses this gap, it is an inefficient and often expensive process. To address these limitations, we introduce the Generative Offensive Agent Tester (GOAT), an automated agentic red teaming system that simulates plain language adversarial conversations while leveraging multiple adversarial prompting techniques to identify vulnerabilities in LLMs. We instantiate GOAT with 7 red teaming attacks by prompting a general-purpose model in a way that encourages reasoning through the choices of methods available, the current target model's response, and the next steps. Our approach is designed to be extensible and efficient, allowing human testers to focus on exploring new areas of risk while automation covers the scaled adversarial stress-testing of known risk territory. We present the design and evaluation of GOAT, demonstrating its effectiveness in identifying vulnerabilities in state-of-the-art LLMs, with an ASR@10 of 97% against Llama 3.1 and 88% against GPT-4 on the JailbreakBench dataset.
翻訳日:2024-11-04 16:44:34 公開日:2024-10-02
# DAViD:Synthetic Insightsによるドメイン適応型ビジュアルリッチ文書理解

DAViD: Domain Adaptive Visually-Rich Document Understanding with Synthetic Insights ( http://arxiv.org/abs/2410.01609v1 )

ライセンス: Link先を確認
Yihao Ding, Soyeon Caren Han, Zechuan Li, Hyunsuk Chung, (参考訳) Visually-Rich Documents (VRD)は、チャート、テーブル、参照などの要素を包含し、様々な分野にわたる複雑な情報を伝達する。 しかし、これらのリッチドキュメントから情報を抽出することは、特に一貫性のないフォーマットとドメイン固有の要件を考えると、労働集約的である。 VRD Understandingの事前トレーニングされたモデルは進歩しているが、大規模な注釈付きデータセットへの依存はスケーラビリティを制限している。 本稿では,機械生成合成データを利用したドメイン適応型ビジュアルリッチ文書理解(DAViD)フレームワークを提案する。 DAViDは細粒度と粗粒度の文書表現学習を統合し、コストのかかる手動ラベリングの必要性を減らすために合成アノテーションを使用する。 事前訓練されたモデルと合成データを活用することで、DAViDは最小限のアノテートデータセットで競合するパフォーマンスを達成する。 大規模な実験によりDAViDの有効性が検証され、ドメイン固有のVRDUタスクに効率的に適応できることが実証された。

Visually-Rich Documents (VRDs), encompassing elements like charts, tables, and references, convey complex information across various fields. However, extracting information from these rich documents is labor-intensive, especially given their inconsistent formats and domain-specific requirements. While pretrained models for VRD Understanding have progressed, their reliance on large, annotated datasets limits scalability. This paper introduces the Domain Adaptive Visually-rich Document Understanding (DAViD) framework, which utilises machine-generated synthetic data for domain adaptation. DAViD integrates fine-grained and coarse-grained document representation learning and employs synthetic annotations to reduce the need for costly manual labelling. By leveraging pretrained models and synthetic data, DAViD achieves competitive performance with minimal annotated datasets. Extensive experiments validate DAViD's effectiveness, demonstrating its ability to efficiently adapt to domain-specific VRDU tasks.
翻訳日:2024-11-04 16:44:34 公開日:2024-10-02
# パラメータマージによる高密度からミキサー・オブ・エクササイズへのアップサイクリング指導

Upcycling Instruction Tuning from Dense to Mixture-of-Experts via Parameter Merging ( http://arxiv.org/abs/2410.01610v1 )

ライセンス: Link先を確認
Tingfeng Hui, Zhenyu Zhang, Shuohuan Wang, Yu Sun, Hua Wu, Sen Su, (参考訳) Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)において明るく輝き、豊富な自然言語処理タスクにおいて優れたパフォーマンスを示す。 しかしながら、LLMを高密度からMoEに変換する既存の手法は、大きなデータ要件に直面しており、通常は大規模なポストトレーニングに依存している。 本稿では,高密度事前学習モデルをMoE命令モデルにチューニングするためのデータ効率の高い手法であるUpcycling Instruction Tuning(UpIT)を提案する。 具体的には、高密度モデルの命令チューニング中の中間チェックポイントが、特殊専門家に自然に適していることを最初に指摘し、その上で、フレキシブルな数の専門家でモデルを柔軟に達成するための専門家拡張ステージを提案し、そこで、遺伝的アルゴリズムとパラメータマージを導入して、新しい拡張専門家の十分な多様性を確保する。 MoEモデルの各専門家が期待通りに動作するようにするために、私たちは、ルータを事前に最適化するために、各専門家が抽出する少数のシードデータを選択します。 さまざまなデータスケールとアップサイクリング設定による大規模な実験は、UpITの優れたパフォーマンスとデータ効率を示し、専門家やデータスケーリングの安定した改善を示している。 さらなる分析は、アップサイクリングにおける専門家の多様性を保証することの重要性を明らかにしている。

Mixture-of-Experts (MoE) shines brightly in large language models (LLMs) and demonstrates outstanding performance in plentiful natural language processing tasks. However, existing methods transforming LLMs from dense to MoE face significant data requirements and typically rely on large-scale post-training. In this paper, we propose Upcycling Instruction Tuning (UpIT), a data-efficient approach for tuning a dense pre-trained model into a MoE instruction model. Specifically, we first point out that intermediate checkpoints during instruction tuning of the dense model are naturally suitable for specialized experts, and then propose an expert expansion stage to flexibly achieve models with flexible numbers of experts, where genetic algorithm and parameter merging are introduced to ensure sufficient diversity of new extended experts. To ensure that each specialized expert in the MoE model works as expected, we select a small amount of seed data that each expert excels to pre-optimize the router. Extensive experiments with various data scales and upcycling settings demonstrate the outstanding performance and data efficiency of UpIT, as well as stable improvement in expert or data scaling. Further analysis reveals the importance of ensuring expert diversity in upcycling.
翻訳日:2024-11-04 16:44:34 公開日:2024-10-02
# 鏡におけるガウス散乱:仮想カメラ最適化による反射認識レンダリング

Gaussian Splatting in Mirrors: Reflection-Aware Rendering via Virtual Camera Optimization ( http://arxiv.org/abs/2410.01614v1 )

ライセンス: Link先を確認
Zihan Wang, Shuzhe Wang, Matias Turkulainen, Junyuan Fang, Juho Kannala, (参考訳) 近年の3Dガウススプラッティング(3D-GS)の進歩は、新しいビュー合成に革命をもたらし、リアルタイムで高品質な画像描画を容易にしている。 しかし、反射面、特に鏡を含むシナリオでは、3D-GSはしばしば反射を仮想空間と誤解し、ミラー内の曖昧で一貫性のないマルチビューレンダリングをもたらす。 本稿では,リフレクションを物理ベース仮想カメラとしてモデル化することで,高品質なマルチビュー一貫したリフレクションレンダリングを実現する手法を提案する。 我々は、3D-GSの奥行きと通常の推定値を持つ鏡面を推定し、鏡面に対して対称に配置された仮想カメラを定義する。 これらの仮想カメラは、シーン内の鏡の反射を説明するために使用される。 鏡面推定における不完全性に対処するため,反射品質を向上させるために,単純かつ効果的な仮想カメラ最適化法を提案する。 より多様な評価のための3つの現実シナリオを含む新しいミラーデータセットを収集する。 Mirror-Nerfと実世界のデータセットの両方で実験的に検証し、我々のアプローチの有効性を実証した。 従来の最先端技術と比較して、トレーニング時間を大幅に短縮しながら、同等あるいは優れた結果が得られる。

Recent advancements in 3D Gaussian Splatting (3D-GS) have revolutionized novel view synthesis, facilitating real-time, high-quality image rendering. However, in scenarios involving reflective surfaces, particularly mirrors, 3D-GS often misinterprets reflections as virtual spaces, resulting in blurred and inconsistent multi-view rendering within mirrors. Our paper presents a novel method aimed at obtaining high-quality multi-view consistent reflection rendering by modelling reflections as physically-based virtual cameras. We estimate mirror planes with depth and normal estimates from 3D-GS and define virtual cameras that are placed symmetrically about the mirror plane. These virtual cameras are then used to explain mirror reflections in the scene. To address imperfections in mirror plane estimates, we propose a straightforward yet effective virtual camera optimization method to enhance reflection quality. We collect a new mirror dataset including three real-world scenarios for more diverse evaluation. Experimental validation on both Mirror-Nerf and our real-world dataset demonstrate the efficacy of our approach. We achieve comparable or superior results while significantly reducing training time compared to previous state-of-the-art.
翻訳日:2024-11-04 16:34:50 公開日:2024-10-02
# モーメント検索と光検出のためのサリエンシ誘導型DETR

Saliency-Guided DETR for Moment Retrieval and Highlight Detection ( http://arxiv.org/abs/2410.01615v1 )

ライセンス: Link先を確認
Aleksandr Gordeev, Vladimir Dokholyan, Irina Tolstykh, Maksim Kuprashevich, (参考訳) 既存のビデオモーメント検索とハイライト検出のアプローチでは、テキストとビデオの特徴を効率よく整列できないため、パフォーマンスが不満足になり、生産利用が制限される。 そこで本研究では,このようなアライメント用に設計された最近の基礎的ビデオモデルを利用した新しいアーキテクチャを提案する。 提案手法とハイブリッドDETRアーキテクチャを組み合わせることで,モーメント検索とハイライト検出の両タスクの性能を大幅に向上させる。 さらに改良するために,大規模かつ高品質なプレトレーニングデータセットであるInterVid-MRを開発した。 この手法を用いることで、QVHighlights、Charades-STA、TACoSベンチマークの最先端結果が得られる。 提案手法は,ビデオ言語タスクにおけるゼロショットシナリオと微調整シナリオの両方に対して,効率的かつスケーラブルなソリューションを提供する。

Existing approaches for video moment retrieval and highlight detection are not able to align text and video features efficiently, resulting in unsatisfying performance and limited production usage. To address this, we propose a novel architecture that utilizes recent foundational video models designed for such alignment. Combined with the introduced Saliency-Guided Cross Attention mechanism and a hybrid DETR architecture, our approach significantly enhances performance in both moment retrieval and highlight detection tasks. For even better improvement, we developed InterVid-MR, a large-scale and high-quality dataset for pretraining. Using it, our architecture achieves state-of-the-art results on the QVHighlights, Charades-STA and TACoS benchmarks. The proposed approach provides an efficient and scalable solution for both zero-shot and fine-tuning scenarios in video-language tasks.
翻訳日:2024-11-04 16:34:50 公開日:2024-10-02
# 経験的ロバスト性への認定トレーニングの活用について

On Using Certified Training towards Empirical Robustness ( http://arxiv.org/abs/2410.01617v1 )

ライセンス: Link先を確認
Alessandro De Palma, Serge Durand, Zakaria Chihani, François Terrier, Caterina Urban, (参考訳) 敵の訓練は、特定の敵の例に対して経験的堅牢性を提供する最も一般的な方法である。 マルチステップ攻撃に基づく変種は計算オーバーヘッドがかなり大きいが、単一ステップの変種はカタストロフィックオーバーフィッティング(英語版)と呼ばれる障害モードに弱いため、大きな摂動に対する実用性を妨げている。 認定されたトレーニングである並行的な作業は、攻撃の可能性に対する堅牢性の正式な保証が可能なネットワークの作成に重点を置いている。 しかし、最も優れた経験的防御と認定された防御のギャップは、後者の適用性を著しく制限している。 ネットワークオーバー近似と敵対的攻撃を併用した認証トレーニングの最近の発展と,局所線形性と破滅的オーバーフィッティングの結びつきから着想を得て,実証的ロバスト性に対する認証トレーニングの実践的有用性と限界に関する実験的エビデンスを提示する。 この目的のために調整された場合、最近認定されたトレーニングアルゴリズムは、単一ステップ攻撃における破滅的な過度なオーバーフィッティングを防止し、適切な実験条件下では、ギャップをマルチステップベースラインにブリッジできることが示される。 最後に,ネットワークオーバー近似のための新しい正規化器を提案する。

Adversarial training is arguably the most popular way to provide empirical robustness against specific adversarial examples. While variants based on multi-step attacks incur significant computational overhead, single-step variants are vulnerable to a failure mode known as catastrophic overfitting, which hinders their practical utility for large perturbations. A parallel line of work, certified training, has focused on producing networks amenable to formal guarantees of robustness against any possible attack. However, the wide gap between the best-performing empirical and certified defenses has severely limited the applicability of the latter. Inspired by recent developments in certified training, which rely on a combination of adversarial attacks with network over-approximations, and by the connections between local linearity and catastrophic overfitting, we present experimental evidence on the practical utility and limitations of using certified training towards empirical robustness. We show that, when tuned for the purpose, a recent certified training algorithm can prevent catastrophic overfitting on single-step attacks, and that it can bridge the gap to multi-step baselines under appropriate experimental settings. Finally, we present a novel regularizer for network over-approximations that can achieve similar effects while markedly reducing runtime.
翻訳日:2024-11-04 16:34:50 公開日:2024-10-02
# SGBA:セマンティックガウス混合モデルに基づくLiDARバンドル調整

SGBA: Semantic Gaussian Mixture Model-Based LiDAR Bundle Adjustment ( http://arxiv.org/abs/2410.01618v1 )

ライセンス: Link先を確認
Xingyu Ji, Shenghai Yuan, Jianping Li, Pengyu Yin, Haozhi Cao, Lihua Xie, (参考訳) LiDARバンドル調整(BA)は、フロントエンドからのポーズ推定におけるドリフトを減らす効果的なアプローチである。 既存のLiDAR BAの研究は通常、ランドマーク表現のために事前に定義された幾何学的特徴に依存している。 この依存は、特定の特徴が欠如している環境でシステムが必然的に悪化するので、一般化性を制限する。 この問題に対処するために,事前に定義された特徴型を使わずに環境を意味ガウス混合モデル(GMM)としてモデル化するLiDAR BAスキームであるSGBAを提案する。 このアプローチは幾何情報と意味情報をエンコードし、様々な環境に適応可能な包括的かつ一般的な表現を提供する。 さらに,一般化性を確保しつつ計算複雑性を制限するため,コスト関数の条件数を評価することで,最適化のための最も情報性の高いセマンティッククラスタを選択する適応型セマンティックセレクションフレームワークを提案する。 最後に,代入の確率密度全体を考慮し,不確実性の測定と初期ポーズ推定を行う確率的特徴結合方式を提案する。 我々は様々な実験を行い、低品質な初期ポーズ推定や限られた幾何学的特徴を持つ挑戦シナリオにおいても、SGBAが正確で堅牢なポーズ改善を達成できることを実証した。 我々は、コミュニティの利益のために、その成果をオープンソースにすることを計画している。

LiDAR bundle adjustment (BA) is an effective approach to reduce the drifts in pose estimation from the front-end. Existing works on LiDAR BA usually rely on predefined geometric features for landmark representation. This reliance restricts generalizability, as the system will inevitably deteriorate in environments where these specific features are absent. To address this issue, we propose SGBA, a LiDAR BA scheme that models the environment as a semantic Gaussian mixture model (GMM) without predefined feature types. This approach encodes both geometric and semantic information, offering a comprehensive and general representation adaptable to various environments. Additionally, to limit computational complexity while ensuring generalizability, we propose an adaptive semantic selection framework that selects the most informative semantic clusters for optimization by evaluating the condition number of the cost function. Lastly, we introduce a probabilistic feature association scheme that considers the entire probability density of assignments, which can manage uncertainties in measurement and initial pose estimation. We have conducted various experiments and the results demonstrate that SGBA can achieve accurate and robust pose refinement even in challenging scenarios with low-quality initial pose estimation and limited geometric features. We plan to open-source the work for the benefit of the community https://github.com/Ji1Xinyu/SGBA.
翻訳日:2024-11-04 16:34:50 公開日:2024-10-02
# LLM時代のインテント検出

Intent Detection in the Age of LLMs ( http://arxiv.org/abs/2410.01627v1 )

ライセンス: Link先を確認
Gaurav Arora, Shreya Jain, Srujana Merugu, (参考訳) Intent Detection はタスク指向対話システム (TODS) の重要なコンポーネントであり、各ダイアログのターンでユーザの発話に対処するための適切なアクションの識別を可能にする。 従来のアプローチは計算効率の良い教師付き文トランスフォーマーエンコーダモデルに依存しており、かなりのトレーニングデータを必要とし、OOS(Out-of-scope)検出に苦労する。 内在的な世界知識を持つ生成的大言語モデル(LLM)の出現は、これらの課題に対処する新たな機会を提示する。 本研究では,適応型インコンテキスト学習とチェーン・オブ・シントによる意図検出による7つのSOTA LLMを適応し,その性能をSetFitモデルと比較し,予測品質と遅延トレードオフを強調した。 本研究では,不確実性に基づくルーティング手法を用いたハイブリッドシステムを提案する。この2つのアプローチを,負のデータ拡張と組み合わせることで,両者の長所を達成できる(すなわち,ネイティブLLMの精度の2%以内でレイテンシを50%低減できる)。 LLM OOS検出能力をよりよく理解するため,本実験では,目的ラベルの範囲とラベル空間の大きさに大きく影響していることを明らかにする。 また、内部LLM表現を利用した2段階のアプローチを導入し、OOS検出精度とF1スコアがMistral-7Bモデルで5%向上したことを示す。

Intent detection is a critical component of task-oriented dialogue systems (TODS) which enables the identification of suitable actions to address user utterances at each dialog turn. Traditional approaches relied on computationally efficient supervised sentence transformer encoder models, which require substantial training data and struggle with out-of-scope (OOS) detection. The emergence of generative large language models (LLMs) with intrinsic world knowledge presents new opportunities to address these challenges. In this work, we adapt 7 SOTA LLMs using adaptive in-context learning and chain-of-thought prompting for intent detection, and compare their performance with contrastively fine-tuned sentence transformer (SetFit) models to highlight prediction quality and latency tradeoff. We propose a hybrid system using uncertainty based routing strategy to combine the two approaches that along with negative data augmentation results in achieving the best of both worlds ( i.e. within 2% of native LLM accuracy with 50% less latency). To better understand LLM OOS detection capabilities, we perform controlled experiments revealing that this capability is significantly influenced by the scope of intent labels and the size of the label space. We also introduce a two-step approach utilizing internal LLM representations, demonstrating empirical gains in OOS detection accuracy and F1-score by >5% for the Mistral-7B model.
翻訳日:2024-11-04 16:34:50 公開日:2024-10-02
# ブプレノルフィン製品を用いたオピオイド使用障害治療における大規模自己申告ソーシャルメディアデータの解析手法

A Thematic Framework for Analyzing Large-scale Self-reported Social Media Data on Opioid Use Disorder Treatment Using Buprenorphine Product ( http://arxiv.org/abs/2410.01633v1 )

ライセンス: Link先を確認
Madhusudan Basak, Omar Sharif, Sarah E. Lord, Jacob T. Borodovsky, Lisa A. Marsch, Sandra A. Springer, Edward Nunes, Charlie D. Brackett, Luke J. ArchiBald, Sarah M. Preum, (参考訳) 背景:オピオイド使用障害(OUD)に対するFDA認可薬の1つはブプレノルフィンである。 その人気にもかかわらず、個人はしばしばRedditのようなソーシャルメディアプラットフォームでブプレノルフィン治療に関する様々な情報を報告している。 しかし、重要な課題はこれらのニーズを特徴づけることである。 本研究では、ソーシャルメディアから大規模データをキュレートし、分析し、自己申告された治療情報(TIN)を特徴付けるためのテーマベースフレームワークを提案する。 方法:我々は、ブプレノルフィン製品で最大のRedditサブコミュニティの1つであるr/Suboxoneから15,253件の投稿を収集しました。 標準プロトコルに従って、まずデータから5つの主要なテーマを特定し、次にそれらのテーマに基づいて6000の投稿をコード化し、1つの投稿を適用可能な1つから3つのテーマでラベル付けする。 最後に,各テーマにおいて最も頻度の高いサブテーマ(トピック)を,各グループからのサンプルの分析によって決定した。 結果: 6000の投稿のうち40.3%が1つのテーマ、36%が2つのテーマ、13.9%が3つのテーマであった。 最も頻繁なテーマは、回復中の心理的および身体的影響の報告、ブプレノルフィンへのアクセスの複雑さ、回復の異なる段階における薬物の投与、テーパリング、使用に関する重要な情報ギャップである。 さらに、自己治療戦略とピア主導のアドバイスは、価値ある洞察と潜在的な誤解を明らかにします。 結論: 提案した枠組みを用いて, 患者教育と患者-プロデューサコミュニケーションの改善, 治療に関する誤解や噂に対処するための体系的介入の設計, 今後の研究に向けての仮説の合理化を図った。

Background: One of the key FDA-approved medications for Opioid Use Disorder (OUD) is buprenorphine. Despite its popularity, individuals often report various information needs regarding buprenorphine treatment on social media platforms like Reddit. However, the key challenge is to characterize these needs. In this study, we propose a theme-based framework to curate and analyze large-scale data from social media to characterize self-reported treatment information needs (TINs). Methods: We collected 15,253 posts from r/Suboxone, one of the largest Reddit sub-community for buprenorphine products. Following the standard protocol, we first identified and defined five main themes from the data and then coded 6,000 posts based on these themes, where one post can be labeled with applicable one to three themes. Finally, we determined the most frequently appearing sub-themes (topics) for each theme by analyzing samples from each group. Results: Among the 6,000 posts, 40.3% contained a single theme, 36% two themes, and 13.9% three themes. The most frequent topics for each theme or theme combination came with several key findings - prevalent reporting of psychological and physical effects during recovery, complexities in accessing buprenorphine, and significant information gaps regarding medication administration, tapering, and usage of substances during different stages of recovery. Moreover, self-treatment strategies and peer-driven advice reveal valuable insights and potential misconceptions. Conclusions: The findings obtained using our proposed framework can inform better patient education and patient-provider communication, design systematic interventions to address treatment-related misconceptions and rumors, and streamline the generation of hypotheses for future research.
翻訳日:2024-11-04 16:34:50 公開日:2024-10-02
# グラフプロンプトは有効か?理論解析によるデータ操作の展望

Does Graph Prompt Work? A Data Operation Perspective with Theoretical Analysis ( http://arxiv.org/abs/2410.01635v1 )

ライセンス: Link先を確認
Qunzhong Wang, Xiangguo Sun, Hong Cheng, (参考訳) 近年、グラフプロンプトは有望な研究方向として現れており、様々なアプリケーションにまたがる事前学習されたグラフモデルの再トレーニングを必要とせずに、元のグラフに追加のトークンやサブグラフの学習を可能にしている。 このパラダイムは、従来の事前訓練や微調整から事前訓練や促進へと移行し、リコメンデーションシステムから生物学的ネットワーク、グラフ転送に至るまで、グラフデータ操作をシミュレートする実験的な成功を示している。 しかし、その可能性にもかかわらず、グラフの急進的な理論的な基盤は未解明のままであり、その基本的な効果について批判的な疑問を提起している。 なぜどれだけ機能するのかという厳密な理論的な証明が欠如していることは、グラフ上の暗い雲のように見える。 このギャップを埋めるために,データ操作の観点からグラフのプロンプトを厳格に解析する理論的枠組みを提案する。 まず、グラフがグラフ変換演算子に近似する能力を示し、上流と下流のタスクを効果的にリンクする。 第2に、グラフプロンプトによってこれらのデータ操作の誤差の上限を導出し、この議論をグラフモデルトレーニングで一般的なグラフのバッチに拡張する。 第3に、データ操作誤差の分布を分析し、線形グラフモデル(例えばGCN)から非線形グラフモデル(例えばGAT)まで理論的な結果を拡張する。 大規模な実験は、我々の理論結果を支持し、これらの保証の実践的意味を裏付けるものである。

In recent years, graph prompting has emerged as a promising research direction, enabling the learning of additional tokens or subgraphs appended to the original graphs without requiring retraining of pre-trained graph models across various applications. This novel paradigm, shifting from the traditional pretraining and finetuning to pretraining and prompting has shown significant empirical success in simulating graph data operations, with applications ranging from recommendation systems to biological networks and graph transferring. However, despite its potential, the theoretical underpinnings of graph prompting remain underexplored, raising critical questions about its fundamental effectiveness. The lack of rigorous theoretical proof of why and how much it works is more like a dark cloud over the graph prompt area to go further. To fill this gap, this paper introduces a theoretical framework that rigorously analyzes graph prompting from a data operation perspective. Our contributions are threefold: First, we provide a formal guarantee theorem, demonstrating graph prompts capacity to approximate graph transformation operators, effectively linking upstream and downstream tasks. Second, we derive upper bounds on the error of these data operations by graph prompts for a single graph and extend this discussion to batches of graphs, which are common in graph model training. Third, we analyze the distribution of data operation errors, extending our theoretical findings from linear graph models (e.g., GCN) to non-linear graph models (e.g., GAT). Extensive experiments support our theoretical results and confirm the practical implications of these guarantees.
翻訳日:2024-11-04 16:23:10 公開日:2024-10-02
# デコーダオンリー変圧器におけるUnlimiformerの適応について

On The Adaptation of Unlimiformer for Decoder-Only Transformers ( http://arxiv.org/abs/2410.01637v1 )

ライセンス: Link先を確認
Kian Ahrabian, Alon Benhaim, Barun Patra, Jay Pujara, Saksham Singhal, Xia Song, (参考訳) 現在の大規模言語モデルの世代を悩ませている問題の1つは、コンテキスト長の制限である。 GPT-4やClaude 2のような最近のプロプライエタリなモデルは、それぞれ8k/32kと100kの長いコンテキスト長を導入したが、コミュニティでの取り組みにもかかわらず、LLama-2のような一般的なモデルは、コンテキスト長が4k以下である。 Unlimiformer (Bertsch et al , 2023) は近年,kNNインデックスにクロスアテンション計算をオフロードするベクトル検索拡張法として人気がある。 しかし、主な制限はデコーダのみのトランスフォーマーと互換性がないことである。 本研究では,Unlimiformerをデコーダのみの変換器に適用する実践的考察を行い,この制限を克服するための一連の修正を導入する。 さらに、要約に関する最初の実験的な設定を拡張し、新しいタスク(自由形式Q&A)と命令調整モデル(カスタム6.7B GPTモデル)を含める。 以上の結果から,文脈長の2倍のモデルに対して,これらの修正が要約に与える影響が示された。 さらに,自由形式Q&Aモデルと命令調整モデルに対する制約や今後の方向性についても論じる。

One of the prominent issues stifling the current generation of large language models is their limited context length. Recent proprietary models such as GPT-4 and Claude 2 have introduced longer context lengths, 8k/32k and 100k, respectively; however, despite the efforts in the community, most common models, such as LLama-2, have a context length of 4k or less. Unlimiformer (Bertsch et al., 2023) is a recently popular vector-retrieval augmentation method that offloads cross-attention computations to a kNN index. However, its main limitation is incompatibility with decoder-only transformers out of the box. In this work, we explore practical considerations of adapting Unlimiformer to decoder-only transformers and introduce a series of modifications to overcome this limitation. Moreover, we expand the original experimental setup on summarization to include a new task (i.e., free-form Q&A) and an instruction-tuned model (i.e., a custom 6.7B GPT model). Our results showcase the effectiveness of these modifications on summarization, performing on par with a model with 2x the context length. Moreover, we discuss limitations and future directions for free-form Q&A and instruction-tuned models.
翻訳日:2024-11-04 16:23:10 公開日:2024-10-02
# 小型データセットを用いたテキスト・画像生成のためのデータ外挿

Data Extrapolation for Text-to-image Generation on Small Datasets ( http://arxiv.org/abs/2410.01638v1 )

ライセンス: Link先を確認
Senmao Ye, Fei Liu, (参考訳) テキスト・ツー・イメージ生成は高品質な画像の合成に大量のトレーニングデータを必要とする。 トレーニングデータを増やすために、従来の方法は、トリミング、フリップ、ミキシングのようなデータ補間に依存しており、新しい情報の導入に失敗し、限界的な改善しか得られない。 本稿では,線形外挿を用いたテキスト・画像生成のための新しいデータ拡張手法を提案する。 具体的には,テキストの特徴にのみ線形補間を適用し,新しい画像データを検索エンジンによってインターネットから検索する。 新たなテキストイメージ対の信頼性を確保するため,検索した画像を浄化する2つの外部検出器を設計する。 外挿に基づいて、元のデータセットの数十倍のサンプルをトレーニングし、結果としてテキスト・画像のパフォーマンスが大幅に向上した。 さらに、スコア推定を洗練するためのNULLガイダンスを提案し、テキスト情報を融合するために繰り返しアフィン変換を適用した。 我々のモデルは、CUB、オックスフォード、COCOのデータセットで7.91、9.52、および5.00のFIDスコアを達成する。 コードとデータはGitHubで入手できる(https://github.com/senmaoy/RAT-Diffusion)。

Text-to-image generation requires large amount of training data to synthesizing high-quality images. For augmenting training data, previous methods rely on data interpolations like cropping, flipping, and mixing up, which fail to introduce new information and yield only marginal improvements. In this paper, we propose a new data augmentation method for text-to-image generation using linear extrapolation. Specifically, we apply linear extrapolation only on text feature, and new image data are retrieved from the internet by search engines. For the reliability of new text-image pairs, we design two outlier detectors to purify retrieved images. Based on extrapolation, we construct training samples dozens of times larger than the original dataset, resulting in a significant improvement in text-to-image performance. Moreover, we propose a NULL-guidance to refine score estimation, and apply recurrent affine transformation to fuse text information. Our model achieves FID scores of 7.91, 9.52 and 5.00 on the CUB, Oxford and COCO datasets. The code and data will be available on GitHub (https://github.com/senmaoy/RAT-Diffusion).
翻訳日:2024-11-04 16:23:10 公開日:2024-10-02
# LLM剤のモルアライメント

Moral Alignment for LLM Agents ( http://arxiv.org/abs/2410.01639v1 )

ライセンス: Link先を確認
Elizaveta Tennant, Stephen Hailes, Mirco Musolesi, (参考訳) 事前訓練された大規模言語モデル(LLM)に基づく意思決定エージェントは、人間の活動の様々な領域に展開されつつある。 現在、それらの応用は比較的特殊なものであるが、より汎用的なエージェントを開発するためにいくつかの研究が進行中である。 LLMベースのシステムがよりエージェント的になるにつれて、人間の活動に対する影響が増大し、その透明性が低下する。 そのため、人的価値に整合させる効果的な方法の開発が不可欠である。 アライメントにおける一般的な実践は、しばしば人間の嗜好データ(例えば、RLHFやDPO)に依存し、その値は暗黙的であり、本質的に異なるモデル出力に対する相対的な嗜好から導かれる。 本研究では,人間からのフィードバックに頼らずに,強化学習モデルに基づく基礎エージェントモデルの微調整のために,コアヒューマン価値を明示的に符号化する報酬関数の設計を導入する。 具体的には、LLMエージェントの道徳的アライメントに固有の報酬を用いる。 我々は, エージェントに対する道徳的報酬を, 反復刑務所のジレンマ(IPD)環境における行動や結果の観点から定量化する。 また、エージェントが以前開発された利己的な戦略を解き放つために、いかに道徳的な微調整を展開できるかを示す。 最後に、IDDゲームで学んだある道徳的戦略が、他のいくつかのマトリックスゲーム環境に一般化されることを見出した。 要約すると、本質的な報酬を伴う微調整は、LLMエージェントを人的価値に合わせるための有望な一般的なソリューションであり、現在支配的なアライメント技術よりも透明性とコスト効率のよい代替手段であることを示している。

Decision-making agents based on pre-trained Large Language Models (LLMs) are increasingly being deployed across various domains of human activity. While their applications are currently rather specialized, several research efforts are under way to develop more generalist agents. As LLM-based systems become more agentic, their influence on human activity will grow and the transparency of this will decrease. Consequently, developing effective methods for aligning them to human values is vital. The prevailing practice in alignment often relies on human preference data (e.g., in RLHF or DPO), in which values are implicit and are essentially deduced from relative preferences over different model outputs. In this work, instead of relying on human feedback, we introduce the design of reward functions that explicitly encode core human values for Reinforcement Learning-based fine-tuning of foundation agent models. Specifically, we use intrinsic rewards for the moral alignment of LLM agents. We evaluate our approach using the traditional philosophical frameworks of Deontological Ethics and Utilitarianism, quantifying moral rewards for agents in terms of actions and consequences on the Iterated Prisoner's Dilemma (IPD) environment. We also show how moral fine-tuning can be deployed to enable an agent to unlearn a previously developed selfish strategy. Finally, we find that certain moral strategies learned on the IPD game generalize to several other matrix game environments. In summary, we demonstrate that fine-tuning with intrinsic rewards is a promising general solution for aligning LLM agents to human values, and it might represent a more transparent and cost-effective alternative to currently predominant alignment techniques.
翻訳日:2024-11-04 16:23:10 公開日:2024-10-02
# 非断熱型量子-古典写像法における短時間精度と電子間相関

Short-time Accuracy and Intra-electron Correlation for Nonadiabatic Quantum-Classical Mapping Approaches ( http://arxiv.org/abs/2410.01640v1 )

ライセンス: Link先を確認
Haifeng Lang, Philipp Hauke, (参考訳) 非断熱型量子古典写像法は、大規模システムでも数値的に抽出可能でありながら精度が許容できるため、過去数十年で著しく人気を博している。 近年, 従来のエレンフェスト法, 線形化半古典的初期値表現 (LSC-IVR) およびポアソンブラケットマッピング方程式 (PBME) に比較して, 高精度なマッピング手法が開発されている。 様々なベンチマークがこれらの手法の利点と限界を既に示しているが、その短時間精度の厳密な理論的正当化は依然として要求されている。 本稿では,電子間相関を電子位相空間の統計的尺度として体系的に検討し,一般化離散タンカーウィグナー近似(GDTWA)の文脈におけるマッピング手法として初めて提案され,そのようなマッピング手法の短時間精度向上の鍵となる要素である。 各種広く用いられているモデルに対して,短時間精度と電子間相関の相関関係を厳密に確立する。 LSC-IVR,PBME,Ehrenfest法は電子内相関を正しく再現できないことがわかった。 Meyer--Miller--Stock-Thoss (MMST) アプローチ、部分的に線形化密度行列 (PLDM) アプローチ、スピン部分線形化密度行列 (Spin-PLDM) アプローチは電子間相関を正しくサンプリングできるが、スピン線形化半古典的 (Spin-LSC) アプローチと他のトレーサレスMMSTアプローチは2段階系のみに忠実に相関をサンプリングする。 我々の理論解析は半古典的手法の短時間精度に関する洞察を与え、過去の数値ベンチマークの数学的正当性を示す。

Nonadiabatic quantum-classical mapping approaches have significantly gained in popularity in the past several decades because they have acceptable accuracy while remaining numerically tractable even for large system sizes. In the recent few years, several novel mapping approaches have been developed that display higher accuracy than the traditional Ehrenfest method, linearized semiclassical initial value representation (LSC-IVR), and Poisson bracket mapping equation (PBME) approaches. While various benchmarks have already demonstrated the advantages and limitations of those methods, rigorous theoretical justifications of their short-time accuracy are still demanded. In this article, we systematically examine the intra-electron correlation, as a statistical measure of electronic phase space, which has been first formally proposed for mapping approaches in the context of the generalized discrete truncated Wigner approximation (GDTWA) and which is a key ingredient for the improvement of short-time accuracy of such mapping approaches. We rigorously establish the connection between short-time accuracy and intra-electron correlation for various widely used models. We find that LSC-IVR, PBME, and Ehrenfest methods fail to correctly reproduce the intra-electron correlation. While some of the traceless Meyer--Miller--Stock--Thoss (MMST) approaches, partially linearized density matrix (PLDM) approach, and spin partially linearized density matrix (Spin-PLDM) approach are able to sample the intra-electron correlation correctly, the spin linearized semiclassical (Spin-LSC) approach and the other traceless MMST approaches sample the intra-correlation faithfully only for two-level systems. Our theoretical analysis provides insights into the short-time accuracy of semiclassical methods and presents mathematical justifications for previous numerical benchmarks.
翻訳日:2024-11-04 16:23:10 公開日:2024-10-02
# Bisimulation-based Representation を用いた安定オフライン値関数学習

Stable Offline Value Function Learning with Bisimulation-based Representations ( http://arxiv.org/abs/2410.01643v1 )

ライセンス: Link先を確認
Brahma S. Pavse, Yudong Chen, Qiaomin Xie, Josiah P. Hanna, (参考訳) 強化学習において、オフライン値関数学習は、固定された目標ポリシーに従って行動を取るとき、各状態から期待される割引リターンを推定するためにオフラインデータセットを使用する手順である。 この手順の安定性、すなわちそれがその固定点に収束するかどうかは、状態-作用対の表現に決定的に依存する。 粗末に学習された表現は、価値関数の学習を不安定にする可能性がある。 したがって、状態-作用表現を明示的に形成することにより、値関数学習を安定させることが重要である。 近年,バイシミュレーションに基づくアルゴリズムのクラスでは,制御のための表現の形式化が期待されている。 しかし,この手法が値関数学習を安定化させるかどうかはまだ不明である。 本研究では,この問題を調査し,肯定的に答える。 オフラインポリシー評価(KROPE)のためのカーネル表現と呼ばれるシミュレーションに基づくアルゴリズムを提案する。 KROPEはカーネルを使用して状態-作用表現を形作り、同じ即時報酬を持つ状態-作用対と、同じ状態-作用対をターゲットポリシーの下でも同様の表現を持つようにしている。 KROPEをご覧ください。 1)安定表現を学習し、 2) 基準値よりも値エラーが小さい。 本分析は,バイシミュレーションに基づく手法の安定性に関する新たな理論的知見を提供し,これらの手法をオフライン強化学習エージェントの安定的かつ正確な評価に活用できることを示唆する。

In reinforcement learning, offline value function learning is the procedure of using an offline dataset to estimate the expected discounted return from each state when taking actions according to a fixed target policy. The stability of this procedure, i.e., whether it converges to its fixed-point, critically depends on the representations of the state-action pairs. Poorly learned representations can make value function learning unstable, or even divergent. Therefore, it is critical to stabilize value function learning by explicitly shaping the state-action representations. Recently, the class of bisimulation-based algorithms have shown promise in shaping representations for control. However, it is still unclear if this class of methods can stabilize value function learning. In this work, we investigate this question and answer it affirmatively. We introduce a bisimulation-based algorithm called kernel representations for offline policy evaluation (KROPE). KROPE uses a kernel to shape state-action representations such that state-action pairs that have similar immediate rewards and lead to similar next state-action pairs under the target policy also have similar representations. We show that KROPE: 1) learns stable representations and 2) leads to lower value error than baselines. Our analysis provides new theoretical insight into the stability properties of bisimulation-based methods and suggests that practitioners can use these methods for stable and accurate evaluation of offline reinforcement learning agents.
翻訳日:2024-11-04 16:23:10 公開日:2024-10-02
# EdgeIoTのための水平-垂直ハイブリッドフェデレーション学習フレームワーク

A Novel Framework of Horizontal-Vertical Hybrid Federated Learning for EdgeIoT ( http://arxiv.org/abs/2410.01644v1 )

ライセンス: Link先を確認
Kai Li, Yilei Liang, Xin Yuan, Wei Ni, Jon Crowcroft, Chau Yuen, Ozgur B. Akan, (参考訳) このレターでは、モバイルエッジコンピューティング対応モノのインターネット(Edge IoT)のための、新しいハイブリッド水平-垂直連合学習(HoVeFL)が紹介されている。 このフレームワークでは、一部のEdgeIoTデバイスは、同じデータサンプルを使用してローカルモデルをトレーニングするが、異なるデータ機能を分析する。 したがって、データ機能は一貫性があるにもかかわらず、データサンプルはデバイスによって異なる。 提案したHoVeFLは、グローバル損失関数を最小限に抑えるために、局所モデルとグローバルモデルのトレーニングを定式化している。 CIFAR-10とSVHNデータセットのパフォーマンス評価により、水平FLデバイス12台と垂直FLデバイス6台によるHoVeFLのテスト損失は、水平FLデバイス6台と垂直FLデバイス12台と比較してそれぞれ5.5%と25.2%高いことがわかった。

This letter puts forth a new hybrid horizontal-vertical federated learning (HoVeFL) for mobile edge computing-enabled Internet of Things (EdgeIoT). In this framework, certain EdgeIoT devices train local models using the same data samples but analyze disparate data features, while the others focus on the same features using non-independent and identically distributed (non-IID) data samples. Thus, even though the data features are consistent, the data samples vary across devices. The proposed HoVeFL formulates the training of local and global models to minimize the global loss function. Performance evaluations on CIFAR-10 and SVHN datasets reveal that the testing loss of HoVeFL with 12 horizontal FL devices and six vertical FL devices is 5.5% and 25.2% higher, respectively, compared to a setup with six horizontal FL devices and 12 vertical FL devices.
翻訳日:2024-11-04 16:23:10 公開日:2024-10-02
# キャビティにおける強相互作用光マター系における非古典状態の動的生成と移動

Dynamical generation and transfer of nonclassical states in strongly interacting light-matter systems in cavities ( http://arxiv.org/abs/2410.01645v1 )

ライセンス: Link先を確認
Ilia Tutunnikov, Vasil Rokaj, Jianshu Cao, H. R. Sadeghpour, (参考訳) 我々は、非古典的な光と量子物質状態の効率よく生成および交換するために、強光と超強光の結合を活用することを提案する。 最初の2つの条件が考慮されている。 (a)転位した二次物質状態、及び b)空洞内のコヒーレントな状態。 どちらのシナリオでも、偏光子は光と物質の間の非古典状態の生成と移動を仲介する。 両方のサブシステムのダイナミクスをモニタリングすることにより、集合体振動におけるビーティングの出現を明らかにする。 ビーティング周期は真空ラビ分裂による粒子密度に依存し、光-物質共鳴条件下では急激なピークとなる。 初期状態について (a)非古典性は、強結合および超強結合下で物質から光子へ効率的に移動される。 しかし、初期状態では (b)非古典的フォトニック状態は反回転項により超強結合状態のみに生成され、超強結合の利点を浮き彫りにする。 さらに、超強結合系では、光と物質の両方の動的観測物において、空洞の変形に対する特異な非対称性が出現する。 非古典的な光子は半透明のキャビティミラーで抽出できるが、非古典的な物質状態は時間分解分光法で検出できる。 この研究は、ハイブリッド偏光子状態が非古典状態の動的生成に利用でき、量子状態移動に潜在的に応用できることを強調している。

We propose leveraging strong and ultrastrong light-matter coupling to efficiently generate and exchange nonclassical light and quantum matter states. Two initial conditions are considered: (a) a displaced quadrature-squeezed matter state, and (b) a coherent state in a cavity. In both scenarios, polaritons mediate the dynamical generation and transfer of nonclassical states between light and matter. By monitoring the dynamics of both subsystems, we uncover the emergence of beatings in the collective matter oscillations. The beating period depends on the particle density through the vacuum Rabi splitting and peaks sharply under light-matter resonance conditions. For initial condition (a), nonclassicality is efficiently transferred from matter to photons under strong and ultrastrong coupling. However, for initial condition (b), nonclassical photonic states are generated only in the ultrastrong coupling regime due to the counter-rotating terms, highlighting the advantages of ultrastrong coupling. Furthermore, in the ultrastrong coupling regime, distinctive asymmetries relative to cavity detuning emerge in dynamical observables of both light and matter. The nonclassical photons can be extracted through a semi-transparent cavity mirror, while nonclassical matter states can be detected via time-resolved spectroscopy. This work highlights that hybrid polariton states can be utilized for dynamically generating nonclassical states, with potential applications in quantum state transfer.
翻訳日:2024-11-04 16:23:10 公開日:2024-10-02
# 3DGS-DET:3次元物体検出のための境界誘導とボックス焦点サンプリングによる3次元ガウス散乱

3DGS-DET: Empower 3D Gaussian Splatting with Boundary Guidance and Box-Focused Sampling for 3D Object Detection ( http://arxiv.org/abs/2410.01647v1 )

ライセンス: Link先を確認
Yang Cao, Yuanliang Jv, Dan Xu, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は3次元オブジェクト検出(3DOD)に応用され、ビュー合成表現による3DODへの有望なアプローチを提供する。 しかし、NeRFは固有の制限に直面しています。 (i)その暗黙的な性質による3DODの表現能力の制限、及び (ii)レンダリング速度が遅い。 近年,これらの制約に対処する明示的な3D表現として3Dガウススプラッティング(3DGS)が出現している。 これらの利点に触発され、本論文では初めて3DGSを3DODに導入し、主な課題を2つ挙げる。 (i)ガウスブロブの曖昧な空間分布:3DGSは主に2Dピクセルレベルの監視に依存し、その結果、ガウスブロブの不明瞭な3次元空間分布と3DODを妨げる物体と背景の識別不良が生じる。 (II)過度な背景像:2D画像には背景画素が多数含まれており,高密度に再構成された3DGSに背景を反映するノイズの多いガウス像が多数存在し,検出に悪影響を及ぼす。 挑戦に挑戦する i) 3DGSの再構成は2次元画像から導かれるという事実を活用し, 2次元境界誘導を取り入れたエレガントで効率的な解法を提案し, ガウスブロブの空間分布を著しく向上させ, 対象物とその背景をより明瞭に区別する。 課題に対処するために 2Dボックスを用いたBox-Focused Smpling戦略を提案し、3D空間におけるオブジェクト確率分布を生成し、3Dにおける効果的な確率的サンプリングにより、より多くのオブジェクトブロブを保持でき、ノイズの多いバックグラウンドブロブを低減できる。 ScanNetデータセットでは、mAP@0.25で+6.6、mAP@0.5で+8.1、ARKITScenesデータセットでは+31.5である。

Neural Radiance Fields (NeRF) are widely used for novel-view synthesis and have been adapted for 3D Object Detection (3DOD), offering a promising approach to 3DOD through view-synthesis representation. However, NeRF faces inherent limitations: (i) limited representational capacity for 3DOD due to its implicit nature, and (ii) slow rendering speeds. Recently, 3D Gaussian Splatting (3DGS) has emerged as an explicit 3D representation that addresses these limitations. Inspired by these advantages, this paper introduces 3DGS into 3DOD for the first time, identifying two main challenges: (i) Ambiguous spatial distribution of Gaussian blobs: 3DGS primarily relies on 2D pixel-level supervision, resulting in unclear 3D spatial distribution of Gaussian blobs and poor differentiation between objects and background, which hinders 3DOD; (ii) Excessive background blobs: 2D images often include numerous background pixels, leading to densely reconstructed 3DGS with many noisy Gaussian blobs representing the background, negatively affecting detection. To tackle the challenge (i), we leverage the fact that 3DGS reconstruction is derived from 2D images, and propose an elegant and efficient solution by incorporating 2D Boundary Guidance to significantly enhance the spatial distribution of Gaussian blobs, resulting in clearer differentiation between objects and their background. To address the challenge (ii), we propose a Box-Focused Sampling strategy using 2D boxes to generate object probability distribution in 3D spaces, allowing effective probabilistic sampling in 3D to retain more object blobs and reduce noisy background blobs. Benefiting from our designs, our 3DGS-DET significantly outperforms the SOTA NeRF-based method, NeRF-Det, achieving improvements of +6.6 on mAP@0.25 and +8.1 on mAP@0.5 for the ScanNet dataset, and impressive +31.5 on mAP@0.25 for the ARKITScenes dataset.
翻訳日:2024-11-04 16:23:10 公開日:2024-10-02
# DeIDClinic: 臨床自由テキストデータの復号化のための多層フレームワーク

DeIDClinic: A Multi-Layered Framework for De-identification of Clinical Free-text Data ( http://arxiv.org/abs/2410.01648v1 )

ライセンス: Link先を確認
Angel Paul, Dhivin Shaji, Lifeng Han, Warren Del-Pinto, Goran Nenadic, (参考訳) 医療用テキスト分析における患者のプライバシ保護には,非識別が重要である。 MASKフレームワークは、n2c2/i2b2チャレンジによって構成される非識別共有タスクのベストの1つである。 この研究は、辞書のルックアップやルールベースのアプローチといった従来の非識別手法とともに、臨床テキストに特化して微調整された深層学習モデルであるCeriorBERTを統合することで、MASKフレームワークを強化した。 このシステムは、臨床文書内の機密性のある識別されたエンティティを効果的に識別し、置換すると同時に、ユーザが特定のニーズに応じてマスクされたドキュメントをカスタマイズできるようにする。 ClinicalBERTの統合は、エンティティ認識の性能を大幅に向上させ、特に名前、日付、場所などの一般的なエンティティに対して0.9732 F1スコアを達成した。 リスクアセスメント機能も開発されており、文書内のコンテキストの独自性を分析してリスクレベルに分類し、さらなる非識別の取り組みを導く。 システム全体のパフォーマンスは高いが、この研究は、より複雑なエンティティ発生の処理や、異なる臨床環境への適応性の向上など、将来の改善の領域を強調している。

De-identification is important in protecting patients' privacy for healthcare text analytics. The MASK framework is one of the best on the de-identification shared task organised by n2c2/i2b2 challenges. This work enhances the MASK framework by integrating ClinicalBERT, a deep learning model specifically fine-tuned on clinical texts, alongside traditional de-identification methods like dictionary lookup and rule-based approaches. The system effectively identifies and either redacts or replaces sensitive identifiable entities within clinical documents, while also allowing users to customise the masked documents according to their specific needs. The integration of ClinicalBERT significantly improves the performance of entity recognition, achieving 0.9732 F1-score, especially for common entities such as names, dates, and locations. A risk assessment feature has also been developed, which analyses the uniqueness of context within documents to classify them into risk levels, guiding further de-identification efforts. While the system demonstrates strong overall performance, this work highlights areas for future improvement, including handling more complex entity occurrences and enhancing the system's adaptability to different clinical settings.
翻訳日:2024-11-04 16:23:10 公開日:2024-10-02
# Shapiq: 機械学習のための共有インタラクション

shapiq: Shapley Interactions for Machine Learning ( http://arxiv.org/abs/2410.01649v1 )

ライセンス: Link先を確認
Maximilian Muschalik, Hubert Baniecki, Fabian Fumagalli, Patrick Kolpaczki, Barbara Hammer, Eyke Hüllermeier, (参考訳) ゲーム理論を起源とするShapley Value(SV)は最近、機械学習研究において重要なツールとなっている。 おそらく最も注目すべきは、説明可能な人工知能における特徴属性とデータ評価に使用されることである。 共有インタラクション(SI)は自然にSVを拡張し、その制限に対処するために、ブラックボックス機械学習モデルの理解を深めるエンティティのグループに共同コントリビューションを割り当てる。 SVやSIが指数関数的に複雑になるため、構造的仮定を利用したり、限られた資源の確率的推定を行う様々な手法が提案されている。 本稿では,アプリケーションに依存しないフレームワークで,SVと任意の順序SIを効率的に計算する最先端のアルゴリズムを統合する,オープンソースのPythonパッケージであるshapiqを紹介する。 さらに、事前に計算されたゲームを持つSIの11の機械学習アプリケーションと、ドメイン間での計算性能を体系的に評価する地平値を含むベンチマークスイートを含んでいる。 実践者にとって、Shapiqは、ビジョントランスフォーマー、言語モデル、XGBoostやTreeSHAP-IQによるLightGBMなど、モデルの予測において、任意の順序のフィーチャーインタラクションを説明および視覚化することができる。 Shapiqでは、特徴属性を超えてシャップを拡張し、将来の研究を促進する機械学習におけるSVとSIの適用を強化します。 ソースコードとドキュメントはhttps://github.com/mmschlk/shapiq.comで公開されている。

Originally rooted in game theory, the Shapley Value (SV) has recently become an important tool in machine learning research. Perhaps most notably, it is used for feature attribution and data valuation in explainable artificial intelligence. Shapley Interactions (SIs) naturally extend the SV and address its limitations by assigning joint contributions to groups of entities, which enhance understanding of black box machine learning models. Due to the exponential complexity of computing SVs and SIs, various methods have been proposed that exploit structural assumptions or yield probabilistic estimates given limited resources. In this work, we introduce shapiq, an open-source Python package that unifies state-of-the-art algorithms to efficiently compute SVs and any-order SIs in an application-agnostic framework. Moreover, it includes a benchmarking suite containing 11 machine learning applications of SIs with pre-computed games and ground-truth values to systematically assess computational performance across domains. For practitioners, shapiq is able to explain and visualize any-order feature interactions in predictions of models, including vision transformers, language models, as well as XGBoost and LightGBM with TreeSHAP-IQ. With shapiq, we extend shap beyond feature attributions and consolidate the application of SVs and SIs in machine learning that facilitates future research. The source code and documentation are available at https://github.com/mmschlk/shapiq.
翻訳日:2024-11-04 16:23:10 公開日:2024-10-02
# 自己教師付き因果検索を用いた高能率長距離言語モデリング

Efficient Long-range Language Modeling with Self-supervised Causal Retrieval ( http://arxiv.org/abs/2410.01651v1 )

ライセンス: Link先を確認
Xiang Hu, Zhihao Teng, Wei Wu, Kewei Tu, (参考訳) 近年,検索ベース言語モデル (RLM) が注目されている。 しかし、そのほとんどは、パラメータが固定された事前学習されたレトリバーを利用しており、因果言語モデルにうまく適応できない可能性がある。 本稿では,検索器と因果LMの協調事前学習を可能にする新しいモジュールであるGrouped Cross-Attentionを提案し,それを長期コンテキストモデリングに適用する。 与えられた入力シーケンスに対して、我々はそれをチャンクに分割し、現在のチャンクを使用して、後続のテキスト生成のために過去のチャンクを検索する。 我々の革新によって、レトリバーは過去のチャンクを検索する方法を学ぶことができ、それによって、後続のトークンの自己回帰的損失をエンドツーエンドで最小化できます。 トップ$kの検索を統合することで、コンテキスト長を最大64Kのトークンでスクラッチから効率的に事前学習することが可能になります。 実験の結果,長範囲のLMベースラインと比較すると,事前学習と推論のコストが同等あるいは低くなるほど,難易度が低下することがわかった。

Recently, retrieval-based language models (RLMs) have received much attention. However, most of them leverage a pre-trained retriever with fixed parameters, which may not adapt well to causal language models. In this work, we propose Grouped Cross-Attention, a novel module enabling joint pre-training of the retriever and causal LM, and apply it to long-context modeling. For a given input sequence, we split it into chunks and use the current chunk to retrieve past chunks for subsequent text generation. Our innovation allows the retriever to learn how to retrieve past chunks that better minimize the auto-regressive loss of subsequent tokens in an end-to-end manner. By integrating top-$k$ retrieval, our model can be pre-trained efficiently from scratch with context lengths up to 64K tokens. Our experiments show our model, compared with long-range LM baselines, can achieve lower perplexity with comparable or lower pre-training and inference costs.
翻訳日:2024-11-04 16:23:10 公開日:2024-10-02
# 文脈的自己変調の拡張: モダリティ、タスク次元、データレジームを横断するメタラーニング

Extending Contextual Self-Modulation: Meta-Learning Across Modalities, Task Dimensionalities, and Data Regimes ( http://arxiv.org/abs/2410.01655v1 )

ライセンス: Link先を確認
Roussel Desmond Nzoyem, David A. W. Barton, Tom Deakin, (参考訳) コンテキスト自己変調(CSM)は、物理システムの強力なメタ学習を示すニューラルネットワークフロー(NCF)フレームワークの強力な正規化メカニズムである。 しかし、CSMは様々なモダリティや高データレシエーションに適用性に制限がある。 本稿では,CSMを無限次元タスクに拡張する$i$CSMと,スケーラビリティを向上させるStochasticNCFの2つの拡張を紹介する。 これらの拡張は、パラメータの変動を伴う力学系、コンピュータビジョンの問題、曲線フィッティング問題など、様々なタスクに関する包括的な実験を通じて実証される。 $i$CSM は、有限次元の文脈ベクトルを使用する CSM とは対照的に、コンテキストを無限次元の関数空間に埋め込む。 StochasticNCFはCSMと$i$CSMの両方を、最も近い環境のサンプルセットを通じて、非バイアスのないメタ段階更新の近似を提供することで、高データシナリオに適用することができる。 さらに、Taylor-Mode自動微分による高階テイラー展開を組み込んで、高階近似が必ずしも一般化を促進しないことを示した。 最後に、CSMを他のメタ学習フレームワークと統合して、CAVIAメタ学習フレームワークの計算効率の良い拡張であるFlashCAVIA(Zintgraf et al 2019)を実演する。 FlashCAVIAは前バージョンを様々なベンチマークで上回り、二段階最適化技術の有用性を強化している。 これらの貢献は、多様なメタ学習タスクに取り組むための堅牢なフレームワークを確立し、アウト・オブ・ディストリビューションの一般化のための実践的な洞察を提供する。 我々のオープンソースライブラリは、自己変調を文脈的メタ学習ワークフローに柔軟に統合するために設計されており、 \url{github.com/ddrous/self-mod}で利用可能です。

Contextual Self-Modulation (CSM) is a potent regularization mechanism for the Neural Context Flow (NCF) framework which demonstrates powerful meta-learning of physical systems. However, CSM has limitations in its applicability across different modalities and in high-data regimes. In this work, we introduce two extensions: $i$CSM, which expands CSM to infinite-dimensional tasks, and StochasticNCF, which improves scalability. These extensions are demonstrated through comprehensive experimentation on a range of tasks, including dynamical systems with parameter variations, computer vision challenges, and curve fitting problems. $i$CSM embeds the contexts into an infinite-dimensional function space, as opposed to CSM which uses finite-dimensional context vectors. StochasticNCF enables the application of both CSM and $i$CSM to high-data scenarios by providing an unbiased approximation of meta-gradient updates through a sampled set of nearest environments. Additionally, we incorporate higher-order Taylor expansions via Taylor-Mode automatic differentiation, revealing that higher-order approximations do not necessarily enhance generalization. Finally, we demonstrate how CSM can be integrated into other meta-learning frameworks with FlashCAVIA, a computationally efficient extension of the CAVIA meta-learning framework (Zintgraf et al. 2019). FlashCAVIA outperforms its predecessor across various benchmarks and reinforces the utility of bi-level optimization techniques. Together, these contributions establish a robust framework for tackling an expanded spectrum of meta-learning tasks, offering practical insights for out-of-distribution generalization. Our open-sourced library, designed for flexible integration of self-modulation into contextual meta-learning workflows, is available at \url{github.com/ddrous/self-mod}.
翻訳日:2024-11-04 16:13:24 公開日:2024-10-02
# 未知のトリニケート、多項式時間アルゴリズムを用いた効率的な統計学 : ガウシアンを超えて

Efficient Statistics With Unknown Truncation, Polynomial Time Algorithms, Beyond Gaussians ( http://arxiv.org/abs/2410.01656v1 )

ライセンス: Link先を確認
Jane H. Lee, Anay Mehrotra, Manolis Zampetakis, (参考訳) サンプルが未知の集合 $S \subseteq \mathbb{R}^d$ に該当する場合にのみ、分布パラメータを推定する。 Kontonis, Tzamos, and Zampetakis (FOCS'19) は、対角共分散行列を持つガウス分布の特別な場合の$\varepsilon$-正確なパラメータを見つけるための$d^{\mathrm{poly}(1/\varepsilon)} の時間アルゴリズムを与えた。 最近、Diakonikolas, Kane, Pittas, Zarifis (COLT'24) は、1/\varepsilon$ に対する指数関数的依存は、S$ がいくつかのよく定義されたクラスに属する場合でも必要であることを示した。 これらの研究は、我々がこの研究で取り組んだ以下のオープンな問題を残している: ガウスのパラメータを推定できるか、あるいはガウスを超えて拡張できるのか? S$がハーフスペースのような単純な集合であるとき、$\mathrm{poly}(d/\varepsilon)$タイムアルゴリズムを設計できますか? 最初の質問に向けて、いくつかの構造的仮定を満たす指数族に対して$d^{\mathrm{poly}(\ell/\varepsilon)}$時間アルゴリズムを与え、未知の集合として$S$を$\varepsilon$-approximable by degree-$\ell$ polynomials を与える。 この結果には2つの重要な応用がある: 1a) 未知の$S$にtruncatedされたサンプルから任意のガウス分布を推定する最初のアルゴリズム、1b) 未知のトランケーションとガウス特徴を持つ線形回帰のための最初のアルゴリズム。 2つ目の問題に対処するため、S$が半空間あるいは軸方向の矩形であるとき、指数族(すべてのガウスを含む)の集合に対して機能する実行時$\mathrm{poly}(d/\varepsilon)$のアルゴリズムを提供する。 その過程で, 正・未ラベルのサンプルによるPAC学習から, 正・負のサンプルによるPAC学習へ, 特定の共変量シフトに対して頑健なツールを開発する。

We study the estimation of distributional parameters when samples are shown only if they fall in some unknown set $S \subseteq \mathbb{R}^d$. Kontonis, Tzamos, and Zampetakis (FOCS'19) gave a $d^{\mathrm{poly}(1/\varepsilon)}$ time algorithm for finding $\varepsilon$-accurate parameters for the special case of Gaussian distributions with diagonal covariance matrix. Recently, Diakonikolas, Kane, Pittas, and Zarifis (COLT'24) showed that this exponential dependence on $1/\varepsilon$ is necessary even when $S$ belongs to some well-behaved classes. These works leave the following open problems which we address in this work: Can we estimate the parameters of any Gaussian or even extend beyond Gaussians? Can we design $\mathrm{poly}(d/\varepsilon)$ time algorithms when $S$ is a simple set such as a halfspace? We make progress on both of these questions by providing the following results: 1. Toward the first question, we give a $d^{\mathrm{poly}(\ell/\varepsilon)}$ time algorithm for any exponential family that satisfies some structural assumptions and any unknown set $S$ that is $\varepsilon$-approximable by degree-$\ell$ polynomials. This result has two important applications: 1a) The first algorithm for estimating arbitrary Gaussian distributions from samples truncated to an unknown $S$; and 1b) The first algorithm for linear regression with unknown truncation and Gaussian features. 2. To address the second question, we provide an algorithm with runtime $\mathrm{poly}(d/\varepsilon)$ that works for a set of exponential families (containing all Gaussians) when $S$ is a halfspace or an axis-aligned rectangle. Along the way, we develop tools that may be of independent interest, including, a reduction from PAC learning with positive and unlabeled samples to PAC learning with positive and negative samples that is robust to certain covariate shifts.
翻訳日:2024-11-04 16:13:24 公開日:2024-10-02
# 分散メッシュに基づくデータ駆動モデリングのためのスケーラブルで一貫性のあるグラフニューラルネットワーク

Scalable and Consistent Graph Neural Networks for Distributed Mesh-based Data-driven Modeling ( http://arxiv.org/abs/2410.01657v1 )

ライセンス: Link先を確認
Shivam Barwey, Riccardo Balin, Bethany Lusch, Saumil Patel, Ramesh Balakrishnan, Pinaki Pal, Romit Maulik, Venkatram Vishwanath, (参考訳) この研究は、一貫したニューラルメッセージパッシング層を用いたメッシュベースのモデリングアプリケーションのための分散グラフニューラルネットワーク(GNN)方法論を開発する。 名前が示すように、その焦点は、サブグラフ境界におけるハローノードによる物理的一貫性を満たすスケーラブルな操作を可能にすることである。 ここで、一貫性とは、1つのランク(1つの大きなグラフ)で訓練され評価されたGNNが、複数のランク(分割グラフ)での評価と算術的に等価であるという事実を指す。 この概念は、アルゴンヌ国立研究所で開発されたGPU対応のエクサスケールCFDソルバであるNekRSとGNNの相互作用によって実証される。 NekRSメッシュのパーティショニングが分散GNNトレーニングと推論ルーチンにどのようにリンクできるかを示し、スケーラブルなメッシュベースのデータ駆動モデリングワークフローを実現する。 メッシュベースGNNのスケーラビリティに対する一貫性の影響について検討し,Frontier Exascaleスーパーコンピュータ上でのO(1B)グラフノードに対する一貫したGNNの効率的なスケーリングを実証する。

This work develops a distributed graph neural network (GNN) methodology for mesh-based modeling applications using a consistent neural message passing layer. As the name implies, the focus is on enabling scalable operations that satisfy physical consistency via halo nodes at sub-graph boundaries. Here, consistency refers to the fact that a GNN trained and evaluated on one rank (one large graph) is arithmetically equivalent to evaluations on multiple ranks (a partitioned graph). This concept is demonstrated by interfacing GNNs with NekRS, a GPU-capable exascale CFD solver developed at Argonne National Laboratory. It is shown how the NekRS mesh partitioning can be linked to the distributed GNN training and inference routines, resulting in a scalable mesh-based data-driven modeling workflow. We study the impact of consistency on the scalability of mesh-based GNNs, demonstrating efficient scaling in consistent GNNs for up to O(1B) graph nodes on the Frontier exascale supercomputer.
翻訳日:2024-11-04 16:13:24 公開日:2024-10-02
# データ依存型階層化によるIPW推定器からの信頼性の最小化

Smaller Confidence Intervals From IPW Estimators via Data-Dependent Coarsening ( http://arxiv.org/abs/2410.01658v1 )

ライセンス: Link先を確認
Alkis Kalavasis, Anay Mehrotra, Manolis Zampetakis, (参考訳) Inverse propensity-score weighted (IPW) 推定器は、観察研究における平均治療効果を推定するための因果推論において一般的である。 正確な正当性スコアと$n$サンプルが与えられると、IPW推定器の信頼区間のサイズは$n$に縮小され、いくつかの変種はスケーリング率を改善する。 しかし、IPW推定器もその変種も不正確ではない:もし1つの共変量体が確率スコアに$\varepsilon>0$加法誤差を持っているとしても、これらの推定器の信頼区間のサイズは任意に増加する。 さらに、誤差がなくても、これらの推定器の信頼区間が 0 に$n$ になる速度は、極端な確率スコア(0 または 1 に近い)の存在下で任意に遅くすることができる。 本稿では,既存のIPW推定器とその変種をキャプチャするCIPW推定器のファミリーを紹介する。 各CIPW推定器は、ある共変数がマージされた粗い共変数空間上のIPW推定器である。 軽度の仮定、例えば、予想結果のリプシッツネスと極度の確率性スコアの間隔において、ロバストな推定子を見つけるための効率的なアルゴリズムを与える:$\varepsilon$-不正確な確率スコアと$n$サンプルが与えられると、その信頼区間サイズは$\varepsilon+1/\sqrt{n}$でスケールする。 対照的に、同じ仮定の下では、既存の推定者の信頼区間サイズは$\Omega(1)$で、$\varepsilon$と$n$とは無関係である。 重要なことは、我々の推定器はデータに依存しており、データに依存しないCIPW推定器は不正確性に対して堅牢であることを示す。

Inverse propensity-score weighted (IPW) estimators are prevalent in causal inference for estimating average treatment effects in observational studies. Under unconfoundedness, given accurate propensity scores and $n$ samples, the size of confidence intervals of IPW estimators scales down with $n$, and, several of their variants improve the rate of scaling. However, neither IPW estimators nor their variants are robust to inaccuracies: even if a single covariate has an $\varepsilon>0$ additive error in the propensity score, the size of confidence intervals of these estimators can increase arbitrarily. Moreover, even without errors, the rate with which the confidence intervals of these estimators go to zero with $n$ can be arbitrarily slow in the presence of extreme propensity scores (those close to 0 or 1). We introduce a family of Coarse IPW (CIPW) estimators that captures existing IPW estimators and their variants. Each CIPW estimator is an IPW estimator on a coarsened covariate space, where certain covariates are merged. Under mild assumptions, e.g., Lipschitzness in expected outcomes and sparsity of extreme propensity scores, we give an efficient algorithm to find a robust estimator: given $\varepsilon$-inaccurate propensity scores and $n$ samples, its confidence interval size scales with $\varepsilon+1/\sqrt{n}$. In contrast, under the same assumptions, existing estimators' confidence interval sizes are $\Omega(1)$ irrespective of $\varepsilon$ and $n$. Crucially, our estimator is data-dependent and we show that no data-independent CIPW estimator can be robust to inaccuracies.
翻訳日:2024-11-04 16:13:24 公開日:2024-10-02
# 逐次グリーディフィルタによるサンプル効率改善によるコンフォーマル生成モデル

Conformal Generative Modeling with Improved Sample Efficiency through Sequential Greedy Filtering ( http://arxiv.org/abs/2410.01660v1 )

ライセンス: Link先を確認
Klaus-Rudolf Kladny, Bernhard Schölkopf, Michael Muehlebach, (参考訳) 生成モデルは出力に対する厳密な統計的保証を欠いているため、安全クリティカルなアプリケーションでは信頼性が低い。 本研究では,共形許容制御と呼ばれる厳密な統計的保証を満たす予測セットを生成する逐次共形予測手法SCOPE-Genを提案する。 このことは、高い確率で予測セットが少なくとも1つの許容可能な(または有効な)例を含むことを保証している。 この目的のために,本手法はまず,ブラックボックス生成モデルからi.d.サンプルの初期セットをサンプリングする。 そして、この集合は、いわゆるgreedyフィルタを介して反復的にプルーニングされる。 反復生成手順の結果、最終予測セットの許容性はマルコフ連鎖として分解される。 この因子化は、共形予測を用いて各因子を個別に制御できるため、重要である。 従来の作業と比較して,キャリブレーション時の許容度評価の回数を大幅に削減できることを示す。 この削減は、これらの評価をドメインの専門家が手作業で行う必要があるため、コストと時間を要する安全クリティカルなアプリケーションにおいて重要である。 本稿では,自然言語生成および分子グラフ拡張タスクにおける実験を通じて,予測セットの許容性評価と濃度の点から,本手法の利点を強調した。

Generative models lack rigorous statistical guarantees for their outputs and are therefore unreliable in safety-critical applications. In this work, we propose Sequential Conformal Prediction for Generative Models (SCOPE-Gen), a sequential conformal prediction method producing prediction sets that satisfy a rigorous statistical guarantee called conformal admissibility control. This guarantee states that with high probability, the prediction sets contain at least one admissible (or valid) example. To this end, our method first samples an initial set of i.i.d. examples from a black box generative model. Then, this set is iteratively pruned via so-called greedy filters. As a consequence of the iterative generation procedure, admissibility of the final prediction set factorizes as a Markov chain. This factorization is crucial, because it allows to control each factor separately, using conformal prediction. In comparison to prior work, our method demonstrates a large reduction in the number of admissibility evaluations during calibration. This reduction is important in safety-critical applications, where these evaluations must be conducted manually by domain experts and are therefore costly and time consuming. We highlight the advantages of our method in terms of admissibility evaluations and cardinality of the prediction sets through experiments in natural language generation and molecular graph extension tasks.
翻訳日:2024-11-04 16:13:24 公開日:2024-10-02
# 深層強化学習を用いたグラフにおける経路と周期数公式の探索

Finding path and cycle counting formulae in graphs with Deep Reinforcement Learning ( http://arxiv.org/abs/2410.01661v1 )

ライセンス: Link先を確認
Jason Piquenot, Maxime Bérar, Pierre Héroux, Jean-Yves Ramel, Romain Raveaux, Sébastien Adam, (参考訳) 本稿では,モンテカルロ木探索 (MCTS) を用いた強化学習アルゴリズムであるGrammar Reinforcement Learning (GRL) と,文脈自由文法 (CFG) フレームワーク内のプッシュダウンオートマトン (PDA) をモデル化したトランスフォーマーアーキテクチャを提案する。 ユースケースとして、ネットワーク分析、コンピュータ科学、生物学、社会科学における重要な課題であるグラフの経路とサイクルを効率的にカウントする問題を考えると、GRLは2から6w.r.tのステート・オブ・ザ・アートのアプローチによって計算効率を向上させるパス/サイクルカウントのための行列ベースの新しい公式を発見する。 コントリビューションには以下のものがある。 i)CFG内で動作するグラムフォーマを生成するためのフレームワーク。 (II)文法構造における公式の最適化のためのGRLの開発、及び 3) グラフサブ構造計数のための新しい公式の発見により, 計算精度が大幅に向上した。

This paper presents Grammar Reinforcement Learning (GRL), a reinforcement learning algorithm that uses Monte Carlo Tree Search (MCTS) and a transformer architecture that models a Pushdown Automaton (PDA) within a context-free grammar (CFG) framework. Taking as use case the problem of efficiently counting paths and cycles in graphs, a key challenge in network analysis, computer science, biology, and social sciences, GRL discovers new matrix-based formulas for path/cycle counting that improve computational efficiency by factors of two to six w.r.t state-of-the-art approaches. Our contributions include: (i) a framework for generating gramformers that operate within a CFG, (ii) the development of GRL for optimizing formulas within grammatical structures, and (iii) the discovery of novel formulas for graph substructure counting, leading to significant computational improvements.
翻訳日:2024-11-04 16:13:24 公開日:2024-10-02
# 光量子メモリのエコープロトコル

Echo protocols of an optical quantum memory ( http://arxiv.org/abs/2410.01664v1 )

ライセンス: Link先を確認
S. A. Moiseev, K. I. Gerasimov, M. M. Minnegaliev, E. S. Moiseev, A. D. Deev, Yu. Yu. Balega, (参考訳) 新しい解析結果に基づいて、光子エコー量子メモリプロトコルの主特性を解析し、最近達成された実験結果とともに議論する。 主な関心は、光パルスと共鳴原子とのスペクトル分散と非線形相互作用の影響の研究である。 研究されたエコープロトコルにおけるブロードバンド信号パルスの量子記憶に対するスペクトル分散の影響の特徴を同定し,議論した。 光子エコー領域定理を用いて、弱い信号パルスと強い信号パルスの保存を記述した量子メモリのエコープロトコルの閉解析解を求め、信号と制御パルスの強い非線形相互作用下でのエコープロトコルの高効率化の条件を見出すことができた。 現実的な実験条件下での課題と解決方法について概説する。 また、量子リピータにおいて、検討された光子エコー量子メモリプロトコルを使用する可能性についても、簡潔に論じる。

Based on new obtained analytical results, the main properties of photon echo quantum memory protocols are analysed and discussed together with recently achieved experimental results. The main attention is paid to studying the influence of spectral dispersion and nonlinear interaction of light pulses with resonant atoms. The distinctive features of the effect of spectral dispersion on the quantum storage of broadband signal pulses in the studied echo protocols are identified and discussed. Using photon echo area theorem, closed analytical solutions for echo protocols of quantum memory are obtained, describing the storage of weak and intense signal pulses, allowing us to find the conditions for the implementation of high efficiency in the echo protocols under strong nonlinear interaction of signal and control pulses with atoms. The key existing practical problems and the ways to solve them in realistic experimental conditions are outlined. We also briefly discuss the potential of using the considered photon echo quantum memory protocols in a quantum repeater.
翻訳日:2024-11-04 16:13:24 公開日:2024-10-02
# スパース共分散ニューラルネットワーク

Sparse Covariance Neural Networks ( http://arxiv.org/abs/2410.01669v1 )

ライセンス: Link先を確認
Andrea Cavallo, Zhan Gao, Elvin Isufi, (参考訳) 共分散ニューラルネットワーク(VNN)は、表データの共分散行列上でグラフ畳み込みを行い、様々なアプリケーションで成功する。 しかしながら、VNNが動作している経験的共分散行列は、多くのスプリアス相関を含む可能性があるため、これらのノイズの多い推定により、VNNのパフォーマンスが矛盾し、計算効率が低下する。 この問題に対処するため,共分散行列にスペース化手法を適用したSparse coVariance Neural Networks (S-VNNs) を作成した。 真の共分散行列がスパースである場合、共分散推定を改善し、計算コストを削減するために、硬度および軟度閾値付けを提案する。 代わりに、真の共分散が密接な場合、原理的戦略に従ってデータ相関が確率的に減少する確率的スパーシフィケーションを提案する。 その結果,S-VNNは名目上のVNNよりも安定であり,主成分分析も容易であることがわかった。 スパシフィケーションの影響を解析することにより,S-VNNの安定性とデータ分布の新たな関連性を提供する。 我々は,脳データから人間の行動認識に至るまで,様々な応用シナリオに関する実験結果を用いて,S-VNNのタスク性能,安定性,計算効率の向上を示す。

Covariance Neural Networks (VNNs) perform graph convolutions on the covariance matrix of tabular data and achieve success in a variety of applications. However, the empirical covariance matrix on which the VNNs operate may contain many spurious correlations, making VNNs' performance inconsistent due to these noisy estimates and decreasing their computational efficiency. To tackle this issue, we put forth Sparse coVariance Neural Networks (S-VNNs), a framework that applies sparsification techniques on the sample covariance matrix before convolution. When the true covariance matrix is sparse, we propose hard and soft thresholding to improve covariance estimation and reduce computational cost. Instead, when the true covariance is dense, we propose stochastic sparsification where data correlations are dropped in probability according to principled strategies. We show that S-VNNs are more stable than nominal VNNs as well as sparse principal component analysis. By analyzing the impact of sparsification on their behavior, we provide novel connections between S-VNN stability and data distribution. We support our theoretical findings with experimental results on various application scenarios, ranging from brain data to human action recognition, and show an improved task performance, stability, and computational efficiency of S-VNNs compared with nominal VNNs.
翻訳日:2024-11-04 16:13:24 公開日:2024-10-02
# Bridging Context Gaps: 長期的コンテキスト理解のための参照解決の活用

Bridging Context Gaps: Leveraging Coreference Resolution for Long Contextual Understanding ( http://arxiv.org/abs/2410.01671v1 )

ライセンス: Link先を確認
Yanming Liu, Xinyue Peng, Jiannan Cao, Shi Bo, Yanxin Shen, Xuhong Zhang, Sheng Cheng, Xun Wang, Jianwei Yin, Tianyu Du, (参考訳) 大規模言語モデル(LLM)は、自然言語処理において顕著な能力を示しているが、長い文脈を理解し、効果的な質問応答を実行する際には困難に直面している。 これらの課題は、長いテキストに存在する複雑さと曖昧さによって生じることが多い。 このようなシナリオにおけるLong Question Coreference Adaptation (LQCA) 手法について述べる。 この革新的なフレームワークは、長いコンテキストに合わせて調整されたコア参照解決に焦点を当てており、モデルが参照を効果的に識別し、管理することができる。 LQCA法には、サブドキュメント内のコア参照の解決、参照間の距離の計算、コア参照の代表的な参照の定義、参照置換による質問への回答の4つの重要なステップが含まれている。 情報を体系的に処理することで、このフレームワークはLLMの扱いやすいパーティションを提供し、理解を深める。 OpenAI-o1-mini モデルと GPT-4o モデルに顕著な改善を加え、コア参照の解決を利用して質問応答におけるコンテキストギャップを埋めることの有効性を強調した。

Large language models (LLMs) have shown remarkable capabilities in natural language processing; however, they still face difficulties when tasked with understanding lengthy contexts and executing effective question answering. These challenges often arise due to the complexity and ambiguity present in longer texts. To enhance the performance of LLMs in such scenarios, we introduce the Long Question Coreference Adaptation (LQCA) method. This innovative framework focuses on coreference resolution tailored to long contexts, allowing the model to identify and manage references effectively. The LQCA method encompasses four key steps: resolving coreferences within sub-documents, computing the distances between mentions, defining a representative mention for coreference, and answering questions through mention replacement. By processing information systematically, the framework provides easier-to-handle partitions for LLMs, promoting better understanding. Experimental evaluations on a range of LLMs and datasets have yielded positive results, with a notable improvements on OpenAI-o1-mini and GPT-4o models, highlighting the effectiveness of leveraging coreference resolution to bridge context gaps in question answering.
翻訳日:2024-11-04 16:13:24 公開日:2024-10-02
# 任意のCSSコードのためのMaxSATデコーダ

MaxSAT decoders for arbitrary CSS codes ( http://arxiv.org/abs/2410.01673v1 )

ライセンス: Link先を確認
Mohammadreza Noormandipour, Tobias Haug, (参考訳) 量子誤り訂正(QEC)はノイズの存在下での量子コンピュータの動作に不可欠である。 ここでは,任意のCalderbank-Shor-Steane (CSS) コードを MaxSAT (Max satisfiability) 問題によって正確に復号する。 任意の幾何およびパリティチェック重みを持つCSS符号の量子極大問題をMaxSAT問題にマップする方法を示す。 本研究では,このシンドローム測定をハード節として組み込むとともに,偏りや非一様を含む量子ビットおよび測定誤差確率をソフトなMaxSAT節として符号化する。 ヘキサゴナル格子上のカラーコードのコードキャパシティは,命令付き統計処理(BP-OSD)による信頼伝播よりも高いしきい値とノイズ抑圧のスケーリングが優れており,計算コストも類似している。 さらに,2変量量子低密度パリティチェック(QLDPC)符号をデコードし,BP-OSDよりも低い誤り率を求める。 最後に、MaxSATデコーディングの複雑さを、MaxSAT問題の節密度によって制御される計算位相遷移に結びつける。 我々のMaxSATデコーダはASICやFPGAでさらに並列化や実装が可能で、数桁のさらなる高速化が期待できる。 我々の研究は、量子コンピュータの実践的応用に向けた柔軟なプラットフォームを提供する。

Quantum error correction (QEC) is essential for operating quantum computers in the presence of noise. Here, we accurately decode arbitrary Calderbank-Shor-Steane (CSS) codes via the maximum satisfiability (MaxSAT) problem. We show how to map quantum maximum likelihood problem of CSS codes of arbitrary geometry and parity check weight into MaxSAT problems. We incorporate the syndrome measurements as hard clauses, while qubit and measurement error probabilities, including biased and non-uniform, are encoded as soft MaxSAT clauses. For the code capacity of color codes on a hexagonal lattice, our decoder has a higher threshold and superior scaling in noise suppression compared to belief propagation with ordered statistics post-processing (BP-OSD), while showing similar scaling in computational cost. Further, we decode surface codes and recently proposed bivariate quantum low-density parity check (QLDPC) codes where we find lower error rates than BP-OSD. Finally, we connect the complexity of MaxSAT decoding to a computational phase transition controlled by the clause density of the MaxSAT problem, where we show that our mapping is always in the computationally ''easy`` phase. Our MaxSAT decoder can be further parallelised or implemented on ASICs and FPGAs, promising potential further speedups of several orders of magnitude. Our work provides a flexible platform towards practical applications on quantum computers.
翻訳日:2024-11-04 16:13:24 公開日:2024-10-02
# 人間になろうとする:言語モデルにおける確率的共感の言語学的痕跡

Trying to be human: Linguistic traces of stochastic empathy in language models ( http://arxiv.org/abs/2410.01675v1 )

ライセンス: Link先を確認
Bennett Kleinberg, Jari Zegers, Jonas Festor, Stefana Vida, Julian Präsent, Riccardo Loconte, Sanne Peereboom, (参考訳) 現代世界をナビゲートするためには、生成コンテンツと人文コンテンツとの差別化が重要である。 大規模言語モデル(LLM)は、コンピュータ生成コンテンツの質向上を支える重要な要因である。 人間は、AIモデルがテキストを生成できるかどうかを特定するのがますます難しくなっていると報告されている。 私たちの研究は、2つの重要な要因が人間とAIの人種にどのように貢献するかをテストする。 人間の参加者と最先端のLLMが関係アドバイス(Study 1, n=530)や単なる記述(Study 2, n=610)を作成した。 ヒトの新しい標本(n=428とn=408)は、テキストのソースを判断した。 以上の結果から,共感が必要な場合,人間は優れることが明らかとなった。 期待とは対照的に、人間に現れる指示はLDMにのみ有効であったため、人間の優位性は低下した。 計算テキスト分析により、LSMは人間的であり、そのヒューリスティックスに力強く適用していることを暗黙的に表すため、より人間的になることが明らかとなった。 このモデルは、確率的共感を模倣する単純な語彙を持つ会話的、自己参照的、非公式なトーンに頼っている。 LLMのオンパー性能に関する最近の主張を踏まえて,これらの知見について論じる。

Differentiating between generated and human-written content is important for navigating the modern world. Large language models (LLMs) are crucial drivers behind the increased quality of computer-generated content. Reportedly, humans find it increasingly difficult to identify whether an AI model generated a piece of text. Our work tests how two important factors contribute to the human vs AI race: empathy and an incentive to appear human. We address both aspects in two experiments: human participants and a state-of-the-art LLM wrote relationship advice (Study 1, n=530) or mere descriptions (Study 2, n=610), either instructed to be as human as possible or not. New samples of humans (n=428 and n=408) then judged the texts' source. Our findings show that when empathy is required, humans excel. Contrary to expectations, instructions to appear human were only effective for the LLM, so the human advantage diminished. Computational text analysis revealed that LLMs become more human because they may have an implicit representation of what makes a text human and effortlessly apply these heuristics. The model resorts to a conversational, self-referential, informal tone with a simpler vocabulary to mimic stochastic empathy. We discuss these findings in light of recent claims on the on-par performance of LLMs.
翻訳日:2024-11-04 16:13:24 公開日:2024-10-02
# Open3DTrack: Open-Vocabulary 3D Multi-Object Tracking

Open3DTrack: Towards Open-Vocabulary 3D Multi-Object Tracking ( http://arxiv.org/abs/2410.01678v1 )

ライセンス: Link先を確認
Ayesha Ishaq, Mohamed El Amine Boudjoghra, Jean Lahoud, Fahad Shahbaz Khan, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer, (参考訳) 3次元多物体追跡は、リアルタイムの監視と複数の物体の動きの予測を可能にすることで、自律運転において重要な役割を果たす。 従来の3Dトラッキングシステムは、通常、事前に定義されたオブジェクトカテゴリによって制約され、動的環境における新しい、見えないオブジェクトへの適応性を制限する。 この制限に対処するために、オープンな3Dトラッキングを導入し、事前に定義されたカテゴリを超えてオブジェクトを含める3Dトラッキングの範囲を広げる。 オープン語彙追跡の問題を定式化し,様々なオープン語彙シナリオを表現するために設計されたデータセット分割を導入する。 本稿では,オープン語彙機能を3次元トラッキングフレームワークに統合し,オブジェクトクラスが見えないように一般化する手法を提案する。 本手法は,戦略的適応により,既知の物体と新規物体の追跡性能のギャップを効果的に低減する。 実験により, 多様な屋外運転シナリオにおける本手法の堅牢性と適応性を示す。 私たちの知る限りでは、この研究はオープンな3Dトラッキングに初めて取り組み、現実の環境での自律システムの大幅な進歩を示している。 コード、トレーニングされたモデル、データセットの分割が公開されている。

3D multi-object tracking plays a critical role in autonomous driving by enabling the real-time monitoring and prediction of multiple objects' movements. Traditional 3D tracking systems are typically constrained by predefined object categories, limiting their adaptability to novel, unseen objects in dynamic environments. To address this limitation, we introduce open-vocabulary 3D tracking, which extends the scope of 3D tracking to include objects beyond predefined categories. We formulate the problem of open-vocabulary 3D tracking and introduce dataset splits designed to represent various open-vocabulary scenarios. We propose a novel approach that integrates open-vocabulary capabilities into a 3D tracking framework, allowing for generalization to unseen object classes. Our method effectively reduces the performance gap between tracking known and novel objects through strategic adaptation. Experimental results demonstrate the robustness and adaptability of our method in diverse outdoor driving scenarios. To the best of our knowledge, this work is the first to address open-vocabulary 3D tracking, presenting a significant advancement for autonomous systems in real-world settings. Code, trained models, and dataset splits are available publicly.
翻訳日:2024-11-04 16:03:18 公開日:2024-10-02
# VinePPO:LLMのReasoningにRLのロックを解除

VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment ( http://arxiv.org/abs/2410.01679v1 )

ライセンス: Link先を確認
Amirhossein Kazemnejad, Milad Aghajohari, Eva Portelance, Alessandro Sordoni, Siva Reddy, Aaron Courville, Nicolas Le Roux, (参考訳) 大きな言語モデル(LLM)は、報酬を受け取る前にいくつかの複雑なステップを実行する必要がある複雑な推論タスクにますます適用されている。 これらのステップにクレジットを適切に割り当てることは、モデルパフォーマンスを向上させるために不可欠です。 LLM微調整に使用される最先端強化学習(RL)アルゴリズムであるPPO(Proximal Policy Optimization)では、クレジット割り当てに対処するためにバリューネットワークを採用している。 しかし、価値ネットワークは複雑な推論タスクにおいて期待される累積報酬を正確に予測する上で困難に直面し、しばしば高分散更新や準最適性能をもたらす。 本研究では,価値ネットワークの有効性を体系的に評価し,LLMタスクの推論における重大な欠点を明らかにし,代替ステップの比較において,ランダムなベースラインをわずかに上回っていることを示す。 そこで本稿では,VinePPOを提案する。VinePPOは言語環境の柔軟性を利用してモンテカルロをベースとした推定値の偏りを計算し,大きな価値ネットワークの必要性を回避できる。 提案手法は,MATHおよびGSM8KデータセットにまたがるPPOおよび他のRLフリーベースラインを常に上回り,勾配更新(最大9倍),壁面時間(最大3.0倍)を減少させる。 これらの結果は、LLMのRL微調整における正確なクレジット割り当ての重要性を強調し、VinePPOが優れた代替手段となる可能性を実証している。

Large language models (LLMs) are increasingly applied to complex reasoning tasks that require executing several complex steps before receiving any reward. Properly assigning credit to these steps is essential for enhancing model performance. Proximal Policy Optimization (PPO), a state-of-the-art reinforcement learning (RL) algorithm used for LLM finetuning, employs value networks to tackle credit assignment. However, value networks face challenges in predicting the expected cumulative rewards accurately in complex reasoning tasks, often leading to high-variance updates and suboptimal performance. In this work, we systematically evaluate the efficacy of value networks and reveal their significant shortcomings in reasoning-heavy LLM tasks, showing that they barely outperform a random baseline when comparing alternative steps. To address this, we propose VinePPO, a straightforward approach that leverages the flexibility of language environments to compute unbiased Monte Carlo-based estimates, bypassing the need for large value networks. Our method consistently outperforms PPO and other RL-free baselines across MATH and GSM8K datasets with fewer gradient updates (up to 9x), less wall-clock time (up to 3.0x). These results emphasize the importance of accurate credit assignment in RL finetuning of LLM and demonstrate VinePPO's potential as a superior alternative.
翻訳日:2024-11-04 16:03:18 公開日:2024-10-02
# PHI-S: ラベルフリー多教師蒸留のための配電バランシング

PHI-S: Distribution Balancing for Label-Free Multi-Teacher Distillation ( http://arxiv.org/abs/2410.01680v1 )

ライセンス: Link先を確認
Mike Ranzinger, Jon Barker, Greg Heinrich, Pavlo Molchanov, Bryan Catanzaro, Andrew Tao, (参考訳) 様々な視覚基盤モデルは、異なる強みと弱みを持ち、どちらもラベルなしで異質なマルチティーチンガー知識蒸留によって改善され、「凝集モデル」と呼ばれる。 本研究は,教師のアクティベーション統計の影響,特に損失関数が学生モデルの品質に与える影響を調査することによって,この基礎を築き上げている。 統計正規化手法の標準ツールキットを探索し,各分布の整合性を向上し,その効果を評価する。 さらに,アダマール行列の利用を動機づける下流教師マッチング指標への影響について検討した。 これらの行列を用いて、多変量分布の各次元が同じスケールで標準化される等方的標準化にどのように使用できるかを示す。 我々は,この手法をPHI-S(PHI-S)と呼び,研究対象の手法で最高の学生モデルを生成することを実証的に示す。

Various visual foundation models have distinct strengths and weaknesses, both of which can be improved through heterogeneous multi-teacher knowledge distillation without labels, termed "agglomerative models." We build upon this body of work by studying the effect of the teachers' activation statistics, particularly the impact of the loss function on the resulting student model quality. We explore a standard toolkit of statistical normalization techniques to better align the different distributions and assess their effects. Further, we examine the impact on downstream teacher-matching metrics, which motivates the use of Hadamard matrices. With these matrices, we demonstrate useful properties, showing how they can be used for isotropic standardization, where each dimension of a multivariate distribution is standardized using the same scale. We call this technique "PHI Standardization" (PHI-S) and empirically demonstrate that it produces the best student model across the suite of methods studied.
翻訳日:2024-11-04 16:03:18 公開日:2024-10-02
# 位置注意:ニューラルアルゴリズム推論のための分布外一般化と表現性

Positional Attention: Out-of-Distribution Generalization and Expressivity for Neural Algorithmic Reasoning ( http://arxiv.org/abs/2410.01686v1 )

ライセンス: Link先を確認
Artur Back de Luca, George Giapitzakis, Shenghao Yang, Petar Veličković, Kimon Fountoulakis, (参考訳) 算術、要約統計、ソートといったアルゴリズムタスクを解くニューラルネットワークの能力に対する関心が高まっている。 Transformersのような最先端のモデルは、分散タスクに対して優れた一般化性能を示してきたが、訓練されたエンドツーエンドでは、そのアウト・オブ・ディストリビューション(OOD)性能は貧弱である。 本稿では,テスト分布がトレーニング分布と同じ入力シーケンス長を持つOOD一般化の一般的な例である値一般化に着目するが,トレーニング分布とテスト分布の値範囲は必ずしも重複しない。 この問題に対処するために,固定位置符号化を用いて注意重みを求める手法を提案する。 我々は、位置対応型トランスフォーマーが並列アルゴリズムを効果的にシミュレートできることを証明し、表現性に関する主張を支持する。

There has been a growing interest in the ability of neural networks to solve algorithmic tasks, such as arithmetic, summary statistics, and sorting. While state-of-the-art models like Transformers have demonstrated good generalization performance on in-distribution tasks, their out-of-distribution (OOD) performance is poor when trained end-to-end. In this paper, we focus on value generalization, a common instance of OOD generalization where the test distribution has the same input sequence length as the training distribution, but the value ranges in the training and test distributions do not necessarily overlap. To address this issue, we propose that using fixed positional encodings to determine attention weights-referred to as positional attention-enhances empirical OOD performance while maintaining expressivity. We support our claim about expressivity by proving that Transformers with positional attention can effectively simulate parallel algorithms.
翻訳日:2024-11-04 16:03:18 公開日:2024-10-02
# VQAとReasoningでコンテキストが重要な理由:VLM入力モダリティに対する意味的介入

Why context matters in VQA and Reasoning: Semantic interventions for VLM input modalities ( http://arxiv.org/abs/2410.01690v1 )

ライセンス: Link先を確認
Kenza Amara, Lukas Klein, Carsten Lüth, Paul Jäger, Hendrik Strobelt, Mennatallah El-Assady, (参考訳) 幻覚やモデル失敗など、生成AIの様々な制限は、視覚言語モデル(VLM)の予測における様々なモダリティの役割を理解することが重要である。 本稿では,視覚的質問応答(VQA)や推論タスクにおいて,画像とテキストのモダリティからの情報の統合がVLMのパフォーマンスと動作に与える影響について検討する。 この効果は,解答精度,推論品質,モデル不確実性,モダリティ関連性を通じて測定する。 本稿では,VQAタスクの解決に視覚的内容が不可欠である様々な構成において,テキストと画像のモダリティの相互作用について検討する。 コントリビューションには,(1)セマンティック・インターベンション(SI)-VQAデータセット,(2)様々なモード構成下での様々なVLMアーキテクチャのベンチマーク,(3)インタラクティブ・セマンティック・インターベンション(ISI)ツールなどが含まれている。 SI-VQAデータセットはベンチマークの基礎として機能し、ISIツールは画像やテキスト入力にセマンティックな介入をテストおよび適用するためのインターフェースを提供し、よりきめ細かい分析を可能にする。 この結果から,モダリティ間の相補的な情報によって解答や推論の質が向上し,矛盾する情報がモデルの性能や信頼性を損なうことが明らかとなった。 画像テキストアノテーションは精度と不確実性に最小限の影響を受け、画像の関連性はわずかに増大する。 注意分析は、VQAタスクにおけるテキスト上の画像入力の優位性を確認する。 本研究では,各モードに対する注意係数を抽出できる最先端のVLMを評価した。 重要な発見は、PaliGemmaの有害な過信であり、LLaVAモデルと比較してサイレント障害のリスクが高いことである。 この研究は、この目的のために特別に設計されたデータセットによってサポートされている、モダリティ統合の厳密な分析の基礎を定めている。

The various limitations of Generative AI, such as hallucinations and model failures, have made it crucial to understand the role of different modalities in Visual Language Model (VLM) predictions. Our work investigates how the integration of information from image and text modalities influences the performance and behavior of VLMs in visual question answering (VQA) and reasoning tasks. We measure this effect through answer accuracy, reasoning quality, model uncertainty, and modality relevance. We study the interplay between text and image modalities in different configurations where visual content is essential for solving the VQA task. Our contributions include (1) the Semantic Interventions (SI)-VQA dataset, (2) a benchmark study of various VLM architectures under different modality configurations, and (3) the Interactive Semantic Interventions (ISI) tool. The SI-VQA dataset serves as the foundation for the benchmark, while the ISI tool provides an interface to test and apply semantic interventions in image and text inputs, enabling more fine-grained analysis. Our results show that complementary information between modalities improves answer and reasoning quality, while contradictory information harms model performance and confidence. Image text annotations have minimal impact on accuracy and uncertainty, slightly increasing image relevance. Attention analysis confirms the dominant role of image inputs over text in VQA tasks. In this study, we evaluate state-of-the-art VLMs that allow us to extract attention coefficients for each modality. A key finding is PaliGemma's harmful overconfidence, which poses a higher risk of silent failures compared to the LLaVA models. This work sets the foundation for rigorous analysis of modality integration, supported by datasets specifically designed for this purpose.
翻訳日:2024-11-04 16:03:18 公開日:2024-10-02
# FactAlign: 大規模言語モデルの長めのファクタリティアライメント

FactAlign: Long-form Factuality Alignment of Large Language Models ( http://arxiv.org/abs/2410.01691v1 )

ライセンス: Link先を確認
Chao-Wei Huang, Yun-Nung Chen, (参考訳) 大規模言語モデルは次世代の情報アクセスエンジンとして大きな可能性を示している。 しかし、その信頼性は幻覚や非事実コンテンツの生成の問題によって妨げられている。 これは、事実の正確性を評価し、保証することが複雑である長文の応答において特に問題となる。 本稿では,LLMの長文応答の現実性を高めつつ,その有用性を維持しつつ,新たなアライメントフレームワークであるFactAlignを提案することにより,このギャップに対処する。 本稿では,KTO(Kahneman-Tversky Optimization)アライメント法を拡張した,きめ細かな文レベルのアライメントアルゴリズムfKTOを紹介する。 FactAlignは、自動事実性評価の最近の進歩を活用して、微粒な事実性評価を使用してアライメントプロセスのガイドを行っている。 オープンドメインのプロンプトと情報検索に関する実験により、FactAlignはLLM応答の事実精度を大幅に向上するとともに、その有用性も向上することを示した。 さらに、FactAlignは、事実の精度を損なうことなく、より多くの情報を提供するためにLLMを訓練できるので、事実のF1スコアを改善することができる。 私たちのソースコード、データセット、トレーニングされたモデルはhttps://github.com/MiuLab/FactAlignで公開されています。

Large language models have demonstrated significant potential as the next-generation information access engines. However, their reliability is hindered by issues of hallucination and generating non-factual content. This is particularly problematic in long-form responses, where assessing and ensuring factual accuracy is complex. In this paper, we address this gap by proposing FactAlign, a novel alignment framework designed to enhance the factuality of LLMs' long-form responses while maintaining their helpfulness. We introduce fKTO, a fine-grained, sentence-level alignment algorithm that extends the Kahneman-Tversky Optimization (KTO) alignment method. Leveraging recent advances in automatic factuality evaluation, FactAlign utilizes fine-grained factuality assessments to guide the alignment process. Our experiments on open-domain prompts and information-seeking questions demonstrate that FactAlign significantly improves the factual accuracy of LLM responses while also improving their helpfulness. Further analyses identify that FactAlign is capable of training LLMs to provide more information without losing factual precision, thus improving the factual F1 score. Our source code, datasets, and trained models are publicly available at https://github.com/MiuLab/FactAlign
翻訳日:2024-11-04 16:03:18 公開日:2024-10-02
# 大規模言語モデルの創発能力を支えるU字型および逆U字型スケーリング

U-shaped and Inverted-U Scaling behind Emergent Abilities of Large Language Models ( http://arxiv.org/abs/2410.01692v1 )

ライセンス: Link先を確認
Tung-Yu Wu, Pei-Yu Lo, (参考訳) 大規模言語モデル(LLM)は、一部の下流タスクにおいて、パフォーマンスが最初は停滞し、しきい値を超えるスケールで、急激かつ予測不能に改善しているように見える突発的な能力を示すことが示されている。 難易度に応じてデータセット内の質問を平均性能で分割することにより、難解な質問に対するU字型スケーリングと逆U字型スケーリングを観察し、簡単な質問に対する着実に改善する。 さらに、出現しきい値は、逆スケーリングから標準スケーリングに逆戻りする簡単な質問のパフォーマンスとほぼ一致する。 Slice-and-Sandwichと呼ばれるシンプルで効果的なパイプラインを提案し、出現しきい値とモデル性能の両方をしきい値を超えて予測する。

Large language models (LLMs) have been shown to exhibit emergent abilities in some downstream tasks, where performance seems to stagnate at first and then improve sharply and unpredictably with scale beyond a threshold. By dividing questions in the datasets according to difficulty level by average performance, we observe U-shaped scaling for hard questions, and inverted-U scaling followed by steady improvement for easy questions. Moreover, the emergence threshold roughly coincides with the point at which performance on easy questions reverts from inverse scaling to standard scaling. Capitalizing on the observable though opposing scaling trend on easy and hard questions, we propose a simple yet effective pipeline, called Slice-and-Sandwich, to predict both the emergence threshold and model performance beyond the threshold.
翻訳日:2024-11-04 16:03:18 公開日:2024-10-02
# CreDes:LLMを用いたロングレンジ推論問題の解決のための因果推論の強化とデュアルエンド探索

CreDes: Causal Reasoning Enhancement and Dual-End Searching for Solving Long-Range Reasoning Problems using LLMs ( http://arxiv.org/abs/2410.01696v1 )

ライセンス: Link先を確認
Kangsheng Wang, Xiao Zhang, Hao Liu, Songde Han, Huimin Ma, Tianyu Hu, (参考訳) 大言語モデル(LLM)は、因果幻覚と巨大な探索空間によって、長距離推論を含む組合せ最適化の問題に対処する際の限界を証明している。 因果性幻覚(因果性幻覚)、すなわち、推論と状態遷移の矛盾について、原因影響の介入と個別治療効果(ITE)を組み合わせた因果関係強化(CRE)機構を導入し、各段階の推論と状態遷移の確固とした因果的正当性を保証する。 単一方向探索を含む既存モデルの性能を制限する長い因果範囲と巨大な探索空間については、因果確率木の初期状態と目標状態の両方から同時に解を求めるDES(Dual-End Searching)アプローチが提案されている。 CREとDES(CreDes)を統合することで、当社のモデルは同時多段階推論を実現し、Chain-of-Thought(CoT)のような複数のワンステップ推論のカスケードを回避した。 実験により、CreDesは、精度と時間効率の両方の観点から、長距離推論タスクにおいて既存のState-Of-The-Art(SOTA)ソリューションを著しく上回っていることが示された。

Large language models (LLMs) have demonstrated limitations in handling combinatorial optimization problems involving long-range reasoning, partially due to causal hallucinations and huge search space. As for causal hallucinations, i.e., the inconsistency between reasoning and corresponding state transition, this paper introduces the Causal Relationship Enhancement (CRE) mechanism combining cause-effect interventions and the Individual Treatment Effect (ITE) to guarantee the solid causal rightness between each step of reasoning and state transition. As for the long causal range and huge search space limiting the performances of existing models featuring single-direction search, a Dual-End Searching (DES) approach is proposed to seek solutions by simultaneously starting from both the initial and goal states on the causal probability tree. By integrating CRE and DES (CreDes), our model has realized simultaneous multi-step reasoning, circumventing the inefficiencies from cascading multiple one-step reasoning like the Chain-of-Thought (CoT). Experiments demonstrate that CreDes significantly outperforms existing State-Of-The-Art (SOTA) solutions in long-range reasoning tasks in terms of both accuracy and time efficiency.
翻訳日:2024-11-04 16:03:18 公開日:2024-10-02
# COSMIC: 拡散補償による効率的な衛星画像圧縮

COSMIC: Compress Satellite Images Efficiently via Diffusion Compensation ( http://arxiv.org/abs/2410.01698v1 )

ライセンス: Link先を確認
Ziyuan Zhang, Han Qiu, Maosen Zhang, Jun Liu, Bin Chen, Tianwei Zhang, Hewu Li, (参考訳) 宇宙における衛星の急増とその能力の強化により、衛星が収集した地球観測画像の量は、衛星と地上のリンクの送信限界を超えている。 既存の学習された画像圧縮ソリューションは、高度なエンコーダを使用して圧縮として実効性のある特徴を抽出し、デコーダを使って再構成することで優れた性能を発揮するが、これらの複雑なエンコーダを現在の衛星の組み込みGPUに直接展開することは、限られた計算能力と軌道上の画像を圧縮するための電力供給で困難である。 本稿では,衛星画像の送信を行うための簡易かつ効果的な圧縮ソリューションであるCOSMICを提案する。 衛星間リンクを保存するために、まず軽量エンコーダ(FLOPを2.6\sim 5\times $)を衛星上に設計する。 そこで,地上での再構成では,エンコーダの簡易化による特徴抽出能力の劣化に対処するため,デコード時に画像の詳細を補償する拡散モデルを提案する。 我々の洞察では、衛星の地球観測写真は画像だけでなく、拡散生成の条件として使用できるリッチセンサーデータ(例えば座標、タイムスタンプなど)で収集されるので、テキスト対画像ペアリングの性質を持つマルチモーダルデータである。 広汎な実験により、COSMICは知覚と歪みの両方で最先端のベースラインを上回ります。

With the rapidly increasing number of satellites in space and their enhanced capabilities, the amount of earth observation images collected by satellites is exceeding the transmission limits of satellite-to-ground links. Although existing learned image compression solutions achieve remarkable performance by using a sophisticated encoder to extract fruitful features as compression and using a decoder to reconstruct, it is still hard to directly deploy those complex encoders on current satellites' embedded GPUs with limited computing capability and power supply to compress images in orbit. In this paper, we propose COSMIC, a simple yet effective learned compression solution to transmit satellite images. We first design a lightweight encoder (i.e. reducing FLOPs by $2.6\sim 5\times $) on satellite to achieve a high image compression ratio to save satellite-to-ground links. Then, for reconstructions on the ground, to deal with the feature extraction ability degradation due to simplifying encoders, we propose a diffusion-based model to compensate image details when decoding. Our insight is that satellite's earth observation photos are not just images but indeed multi-modal data with a nature of Text-to-Image pairing since they are collected with rich sensor data (e.g. coordinates, timestamp, etc.) that can be used as the condition for diffusion generation. Extensive experiments show that COSMIC outperforms state-of-the-art baselines on both perceptual and distortion metrics.
翻訳日:2024-11-04 15:53:34 公開日:2024-10-02
# 訓練不要な投機的ヤコビ復号による自動回帰テキスト・画像生成の高速化

Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding ( http://arxiv.org/abs/2410.01699v1 )

ライセンス: Link先を確認
Yao Teng, Han Shi, Xian Liu, Xuefei Ning, Guohao Dai, Yu Wang, Zhenguo Li, Xihui Liu, (参考訳) 現在の大規模な自動回帰モデルは、高品質で高解像度の画像を生成することができるが、これらのモデルは推論中に数百から数千の次の予測ステップを必要とするため、相当な時間消費をもたらす。 既存の研究では、反復並列復号アルゴリズムであるJacovi decodingが自動回帰生成を加速するために使われており、訓練なしで実行できる。 しかし、ジャコビ復号法は反復の収束を決定するために決定論的基準に依存する。 したがって、これはgreedy復号には有効であるが、現在の自動回帰テキスト・画像生成において視覚的品質と多様性に不可欠なサンプリングベース復号とは相容れない。 本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。 確率収束基準を導入することで、SJDはサンプリングベースのトークン復号におけるランダム性を保ちながら、自動回帰テキスト・画像生成の推論を加速し、モデルが多様な画像を生成することができる。 具体的には、SJDは各ステップで複数のトークンを予測し、確率的基準に基づいてトークンを受け付け、従来の次世代予測パラダイムよりも少ないステップで画像を生成することができる。 また,視覚データの空間的局所性を活用するトークン初期化戦略について検討し,特定のシナリオ下での加速度比をさらに向上させる。 本稿では,複数の自動回帰テキスト・画像生成モデルを用いたSJD実験を行い,視覚的品質を犠牲にすることなく,モデルアクセラレーションの有効性を示す。

The current large auto-regressive models can generate high-quality, high-resolution images, but these models require hundreds or even thousands of steps of next-token prediction during inference, resulting in substantial time consumption. In existing studies, Jacobi decoding, an iterative parallel decoding algorithm, has been used to accelerate the auto-regressive generation and can be executed without training. However, the Jacobi decoding relies on a deterministic criterion to determine the convergence of iterations. Thus, it works for greedy decoding but is incompatible with sampling-based decoding which is crucial for visual quality and diversity in the current auto-regressive text-to-image generation. In this paper, we propose a training-free probabilistic parallel decoding algorithm, Speculative Jacobi Decoding (SJD), to accelerate auto-regressive text-to-image generation. By introducing a probabilistic convergence criterion, our SJD accelerates the inference of auto-regressive text-to-image generation while maintaining the randomness in sampling-based token decoding and allowing the model to generate diverse images. Specifically, SJD facilitates the model to predict multiple tokens at each step and accepts tokens based on the probabilistic criterion, enabling the model to generate images with fewer steps than the conventional next-token-prediction paradigm. We also investigate the token initialization strategies that leverage the spatial locality of visual data to further improve the acceleration ratio under specific scenarios. We conduct experiments for our proposed SJD on multiple auto-regressive text-to-image generation models, showing the effectiveness of model acceleration without sacrificing the visual quality.
翻訳日:2024-11-04 15:53:34 公開日:2024-10-02
# 光双極子トラップにおけるルビジウムRydberg原子の3光子レーザー励起におけるラビ振動

Rabi oscillations at three-photon laser excitation of a single rubidium Rydberg atom in an optical dipole trap ( http://arxiv.org/abs/2410.01703v1 )

ライセンス: Link先を確認
I. I. Beterov, E. A. Yakshina, G. Suliman, P. I. Betleni, A. A. Prilutskaya, D. A. Skvortsova, T. R. Zagirov, D. B. Tretyakov, V. M. Entin, N. N. Bezuglov, I. I. Ryabtsev, (参考訳) 3光子レーザー励起5S_{1/2} \to 5P_{3/2} \to 6S_{1/2} \to 37P_{3/2}$の光学双極子トラップにおける1つの$^{87}$Rb Rydberg原子の実験において、地上とリュードベルク状態の間の3光子ラビ振動が初めて観測された。 単一原子は低ノイズsCMOSビデオカメラを用いて共鳴蛍光の信号を測定することにより光学的に検出された。 3つのシンクロナイズドレーザー励起パルスの動作後にトラップ内に残留する原子の相対確率を100 nsから2$\mu$sの範囲で測定した。 この実験の特定の特徴は、第2の励起過程における1367nmの波長での強いレーザー放射の使用であり、これは、ac Stark効果による3光子遷移の中間レベルを効果的に調整するために、単一光子ラビ周波数を最大2GHzまで与えた。 我々は、第1および第2の励起ステップにおけるレーザーパルスの強度に依存する周波数1〜5MHzのRabi発振を0.7〜0.8$\mu$sのコヒーレンス時間で検出した。 ライドバーグ原子を用いた量子情報処理における3光子ラビ振動のコヒーレンス時間とコントラストを高める方法について論じる。

In an experiment on three-photon laser excitation $5S_{1/2} \to 5P_{3/2} \to 6S_{1/2} \to 37P_{3/2}$ of a single $^{87}$Rb Rydberg atom in an optical dipole trap, we have observed for the first time three-photon Rabi oscillations between the ground and the Rydberg states. The single atom was detected optically by measuring the signal of resonant fluorescence with a low-noise sCMOS video camera. Relative probability of the atom to remain in the trap after the action of three synchronized laser excitation pulses was measured for their durations varied in the range from 100 ns to 2 $\mu$s. A specific feature of the experiment was the usage of intense laser radiation at the wavelength of 1367 nm on the second excitation step, which provided the single-photon Rabi frequency up to 2 GHz to control the effective detunings of the intermediate levels of the three-photon transition due to ac Stark effect. We have detected Rabi oscillations with frequency from 1 to 5 MHz depending on the intensities of the laser pulses on the first and the second excitation steps with the coherence time of 0.7-0.8 $\mu$s. The ways to increase the coherence time and contrast of the three-photon Rabi oscillations for applications in quantum information processing with Rydberg atoms are discussed.
翻訳日:2024-11-04 15:53:34 公開日:2024-10-02
# マルチタスク設定のための自己監督型相互情報アライメントの探索

An Exploration of Self-Supervised Mutual Information Alignment for Multi-Task Settings ( http://arxiv.org/abs/2410.01704v1 )

ライセンス: Link先を確認
Soham Govande, (参考訳) 言語モデルから個々の属性や好みまで,多元的アライメント手法の必要性が高まっている。 そのような手法の1つ、SAMI(Self-Supervised Alignment with Mutual Information)は、行動選好とモデル応答の接続を促進するために条件付き相互情報を使用する。 マルチタスク環境でSAMIを探索する2つの実験を行った。 まず、SAMIをマルチタスクベンチマーク(MT-Bench)上で直接選好最適化(DPO)と比較し、より弱いカテゴリ(人文、STEM、抽出、コーディング、数学、推論、ロールプレイ)のトレーニングデータを生成するために、より強力なモデルを用いて、SAMIと直接選好最適化(DPO)を比較した。 以上の結果から,SAMIの1イテレーションはDPOに対して57%の勝利率を示し,タスクカテゴリ間の性能に有意な差が認められた。 次に,SAMIが数学的精度(GSM-8K)に与える影響を,教師付き微調整(SFT)と比較して検討した。 SAMIはゼロショット性能を1.1%向上させるが、SFTの方が3.2%向上する。 しかし、SAMIは興味深いスケーリングトレンドを示している。 10回の試行が与えられた場合、SAMIは精度を3.9%改善し、SFTは10.1%向上した。 SAMIとSFTを組み合わせることで、マルチアタプティブ設定では1.3%の改善が達成されるが、シングルアタプティブの精度は変わらない。

There is a growing need for pluralistic alignment methods that can steer language models towards individual attributes and preferences. One such method, Self-Supervised Alignment with Mutual Information (SAMI), uses conditional mutual information to encourage the connection between behavioral preferences and model responses. We conduct two experiments exploring SAMI in multi-task settings. First, we compare SAMI to Direct Preference Optimization (DPO) on a multi-task benchmark (MT-Bench), using a stronger model to generate training data for a weaker one across diverse categories (humanities, STEM, extraction, coding, math, reasoning, and roleplay). Our results indicate that one iteration of SAMI has a 57% win rate against DPO, with significant variation in performance between task categories. Second, we examine SAMI's impact on mathematical accuracy (GSM-8K) relative to supervised fine-tuning (SFT). While SAMI increases zero-shot performance by 1.1%, SFT is more effective with a 3.2% boost. However, SAMI shows interesting scaling trends. When given 10 attempts, SAMI improves accuracy by 3.9%, while SFT achieves a 10.1% increase. Combining SAMI with SFT yields an additional improvement of 1.3% in multi-attempt settings, though single-attempt accuracy remains unchanged.
翻訳日:2024-11-04 15:53:34 公開日:2024-10-02
# 高性能, メモリ効率, スケーラブルなマルチエージェント強化学習

Performant, Memory Efficient and Scalable Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2410.01706v1 )

ライセンス: Link先を確認
Omayma Mahjoub, Sasha Abramowitz, Ruan de Kock, Wiem Khlifi, Simon du Toit, Jemma Daniel, Louay Ben Nessir, Louise Beyers, Claude Formanek, Liam Clark, Arnu Pretorius, (参考訳) マルチエージェント強化学習(MARL)の分野がより大規模で複雑な環境へと進むにつれ、多くのエージェントに対するメモリ効率とスケーラビリティを維持しながら、高い性能を達成することがますます重要になる。 最近の研究はいくつかの高度なアルゴリズムを導いてきたが、これらすべての重要な性質を同時に解決することはなかった。 本稿では,Retentive Networks から MARL への保持機構を適応させる新奇で理論的に健全なアルゴリズム Sable を紹介する。 Sableの保持に基づくシーケンスモデリングアーキテクチャは、多数のエージェントへの計算効率のよいスケーリングを可能にし、長期の時間的コンテキストを維持し、大規模な部分的に観測可能な環境に適している。 6つの多様な環境における広範囲な評価を通じて、Sableはタスクの大部分(45のうち34、約75、%)において、既存の最先端メソッドを大幅に上回っていることを示す。 さらに、Sableは、エージェント数を拡大し、1000以上のエージェントで環境を処理しながら、メモリ使用量の線形増加を示すため、安定したパフォーマンスを示す。 最後に、Sableの性能向上の源泉を分離し、その効率的な計算メモリ使用量を確認するためのアブレーション研究を行う。 我々の結果はSableの性能と効率を強調し、大規模にMARLをリードするアプローチとして位置づけた。

As the field of multi-agent reinforcement learning (MARL) progresses towards larger and more complex environments, achieving strong performance while maintaining memory efficiency and scalability to many agents becomes increasingly important. Although recent research has led to several advanced algorithms, to date, none fully address all of these key properties simultaneously. In this work, we introduce Sable, a novel and theoretically sound algorithm that adapts the retention mechanism from Retentive Networks to MARL. Sable's retention-based sequence modelling architecture allows for computationally efficient scaling to a large number of agents, as well as maintaining a long temporal context, making it well-suited for large-scale partially observable environments. Through extensive evaluations across six diverse environments, we demonstrate how Sable is able to significantly outperform existing state-of-the-art methods in the majority of tasks (34 out of 45, roughly 75\%). Furthermore, Sable demonstrates stable performance as we scale the number of agents, handling environments with more than a thousand agents while exhibiting a linear increase in memory usage. Finally, we conduct ablation studies to isolate the source of Sable's performance gains and confirm its efficient computational memory usage. Our results highlight Sable's performance and efficiency, positioning it as a leading approach to MARL at scale.
翻訳日:2024-11-04 15:53:34 公開日:2024-10-02
# 大規模言語モデルにおける関係アライメントの役割の検討

Examining the Role of Relationship Alignment in Large Language Models ( http://arxiv.org/abs/2410.01708v1 )

ライセンス: Link先を確認
Kristen M. Altenburger, Hongda Jiang, Robert E. Kraut, Yi-Chia Wang, Jane Dwivedi-Yu, (参考訳) ソーシャル環境におけるジェネレーティブAIの迅速な開発と展開は、正確さとリアリズムを維持しながら、ユーザに最適なパーソナライズ方法に関する重要な疑問を提起する。 この研究は、Facebookの公開ポストコメンデーションデータセットに基づいて、コメント者とポスターの性別、年齢、友情の近さの異なる組み合わせのセマンティックトーンを予測し、LLM生成コメントでこれらの違いを再現するLlama 3.0(70B)の能力を評価する。 研究は2つの部分から構成される: 第1部は、社会的関係カテゴリー間での意味音の違いを評価し、第2部は、Llama 3.0 (70B) によって生成されたコメントと、第1部からの人間のコメントが、パブリックなFacebook投稿をインプットとして与えたコメントの類似性を調べる。 その結果, 社会的関係情報を含めることで, 人間のコメントの意味的トーンを予測するモデルの有効性が向上することがわかった。 しかし, パートIIの結果から, LLMが生成したコメントと人的コメントは社会的文脈に等しく敏感であり, LLMが本来の投稿のみから意味を理解できることが示唆された。 すべてのソーシャル関係情報をプロンプトに含めると、人間のコメントとLLM生成コメントの類似性が減少する。 LLMはトレーニングデータの一部として社会的文脈情報を含まないため、この矛盾が発生する可能性がある。 これらの結果は、LLMがオリジナルの投稿のセマンティクスを理解でき、人間のコメントと同じような反応をすることができるだけでなく、パーソナライズされたコメントを1人で一般化する際の制限も強調している。

The rapid development and deployment of Generative AI in social settings raise important questions about how to optimally personalize them for users while maintaining accuracy and realism. Based on a Facebook public post-comment dataset, this study evaluates the ability of Llama 3.0 (70B) to predict the semantic tones across different combinations of a commenter's and poster's gender, age, and friendship closeness and to replicate these differences in LLM-generated comments. The study consists of two parts: Part I assesses differences in semantic tones across social relationship categories, and Part II examines the similarity between comments generated by Llama 3.0 (70B) and human comments from Part I given public Facebook posts as input. Part I results show that including social relationship information improves the ability of a model to predict the semantic tone of human comments. However, Part II results show that even without including social context information in the prompt, LLM-generated comments and human comments are equally sensitive to social context, suggesting that LLMs can comprehend semantics from the original post alone. When we include all social relationship information in the prompt, the similarity between human comments and LLM-generated comments decreases. This inconsistency may occur because LLMs did not include social context information as part of their training data. Together these results demonstrate the ability of LLMs to comprehend semantics from the original post and respond similarly to human comments, but also highlights their limitations in generalizing personalized comments through prompting alone.
翻訳日:2024-11-04 15:53:34 公開日:2024-10-02
# Meta-TTT: テスト時間トレーニングのためのメタ学習ミニマックスフレームワーク

Meta-TTT: A Meta-learning Minimax Framework For Test-Time Training ( http://arxiv.org/abs/2410.01709v1 )

ライセンス: Link先を確認
Chen Tao, Li Shen, Soumik Mondal, (参考訳) テスト時ドメイン適応は、推論中に制限された未ラベルのターゲットデータに事前訓練されたモデルを適用することを目的とした、困難なタスクである。 自己監督学習(SSL)タスクが主目的とうまく一致しない場合、自己監督とエントロピーの最小化に依存する現在の手法は、性能が低い。 さらに、エントロピーの最小化は、ミニバッチ内に限られた多様性がある場合、最適以下の解をもたらす。 本稿では,バッチ正規化(BN)層上でのテスト時間トレーニングを行うためのメタ学習用ミニマックスフレームワークを提案する。 我々は、現在のテストバッチ統計とソースドメインの統計を補間する混合BNアプローチを採用し、モデル一般化とドメインシフトに対する堅牢性を改善する確率的ドメイン合成法を提案する。 拡張実験により,本手法は様々な領域適応および一般化ベンチマークにまたがる最先端技術を超え,未確認領域に対する事前学習モデルのロバスト性を大幅に向上することを示した。

Test-time domain adaptation is a challenging task that aims to adapt a pre-trained model to limited, unlabeled target data during inference. Current methods that rely on self-supervision and entropy minimization underperform when the self-supervised learning (SSL) task does not align well with the primary objective. Additionally, minimizing entropy can lead to suboptimal solutions when there is limited diversity within minibatches. This paper introduces a meta-learning minimax framework for test-time training on batch normalization (BN) layers, ensuring that the SSL task aligns with the primary task while addressing minibatch overfitting. We adopt a mixed-BN approach that interpolates current test batch statistics with the statistics from source domains and propose a stochastic domain synthesizing method to improve model generalization and robustness to domain shifts. Extensive experiments demonstrate that our method surpasses state-of-the-art techniques across various domain adaptation and generalization benchmarks, significantly enhancing the pre-trained model's robustness on unseen domains.
翻訳日:2024-11-04 15:53:34 公開日:2024-10-02
# 計算科目理論研究プロジェクトへの参画

Scaffolding Research Projects in Theory of Computing Courses ( http://arxiv.org/abs/2410.01712v1 )

ライセンス: Link先を確認
Ryan E. Dougherty, (参考訳) The Theory of Computing (ToC) はCSカリキュラムにおいて重要なコースである。 従来のToCコースグレーディングスキームは、主に試験ベースであり、時には従来の証明型課題に対して小さな重みとなることもある。 最近の研究は、新しいタイプの課題、すなわち 'mock conference' プロジェクトで、学生が 'mock conference' を提出しているかのように ToC の問題にアプローチし、提示する実験を行った。 本稿では、既存のプロジェクトを大規模に把握し、私たちのToCコースでこのようなカンファレンスを実践した経験を提供します。

Theory of Computing (ToC) is an important course in CS curricula because of its connections to other CS courses as a foundation for them. Traditional ToC course grading schemes are mostly exam-based, and sometimes a small weight for traditional proof-type assignments. Recent work experimented with a new type of assignment, namely a ``mock conference'' project wherein students approach and present ToC problems as if they were submitting to a ``real'' CS conference. In this paper we massively scaffold this existing project and provide our experiences in running such a conference in our own ToC course.
翻訳日:2024-11-04 15:53:34 公開日:2024-10-02
# COMUNI:拡散型ビデオ生成のための共通および特異なビデオ信号の分解

COMUNI: Decomposing Common and Unique Video Signals for Diffusion-based Video Generation ( http://arxiv.org/abs/2410.01718v1 )

ライセンス: Link先を確認
Mingzhen Sun, Weining Wang, Xinxin Zhu, Jing Liu, (参考訳) ビデオは連続して動く物体を記録するので、隣接するビデオフレームには共通点(類似した物体の外観)と特異点(わずかに変化した姿勢)がある。 共通映像信号の冗長なモデリングを防止するために,COMmon と UNIque の映像信号を分解して効率的な映像生成を実現する,COMUNI という新しい拡散型フレームワークを提案する。 提案手法は,映像信号の分解と映像生成のタスクを分離し,生成モデルの計算複雑性を低減させる。 特に、CU-VAEを導入し、映像信号を分解し、それを潜在機能にエンコードする。 CU-VAEを自己指導的に訓練するために、ビデオ信号の再構成にカスケードマージモジュールと、ビデオフレームの再構成に時間に依存しないビデオデコーダを用いる。 次に,ビデオ生成における遅延特徴をモデル化するためのCU-LDMを提案する。 さらに、共通かつユニークな潜伏特徴のクロスモデリングのための追加のジョイントモジュールと、生成されたビデオのコンテンツ一貫性とモーションコヒーレンスを確保するための新しい位置埋め込み手法を利用する。 位置埋め込み法は、空間的および時間的絶対位置情報を関節モジュールに組み込む。 広汎な実験は、ビデオ生成のための共通およびユニークなビデオ信号の分解の必要性と、提案手法の有効性と効率を実証するものである。

Since videos record objects moving coherently, adjacent video frames have commonness (similar object appearances) and uniqueness (slightly changed postures). To prevent redundant modeling of common video signals, we propose a novel diffusion-based framework, named COMUNI, which decomposes the COMmon and UNIque video signals to enable efficient video generation. Our approach separates the decomposition of video signals from the task of video generation, thus reducing the computation complexity of generative models. In particular, we introduce CU-VAE to decompose video signals and encode them into latent features. To train CU-VAE in a self-supervised manner, we employ a cascading merge module to reconstitute video signals and a time-agnostic video decoder to reconstruct video frames. Then we propose CU-LDM to model latent features for video generation, which adopts two specific diffusion streams to simultaneously model the common and unique latent features. We further utilize additional joint modules for cross modeling of the common and unique latent features, and a novel position embedding method to ensure the content consistency and motion coherence of generated videos. The position embedding method incorporates spatial and temporal absolute position information into the joint modules. Extensive experiments demonstrate the necessity of decomposing common and unique video signals for video generation and the effectiveness and efficiency of our proposed method.
翻訳日:2024-11-04 15:53:34 公開日:2024-10-02
# OmniSR: 直接および間接照明下でのシャドウ除去

OmniSR: Shadow Removal under Direct and Indirect Lighting ( http://arxiv.org/abs/2410.01719v1 )

ライセンス: Link先を確認
Jiamin Xu, Zelong Li, Yuxin Zheng, Chenyu Huang, Renshu Gu, Weiwei Xu, Gang Xu, (参考訳) 影は直接照明と間接照明の両方の閉塞から生じる。 現在のシャドウ除去研究は、直接照明による影に焦点を当てているが、間接照明による影は、特に屋内のシーンにおいて、しばしば普及している。 間接照明からのシャドウ除去における重要な課題は、シャドウ除去ネットワークを訓練するためのシャドウフリー画像を取得することである。 この課題を克服するために、直接的および間接的な照明下で影のない画像を生成するための新しいレンダリングパイプラインを提案し、様々なオブジェクトタイプや照明条件をカバーする3万枚以上の画像ペアを含む総合的な合成データセットを作成する。 また,結合と注意機構を通じて意味的および幾何学的先行を明示的に統合する,革新的なシャドウ除去ネットワークを提案する。 実験の結果,提案手法は最先端のシャドウ除去技術より優れており,様々な照明条件下での屋内および屋外のシーンに効果的に一般化することが可能であり,シャドウ除去手法の全体的な有効性と適用性を高めることができることがわかった。

Shadows can originate from occlusions in both direct and indirect illumination. Although most current shadow removal research focuses on shadows caused by direct illumination, shadows from indirect illumination are often just as pervasive, particularly in indoor scenes. A significant challenge in removing shadows from indirect illumination is obtaining shadow-free images to train the shadow removal network. To overcome this challenge, we propose a novel rendering pipeline for generating shadowed and shadow-free images under direct and indirect illumination, and create a comprehensive synthetic dataset that contains over 30,000 image pairs, covering various object types and lighting conditions. We also propose an innovative shadow removal network that explicitly integrates semantic and geometric priors through concatenation and attention mechanisms. The experiments show that our method outperforms state-of-the-art shadow removal techniques and can effectively generalize to indoor and outdoor scenes under various lighting conditions, enhancing the overall effectiveness and applicability of shadow removal methods.
翻訳日:2024-11-04 15:43:48 公開日:2024-10-02
# 自動デモプロンプト: バッチプロンプト強化の実証として生成した出力を活用する

Auto-Demo Prompting: Leveraging Generated Outputs as Demonstrations for Enhanced Batch Prompting ( http://arxiv.org/abs/2410.01724v1 )

ライセンス: Link先を確認
Longyu Feng, Mengze Hong, Chen Jason Zhang, (参考訳) バッチプロンプト(英: Batch prompting)は、複数の入力を同時に処理するために使用される大規模言語モデル(LLM)において一般的な手法であり、計算効率の向上を目的としている。 しかし、バッチサイズが大きくなると、長いコンテキスト入力を扱うのが難しいため、しばしば性能劣化が発生する。 これらの問題を緩和しようとする既存の方法は、バッチプロンプト自体の設計を改善するのではなく、バッチデータアレンジメントと多数決にのみ依存する。 本稿では,これらの制約に対処するために,初期質問からの問合せペアをバッチ内に導入した新しい手法である"Auto-Demo Prompting"を提案する。 LLMの自己回帰生成プロセスにおけるオートデモプロンプト関数の形式的理論的解析を行い、モデルの内部表現の最適化に先行出力をどのように利用するかを説明する。 本手法は,バッチプロンプトと少数ショットプロンプトのギャップを効果的に埋め,トークン使用率のわずかな妥協だけで性能を向上する。 5つのNLPタスクにまたがる実験結果は、性能劣化を軽減し、時には1つのプロンプトよりも優れた性能を示す。 さらに、バッチプロンプト内でのデモ選択など、数発の学習テクニックを適用するための新たな道を開くことで、現実世界のアプリケーションに堅牢なソリューションを提供する。

Batch prompting is a common technique in large language models (LLMs) used to process multiple inputs simultaneously, aiming to improve computational efficiency. However, as batch sizes increase, performance degradation often occurs due to the model's difficulty in handling lengthy context inputs. Existing methods that attempt to mitigate these issues rely solely on batch data arrangement and majority voting rather than improving the design of the batch prompt itself. In this paper, we address these limitations by proposing "Auto-Demo Prompting," a novel approach that leverages the question-output pairs from earlier questions within a batch as demonstrations for subsequent answer inference. We provide a formal theoretical analysis of how Auto-Demo Prompting functions within the autoregressive generation process of LLMs, illustrating how it utilizes prior outputs to optimize the model's internal representations. Our method effectively bridges the gap between batch prompting and few-shot prompting, enhancing performance with only a slight compromise in token usage. Experimental results across five NLP tasks demonstrate its effectiveness in mitigating performance degradation and occasionally outperforming single prompts. Furthermore, it opens new avenues for applying few-shot learning techniques, such as demonstration selection, within batch prompting, making it a robust solution for real-world applications.
翻訳日:2024-11-04 15:43:48 公開日:2024-10-02
# 知識追跡のための自動知識概念アノテーションと質問表現学習

Automated Knowledge Concept Annotation and Question Representation Learning for Knowledge Tracing ( http://arxiv.org/abs/2410.01727v1 )

ライセンス: Link先を確認
Yilmazcan Ozyurt, Stefan Feuerriegel, Mrinmaya Sachan, (参考訳) 知識追跡(KT)は、学生の学習進捗を時間とともにモデル化する一般的な手法であり、よりパーソナライズされ適応的な学習を可能にする。 しかし、既存のKT手法は、(1)専門家が定義した知識概念(KC)に大きく依存している。 本稿では,これらの課題に対処し,既存のKTモデルの有効性を向上させるための知識概念アノテーションと質問表現学習のためのフレームワークであるKCQRLを提案する。 まず,大規模言語モデル(LLM)を用いた自動KCアノテーションプロセスを提案する。 第二に、質問や解のステップに意味的にリッチな埋め込みを生成するための対照的な学習手法を導入し、それらと関連するKCを調整された偽陰性除去手法により整合させる。 これらの埋め込みは既存のKTモデルに容易に統合でき、ランダムに初期化された埋め込みを置き換えることができる。 我々は、15個のKTアルゴリズムにまたがるKCQRLの有効性を、2つの大規模な実世界のMath学習データセットで示し、一貫した性能改善を実現した。

Knowledge tracing (KT) is a popular approach for modeling students' learning progress over time, which can enable more personalized and adaptive learning. However, existing KT approaches face two major limitations: (1) they rely heavily on expert-defined knowledge concepts (KCs) in questions, which is time-consuming and prone to errors; and (2) KT methods tend to overlook the semantics of both questions and the given KCs. In this work, we address these challenges and present KCQRL, a framework for automated knowledge concept annotation and question representation learning that can improve the effectiveness of any existing KT model. First, we propose an automated KC annotation process using large language models (LLMs), which generates question solutions and then annotates KCs in each solution step of the questions. Second, we introduce a contrastive learning approach to generate semantically rich embeddings for questions and solution steps, aligning them with their associated KCs via a tailored false negative elimination approach. These embeddings can be readily integrated into existing KT models, replacing their randomly initialized embeddings. We demonstrate the effectiveness of KCQRL across 15 KT algorithms on two large real-world Math learning datasets, where we achieve consistent performance improvements.
翻訳日:2024-11-04 15:43:48 公開日:2024-10-02
# 数学的推論のための逆流モデルのロバスト性評価

Evaluating Robustness of Reward Models for Mathematical Reasoning ( http://arxiv.org/abs/2410.01729v1 )

ライセンス: Link先を確認
Sunghwan Kim, Dongjin Kang, Taeyoon Kwon, Hyungjoo Chae, Jungsoo Won, Dongha Lee, Jinyoung Yeo, (参考訳) リワードモデルは、人間からのフィードバック(RLHF)システムからの強化学習において重要なものであり、モデルの振る舞いと人間の好みを一致させる。 特に数学分野では、推論能力を改善するためのポリシーを調整するために報酬モデルを用いた研究が数多く行われている。 近年、報酬モデルの重要性が強調されているため、RewardBenchはその振る舞いを理解するために提案されている。 しかし、RewardBench の数学部分集合は、選択された完備化と拒否された完備化の間に異なる表現を持ち、単一の比較に頼っていることが判明し、孤立したケースしか見つからないため、信頼できない結果につながる可能性がある。 そのため、報酬モデルの堅牢性を正確に示すことができず、パフォーマンスを誤解させ、潜在的に報酬のハッキングをもたらす。 本研究では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するために,数学的推論タスクにおける報酬モデルの堅牢性を効果的に表現するベンチマークであるRewardMATHを構築した。 RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、報酬の過度な最適化を効果的に見積もっているのに対し、既存のベンチマークでは相関関係がほとんどないことを示す。 その結果、評価の信頼性を高め、報酬モデルの堅牢性を示す設計の可能性を強調した。 コードとデータを公開しています。

Reward models are key in reinforcement learning from human feedback (RLHF) systems, aligning the model behavior with human preferences. Particularly in the math domain, there have been plenty of studies using reward models to align policies for improving reasoning capabilities. Recently, as the importance of reward models has been emphasized, RewardBench is proposed to understand their behavior. However, we figure out that the math subset of RewardBench has different representations between chosen and rejected completions, and relies on a single comparison, which may lead to unreliable results as it only see an isolated case. Therefore, it fails to accurately present the robustness of reward models, leading to a misunderstanding of its performance and potentially resulting in reward hacking. In this work, we introduce a new design for reliable evaluation of reward models, and to validate this, we construct RewardMATH, a benchmark that effectively represents the robustness of reward models in mathematical reasoning tasks. We demonstrate that the scores on RewardMATH strongly correlate with the results of optimized policy and effectively estimate reward overoptimization, whereas the existing benchmark shows almost no correlation. The results underscore the potential of our design to enhance the reliability of evaluation, and represent the robustness of reward model. We make our code and data publicly available.
翻訳日:2024-11-04 15:43:48 公開日:2024-10-02
# ComfyGen: テキストから画像生成のためのプロンプト適応ワークフロー

ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation ( http://arxiv.org/abs/2410.01731v1 )

ライセンス: Link先を確認
Rinon Gal, Adi Haviv, Yuval Alaluf, Amit H. Bermano, Daniel Cohen-Or, Gal Chechik, (参考訳) テキスト・ツー・イメージ生成の実践的利用は、単純でモノリシックなモデルから、複数の特殊なコンポーネントを組み合わせた複雑なワークフローへと進化してきた。 ワークフローベースのアプローチは画質の向上につながる可能性があるが、多数の利用可能なコンポーネント、複雑な依存関係、生成プロンプトへの依存など、効果的なワークフローの構築には相当な専門知識が必要である。 ここでは、各ユーザのプロンプトに自動的にワークフローをカスタマイズすることを目的として、プロンプト適応ワークフロー生成という新しいタスクを紹介する。 本稿では,この課題に対処する2つの LLM ベースの手法を提案する。ユーザ・参照データから学習するチューニングベース手法と,既存のフローを選択するために LLM を使用するトレーニングフリー手法である。 どちらのアプローチも、モノリシックモデルやジェネリックでプロンプトに依存しないワークフローと比較すると、画質が向上する。 本研究は,現場における既存研究の方向性を補完し,テキスト・画像生成の品質向上のための新たな経路を提供することを示す。

The practical use of text-to-image generation has evolved from simple, monolithic models to complex workflows that combine multiple specialized components. While workflow-based approaches can lead to improved image quality, crafting effective workflows requires significant expertise, owing to the large number of available components, their complex inter-dependence, and their dependence on the generation prompt. Here, we introduce the novel task of prompt-adaptive workflow generation, where the goal is to automatically tailor a workflow to each user prompt. We propose two LLM-based approaches to tackle this task: a tuning-based method that learns from user-preference data, and a training-free method that uses the LLM to select existing flows. Both approaches lead to improved image quality when compared to monolithic models or generic, prompt-independent workflows. Our work shows that prompt-dependent flow prediction offers a new pathway to improving text-to-image generation quality, complementing existing research directions in the field.
翻訳日:2024-11-04 15:43:48 公開日:2024-10-02
# テキスト文字列における視覚知覚

Visual Perception in Text Strings ( http://arxiv.org/abs/2410.01733v1 )

ライセンス: Link先を確認
Qi Jia, Xiang Yue, Shanshan Huang, Ziheng Qin, Yizhu Liu, Bill Yuchen Lin, Yang You, (参考訳) 連続文字に埋め込まれた視覚的意味論を理解することは、大言語モデル(LLM)と多モーダル大言語モデル(MLLM)の両方にとって重要な機能である。 このタイプのアーティファクトは、同一情報をテキストと画像の両方で容易に定式化できるというユニークな特徴を有しており、モダリティに依存しない視覚理解における現代のLLMとMLLMの能力を解析するための重要なプロキシとなっている。 本研究では,ASCIIアートを代表的アーティファクトとして選択し,各概念を表現するための線と明るさを文字で表現し,その問題をASCIIアート認識タスクとしてフレーム化する。 本研究は,精巧な分類木を用いた評価データセットの構築と,モデルの視覚的知覚能力を引き出すためのトレーニングセットの収集により,本課題におけるモデル性能をベンチマークする。 数十のモデルを総合的に分析した結果、人間は100%近い精度を達成できるが、最先端のLSMとMLLMははるかに遅れていることがわかった。 モデルは、ある概念に対して60%以上の精度で示されるテキスト入力のみを与えられたASCIIアートで表現された概念を認識することができるが、それらのほとんどは、すべてのカテゴリの平均で30%の精度でしか達成できない。 入力としてイメージが提供されると、GPT-4oは82.68%を獲得し、最も強力なオープンソースMLLMを21.95%上回った。 モデルは、与えられたモダリティに応じて異なる種類のASCIIアートを好むが、両方のモダリティが同時に供給されると、いずれのMLLMも恩恵を受けない。 さらに、教師付き微調整は、特に画像モダリティが与えられた場合のモデルの精度を向上させるだけでなく、モダリティ間の情報融合を強化するためのより良いトレーニング技術の必要性も強調する。

Understanding visual semantics embedded in consecutive characters is a crucial capability for both large language models (LLMs) and multi-modal large language models (MLLMs). This type of artifact possesses the unique characteristic that identical information can be readily formulated in both texts and images, making them a significant proxy for analyzing modern LLMs' and MLLMs' capabilities in modality-agnostic vision understanding. In this work, we select ASCII art as a representative artifact, where the lines and brightness used to depict each concept are rendered by characters, and we frame the problem as an ASCII art recognition task. We benchmark model performance on this task by constructing an evaluation dataset with an elaborate categorization tree and also collect a training set to elicit the models' visual perception ability. Through a comprehensive analysis of dozens of models, results reveal that although humans can achieve nearly 100% accuracy, the state-of-the-art LLMs and MLLMs lag far behind. Models are capable of recognizing concepts depicted in the ASCII arts given only text inputs indicated by over 60% accuracy for some concepts, but most of them achieves merely around 30% accuracy when averaged across all categories. When provided with images as inputs, GPT-4o gets 82.68%, outperforming the strongest open-source MLLM by 21.95%. Although models favor different kinds of ASCII art depending on the modality provided, none of the MLLMs successfully benefit when both modalities are supplied simultaneously. Moreover, supervised fine-tuning helps improve models' accuracy especially when provided with the image modality, but also highlights the need for better training techniques to enhance the information fusion among modalities.
翻訳日:2024-11-04 15:43:48 公開日:2024-10-02
# LASeR:マルチアーマッドバンドを用いたリワードモデル選択学習

LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits ( http://arxiv.org/abs/2410.01735v1 )

ライセンス: Link先を確認
Duy Nguyen, Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal, (参考訳) リワードモデル(RM)は、LLMと人間の嗜好の整合において重要な役割を担い、推論や反復訓練の際のアウトプットのランク付けによってそのパフォーマンスを高める。 しかし、RMが新しいタスクに一般化する度合いは、しばしば先入観として知られない(例えば、RMの中には、創造的な記述と数学の推論のスコア付けに長けているものもある)。 したがって、LDMを訓練している間に1つの固定RMしか使用できない。 さらに、複数のRMを同時に最適化することは、異なるRMからの信号が競合するため、計算集約的で困難であり、性能が低下する可能性がある。 これらの課題に対処するために、複数のRMを用いてLCMを反復的に訓練し、各インスタンスに最も適したRMを選択して活用し、出力をランク付けし、優先データを生成するLASeR(Learning to Adaptively Select Rewards)を導入する。 本研究は,複数のRMを最適化し,Llama-3-8Bの絶対平均精度を2.67%向上させるとともに,学習効率も向上することを示した。 さらに、命令追従プロンプトのベンチマークであるWildChatでは、Llama-3-8B LASeRを用いることで、複数のRMの逐次最適化よりも71.45%のAlpacaEvalが勝利することがわかった。 Llama-3-8Bでは,Llama-3-8Bでは,単文書QAと多文書QAの2.64F1と2.42F1の平均的な改善を実現している。 LASeRはノイズの多い報酬に頑丈で、複数の設定に一般化する。 最後に、LASeRのRM選択は、基礎となるタスクやインスタンスによって変化し、LASeRを用いて緩和できる複数のRMから競合する嗜好の存在を検証する。

Reward Models (RMs) play a crucial role in aligning LLMs with human preferences, enhancing their performance by ranking outputs during inference or iterative training. However, the degree to which an RM generalizes to new tasks is often not known a priori (e.g. some RMs may excel at scoring creative writing vs. math reasoning). Therefore, using only one fixed RM while training LLMs can be suboptimal. Moreover, optimizing LLMs with multiple RMs simultaneously can be prohibitively computationally-intensive and challenging due to conflicting signals from different RMs, potentially degrading performance. To address these challenges, we introduce LASeR (Learning to Adaptively Select Rewards), which iteratively trains LLMs using multiple RMs, selecting and utilizing the most well-suited RM for each instance to rank outputs and generate preference data, framed as a multi-armed bandit problem. Our results on commonsense and math reasoning tasks demonstrate that LASeR can boost iterative LLM optimization by optimizing for multiple RMs, improving the absolute average accuracy of Llama-3-8B over three datasets by 2.67% over training with ensemble RM scores while also showing superior training efficiency (e.g., a 2x speedup). Moreover, on WildChat, a benchmark of instruction-following prompts, we find that using Llama-3-8B LASeR leads to a 71.45% AlpacaEval win rate over sequentially optimizing multiple RMs. Extending to long-context generation tasks, we find that on Llama-3-8B, LASeR achieves an average improvement of 2.64 F1 and 2.42 F1 on single- and multi-document QA over random RM selection when used with best-of-n sampling. LASeR is robust to noisy rewards and generalizes to multiple settings. Finally, LASeR's RM selection changes depending on the underlying task or instance and we verify the presence of conflicting preferences from multiple RMs that can be mitigated using LASeR.
翻訳日:2024-11-04 15:43:48 公開日:2024-10-02
# 動的データセットにおける検索のための再帰的抽象処理

Recursive Abstractive Processing for Retrieval in Dynamic Datasets ( http://arxiv.org/abs/2410.01736v1 )

ライセンス: Link先を確認
Charbel Chucri, Rami Azouz, Joachim Ott, (参考訳) 近年の検索強化モデルは,再帰的埋め込み,クラスタリング,要約によって,検索したテキストチャンク上に階層構造を構築することで,基本的な手法を強化している。 そして、最も関連性の高い情報は、元のテキストと生成された要約の両方から検索される。 しかし、このようなアプローチは動的データセットによる制限に直面しており、文書の追加や削除はクラスタリングによって形成された階層的な表現の更新を複雑にする。 本稿では,動的データセットにおける再帰的木構造を,性能を損なうことなく効率的に維持するアルゴリズムを提案する。 さらに,クエリに着目した再帰的抽象処理を適用し,文脈品質を大幅に改善する検索後検索手法を提案する。 本手法は,検索アルゴリズムと互換性のあるブラックボックス後検索層として機能することで,他の手法の限界を克服する。 両方のアルゴリズムは実世界のデータセットに関する広範な実験を通じて検証され、動的データ処理の有効性と検索性能の向上を実証している。

Recent retrieval-augmented models enhance basic methods by building a hierarchical structure over retrieved text chunks through recursive embedding, clustering, and summarization. The most relevant information is then retrieved from both the original text and generated summaries. However, such approaches face limitations with dynamic datasets, where adding or removing documents over time complicates the updating of hierarchical representations formed through clustering. We propose a new algorithm to efficiently maintain the recursive-abstractive tree structure in dynamic datasets, without compromising performance. Additionally, we introduce a novel post-retrieval method that applies query-focused recursive abstractive processing to substantially improve context quality. Our method overcomes the limitations of other approaches by functioning as a black-box post-retrieval layer compatible with any retrieval algorithm. Both algorithms are validated through extensive experiments on real-world datasets, demonstrating their effectiveness in handling dynamic data and improving retrieval performance.
翻訳日:2024-11-04 15:43:48 公開日:2024-10-02
# RADAR:ロバストな2段階モード不完全産業異常検出

RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection ( http://arxiv.org/abs/2410.01737v1 )

ライセンス: Link先を確認
Bingchen Miao, Wenqiao Zhang, Juncheng Li, Siliang Tang, Zhaocheng Li, Haochen Shi, Jun Xiao, Yueting Zhuang, (参考訳) 3次元点雲と2次元RGB画像を用いて製品の異常領域を識別するマルチモーダル産業異常検出(MIAD)は,産業品質検査において重要な役割を担っている。 しかし、従来のMIAD設定では、すべての2次元と3次元のモダリティがペアリングされることを前提としており、実世界から収集されたマルチモーダルデータが欠落したモダリティのためにしばしば不完全であるという事実を見越す。 その結果、モーダル不完全データに対するロバスト性を示すMIADモデルは、実際は非常に望ましい。 この実践的課題に対処するため,本研究では,マルチモーダル情報が不完全である可能性のある不完全な学習環境を検討するために,Modality-Incomplete Industrial Anomaly Detection (MIIAD) を包括的に調査する,第一種研究を紹介する。 当然のことながら、既存のMIADアプローチがMIIADの課題に対処するには不十分であることに気づきました。 本稿では,2段階のロバスト・モードアリティ不完全融合とFramewoRk検出(RADAR)を提案する。 我々のブートストラッピング哲学は、MIIADの2つの段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。 一 機能融合において、まず、学習モダリティ不完全命令を探求し、事前学習したマルチモーダルトランスフォーマーを、様々なモダリティ不完全シナリオに頑健に適応させ、ハイパーネットワークに基づく適応パラメータ学習を実装する。 二 異常検出において、実擬似ハイブリッドモジュールを構築し、モダリティの組み合わせの特異性を強調し、さらにMIIADモデルの堅牢性を高める。 実験の結果,提案したRADARは従来のMIAD法をはるかに上回り,MIIADデータセットの有効性とロバスト性を実証した。

Multimodal Industrial Anomaly Detection (MIAD), utilizing 3D point clouds and 2D RGB images to identify the abnormal region of products, plays a crucial role in industrial quality inspection. However, the conventional MIAD setting presupposes that all 2D and 3D modalities are paired, overlooking the fact that multimodal data collected from the real world is often imperfect due to missing modalities. Consequently, MIAD models that demonstrate robustness against modal-incomplete data are highly desirable in practice. To address this practical challenge, we introduce a first-of-its-kind study that comprehensively investigates Modality-Incomplete Industrial Anomaly Detection (MIIAD), to consider the imperfect learning environment in which the multimodal information may be incomplete. Not surprisingly, we discovered that most existing MIAD approaches are inadequate for addressing MIIAD challenges, leading to significant performance degradation on the MIIAD benchmark we developed. In this paper, we propose a novel two-stage Robust modAlity-imcomplete fusing and Detecting frAmewoRk, abbreviated as RADAR. Our bootstrapping philosophy is to enhance two stages in MIIAD, improving the robustness of the Multimodal Transformer: i) In feature fusion, we first explore learning modality-incomplete instruction, guiding the pre-trained Multimodal Transformer to robustly adapt to various modality-incomplete scenarios, and implement adaptive parameter learning based on a HyperNetwork; ii) In anomaly detection, we construct a real-pseudo hybrid module to highlight the distinctiveness of modality combinations, further enhancing the robustness of the MIIAD model. Our experimental results demonstrate that the proposed RADAR significantly surpasses conventional MIAD methods in terms of effectiveness and robustness on our newly created MIIAD dataset, underscoring its practical application value.
翻訳日:2024-11-04 15:43:48 公開日:2024-10-02
# VitaGlyph:フレキシブルデュアルブランチ拡散モデルを用いたアーティストタイポグラフィー

VitaGlyph: Vitalizing Artistic Typography with Flexible Dual-branch Diffusion Models ( http://arxiv.org/abs/2410.01738v1 )

ライセンス: Link先を確認
Kailai Feng, Yabo Zhang, Haodong Yu, Zhilong Ji, Jinfeng Bai, Hongzhi Zhang, Wangmeng Zuo, (参考訳) アーティスティック・タイポグラフィー(Arttic typography)は、入力文字の意味を想像可能で読みやすい方法で視覚化する技法である。 強力なテキスト・画像拡散モデルにより、既存の手法は入力キャラクタの全体形状とテクスチャを直接設計し、創造性と妥当性の両立を困難にしている。 本稿では,VitaGlyphという二分岐・学習不要の手法を導入し,可読性を維持するために,柔軟で芸術的なタイポグラフィーと幾何学的変化を両立させる手法を提案する。 VitaGlyphの重要な洞察は、入力文字を主題と周囲からなるシーンとして扱い、次に幾何変換の度合いでそれらをレンダリングすることである。 被験者は、入力キャラクタの本質的概念を柔軟に表現し、周囲は、形状を変えることなく、関連する背景を豊かにする。 具体的には、VitaGlyphを3段階のフレームワークで実装する。 一 知識獲得は、大きな言語モデルを利用して、主題及び周囲のテキスト記述を設計する。 二 地域分解は、被写体記述に最もよく一致する部分を検出し、入力したグリフ画像を被写体及び周辺領域に分割する。 3) タイポグラフィー・スティライゼーションは,まずセマンティック・タイポグラフィーを用いて対象領域の構造を洗練し,次いで制御可能な構成生成により対象領域と周辺領域のテクスチャを別々に描画する。 実験の結果、VitaGlyphは芸術性や可読性を向上するだけでなく、複数のカスタマイズされたコンセプトを表現し、より創造的で喜ばしい芸術的タイポグラフィー生成を促進することが示されている。 私たちのコードはhttps://github.com/Carlofkl/VitaGlyph.comで公開されます。

Artistic typography is a technique to visualize the meaning of input character in an imaginable and readable manner. With powerful text-to-image diffusion models, existing methods directly design the overall geometry and texture of input character, making it challenging to ensure both creativity and legibility. In this paper, we introduce a dual-branch and training-free method, namely VitaGlyph, enabling flexible artistic typography along with controllable geometry change to maintain the readability. The key insight of VitaGlyph is to treat input character as a scene composed of Subject and Surrounding, followed by rendering them under varying degrees of geometry transformation. The subject flexibly expresses the essential concept of input character, while the surrounding enriches relevant background without altering the shape. Specifically, we implement VitaGlyph through a three-phase framework: (i) Knowledge Acquisition leverages large language models to design text descriptions of subject and surrounding. (ii) Regional decomposition detects the part that most matches the subject description and divides input glyph image into subject and surrounding regions. (iii) Typography Stylization firstly refines the structure of subject region via Semantic Typography, and then separately renders the textures of Subject and Surrounding regions through Controllable Compositional Generation. Experimental results demonstrate that VitaGlyph not only achieves better artistry and readability, but also manages to depict multiple customize concepts, facilitating more creative and pleasing artistic typography generation. Our code will be made publicly at https://github.com/Carlofkl/VitaGlyph.
翻訳日:2024-11-04 15:43:48 公開日:2024-10-02
# PreND:ネットワーク蒸留による強化学習における本質的な動機づけの促進

PreND: Enhancing Intrinsic Motivation in Reinforcement Learning through Pre-trained Network Distillation ( http://arxiv.org/abs/2410.01745v1 )

ライセンス: Link先を確認
Mohammadamin Davoodabadi, Negin Hashemi Dijujin, Mahdieh Soleymani Baghshah, (参考訳) 幼児の発達学習心理学に触発された本質的な動機は、わずかな外部報酬のみに頼ることなく、エージェントの探索を刺激する。 既存のRandom Network Distillation (RND) のような強化学習の手法では,(1) 生の視覚的入力に依存し,意味のある表現の欠如,(2) 頑健な潜在空間を構築する能力の欠如,(3) ターゲットネットワークの初期化の欠如,(4) 固有の報酬の急速な減少など,重要な制限に直面している。 本稿では,Regress Learning(RL)における本質的なモチベーションを高めるための新しいアプローチであるPre-trained Network Distillation(PreND)を提案する。 PreNDは、事前学習された表現モデルをターゲットネットワークと予測ネットワークの両方に組み込むことでこれらの課題に対処し、より有意義で安定した本質的な報酬をもたらしながら、モデルによって学習された表現を強化する。 また,学習率の制御により,予測器ネットワーク最適化の簡易かつ効果的な変種についても検討した。 Atariドメインの実験を通じて、PreNDがRNDを著しく上回り、より堅牢な本質的なモチベーション信号を提供することで、探索性の向上、全体的な性能の向上、サンプル効率の向上を実現している。 本研究は、予測に基づく本質的な動機づけにおけるターゲットネットワークと予測ネットワークの表現の重要性を強調し、スパース報酬環境におけるRLエージェントの学習効率を向上させるための新たな方向性を定めている。

Intrinsic motivation, inspired by the psychology of developmental learning in infants, stimulates exploration in agents without relying solely on sparse external rewards. Existing methods in reinforcement learning like Random Network Distillation (RND) face significant limitations, including (1) relying on raw visual inputs, leading to a lack of meaningful representations, (2) the inability to build a robust latent space, (3) poor target network initialization and (4) rapid degradation of intrinsic rewards. In this paper, we introduce Pre-trained Network Distillation (PreND), a novel approach to enhance intrinsic motivation in reinforcement learning (RL) by improving upon the widely used prediction-based method, RND. PreND addresses these challenges by incorporating pre-trained representation models into both the target and predictor networks, resulting in more meaningful and stable intrinsic rewards, while enhancing the representation learned by the model. We also tried simple but effective variants of the predictor network optimization by controlling the learning rate. Through experiments on the Atari domain, we demonstrate that PreND significantly outperforms RND, offering a more robust intrinsic motivation signal that leads to better exploration, improving overall performance and sample efficiency. This research highlights the importance of target and predictor networks representation in prediction-based intrinsic motivation, setting a new direction for improving RL agents' learning efficiency in sparse reward environments.
翻訳日:2024-11-04 15:34:04 公開日:2024-10-02
# 演算子学習のためのレイ・シャウダーマッピング

Leray-Schauder Mappings for Operator Learning ( http://arxiv.org/abs/2410.01746v1 )

ライセンス: Link先を確認
Emanuele Zappala, (参考訳) 本稿では,コンパクト部分空間の有限次元近似を学習するために,レイ・シャウダー写像を用いてバナッハ空間間の演算子を学習するアルゴリズムを提案する。 結果として得られる手法は、(おそらく非線形な)作用素の普遍近似であることを示す。 提案手法は,最先端モデルに匹敵する結果が得られることを示す2つのベンチマークデータセットに対して,提案手法の有効性を実証する。

We present an algorithm for learning operators between Banach spaces, based on the use of Leray-Schauder mappings to learn a finite-dimensional approximation of compact subspaces. We show that the resulting method is a universal approximator of (possibly nonlinear) operators. We demonstrate the efficiency of the approach on two benchmark datasets showing it achieves results comparable to state of the art models.
翻訳日:2024-11-04 15:34:04 公開日:2024-10-02
# LLMのレゾネーターがすべて等しく作られているわけではない

Not All LLM Reasoners Are Created Equal ( http://arxiv.org/abs/2410.01748v1 )

ライセンス: Link先を確認
Arian Hosseini, Alessandro Sordoni, Daniel Toyama, Aaron Courville, Rishabh Agarwal, (参考訳) 小学校数学(GSM)におけるLLMの問題解決能力について検討した。 そこで本研究では,既存の数語問題に対して,その解答が第1の問題を正しく解答することに依存するように,それらの性能を評価する。 その結果,ほとんどのLCMにおいて,合成ペアの解法と各問の解法との相違が顕著であることがわかった。 このギャップはより小さく、より費用効率が高く、数学に特化されたモデルで顕著である。 さらに、命令チューニングのレシピとコード生成はLLMのサイズによって異なる効果を持ち、GSMの微調整はタスクオーバーフィッティングにつながる可能性がある。 我々の分析では、大きな推論ギャップはテストセットのリークによるものではなく、追加のコンテキストからの逸脱と第2のホップ推論の欠如によるものであることが示唆された。 全体として、LLMは標準ベンチマークでのパフォーマンスが示すにもかかわらず、推論能力の体系的な違いを示す。

We study the depth of grade-school math (GSM) problem-solving capabilities of LLMs. To this end, we evaluate their performance on pairs of existing math word problems together so that the answer to the second problem depends on correctly answering the first problem. Our findings reveal a significant reasoning gap in most LLMs, that is performance difference between solving the compositional pairs and solving each question independently. This gap is more pronounced in smaller, more cost-efficient, and math-specialized models. Moreover, instruction-tuning recipes and code generation have varying effects across LLM sizes, while finetuning on GSM can lead to task overfitting. Our analysis indicates that large reasoning gaps are not because of test-set leakage, but due to distraction from additional context and poor second-hop reasoning. Overall, LLMs exhibit systematic differences in their reasoning abilities, despite what their performance on standard benchmarks indicates.
翻訳日:2024-11-04 15:34:04 公開日:2024-10-02
# AssessITS:組織ITおよびサイバーセキュリティリスク評価のための手続き的ガイドラインと実践的評価指標の統合

AssessITS: Integrating procedural guidelines and practical evaluation metrics for organizational IT and Cybersecurity risk assessment ( http://arxiv.org/abs/2410.01750v1 )

ライセンス: Link先を確認
Mir Mehedi Rahman, Naresh Kshetri, Sayed Abu Sayeed, Md Masud Rana, (参考訳) 今日のデジタル駆動のランドスケープでは、堅牢なIT(Information Technology)リスクアセスメントプラクティスが、システムやデジタル通信、データを保護する上で不可欠です。 本稿では,ITおよびサイバーセキュリティリスクアセスメントを行うための包括的ガイドラインを組織に提供するための,行動可能な手法であるAssessITSを紹介する。 NIST 800-30 Rev 1, COBIT 5 と ISO 31000 から広く引用された 'AssessITS' は、高レベルな理論標準と実践的な実装課題のギャップを埋めるものである。 この記事では、組織がITリスクを体系的に識別し、分析し、緩和するために、ステップバイステップの方法論を概説する。 このフレームワークは複雑な原則を実践可能な手順に単純化することで、外部ベンダーにあまり依存することなく、個別にリスク評価を行うために必要なツールを実践者に提供します。 ガイドラインは単純で、資産価値、脅威レベル、脆弱性、および機密性、完全性、可用性への影響の正確な定量化を可能にする実用的な評価指標を統合する。 このアプローチにより、リスク評価プロセスが包括的だけでなくアクセス可能であることを保証すると同時に、意思決定者が独自の運用状況に合わせてカスタマイズされた効果的なリスク軽減戦略を実施できるようになる。 「AssessITS」は、国際的に認められた基準に基づく実践的で実用的なガイダンスを通じて、組織がITセキュリティの強化を図ることを目的としている。

In today's digitally driven landscape, robust Information Technology (IT) risk assessment practices are essential for safeguarding systems, digital communication, and data. This paper introduces 'AssessITS', an actionable method designed to provide organizations with comprehensive guidelines for conducting IT and cybersecurity risk assessments. Drawing extensively from NIST 800-30 Rev 1, COBIT 5, and ISO 31000, 'AssessITS' bridges the gap between high-level theoretical standards and practical implementation challenges. The paper outlines a step-by-step methodology that organizations can simply adopt to systematically identify, analyze, and mitigate IT risks. By simplifying complex principles into actionable procedures, this framework equips practitioners with the tools needed to perform risk assessments independently, without too much reliance on external vendors. The guidelines are developed to be straightforward, integrating practical evaluation metrics that allow for the precise quantification of asset values, threat levels, vulnerabilities, and impacts on confidentiality, integrity, and availability. This approach ensures that the risk assessment process is not only comprehensive but also accessible, enabling decision-makers to implement effective risk mitigation strategies customized to their unique operational contexts. 'AssessITS' aims to enable organizations to enhance their IT security strength through practical, actionable guidance based on internationally recognized standards.
翻訳日:2024-11-04 15:34:04 公開日:2024-10-02
# TorchSISSO: 効率的かつ解釈可能なモデル発見のための確実な独立スクリーニングとスポーザライズ演算子のPyTorchベース実装

TorchSISSO: A PyTorch-Based Implementation of the Sure Independence Screening and Sparsifying Operator for Efficient and Interpretable Model Discovery ( http://arxiv.org/abs/2410.01752v1 )

ライセンス: Link先を確認
Madhav Muthyala, Farshud Sorourifar, Joel A. Paulson, (参考訳) 記号回帰(SR)は、代数モデルの構造とパラメータの両方を探索し、複雑なデータの解釈可能かつコンパクトな表現を提供する強力な機械学習手法である。 従来の回帰法とは異なり、SRは徐々に複雑な特徴空間を探求し、小さなデータセットからでも、うまく一般化する単純なモデルを明らかにすることができる。 SRアルゴリズムの中で、Sure Independence Screening and Sparsifying Operator (SISSO)は自然科学において特に有効であることが証明されており、基本的な物理法則を再発見し、材料特性モデリングのための新しい解釈可能な方程式を発見するのに役立つ。 しかしながら、その普及はパフォーマンスの非効率さとFORTRANベースの実装、特に現代のコンピューティング環境での課題によって制限されている。 本稿では,PyTorchフレームワーク上に構築されたPythonネイティブ実装であるTorchSISSOを紹介する。 TorchSISSOはGPUアクセラレーション、容易な統合、拡張性を活用し、オリジナルよりも大幅なスピードアップと精度の向上を提供する。 我々は、TorchSISSOが様々なタスクにまたがって元のSISSOの性能に適合し、また計算時間を劇的に短縮し、より広い科学的応用のためのアクセシビリティを向上させることを実証した。

Symbolic regression (SR) is a powerful machine learning approach that searches for both the structure and parameters of algebraic models, offering interpretable and compact representations of complex data. Unlike traditional regression methods, SR explores progressively complex feature spaces, which can uncover simple models that generalize well, even from small datasets. Among SR algorithms, the Sure Independence Screening and Sparsifying Operator (SISSO) has proven particularly effective in the natural sciences, helping to rediscover fundamental physical laws as well as discover new interpretable equations for materials property modeling. However, its widespread adoption has been limited by performance inefficiencies and the challenges posed by its FORTRAN-based implementation, especially in modern computing environments. In this work, we introduce TorchSISSO, a native Python implementation built in the PyTorch framework. TorchSISSO leverages GPU acceleration, easy integration, and extensibility, offering a significant speed-up and improved accuracy over the original. We demonstrate that TorchSISSO matches or exceeds the performance of the original SISSO across a range of tasks, while dramatically reducing computational time and improving accessibility for broader scientific applications.
翻訳日:2024-11-04 15:34:04 公開日:2024-10-02
# $^{229}\mathrm{ThF}_4$薄膜の固体核時計への応用

$^{229}\mathrm{ThF}_4$ thin films for solid-state nuclear clocks ( http://arxiv.org/abs/2410.01753v1 )

ライセンス: Link先を確認
Chuankun Zhang, Lars von der Wense, Jack F. Doyle, Jacob S. Higgins, Tian Ooi, Hans U. Friebel, Jun Ye, R. Elwell, J. E. S. Terhune, H. W. T. Morgan, A. N. Alexandrova, H. B. Tran Tan, Andrei Derevianko, Eric R. Hudson, (参考訳) 50年近く検索した後、真空紫外$^{229}$Th核異性体遷移は、レーザー励起[1,2]を直接励起し、高分光精度で測定した[3]。 この遷移に基づく原子時計は、[6,7]の光原子時計よりも頑丈な[4,5]と期待されている。 彼らはまた、標準モデル[5,8,9]を超えた新しい物理学の感度テストも約束している。 これらの重要な進歩と応用を踏まえて、様々なプラットフォームにおける$^{229}$Th分光ターゲットの必要性が劇的に増加することが期待されている。 しかし, 従来測定した[1-3,10]の高濃度結晶[5]の成長と処理は, 約129ドルTh材料の不足と放射能のため困難である。 ここでは, 物理的蒸着法により成長したThF$_4$薄膜において, 原子核遷移のレーザー励起を示すことにより, これらの問題に対する潜在的にスケーラブルな解を実証する。 この$229}$ThF$_4$薄膜は、レーザー源や検出器と統合するためのフォトニクスプラットフォームやナノファブリケーションツールと本質的に互換性があり、通常のソードープ結晶([1-3,10])よりも3桁小さい放射能を持つ、電界分解可能な固体核時計への道を開いた。 $^{229}$ThF$_4$の高核エミッター密度は、新しい状態における量子光学の研究を可能にする可能性がある。 最後に, 欠陥のないThF$_4$結晶を用いた核時計の性能評価について述べる。

After nearly fifty years of searching, the vacuum ultraviolet $^{229}$Th nuclear isomeric transition has recently been directly laser excited [1,2] and measured with high spectroscopic precision [3]. Nuclear clocks based on this transition are expected to be more robust [4,5] than and may outperform [6,7] current optical atomic clocks. They also promise sensitive tests for new physics beyond the standard model [5,8,9]. In light of these important advances and applications, a dramatic increase in the need for $^{229}$Th spectroscopy targets in a variety of platforms is anticipated. However, the growth and handling of high-concentration $^{229}$Th-doped crystals [5] used in previous measurements [1-3,10] are challenging due to the scarcity and radioactivity of the $^{229}$Th material. Here, we demonstrate a potentially scalable solution to these problems by demonstrating laser excitation of the nuclear transition in $^{229}$ThF$_4$ thin films grown with a physical vapor deposition process, consuming only micrograms of $^{229}$Th material. The $^{229}$ThF$_4$ thin films are intrinsically compatible with photonics platforms and nanofabrication tools for integration with laser sources and detectors, paving the way for an integrated and field-deployable solid-state nuclear clock with radioactivity up to three orders of magnitude smaller than typical \thor-doped crystals [1-3,10]. The high nuclear emitter density in $^{229}$ThF$_4$ also potentially enables quantum optics studies in a new regime. Finally, we describe the operation and present the estimation of the performance of a nuclear clock based on a defect-free ThF$_4$ crystal.
翻訳日:2024-11-04 15:34:04 公開日:2024-10-02
# 乳癌サブタイプの遺伝子解析におけるタンパク質配列と発現レベルの統合

Integrating Protein Sequence and Expression Level to Analysis Molecular Characterization of Breast Cancer Subtypes ( http://arxiv.org/abs/2410.01755v1 )

ライセンス: Link先を確認
Hossein Sholehrasa, (参考訳) 乳がんの複雑性と変異性は、その進行を理解し、効果的な治療を導く上で大きな課題となる。 本研究は, 乳がんサブタイプの分子的特徴を改善し, 臨床結果を予測するために, タンパク質配列データと発現レベルを統合することを目的とする。 タンパク質配列に設計された言語モデルであるProtGPT2を用いて,タンパク質配列の機能的および構造的特性をキャプチャする埋め込みを生成する。 これらの埋め込みはタンパク質の発現レベルと統合され、強化された生物学的表現を形成し、クラスタリングのためのアンサンブルK平均や分類のためのXGBoostといった機械学習手法を用いて分析された。 本手法により, 生存率0.88, 生存率0.87, 生存率0.87, 生存率など, 患者を生物学的に異なるグループに分類し, 生存率やバイオマーカー状態などの臨床成績を正確に予測することができた。 KMT2C, GCN1, CLASP2などの重要なタンパク質は, ホルモン受容体とヒト表皮増殖因子受容体2(HER2)の発現に関連し, 腫瘍進行と患者の予後にそれぞれ重要な役割を担っている。 さらに、タンパク質-タンパク質相互作用ネットワークと相関解析により、乳がんのサブタイプに影響を及ぼすタンパク質の相互依存性が明らかになった。 これらの結果は, タンパク質配列と発現データの統合が腫瘍生物学の貴重な洞察を与え, 乳がん治療におけるパーソナライズされた治療戦略を強化する重要な可能性を示唆している。

Breast cancer's complexity and variability pose significant challenges in understanding its progression and guiding effective treatment. This study aims to integrate protein sequence data with expression levels to improve the molecular characterization of breast cancer subtypes and predict clinical outcomes. Using ProtGPT2, a language model designed for protein sequences, we generated embeddings that capture the functional and structural properties of proteins sequence. These embeddings were integrated with protein expression level to form enriched biological representations, which were analyzed using machine learning methods like ensemble K-means for clustering and XGBoost for classification. Our approach enabled successful clustering of patients into biologically distinct groups and accurately predicted clinical outcomes such as survival and biomarkers status, achieving high performance metrics, notably an F1 score of 0.88 for survival and 0.87 for biomarkers status prediction. Analysis of feature importance highlighted key proteins like KMT2C, GCN1, and CLASP2, linked to hormone receptor and Human Epidermal Growth Factor Receptor 2 (HER2) expression, which play a role in tumor progression and patient outcomes, respectively. Furthermore, protein-protein interaction networks and correlation analyses revealed the interdependence of proteins that may influence breast cancer subtype behaviors. These findings suggest that integrating protein sequence and expression data provides valuable insights into tumor biology and has significant potential to enhance personalized treatment strategies in breast cancer care.
翻訳日:2024-11-04 15:34:04 公開日:2024-10-02
# LightSC: DevSecOps用の使用可能なセキュリティ分類ツールの作成

LightSC: The Making of a Usable Security Classification Tool for DevSecOps ( http://arxiv.org/abs/2410.01762v1 )

ライセンス: Link先を確認
Manish Shrestha, Christian Johansen, Johanna Johansen, (参考訳) セキュリティトレーニングとツールを備えたDevOpsの拡張であるDevSecOpsは、特にモノのインターネット(Internet of Things)領域において、ユーザ/クライアントが密接に関与する短いリリースサイクルで、迅速な開発に重点を置いているため、モダンなソフトウェアを開発する一般的な方法となっている。 一方、セキュリティ分類手法は、リスク分析や認証といった他の類似分野と同様、セキュリティに関する高度な専門知識を必要とする重く遅いプロセスである。 このように、セキュリティ分類手法はDevSecOps文化とはほとんど互換性がないが、それとは対照的に、ソフトウェア製品が最終段階にある場合やすでにデプロイされている場合のみに行われる従来の浸透テストスタイルから離れている。 本研究では,まず,セキュリティ分類が‘emph{DevOps-ready}’となるための5つの原則を提案する。 次に、セキュリティ分類方法論をDevOps対応にする方法を例示します。 このプロセスでは、選択した方法論を実装するツールのユーザビリティを作成し、評価します。 このような作業は、使用可能なセキュリティコミュニティの中では新しく、さらにソフトウェア開発(DevOps)コミュニティでは、私たちのプロセスから、独自のセキュリティ方法論をDevOps対応にする場合に、他の人が従うことのできる、一般的な3ステップの“レシピ”を抽出します。 私たちが構築するツールはそれ自体このプロセスのコントリビューションであり、開発者チームによってDevSecOpsツールチェーンに独立して使用、拡張、あるいは統合することができます。 私たちのツールは(テスト対象者によって)設計フェーズでもっとも有用であると考えられていますが、セキュリティクラスがソフトウェアの品質を評価するのに使用される指標の1つとなるテストフェーズでも役立ちます。

DevSecOps, as the extension of DevOps with security training and tools, has become a popular way of developing modern software, especially in the Internet of Things arena, due to its focus on rapid development, with short release cycles, involving the user/client very closely. Security classification methods, on the other hand, are heavy and slow processes that require high expertise in security, the same as in other similar areas such as risk analysis or certification. As such, security classification methods are hardly compatible with the DevSecOps culture, which to the contrary, has moved away from the traditional style of penetration testing done only when the software product is in the final stages or already deployed. In this work, we first propose five principles for a security classification to be \emph{DevOps-ready}, two of which will be the focus for the rest of the paper, namely to be tool-based and easy to use for non-security experts, such as ordinary developers or system architects. We then exemplify how one can make a security classification methodology DevOps-ready. We do this through an interaction design process, where we create and evaluate the usability of a tool implementing the chosen methodology. Since such work seems to be new within the usable security community, and even more so in the software development (DevOps) community, we extract from our process a general, three-steps `recipe' that others can follow when making their own security methodologies DevOps-ready. The tool that we build is in itself a contribution of this process, as it can be independently used, extended, and/or integrated by developer teams into their DevSecOps tool-chains. Our tool is perceived (by the test subjects) as most useful in the design phase, but also during the testing phase where the security class would be one of the metrics used to evaluate the quality of their software.
翻訳日:2024-11-04 15:34:04 公開日:2024-10-02
# 解剖学的制約を伴う多発性硬化症病変に対するSegHeDの有用性

SegHeD: Segmentation of Heterogeneous Data for Multiple Sclerosis Lesions with Anatomical Constraints ( http://arxiv.org/abs/2410.01766v1 )

ライセンス: Link先を確認
Berke Doga Basaran, Xinru Zhang, Paul M. Matthews, Wenjia Bai, (参考訳) 多発性硬化症 (MS) の診断・モニタリングにおいて, 脳MRI画像からの病変の評価とその経時的進展が重要な役割を担っている。 機械学習モデルは、自動MS病変セグメンテーションの大きな可能性を実証している。 このようなモデルのトレーニングは通常、一貫して注釈付けされた大規模で高品質なデータセットを必要とする。 しかし、MSイメージングデータセットは、しばしば小さく、複数の部位にまたがって分離され、異なるフォーマット(断面または縦方向)と多様なアノテーションスタイルを持つ。 これは統合MS病変セグメンテーションモデルをトレーニングする上で大きな課題となる。 この課題に対処するために,異種データを入力として組み込んだ新しいマルチデータセットマルチタスクセグメンテーションモデルであるSegHeDを提案する。 さらに,MS病変の領域知識を考慮し,時間的,空間的,体積的制約をセグメンテーションモデルに組み込んだ。 SegHeDは5つのMSデータセットに基づいて評価され、すべての、新しい、そして消滅するセグメンテーションにおいて高いパフォーマンスを達成する。

Assessment of lesions and their longitudinal progression from brain magnetic resonance (MR) images plays a crucial role in diagnosing and monitoring multiple sclerosis (MS). Machine learning models have demonstrated a great potential for automated MS lesion segmentation. Training such models typically requires large-scale high-quality datasets that are consistently annotated. However, MS imaging datasets are often small, segregated across multiple sites, with different formats (cross-sectional or longitudinal), and diverse annotation styles. This poses a significant challenge to train a unified MS lesion segmentation model. To tackle this challenge, we present SegHeD, a novel multi-dataset multi-task segmentation model that can incorporate heterogeneous data as input and perform all-lesion, new-lesion, as well as vanishing-lesion segmentation. Furthermore, we account for domain knowledge about MS lesions, incorporating longitudinal, spatial, and volumetric constraints into the segmentation model. SegHeD is assessed on five MS datasets and achieves a high performance in all, new, and vanishing-lesion segmentation, outperforming several state-of-the-art methods in this field.
翻訳日:2024-11-04 15:24:19 公開日:2024-10-02
# 決定に焦点をあてた不確かさの定量化

Decision-Focused Uncertainty Quantification ( http://arxiv.org/abs/2410.01767v1 )

ライセンス: Link先を確認
Santiago Cortes-Gomez, Carlos Patiño, Yewon Byun, Steven Wu, Eric Horvitz, Bryan Wilder, (参考訳) 下流最適化問題において、予測がどのように使用されるかをモデルに訓練する'決定中心'機械学習手法への関心が高まっている。 そうすることで、後続の意思決定におけるパフォーマンスが向上することが多い。 しかし、現在の不確実性定量化の方法は下流の決定に関する情報を全く含まない。 本研究では, 下流決定損失関数を考慮した予測セットを生成するために, 整合予測に基づくフレームワークを開発する。 提案手法は, 下流決定とユーザ特定ユーティリティ機能を取り入れつつ, モジュラリティ, モデル非依存, 統計的カバレッジ保証の強みを利用する。 我々は,本手法が標準カバレッジ保証を維持していることを証明した。 各種データセットおよび実用指標の実証評価により,本手法が標準コンフォメーション法に比べて決定損失が有意に低いことを示す。 また,臨床診断における現実的なユースケースとして,皮膚疾患の階層構造を効果的に取り入れた手法を提案する。 本手法は,コヒーレントな診断意味を持つセットを生成し,皮膚科診断におけるトリアージプロセスを支援し,我々の手法が外部領域の知識に基づいて高い意思決定を下す方法を示す。

There is increasing interest in ''decision-focused'' machine learning methods which train models to account for how their predictions are used in downstream optimization problems. Doing so can often improve performance on subsequent decision problems. However, current methods for uncertainty quantification do not incorporate any information at all about downstream decisions. We develop a framework based on conformal prediction to produce prediction sets that account for a downstream decision loss function, making them more appropriate to inform high-stakes decision-making. Our approach harnesses the strengths of conformal methods--modularity, model-agnosticism, and statistical coverage guarantees--while incorporating downstream decisions and user-specified utility functions. We prove that our methods retain standard coverage guarantees. Empirical evaluation across a range of datasets and utility metrics demonstrates that our methods achieve significantly lower decision loss compared to standard conformal methods. Additionally, we present a real-world use case in healthcare diagnosis, where our method effectively incorporates the hierarchical structure of dermatological diseases. It successfully generates sets with coherent diagnostic meaning, aiding the triage process during dermatology diagnosis and illustrating how our method can ground high-stakes decision-making on external domain knowledge.
翻訳日:2024-11-04 15:24:19 公開日:2024-10-02
# SegEarth-OV:リモートセンシング画像のためのトラニングフリーなオープンボキャブラリセグメンテーションを目指して

SegEarth-OV: Towards Traning-Free Open-Vocabulary Segmentation for Remote Sensing Images ( http://arxiv.org/abs/2410.01768v1 )

ライセンス: Link先を確認
Kaiyu Li, Ruixun Liu, Xiangyong Cao, Deyu Meng, Zhi Wang, (参考訳) リモートセンシング画像は、農業、水資源、軍事、災害救助などの分野では不可能な役割を担っている。 リモートセンシング画像アプリケーションにとって、ピクセルレベルの解釈は重要な側面である。 そこで我々は,リモートセンシングコンテキストにオープン語彙セマンティックセグメンテーション(OVSS)を導入する。 しかし、低解像度の特徴に対するリモートセンシング画像の感度のため、予測マスクには歪んだターゲット形状と不適合境界が示される。 この問題に対処するため、トレーニング不要なスタイルで、失われた空間情報を深い特徴で復元する、シンプルで汎用的なアップサンプラーSimFeatUpを提案する。 さらに,CLIPの[CLS]トークンに対する局所パッチトークンの異常応答の観測に基づいて,パッチトークンのグローバルバイアスを軽減するための簡単なサブトラクション操作を提案する。 セマンティックセグメンテーション、ビルディング抽出、道路検出、洪水検出タスクにまたがる17のリモートセンシングデータセットについて、大規模な実験を行った。 本手法は,4つのタスクにおける最先端手法よりも平均5.8%,8.2%,4%,15.3%向上した。 すべてのコードはリリースされている。 \url{https://earth-insights.github.io/SegEarth-OV}

Remote sensing image plays an irreplaceable role in fields such as agriculture, water resources, military, and disaster relief. Pixel-level interpretation is a critical aspect of remote sensing image applications; however, a prevalent limitation remains the need for extensive manual annotation. For this, we try to introduce open-vocabulary semantic segmentation (OVSS) into the remote sensing context. However, due to the sensitivity of remote sensing images to low-resolution features, distorted target shapes and ill-fitting boundaries are exhibited in the prediction mask. To tackle this issue, we propose a simple and general upsampler, SimFeatUp, to restore lost spatial information in deep features in a training-free style. Further, based on the observation of the abnormal response of local patch tokens to [CLS] token in CLIP, we propose to execute a straightforward subtraction operation to alleviate the global bias in patch tokens. Extensive experiments are conducted on 17 remote sensing datasets spanning semantic segmentation, building extraction, road detection, and flood detection tasks. Our method achieves an average of 5.8%, 8.2%, 4%, and 15.3% improvement over state-of-the-art methods on 4 tasks. All codes are released. \url{https://earth-insights.github.io/SegEarth-OV}
翻訳日:2024-11-04 15:24:19 公開日:2024-10-02
# Bayesian Binary Search

Bayesian Binary Search ( http://arxiv.org/abs/2410.01771v1 )

ライセンス: Link先を確認
Vikash Singh, Matthew Khanzadeh, Vincent Davis, Harrison Rush, Emanuele Rossi, Jesse Shrader, Pietro Lio, (参考訳) 本稿では,古典的二分探索/二分探索アルゴリズムの新しい確率的変種であるBayesian Binary Search(BBS)を提案する。 BBSは、機械学習/統計手法を活用して、探索空間の確率密度を推定し、従来の中間点ではなく確率密度に基づいて分岐ステップを修正し、探索空間の学習分布が探索アルゴリズムを導くことを可能にする。 探索空間密度推定は、教師付き確率的機械学習技術(例えば、ガウス過程回帰、ベイズニューラルネットワーク、量子回帰)または教師なし学習アルゴリズム(例えば、ガウス混合モデル、カーネル密度推定(KDE)、最大推定(MLE))を用いて柔軟に行うことができる。 我々は,さまざまなディストリビューションにまたがるシミュレーションデータと,BBSアルゴリズムを実運用環境にデプロイしたBitcoin Lightning Network内のチャネルバランスを探索する実世界のバイナリ検索ユースケースの両方で,BBSを使用することによる大幅な効率向上を実証した。

We present Bayesian Binary Search (BBS), a novel probabilistic variant of the classical binary search/bisection algorithm. BBS leverages machine learning/statistical techniques to estimate the probability density of the search space and modifies the bisection step to split based on probability density rather than the traditional midpoint, allowing for the learned distribution of the search space to guide the search algorithm. Search space density estimation can flexibly be performed using supervised probabilistic machine learning techniques (e.g., Gaussian process regression, Bayesian neural networks, quantile regression) or unsupervised learning algorithms (e.g., Gaussian mixture models, kernel density estimation (KDE), maximum likelihood estimation (MLE)). We demonstrate significant efficiency gains of using BBS on both simulated data across a variety of distributions and in a real-world binary search use case of probing channel balances in the Bitcoin Lightning Network, for which we have deployed the BBS algorithm in a production setting.
翻訳日:2024-11-04 15:24:19 公開日:2024-10-02
# DeFine: 因子プロファイルとアナロジカル推論によるLCM意思決定の強化

DeFine: Enhancing LLM Decision-Making with Factor Profiles and Analogical Reasoning ( http://arxiv.org/abs/2410.01772v1 )

ライセンス: Link先を確認
Yebowen Hu, Xiaoyang Wang, Wenlin Yao, Yiming Lu, Daoan Zhang, Hassan Foroosh, Dong Yu, Fei Liu, (参考訳) LLMは、長いコンテキストを推論し、重要な要因を特定する能力のため、意思決定に理想的です。 しかし,複雑なシナリオを記述した音声の書き起こしを処理する場合,課題が発生する。 これらの写本は、しばしば非文法的あるいは不完全な文、繰り返し、ヘッジ、曖昧さを含んでいる。 例えば、会社の決算会見の間、幹部は、将来の利益に関して大きな不確実性があるにもかかわらず、投資家を安心させるためにポジティブな収益見通しを予想するかもしれない。 LLMが決定を下す際には、この不確実性を体系的に組み込むことが不可欠である。 本稿では,複雑なシナリオから確率係数プロファイルを構築する新しいフレームワークであるDeFineを紹介する。 DeFineはこれらのプロファイルを類似の推論と統合し、同様の過去の経験からの洞察を活用して、新しい状況における批判的な決定をLCMに導く。 本フレームワークは,複雑なシナリオにおける不確実性を定量化し,LCMの意思決定に組み込むタスクを分離する。 このアプローチは、医療相談、交渉、政治的議論といった分野において特に有用であり、不確実性の下での意思決定が不可欠である。

LLMs are ideal for decision-making due to their ability to reason over long contexts and identify critical factors. However, challenges arise when processing transcripts of spoken speech describing complex scenarios. These transcripts often contain ungrammatical or incomplete sentences, repetitions, hedging, and vagueness. For example, during a company's earnings call, an executive might project a positive revenue outlook to reassure investors, despite significant uncertainty regarding future earnings. It is crucial for LLMs to incorporate this uncertainty systematically when making decisions. In this paper, we introduce DeFine, a new framework that constructs probabilistic factor profiles from complex scenarios. DeFine then integrates these profiles with analogical reasoning, leveraging insights from similar past experiences to guide LLMs in making critical decisions in novel situations. Our framework separates the tasks of quantifying uncertainty in complex scenarios and incorporating it into LLM decision-making. This approach is particularly useful in fields such as medical consultations, negotiations, and political debates, where making decisions under uncertainty is vital.
翻訳日:2024-11-04 15:24:19 公開日:2024-10-02
# 教師付き変圧器分類器 : 文脈に適合するベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグ

Trained Transformer Classifiers Generalize and Exhibit Benign Overfitting In-Context ( http://arxiv.org/abs/2410.01774v1 )

ライセンス: Link先を確認
Spencer Frei, Gal Vardi, (参考訳) トランスフォーマーは教師付き学習アルゴリズムとして機能する能力を持つ: ラベル付きトレーニング("in-context")例とラベルなしテスト例のセットを同じ次元のベクトルの入力シーケンスに適切にエンコードすることで、トランスフォーマーの前方通過は、ラベルなしテスト例の予測を生成することができる。 最近の研究の行は、線形回帰タスクのランダムなインスタンス上で線形変換器を事前訓練する場合、これらの訓練された変換器は、通常の最小二乗法と同様のアルゴリズムを用いて予測を行うことを示した。 本研究では,ランダムな線形分類タスクを訓練した線形変圧器の挙動について検討する。 勾配降下の暗黙的な正則化を解析することにより、トレーニングされたトランスフォーマーがテスト時によく一般化するために、事前学習タスクや文脈内サンプルがいくつ必要かの特徴付けを行う。 さらに、これらのトレーニングされたトランスフォーマーは、"良質なオーバーフィットインコンテクスト"を表現可能であることも示している。インコンテクストの例がラベルのフリップノイズによって破損した場合、トランスフォーマーは、そのインコンテクストの例(ノイズのあるラベルを含む)をすべて記憶するが、クリーンなテスト例では、ほぼ最適に一般化する。

Transformers have the capacity to act as supervised learning algorithms: by properly encoding a set of labeled training ("in-context") examples and an unlabeled test example into an input sequence of vectors of the same dimension, the forward pass of the transformer can produce predictions for that unlabeled test example. A line of recent work has shown that when linear transformers are pre-trained on random instances for linear regression tasks, these trained transformers make predictions using an algorithm similar to that of ordinary least squares. In this work, we investigate the behavior of linear transformers trained on random linear classification tasks. Via an analysis of the implicit regularization of gradient descent, we characterize how many pre-training tasks and in-context examples are needed for the trained transformer to generalize well at test-time. We further show that in some settings, these trained transformers can exhibit "benign overfitting in-context": when in-context examples are corrupted by label flipping noise, the transformer memorizes all of its in-context examples (including those with noisy labels) yet still generalizes near-optimally for clean test examples.
翻訳日:2024-11-04 15:24:19 公開日:2024-10-02
# 気候モデルアンサンブルの動的生成的ダウンスケーリング

Dynamical-generative downscaling of climate model ensembles ( http://arxiv.org/abs/2410.01776v1 )

ライセンス: Link先を確認
Ignacio Lopez-Gomez, Zhong Yi Wan, Leonardo Zepeda-Núñez, Tapio Schneider, John Anderson, Fei Sha, (参考訳) 地域の高解像度気候予測は、農業、水文学、自然災害リスク評価など、多くの用途に欠かせない。 地球系モデル (ESM) によって駆動される地域気候モデル (RCM) の実行を伴う、局所的な将来の気候情報を生成する最先端の手法である動的ダウンスケーリング(英語版)は、大規模な気候予測アンサンブルに適用するには計算に費用がかかりすぎる。 本稿では,動的ダウンスケーリングと生成人工知能を組み合わせることで,コストを削減し,下降した気候予測の不確実性評価を改善する手法を提案する。 このフレームワークでは、RCMはESMの出力を中間分解能に動的にダウンスケールし、次いで生成拡散モデルにより、目標スケールへの分解能をさらに改善する。 このアプローチは、物理学に基づくモデルの一般化性と拡散モデルのサンプリング効率を活用し、大規模なマルチモデルアンサンブルのダウンスケーリングを可能にする。 CMIP6アンサンブルからの動的ダウンスケール気候予測に対して,本手法の評価を行った。 以上の結果から,より小さなアンサンブルの動的ダウンスケーリングや,従来の経験的統計的ダウンスケーリング手法のような代替手段よりも,将来の地域気候に正確な不確実性を与える能力を示した。 また, 動的・生成的ダウンスケーリングは, 偏差補正や空間分解(BCSD)よりも誤差が著しく小さく, 気象場のスペクトルと多変量相関をより正確に捉えていることを示す。 これらの特徴は、動的生成フレームワークを柔軟で正確で効率的な方法で、現在の純粋な動的ダウンスケーリングには及ばない、大規模な気候予測をダウンスケールさせる。

Regional high-resolution climate projections are crucial for many applications, such as agriculture, hydrology, and natural hazard risk assessment. Dynamical downscaling, the state-of-the-art method to produce localized future climate information, involves running a regional climate model (RCM) driven by an Earth System Model (ESM), but it is too computationally expensive to apply to large climate projection ensembles. We propose a novel approach combining dynamical downscaling with generative artificial intelligence to reduce the cost and improve the uncertainty estimates of downscaled climate projections. In our framework, an RCM dynamically downscales ESM output to an intermediate resolution, followed by a generative diffusion model that further refines the resolution to the target scale. This approach leverages the generalizability of physics-based models and the sampling efficiency of diffusion models, enabling the downscaling of large multi-model ensembles. We evaluate our method against dynamically-downscaled climate projections from the CMIP6 ensemble. Our results demonstrate its ability to provide more accurate uncertainty bounds on future regional climate than alternatives such as dynamical downscaling of smaller ensembles, or traditional empirical statistical downscaling methods. We also show that dynamical-generative downscaling results in significantly lower errors than bias correction and spatial disaggregation (BCSD), and captures more accurately the spectra and multivariate correlations of meteorological fields. These characteristics make the dynamical-generative framework a flexible, accurate, and efficient way to downscale large ensembles of climate projections, currently out of reach for pure dynamical downscaling.
翻訳日:2024-11-04 15:24:18 公開日:2024-10-02
# KeyVisor - CPU強化された使用ポリシーによる保護されたキーハンドルのための軽量ISA拡張

KeyVisor -- A Lightweight ISA Extension for Protected Key Handles with CPU-enforced Usage Policies ( http://arxiv.org/abs/2410.01777v1 )

ライセンス: Link先を確認
Fabian Schwarz, Jan Philipp Thoma, Christian Rossow, Tim Güneysu, (参考訳) 暗号化鍵の機密性は、通信、ファイル暗号化、アウトソース計算に使用される保護スキームのセキュリティに不可欠である。 暗号解読攻撃以外にも、敵はソフトウェアエクスプロイトやサイドチャネルを通じて、メモリからキーを盗み、シークレットを改ざんしたり、キー所有者を偽装したりすることができる。 したがって、既存のディフェンスは専用のデバイスや孤立したメモリのキーを保護し、暗号化された形式でのみ保存する。 しかし、これらの設計は、しばしば好ましくないトレードオフ、パフォーマンスの犠牲、きめ細かいアクセス制御、デプロイ可能性を提供する。 本稿では,暗号鍵の処理をCPUに安全にオフロードする軽量ISA拡張であるKeyVisorを提案する。 KeyVisorは、アプリケーションが保護されたキーハンドルをリクエストし、それら上でAEAD暗号操作を実行できるようにするCPU命令を提供する。 基礎となるキーはKeyVisorでのみアクセスでき、そのためメモリにリークすることはない。 KeyVisorの直接CPU統合は、高速な暗号操作とハードウェアで強化された鍵使用制限を可能にする。 さらに、TEEの監視ファームウェアである特権ソフトウェアは、キーを無効にしたり、特定のプロセス/TEEにバインドしたりすることができる。 Rocket Chipに基づくRISC-V用のKeyVisorを実装し、その性能を評価し、キーバリューデータベース、自動車機能ライセンス、読み取り専用ネットワークミドルボックスなどの実世界のユースケースを実証する。

The confidentiality of cryptographic keys is essential for the security of protection schemes used for communication, file encryption, and outsourced computation. Beyond cryptanalytic attacks, adversaries can steal keys from memory via software exploits or side channels, enabling them to, e.g., tamper with secrets or impersonate key owners. Therefore, existing defenses protect keys in dedicated devices or isolated memory, or store them only in encrypted form. However, these designs often provide unfavorable tradeoffs, sacrificing performance, fine-grained access control, or deployability. In this paper, we present KeyVisor, a lightweight ISA extension that securely offloads the handling of cryptographic keys to the CPU. KeyVisor provides CPU instructions that enable applications to request protected key handles and perform AEAD cipher operations on them. The underlying keys are accessible only by KeyVisor, and thus never leak to memory. KeyVisor's direct CPU integration enables fast crypto operations and hardware-enforced key usage restrictions, e.g., keys usable only for de-/encryption, with a limited lifetime, or with a process binding. Furthermore, privileged software, e.g., the monitor firmware of TEEs, can revoke keys or bind them to a specific process/TEE. We implement KeyVisor for RISC-V based on Rocket Chip, evaluate its performance, and demonstrate real-world use cases, including key-value databases, automotive feature licensing, and a read-only network middlebox.
翻訳日:2024-11-04 15:24:18 公開日:2024-10-02
# Open-RAG: オープンソースの大規模言語モデルによる検索強化推論

Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models ( http://arxiv.org/abs/2410.01782v1 )

ライセンス: Link先を確認
Shayekh Bin Islam, Md Asib Rahman, K S M Tozammel Hossain, Enamul Hoque, Shafiq Joty, Md Rizwan Parvez, (参考訳) Retrieval-Augmented Generation (RAG) は、Large Language Models (LLMs) の実際の精度を高めることが示されているが、既存の手法は、検索したエビデンスを効果的に活用する際、特にオープンソース LLM を使用する場合に、限定的な推論能力に悩まされることが多い。 このギャップを緩和するために、オープンソースLLMによるRAGの推論能力を高めるために設計された新しいフレームワーク、Open-RAGを導入する。 我々のフレームワークは、任意の高密度LCMをパラメータ効率のよい専門家(MoE)モデルに変換し、シングルホップクエリとマルチホップクエリの両方を含む複雑な推論タスクを処理できる。 Open-RAGは、このモデルを訓練して、不適切なように見えるが誤解を招くような、挑戦的な気晴らしをナビゲートする。 その結果、Open-RAGは潜在学習を活用し、関連する専門家を動的に選択し、より正確で文脈的に関連する応答のために外部知識を効果的に統合する。 さらに,性能向上と推論速度のトレードオフを両立させるためのハイブリッド適応検索手法を提案する。 Llama2-7BをベースとしたOpen-RAGは,ChatGPTやSelf-RAG,Command R+といった最先端のLLMやRAGモデルよりも,知識集約的なタスクで優れていた。 私たちはコードとモデルをhttps://openragmoe.github.io/でオープンソース化しています。

Retrieval-Augmented Generation (RAG) has been shown to enhance the factual accuracy of Large Language Models (LLMs), but existing methods often suffer from limited reasoning capabilities in effectively using the retrieved evidence, particularly when using open-source LLMs. To mitigate this gap, we introduce a novel framework, Open-RAG, designed to enhance reasoning capabilities in RAG with open-source LLMs. Our framework transforms an arbitrary dense LLM into a parameter-efficient sparse mixture of experts (MoE) model capable of handling complex reasoning tasks, including both single- and multi-hop queries. Open-RAG uniquely trains the model to navigate challenging distractors that appear relevant but are misleading. As a result, Open-RAG leverages latent learning, dynamically selecting relevant experts and integrating external knowledge effectively for more accurate and contextually relevant responses. In addition, we propose a hybrid adaptive retrieval method to determine retrieval necessity and balance the trade-off between performance gain and inference speed. Experimental results show that the Llama2-7B-based Open-RAG outperforms state-of-the-art LLMs and RAG models such as ChatGPT, Self-RAG, and Command R+ in various knowledge-intensive tasks. We open-source our code and models at https://openragmoe.github.io/
翻訳日:2024-11-04 15:14:33 公開日:2024-10-02
# OmniGenBench:ゲノムファンデーションモデルのための大規模インシリコベンチマークの自動化

OmniGenBench: Automating Large-scale in-silico Benchmarking for Genomic Foundation Models ( http://arxiv.org/abs/2410.01784v1 )

ライセンス: Link先を確認
Heng Yang, Jack Cole, Ke Li, (参考訳) 近年のLarge Language Models (LLMs)のような人工知能の進歩は、ゲノム基盤モデル(GFMs)のブレークスルーへの期待を加速させた。 生命の進化の始まりから多様なゲノムに隠された自然のコードは、ゲノムモデリングを通じて人間や生態系に影響を与える大きな可能性を秘めている。 Evoのような近年のGFMのブレークスルーは、長年の課題に対処し、サイリコのゲノム研究を自動化され、信頼性があり、効率的なパラダイムに転換するなど、ゲノムモデリングに多大な投資と関心を集めている。 ゲノミクスにおける連続的な技術革新の時代において、GFM研究は、GFMベンチマークツールの欠如と多様なゲノミクスのためのオープンソースソフトウェアがないという2つの大きな課題に直面している。 これらの課題は、GFMの急速な進化を妨げ、ゲノムの理解や合成といったタスクに広く応用され、何十年も続いている。 これらの課題に対処するために, GFM 指向のベンチマーク専用フレームワーク GFMBench を紹介する。 GFMBenchはベンチマークスイートを標準化し、幅広いオープンソースGFMのベンチマークを自動化する。 4つの大規模なベンチマークから数百のゲノミクスタスクに数百万のゲノム配列を統合し、広範囲のサイリコゲノム応用のためにGFMを民主化する。 さらに、GFMBenchはオープンソースソフトウェアとしてリリースされ、AutoBenchに適用可能なユーザフレンドリーなインターフェースと多様なチュートリアル、RNA設計や構造予測といった複雑なタスクを提供する。 ゲノムモデリングのさらなる進歩を促進するため、我々はAutoBenchのベンチマーク性能を示す公開リーダーボードを立ち上げた。 GFMBenchは、GFMベンチマークの標準化とGFMアプリケーションの民主化に向けたステップである。

The advancements in artificial intelligence in recent years, such as Large Language Models (LLMs), have fueled expectations for breakthroughs in genomic foundation models (GFMs). The code of nature, hidden in diverse genomes since the very beginning of life's evolution, holds immense potential for impacting humans and ecosystems through genome modeling. Recent breakthroughs in GFMs, such as Evo, have attracted significant investment and attention to genomic modeling, as they address long-standing challenges and transform in-silico genomic studies into automated, reliable, and efficient paradigms. In the context of this flourishing era of consecutive technological revolutions in genomics, GFM studies face two major challenges: the lack of GFM benchmarking tools and the absence of open-source software for diverse genomics. These challenges hinder the rapid evolution of GFMs and their wide application in tasks such as understanding and synthesizing genomes, problems that have persisted for decades. To address these challenges, we introduce GFMBench, a framework dedicated to GFM-oriented benchmarking. GFMBench standardizes benchmark suites and automates benchmarking for a wide range of open-source GFMs. It integrates millions of genomic sequences across hundreds of genomic tasks from four large-scale benchmarks, democratizing GFMs for a wide range of in-silico genomic applications. Additionally, GFMBench is released as open-source software, offering user-friendly interfaces and diverse tutorials, applicable for AutoBench and complex tasks like RNA design and structure prediction. To facilitate further advancements in genome modeling, we have launched a public leaderboard showcasing the benchmark performance derived from AutoBench. GFMBench represents a step toward standardizing GFM benchmarking and democratizing GFM applications.
翻訳日:2024-11-04 15:14:33 公開日:2024-10-02
# 微分方程式制約付き最適化問題の解法

Learning To Solve Differential Equation Constrained Optimization Problems ( http://arxiv.org/abs/2410.01786v1 )

ライセンス: Link先を確認
Vincenzo Di Vito, Mostafa Mohammadian, Kyri Baker, Ferdinando Fioretto, (参考訳) 微分方程式(DE)の制約された最適化は、エネルギーシステム、航空宇宙工学、生態学、金融など、多くの科学・工学分野において重要な役割を果たす。 その重要性にもかかわらず、これらの問題に関連する計算上の課題は実用的利用を制限している。 これらの制約に対処するために、プロキシ最適化とニューラル微分方程式の技法を組み合わせたDEC最適化の学習に基づくアプローチを提案する。 提案手法は二重ネットワークアーキテクチャを用いており、制御戦略を近似し、定常的制約に焦点をあて、関連するDESを解く。 この組み合わせにより、ほぼリアルタイムで動的制約を考慮しつつ最適な戦略を近似することができる。 エネルギー最適化と金融モデルにおける問題に対する実験により、この手法は動的制約に完全に準拠し、システムの動的方程式を明示的にモデル化しない他の方法よりも25倍正確な結果が得られることが示された。

Differential equations (DE) constrained optimization plays a critical role in numerous scientific and engineering fields, including energy systems, aerospace engineering, ecology, and finance, where optimal configurations or control strategies must be determined for systems governed by ordinary or stochastic differential equations. Despite its significance, the computational challenges associated with these problems have limited their practical use. To address these limitations, this paper introduces a learning-based approach to DE-constrained optimization that combines techniques from proxy optimization and neural differential equations. The proposed approach uses a dual-network architecture, with one approximating the control strategies, focusing on steady-state constraints, and another solving the associated DEs. This combination enables the approximation of optimal strategies while accounting for dynamic constraints in near real-time. Experiments across problems in energy optimization and finance modeling show that this method provides full compliance with dynamic constraints and it produces results up to 25 times more precise than other methods which do not explicitly model the system's dynamic equations.
翻訳日:2024-11-04 15:14:33 公開日:2024-10-02
# RLHF法の検討

Investigating on RLHF methodology ( http://arxiv.org/abs/2410.01789v1 )

ライセンス: Link先を確認
Alexey Kutalev, Sergei Markoff, (参考訳) 本稿では,人間の好みに応じた大規模言語モデルのアライメントを検討する。 本稿では,人間の嗜好をシミュレートする選好モデル(Preference Model)の訓練の特徴と,最良の結果を達成する上で不可欠な方法や詳細について論じる。 また、強化学習(Reinforcement Learning)を用いて大規模言語モデルを微調整し、直面した課題と克服方法を説明する。 さらに、我々は、大規模言語モデルと人間の嗜好との整合性を、個別の選好モデルを作成することなく実現する、ダイレクト・選好最適化法を用いて、経験を提示する。 コントリビューションとして、パープレキシティ・フィルタリングによる選好データセットの収集アプローチを導入し、特定の言語モデルのためのそのようなデータセットを作成するプロセスがより簡単で、よりコスト効率の良いものとなるようにした。

In this article, we investigate the alignment of Large Language Models according to human preferences. We discuss the features of training a Preference Model, which simulates human preferences, and the methods and details we found essential for achieving the best results. We also discuss using Reinforcement Learning to fine-tune Large Language Models and describe the challenges we faced and the ways to overcome them. Additionally, we present our experience with the Direct Preference Optimization method, which enables us to align a Large Language Model with human preferences without creating a separate Preference Model. As our contribution, we introduce the approach for collecting a preference dataset through perplexity filtering, which makes the process of creating such a dataset for a specific Language Model much easier and more cost-effective.
翻訳日:2024-11-04 15:14:33 公開日:2024-10-02
# DreamGarden:1つのプロンプトからゲームを育てるデザイナーアシスタント

DreamGarden: A Designer Assistant for Growing Games from a Single Prompt ( http://arxiv.org/abs/2410.01791v1 )

ライセンス: Link先を確認
Sam Earle, Samyak Parajuli, Andrzej Banburski-Fahey, (参考訳) コーディングアシスタントは、コード生成と高レベルプラン作成の両方において、ゲーム設計においてますます活用されている。 これらのツールは、どの程度開発者ワークフローと整合できるのか、また、人とコンピュータのインタラクションの新しいモードが、彼らの使用から生まれるのか? 本稿では,Unreal Engineにおける多様なゲーム環境の開発を支援するAIシステムであるDreamGardenを紹介する。 我々の手法の中核はLLM駆動のプランナーで、夢、記憶、想像上のシナリオを1つの高レベルなプロンプト(夢、記憶、または人間の提供するシナリオ)を階層的なアクションプランに分解し、具体的な実装を容易にする特別なサブモジュールに分散します。 このシステムは、独立して成長し、シードプロンプト、プルーニング、フィードバックを通じてユーザーの介入に反応する計画と行動の庭としてユーザに提示される。 ユーザスタディを通じて,本システムの設計意味,半自律型アシスタントにおける今後の作業のためのチャート作成コース,およびオープンエンドシミュレーション設計について検討する。

Coding assistants are increasingly leveraged in game design, both generating code and making high-level plans. To what degree can these tools align with developer workflows, and what new modes of human-computer interaction can emerge from their use? We present DreamGarden, an AI system capable of assisting with the development of diverse game environments in Unreal Engine. At the core of our method is an LLM-driven planner, capable of breaking down a single, high-level prompt -- a dream, memory, or imagined scenario provided by a human user -- into a hierarchical action plan, which is then distributed across specialized submodules facilitating concrete implementation. This system is presented to the user as a garden of plans and actions, both growing independently and responding to user intervention via seed prompts, pruning, and feedback. Through a user study, we explore design implications of this system, charting courses for future work in semi-autonomous assistants and open-ended simulation design.
翻訳日:2024-11-04 15:14:33 公開日:2024-10-02
# 熱力学ベイズ推論

Thermodynamic Bayesian Inference ( http://arxiv.org/abs/2410.01793v1 )

ライセンス: Link先を確認
Maxwell Aifer, Samuel Duffield, Kaelan Donatella, Denis Melanson, Phoebe Klett, Zach Belateche, Gavin Crooks, Antonio J. Martinez, Patrick J. Coles, (参考訳) 複雑な予測モデル(ディープニューラルネットワークなど)を完全にベイズ処理することで、厳密な不確実性定量化とモデル選択を含む高度なタスクの自動化が可能になる。 しかし、多くのパラメータにわたってベイズ後方をサンプリングすることの難しさは、最も必要となるベイズ法の使用を阻害する。 熱力学計算は、行列反転などの機械学習で用いられる演算を加速するパラダイムとして登場し、ランゲヴィン方程式をノイズのある物理系の力学にマッピングする手法に基づいている。 したがって、熱力学デバイス上でのランゲヴィンサンプリングアルゴリズムの実装を考えるのは自然である。 本研究では, ベイズ後部から採取した電子アナログデバイスについて, ランゲヴィン力学を物理的に実現して提案する。 回路設計はガウス・ガウスモデルの後部とベイズロジスティック回帰のために行われ、シミュレーションによって検証される。 合理的な仮定の下では、これらのモデルのベイズ的後続体は、$d$が次元であるような$\ln(d)$で時間スケーリングでサンプリングできることが示される。 ガウス・ガウス模型の場合、エネルギーコストは$d \ln(d)$でスケールすることが示される。 これらの結果は、熱力学計算を用いた高速でエネルギー効率の高いベイズ推定の可能性を強調している。

A fully Bayesian treatment of complicated predictive models (such as deep neural networks) would enable rigorous uncertainty quantification and the automation of higher-level tasks including model selection. However, the intractability of sampling Bayesian posteriors over many parameters inhibits the use of Bayesian methods where they are most needed. Thermodynamic computing has emerged as a paradigm for accelerating operations used in machine learning, such as matrix inversion, and is based on the mapping of Langevin equations to the dynamics of noisy physical systems. Hence, it is natural to consider the implementation of Langevin sampling algorithms on thermodynamic devices. In this work we propose electronic analog devices that sample from Bayesian posteriors by realizing Langevin dynamics physically. Circuit designs are given for sampling the posterior of a Gaussian-Gaussian model and for Bayesian logistic regression, and are validated by simulations. It is shown, under reasonable assumptions, that the Bayesian posteriors for these models can be sampled in time scaling with $\ln(d)$, where $d$ is dimension. For the Gaussian-Gaussian model, the energy cost is shown to scale with $ d \ln(d)$. These results highlight the potential for fast, energy-efficient Bayesian inference using thermodynamic computing.
翻訳日:2024-11-04 15:14:33 公開日:2024-10-02
# Loki: Fact Verificationのオープンソースツール

Loki: An Open-Source Tool for Fact Verification ( http://arxiv.org/abs/2410.01794v1 )

ライセンス: Link先を確認
Haonan Li, Xudong Han, Hao Wang, Yuxia Wang, Minghan Wang, Rui Xing, Yilin Geng, Zenan Zhai, Preslav Nakov, Timothy Baldwin, (参考訳) 誤情報の増加に対処するために設計されたオープンソースツールであるLokiを紹介する。 Lokiは人間中心のアプローチを採用しており、事実チェックの品質と人間の関与コストのバランスを保っている。 長いテキストを個々のクレームに分割し、チェックの信頼性を評価し、クエリを生成し、エビデンスを取得し、クレームを検証する。 クレーム検証プロセスを完全に自動化する代わりに、Lokiは、特にジャーナリストやコンテンツモデレーターのような一般ユーザーに対して、人間の判断を支援するために、各ステップで不可欠な情報を提供する。 さらに、商業的に使用可能なレベルで、レイテンシ、堅牢性、コスト効率に最適化されている。 LokiはMITライセンスでリリースされており、GitHubから入手できる。 システムとその機能を示すビデオも提供します。

We introduce Loki, an open-source tool designed to address the growing problem of misinformation. Loki adopts a human-centered approach, striking a balance between the quality of fact-checking and the cost of human involvement. It decomposes the fact-checking task into a five-step pipeline: breaking down long texts into individual claims, assessing their check-worthiness, generating queries, retrieving evidence, and verifying the claims. Instead of fully automating the claim verification process, Loki provides essential information at each step to assist human judgment, especially for general users such as journalists and content moderators. Moreover, it has been optimized for latency, robustness, and cost efficiency at a commercially usable level. Loki is released under an MIT license and is available on GitHub. We also provide a video presenting the system and its capabilities.
翻訳日:2024-11-04 15:14:33 公開日:2024-10-02
# 大規模言語モデルを用いたジェノタイプデータのための知識駆動型特徴選択と工学

Knowledge-Driven Feature Selection and Engineering for Genotype Data with Large Language Models ( http://arxiv.org/abs/2410.01795v1 )

ライセンス: Link先を確認
Joseph Lee, Shu Yang, Jae Young Baik, Xiaoxi Liu, Zhen Tan, Dawei Li, Zixuan Wen, Bojian Hou, Duy Duong-Tran, Tianlong Chen, Li Shen, (参考訳) 複雑な遺伝的基盤を持つ表現型を、小さな解釈可能な様々な特徴のセットに基づいて予測することは、依然として困難な課題である。 従来のデータ駆動型手法は, 解析や予測を困難にするが, ジェノタイプデータの高次元特性は解析と予測を困難にしている。 学習済みのLLMで符号化された豊富な知識と複雑な生体医学概念の処理の成功に触発された我々は、新しい知識駆動フレームワークを用いて、表型遺伝子型データの特徴選択と工学におけるLLMの能力について検討した。 FREEFORM, Free-flow Reasoning and Ensembling for Enhanced Feature Output and Robust Modeling, designed with chain-of-thinkt and ensembling principles, to select and engineer features with theintrinsic knowledge of LLMs。 2つの異なる遺伝子型フェノタイプデータセット、遺伝的祖先、遺伝性難聴に基づいて評価した結果、この枠組みは、特に低ショット状態において、いくつかのデータ駆動手法より優れていることがわかった。 FREEFORMはGitHubのオープンソースフレームワークとして利用可能である。

Predicting phenotypes with complex genetic bases based on a small, interpretable set of variant features remains a challenging task. Conventionally, data-driven approaches are utilized for this task, yet the high dimensional nature of genotype data makes the analysis and prediction difficult. Motivated by the extensive knowledge encoded in pre-trained LLMs and their success in processing complex biomedical concepts, we set to examine the ability of LLMs in feature selection and engineering for tabular genotype data, with a novel knowledge-driven framework. We develop FREEFORM, Free-flow Reasoning and Ensembling for Enhanced Feature Output and Robust Modeling, designed with chain-of-thought and ensembling principles, to select and engineer features with the intrinsic knowledge of LLMs. Evaluated on two distinct genotype-phenotype datasets, genetic ancestry and hereditary hearing loss, we find this framework outperforms several data-driven methods, particularly on low-shot regimes. FREEFORM is available as open-source framework at GitHub: https://github.com/PennShenLab/FREEFORM.
翻訳日:2024-11-04 15:14:33 公開日:2024-10-02
# Bellman Diffusion: 分散空間における線形演算子学習のための生成モデリング

Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space ( http://arxiv.org/abs/2410.01796v1 )

ライセンス: Link先を確認
Yangming Li, Chieh-Hsin Lai, Carola-Bibiane Schönlieb, Yuki Mitsufuji, Stefano Ermon, (参考訳) エネルギーベースモデル(EBM)やスコアベース生成モデル(SGM)を含む深部生成モデル(DGM)は、高度な高忠実性データ生成と複雑な連続分布近似を持つ。 しかし、マルコフ決定過程(MDPs)、特に分布強化学習(RL)では、従来のヒストグラムに基づく手法がこの分野を支配している。 本稿では, MDPにおけるベルマン方程式の線形性と矛盾する現代のDGMの非線形性によって, この応用ギャップが引き起こされたことを, 厳密に強調する。 例えば、ESMはエネルギー関数の指数化や定数の正規化といった非線形演算を含む。 この問題に対処するために、勾配とスカラー場モデリングによるMDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。 ニューラルネットワークプロキシを最適化する分散ベースのトレーニング手法とサンプリングのための新しいタイプの確率微分方程式(SDE)により、ベルマン拡散はターゲット分布に収束することが保証される。 実験の結果,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。 この作業により、MDPアプリケーションへのDGMの効果的な統合が可能になり、高度な意思決定フレームワークのための新たな道が開ける。

Deep Generative Models (DGMs), including Energy-Based Models (EBMs) and Score-based Generative Models (SGMs), have advanced high-fidelity data generation and complex continuous distribution approximation. However, their application in Markov Decision Processes (MDPs), particularly in distributional Reinforcement Learning (RL), remains underexplored, with conventional histogram-based methods dominating the field. This paper rigorously highlights that this application gap is caused by the nonlinearity of modern DGMs, which conflicts with the linearity required by the Bellman equation in MDPs. For instance, EBMs involve nonlinear operations such as exponentiating energy functions and normalizing constants. To address this, we introduce Bellman Diffusion, a novel DGM framework that maintains linearity in MDPs through gradient and scalar field modeling. With divergence-based training techniques to optimize neural network proxies and a new type of stochastic differential equation (SDE) for sampling, Bellman Diffusion is guaranteed to converge to the target distribution. Our empirical results show that Bellman Diffusion achieves accurate field estimations and is a capable image generator, converging 1.5x faster than the traditional histogram-based baseline in distributional RL tasks. This work enables the effective integration of DGMs into MDP applications, unlocking new avenues for advanced decision-making frameworks.
翻訳日:2024-11-04 15:14:33 公開日:2024-10-02
# 完全性保証付きウィンドウ付きMAPF

Windowed MAPF with Completeness Guarantees ( http://arxiv.org/abs/2410.01798v1 )

ライセンス: Link先を確認
Rishi Veerapaneni, Muhammad Suhail Saleem, Jiaoyang Li, Maxim Likhachev, (参考訳) 従来のマルチエージェントパス探索(MAPF)手法は、衝突のないスタートゴールパス全体を計算しようとする。 しかし、エージェントが迅速に再計画する必要があるMAPFシステムでは、パス全体を計算するのに時間がかかりすぎる可能性がある。 この問題に対処する手法は、通常「ウィンドウ化された」アプローチを採用し、小さなウィンドウ化された時間ステップの水平線に対して衝突のない経路を見つけようとするだけである。 この適応には不完全なコストが伴うため、現在のウィンドウ化されたアプローチはすべてデッドロックやライブロックで立ち往生する可能性がある。 我々の主な貢献は、完全性を実現するWinC-MAPF for Windowed MAPFの導入である。 本フレームワークでは,シングルエージェントリアルタイムヒューリスティック検索アルゴリズムからのヒューリスティックな更新洞察とMAPFアルゴリズムからのエージェント独立性を用いた。 また,CBSに新たな変更を加えて,この枠組みを即時化するシングルステップCBS (SS-CBS) も開発した。 単一のステップのみを計画し、ヒューリスティックを更新するSS-CBSは、既存のウィンドウ化アプローチが失敗する難しいシナリオを効果的に解決できることを示す。

Traditional multi-agent path finding (MAPF) methods try to compute entire start-goal paths which are collision free. However, computing an entire path can take too long for MAPF systems where agents need to replan fast. Methods that address this typically employ a "windowed" approach and only try to find collision free paths for a small windowed timestep horizon. This adaptation comes at the cost of incompleteness; all current windowed approaches can become stuck in deadlock or livelock. Our main contribution is to introduce our framework, WinC-MAPF, for Windowed MAPF that enables completeness. Our framework uses heuristic update insights from single-agent real-time heuristic search algorithms as well as agent independence ideas from MAPF algorithms. We also develop Single-Step CBS (SS-CBS), an instantiation of this framework using a novel modification to CBS. We show how SS-CBS, which only plans a single step and updates heuristics, can effectively solve tough scenarios where existing windowed approaches fail.
翻訳日:2024-11-04 15:14:33 公開日:2024-10-02
# 効率的な1ドルビットテンソル近似

Efficient $1$-bit tensor approximations ( http://arxiv.org/abs/2410.01799v1 )

ライセンス: Link先を確認
Alex W. Neal Riasanovsky, Sarah El Kazdadi, (参考訳) 行列と任意の階テンソルの空間的に効率的な分解を${-1, 1\}$値ベクトルのテンソル積の線型結合として提示する。 任意の行列 $A \in \mathbb{R}^{m \times n}$, $A - R_w = S_w C_w T_w^\top = \sum_{j=1}^w c_j \cdot \mathbf{s}_j \mathbf{t}_j^\top$$は$A$の符号付きカット分解である。 C_w = "diag"(\mathbf{c}_w)$ for some $\mathbf{c}_w \in \mathbb{R}^w,$ and $S_w, T_w$, and the vectors $\mathbf{s}_j, \mathbf{t}_j$ are $\{-1, 1\}$-valued。 $(S_w, T_w, C_w)$を格納するには、$w \cdot (m + n)$ bitsをパックし、浮動小数点数だけを必要とする。 w$ の関数として、$\|R_w\|_F$ は #f32 行列に $\mathcal N (0, 1)$ エントリを適用すると指数減衰を示す。 $(S_w, T_w, C_w)$が \textit{f16} または \textit{bf16} 行列と同じメモリフットプリントを持つように$w$を選択すると、相対誤差は同等である。 我々のアルゴリズムは、20ドルの擬似符号で効率よく符号付きカット分解を行う。 フリーゼとカンナンの1999年の有名な論文[1]の簡単な修正を反映している。 第1の応用として、オープンな \textit{Mistral-7B-v0.1} 大言語モデルにおける重み行列を50\%の空間圧縮に近似する。 注目すべきは、残りの226ドルの行列は相対誤差が$<6\%$であり、拡張されたモデルは {\it huggingface} のリーダーボード [2] 上で \textit{Mistral-7B-v0.1} と密接に一致することである。 ベンチマークパフォーマンスは、空間圧縮が50\%$から25\%$に減少するにつれて、徐々に低下します。 我々は,オープンソースの \textit{rust} 実装 [3] を, \textit{avx2} および \textit{avx512} アーキテクチャ上での \textit{simd} 命令で最適化する。 また、アルゴリズムを行列から任意の順序のテンソルに拡張し、それを使って最初の著者の猫Angusの画像を圧縮する。

We present a spatially efficient decomposition of matrices and arbitrary-order tensors as linear combinations of tensor products of $\{-1, 1\}$-valued vectors. For any matrix $A \in \mathbb{R}^{m \times n}$, $$A - R_w = S_w C_w T_w^\top = \sum_{j=1}^w c_j \cdot \mathbf{s}_j \mathbf{t}_j^\top$$ is a {\it $w$-width signed cut decomposition of $A$}. Here $C_w = "diag"(\mathbf{c}_w)$ for some $\mathbf{c}_w \in \mathbb{R}^w,$ and $S_w, T_w$, and the vectors $\mathbf{s}_j, \mathbf{t}_j$ are $\{-1, 1\}$-valued. To store $(S_w, T_w, C_w)$, we may pack $w \cdot (m + n)$ bits, and require only $w$ floating point numbers. As a function of $w$, $\|R_w\|_F$ exhibits exponential decay when applied to #f32 matrices with i.i.d. $\mathcal N (0, 1)$ entries. Choosing $w$ so that $(S_w, T_w, C_w)$ has the same memory footprint as a \textit{f16} or \textit{bf16} matrix, the relative error is comparable. Our algorithm yields efficient signed cut decompositions in $20$ lines of pseudocode. It reflects a simple modification from a celebrated 1999 paper [1] of Frieze and Kannan. As a first application, we approximate the weight matrices in the open \textit{Mistral-7B-v0.1} Large Language Model to a $50\%$ spatial compression. Remarkably, all $226$ remainder matrices have a relative error $<6\%$ and the expanded model closely matches \textit{Mistral-7B-v0.1} on the {\it huggingface} leaderboard [2]. Benchmark performance degrades slowly as we reduce the spatial compression from $50\%$ to $25\%$. We optimize our open source \textit{rust} implementation [3] with \textit{simd} instructions on \textit{avx2} and \textit{avx512} architectures. We also extend our algorithm from matrices to tensors of arbitrary order and use it to compress a picture of the first author's cat Angus.
翻訳日:2024-11-04 15:04:32 公開日:2024-10-02
# FabricDiffusion:3次元衣料生成のための高忠実なテクスチャートランスファー

FabricDiffusion: High-Fidelity Texture Transfer for 3D Garments Generation from In-The-Wild Clothing Images ( http://arxiv.org/abs/2410.01801v1 )

ライセンス: Link先を確認
Cheng Zhang, Yuanhao Wang, Francisco Vicente Carrasco, Chenglei Wu, Jinlong Yang, Thabo Beeler, Fernando De la Torre, (参考訳) 本稿では,布のテクスチャを1枚の衣服画像から任意の形状の3D衣服に転送する方法であるFabricDiffusionを紹介する。 既存のアプローチでは、2Dから3Dのテクスチャマッピングや、生成モデルによる深度認識のインペイントを通じて、衣服表面のテクスチャを合成するのが一般的である。 残念なことに、これらの手法はしばしばテクスチャの詳細を捉え保存するのに苦労する。 ファッション業界では、縫製パターンを平らで繰り返し可能なテクスチャで縫い合わせることで、ほとんどの衣服が作られるという観察に触発されて、衣服のUV空間にマッピングされた歪みのないタイル状テクスチャ素材を抽出する作業として、衣服テクスチャ転送のタスクを投入した。 この知見に基づいて、我々は、入力テクスチャ画像の歪みを補正するために、大規模な合成データセットを用いてデノナイズ拡散モデルを訓練する。 このプロセスは、既存のPBR(Physically-Based Rendering)素材生成パイプラインとの密結合を可能にする平坦なテクスチャマップを生成し、様々な照明条件下での衣服のリアルなリライティングを可能にする。 FabricDiffusionは、テクスチャパターン、材料特性、詳細な印刷物やロゴを含む、単一の衣料品画像から様々な特徴を伝達できることを示す。 広汎な実験により,我々のモデルは,合成データと実世界の衣服画像の両方において,テクスチャや衣服の形状を一般化しながら,最先端の手法を著しく上回っていることが示された。

We introduce FabricDiffusion, a method for transferring fabric textures from a single clothing image to 3D garments of arbitrary shapes. Existing approaches typically synthesize textures on the garment surface through 2D-to-3D texture mapping or depth-aware inpainting via generative models. Unfortunately, these methods often struggle to capture and preserve texture details, particularly due to challenging occlusions, distortions, or poses in the input image. Inspired by the observation that in the fashion industry, most garments are constructed by stitching sewing patterns with flat, repeatable textures, we cast the task of clothing texture transfer as extracting distortion-free, tileable texture materials that are subsequently mapped onto the UV space of the garment. Building upon this insight, we train a denoising diffusion model with a large-scale synthetic dataset to rectify distortions in the input texture image. This process yields a flat texture map that enables a tight coupling with existing Physically-Based Rendering (PBR) material generation pipelines, allowing for realistic relighting of the garment under various lighting conditions. We show that FabricDiffusion can transfer various features from a single clothing image including texture patterns, material properties, and detailed prints and logos. Extensive experiments demonstrate that our model significantly outperforms state-to-the-art methods on both synthetic data and real-world, in-the-wild clothing images while generalizing to unseen textures and garment shapes.
翻訳日:2024-11-04 15:04:32 公開日:2024-10-02
# PROXI:リンク予測にGNNを適合させる

PROXI: Challenging the GNNs for Link Prediction ( http://arxiv.org/abs/2410.01802v1 )

ライセンス: Link先を確認
Astrit Tola, Jack Myrick, Baris Coskunuzer, (参考訳) 過去10年間、グラフニューラルネットワーク(GNN)はグラフ表現学習を変革してきた。 広く採用されているメッセージパッシングGNNフレームワークでは、近隣ノードからの情報を反復的に集約することで、ノードが表現を洗練する。 GNNは様々な領域で優れているが、最近の理論的研究は、その能力を懸念している。 GNNは、このようなノード表現を利用することで、様々なグラフ関連タスクに対処することを目指しているが、このワンサイズフィットのアプローチは、多様なタスクに対してサブ最適であることを証明している。 これらの観測により,既存のGNNモデルと,リンク予測タスクにおける従来手法と直接手法の比較実験を行った。 グラフと属性空間の両方におけるノードペアの近接情報を活用するPROXIモデルの導入により,標準機械学習(ML)モデルが,ノード近傍と属性から得られた近接メトリクスに適用した場合,最先端のGNNモデルよりも優れていることが判明した。 これは、ホモフレンドリックネットワークとヘテロフレンドリックネットワークの両方、およびOpen Graph Benchmark(OGB)など、小規模で大規模なベンチマークデータセットに当てはまる。 さらに,従来のGNNを PROXI で拡張することでリンク予測性能が大幅に向上することを示す。 我々の経験的発見は、前述の理論的な観察と相関し、現在のGNNモデルにその可能性に到達するための十分な余地があることを示唆している。

Over the past decade, Graph Neural Networks (GNNs) have transformed graph representation learning. In the widely adopted message-passing GNN framework, nodes refine their representations by aggregating information from neighboring nodes iteratively. While GNNs excel in various domains, recent theoretical studies have raised concerns about their capabilities. GNNs aim to address various graph-related tasks by utilizing such node representations, however, this one-size-fits-all approach proves suboptimal for diverse tasks. Motivated by these observations, we conduct empirical tests to compare the performance of current GNN models with more conventional and direct methods in link prediction tasks. Introducing our model, PROXI, which leverages proximity information of node pairs in both graph and attribute spaces, we find that standard machine learning (ML) models perform competitively, even outperforming cutting-edge GNN models when applied to these proximity metrics derived from node neighborhoods and attributes. This holds true across both homophilic and heterophilic networks, as well as small and large benchmark datasets, including those from the Open Graph Benchmark (OGB). Moreover, we show that augmenting traditional GNNs with PROXI significantly boosts their link prediction performance. Our empirical findings corroborate the previously mentioned theoretical observations and imply that there exists ample room for enhancement in current GNN models to reach their potential.
翻訳日:2024-11-04 15:04:32 公開日:2024-10-02
# カンの表現性とスペクトルバイアスについて

On the expressiveness and spectral bias of KANs ( http://arxiv.org/abs/2410.01803v1 )

ライセンス: Link先を確認
Yixuan Wang, Jonathan W. Siegel, Ziming Liu, Thomas Y. Hou, (参考訳) Kolmogorov-Arnold Networks (KAN) \cite{liu2024kan} は、多くのディープラーニングモデルの一般的なアーキテクチャバックボーンであるマルチ層パーセプトロン(MLP)の代替として提案されている。 カンは科学のためのAIの様々なタスクで成功しており、その経験的効率性と精度は、関数回帰、PDE解決、そして多くの科学的な問題で実証されている。 本稿では、理論的な観点から、kanとMPPの比較を再考する。 一方,kan と MLP の表現と近似能力の比較を行った。 我々は,MPPを同等の大きさの Kan を用いて表現できることを確立した。 このことは、kan の近似と表現能力が少なくとも MLP と同程度であることを示している。 逆に,kan は MLP を用いて表現できるが,この表現ではkan グリッドの大きさの因子によってパラメータの数が増加することが示されている。 このことは、グリッドサイズが大きいkansが特定の関数を近似する上で、MPPsよりも効率的である可能性を示唆している。 一方,学習と最適化の観点から,KansのスペクトルバイアスをMLPと比較した。 我々は、KANはMLPよりも低周波数に偏りが小さいことを示した。 提案手法では, スプラインのグリッド拡張など, Kans 特有のマルチレベル学習機能により, 高周波コンポーネントの学習プロセスが改善されることを強調した。 カンの深さ、幅、格子の大きさの異なる選択肢との詳細な比較が行われ、実際はハイパーパラメータの選定方法に光を当てている。

Kolmogorov-Arnold Networks (KAN) \cite{liu2024kan} were very recently proposed as a potential alternative to the prevalent architectural backbone of many deep learning models, the multi-layer perceptron (MLP). KANs have seen success in various tasks of AI for science, with their empirical efficiency and accuracy demostrated in function regression, PDE solving, and many more scientific problems. In this article, we revisit the comparison of KANs and MLPs, with emphasis on a theoretical perspective. On the one hand, we compare the representation and approximation capabilities of KANs and MLPs. We establish that MLPs can be represented using KANs of a comparable size. This shows that the approximation and representation capabilities of KANs are at least as good as MLPs. Conversely, we show that KANs can be represented using MLPs, but that in this representation the number of parameters increases by a factor of the KAN grid size. This suggests that KANs with a large grid size may be more efficient than MLPs at approximating certain functions. On the other hand, from the perspective of learning and optimization, we study the spectral bias of KANs compared with MLPs. We demonstrate that KANs are less biased toward low frequencies than MLPs. We highlight that the multi-level learning feature specific to KANs, i.e. grid extension of splines, improves the learning process for high-frequency components. Detailed comparisons with different choices of depth, width, and grid sizes of KANs are made, shedding some light on how to choose the hyperparameters in practice.
翻訳日:2024-11-04 15:04:32 公開日:2024-10-02
# Locret: 訓練された保持頭部を用いた長期LLM推論におけるエミッション向上

Locret: Enhancing Eviction in Long-Context LLM Inference with Trained Retaining Heads ( http://arxiv.org/abs/2410.01805v1 )

ライセンス: Link先を確認
Yuxiang Huang, Binhang Yuan, Xu Han, Chaojun Xiao, Zhiyuan Liu, (参考訳) 大規模言語モデル(LLM)は、長文理解と処理タスクのサポートにおいて顕著な進歩を見せている。 しかし、LLMの生成をこのような長いコンテキストにスケールすると、計算負荷が大幅に増加し、トランスフォーマーベースのLLMのキー値(KV)キャッシュを維持するために相当量のGPUメモリフットプリントが要求される。 量子化のような既存のKVキャッシュ圧縮手法では、コンテキスト長が増加するにつれて顔メモリボトルネックが増加し、エビクションのような静的なサイズのキャッシュは非効率なポリシーに悩まされる。 これらの制限により、単一のNvidia 4090 GPUのようなコンシューマグレードデバイスへのデプロイメントが制限される。 そこで本稿では,KVキャッシュユニットの因果的重要性を評価するために,長期LLM推論のためのフレームワークであるLocretを提案する。 Locretは、標準のLong-context SFTデータセットから最小限のデータを使用して、冷凍バックボーンLLM上に微調整される。 推論中、チャンクされたプリフィルパターンとともに低重要キャッシュユニットを排除し、GPUのピークメモリ使用量を大幅に削減した。 LocretはPhi-3-mini-128KとLlama-3.1-8BのフルKVキャッシュと比較して,20倍,8倍のKVキャッシュ圧縮比を実現している。 さらに、Locretは量子化やトークンのマージといった他の方法と組み合わせることができる。 我々の知る限り、Locretは単一のNvidia 4090 GPUにLlama-3.1-8Bなどのモデルをデプロイできる最初のフレームワークである。

Large language models (LLMs) have shown remarkable advances in supporting long-context comprehension and processing tasks. However, scaling the generation inference of LLMs to such long contexts incurs significant additional computation load, and demands a substantial GPU memory footprint to maintain the key-value (KV) cache of transformer-based LLMs. Existing KV cache compression methods, such as quantization, face memory bottlenecks as context length increases, while static-sized caches, such as eviction, suffer from inefficient policies. These limitations restrict deployment on consumer-grade devices like a single Nvidia 4090 GPU. To overcome this, we propose Locret, a framework for long-context LLM inference that introduces retaining heads to evaluate the causal importance of KV cache units, allowing for more accurate eviction within a fixed cache size. Locret is fine-tuned on top of the frozen backbone LLM using a minimal amount of data from standard long-context SFT datasets. During inference, we evict low-importance cache units along with a chunked prefill pattern, significantly reducing peak GPU memory usage. We conduct an extensive empirical study to evaluate Locret, where the experimental results show that Locret outperforms the recent competitive approaches, including InfLLM, Quantization, SirLLM, and MInference, in terms of memory efficiency and the quality of generated contents -- Locret achieves over a 20x and 8x KV cache compression ratio compared to the full KV cache for Phi-3-mini-128K and Llama-3.1-8B-instruct. Additionally, Locret can be combined with other methods, such as quantization and token merging. To our knowledge, Locret is the first framework capable of deploying Llama-3.1-8B or similar models on a single Nvidia 4090 GPU, enabling 128K long-context inference without compromising generation quality, and requiring little additional system optimizations.
翻訳日:2024-11-04 15:04:32 公開日:2024-10-02
# Samba: 複数のオブジェクト追跡のための同期セット・オブ・シーケンスモデリング

Samba: Synchronized Set-of-Sequences Modeling for Multiple Object Tracking ( http://arxiv.org/abs/2410.01806v1 )

ライセンス: Link先を確認
Mattia Segu, Luigi Piccinelli, Siyuan Li, Yung-Hsu Yang, Bernt Schiele, Luc Van Gool, (参考訳) 調整されたダンスパフォーマンス、チームスポーツ、動的動物グループなど、複雑なシナリオにおける複数のオブジェクトトラッキングは、ユニークな課題を提示します。 これらの設定では、オブジェクトはコーディネートされたパターンで頻繁に動き、互いに干渉し合い、その軌道に長期的依存を示す。 しかし、トラックレット内での長距離依存関係のモデル化、トラックレット間の相互依存性、関連する時間的排除に関する重要な研究課題は依然として残っている。 この目的のために,各トラックレットをモデル化するために使用される複数の選択状態空間を同期させることにより,複数のトラックレットを共同処理する新しい線形時間セット・オブ・シーケンスモデルであるSambaを導入する。 Sambaは、トラックレット間の同期された長期メモリ表現を維持しながら、各シーケンスの将来のトラッククエリを自動的に予測する。 また,Sambaをトラッキング・バイ・プロパゲーション・フレームワークに統合することにより,SambaMOTRを提案する。 さらに、不確実な観測(MaskObs)を扱うための効果的な手法と、より長いシーケンスにSambaMOTRをスケールするための効率的なトレーニングレシピを導入する。 追跡対象間の長距離依存関係と相互作用をモデル化することにより、SambaMOTRは暗黙的に、手作りのヒューリスティクスを使わずにオクルージョンを通してオブジェクトを正確に追跡することを学ぶ。 われわれのアプローチは、DanceTrack、BFT、SportsMOTデータセットの最先端をはるかに上回っている。

Multiple object tracking in complex scenarios - such as coordinated dance performances, team sports, or dynamic animal groups - presents unique challenges. In these settings, objects frequently move in coordinated patterns, occlude each other, and exhibit long-term dependencies in their trajectories. However, it remains a key open research question on how to model long-range dependencies within tracklets, interdependencies among tracklets, and the associated temporal occlusions. To this end, we introduce Samba, a novel linear-time set-of-sequences model designed to jointly process multiple tracklets by synchronizing the multiple selective state-spaces used to model each tracklet. Samba autoregressively predicts the future track query for each sequence while maintaining synchronized long-term memory representations across tracklets. By integrating Samba into a tracking-by-propagation framework, we propose SambaMOTR, the first tracker effectively addressing the aforementioned issues, including long-range dependencies, tracklet interdependencies, and temporal occlusions. Additionally, we introduce an effective technique for dealing with uncertain observations (MaskObs) and an efficient training recipe to scale SambaMOTR to longer sequences. By modeling long-range dependencies and interactions among tracked objects, SambaMOTR implicitly learns to track objects accurately through occlusions without any hand-crafted heuristics. Our approach significantly surpasses prior state-of-the-art on the DanceTrack, BFT, and SportsMOT datasets.
翻訳日:2024-11-04 15:04:32 公開日:2024-10-02
# 協調エッジ推論のための最適経路とDNN分割の学習

Learning the Optimal Path and DNN Partition for Collaborative Edge Inference ( http://arxiv.org/abs/2410.01857v1 )

ライセンス: Link先を確認
Yin Huang, Letian Zhang, Jie Xu, (参考訳) 近年のディープニューラルネットワーク(DNN)の進歩は、多数のインテリジェントなモバイルアプリケーションやサービスの開発を触媒にしている。 しかし、リソース制約のあるモバイルデバイスに対して、重要な計算課題も導入している。 これを解決するために、協調的なエッジ推論が提案されている。 この方法では、DNN推論タスクを複数のサブタスクに分割し、それらを複数のネットワークノードに分散する。 その可能性にもかかわらず、現在のほとんどのアプローチでは、ノード処理速度やリンク転送レートなどの既知のネットワークパラメータ、あるいはDNNサブタスクを処理するノードの固定シーケンスに依存していると推定されている。 本稿では,ネットワークパラメータが未知で学習しなければならない複雑なシナリオに取り組み,推論タスクの分散に複数のネットワークパスが利用可能である。 具体的には,ネットワークパスを最適に選択し,その経路に沿ったノードにDNN層を割り当てる学習問題について検討する。 まず、DNN層割当から完全なネットワーク情報を用いて構造的洞察を導き、決定空間を狭め、最適な割当を決定的に理解することから始める。 そこで我々は,不完全ネットワーク情報を用いた学習問題を,スイッチングコストを伴う新規な対向群線形バンドイット問題として,確率的および対向的プロセスの組み合わせによる報酬生成を特徴とした。 我々は,従来のブロックされたEXP3アルゴリズムとLinUCBアルゴリズムの要素を組み合わせたB-EXPUCBアルゴリズムを導入し,そのサブ線形後悔を示す。 大規模なシミュレーションにより、既存のアルゴリズムよりも協調エッジ推論の学習におけるB-EXPUCBの優れた性能が確認された。

Recent advancements in Deep Neural Networks (DNNs) have catalyzed the development of numerous intelligent mobile applications and services. However, they also introduce significant computational challenges for resource-constrained mobile devices. To address this, collaborative edge inference has been proposed. This method involves partitioning a DNN inference task into several subtasks and distributing these across multiple network nodes. Despite its potential, most current approaches presume known network parameters -- like node processing speeds and link transmission rates -- or rely on a fixed sequence of nodes for processing the DNN subtasks. In this paper, we tackle a more complex scenario where network parameters are unknown and must be learned, and multiple network paths are available for distributing inference tasks. Specifically, we explore the learning problem of selecting the optimal network path and assigning DNN layers to nodes along this path, considering potential security threats and the costs of switching paths. We begin by deriving structural insights from the DNN layer assignment with complete network information, which narrows down the decision space and provides crucial understanding of optimal assignments. We then cast the learning problem with incomplete network information as a novel adversarial group linear bandits problem with switching costs, featuring rewards generation through a combined stochastic and adversarial process. We introduce a new bandit algorithm, B-EXPUCB, which combines elements of the classical blocked EXP3 and LinUCB algorithms, and demonstrate its sublinear regret. Extensive simulations confirm B-EXPUCB's superior performance in learning for collaborative edge inference over existing algorithms.
翻訳日:2024-11-04 14:34:44 公開日:2024-10-02
# 大規模言語モデルのトークンアライメントを用いた長距離遺伝子発現予測

Long-range gene expression prediction with token alignment of large language model ( http://arxiv.org/abs/2410.01858v1 )

ライセンス: Link先を確認
Edouardo Honig, Huixin Zhan, Ying Nian Wu, Zijun Frank Zhang, (参考訳) 遺伝子発現は、ヒトの表現型変異と疾患に基本的な役割を果たす細胞プロセスである。 遺伝子発現予測のためのディープラーニングモデルの進歩にもかかわらず、最近のベンチマークでは、遠位規則文法を学習できないことが明らかになっている。 本稿では、事前訓練された大規模言語モデルを利用して、遺伝子発現予測を強化することで、この問題に対処する。 本稿では,遺伝子配列の特徴を自然言語トークンと整合させ,凍結した言語モデルによるゲノム配列の特徴の象徴的推論を可能にする遺伝子配列Token Alignment(GTA)を提案する。 このクロスモーダル適応は、規制文法を学習し、遺伝子特異的な人間のアノテーションをプロンプトとして組み込むことを可能にし、既存のモデルでは不可能なコンテキスト内学習を可能にする。 GTAはGuvadisコンソーシアムの細胞で評価され,Enformerなどの最先端モデルより優れ,Spearman相関は0.65,10%向上した。 さらに、GTAは入力された遺伝的文脈の最も意味のある部分の同定を通じて、長距離相互作用の解釈を改善している。 GTAは、事前訓練された言語モデルを利用して、配列データのみに基づいて訓練された従来の遺伝子発現モデルからパラダイムシフトすることで、遺伝子発現予測に対する強力で斬新なクロスモーダルなアプローチを示す。

Gene expression is a cellular process that plays a fundamental role in human phenotypical variations and diseases. Despite advances of deep learning models for gene expression prediction, recent benchmarks have revealed their inability to learn distal regulatory grammar. Here, we address this challenge by leveraging a pretrained large language model to enhance gene expression prediction. We introduce Genetic sequence Token Alignment (GTA), which aligns genetic sequence features with natural language tokens, allowing for symbolic reasoning of genomic sequence features via the frozen language model. This cross-modal adaptation learns the regulatory grammar and allows us to further incorporate gene-specific human annotations as prompts, enabling in-context learning that is not possible with existing models. Trained on lymphoblastoid cells, GTA was evaluated on cells from the Geuvadis consortium and outperforms state-of-the-art models such as Enformer, achieving a Spearman correlation of 0.65, a 10\% improvement. Additionally, GTA offers improved interpretation of long-range interactions through the identification of the most meaningful sections of the input genetic context. GTA represents a powerful and novel cross-modal approach to gene expression prediction by utilizing a pretrained language model, in a paradigm shift from conventional gene expression models trained only on sequence data.
翻訳日:2024-11-04 14:34:44 公開日:2024-10-02
# OCC-MLLM-Alpha:自己教師付きテスト時間学習による付加対象理解のためのマルチモーダル大言語モデルの構築

OCC-MLLM-Alpha:Empowering Multi-modal Large Language Model for the Understanding of Occluded Objects with Self-Supervised Test-Time Learning ( http://arxiv.org/abs/2410.01861v1 )

ライセンス: Link先を確認
Shuxin Yang, Xinhan Di, (参考訳) 既存の大規模視覚言語マルチモーダルモデルでは、隠蔽対象の理解にギャップがある。 現在の最先端のマルチモーダルモデルでは、普遍的なビジュアルエンコーダや教師付き学習戦略を通じて、隠蔽対象を記述するのに十分な結果が得られない。 そこで本研究では,マルチモーダルな大規模言語フレームワークと,それに対応する3次元生成を支援する自己教師型学習戦略を導入する。 我々は,大規模データセットSOMVideo[18]の評価において,最先端モデルとの比較実験を開始した。 最初の結果は、最先端のVLMモデルと比較して16.92%改善したことを示している。

There is a gap in the understanding of occluded objects in existing large-scale visual language multi-modal models. Current state-of-the-art multi-modal models fail to provide satisfactory results in describing occluded objects through universal visual encoders and supervised learning strategies. Therefore, we introduce a multi-modal large language framework and corresponding self-supervised learning strategy with support of 3D generation. We start our experiments comparing with the state-of-the-art models in the evaluation of a large-scale dataset SOMVideo [18]. The initial results demonstrate the improvement of 16.92% in comparison with the state-of-the-art VLM models.
翻訳日:2024-11-04 10:14:15 公開日:2024-10-02
# 動的ポートフォリオリバランシング:GNNとパスフィニングを用いたハイブリッドモデルによるコスト効率向上

Dynamic Portfolio Rebalancing: A Hybrid new Model Using GNNs and Pathfinding for Cost Efficiency ( http://arxiv.org/abs/2410.01864v1 )

ライセンス: Link先を確認
Diego Vallarino, (参考訳) 本稿では,取引コストを予測するためのグラフニューラルネットワーク(GNN)と,コスト効率の高い再バランスパスを特定するためのDijkstraのアルゴリズムを統合することで,ポートフォリオ再バランスを最適化する新たなアプローチを提案する。 著名なテクノロジー企業の過去の株価データを用いて、GNNは将来の取引コストを予測し、金融資産グラフのエッジウェイトとして適用するよう訓練されている。 Dijkstraのアルゴリズムは、資産間の資本移動に最もコストのかかる経路を見つけるために使われる。 実証的な結果は、このハイブリッドアプローチが取引コストを大幅に削減し、特に高周波取引環境において、ポートフォリオマネージャに強力なツールを提供することを示している。 この手法は、高度な機械学習技術と古典的最適化アルゴリズムを組み合わせることにより、財務的な意思決定プロセスを改善する可能性を実証する。 今後の研究は、資産宇宙の拡大と継続的なポートフォリオ最適化のための強化学習の導入を検討する。

This paper introduces a novel approach to optimizing portfolio rebalancing by integrating Graph Neural Networks (GNNs) for predicting transaction costs and Dijkstra's algorithm for identifying cost-efficient rebalancing paths. Using historical stock data from prominent technology firms, the GNN is trained to forecast future transaction costs, which are then applied as edge weights in a financial asset graph. Dijkstra's algorithm is used to find the least costly path for reallocating capital between assets. Empirical results show that this hybrid approach significantly reduces transaction costs, offering a powerful tool for portfolio managers, especially in high-frequency trading environments. This methodology demonstrates the potential of combining advanced machine learning techniques with classical optimization algorithms to improve financial decision-making processes. Future research will explore expanding the asset universe and incorporating reinforcement learning for continuous portfolio optimization.
翻訳日:2024-11-04 10:14:15 公開日:2024-10-02
# 線形分離可能なネットワーク埋め込み空間による複雑な機械学習の単純化

Simplifying complex machine learning by linearly separable network embedding spaces ( http://arxiv.org/abs/2410.01865v1 )

ライセンス: Link先を確認
Alexandros Xenos, Noel-Malod Dognin, Natasa Przulj, (参考訳) 低次元埋め込みは複雑なネットワークのモデリングと解析の基盤となっている。 しかし、ネットワーク埋め込み空間をマイニングするための既存のアプローチのほとんどは、下流タスクを容易にするために、計算集約的な機械学習システムに依存している。 NLP の分野において、単語埋め込み空間は意味的関係をキャプチャし、単語埋め込みベクトル上で \textit{simple linear operation} を用いて情報検索を行うことができる。 ここでは、この線形性をもたらすネットワークデータの構造的性質を実証する。 ネットワーク表現がホモフレンドリになればなるほど、対応するネットワーク埋め込み空間を線形に分離し、より優れたダウンストリーム解析結果が得られることを示す。 そこで我々は,より線形に分離可能な空間にネットワークを埋め込むことにより,より優れたマイニングを可能にする,新しいグラフレットベースの手法を提案する。 ネットワークデータの構造に対する私たちの基本的な洞察は、その‘textit{\textbf{linear}}マイニングとエクスプロイトを可能にすることで、MLコミュニティは、複雑なネットワークデータの効率的かつ説明可能なマイニングを構築できるのです。

Low-dimensional embeddings are a cornerstone in the modelling and analysis of complex networks. However, most existing approaches for mining network embedding spaces rely on computationally intensive machine learning systems to facilitate downstream tasks. In the field of NLP, word embedding spaces capture semantic relationships \textit{linearly}, allowing for information retrieval using \textit{simple linear operations} on word embedding vectors. Here, we demonstrate that there are structural properties of network data that yields this linearity. We show that the more homophilic the network representation, the more linearly separable the corresponding network embedding space, yielding better downstream analysis results. Hence, we introduce novel graphlet-based methods enabling embedding of networks into more linearly separable spaces, allowing for their better mining. Our fundamental insights into the structure of network data that enable their \textit{\textbf{linear}} mining and exploitation enable the ML community to build upon, towards efficiently and explainably mining of the complex network data.
翻訳日:2024-11-04 10:14:15 公開日:2024-10-02
# ハウス・オブ・カード:LLMの重量が大きすぎる

House of Cards: Massive Weights in LLMs ( http://arxiv.org/abs/2410.01866v1 )

ライセンス: Link先を確認
Jaehoon Oh, Seungjun Shin, Dokwan Oh, (参考訳) 隠れ状態の特定の特徴次元に現れる大規模なアクティベーションは、大きな言語モデル(LLM)に顕著なバイアスをもたらし、対応するトークンに過剰なエンハンシスをもたらす。 本稿では,初期層におけるフィードフォワードネットワークモジュールの中間状態ではなく,隠れ状態から大量のアクティベーションが生じることを確認した。 前回の観察で、大きな活性化は特定の特徴次元でしか起こらないという結果から、私たちは巨大な活性化を引き起こす重みを深く掘り下げる。 具体的には、中間状態の次元に寄与する重みとして、トップ=k$質量を定義する。 これらの重みがゼロに設定されると、LLMの機能は完全に破壊される。 しかし、重み以外の全ての重みがゼロに設定されると、より多くの重みがゼロに設定されているにもかかわらず、比較的小さな性能低下が生じる。 これは、事前学習の過程において、学習は大きな重みに集中していることを意味する。 そこで本研究では,MacDrop(重み付けカリキュラムのドロップアウト)と呼ばれる簡易なプラグアンドプレイ方式を提案する。 この方法は、事前訓練された大量の重量に対して、高い降下確率から始まり、微調整が進むにつれて徐々に減少する。 実験により、MacDropは一般的に、ゼロショットダウンストリームタスクとジェネレーションタスクにまたがるパフォーマンスを改善することを示した。

Massive activations, which manifest in specific feature dimensions of hidden states, introduce a significant bias in large language models (LLMs), leading to an overemphasis on the corresponding token. In this paper, we identify that massive activations originate not from the hidden state but from the intermediate state of a feed-forward network module in an early layer. Expanding on the previous observation that massive activations occur only in specific feature dimensions, we dive deep into the weights that cause massive activations. Specifically, we define top-$k$ massive weights as the weights that contribute to the dimensions with the top-$k$ magnitudes in the intermediate state. When these massive weights are set to zero, the functionality of LLMs is entirely disrupted. However, when all weights except for massive weights are set to zero, it results in a relatively minor performance drop, even though a much larger number of weights are set to zero. This implies that during the pre-training process, learning is dominantly focused on massive weights. Building on this observation, we propose a simple plug-and-play method called MacDrop (massive weights curriculum dropout), to rely less on massive weights during parameter-efficient fine-tuning. This method applies dropout to the pre-trained massive weights, starting with a high dropout probability and gradually decreasing it as fine-tuning progresses. Through experiments, we demonstrate that MacDrop generally improves performance across zero-shot downstream tasks and generation tasks.
翻訳日:2024-11-04 10:14:15 公開日:2024-10-02
# SQL品質測定によるテキストからSQLへのLLM微調整の強化

Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement ( http://arxiv.org/abs/2410.01869v1 )

ライセンス: Link先を確認
Shouvon Sarker, Xishuang Dong, Xiangfang Li, Lijun Qian, (参考訳) テキストからSQLへの変換により、専門家でないユーザは、自然言語クエリを使用して、リレーショナルデータベースから望ましい情報を取得することができる。 最近の進歩、特にGPTやT5のようなLarge Language Models(LLMs)は、BIRDのような大規模ベンチマークで顕著なパフォーマンスを示しているが、現在の最先端(SOTA)のLLMベースのText-to-SQLsモデルは、SQL分類器のような補助的なツールを開発するのに多大な努力を必要とすることが多い。 本稿では,LLMをベースとしたテキスト・トゥ・SQLの性能向上のために,SQL品質測定のみを必要とする新しい手法を提案する。 事前に定義された基準と実際のデータベース応答に対して生成したSQLクエリを評価するためのSQL品質評価メカニズムを確立する。 このフィードバックループは、構文的正確性と意味的正確性の両方に基づいて、連続的な学習とモデル出力の洗練を可能にする。 提案手法はBIRDベンチマークの総合的な検証を行い,実行精度(EX)と検証効率スコア(VES)をテキスト対SQLの難易度で評価する。 GPT4 や T5 などの SOTA モデルと比較して,EX と VES の競合性能が示された。

Text-to-SQLs enables non-expert users to effortlessly retrieve desired information from relational databases using natural language queries. While recent advancements, particularly with Large Language Models (LLMs) like GPT and T5, have shown impressive performance on large-scale benchmarks such as BIRD, current state-of-the-art (SOTA) LLM-based Text-to-SQLs models often require significant efforts to develop auxiliary tools like SQL classifiers to achieve high performance. This paper proposed a novel approach that only needs SQL Quality Measurement to enhance LLMs-based Text-to-SQLs performance. It establishes a SQL quality evaluation mechanism to assess the generated SQL queries against predefined criteria and actual database responses. This feedback loop enables continuous learning and refinement of model outputs based on both syntactic correctness and semantic accuracy. The proposed method undergoes comprehensive validation on the BIRD benchmark, assessing Execution Accuracy (EX) and Valid Efficiency Score (VES) across various Text-to-SQLs difficulty levels. Experimental results reveal competitive performance in both EX and VES compared to SOTA models like GPT4 and T5.
翻訳日:2024-11-04 10:14:15 公開日:2024-10-02
# NEAT: 事前学習モデルの非線形パラメータ効率適応

NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models ( http://arxiv.org/abs/2410.01870v1 )

ライセンス: Link先を確認
Yibo Zhong, Haoxiang Jiang, Lincan Li, Ryumei Nakada, Tianci Liu, Linjun Zhang, Huaxiu Yao, Haoyu Wang, (参考訳) 微調整された事前訓練モデルは、大きめのモデルを下流のタスクに適応させるのに不可欠であり、しばしば最先端のパフォーマンスを提供する。 しかし、すべてのモデルパラメータを微調整することは資源集約的で精力的であり、パラメータ効率の良い微調整法(PEFT)が出現する。 1つの広く採用されているPEFT技術であるLoRA(Lo-Rank Adaptation)は、事前訓練されたモデルの重量を凍結し、ランクが元の重量行列の寸法よりもかなり小さい2つの低ランク行列を導入する。 これにより、少数のパラメータだけを調整することで、効率的な微調整が可能になる。 効率性にもかかわらず、LoRAは、複雑で非線形なコンポーネントと効率的な最適化軌道を捉えるのに苦労する低ランク分解を用いて、重量の更新を近似している。 結果として、LoRAベースの手法は完全な微調整に比べて大きな性能差を示すことが多い。 このギャップを閉じるにはより高いランクが必要であり、パラメータの数を増やす。 これらの制約に対処するため,非線形パラメータ効率適応法(NEAT)を提案する。 NEATは、トレーニング済みの重みを入力として取り込んだ軽量ニューラルネットワークを導入し、近似累積重み更新のための非線形変換を学習する。 これらの更新は、対応する事前訓練された重みの関数として解釈できる。 非線形近似は累積更新を直接モデル化し、重み更新における複素構造と非線形構造を効果的に捉える。 理論的解析により, NEAT は LoRA よりも高効率でありながら, 同等あるいは高発現率であることが示された。 4つのベンチマークと20以上のデータセットにわたる大規模な評価は、NEATがビジョンとテキストタスクの両方でベースラインを大幅に上回っていることを示している。

Fine-tuning pre-trained models is crucial for adapting large models to downstream tasks, often delivering state-of-the-art performance. However, fine-tuning all model parameters is resource-intensive and laborious, leading to the emergence of parameter-efficient fine-tuning (PEFT) methods. One widely adopted PEFT technique, Low-Rank Adaptation (LoRA), freezes the pre-trained model weights and introduces two low-rank matrices whose ranks are significantly smaller than the dimensions of the original weight matrices. This enables efficient fine-tuning by adjusting only a small number of parameters. Despite its efficiency, LoRA approximates weight updates using low-rank decomposition, which struggles to capture complex, non-linear components and efficient optimization trajectories. As a result, LoRA-based methods often exhibit a significant performance gap compared to full fine-tuning. Closing this gap requires higher ranks, which increases the number of parameters. To address these limitations, we propose a nonlinear parameter-efficient adaptation method (NEAT). NEAT introduces a lightweight neural network that takes pre-trained weights as input and learns a nonlinear transformation to approximate cumulative weight updates. These updates can be interpreted as functions of the corresponding pre-trained weights. The nonlinear approximation directly models the cumulative updates, effectively capturing complex and non-linear structures in the weight updates. Our theoretical analysis demonstrates taht NEAT can be more efficient than LoRA while having equal or greater expressivity. Extensive evaluations across four benchmarks and over twenty datasets demonstrate that NEAT significantly outperforms baselines in both vision and text tasks.
翻訳日:2024-11-04 10:14:15 公開日:2024-10-02
# オークションによる人工知能の規制

Auction-Based Regulation for Artificial Intelligence ( http://arxiv.org/abs/2410.01871v1 )

ライセンス: Link先を確認
Marco Bornstein, Zora Che, Suhas Julapalli, Abdirisak Mohamed, Amrit Singh Bedi, Furong Huang, (参考訳) の時代に、規制当局はゆっくりと動き、人工知能(AI)の展開が壊れた後に残された安全、偏見、法的要素を拾い上げている。 大規模言語モデルのようなAIモデルは、社会内で誤情報やストークの分割を推進できるため、規制当局がこれらの危険を軽減し、ユーザーの安全を確保するための枠組みを採用することが不可欠である。 最先端のAIモデルの安全性、バイアス、法的な問題にどのように対処するかについては、多くの専門的な議論があるが、AIの安全性を規制する厳密で現実的な数学的フレームワークの数は不足している。 我々はこの課題に取り組み、モデル構築エージェントを確実にインセンティブを与えるオークションベースの規制機構を提案する。 (i)より安全なモデルをデプロイし、 二 規制手続に参加すること。 我々は、派生したNash Equilibriaを通じて、各参加者の最善の戦略は、所定の最小限の安全閾値よりも安全なモデルを提出することであるということを確実に保証する。 実証的な結果から,我々の規制オークションは,最低限の安全基準を強制する単純な規制枠組みよりも,安全率と参加率を20%,参加率を15%向上させることが示された。

In an era of "moving fast and breaking things", regulators have moved slowly to pick up the safety, bias, and legal pieces left in the wake of broken Artificial Intelligence (AI) deployment. Since AI models, such as large language models, are able to push misinformation and stoke division within our society, it is imperative for regulators to employ a framework that mitigates these dangers and ensures user safety. While there is much-warranted discussion about how to address the safety, bias, and legal woes of state-of-the-art AI models, the number of rigorous and realistic mathematical frameworks to regulate AI safety is lacking. We take on this challenge, proposing an auction-based regulatory mechanism that provably incentivizes model-building agents (i) to deploy safer models and (ii) to participate in the regulation process. We provably guarantee, via derived Nash Equilibria, that each participating agent's best strategy is to submit a model safer than a prescribed minimum-safety threshold. Empirical results show that our regulatory auction boosts safety and participation rates by 20% and 15% respectively, outperforming simple regulatory frameworks that merely enforce minimum safety standards.
翻訳日:2024-11-04 10:14:15 公開日:2024-10-02
# 相関雑音の存在下での量子力学における普遍的境界

Universal bounds in quantum metrology in presence of correlated noise ( http://arxiv.org/abs/2410.01881v1 )

ライセンス: Link先を確認
Stanislaw Kurdzialek, Francesco Albarelli, Rafal Demkowicz-Dobrzanski, (参考訳) 時間的および空間的相関(量子コムによって数学的に説明される)を含む一般量子気象モデルの基本的境界を導出する。 境界は一般に厳密であることは保証されていないが、その厳密性は手続きの数値的な複雑さを増大させることで体系的に増大する可能性がある。 興味深いことに、このアプローチは非相関チャネルに対しても最先端技術よりも厳密な境界をもたらす。 本稿では,時間的相関型デフォーカスの存在下での最も一般的な適応位相推定モデルの限界について検討する。 我々は、並列(ハイゼンベルクスケーリングなし)と垂直(ハイゼンベルクスケーリング可能)の両方を信号に強調することを検討する。 前者の場合、我々の新しい境界は負の相関が有益であることを示す。

We derive fundamental bounds for general quantum metrological models involving both temporal or spatial correlations (mathematically described by quantum combs), which may be effectively computed in the limit of a large number of probes or sensing channels involved. Although the bounds are not guaranteed to be tight in general, their tightness may be systematically increased by increasing numerical complexity of the procedure. Interestingly, this approach yields bounds tighter than the state of the art also for uncorrelated channels. We apply the bound to study the limits for the most general adaptive phase estimation models in the presence of temporally correlated dephasing. We consider dephasing both parallel (no Heisenberg scaling) and perpendicular (Heisenberg scaling possible) to the signal. In the former case our new bounds show that negative correlations are beneficial, for the latter we show evidence that the bounds are tight.
翻訳日:2024-11-04 10:14:15 公開日:2024-10-02
# Matchgate 階層:Matchgate 回路における決定論的ゲートテレポーテーションのためのClifford 様階層

Matchgate hierarchy: A Clifford-like hierarchy for deterministic gate teleportation in matchgate circuits ( http://arxiv.org/abs/2410.01887v1 )

ライセンス: Link先を確認
Angelos Bampounis, Rui Soares Barbosa, Nadish de Silva, (参考訳) クリフォード階層 (Clifford hierarchy) は、1999年にゴッテマンとチュアンによって導入された、フォールトトレラント量子計算においてゲートテレポーテーションモデルに不可欠な量子ゲートの集合である。 階層内のゲートは、マジック状態にアクセス可能な(適応的な)クリフォード回路を用いてゲートテレポーテーションを通じて、複雑さを増し、決定論的に実装することができる。 そこで本研究では,古典的に効率的にシミュレートできるが,"Matchgate-magic"状態へのアクセスを通じて量子普遍性に昇格する量子回路の他の制限クラスである,マッチゲート回路の文脈における類似ゲートテレポーテーションプロトコルと関連する階層を提案する。 このプロトコルは、アダプティブマッチゲート回路とマジックステートを用いて、階層内の任意の$n$-qubitゲートを決定論的に実装する。 また、新しい決定論的マッチゲート-マグニック状態のファミリーも提供する。 2つのキュービットのマッチゲート階層におけるゲートを完全に特徴付け、この場合、要求されるリソース状態の数は、階層内のターゲットゲートのレベルと線形に増加する。 任意の数の量子ビットに対して、フェルミオン石$\unicode{x2013}$von Neumann定理を活用することにより、マッチゲート階層の特徴付けを提案する。 各レベルにおけるゲートを表現するための空間要件に多項式上界を配置する。

The Clifford hierarchy, introduced by Gottesman and Chuang in 1999, is an increasing sequence of sets of quantum gates crucial to the gate teleportation model for fault-tolerant quantum computation. Gates in the hierarchy can be deterministically implemented, with increasing complexity, via gate teleportation using (adaptive) Clifford circuits with access to magic states. We propose an analogous gate teleportation protocol and a related hierarchy in the context of matchgate circuits, another restricted class of quantum circuits that can be efficiently classically simulated but are promoted to quantum universality via access to `matchgate-magic' states. The protocol deterministically implements any $n$-qubit gate in the hierarchy using adaptive matchgate circuits with magic states, with the level in the hierarchy indicating the required depth of adaptivity and thus number of magic states consumed. It also provides a whole family of novel deterministic matchgate-magic states. We completely characterise the gates in the matchgate hierarchy for two qubits, with the consequence that, in this case, the required number of resource states grows linearly with the target gate's level in the hierarchy. For an arbitrary number of qubits, we propose a characterisation of the matchgate hierarchy by leveraging the fermionic Stone$\unicode{x2013}$von Neumann theorem. It places a polynomial upper bound on the space requirements for representing gates at each level.
翻訳日:2024-11-04 10:14:15 公開日:2024-10-02
# コンフォーマルな予測セットは、異なる影響を引き起こす可能性がある

Conformal Prediction Sets Can Cause Disparate Impact ( http://arxiv.org/abs/2410.01888v1 )

ライセンス: Link先を確認
Jesse C. Cresswell, Bhargava Kumar, Yi Sui, Mouloud Belbahri, (参考訳) 共形予測は機械学習モデルの不確実性を定量化するための有望な手法であるが、出力する予測セットは本質的には実行可能なものではない。 多くのアプリケーションは、複数のアプリケーションではなく単一のアウトプットを必要とする。 これを解決するために、予測セットを人間に提供し、その人が情報的な決定をする。 このようなシステムでは、保護されたグループ間の結果の公平性を保証することが不可欠であり、研究者は平等化被覆を公正性の標準として用いることを提案している。 人間の被験者と実験を行うことで,予測セットの提供が意思決定の不公平性を高めることが実証された。 興味深いことに、等化被覆を満たす集合を提供すると、限界被覆よりも不公平になる。 カバー範囲を等化するのではなく、経験的により公平な結果をもたらすグループ間でセットサイズを等化することを提案する。

Although conformal prediction is a promising method for quantifying the uncertainty of machine learning models, the prediction sets it outputs are not inherently actionable. Many applications require a single output to act on, not several. To overcome this, prediction sets can be provided to a human who then makes an informed decision. In any such system it is crucial to ensure the fairness of outcomes across protected groups, and researchers have proposed that Equalized Coverage be used as the standard for fairness. By conducting experiments with human participants, we demonstrate that providing prediction sets can increase the unfairness of their decisions. Disquietingly, we find that providing sets that satisfy Equalized Coverage actually increases unfairness compared to marginal coverage. Instead of equalizing coverage, we propose to equalize set sizes across groups which empirically leads to more fair outcomes.
翻訳日:2024-11-04 10:04:30 公開日:2024-10-02
# ノイズパラメタライズド量子回路における損失関数濃度の推定

Estimates of loss function concentration in noisy parametrized quantum circuits ( http://arxiv.org/abs/2410.01893v1 )

ライセンス: Link先を確認
Giulio Crognaletti, Michele Grossi, Angelo Bassi, (参考訳) 変分量子コンピューティングは、量子化学、機械学習、最適化問題など幅広い分野に適用可能な、汎用的な計算手法を提供する。 しかし、量子回路の最適化のスケールアップは、しばしばバレンプラトー(BP)現象と呼ばれる損失関数の指数的な集中のために大きなハードルに直面する。 単項回路や雑音回路におけるバレンプラトーの程度には厳密な結果が存在するが、この2つの効果の相互作用については、主に雑音パラメータ化量子回路(PQCs)における損失濃度がユニタリケースで用いられる標準リー代数形式を用いて適切に説明できないため、ほとんど分かっていない。 本研究では,非負行列理論に基づく新しい解析式を導入し,深部PQCの分散の正確な計算を可能にした。 特に、単元量子コンピューティングの純粋可逆的文脈では生じない現象であるノイズ誘起吸収機構の出現を示す。 これらの課題にもかかわらず、浅い回路の動作を効果的に模倣することにより、深部PQCの分散に関する一般的な下限を適切に遅くすることで、確立することができる。 本フレームワークは,PQCの雑音抵抗性と,その表現力を高める能力とを,スマート初期化戦略によりより深く関連付けることができる。 理論的発展は数値的な例と関連する応用によって支えられている。

Variational quantum computing provides a versatile computational approach, applicable to a wide range of fields such as quantum chemistry, machine learning, and optimization problems. However, scaling up the optimization of quantum circuits encounters a significant hurdle due to the exponential concentration of the loss function, often dubbed the barren plateau (BP) phenomenon. Although rigorous results exist on the extent of barren plateaus in unitary or in noisy circuits, little is known about the interaction between these two effects, mainly because the loss concentration in noisy parameterized quantum circuits (PQCs) cannot be adequately described using the standard Lie algebraic formalism used in the unitary case. In this work, we introduce a new analytical formulation based on non-negative matrix theory that enables precise calculation of the variance in deep PQCs, which allows investigating the complex and rich interplay between unitary dynamics and noise. In particular, we show the emergence of a noise-induced absorption mechanism, a phenomenon that cannot arise in the purely reversible context of unitary quantum computing. Despite the challenges, general lower bounds on the variance of deep PQCs can still be established by appropriately slowing down speed of convergence to the deep circuit limit, effectively mimicking the behaviour of shallow circuits. Our framework applies to both unitary and non-unitary dynamics, allowing us to establish a deeper connection between the noise resilience of PQCs and the potential to enhance their expressive power through smart initialization strategies. Theoretical developments are supported by numerical examples and related applications.
翻訳日:2024-11-04 10:04:30 公開日:2024-10-02
# DevSecOpsにおけるLCMレポートの可能性

The potential of LLM-generated reports in DevSecOps ( http://arxiv.org/abs/2410.01899v1 )

ライセンス: Link先を確認
Nikolaos Lykousas, Vasileios Argyropoulos, Fran Casino, (参考訳) アラート疲労は、DevSecOpsパラダイムを使用してソフトウェアチームが直面する一般的な問題である。 セキュリティとコードスキャンツールによって生成される圧倒的な数の警告と警告、特にリソースが限られている小さなチームでは、セキュリティ警告に対する脱感作と応答性の低下を招き、脆弱性にシステムを公開する可能性がある。 本稿では,認証漏洩などの検出されたセキュリティ問題に対する金銭的影響と結果を強調する,行動可能なセキュリティレポート作成におけるLCMの可能性について検討する。 開発者による調査では、LCMが生成したレポートは、明確で包括的でモチベーションの高い洞察を提供することによって、セキュリティ問題に対する即時的なアクションの可能性を大幅に高めることが示されている。 DevSecOpsワークフローにこれらのレポートを統合することで、注意飽和と警告疲労を緩和し、重要なセキュリティ警告が効果的に対処できる。

Alert fatigue is a common issue faced by software teams using the DevSecOps paradigm. The overwhelming number of warnings and alerts generated by security and code scanning tools, particularly in smaller teams where resources are limited, leads to desensitization and diminished responsiveness to security warnings, potentially exposing systems to vulnerabilities. This paper explores the potential of LLMs in generating actionable security reports that emphasize the financial impact and consequences of detected security issues, such as credential leaks, if they remain unaddressed. A survey conducted among developers indicates that LLM-generated reports significantly enhance the likelihood of immediate action on security issues by providing clear, comprehensive, and motivating insights. Integrating these reports into DevSecOps workflows can mitigate attention saturation and alert fatigue, ensuring that critical security warnings are addressed effectively.
翻訳日:2024-11-04 10:04:30 公開日:2024-10-02
# 量子機械学習タスクとしてのQKD

QKD as a Quantum Machine Learning task ( http://arxiv.org/abs/2410.01904v1 )

ライセンス: Link先を確認
T. Decker, M. Gallezot, S. F. Kerstan, A. Paesano, A. Ginter, W. Wormsbecher, (参考訳) 本稿では,量子機械学習(QML)アルゴリズムのユースケースとして,量子鍵分布(QKD)プロトコルを提案する。 BB84プロトコルの量子回路実装に対する盗聴攻撃を最適化するQMLタスクを定義し,検討する。 QKDプロトコルはよく理解されており、QMLモデルの性能を容易に評価できる確固たるセキュリティ証明が存在する。 ノイズフリー環境での最適な個人攻撃のための明示的な回路を見つけることで、実装が容易なQML手法のパワーを示す。 ノイズの多い設定では、私たちの知る限り、既知のクローン法よりも優れた新しいクローンアルゴリズムが得られます。 最後に、QMLアルゴリズム内でのQKD後処理の古典的情報を用いて、集団攻撃のQML構築を提案する。

We propose considering Quantum Key Distribution (QKD) protocols as a use case for Quantum Machine Learning (QML) algorithms. We define and investigate the QML task of optimizing eavesdropping attacks on the quantum circuit implementation of the BB84 protocol. QKD protocols are well understood and solid security proofs exist enabling an easy evaluation of the QML model performance. The power of easy-to-implement QML techniques is shown by finding the explicit circuit for optimal individual attacks in a noise-free setting. For the noisy setting we find, to the best of our knowledge, a new cloning algorithm, which can outperform known cloning methods. Finally, we present a QML construction of a collective attack by using classical information from QKD post-processing within the QML algorithm.
翻訳日:2024-11-04 10:04:30 公開日:2024-10-02
# 半フレジブル可視画像透かしを用いたソーシャルメディア認証と会話型ディープフェイク

Social Media Authentication and Combating Deepfakes using Semi-fragile Invisible Image Watermarking ( http://arxiv.org/abs/2410.01906v1 )

ライセンス: Link先を確認
Aakash Varma Nadimpalli, Ajita Rattani, (参考訳) 画像合成とビデオ合成の深層生成モデルの大幅な進歩により、ディープフェイクと操作メディアは深刻な社会的関心を喚起している。 ディープフェイク検出のための従来の機械学習分類器は、進化するディープフェイク生成技術に対処できないことが多く、敵の攻撃を受けやすい。 あるいは、画像画素に埋め込まれた見えない秘密メッセージを検証することによって、メディア認証を可能にするプロアクティブディフェンス技術として、見えない画像透かしが研究されている。 メディア認証のために導入されたいくつかの目に見えない画像透かし技術は、基本的な画像処理操作や透かし除去攻撃に弱いことが証明されている。 そこで本研究では,メディア認証のために,見えない秘密メッセージを実画像に埋め込む半フレジブル画像透かし手法を提案する。 提案する透かしフレームワークは,顔の操作や改ざんに対して脆弱であると同時に,画像処理操作や透かし除去攻撃に頑健であるように設計されている。 本手法は, 画像品質と透かし除去への抵抗性を向上する評価ネットワークと, バックボーンエンコーダ・デコーダ・ディスクリミネータネットワークからなる, 提案手法のユニークなアーキテクチャにより促進される。 SOTAの顔ディープフェイクデータセットに関する詳細な実験的研究により、提案モデルでは、未確認のディープフェイク操作を施した場合に、良質な画像処理操作を適用した場合に、高ビット回復精度で復元可能な6,4$bitのシークレットを画像透かしとして組み込むことができることを示した。 さらに,提案手法は,いくつかのホワイトボックスとブラックボックスの透かし除去攻撃に対して高いレジリエンスを示す。 したがって、最先端のパフォーマンスを得る。

With the significant advances in deep generative models for image and video synthesis, Deepfakes and manipulated media have raised severe societal concerns. Conventional machine learning classifiers for deepfake detection often fail to cope with evolving deepfake generation technology and are susceptible to adversarial attacks. Alternatively, invisible image watermarking is being researched as a proactive defense technique that allows media authentication by verifying an invisible secret message embedded in the image pixels. A handful of invisible image watermarking techniques introduced for media authentication have proven vulnerable to basic image processing operations and watermark removal attacks. In response, we have proposed a semi-fragile image watermarking technique that embeds an invisible secret message into real images for media authentication. Our proposed watermarking framework is designed to be fragile to facial manipulations or tampering while being robust to benign image-processing operations and watermark removal attacks. This is facilitated through a unique architecture of our proposed technique consisting of critic and adversarial networks that enforce high image quality and resiliency to watermark removal efforts, respectively, along with the backbone encoder-decoder and the discriminator networks. Thorough experimental investigations on SOTA facial Deepfake datasets demonstrate that our proposed model can embed a $64$-bit secret as an imperceptible image watermark that can be recovered with a high-bit recovery accuracy when benign image processing operations are applied while being non-recoverable when unseen Deepfake manipulations are applied. In addition, our proposed watermarking technique demonstrates high resilience to several white-box and black-box watermark removal attacks. Thus, obtaining state-of-the-art performance.
翻訳日:2024-11-04 10:04:30 公開日:2024-10-02
# パルス双対ビームの統一時空記述

Unified space-time description of pulsed twin beams ( http://arxiv.org/abs/2410.01907v1 )

ライセンス: Link先を確認
Alessandra Gatti, Enrico Brambilla, Ottavia Jedrkiewicz, (参考訳) この研究は、[Gatti et al , Sci. Rep. 13, 16786] にヒューリスティックな議論とともに提示されたマルチモードパラメトリックダウンコンバージョンのための準定常モデルの数学的導出を提供する。 このモデルは、非線形結晶中の量子場の3D+1伝播方程式から導かれるものであり、その近似は徹底的に議論されている。 相対的な単純さと、量子レベルと古典レベルの両方においてゲインレジームで有効であるという事実のおかげで、過去20年間に行われた異なる実験的な観察を統一的に記述することができ、しばしば限定的なアドホックモデルによって過去に記述された。

This work provides a mathematical derivation of a quasi-stationary model for multimode parametric down-conversion, which was presented in [Gatti et al., Sci. Rep. 13, 16786] with heuristic arguments. The model is here derived from the 3D+1 propagation equation of the quantum fields in a nonlinear crystal, and its approximations discussed thoroughly. Thanks to its relative simplicity, and to the fact that it is valid in any gain regime, both at a quantum and classical level, it allows a unified description of disparate experimental observations conducted over the last 20 years, often described in the past by means of limited ad hoc models.
翻訳日:2024-11-04 10:04:30 公開日:2024-10-02
# 均一表現性は制限的すぎるか?グラフニューラルネットワークの効率的な表現性を目指して

Is uniform expressivity too restrictive? Towards efficient expressivity of graph neural networks ( http://arxiv.org/abs/2410.01910v1 )

ライセンス: Link先を確認
Sammy Khalife, Josué Tonelli-Cueto, (参考訳) 均一表現性は、グラフニューラルネットワーク(GNN)が入力グラフのサイズに依存するパラメータなしでクエリを表現できることを保証する。 この性質は、入力グラフのサイズに依存しない多くのトレーニング可能なパラメータを持つアプリケーションで望ましい。 第1次論理の2つの可変ガードフラグメント(GC2)の均一表現性は、Rectified Linear Unit (ReLU) GNNs [Barcelo & al., 2020] の良好な評価結果である。 本稿では,[Grohe, 2021] で定式化された質問に答える,幅広い種類の Pfaff 活性化関数 (sigmoid と tanh を含む) を持つ GNN に対して,GC2 クエリの均一表現性は不可能であることを示す。 また、これらの制限にもかかわらず、これらのGNNの多くは、入力グラフの最大次数でパラメータの数が対数的であるように、GC2クエリを効率的に表現できることも示している。 さらに、あるアクティベーション関数の選択に対して、その度合いに対するログ依存が達成可能であることを示す。 このことは、一様表現性は、実用に現れる大きなグラフを被覆することで、うまく緩和できることを示している。 我々の実験は、我々の理論的な推定が実際に成り立つことを示している。

Uniform expressivity guarantees that a Graph Neural Network (GNN) can express a query without the parameters depending on the size of the input graphs. This property is desirable in applications in order to have number of trainable parameters that is independent of the size of the input graphs. Uniform expressivity of the two variable guarded fragment (GC2) of first order logic is a well-celebrated result for Rectified Linear Unit (ReLU) GNNs [Barcelo & al., 2020]. In this article, we prove that uniform expressivity of GC2 queries is not possible for GNNs with a wide class of Pfaffian activation functions (including the sigmoid and tanh), answering a question formulated by [Grohe, 2021]. We also show that despite these limitations, many of those GNNs can still efficiently express GC2 queries in a way that the number of parameters remains logarithmic on the maximal degree of the input graphs. Furthermore, we demonstrate that a log-log dependency on the degree is achievable for a certain choice of activation function. This shows that uniform expressivity can be successfully relaxed by covering large graphs appearing in practical applications. Our experiments illustrates that our theoretical estimates hold in practice.
翻訳日:2024-11-04 10:04:30 公開日:2024-10-02
# 視覚言語知能の火花:高精細画像生成のための2次元自己回帰変換器

A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation ( http://arxiv.org/abs/2410.01912v1 )

ライセンス: Link先を確認
Liang Chen, Sinan Tan, Zefan Cai, Weichu Xie, Haozhe Zhao, Yichi Zhang, Junyang Lin, Jinze Bai, Tianyu Liu, Baobao Chang, (参考訳) 本研究は,ベクトル量子化(VQ)自己回帰画像生成における情報損失ボトルネックに対処し,2次元自己回帰変換器(DnD)と呼ばれる新しいモデルアーキテクチャを導入する。 DnD-Transformerは、シーケンス長方向とともに、新しい自己回帰方向である \textit{model depth} を導入することで、画像のより多くのコードを予測する。 従来の1Dオートレグレスや、RQ-Transformerのような類似の2D画像分解を利用した以前の作業と比較すると、DnD-Transformerは、バックボーンモデルのサイズとシーケンス長が同じで高品質な画像を生成できるエンドツーエンドモデルであり、自動回帰画像生成のための新たな最適化視点を開くことができる。 さらに,本実験により,DnD-Transformerの潜在能力は自然画像の生成を超えることが判明した。 リッチなテキストとグラフィカルな要素を自己監督的に生成し、これらの組み合わせのモダリティを理解することさえできる。 これは拡散モデルのような一般的な視覚生成モデルでは以前は実証されておらず、画像のみに訓練された場合、視覚言語知能の火花が示される。 コード、データセット、モデルはhttps://github.com/chenllliang/DnD-Transformer.comで公開されている。

This work tackles the information loss bottleneck of vector-quantization (VQ) autoregressive image generation by introducing a novel model architecture called the 2-Dimensional Autoregression (DnD) Transformer. The DnD-Transformer predicts more codes for an image by introducing a new autoregression direction, \textit{model depth}, along with the sequence length direction. Compared to traditional 1D autoregression and previous work utilizing similar 2D image decomposition such as RQ-Transformer, the DnD-Transformer is an end-to-end model that can generate higher quality images with the same backbone model size and sequence length, opening a new optimization perspective for autoregressive image generation. Furthermore, our experiments reveal that the DnD-Transformer's potential extends beyond generating natural images. It can even generate images with rich text and graphical elements in a self-supervised manner, demonstrating an understanding of these combined modalities. This has not been previously demonstrated for popular vision generative models such as diffusion models, showing a spark of vision-language intelligence when trained solely on images. Code, datasets and models are open at https://github.com/chenllliang/DnD-Transformer.
翻訳日:2024-11-04 10:04:30 公開日:2024-10-02
# レバレッジスコアサンプリングによるシェープ値推定の精度向上

Provably Accurate Shapley Value Estimation via Leverage Score Sampling ( http://arxiv.org/abs/2410.01917v1 )

ライセンス: Link先を確認
Christopher Musco, R. Teal Witter, (参考訳) もともとゲーム理論で導入されたShapleyの値は、モデル予測を特定の入力特徴に属性付けるために使用される、説明可能な機械学習の中心的なツールとして登場した。 しかし、Shapley値の計算には正確なコストがかかる:$n$機能を持つ一般モデルの場合、$O(2^n)$モデル評価が必要である。 この問題に対処するため、近似アルゴリズムが広く使われている。 最もポピュラーなアルゴリズムの1つは、モデルに依存しず、実際に非常に効果的であるKernel SHAPアルゴリズムである。 しかしながら、我々の知る限りでは、Kernel SHAPは非漸近的な複雑性を保証する強力な保証を持っていない。 本稿では,Kernel SHAP の軽量な修正である Leverage SHAP を導入することでこの問題に対処する。 提案手法は,強力な回帰ツールであるレバレッジ・スコア・サンプリングを用いて,シェープリー値推定と非能動的学習の関連性を利用する。 理論的保証以外にも、Leverage SHAPは、ユビキタスなSHAPライブラリ(Lundberg & Lee, 2017)で利用可能なKernel SHAPの高度に最適化された実装でさえ、一貫してパフォーマンスが向上していることを示す。

Originally introduced in game theory, Shapley values have emerged as a central tool in explainable machine learning, where they are used to attribute model predictions to specific input features. However, computing Shapley values exactly is expensive: for a general model with $n$ features, $O(2^n)$ model evaluations are necessary. To address this issue, approximation algorithms are widely used. One of the most popular is the Kernel SHAP algorithm, which is model agnostic and remarkably effective in practice. However, to the best of our knowledge, Kernel SHAP has no strong non-asymptotic complexity guarantees. We address this issue by introducing Leverage SHAP, a light-weight modification of Kernel SHAP that provides provably accurate Shapley value estimates with just $O(n\log n)$ model evaluations. Our approach takes advantage of a connection between Shapley value estimation and agnostic active learning by employing leverage score sampling, a powerful regression tool. Beyond theoretical guarantees, we show that Leverage SHAP consistently outperforms even the highly optimized implementation of Kernel SHAP available in the ubiquitous SHAP library [Lundberg & Lee, 2017].
翻訳日:2024-11-04 10:04:30 公開日:2024-10-02
# NTK-DFL:ニューラルタンジェントカーネルによる異種環境における分散フェデレーション学習の促進

NTK-DFL: Enhancing Decentralized Federated Learning in Heterogeneous Settings via Neural Tangent Kernel ( http://arxiv.org/abs/2410.01922v1 )

ライセンス: Link先を確認
Gabriel Thompson, Kai Yue, Chau-Wai Wong, Huaiyu Dai, (参考訳) Decentralized Federated Learning (DFL) は、中央サーバや生のデータ交換なしで参加者間でモデルをトレーニングするための、協調的な機械学習フレームワークである。 参加者はローカル環境やユーザの振る舞いを反映した異なるデータ分布を持つことが多いため、DFLは統計的不均一性による課題に直面している。 近年の研究では、集中型フレームワークにおけるフェデレーション学習に適用されたニューラルタンジェントカーネル(NTK)アプローチが、パフォーマンスの向上につながることが示されている。 NTKベースの更新メカニズムは、通常の勾配降下法よりも表現力が高く、より効率的な収束とデータ不均一性の扱いが可能である。 本稿では,NTKベースの進化とモデル平均化の相乗効果を導入しながら,分散環境でクライアントモデルを訓練するためにNTKを活用するアプローチを提案する。 このシナジーはモデル間の分散を利用して、不均一な設定における精度と収束性を改善する。 モデル平均化技術は, 平均局所モデル精度と比較して, 性能を著しく向上させ, 精度を少なくとも10%向上させる。 実験結果から,本手法は高度に不均一な環境下でのベースラインよりも高い精度を常に達成し,他の手法では性能が劣ることが示された。 さらに、通信ラウンドの4.6倍の速さで目標性能に達する。 複数のデータセット、ネットワークトポロジ、不均一性設定にまたがってアプローチを検証することで、堅牢性と一般化性を確保する。

Decentralized federated learning (DFL) is a collaborative machine learning framework for training a model across participants without a central server or raw data exchange. DFL faces challenges due to statistical heterogeneity, as participants often possess different data distributions reflecting local environments and user behaviors. Recent work has shown that the neural tangent kernel (NTK) approach, when applied to federated learning in a centralized framework, can lead to improved performance. The NTK-based update mechanism is more expressive than typical gradient descent methods, enabling more efficient convergence and better handling of data heterogeneity. We propose an approach leveraging the NTK to train client models in the decentralized setting, while introducing a synergy between NTK-based evolution and model averaging. This synergy exploits inter-model variance and improves both accuracy and convergence in heterogeneous settings. Our model averaging technique significantly enhances performance, boosting accuracy by at least 10% compared to the mean local model accuracy. Empirical results demonstrate that our approach consistently achieves higher accuracy than baselines in highly heterogeneous settings, where other approaches often underperform. Additionally, it reaches target performance in 4.6 times fewer communication rounds. We validate our approach across multiple datasets, network topologies, and heterogeneity settings to ensure robustness and generalizability.
翻訳日:2024-11-04 10:04:30 公開日:2024-10-02
# MARPLE: 長距離推論のためのベンチマーク

MARPLE: A Benchmark for Long-Horizon Inference ( http://arxiv.org/abs/2410.01926v1 )

ライセンス: Link先を確認
Emily Jin, Zhuoyi Huang, Jan-Philipp Fränken, Weiyu Liu, Hannah Cha, Erik Brockbank, Sarah Wu, Ruohan Zhang, Jiajun Wu, Tobias Gerstenberg, (参考訳) 過去のイベントを再構築するには、長い間の地平線を越えた推論が必要である。 何が起こったのかを理解するためには、世界と人間の行動に関する事前の知識を使い、視覚、言語、聴覚の手がかりを含む様々な証拠源から推論する必要があります。 マルチモーダルエビデンスを用いた長距離推論能力評価のためのベンチマークであるMARPLEを紹介する。 我々のベンチマークでは、シミュレーションされた家庭と対話するエージェント、視覚、言語、聴覚刺激をサポートするエージェント、手続き的に生成された環境やエージェントの振る舞いが特徴である。 古典的な‘全体単位’のストーリーにインスパイアされた私たちは、AIモデルと人間の参加者に、実際に何が起きたのかのステップバイステップのリプレイに基づいて、どのエージェントが環境を変えたのかを推測するように頼みました。 目標は、犯人をできるだけ早く正確に識別することである。 本研究は,従来のモンテカルロシミュレーション法とLCMベースライン(GPT-4)を併用して実施した。 ヒトと比較して、従来の推論モデルはより頑丈でパフォーマンスが良いが、GPT-4は環境変化を理解するのが難しい。 我々は,どの要因が推論性能に影響を及ぼすかを分析し,様々なエビデンスモードをアブレーションし,全てのモードが性能に有用であることを示す。 全体として、我々の実験は、我々のベンチマークにおける長期マルチモーダル推論タスクが、現在のモデルに挑戦していることを示している。

Reconstructing past events requires reasoning across long time horizons. To figure out what happened, we need to use our prior knowledge about the world and human behavior and draw inferences from various sources of evidence including visual, language, and auditory cues. We introduce MARPLE, a benchmark for evaluating long-horizon inference capabilities using multi-modal evidence. Our benchmark features agents interacting with simulated households, supporting vision, language, and auditory stimuli, as well as procedurally generated environments and agent behaviors. Inspired by classic ``whodunit'' stories, we ask AI models and human participants to infer which agent caused a change in the environment based on a step-by-step replay of what actually happened. The goal is to correctly identify the culprit as early as possible. Our findings show that human participants outperform both traditional Monte Carlo simulation methods and an LLM baseline (GPT-4) on this task. Compared to humans, traditional inference models are less robust and performant, while GPT-4 has difficulty comprehending environmental changes. We analyze what factors influence inference performance and ablate different modes of evidence, finding that all modes are valuable for performance. Overall, our experiments demonstrate that the long-horizon, multimodal inference tasks in our benchmark present a challenge to current models.
翻訳日:2024-11-04 09:54:27 公開日:2024-10-02
# エージェントAIシステムにおけるリスクアライメント

Risk Alignment in Agentic AI Systems ( http://arxiv.org/abs/2410.01927v1 )

ライセンス: Link先を確認
Hayley Clatterbuck, Clinton Castro, Arvo Muñoz Morán, (参考訳) Agentic AIは、AI能力の新たなフロンティアをマークし、そのようなシステムをユーザや開発者、社会と安全に構築し整合させる方法についての新たな疑問を提起する。 エージェントの行動はリスクに対する態度に影響されるため、アライメントの1つの重要な側面はエージェントAIのリスクプロファイルに関するものである。 リスクアライメントは、ユーザの満足度と信頼のために重要であるが、特にエージェントAIがより自律的になり、私たちの生活の重要な側面を制御できるようになると、社会にさらに大きな影響をもたらすだろう。 危険に対する無謀な態度(無謀なユーザーに対して調整されているか、設計が不十分である)を持つAIは、重大な脅威を引き起こす可能性がある。 また、有害行為の責任を負うエージェントが存在しない「責任ギャップ」を開くこともある。 エージェントAIの意思決定を導くには、どのようなリスク態度が必要か? ユーザのリスク態度に合わせて調整されたAIシステムを設計するには、どうすればよいのか? 許容可能なリスク態度の範囲に、どのようなガードレールを置くべきか? 他人に代わってリスクの高い判断をするシステムを設計する際に、倫理的な考慮事項は何でしょう? これらの質問の重要な規範的および技術的側面を論じる3つの論文を提示する。

Agentic AIs $-$ AIs that are capable and permitted to undertake complex actions with little supervision $-$ mark a new frontier in AI capabilities and raise new questions about how to safely create and align such systems with users, developers, and society. Because agents' actions are influenced by their attitudes toward risk, one key aspect of alignment concerns the risk profiles of agentic AIs. Risk alignment will matter for user satisfaction and trust, but it will also have important ramifications for society more broadly, especially as agentic AIs become more autonomous and are allowed to control key aspects of our lives. AIs with reckless attitudes toward risk (either because they are calibrated to reckless human users or are poorly designed) may pose significant threats. They might also open 'responsibility gaps' in which there is no agent who can be held accountable for harmful actions. What risk attitudes should guide an agentic AI's decision-making? How might we design AI systems that are calibrated to the risk attitudes of their users? What guardrails, if any, should be placed on the range of permissible risk attitudes? What are the ethical considerations involved when designing systems that make risky decisions on behalf of others? We present three papers that bear on key normative and technical aspects of these questions.
翻訳日:2024-11-04 09:54:27 公開日:2024-10-02
# 機能性複合材料における位相セグメンテーションのためのディープラーニング支援高分解能顕微鏡画像処理

Deep learning assisted high resolution microscopy image processing for phase segmentation in functional composite materials ( http://arxiv.org/abs/2410.01928v1 )

ライセンス: Link先を確認
Ganesh Raghavendran, Bing Han, Fortune Adekogbe, Shuang Bai, Bingyu Lu, William Wu, Minghao Zhang, Ying Shirley Meng, (参考訳) バッテリー研究の分野では、複雑な画像を処理し、関連するコンポーネントを事前に理解する必要があるため、高解像度の顕微鏡画像の処理は難しい課題である。 近年, 画像解析における深層学習手法の利用が注目されている。 しかし, 複合材料中の相と成分を検出するための高分解能顕微鏡画像の自動解析は, 未探索領域である。 本研究は、トレーニングされたU-Netセグメンテーションモデルを用いて、生高分解能電子顕微鏡(TEM)画像から成分と位相セグメンテーションを検出する新しいワークフローを提案する。 開発したモデルは、成分の検出と位相分割の迅速化を実現し、広範囲にわたるTEM画像の精査に伴う時間的・認知的要求を低減し、人間のエラーの可能性を軽減できる。 本手法では, 電池分野を超えて広い適用性を有する新規かつ効率的な画像解析手法を提案するとともに, 合金製造などの相および組成分布を特徴とする他の領域への応用の可能性を示す。

In the domain of battery research, the processing of high-resolution microscopy images is a challenging task, as it involves dealing with complex images and requires a prior understanding of the components involved. The utilization of deep learning methodologies for image analysis has attracted considerable interest in recent years, with multiple investigations employing such techniques for image segmentation and analysis within the realm of battery research. However, the automated analysis of high-resolution microscopy images for detecting phases and components in composite materials is still an underexplored area. This work proposes a novel workflow for detecting components and phase segmentation from raw high resolution transmission electron microscopy (TEM) images using a trained U-Net segmentation model. The developed model can expedite the detection of components and phase segmentation, diminishing the temporal and cognitive demands associated with scrutinizing an extensive array of TEM images, thereby mitigating the potential for human errors. This approach presents a novel and efficient image analysis approach with broad applicability beyond the battery field and holds potential for application in other related domains characterized by phase and composition distribution, such as alloy production.
翻訳日:2024-11-04 09:54:27 公開日:2024-10-02
# ランドマークに基づくタスク分割によるLLM強化記号強化学習

LLM-Augmented Symbolic Reinforcement Learning with Landmark-Based Task Decomposition ( http://arxiv.org/abs/2410.01929v1 )

ライセンス: Link先を確認
Alireza Kheirandish, Duo Xu, Faramarz Fekri, (参考訳) 強化学習(RL)の基本的な課題の1つは、複雑なタスクを受け取り、RLエージェントがより簡単に学習できるサブタスクに分解できることである。 本稿では,複雑なタスクを解くために,与えられた正の軌道と負の軌道を用いてサブタスクを識別する作業について報告する。 状態は1次述語論理で表され、サブタスクを識別するための新しいアルゴリズムを考案したと仮定する。 次に、Large Language Model (LLM)を用いて、各サブタスクを達成するための一階述語論理ルールテンプレートを生成する。 このようなルールはさらにILP(Inductive Logic Programming)ベースのRLエージェントを通じてルールベースのポリシーに調整された。 実験により,全てのサブタスクを正確に検出するサブタスク検出におけるアルゴリズムの精度を検証する。 また,サブタスクを実現するために,言語モデルが生成する常識ルールの質についても検討した。 我々のLLM誘導型ルールテンプレート生成はサブタスクの解決に必要なルールを生成できることを示す。

One of the fundamental challenges in reinforcement learning (RL) is to take a complex task and be able to decompose it to subtasks that are simpler for the RL agent to learn. In this paper, we report on our work that would identify subtasks by using some given positive and negative trajectories for solving the complex task. We assume that the states are represented by first-order predicate logic using which we devise a novel algorithm to identify the subtasks. Then we employ a Large Language Model (LLM) to generate first-order logic rule templates for achieving each subtask. Such rules were then further fined tuned to a rule-based policy via an Inductive Logic Programming (ILP)-based RL agent. Through experiments, we verify the accuracy of our algorithm in detecting subtasks which successfully detect all of the subtasks correctly. We also investigated the quality of the common-sense rules produced by the language model to achieve the subtasks. Our experiments show that our LLM-guided rule template generation can produce rules that are necessary for solving a subtask, which leads to solving complex tasks with fewer assumptions about predefined first-order logic predicates of the environment.
翻訳日:2024-11-04 09:54:27 公開日:2024-10-02
# 平らにしないで、トークン化! 深部RLにおけるSoftMoEの有効性の鍵を解き放つ

Don't flatten, tokenize! Unlocking the key to SoftMoE's efficacy in deep RL ( http://arxiv.org/abs/2410.01930v1 )

ライセンス: Link先を確認
Ghada Sokar, Johan Obando-Ceron, Aaron Courville, Hugo Larochelle, Pablo Samuel Castro, (参考訳) 強化学習(RL)におけるディープニューラルネットワークの使用は、モデルのサイズが大きくなるにつれて性能劣化に悩まされることが多い。 ソフトな専門家(SoftMoEs)の混在は、この問題をオンラインRLで緩和する約束を最近示したが、その効果の背景には大きな理由が残っていない。 この作業では、パフォーマンス向上を駆動する重要な要因を特定する、詳細な分析を行います。 我々は、複数の専門家ではなく、エンコーダ出力のトークン化がSoftMoEsの有効性の裏側にあるという驚くべき結果を発見した。 実際、適切なスケールのシングルエキスパートであっても、トークン化によるパフォーマンス向上を維持できることを実証しています。

The use of deep neural networks in reinforcement learning (RL) often suffers from performance degradation as model size increases. While soft mixtures of experts (SoftMoEs) have recently shown promise in mitigating this issue for online RL, the reasons behind their effectiveness remain largely unknown. In this work we provide an in-depth analysis identifying the key factors driving this performance gain. We discover the surprising result that tokenizing the encoder output, rather than the use of multiple experts, is what is behind the efficacy of SoftMoEs. Indeed, we demonstrate that even with an appropriately scaled single expert, we are able to maintain the performance gains, largely thanks to tokenization.
翻訳日:2024-11-04 09:54:27 公開日:2024-10-02
# TAEGAN: データ拡張のための合成語彙データの生成

TAEGAN: Generating Synthetic Tabular Data For Data Augmentation ( http://arxiv.org/abs/2410.01933v1 )

ライセンス: Link先を確認
Jiayu Li, Zilong Zhao, Kevin Yee, Uzair Javaid, Biplab Sikdar, (参考訳) 合成表データ生成は、データ拡張、ソフトウェアテスト、プライバシ保護データ共有におけるその可能性に対して、大きな注目を集めている。 しかしながら、ほとんどの研究は大規模データセットに重点を置いて、列単位の統計分布や機能間相関といった指標の観点からその品質を評価する一方で、データ拡張のためのユーティリティ、特にデータが不足しているデータセットについては、しばしば見落としている。 本稿では,高品質な表データを生成するための改良されたGANベースのフレームワークであるTabular Auto-Encoder Generative Adversarial Network (TAEGAN)を提案する。 大規模言語モデル(LLM)ベースの手法は、合成表形式データ生成の最先端を表現しているが、大きなサイズと複雑さのために、しばしば小さなデータセットに対して過大評価される。 TAEGANは、マスク付きオートエンコーダをジェネレータとして採用し、表型データ生成における自己教師付き事前学習のパワーを初めて導入することで、ネットワークを本質的により多くの情報に公開する。 我々は5つの最先端の合成表データ生成アルゴリズムに対してTAEGANを広範囲に評価した。 10データセットの結果から、TAEGANは機械学習の有効性について10データセット中9データセットで既存のディープラーニングベースの表型データ生成モデルより優れており、8データセット中7データセットで優れたデータ拡張性能を実現している。

Synthetic tabular data generation has gained significant attention for its potential in data augmentation, software testing and privacy-preserving data sharing. However, most research has primarily focused on larger datasets and evaluating their quality in terms of metrics like column-wise statistical distributions and inter-feature correlations, while often overlooking its utility for data augmentation, particularly for datasets whose data is scarce. In this paper, we propose Tabular Auto-Encoder Generative Adversarial Network (TAEGAN), an improved GAN-based framework for generating high-quality tabular data. Although large language models (LLMs)-based methods represent the state-of-the-art in synthetic tabular data generation, they are often overkill for small datasets due to their extensive size and complexity. TAEGAN employs a masked auto-encoder as the generator, which for the first time introduces the power of self-supervised pre-training in tabular data generation so that essentially exposes the networks to more information. We extensively evaluate TAEGAN against five state-of-the-art synthetic tabular data generation algorithms. Results from 10 datasets show that TAEGAN outperforms existing deep-learning-based tabular data generation models on 9 out of 10 datasets on the machine learning efficacy and achieves superior data augmentation performance on 7 out of 8 smaller datasets.
翻訳日:2024-11-04 09:54:27 公開日:2024-10-02
# IBMのノイズ中間量子コンピュータにおける素因数分解への変分量子固有解法アプローチ

Variational Quantum Eigensolver Approach to Prime Factorization on IBM's Noisy Intermediate Scale Quantum Computer ( http://arxiv.org/abs/2410.01935v1 )

ライセンス: Link先を確認
Mona Sobhani, Yahui Chai, Tobias Hartung, Karl Jansen, (参考訳) 本稿では、素因数分解に対するハイブリッド量子古典的アプローチを提案する。 提案アルゴリズムは変分量子固有解法 (VQE) に基づいており, 古典最適化器を用いて与えられたハミルトニアン基底状態を求める。 本研究は,IBMの実量子コンピュータと古典シミュレータの両方において,提案手法の性能を評価する数値実験である。 その結果,本手法は実量子コンピュータ上では253まで,古典シミュレータでは1048561までを分解できることがわかった。 これらの結果は、短期量子コンピュータの実用化に向けたアプローチの可能性を示している。

This paper presents a hybrid quantum-classical approach to prime factorization. The proposed algorithm is based on the Variational Quantum Eigensolver (VQE), which employs a classical optimizer to find the ground state of a given Hamiltonian. A numerical study is presented, evaluating the performance of the proposed method across various instances on both IBM's real quantum computer and its classical simulator. The results demonstrate that the method is capable of successfully factorizing numbers up to 253 on a real quantum computer and up to 1048561 on a classical simulator. These findings show the potential of the approach for practical applications on near-term quantum computers.
翻訳日:2024-11-04 09:54:27 公開日:2024-10-02
# CHASE-SQL: テキストからSQLへのマルチパス推論と推奨候補選択

CHASE-SQL: Multi-Path Reasoning and Preference Optimized Candidate Selection in Text-to-SQL ( http://arxiv.org/abs/2410.01943v1 )

ライセンス: Link先を確認
Mohammadreza Pourreza, Hailong Li, Ruoxi Sun, Yeounoh Chung, Shayan Talaei, Gaurav Tarlok Kakkar, Yu Gan, Amin Saberi, Fatma Ozcan, Sercan O. Arik, (参考訳) テキスト・ツー・SQLタスクにおける大規模言語モデル(LLM)パフォーマンスの課題に対処するために,マルチエージェント・モデリングにおけるテスト時間計算を用いて候補生成と選択を改善する,革新的な戦略を取り入れた新しいフレームワークであるCHASE-SQLを紹介した。 CHASE-SQL は LLM の本質的な知識を活用して,異なる LLM ジェネレータを用いて多種多様な高品質な SQL 候補を生成する。(1) 複雑なクエリを単一の LLM コールで管理可能なサブクエリに分解する分割・コンカレントメソッド,(2) クエリ実行計画に基づくチェーン・オブ・シークレット推論,(3) クエリ実行中にデータベースエンジンが行うステップを反映する,(3) 独自のインスタンス認識合成例生成技術。 この選択アプローチは代替案よりも堅牢であることが示されている。 提案したジェネレータ-セレクタフレームワークは、SQLクエリの品質と多様性を高めるだけでなく、以前のメソッドよりも優れている。 全体として、提案したCHASE-SQLは、BIRD Text-to-SQLデータセットベンチマークのテストセットと開発セットにおいて、73.0%と73.01%の最先端実行精度を実現し、CHASE-SQLが(論文提出時点で)リーダーボードのトップサブミッションとなる。

In tackling the challenges of large language model (LLM) performance for Text-to-SQL tasks, we introduce CHASE-SQL, a new framework that employs innovative strategies, using test-time compute in multi-agent modeling to improve candidate generation and selection. CHASE-SQL leverages LLMs' intrinsic knowledge to generate diverse and high-quality SQL candidates using different LLM generators with: (1) a divide-and-conquer method that decomposes complex queries into manageable sub-queries in a single LLM call; (2) chain-of-thought reasoning based on query execution plans, reflecting the steps a database engine takes during execution; and (3) a unique instance-aware synthetic example generation technique, which offers specific few-shot demonstrations tailored to test questions.To identify the best candidate, a selection agent is employed to rank the candidates through pairwise comparisons with a fine-tuned binary-candidates selection LLM. This selection approach has been demonstrated to be more robust over alternatives. The proposed generators-selector framework not only enhances the quality and diversity of SQL queries but also outperforms previous methods. Overall, our proposed CHASE-SQL achieves the state-of-the-art execution accuracy of 73.0% and 73.01% on the test set and development set of the notable BIRD Text-to-SQL dataset benchmark, rendering CHASE-SQL the top submission of the leaderboard (at the time of paper submission).
翻訳日:2024-11-04 09:54:27 公開日:2024-10-02
# 1ステップノイズラベル緩和

One-step Noisy Label Mitigation ( http://arxiv.org/abs/2410.01944v1 )

ライセンス: Link先を確認
Hao Li, Jiayang Gu, Jingkuan Song, An Zhang, Lianli Gao, (参考訳) 大規模な事前訓練作業のための完全クリーンまたは人為的なサンプルを取得することは、しばしば非現実的であるため、トレーニングプロセスにおけるノイズラベルの有害な影響を緩和することがますます重要になっている。 それにもかかわらず、既存のノイズ緩和手法は、タスク固有の設計、モデル依存性、計算オーバーヘッドが著しく大きいため、実用的な応用において制限に直面することが多い。 本研究では、高次元直交特性を利用して、円錐空間における頑健で効果的な境界を同定し、クリーンでノイズの多いサンプルを分離する。 そこで我々は,モデルに依存しない雑音ラベル緩和パラダイムである1ステップアンチノイズ (OSA) を提案し,そのモデルに推定器モデルとスコアリング関数を用いて,1ステップの推論で入力ペアの雑音レベルを評価する。 我々はOSAの優位性を実証的に実証し、トレーニングの堅牢性の向上、タスク転送性の向上、デプロイの容易性、各種ベンチマーク、モデル、タスク間の計算コストの削減を強調した。 私たちのコードはhttps://github.com/leolee99/OSAでリリースされています。

Mitigating the detrimental effects of noisy labels on the training process has become increasingly critical, as obtaining entirely clean or human-annotated samples for large-scale pre-training tasks is often impractical. Nonetheless, existing noise mitigation methods often encounter limitations in practical applications due to their task-specific design, model dependency, and significant computational overhead. In this work, we exploit the properties of high-dimensional orthogonality to identify a robust and effective boundary in cone space for separating clean and noisy samples. Building on this, we propose One-step Anti-Noise (OSA), a model-agnostic noisy label mitigation paradigm that employs an estimator model and a scoring function to assess the noise level of input pairs through just one-step inference, a cost-efficient process. We empirically demonstrate the superiority of OSA, highlighting its enhanced training robustness, improved task transferability, ease of deployment, and reduced computational costs across various benchmarks, models, and tasks. Our code is released at https://github.com/leolee99/OSA.
翻訳日:2024-11-04 09:54:27 公開日:2024-10-02
# CALF:中国試験によるLFQAのベンチマーク評価

CALF: Benchmarking Evaluation of LFQA Using Chinese Examinations ( http://arxiv.org/abs/2410.01945v1 )

ライセンス: Link先を確認
Yuchen Fan, Xin Zhong, Heng Zhou, Yuchen Zhang, Mingyu Liang, Chengxing Xie, Ermo Hua, Ning Ding, Bowen Zhou, (参考訳) LFQA(Long-Form Question Answering)とは、オープンエンドの質問に対して、詳細な段落レベルの回答を生成することを指す。 多くのLFQA手法が開発されているが、その複雑さとコストが高いため、LFQAを効果的かつ効率的に評価することは困難である。 したがって、LFQA評価の標準ベンチマークは今のところ存在しない。 このギャップに対処するため、我々は、LFQAの自動評価指標の性能を厳格に評価することを目的として、中国によるLFQA評価のための中国語exAmination(英語版)という、よく構築された参照ベースのベンチマークを初めて提案する。 CALFベンチマークは、英語に翻訳された中国の試験問題に由来する。 知識集約とニュアンス応答からなる1476の例を含む。 評価は3つの異なる設定からなり,自動メトリクスの挙動を総合的に分析する。 我々は,従来の評価指標7つ,プロンプトベースの指標3つ,訓練された評価指標3つについて広範な実験を行い,LFQA評価のためのエージェントシステム上での試験を行った。 その結果、現在の自動評価指標はいずれも人間と同等のパフォーマンスを示しておらず、長文応答に含まれる濃密な情報をうまくキャプチャできないことが明らかとなった。 さらに,LFQA評価において自動評価指標が失敗する原因を詳細に分析し,LFQA評価システムの進歩に有用な洞察を提供する。 データセットと関連するコードは、GitHubリポジトリからアクセスできます。

Long-Form Question Answering (LFQA) refers to generating in-depth, paragraph-level responses to open-ended questions. Although lots of LFQA methods are developed, evaluating LFQA effectively and efficiently remains challenging due to its high complexity and cost. Therefore, there is no standard benchmark for LFQA evaluation till now. To address this gap, we make the first attempt by proposing a well-constructed, reference-based benchmark named Chinese exAmination for LFQA Evaluation (CALF), aiming to rigorously assess the performance of automatic evaluation metrics for LFQA. The CALF benchmark is derived from Chinese examination questions that have been translated into English. It includes up to 1476 examples consisting of knowledge-intensive and nuanced responses. Our evaluation comprises three different settings to ana lyze the behavior of automatic metrics comprehensively. We conducted extensive experiments on 7 traditional evaluation metrics, 3 prompt-based metrics, and 3 trained evaluation metrics, and tested on agent systems for the LFQA evaluation. The results reveal that none of the current automatic evaluation metrics shows comparable performances with humans, indicating that they cannot capture dense information contained in long-form responses well. In addition, we provide a detailed analysis of the reasons why automatic evaluation metrics fail when evaluating LFQA, offering valuable insights to advance LFQA evaluation systems. Dataset and associated codes can be accessed at our GitHub repository.
翻訳日:2024-11-04 09:54:27 公開日:2024-10-02
# SciPrompt:科学トピックのきめ細かい分類のための知識強化プロンプト

SciPrompt: Knowledge-augmented Prompting for Fine-grained Categorization of Scientific Topics ( http://arxiv.org/abs/2410.01946v1 )

ライセンス: Link先を確認
Zhiwen You, Kanyao Han, Haotian Zhu, Bertram Ludäscher, Jana Diesner, (参考訳) プロンプトに基づく微調整は、テキスト分類を含む様々なタスクのために、事前訓練された言語モデルで符号化された情報を抽出するための重要な方法となっている。 マルチクラス分類タスクでは、低リソースシナリオ下でのプロンプトベースの微調整が、完全な微調整手法に匹敵するパフォーマンスレベルをもたらしている。 従来の研究では、ラベル用語空間からクラス空間へのマッピングとして、プロンプトテンプレートと動詞化器を使用して、マスキング言語モデリングタスクとしての分類問題を解決してきた。 しかし, 自動リッチ化によるクロスドメイン, 微粒化プロンプトに基づく微調整は, ドメインの専門知識を必要とする, ドメインラベル用語を手作業で選択することの難しさとコストが主な理由として, 未検討のままである。 この課題に対処するために、低リソーステキスト分類タスクのための科学トピック関連用語を自動的に検索するフレームワークSciPromptを紹介した。 この目的のために, 文体拡張のための科学文献の文脈において, 意味論的に相関し, ドメイン固有のラベル用語を選択する。 さらに,モデルチューニング時の言語モデルの予測性能を高めるために,相関スコアを付加重みとして用いた新たな動詞化戦略を提案する。 本手法は, 科学テキスト分類タスクにおいて, 細粒度, 新興の科学トピックの分類において, ほとんど, ゼロショット設定で, 最先端, 即時的な微調整方法よりも優れていた。

Prompt-based fine-tuning has become an essential method for eliciting information encoded in pre-trained language models for a variety of tasks, including text classification. For multi-class classification tasks, prompt-based fine-tuning under low-resource scenarios has resulted in performance levels comparable to those of fully fine-tuning methods. Previous studies have used crafted prompt templates and verbalizers, mapping from the label terms space to the class space, to solve the classification problem as a masked language modeling task. However, cross-domain and fine-grained prompt-based fine-tuning with an automatically enriched verbalizer remains unexplored, mainly due to the difficulty and costs of manually selecting domain label terms for the verbalizer, which requires humans with domain expertise. To address this challenge, we introduce SciPrompt, a framework designed to automatically retrieve scientific topic-related terms for low-resource text classification tasks. To this end, we select semantically correlated and domain-specific label terms within the context of scientific literature for verbalizer augmentation. Furthermore, we propose a new verbalization strategy that uses correlation scores as additional weights to enhance the prediction performance of the language model during model tuning. Our method outperforms state-of-the-art, prompt-based fine-tuning methods on scientific text classification tasks under few and zero-shot settings, especially in classifying fine-grained and emerging scientific topics.
翻訳日:2024-11-04 09:54:27 公開日:2024-10-02
# 大規模ASRモデルのための微分プライベートパラメータ効率の良い微調整法

Differentially Private Parameter-Efficient Fine-tuning for Large ASR Models ( http://arxiv.org/abs/2410.01948v1 )

ライセンス: Link先を確認
Hongbin Liu, Lun Wang, Om Thakkar, Abhradeep Thakurta, Arun Narayanan, (参考訳) 大規模なASRモデルは、機密情報を不注意に漏洩させ、差分プライバシー(DP)のような正式なプライバシー対策によって緩和することができる。 しかし、従来のDPトレーニングは計算コストが高く、モデルの性能を損なう可能性がある。 本研究は,ASRモデルにおいて,より少ない計算と性能コストでプライバシーリスクを軽減する手段として,DPパラメータ効率の微調整を提案する。 広範囲な実験とプログレッシブ最適化により、LibriSpeechのクリーン/その他のテストセットで4.6%/8.1%のワードエラー率を実現し、600万以上のパラメータを持つ大規模ASRモデルの微調整において(10,352e-6)-DPを維持しながら、新しいパフォーマンスベンチマークを設定した。

Large ASR models can inadvertently leak sensitive information, which can be mitigated by formal privacy measures like differential privacy (DP). However, traditional DP training is computationally expensive, and can hurt model performance. Our study explores DP parameter-efficient fine-tuning as a way to mitigate privacy risks with smaller computation and performance costs for ASR models. Through extensive experimentation and progressive optimization, we achieve 4.6%/8.1% word error rate on LibriSpeech clean/other test-sets, setting a new performance benchmark while maintaining (10, 3.52e-6)-DP in fine-tuning a large ASR model with over 600M parameters.
翻訳日:2024-11-04 09:54:27 公開日:2024-10-02
# Discrete Copula Diffusion

Discrete Copula Diffusion ( http://arxiv.org/abs/2410.01949v1 )

ライセンス: Link先を確認
Anji Liu, Oliver Broadrick, Mathias Niepert, Guy Van den Broeck, (参考訳) 離散拡散モデルは最近、自然言語やDNA配列などの複雑なデータモデリングにおいて大きな進歩を見せている。 しかし、数ステップで高品質なサンプルを生成できる連続データの拡散モデルとは異なり、現代の離散拡散モデルは、うまく機能するために数百から数千の復調ステップを必要とする。 本稿では,離散拡散モデルがより少ないステップで強い性能を達成するのを防ぐ基本的制限を同定する。 この問題に対処するために、我々は、コプラモデルと呼ばれる別の深い生成モデルを導入することで、欠落した依存情報を補うための一般的なアプローチを公式に提案し、導入する。 本手法は拡散モデルとコプラモデルの両方を微調整する必要はないが, 高い品質のサンプル生成が可能であり, 分解ステップが著しく少ない。 この手法を自己回帰型コプラモデルに適用すると、組み合わせモデルは無条件テキスト生成と条件テキスト生成の両方で個別に優れる。 具体的には,拡散モデル単独よりも8~32倍のデノイングステップを用いて,条件付きテキスト生成の高速化を実現している。 本稿では,効果的な離散拡散生成アルゴリズムの提示に加えて,離散拡散における変数間の依存性をモデル化することの重要性を強調した。

Discrete diffusion models have recently shown significant progress in modeling complex data, such as natural languages and DNA sequences. However, unlike diffusion models for continuous data, which can generate high-quality samples in just a few denoising steps, modern discrete diffusion models still require hundreds or even thousands of denoising steps to perform well. In this paper, we identify a fundamental limitation that prevents discrete diffusion models from achieving strong performance with fewer steps -- they fail to capture dependencies between output variables at each denoising step. To address this issue, we provide a formal explanation and introduce a general approach to supplement the missing dependency information by incorporating another deep generative model, termed the copula model. Our method does not require fine-tuning either the diffusion model or the copula model, yet it enables high-quality sample generation with significantly fewer denoising steps. When we apply this approach to autoregressive copula models, the combined model outperforms both models individually in unconditional and conditional text generation. Specifically, the hybrid model achieves better (un)conditional text generation using 8 to 32 times fewer denoising steps than the diffusion model alone. In addition to presenting an effective discrete diffusion generation algorithm, this paper emphasizes the importance of modeling inter-variable dependencies in discrete diffusion.
翻訳日:2024-11-04 09:54:27 公開日:2024-10-02
# スコアベースプルバックリーマン幾何学

Score-based pullback Riemannian geometry ( http://arxiv.org/abs/2410.01950v1 )

ライセンス: Link先を確認
Willem Diepeveen, Georgios Batzolis, Zakhar Shumaylov, Carola-Bibiane Schönlieb, (参考訳) データ駆動型リーマン幾何学は、下流タスクの効率を改善するために、表現学習を解釈するための強力なツールとして登場した。 今後は、安価な多様体マッピングと効率的なトレーニングアルゴリズムのバランスをとることが重要である。 本研究では、引き戻しリーマン幾何学と生成モデルの概念を統合し、幾何と学習の両方においてスケーラブルなデータ駆動リーマン幾何学の枠組みを提案する。 最初のステップとして、単調分布に着目して、データ確率密度を通した閉形式測地線を持つスコアベースのリーマン構造を提案する。 この構造を用いて、正しいデータ多様体次元を発見するための誤差境界を持つリーマンオートエンコーダ(RAE)を構築する。 このフレームワークは、訓練中に等方性正規化を採用することにより、自然に異方性正規化フローで使用することができる。 各種データセットの数値実験により,我々のフレームワークはデータサポートを通じて高品質な測地線を生成するだけでなく,データ多様体の内在次元を確実に推定し,高次元空間においても多様体のグローバルチャートを提供することを示した。

Data-driven Riemannian geometry has emerged as a powerful tool for interpretable representation learning, offering improved efficiency in downstream tasks. Moving forward, it is crucial to balance cheap manifold mappings with efficient training algorithms. In this work, we integrate concepts from pullback Riemannian geometry and generative models to propose a framework for data-driven Riemannian geometry that is scalable in both geometry and learning: score-based pullback Riemannian geometry. Focusing on unimodal distributions as a first step, we propose a score-based Riemannian structure with closed-form geodesics that pass through the data probability density. With this structure, we construct a Riemannian autoencoder (RAE) with error bounds for discovering the correct data manifold dimension. This framework can naturally be used with anisotropic normalizing flows by adopting isometry regularization during training. Through numerical experiments on various datasets, we demonstrate that our framework not only produces high-quality geodesics through the data support, but also reliably estimates the intrinsic dimension of the data manifold and provides a global chart of the manifold, even in high-dimensional ambient spaces.
翻訳日:2024-11-04 09:54:27 公開日:2024-10-02
# TypedThinker: 大規模言語モデルの推論を改善するTyped Thinking

TypedThinker: Typed Thinking Improves Large Language Model Reasoning ( http://arxiv.org/abs/2410.01952v1 )

ライセンス: Link先を確認
Danqing Wang, Jianxin Ma, Fei Fang, Lei Li, (参考訳) LLM(Large Language Models)の推論能力は大幅に進歩しているが、多種多様な推論ソリューションが欠如しているため、限定された解探索領域に閉じ込められていることが多い。 本稿では,複数の推論型(帰納的,帰納的,帰納的,類推的)を組み込むことで,LLMの問題解決能力を高める新しいフレームワークであるTypedThinkerを提案する。 4つのベンチマークで分析したところ、異なる推論型は異なる問題の集合を独特に解き、多様な思考アプローチの重要性を強調した。 TypedThinkerは、与えられた問題に対して適切な推論型を選択し、特定の推論型を効果的に実装する、という2つの主要な課題に対処する。 TypedThinkerは、成功した経験を自己学習することで、型の選択と適用を推論するための暗黙のポリシーを学ぶ。 実験の結果、Mistral 7Bは3.4%、LLaMA3 8Bは16.7%の精度で4つの推論ベンチマークでベースラインモデルよりも大幅に改善された。 特にTypedThinkerは、新しいベンチマークを効果的に一般化し、GPT-4oのような強力なモデルの推論能力をさらに強化することができる。 コードはhttps://github.com/dqwang122/ThinkHubで公開されている。

Despite significant advancements in the reasoning capabilities of Large Language Models (LLMs), the lack of diverse reasoning solutions often makes them trapped in a limited solution search area. In this paper, we propose TypedThinker, a novel framework that enhances LLMs' problem-solving abilities by incorporating multiple reasoning types (deductive, inductive, abductive, and analogical). Our analysis across four benchmarks reveals that different reasoning types uniquely solve distinct sets of problems, highlighting the importance of diverse thinking approaches. TypedThinker addresses two key challenges: selecting appropriate reasoning types for given problems and effectively implementing specific reasoning types. Through self-training on successful experiences, TypedThinker learns an implicit policy for reasoning type selection and application. Experimental results demonstrate significant improvements over baseline models, with accuracy increases of 3.4% for Mistral 7B and 16.7% for LLaMA3 8B across four reasoning benchmarks. Notably, TypedThinker shows effective generalization to new benchmarks and can further enhance the reasoning capability of powerful models like GPT-4o. The code is released at https://github.com/dqwang122/ThinkHub.
翻訳日:2024-11-04 09:54:27 公開日:2024-10-02
# ComaDICE: 定常分布シフト規則化によるオフライン協調型マルチエージェント強化学習

ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization ( http://arxiv.org/abs/2410.01954v1 )

ライセンス: Link先を確認
The Viet Bui, Thanh Hong Nguyen, Tien Mai, (参考訳) オフライン強化学習(RL)は、さらなる環境相互作用を必要とせず、事前コンパイルされたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。 単一エージェント設定で有望な結果が示されたが、オフラインマルチエージェント強化学習(MARL)は、大きなジョイントステートアクション空間とマルチエージェント動作の複雑さのために、さらなる課題を提示する。 オフラインRLにおける鍵となる問題は分散シフトであり、これは、最適化されたターゲットポリシーがデータを生成する振る舞いポリシーから逸脱したときに生じる。 この問題はMARLにおいて、エージェントの局所的政策と拡張的な共同状態-作用空間との相互依存により悪化する。 それまでのアプローチでは、Q-関数またはポリシーの空間に正規化を組み込むことで、この問題に対処してきた。 本研究では, 定常分布空間における正規化器を導入し, 分散シフトをよりよく処理する。 我々のアルゴリズムであるComaDICEは、グローバルラーニングポリシーに定常分布正規化を導入し、マルチエージェントトレーニングを容易にするために注意深く構造化されたマルチエージェント値分解戦略を補完することにより、オフライン協調MARLのための原則化されたフレームワークを提供する。 マルチエージェントの MuJoCo と StarCraft II ベンチマークの広範な実験を通じて,ComaDICE は,ほぼすべてのタスクにおいて,最先端のオフライン MARL 手法に比べて優れた性能を発揮することを示した。

Offline reinforcement learning (RL) has garnered significant attention for its ability to learn effective policies from pre-collected datasets without the need for further environmental interactions. While promising results have been demonstrated in single-agent settings, offline multi-agent reinforcement learning (MARL) presents additional challenges due to the large joint state-action space and the complexity of multi-agent behaviors. A key issue in offline RL is the distributional shift, which arises when the target policy being optimized deviates from the behavior policy that generated the data. This problem is exacerbated in MARL due to the interdependence between agents' local policies and the expansive joint state-action space. Prior approaches have primarily addressed this challenge by incorporating regularization in the space of either Q-functions or policies. In this work, we introduce a regularizer in the space of stationary distributions to better handle distributional shift. Our algorithm, ComaDICE, offers a principled framework for offline cooperative MARL by incorporating stationary distribution regularization for the global learning policy, complemented by a carefully structured multi-agent value decomposition strategy to facilitate multi-agent training. Through extensive experiments on the multi-agent MuJoCo and StarCraft II benchmarks, we demonstrate that ComaDICE achieves superior performance compared to state-of-the-art offline MARL methods across nearly all tasks.
翻訳日:2024-11-04 09:44:41 公開日:2024-10-02
# 量子学習における量子データ駆動動的遷移

Quantum-data-driven dynamical transition in quantum learning ( http://arxiv.org/abs/2410.01955v1 )

ライセンス: Link先を確認
Bingzhi Zhang, Junyu Liu, Liang Jiang, Quntao Zhuang, (参考訳) 量子回路は量子情報処理の重要な要素である。 特定のコスト関数、量子ニューラルネットワーク(QNN)の下で最適化されたパラメータ化量子回路は、近い将来に量子優位を達成するためのパラダイムを提供する。 QNNのトレーニングダイナミクスを理解することは、パフォーマンスの最適化に不可欠である。 大規模データセットの分類や回帰といった教師付き学習タスクに関しては、QNNのトレーニングダイナミクスにおける量子データの役割はいまだ不明である。 対象値とデータがトレーニングの多項式あるいは指数収束を決定する量子データ駆動の動的遷移を明らかにする。 解析的に、固定点の完全な分類を力学方程式から導き出し、7つの異なる力学を特徴とする総合的な「位相図」を明らかにする。 これらのダイナミクスは、訓練データによって誘導される複数の余次元を持つ分岐遷移から始まり、単純な最適化タスクにおいて超臨界分岐を延長する。 さらに摂動解析は、7つの力学のうち指数収束類と多項式収束類を同定する。 我々は、一般化された制限されたハールアンサンブルによる遷移を説明する非摂動理論を提供する。 解析結果は、IBM量子デバイス上でのQNNトレーニングと実験的検証の数値シミュレーションで確認される。 目標値の選択によってQNNのトレーニングダイナミクスが決定されるので, コンバージェンスの速度を最適化するコスト関数の構築に関するガイダンスを提供する。

Quantum circuits are an essential ingredient of quantum information processing. Parameterized quantum circuits optimized under a specific cost function -- quantum neural networks (QNNs) -- provide a paradigm for achieving quantum advantage in the near term. Understanding QNN training dynamics is crucial for optimizing their performance. In terms of supervised learning tasks such as classification and regression for large datasets, the role of quantum data in QNN training dynamics remains unclear. We reveal a quantum-data-driven dynamical transition, where the target value and data determine the polynomial or exponential convergence of the training. We analytically derive the complete classification of fixed points from the dynamical equation and reveal a comprehensive `phase diagram' featuring seven distinct dynamics. These dynamics originate from a bifurcation transition with multiple codimensions induced by training data, extending the transcritical bifurcation in simple optimization tasks. Furthermore, perturbative analyses identify an exponential convergence class and a polynomial convergence class among the seven dynamics. We provide a non-perturbative theory to explain the transition via generalized restricted Haar ensemble. The analytical results are confirmed with numerical simulations of QNN training and experimental verification on IBM quantum devices. As the QNN training dynamics is determined by the choice of the target value, our findings provide guidance on constructing the cost function to optimize the speed of convergence.
翻訳日:2024-11-04 09:44:41 公開日:2024-10-02
# 大規模言語モデルにヒトのフィードバックはどの程度信頼性が高いか?

How Reliable Is Human Feedback For Aligning Large Language Models? ( http://arxiv.org/abs/2410.01957v1 )

ライセンス: Link先を確認
Min-Hsuan Yeh, Leitian Tao, Jeffrey Wang, Xuefeng Du, Yixuan Li, (参考訳) 現在、ほとんどのアライメント研究は、人間のフィードバックデータが本質的に信頼できると仮定して、Anthropic-HHのようなデータセットを使用した新しい学習アルゴリズムの設計に焦点を当てている。 しかし、人間のフィードバックの質的な不安定さとアライメントへの影響にはほとんど注意が払われていない。 このギャップに対処するため、我々は包括的な研究を行い、人間のフィードバックデータの詳細な分析を行う。 金の報酬モデル委員会を用いてフィードバックの信頼性を評価し、データセットの25%以上がこれらのモデルと低いか全く一致していないことを示し、高い信頼性の信頼性を示唆している。 質的分析により, ミスラベル, 主観的嗜好, 相違する基準と無害性のしきい値など, 信頼性の低い6つの要因を同定する。 最後に,信頼性を損なうため,定性解析の洞察に導かれる自動データクリーニング手法である Source-Aware Cleaning を提案し,データ品質を著しく向上させる。 大規模な実験では、クリーン化されたデータセットでトレーニングされたモデルであるHH-Cleanが、元のデータセットでトレーニングされたモデルよりも大幅に優れています。 我々は将来、より信頼性の高いLCMアライメント評価をサポートするためにHH-Cleanをリリースする。

Most alignment research today focuses on designing new learning algorithms using datasets like Anthropic-HH, assuming human feedback data is inherently reliable. However, little attention has been given to the qualitative unreliability of human feedback and its impact on alignment. To address this gap, we conduct a comprehensive study and provide an in-depth analysis of human feedback data. We assess feedback reliability using a committee of gold reward models, revealing that over 25% of the dataset shows low or no agreement with these models, implying a high degree of unreliability. Through a qualitative analysis, we identify six key sources of unreliability, such as mis-labeling, subjective preferences, differing criteria and thresholds for helpfulness and harmlessness, etc. Lastly, to mitigate unreliability, we propose Source-Aware Cleaning, an automatic data-cleaning method guided by the insight of our qualitative analysis, to significantly improve data quality. Extensive experiments demonstrate that models trained on our cleaned dataset, HH-Clean, substantially outperform those trained on the original dataset. We release HH-Clean to support more reliable LLM alignment evaluation in the future.
翻訳日:2024-11-04 09:44:41 公開日:2024-10-02
# スケール不変学習領域

Scale-Invariant Learning-to-Rank ( http://arxiv.org/abs/2410.01959v1 )

ライセンス: Link先を確認
Alessio Petrozziello, Christian Sommeregger, Ye-Sheen Lim, (参考訳) Expediaでは、検索フィルタ、プロパティルーム、アメニティ、画像など、ユーザに関連する情報のソートと提示において、LTR(Learning-to-rank)モデルがWebサイトで重要な役割を果たしています。 これらのモデルをデプロイする際の大きな課題は、トレーニングと運用データの一貫性のある機能スケーリングを保証することだ。 機能の標準化やバッチの正規化といった正規化技術はこれらの問題に対処できるが、レイテンシの影響と分散リアルタイム推論の難しさにより、本番環境では実用的ではない。 一貫性のある機能スケーリング問題に対処するために、深層ニューラルネットワークと広部ニューラルネットワークを組み合わせたスケール不変LTRフレームワークを導入し、トレーニングと予測時間の両方でモデルのスケール不変性を数学的に保証する。 我々は,予測時にテストセットを摂動させることにより,実世界のシナリオをシミュレーションして評価し,一貫性のない列車-テストスケーリングであっても,フレームワークを使用した場合よりも優れたパフォーマンスを実現することを示す。

At Expedia, learning-to-rank (LTR) models plays a key role on our website in sorting and presenting information more relevant to users, such as search filters, property rooms, amenities, and images. A major challenge in deploying these models is ensuring consistent feature scaling between training and production data, as discrepancies can lead to unreliable rankings when deployed. Normalization techniques like feature standardization and batch normalization could address these issues but are impractical in production due to latency impacts and the difficulty of distributed real-time inference. To address consistent feature scaling issue, we introduce a scale-invariant LTR framework which combines a deep and a wide neural network to mathematically guarantee scale-invariance in the model at both training and prediction time. We evaluate our framework in simulated real-world scenarios with injected feature scale issues by perturbing the test set at prediction time, and show that even with inconsistent train-test scaling, using framework achieves better performance than without.
翻訳日:2024-11-04 09:44:41 公開日:2024-10-02
# 健全な融合による人間の行動認識を指導する言語:建設作業者行動認識を事例として

Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case ( http://arxiv.org/abs/2410.01962v1 )

ライセンス: Link先を確認
Mohammad Mahdavian, Mohammad Loni, Mo Chen, (参考訳) 人間の行動を検出することは自律ロボットや車両にとって重要なタスクであり、精度を向上させるために様々なデータモダリティを統合する必要がある。 本研究では,骨格と視覚的手がかりに基づくHAR(Human Action Recognition)の新たなアプローチを提案する。 本手法では,スケルトンエンコーダの特徴抽出プロセスの導出に言語モデルを利用する。 具体的には,スケルトンモダリティを条件とした言語モデルに対して学習可能なプロンプトを用いて特徴表現を最適化する。 さらに,両モード特徴を相似融合モジュールを用いて組み合わせた融合機構を提案し,その高次元性に対応するために注目機構と変圧器機構を取り入れた。 この融合プロセスは、人間の行動の認識精度を高めるために、情報的ビデオフレームとボディジョイントを優先する。 さらに,建設現場における実世界のロボット応用に適した新しいデータセットを導入し,VolvoConstActという名前の視覚的,骨格的,深度的なデータモダリティを特徴とする。 このデータセットは、機械学習モデルのトレーニングと評価を容易にし、実世界の建設ゾーンで必要なタスクを実行するための自律的な建設機械を指示する。 提案手法を評価するため,NTU-RGB+D,NTU-RGB+D120,NW-UCLAの3つの公開データセットとともに,我々のデータセット上で実験を行った。 その結果,提案手法は全てのデータセットに対して有望な性能を達成し,その堅牢性と様々なアプリケーションの可能性を示す。 コードとデータセットは以下の通りである。

Detecting human actions is a crucial task for autonomous robots and vehicles, often requiring the integration of various data modalities for improved accuracy. In this study, we introduce a novel approach to Human Action Recognition (HAR) based on skeleton and visual cues. Our method leverages a language model to guide the feature extraction process in the skeleton encoder. Specifically, we employ learnable prompts for the language model conditioned on the skeleton modality to optimize feature representation. Furthermore, we propose a fusion mechanism that combines dual-modality features using a salient fusion module, incorporating attention and transformer mechanisms to address the modalities' high dimensionality. This fusion process prioritizes informative video frames and body joints, enhancing the recognition accuracy of human actions. Additionally, we introduce a new dataset tailored for real-world robotic applications in construction sites, featuring visual, skeleton, and depth data modalities, named VolvoConstAct. This dataset serves to facilitate the training and evaluation of machine learning models to instruct autonomous construction machines for performing necessary tasks in the real world construction zones. To evaluate our approach, we conduct experiments on our dataset as well as three widely used public datasets, NTU-RGB+D, NTU-RGB+D120 and NW-UCLA. Results reveal that our proposed method achieves promising performance across all datasets, demonstrating its robustness and potential for various applications. The codes and dataset are available at: https://mmahdavian.github.io/ls_har/
翻訳日:2024-11-04 09:44:41 公開日:2024-10-02
# 多視点視覚言語モデルとスクリーンタイムトラッカーを用いた小児の画面時間同定の強化

Enhancing Screen Time Identification in Children with a Multi-View Vision Language Model and Screen Time Tracker ( http://arxiv.org/abs/2410.01966v1 )

ライセンス: Link先を確認
Xinlong Hou, Sen Shen, Xueshen Li, Xinran Gao, Ziyi Huang, Steven J. Holiday, Matthew R. Cribbet, Susan W. White, Edward Sazonov, Yu Gan, (参考訳) 幼児のスクリーン露出を正確にモニターできることは、小児の肥満、身体活動、社会的相互作用といったスクリーン使用に関連する現象を研究する上で重要である。 既存の研究の多くは、大きめのウェアラブルセンサーからの自己報告や手動測定に依存しており、定量的なスクリーン露光データを取得する効率と正確性に欠ける。 本研究では,ウェアラブルセンサのエゴセントリックなイメージを利用して,スクリーンタイムトラッカー (STT) と視覚言語モデル (VLM) と呼ばれる新しいセンサ情報処理フレームワークを開発した。 特に,エゴ中心画像列から複数のビューを抽出し,画面露出を動的に解釈するマルチビューVLMを考案した。 我々は,子どものフリーライフ活動のデータセットを用いて,従来の視覚言語モデルや物体検出モデルにおいて,既存の手法よりも大幅に改善されていることを実証し,そのアプローチを検証した。 結果は、子どもの自然主義的環境における画面露出に関する行動研究を最適化する、このモニタリングアプローチの約束を支持した。

Being able to accurately monitor the screen exposure of young children is important for research on phenomena linked to screen use such as childhood obesity, physical activity, and social interaction. Most existing studies rely upon self-report or manual measures from bulky wearable sensors, thus lacking efficiency and accuracy in capturing quantitative screen exposure data. In this work, we developed a novel sensor informatics framework that utilizes egocentric images from a wearable sensor, termed the screen time tracker (STT), and a vision language model (VLM). In particular, we devised a multi-view VLM that takes multiple views from egocentric image sequences and interprets screen exposure dynamically. We validated our approach by using a dataset of children's free-living activities, demonstrating significant improvement over existing methods in plain vision language models and object detection models. Results supported the promise of this monitoring approach, which could optimize behavioral research on screen exposure in children's naturalistic settings.
翻訳日:2024-11-04 09:44:41 公開日:2024-10-02
# どのアルゴリズムに一般化境界があるのか?

Which Algorithms Have Tight Generalization Bounds? ( http://arxiv.org/abs/2410.01969v1 )

ライセンス: Link先を確認
Michael Gastpar, Ido Nachum, Jonathan Shafer, Thomas Weinberger, (参考訳) 我々は、どの機械学習アルゴリズムが厳密な一般化境界を持つかを研究する。 まず、厳密な一般化境界の存在を妨げる条件を示す。 具体的には、ある帰納バイアスが不安定となるアルゴリズムは、厳密な一般化境界を含まないことを示す。 次に、十分に安定なアルゴリズムは、厳密な一般化境界を持つことを示す。 我々は、アルゴリズムの損失の条件的分散に、厳密な一般化境界の存在を関連づけた、簡単な特徴付けで結論付ける。

We study which machine learning algorithms have tight generalization bounds. First, we present conditions that preclude the existence of tight generalization bounds. Specifically, we show that algorithms that have certain inductive biases that cause them to be unstable do not admit tight generalization bounds. Next, we show that algorithms that are sufficiently stable do have tight generalization bounds. We conclude with a simple characterization that relates the existence of tight generalization bounds to the conditional variance of the algorithm's loss.
翻訳日:2024-11-04 09:44:41 公開日:2024-10-02
# 実時間観察の介入によって視覚言語アクションモデルがより視覚的にロバストになる

Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust ( http://arxiv.org/abs/2410.01971v1 )

ライセンス: Link先を確認
Asher J. Hancock, Allen Z. Ren, Anirudha Majumdar, (参考訳) 視覚言語アクション(VLA)モデルは、大規模なインターネットデータとロボットのデモンストレーションに基づいて訓練され、汎用的なロボットポリシーとして機能する可能性がある。 しかしながら、大規模なトレーニングにもかかわらず、VLAは、乱雑なオブジェクトや背景色のようなタスク非関連の視覚的詳細に対して脆弱であることが多い。 本稿では,(1)モデルが敏感である入力画像の領域を動的に識別し,(2)タスク非関連領域を最小限に変化させ,自動画像編集ツールを用いてモデルの感度を低下させる,実行時介入方式である bring Your Own VLA (BYOVLA) を紹介する。 我々のアプローチは、モデルの微調整やモデルの重みへのアクセスなしに、市販のVLAと互換性がある。 言語で指示された操作タスクに関するハードウェア実験は、BYOVLAが最先端のVLAモデルに対して、邪魔なオブジェクトやバックグラウンドの存在下で、その名目上のパフォーマンスをほぼ維持できることを示し、そうでなければタスクの成功率を最大40%低下させる。 追加情報、ビデオ、コードを含むウェブサイト:https://aasherh.github.io/byovla/。

Vision-language-action (VLA) models trained on large-scale internet data and robot demonstrations have the potential to serve as generalist robot policies. However, despite their large-scale training, VLAs are often brittle to task-irrelevant visual details such as distractor objects or background colors. We introduce Bring Your Own VLA (BYOVLA): a run-time intervention scheme that (1) dynamically identifies regions of the input image that the model is sensitive to, and (2) minimally alters task-irrelevant regions to reduce the model's sensitivity using automated image editing tools. Our approach is compatible with any off the shelf VLA without model fine-tuning or access to the model's weights. Hardware experiments on language-instructed manipulation tasks demonstrate that BYOVLA enables state-of-the-art VLA models to nearly retain their nominal performance in the presence of distractor objects and backgrounds, which otherwise degrade task success rates by up to 40%. Website with additional information, videos, and code: https://aasherh.github.io/byovla/ .
翻訳日:2024-11-04 09:44:41 公開日:2024-10-02
# LLM+KG@VLDB'24ワークショップ概要報告

LLM+KG@VLDB'24 Workshop Summary ( http://arxiv.org/abs/2410.01978v1 )

ライセンス: Link先を確認
Arijit Khan, Tianxing Wu, Xi Chen, (参考訳) 大規模言語モデル (LLM) と知識グラフ (KG) の統合がホットトピックとして浮上している。 LLM+KG'24ワークショップは、中国広州でVLDB 2024と共同で開催され、LLMとKGの効果的な相互作用による重要なデータ管理の課題と機会について検討した。 本報告では,LLM+KG'24ワークショップにおいて,様々な話者が提示した主な方向性とアプローチについて概説する。

The unification of large language models (LLMs) and knowledge graphs (KGs) has emerged as a hot topic. At the LLM+KG'24 workshop, held in conjunction with VLDB 2024 in Guangzhou, China, one of the key themes explored was important data management challenges and opportunities due to the effective interaction between LLMs and KGs. This report outlines the major directions and approaches presented by various speakers during the LLM+KG'24 workshop.
翻訳日:2024-11-04 09:44:41 公開日:2024-10-02
# 自己条件付き原始-双対ハイブリッド勾配法と乗算器の交互方向法

Auto-conditioned primal-dual hybrid gradient method and alternating direction method of multipliers ( http://arxiv.org/abs/2410.01979v1 )

ライセンス: Link先を確認
Guanghui Lan, Tianjiao Li, (参考訳) 線形サーチ手順は、特に線形作用素のノルムが大きい場合や計算が難しい場合、双線型サドル点問題の原始双対法でよく用いられる。 本稿では, 線形サドル点問題の解法として最適に複雑化を図り, 自動条件付きプリマル・デュアル・ハイブリッド勾配法(AC-PDHG)を導入することで, 線探索が不要であることを示す。 AC-PDHGは線形作用素に完全に適応し、過去の反復だけを用いてノルムを推定する。 我々はさらに、線形制約された問題を解くためにAC-PDHGを調整し、最適性ギャップと制約違反の両方に対する収束保証を提供する。 さらに、目的と制約の両方が2つの部分に分解される線形制約問題の重要なクラスについて検討する。 本稿では,AC-PDHGの設計原則を乗算器の事前条件付き交互方向法(ADMM)に取り入れることにより,制約行列の一部分のみに基づいて収束を保証し,行探索の不要さを解消する乗算器の自動条件交互方向法(AC-ADMM)を提案する。 最後に,AC-PDHG と AC-ADMM の双方を拡張して,さらにスムーズな項で双線形問題を解く。 これらの手法を新しい加速度スキームと統合することにより、単一軌道条件下での最適反復複雑性を実現する。

Line search procedures are often employed in primal-dual methods for bilinear saddle point problems, especially when the norm of the linear operator is large or difficult to compute. In this paper, we demonstrate that line search is unnecessary by introducing a novel primal-dual method, the auto-conditioned primal-dual hybrid gradient (AC-PDHG) method, which achieves optimal complexity for solving bilinear saddle point problems. AC-PDHG is fully adaptive to the linear operator, using only past iterates to estimate its norm. We further tailor AC-PDHG to solve linearly constrained problems, providing convergence guarantees for both the optimality gap and constraint violation. Moreover, we explore an important class of linearly constrained problems where both the objective and constraints decompose into two parts. By incorporating the design principles of AC-PDHG into the preconditioned alternating direction method of multipliers (ADMM), we propose the auto-conditioned alternating direction method of multipliers (AC-ADMM), which guarantees convergence based solely on one part of the constraint matrix and fully adapts to it, eliminating the need for line search. Finally, we extend both AC-PDHG and AC-ADMM to solve bilinear problems with an additional smooth term. By integrating these methods with a novel acceleration scheme, we attain optimal iteration complexities under the single-oracle setting.
翻訳日:2024-11-04 09:44:41 公開日:2024-10-02
# ロス・イン・ディスタンス:グラフタスクのLLM性能に及ぼす文脈的近接性の影響

Lost-in-Distance: Impact of Contextual Proximity on LLM Performance in Graph Tasks ( http://arxiv.org/abs/2410.01985v1 )

ライセンス: Link先を確認
Hamed Firooz, Maziar Sanjabi, Wenlong Jiang, Xiaoling Zhai, (参考訳) 大きな言語モデル(LLM)は、大幅な進歩にもかかわらず、関連するコンテキストデータを効率的に取得・処理する能力に障害のある盲点を示す。 本稿では,複数のサブプロブレムをまたいだ相互参照と推論が必要なグラフタスクにおけるLCM性能が,コンテキスト内の関連情報の近接に影響されることを実証し,その現象を「ロスト・イン・ディスタンス」と呼ぶ。 2つのノード間の共通接続を同定し、3つのノード間の類似性を評価し、これらのタスクにおけるモデルの性能が共通のエッジの相対的な位置に依存することを示す。 LLM入力のためのグラフ構造を表す様々なグラフ符号化技術を用いて、LLMs-Llama-3-8B、Llama-3-70B、GPT-4の3つの公開可能なLLMを評価する。 本研究では, 損失-in-distance現象の定式化を提案し, 損失-in-distance現象と損失-in-the middle現象が独立に発生することを示す。 その結果,ノード間の距離が増加し,グラフエンコーディングやモデルサイズによらず,モデル精度が最大6倍低下する可能性が示唆された。

Despite significant advancements, Large Language Models (LLMs) exhibit blind spots that impair their ability to retrieve and process relevant contextual data effectively. We demonstrate that LLM performance in graph tasks with complexities beyond the "needle-in-a-haystack" scenario-where solving the problem requires cross-referencing and reasoning across multiple subproblems jointly-is influenced by the proximity of relevant information within the context, a phenomenon we term "lost-in-distance". We examine two fundamental graph tasks: identifying common connections between two nodes and assessing similarity among three nodes, and show that the model's performance in these tasks significantly depends on the relative positioning of common edges. We evaluate three publicly available LLMs-Llama-3-8B, Llama-3-70B, and GPT-4-using various graph encoding techniques that represent graph structures for LLM input. We propose a formulation for the lost-in-distance phenomenon and demonstrate that lost-in-distance and lost-in-the middle phenomenas occur independently. Results indicate that model accuracy can decline by up to 6x as the distance between node connections increases, independent of graph encoding and model size.
翻訳日:2024-11-04 09:44:41 公開日:2024-10-02
# 大規模言語モデルとFinBERTを用いたニュース・レポートの財務分析

Financial Sentiment Analysis on News and Reports Using Large Language Models and FinBERT ( http://arxiv.org/abs/2410.01987v1 )

ライセンス: Link先を確認
Yanxin Shen, Pulin Kirin Zhang, (参考訳) 金融センチメント分析(FSA)は、市場のセンチメントを評価し、十分なインフォームドな金融判断を行うために不可欠である。 BERTのような大規模言語モデル(LLM)の出現と、その財務的なバリエーションであるFinBERTは、感情分析能力を顕著に強化した。 本稿では, FSA における LLM と FinBERT の適用について, ニュース記事, 財務報告, 企業発表について比較検討する。 この研究は、感情分類精度を向上させるため、ゼロショットと少数ショット戦略による迅速なエンジニアリングの利点を強調している。 実験結果から,GPT-4oは財務文書のごく一部の例で,この専門分野において十分に調整されたFinBERTと同じくらい有能であることが示唆された。

Financial sentiment analysis (FSA) is crucial for evaluating market sentiment and making well-informed financial decisions. The advent of large language models (LLMs) such as BERT and its financial variant, FinBERT, has notably enhanced sentiment analysis capabilities. This paper investigates the application of LLMs and FinBERT for FSA, comparing their performance on news articles, financial reports and company announcements. The study emphasizes the advantages of prompt engineering with zero-shot and few-shot strategy to improve sentiment classification accuracy. Experimental results indicate that GPT-4o, with few-shot examples of financial texts, can be as competent as a well fine-tuned FinBERT in this specialized field.
翻訳日:2024-11-04 09:44:41 公開日:2024-10-02
# UlcerGPT: 大規模言語と視覚モデルを用いた糖尿病性足底画像の転写

UlcerGPT: A Multimodal Approach Leveraging Large Language and Vision Models for Diabetic Foot Ulcer Image Transcription ( http://arxiv.org/abs/2410.01989v1 )

ライセンス: Link先を確認
Reza Basiri, Ali Abedi, Chau Nguyen, Milos R. Popovic, Shehroz S. Khan, (参考訳) 糖尿病性足潰瘍(DFU)は、入院や下肢切断の主たる原因であり、患者や医療システムに大きな負担がかかる。 DFUの早期発見と正確な分類は深刻な合併症の予防に重要であるが、多くの患者は特別なサービスへのアクセスが限られているため、ケアの遅れを経験する。 テレヘルスは、ケアへのアクセスを改善し、対人訪問の必要性を減らす、有望なソリューションとして登場した。 人工知能とパターン認識を遠隔医療に統合することで、画像からの自動検出、分類、監視を可能にすることで、DFU管理をさらに強化した。 DFU画像解析のための人工知能駆動アプローチの進歩にもかかわらず、DFU画像の大規模な言語モデルの適用はまだ検討されていない。 このギャップに対処するために,DFU画像の書き起こしに大規模言語と視覚モデルを活用する新しいマルチモーダルアプローチであるUlcerGPTを導入する。 このフレームワークは、Large LanguageやVision Assistant、Chat Generative Pre-trained Transformerといった高度な視覚と言語モデルを組み合わせて、関心のある領域を共同で検出、分類、ローカライズすることでDFU画像を転写する。 専門医によって評価された公開データセットに関する詳細な実験を通じて、UlcerGPTはDFU転写の正確性と効率の有望な結果を示し、遠隔医療によるタイムリーなケアの提供において、臨床医の潜在的支援を提供する。

Diabetic foot ulcers (DFUs) are a leading cause of hospitalizations and lower limb amputations, placing a substantial burden on patients and healthcare systems. Early detection and accurate classification of DFUs are critical for preventing serious complications, yet many patients experience delays in receiving care due to limited access to specialized services. Telehealth has emerged as a promising solution, improving access to care and reducing the need for in-person visits. The integration of artificial intelligence and pattern recognition into telemedicine has further enhanced DFU management by enabling automatic detection, classification, and monitoring from images. Despite advancements in artificial intelligence-driven approaches for DFU image analysis, the application of large language models for DFU image transcription has not yet been explored. To address this gap, we introduce UlcerGPT, a novel multimodal approach leveraging large language and vision models for DFU image transcription. This framework combines advanced vision and language models, such as Large Language and Vision Assistant and Chat Generative Pre-trained Transformer, to transcribe DFU images by jointly detecting, classifying, and localizing regions of interest. Through detailed experiments on a public dataset, evaluated by expert clinicians, UlcerGPT demonstrates promising results in the accuracy and efficiency of DFU transcription, offering potential support for clinicians in delivering timely care via telemedicine.
翻訳日:2024-11-04 09:44:41 公開日:2024-10-02
# コルモゴロフ重畳定理の深層学習法

Deep Learning Alternatives of the Kolmogorov Superposition Theorem ( http://arxiv.org/abs/2410.01990v1 )

ライセンス: Link先を確認
Leonardo Ferreira Guilhoto, Paris Perdikaris, (参考訳) 本稿では,ニューラルネットワーク設計の基礎となるKST(Kolmogorov Superposition Theorem)の定式化について検討する。 元の KST の定式化は数学的にはエレガントであるが、内部関数と外部関数の構造とそれが導入する未知の変数の多さに対する限られた洞察から、実際的な課題を提示する。 Kolmogorov-Arnold Networks (KANs) は関数近似にKSTを利用するが、従来の多層パーセプトロン (MLPs) と元のKSTの定式化によって課される実用的制約との混合結果により、精査されている。 このような問題に対処するため、KST上に構築されたスケーラブルなディープラーニングモデルであるActNetを導入し、Kolmogorov氏のオリジナルの定式化の欠点の多くを克服する。 我々は、低次元関数近似におけるKSTの強み、特に偏微分方程式(PDE)のシミュレートに好適なフレームワークである、物理情報ニューラルネットワーク(PINN)の文脈でActNetを評価する。 この難しい設定では、モデルが直接測定なしで遅延関数を学習しなければならないため、ActNetは複数のベンチマークでKANを一貫して上回り、現在の最高のMLPベースのアプローチと競合する。 これらの結果は、特に科学計算やPDEシミュレーションタスクにおいて、KSTベースのディープラーニングアプリケーションのための有望な新しい方向性としてActNetを提示する。

This paper explores alternative formulations of the Kolmogorov Superposition Theorem (KST) as a foundation for neural network design. The original KST formulation, while mathematically elegant, presents practical challenges due to its limited insight into the structure of inner and outer functions and the large number of unknown variables it introduces. Kolmogorov-Arnold Networks (KANs) leverage KST for function approximation, but they have faced scrutiny due to mixed results compared to traditional multilayer perceptrons (MLPs) and practical limitations imposed by the original KST formulation. To address these issues, we introduce ActNet, a scalable deep learning model that builds on the KST and overcomes many of the drawbacks of Kolmogorov's original formulation. We evaluate ActNet in the context of Physics-Informed Neural Networks (PINNs), a framework well-suited for leveraging KST's strengths in low-dimensional function approximation, particularly for simulating partial differential equations (PDEs). In this challenging setting, where models must learn latent functions without direct measurements, ActNet consistently outperforms KANs across multiple benchmarks and is competitive against the current best MLP-based approaches. These results present ActNet as a promising new direction for KST-based deep learning applications, particularly in scientific computing and PDE simulation tasks.
翻訳日:2024-11-04 09:34:57 公開日:2024-10-02
# CodeMMLU: CodeLLMのコード理解能力を評価するマルチタスクベンチマーク

CodeMMLU: A Multi-Task Benchmark for Assessing Code Understanding Capabilities of CodeLLMs ( http://arxiv.org/abs/2410.01999v1 )

ライセンス: Link先を確認
Dung Nguyen Manh, Thang Phan Chau, Nam Le Hai, Thong T. Doan, Nam V. Nguyen, Quang Pham, Nghi D. Q. Bui, (参考訳) Code Large Language Models (CodeLLMs)の最近の進歩は、コード理解と理解の重要な側面を無視して、主にオープンなコード生成タスクに焦点を当てている。 このギャップを埋めるために、私たちはLLMにおけるソフトウェアの深さとコード理解を評価するために設計された総合的な複数選択質問応答ベンチマークであるCodeMMLUを提示する。 CodeMMLUには、コード分析、欠陥検出、および複数のプログラミング言語におけるソフトウェアエンジニアリングの原則といったタスクを含む、さまざまなドメインから得られた10,000以上の質問が含まれている。 従来のベンチマークとは異なり、CodeMMLUは単にコードを生成するのではなく、モデルがコードを生成する能力を評価し、複雑なソフトウェア概念やシステムを理解するための深い洞察を提供する。 我々の広範な評価は、最先端モデルでさえ、コードMMLUにおいて重大な課題に直面しており、コード生成以上の理解の欠如を強調していることを示している。 CodeMMLUは、コード理解と効果的な生成の間の重要な関係を強調することにより、AI支援ソフトウェア開発を進める上で重要なリソースとなり、最終的にはより信頼性が高く有能なコーディングアシスタントの開発を目指している。

Recent advancements in Code Large Language Models (CodeLLMs) have predominantly focused on open-ended code generation tasks, often neglecting the critical aspect of code understanding and comprehension. To bridge this gap, we present CodeMMLU, a comprehensive multiple-choice question-answer benchmark designed to evaluate the depth of software and code understanding in LLMs. CodeMMLU includes over 10,000 questions sourced from diverse domains, encompassing tasks such as code analysis, defect detection, and software engineering principles across multiple programming languages. Unlike traditional benchmarks, CodeMMLU assesses models's ability to reason about code rather than merely generate it, providing deeper insights into their grasp of complex software concepts and systems. Our extensive evaluation reveals that even state-of-the-art models face significant challenges with CodeMMLU, highlighting deficiencies in comprehension beyond code generation. By underscoring the crucial relationship between code understanding and effective generation, CodeMMLU serves as a vital resource for advancing AI-assisted software development, ultimately aiming to create more reliable and capable coding assistants.
翻訳日:2024-11-04 09:34:57 公開日:2024-10-02
# SkyAI Sim:衛星データによるUAV空中イメージングのオープンソースシミュレーション

SkyAI Sim: An Open-Source Simulation of UAV Aerial Imaging from Satellite Data ( http://arxiv.org/abs/2410.02003v1 )

ライセンス: Link先を確認
S. Parisa Dajkhosh, Peter M. Le, Orges Furxhi, Eddie L. Jacobs, (参考訳) 視覚ベースのナビゲーション(VBN)のための現実の空中画像の取得は、任意の場所からすべての所望の画像にアクセスするのがほぼ不可能な、可用性と条件が限られているため、困難である。 複数の場所が関与すると複雑さが増す。 無人航空機(Unmanned Aerial Vehicle)で写真撮影や既存の研究データベースの利用など、最先端のソリューションには、大きな制限がある。 SkyAI Simは、UAVをシミュレートして、現実の可視光帯域仕様で、鳥眼の衛星画像をゼロヨーでキャプチャする、魅力的な代替手段を提供する。 このオープンソースのツールは、地図上の任意の領域のバウンディングボックス(右上と右下)を指定できる。 ドローンを物理的に飛ばす必要がないため、仮想のPython UAVは、Google Maps Static APIを使用して衛星画像をキャプチャするラスター検索を実行する。 ユーザーは、飛行高度、アスペクト比、カメラの対角視野、連続した画像間の重複などのパラメータを定義することができる。 SkyAI Simの機能は、基本的なアプリケーションのためにいくつかの低高度画像をキャプチャすることから、ディープラーニングのような複雑なタスクのために、都市全体の広範なデータセットを生成することまで様々である。 この汎用性により、SkyAIはVBNだけでなく、環境モニタリング、建設、都市管理といった他の用途にも有用なツールとなっている。 このツールのオープンソース性は、ラスター検索を他のミッションにも拡張することを可能にする。 メンフィスのデータセットであるTNは、SkyAIを使って部分的に生成されたシミュレータとともに提供されており、比較のための3Dワールドジェネレーションパッケージのデータも含まれている。

Capturing real-world aerial images for vision-based navigation (VBN) is challenging due to limited availability and conditions that make it nearly impossible to access all desired images from any location. The complexity increases when multiple locations are involved. The state of the art solutions, such as flying a UAV (Unmanned Aerial Vehicle) to take pictures or using existing research databases, have significant limitations. SkyAI Sim offers a compelling alternative by simulating a UAV to capture bird's-eye view satellite images at zero-yaw with real-world visible-band specifications. This open-source tool allows users to specify the bounding box (top-left and bottom-right) coordinates of any region on a map. Without the need to physically fly a drone, the virtual Python UAV performs a raster search to capture satellite images using the Google Maps Static API. Users can define parameters such as flight altitude, aspect ratio and diagonal field of view of the camera, and the overlap between consecutive images. SkyAI Sim's capabilities range from capturing a few low-altitude images for basic applications to generating extensive datasets of entire cities for complex tasks like deep learning. This versatility makes SkyAI a valuable tool for not only VBN, but also other applications including environmental monitoring, construction, and city management. The open-source nature of the tool also allows for extending the raster search to other missions. A dataset of Memphis, TN has been provided along with this simulator, partially generated using SkyAI and, also includes data from a 3D world generation package for comparison.
翻訳日:2024-11-04 09:34:57 公開日:2024-10-02
# Fairly Uncertain: アルゴリズムフェアネスにおける不確実性の総合的なベンチマーク

FairlyUncertain: A Comprehensive Benchmark of Uncertainty in Algorithmic Fairness ( http://arxiv.org/abs/2410.02005v1 )

ライセンス: Link先を確認
Lucas Rosenblatt, R. Teal Witter, (参考訳) 公正な予測アルゴリズムは、平等と信頼の両方に寄り添うが、現実のデータに固有の不確実性は、一貫性があり、公平で、校正された決定を下す能力に挑戦する。 予測誤差をかなりよく管理する手法が広く研究されているが、いくつかの最近の研究は、予測の不確実性を正確に説明することの難しさに対処し始めている。 しかし、不確実性を公平に統合するための明確な分類と明確な目的は未定のままである。 フェアネスにおける不確実性推定を評価するための公理的ベンチマークであるFairlyUncertainを導入することで、このギャップに対処する。 我々のベンチマークは、予測の不確実性推定は学習パイプライン間で一貫性があり、観測されたランダム性に調整されるべきである、と示唆している。 評価の結果,(1)2値設定の不確かさを推定する理論的正当かつ簡易な手法は,従来の作業よりも一貫性と校正性が高いこと,(2)不確実性の推定が改善しても2値予測の達成は誤差を低減させるが,集団間の結果の不均衡を緩和しないこと,(3)回帰作業における一貫的および校正的不確かさ推定を明示的公正さの介入なしに改善すること,などが明らかになった。 さらに、我々のベンチマークパッケージは、拡張可能でオープンソースで、フィールドとともに成長するように設計されています。 不確実性と公正性の間の相互作用を評価するための標準化されたフレームワークを提供することで、FairlyUncertainはより公平で信頼性の高い機械学習プラクティスの道を開く。

Fair predictive algorithms hinge on both equality and trust, yet inherent uncertainty in real-world data challenges our ability to make consistent, fair, and calibrated decisions. While fairly managing predictive error has been extensively explored, some recent work has begun to address the challenge of fairly accounting for irreducible prediction uncertainty. However, a clear taxonomy and well-specified objectives for integrating uncertainty into fairness remains undefined. We address this gap by introducing FairlyUncertain, an axiomatic benchmark for evaluating uncertainty estimates in fairness. Our benchmark posits that fair predictive uncertainty estimates should be consistent across learning pipelines and calibrated to observed randomness. Through extensive experiments on ten popular fairness datasets, our evaluation reveals: (1) A theoretically justified and simple method for estimating uncertainty in binary settings is more consistent and calibrated than prior work; (2) Abstaining from binary predictions, even with improved uncertainty estimates, reduces error but does not alleviate outcome imbalances between demographic groups; (3) Incorporating consistent and calibrated uncertainty estimates in regression tasks improves fairness without any explicit fairness interventions. Additionally, our benchmark package is designed to be extensible and open-source, to grow with the field. By providing a standardized framework for assessing the interplay between uncertainty and fairness, FairlyUncertain paves the way for more equitable and trustworthy machine learning practices.
翻訳日:2024-11-04 09:34:57 公開日:2024-10-02
# 適応正規化自由特徴校正によるフェデレーション学習におけるデータ不均一性への対処

Addressing Data Heterogeneity in Federated Learning with Adaptive Normalization-Free Feature Recalibration ( http://arxiv.org/abs/2410.02006v1 )

ライセンス: Link先を確認
Vasilis Siomos, Sergio Naval-Marimont, Jonathan Passerat-Palmbach, Giacomo Tarroni, (参考訳) フェデレートラーニング(Federated Learning)は、ステークホルダーのデータ所有を保護し、パフォーマンスと一般化を改善した分散コラボレーティブトレーニングパラダイムである。 しかし、クライアントデータセット間の統計的不均一性は、システム性能を劣化させることによる根本的な課題である。 この問題に対処するために、重み付け標準化とチャネルアテンションを組み合わせたアーキテクチャレベルのアプローチである適応正規化自由特徴校正(ANFR)を提案する。 重みの標準化は、活性化ではなくレイヤーの重みを正規化する。 これは、ミスマッチしたクライアント統計と一貫性のない平均化の影響を受けにくく、従って不均一性の下ではより堅牢である。 チャネルアテンションは特徴マップの学習可能なスケーリング要素を生成し、不均一性によってクライアント間で一貫性のないものを抑制する。 これらの手法を組み合わせることで、クラス選択性を高め、チャネル注意重み分布を最適化することにより、個々のコントリビューションを超えるモデル性能が向上することを示す。 ANFRはアグリゲーション法とは独立して動作し、計算オーバーヘッドを最小限に抑えながら、グローバルおよびパーソナライズされた学習設定の両方に有効である。 さらに、差分プライバシーでトレーニングする場合、ANFRはプライバシとユーティリティの間の魅力的なバランスを達成し、パフォーマンスを犠牲にすることなく強力なプライバシ保証を可能にする。 バックボーンモデルにウェイト標準化とチャネルアテンションを統合することにより、ANFRは統計的不均一性の挑戦に対して、新しく多用途なアプローチを提供する。 我々は、ANFRが様々なアグリゲーション手法、データセット、不均一性条件で確立されたベースラインを一貫して上回っているという広範な実験を通して実証する。

Federated learning is a decentralized collaborative training paradigm that preserves stakeholders' data ownership while improving performance and generalization. However, statistical heterogeneity among client datasets poses a fundamental challenge by degrading system performance. To address this issue, we propose Adaptive Normalization-free Feature Recalibration (ANFR), an architecture-level approach that combines weight standardization and channel attention. Weight standardization normalizes the weights of layers instead of activations. This is less susceptible to mismatched client statistics and inconsistent averaging, thereby more robust under heterogeneity. Channel attention produces learnable scaling factors for feature maps, suppressing those that are inconsistent between clients due to heterogeneity. We demonstrate that combining these techniques boosts model performance beyond their individual contributions, by enhancing class selectivity and optimizing channel attention weight distribution. ANFR operates independently of the aggregation method and is effective in both global and personalized federated learning settings, with minimal computational overhead. Furthermore, when training with differential privacy, ANFR achieves an appealing balance between privacy and utility, enabling strong privacy guarantees without sacrificing performance. By integrating weight standardization and channel attention in the backbone model, ANFR offers a novel and versatile approach to the challenge of statistical heterogeneity. We demonstrate through extensive experiments that ANFR consistently outperforms established baselines across various aggregation methods, datasets, and heterogeneity conditions.
翻訳日:2024-11-04 09:34:57 公開日:2024-10-02
# monICA:ロングテール医用画像分類のベンチマーク

MONICA: Benchmarking on Long-tailed Medical Image Classification ( http://arxiv.org/abs/2410.02010v1 )

ライセンス: Link先を確認
Lie Ju, Siyuan Yan, Yukun Zhou, Yang Nan, Xiaodan Xing, Peibo Duan, Zongyuan Ge, (参考訳) 長期学習はデータ不均衡学習において極めて難しい問題であると考えられている。 それは、長い尾のクラス分布に従う多数の画像から、よく一般化されたモデルを訓練することを目的としている。 医学分野では、皮膚内視鏡検査や胸部X線検査などの多くの診断検査が、複雑な臨床所見の長期分布をもたらす。 近年,医用画像解析における長期学習が注目されている。 しかし、現時点では統一的で厳密な定式化と総合的なベンチマークが欠落しており、不公平な比較や不確定な結果につながることが多い。 コミュニティが評価と進展を改善するために,医療用OpeN-source Long-taIled ClassifiCAtion (MONICA) という,統一された構造化されたコードベースを構築した。 本研究は,その分野の実践的ガイダンスと洞察を提供し,工法における個々の構成要素の有効性を詳細に分析し,考察する。 このコードベースが包括的で再現可能なベンチマークとして機能し、長い尾の医療画像学習のさらなる進歩を促すことを願っています。 コードベースはhttps://github.com/PyJulie/MONICAで公開されている。

Long-tailed learning is considered to be an extremely challenging problem in data imbalance learning. It aims to train well-generalized models from a large number of images that follow a long-tailed class distribution. In the medical field, many diagnostic imaging exams such as dermoscopy and chest radiography yield a long-tailed distribution of complex clinical findings. Recently, long-tailed learning in medical image analysis has garnered significant attention. However, the field currently lacks a unified, strictly formulated, and comprehensive benchmark, which often leads to unfair comparisons and inconclusive results. To help the community improve the evaluation and advance, we build a unified, well-structured codebase called Medical OpeN-source Long-taIled ClassifiCAtion (MONICA), which implements over 30 methods developed in relevant fields and evaluated on 12 long-tailed medical datasets covering 6 medical domains. Our work provides valuable practical guidance and insights for the field, offering detailed analysis and discussion on the effectiveness of individual components within the inbuilt state-of-the-art methodologies. We hope this codebase serves as a comprehensive and reproducible benchmark, encouraging further advancements in long-tailed medical image learning. The codebase is publicly available on https://github.com/PyJulie/MONICA.
翻訳日:2024-11-04 09:34:57 公開日:2024-10-02
# ソーシャルネットワークにおける目標設定問題に対するセンサスに基づく遺伝的アルゴリズム

A Census-Based Genetic Algorithm for Target Set Selection Problem in Social Networks ( http://arxiv.org/abs/2410.02011v1 )

ライセンス: Link先を確認
Md. Samiur Rahman, Mohammad Shamim Ahsan, Tim Chen, Vijayakumar Varadarajan, (参考訳) 本稿では,ソーシャル・ネットワークにおけるターゲット・セット・セレクション(TSS)問題について考察する。 TSS問題では、グラフの各頂点に対するグラフとしきい値が与えられる。 伝播過程の最後に全てのグラフ頂点が活性化されるように、最小サイズの頂点部分集合を「活性化する」必要がある。 具体的には,TSS問題に対する「国勢調査に基づく遺伝的アルゴリズム」と呼ばれる新しいアプローチを提案する。 本アルゴリズムでは,集団内の各個体の情報を収集・保存し,アルゴリズムの実行中に構築した個体の国勢調査データを収集することで,より多様性を増し,局所最適解における早期収束を回避する。 私たちは2つの異なる国勢調査情報を使用します。 a) 各個体について、その実行中に何回特定されたかをアルゴリズムが記憶する b) 各ネットワークノードに対して、解に何回含まれたかをアルゴリズムがカウントする。 提案アルゴリズムは、各再生法で用いられる攻撃性を指定するパラメータを用いて自己調整することもできる。 さらに、計算コストを最小化し、個々の実現可能性をチェックするために、並列化された環境で実行されるように設計されている。 さらに,提案アルゴリズムは,ランダムグラフ上で実験しながら,すべてのケースにおいて最適解を求める。 さらに,本論文では,14個の実生活ソーシャルネットワークインスタンスのグラフ上で提案アルゴリズムを実行し,従来研究で得られた最良の解と比較して,平均9.57の解サイズと134の頂点を改良した。

This paper considers the Target Set Selection (TSS) Problem in social networks, a fundamental problem in viral marketing. In the TSS problem, a graph and a threshold value for each vertex of the graph are given. We need to find a minimum size vertex subset to "activate" such that all graph vertices are activated at the end of the propagation process. Specifically, we propose a novel approach called "a census-based genetic algorithm" for the TSS problem. In our algorithm, we use the idea of a census to gather and store information about each individual in a population and collect census data from the individuals constructed during the algorithm's execution so that we can achieve greater diversity and avoid premature convergence at locally optimal solutions. We use two distinct census information: (a) for each individual, the algorithm stores how many times it has been identified during the execution (b) for each network node, the algorithm counts how many times it has been included in a solution. The proposed algorithm can also self-adjust by using a parameter specifying the aggressiveness employed in each reproduction method. Additionally, the algorithm is designed to run in a parallelized environment to minimize the computational cost and check each individual's feasibility. Moreover, our algorithm finds the optimal solution in all cases while experimenting on random graphs. Furthermore, we execute the proposed algorithm on 14 large graphs of real-life social network instances from the literature, improving around 9.57 solution size (on average) and 134 vertices (in total) compared to the best solutions obtained in previous studies.
翻訳日:2024-11-04 09:34:57 公開日:2024-10-02
# デジタル画像の切り離しのための半監督コントラストVAE

Semi-Supervised Contrastive VAE for Disentanglement of Digital Pathology Images ( http://arxiv.org/abs/2410.02012v1 )

ライセンス: Link先を確認
Mahmudul Hasan, Xiaoling Hu, Shahira Abousamra, Prateek Prasanna, Joel Saltz, Chao Chen, (参考訳) ディープラーニングモデルの強い予測力にもかかわらず、その解釈可能性は依然として重要な関心事である。 解離モデルは、潜在空間を解釈可能な部分空間に分解することで解釈可能性を高める。 本稿では,病理画像に対する第1次解離法を提案する。 腫瘍浸潤性リンパ球(TIL)の検出に焦点をあてる。 本稿では, カスケード・アンタングルメント, 新規アーキテクチャ, 再構築ブランチなど, さまざまなアイデアを提案する。 これにより,TIL検出深層学習モデルの解釈性や一般化能力も向上する。 私たちのコードはhttps://github.com/Shauqi/SS-cVAE.comで公開されています。

Despite the strong prediction power of deep learning models, their interpretability remains an important concern. Disentanglement models increase interpretability by decomposing the latent space into interpretable subspaces. In this paper, we propose the first disentanglement method for pathology images. We focus on the task of detecting tumor-infiltrating lymphocytes (TIL). We propose different ideas including cascading disentanglement, novel architecture, and reconstruction branches. We achieve superior performance on complex pathology images, thus improving the interpretability and even generalization power of TIL detection deep learning models. Our codes are available at https://github.com/Shauqi/SS-cVAE.
翻訳日:2024-11-04 09:34:57 公開日:2024-10-02
# 大規模言語モデルの適応的次世代予測

Adaptively Private Next-Token Prediction of Large Language Models ( http://arxiv.org/abs/2410.02016v1 )

ライセンス: Link先を確認
James Flemings, Meisam Razaviyayn, Murali Annavaram, (参考訳) 大規模言語モデル(LLM)の普及に伴い、これらのモデルのプライバシ保護の開発が不可欠である。 人気のあるセーフガードの1つは、異なるプライベートな方法でLLMを訓練することである。 しかしながら、そのような解は計算コストが高く、これらのモデルの実用性に有害であることが示されている。 LLMはクラウド上にデプロイされ、API経由でのみアクセス可能であるため、MLaaS(Machine Learning as a Service)プロバイダは、デコーディングプロセス中に予測を民営化することで、下流データを保護することができる。 しかし、そのようなソリューションの実用性は依然としてDP訓練法に遅れを取っている。 最近の有望なアプローチであるPMixED(Private Mixing of Ensemble Distributions)は、パブリックモデルの出力分布と混在するプライベートLLMの出力分布からサンプリングすることで、加算ノイズを回避する。 しかし、PMixEDは所定の数のクエリに対して一定のプライバシレベルを満たさなければならない。 そこで我々は, PMixEDをベースとしたプライベートデコードフレームワークであるAdaptive PMixED (AdaPMixED) を導入することで, 要求をより実用的な設定に緩和する。 本稿では,潜在的に高価なプライバシ損失を伴うクエリをフィルタリングするノイズスクリーニング機構と,プライバシ損失計算におけるプライベートおよびパブリックのアウトプット分布のばらつきを利用したデータ依存分析を導入する。 実験により,元のPMixEDよりも有効性を保ちながら,我々のメカニズムと分析によりプライバシ損失を16倍に削減できることが示された。 さらに、AdaPMixEDで100Kの予測を実行することで、強力なユーティリティを実現し、適切なデータ依存のプライバシ損失は5.25である。

As Large Language Models (LLMs) proliferate, developing privacy safeguards for these models is crucial. One popular safeguard involves training LLMs in a differentially private manner. However, such solutions are shown to be computationally expensive and detrimental to the utility of these models. Since LLMs are deployed on the cloud and thus only accessible via an API, a Machine Learning as a Service (MLaaS) provider can protect its downstream data by privatizing the predictions during the decoding process. However, the practicality of such solutions still largely lags behind DP training methods. One recent promising approach, Private Mixing of Ensemble Distributions (PMixED), avoids additive noise by sampling from the output distributions of private LLMs mixed with the output distribution of a public model. Yet, PMixED must satisfy a fixed privacy level for a given number of queries, which is difficult for an analyst to estimate before inference and, hence, does not scale. To this end, we relax the requirements to a more practical setting by introducing Adaptive PMixED (AdaPMixED), a private decoding framework based on PMixED that is adaptive to the private and public output distributions evaluated on a given input query. In this setting, we introduce a noisy screening mechanism that filters out queries with potentially expensive privacy loss, and a data-dependent analysis that exploits the divergence of the private and public output distributions in its privacy loss calculation. Our experimental evaluations demonstrate that our mechanism and analysis can reduce the privacy loss by 16x while preserving the utility over the original PMixED. Furthermore, performing 100K predictions with AdaPMixED still achieves strong utility and a reasonable data-dependent privacy loss of 5.25.
翻訳日:2024-11-04 09:34:57 公開日:2024-10-02
# 機械学習のための非凸最適化手法の見直し

Review Non-convex Optimization Method for Machine Learning ( http://arxiv.org/abs/2410.02017v1 )

ライセンス: Link先を確認
Greg B Fotopoulos, Paul Popovich, Nicholas Hall Papadopoulos, (参考訳) 非凸最適化は、特にディープニューラルネットワークやサポートベクターマシンのような複雑なモデルにおいて、機械学習を進める上で重要なツールである。 複数の局所小数点やサドルポイントといった課題にもかかわらず、非凸技術は計算コストを減らすための様々な経路を提供する。 これらの中には、正規化によるスパーシリティの促進、サドルポイントの効率的なエスケープ、確率勾配降下のようなサブサンプリングと近似戦略の採用などが含まれる。 さらに、非凸法はモデルプルーニングと圧縮を可能にし、性能を維持しながらモデルのサイズを小さくする。 正確なグローバルなミニマではなく、良い局所ミニマに焦点を当てることで、非凸最適化はより高速な収束と計算オーバーヘッドの低減による競合精度を保証する。 本稿では,機械学習における非凸最適化の鍵となる手法と応用について検討し,モデル性能を向上しながら計算コストを下げる方法について検討する。 さらに、拡張性と一般化を含む将来の研究の方向性と課題を概説し、機械学習における非凸最適化の次のフェーズを形成する。

Non-convex optimization is a critical tool in advancing machine learning, especially for complex models like deep neural networks and support vector machines. Despite challenges such as multiple local minima and saddle points, non-convex techniques offer various pathways to reduce computational costs. These include promoting sparsity through regularization, efficiently escaping saddle points, and employing subsampling and approximation strategies like stochastic gradient descent. Additionally, non-convex methods enable model pruning and compression, which reduce the size of models while maintaining performance. By focusing on good local minima instead of exact global minima, non-convex optimization ensures competitive accuracy with faster convergence and lower computational overhead. This paper examines the key methods and applications of non-convex optimization in machine learning, exploring how it can lower computation costs while enhancing model performance. Furthermore, it outlines future research directions and challenges, including scalability and generalization, that will shape the next phase of non-convex optimization in machine learning.
翻訳日:2024-11-04 09:34:57 公開日:2024-10-02
# 格子群に基づくクイディットフロケット符号の簡易構築

Simple Construction of Qudit Floquet Codes on a Family of Lattices ( http://arxiv.org/abs/2410.02022v1 )

ライセンス: Link先を確認
Andrew Tanggara, Mile Gu, Kishor Bharti, (参考訳) 動的量子誤り訂正符号(QECC)は、雑音から論理量子情報を保護し、静的なQECCと比較してフォールトトレラントな量子計算を実行する方法において、より広い可能性を提供する。 Floquet codes' と呼ばれる動的コード群は、多体システムのエラーを訂正し、ハードウェア実装の要件を緩和する2量子測定の周期的なシーケンスで構成されている。 Floquet符号の既存の結果は、量子ビット、二レベル量子システム、高次元量子システム、または量子ビットにはほとんど注目されていない。 このギャップを、コードを定義するシーケンス2体測定の簡単な条件セットに基づいて、単純で汎用的なqudit Floquet符号の構成を提案することにより、橋渡しする。 さらに、この構成は、エッジで表される接続性を持つ3色格子の頂点上のキューディットの大規模な構成系に適用できる。 この構成には、特殊ケースとしてqubitとquditのFloquet符号の両方の既存の構成が含まれていることを示す。 さらに,我々の構築により得られた任意のクディットフロケット符号は,既存のクディットフロケット符号構成の消滅率とは対照的に,物理的なクディット数として$\frac{1}{2}$に近づいた物理クディットに対する符号化された論理クディットの割合が大きくなる。

Dynamical quantum error-correcting codes (QECC) offer a wider possibilities in how one can protect logical quantum information from noise and perform fault-tolerant quantum computation compared to static QECCs. A family of dynamical codes called the ``Floquet codes'' consists of a periodic sequence of two-qudit measurements from which one can correct errors on many-body systems, relaxing the requirement for hardware implementations. Existing results on Floquet codes has been focused on qubits, two-level quantum systems, with very little attention given on higher dimensional quantum systems, or qudits. We bridge this gap by proposing a simple, yet general construction of qudit Floquet codes based on a simple set of conditions on the sequence two-body measurements defining the code. Moreover, this construction applies to a large family of configurations of qudits on the vertices of a three-colorable lattice which connectivity represented by the edges. We show that this construction includes the existing constructions of both qubit and qudit Floquet codes as special cases. In addition, any qudit Floquet code obtained by our construction achieves a rate of encoded logical qudits over physical qudits approaching $\frac{1}{2}$ as the number of physical qudits in total and on the faces of the lattice grows larger, as opposed to vanishing rate in existing qudit Floquet code constructions.
翻訳日:2024-11-04 09:34:57 公開日:2024-10-02
# DeepProtein: ディープラーニングライブラリとタンパク質配列学習ベンチマーク

DeepProtein: Deep Learning Library and Benchmark for Protein Sequence Learning ( http://arxiv.org/abs/2410.02023v1 )

ライセンス: Link先を確認
Jiaqing Xie, Yue Zhao, Tianfan Fu, (参考訳) 近年、深層学習はタンパク質科学の分野に革命をもたらし、タンパク質の性質、構造的折り畳み、相互作用の予測の進歩を可能にしている。 本稿では,タンパク質関連タスクに特化して設計された,包括的でユーザフレンドリなディープラーニングライブラリであるDeepProteinについて述べる。 DeepProteinには、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、トランスフォーマー、グラフニューラルネットワーク(GNN)、グラフトランスフォーマー(GT)など、最先端のニューラルネットワークアーキテクチャが統合されている。 ユーザフレンドリなインターフェースを提供し、ドメイン研究者がタンパク質データにディープラーニング技術を適用するのを容易にする。 また、タンパク質機能予測、タンパク質局在化予測、タンパク質-タンパク質相互作用予測など、タンパク質のタスクにおけるこれらのニューラルネットワークアーキテクチャを評価するベンチマークをキュレートし、その優れた性能とスケーラビリティを示す。 さらに、アクセシビリティを促進し、再現可能な研究を促進するための詳細なドキュメンテーションとチュートリアルを提供する。 このライブラリはよく知られた薬物発見ライブラリであるDeepPurposeから拡張され、https://github.com/jiaqingxie/DeepProtein/tree/mainで公開されている。

In recent years, deep learning has revolutionized the field of protein science, enabling advancements in predicting protein properties, structural folding and interactions. This paper presents DeepProtein, a comprehensive and user-friendly deep learning library specifically designed for protein-related tasks. DeepProtein integrates a couple of state-of-the-art neural network architectures, which include convolutional neural network (CNN), recurrent neural network (RNN), transformer, graph neural network (GNN), and graph transformer (GT). It provides user-friendly interfaces, facilitating domain researchers in applying deep learning techniques to protein data. Also, we curate a benchmark that evaluates these neural architectures on a variety of protein tasks, including protein function prediction, protein localization prediction, and protein-protein interaction prediction, showcasing its superior performance and scalability. Additionally, we provide detailed documentation and tutorials to promote accessibility and encourage reproducible research. This library is extended from a well-known drug discovery library, DeepPurpose and publicly available at https://github.com/jiaqingxie/DeepProtein/tree/main.
翻訳日:2024-11-04 09:34:57 公開日:2024-10-02
# 条件付き深部生成モデルを用いた分布回帰の一手法

A Likelihood Based Approach to Distribution Regression Using Conditional Deep Generative Models ( http://arxiv.org/abs/2410.02025v1 )

ライセンス: Link先を確認
Shivam Kumar, Yun Yang, Lizhen Lin, (参考訳) 本研究では, 応答変数が高次元空間にあるが, 潜在的に低次元多様体の周りに集中する分布回帰の統計的枠組みの下で, 条件付き深部生成モデルの理論的性質を考察する。 より具体的には、これらのモデルを推定するための可能性に基づくアプローチの大きなサンプル特性について研究する。 この結果から,Helinger (Wasserstein) 計量において与えられた応答の条件分布(およびそれと逆転する)を推定するための最大極大推定器 (MLE) の収束率を導出した。 我々の速度は、真の条件分布の内在次元と滑らかさにのみ依存する。 これらの知見は, 条件付き深部生成モデルが, 統計的基礎の観点から次元の呪いを回避できる理由を説明し, ほぼ特異な条件分布のより広いクラスを学習できることを実証する。 また,本分析では,多様体に十分に近接して支持される場合,データに小さなノイズ摂動を導入することが重要であることも強調した。 最後に, 提案手法の有効実装について, 実世界のデータセットを用いて検証し, 理論的結果の相補的検証を行う。

In this work, we explore the theoretical properties of conditional deep generative models under the statistical framework of distribution regression where the response variable lies in a high-dimensional ambient space but concentrates around a potentially lower-dimensional manifold. More specifically, we study the large-sample properties of a likelihood-based approach for estimating these models. Our results lead to the convergence rate of a sieve maximum likelihood estimator (MLE) for estimating the conditional distribution (and its devolved counterpart) of the response given predictors in the Hellinger (Wasserstein) metric. Our rates depend solely on the intrinsic dimension and smoothness of the true conditional distribution. These findings provide an explanation of why conditional deep generative models can circumvent the curse of dimensionality from the perspective of statistical foundations and demonstrate that they can learn a broader class of nearly singular conditional distributions. Our analysis also emphasizes the importance of introducing a small noise perturbation to the data when they are supported sufficiently close to a manifold. Finally, in our numerical studies, we demonstrate the effective implementation of the proposed approach using both synthetic and real-world datasets, which also provide complementary validation to our theoretical findings.
翻訳日:2024-11-04 09:25:11 公開日:2024-10-02
# Zodiac: マルチエージェント診断のための心臓科レベルのLLMフレームワーク

Zodiac: A Cardiologist-Level LLM Framework for Multi-Agent Diagnostics ( http://arxiv.org/abs/2410.02026v1 )

ライセンス: Link先を確認
Yuan Zhou, Peng Zhang, Mengya Song, Alice Zheng, Yiwen Lu, Zhiheng Liu, Yong Chen, Zhaohan Xi, (参考訳) 大規模言語モデル(LLM)は、医療において顕著な進歩を見せている。 しかし、LLMsの領域固有の臨床実践における専門性に関する大きなギャップは残っており、現実の診断における適用を制限している。 本研究は, 心疾患の診断にLDMを関与させるように設計された, 心臓科レベルの専門性を備えたZODIACについて紹介する。 ZODIACは、患者データから臨床的に関連性のある特徴を抽出し、重要な不整脈を検出し、心臓科医によるレビューと改善のための予備報告を生成することで、心臓科医を支援する。 心臓科レベルの専門性を達成するため、ZODIACはマルチエージェントの協調フレームワーク上に構築され、複数のモダリティにわたる患者データの処理を可能にする。 各LSMエージェントは、心臓科医によって調整された現実世界の患者データを使用して微調整され、モデルの専門性を強化する。 ZODIACは、臨床効果を測定し、セキュリティ上の懸念に対処する8つの指標で評価され、独立した心臓科医と厳格な臨床検証が行われている。 結果は、ZODIACがOpenAIのGPT-4o、MetaのLlama-3.1-405B、GoogleのGemini-pro、およびMicrosoftのBioGPTのような医療専門家のLSMなど、業界をリードするモデルより優れていることを示している。 ZODIACは、医療実践の厳しい要求を満たすドメイン固有のソリューションを提供することによって、医療における特殊なLSMの変革の可能性を示す。 特に、ZODIACは心電図(ECG)デバイスにうまく統合され、LSMをソフトウェア・アズ・メディカル・デバイス(SaMD)に組み込む傾向が強まっていることを実証している。

Large language models (LLMs) have demonstrated remarkable progress in healthcare. However, a significant gap remains regarding LLMs' professionalism in domain-specific clinical practices, limiting their application in real-world diagnostics. In this work, we introduce ZODIAC, an LLM-powered framework with cardiologist-level professionalism designed to engage LLMs in cardiological diagnostics. ZODIAC assists cardiologists by extracting clinically relevant characteristics from patient data, detecting significant arrhythmias, and generating preliminary reports for the review and refinement by cardiologists. To achieve cardiologist-level professionalism, ZODIAC is built on a multi-agent collaboration framework, enabling the processing of patient data across multiple modalities. Each LLM agent is fine-tuned using real-world patient data adjudicated by cardiologists, reinforcing the model's professionalism. ZODIAC undergoes rigorous clinical validation with independent cardiologists, evaluated across eight metrics that measure clinical effectiveness and address security concerns. Results show that ZODIAC outperforms industry-leading models, including OpenAI's GPT-4o, Meta's Llama-3.1-405B, and Google's Gemini-pro, as well as medical-specialist LLMs like Microsoft's BioGPT. ZODIAC demonstrates the transformative potential of specialized LLMs in healthcare by delivering domain-specific solutions that meet the stringent demands of medical practice. Notably, ZODIAC has been successfully integrated into electrocardiography (ECG) devices, exemplifying the growing trend of embedding LLMs into Software-as-Medical-Device (SaMD).
翻訳日:2024-11-04 09:25:11 公開日:2024-10-02
# XChainWatcher: クロスチェーンブリッジにおける攻撃の監視と識別

XChainWatcher: Monitoring and Identifying Attacks in Cross-Chain Bridges ( http://arxiv.org/abs/2410.02029v1 )

ライセンス: Link先を確認
André Augusto, Rafael Belchior, Jonas Pfannschmidt, André Vasconcelos, Miguel Correia, (参考訳) クロスチェーンブリッジは、ブロックチェーンの相互運用性メカニズムとして広く使用されている。 しかし、これらの橋のいくつかは脆弱性があり、2021年5月以来320億ドルの損失をもたらしている。 いくつかの研究はこれらの脆弱性の存在を明らかにしているが、定量的な研究はほとんど行われておらず、橋をそのような攻撃から守るための保護メカニズムはない。 橋梁の監視と攻撃検出のための最初のメカニズムであるXChainWatcherを提案する。 XChainWatcherは、任意のクロスチェーンブリッジにプラグイン可能なように設計された、Datalogエンジンを使用したクロスチェーンモデルに依存している。 ロニン橋とノマド橋のデータを分析して、それぞれ611Mと190Mの損失をもたらしたトランザクションを特定しました。 XChainWatcherは攻撃が成功しただけでなく、37のクロスチェーントランザクション(cctx)のような意図しない振る舞いも明らかにしている。 3つのブロックチェーンにまたがる81,000cctxの最初のオープンソースデータセットを提供し、それぞれ585Mおよび3.7Bのトークン転送をキャプチャします。

Cross-chain bridges are widely used blockchain interoperability mechanisms. However, several of these bridges have vulnerabilities that have caused 3.2 billion dollars in losses since May 2021. Some studies have revealed the existence of these vulnerabilities, but little quantitative research is available, and there are no safeguard mechanisms to protect bridges from such attacks. We propose XChainWatcher, the first mechanism for monitoring bridges and detecting attacks against them. XChainWatcher relies on a cross-chain model powered by a Datalog engine, designed to be pluggable into any cross-chain bridge. Analyzing data from the Ronin and Nomad bridges, we successfully identified the transactions that led to losses of \$611M and \$190M USD, respectively. XChainWatcher not only uncovers successful attacks but also reveals unintended behavior, such as 37 cross-chain transactions (cctx) that these bridges should not have accepted, failed attempts to exploit Nomad, over \$7.8M locked on one chain but never released on Ethereum, and \$200K lost due to inadequate interaction with bridges. We provide the first open-source dataset of 81,000 cctxs across three blockchains, capturing \$585M and \$3.7B in token transfers in Nomad and Ronin, respectively.
翻訳日:2024-11-04 09:25:11 公開日:2024-10-02
# モデルの比較: XNet が Kan より優れている

Model Comparisons: XNet Outperforms KAN ( http://arxiv.org/abs/2410.02033v1 )

ライセンス: Link先を確認
Xin Li, Zhihong Jeff Xia, Xiaotao Zheng, (参考訳) 計算数学と人工知能の分野では、特に予測機械学習タスクにおいて、正確なデータモデリングの必要性が不可欠である。 本稿では,従来のマルチ層パーセプトロン(MLP)やコルモゴロフ・アルノルドネットワーク(KAN)を上回る優れたネットワークアーキテクチャを提供する,複雑な値のコーシー積分式を用いた新しいアルゴリズムであるXNetについて検討する。 XNetは低次元空間と高次元空間の両方の様々なタスクにおける速度と精度を大幅に改善し、データ駆動型モデル開発の範囲を再定義し、LSTMのような確立された時系列モデルよりも大幅に改善した。

In the fields of computational mathematics and artificial intelligence, the need for precise data modeling is crucial, especially for predictive machine learning tasks. This paper explores further XNet, a novel algorithm that employs the complex-valued Cauchy integral formula, offering a superior network architecture that surpasses traditional Multi-Layer Perceptrons (MLPs) and Kolmogorov-Arnold Networks (KANs). XNet significant improves speed and accuracy across various tasks in both low and high-dimensional spaces, redefining the scope of data-driven model development and providing substantial improvements over established time series models like LSTMs.
翻訳日:2024-11-04 09:25:11 公開日:2024-10-02
# 状態空間モデルのチューニング周波数バイアス

Tuning Frequency Bias of State Space Models ( http://arxiv.org/abs/2410.02035v1 )

ライセンス: Link先を確認
Annan Yu, Dongwei Lyu, Soon Hoe Lim, Michael W. Mahoney, N. Benjamin Erichson, (参考訳) 状態空間モデル(SSM)は線形時間不変(LTI)システムを利用して、長距離依存のシーケンスを効果的に学習する。 LTI システムの伝達関数を解析することにより,SSM は低周波成分を高周波成分よりも効果的に捕捉するのに対して,暗黙の偏りを示すことがわかった。 この行動は、ディープラーニングモデルのトレーニングにおける周波数バイアスというより広範な概念と一致する。 本研究では,SSMの初期化によって固有周波数バイアスが付与され,従来の方法でモデルをトレーニングしても,このバイアスは変化しないことを示す。 本理論では,初期化を拡大して生起周波数バイアスを調整するか,あるいはソボレフ・ノルムフィルタを用いて高周波入力に対する勾配の感度を調整することにより,周波数バイアスをトレーニングによって変化させることができるかの2つのメカニズムを提案する。 画像デノベーションタスクを用いて、両方のメカニズムを用いて周波数バイアスを強化、弱め、あるいは逆にすることができることを実証的に示す。 周波数バイアスを調整することで、LRA(Long-Range Arena)ベンチマークタスクで平均88.26%の精度で、長距離シーケンスの学習におけるSSMのパフォーマンスを向上させることができる。

State space models (SSMs) leverage linear, time-invariant (LTI) systems to effectively learn sequences with long-range dependencies. By analyzing the transfer functions of LTI systems, we find that SSMs exhibit an implicit bias toward capturing low-frequency components more effectively than high-frequency ones. This behavior aligns with the broader notion of frequency bias in deep learning model training. We show that the initialization of an SSM assigns it an innate frequency bias and that training the model in a conventional way does not alter this bias. Based on our theory, we propose two mechanisms to tune frequency bias: either by scaling the initialization to tune the inborn frequency bias; or by applying a Sobolev-norm-based filter to adjust the sensitivity of the gradients to high-frequency inputs, which allows us to change the frequency bias via training. Using an image-denoising task, we empirically show that we can strengthen, weaken, or even reverse the frequency bias using both mechanisms. By tuning the frequency bias, we can also improve SSMs' performance on learning long-range sequences, averaging an 88.26% accuracy on the Long-Range Arena (LRA) benchmark tasks.
翻訳日:2024-11-04 09:25:11 公開日:2024-10-02
# 安全な強化学習のための実現可能な連続空間シールド

Realizable Continuous-Space Shields for Safe Reinforcement Learning ( http://arxiv.org/abs/2410.02038v1 )

ライセンス: Link先を確認
Kyungmin Kim, Davide Corsi, Andoni Rodriguez, JB Lanier, Benjami Parellada, Pierre Baldi, Cesar Sanchez, Roy Fox, (参考訳) 深層強化学習(Dreep Reinforcement Learning, DRL)は、様々な領域で顕著な成功を収めてきたが、時には破滅的な障害に対して、追加の保護なしに脆弱なままである。 これらの障害を防ぐための効果的な解決策の1つは、エージェントのアクションを検証・調整するシールドを使用して、提供された一連の安全仕様に準拠することである。 現実のロボットドメインでは、連続状態やアクション空間に対してそのような安全仕様を定義し、システムのダイナミクスを正確に説明し、エージェントの出力を最小限に変化させる新しい安全なアクションを計算できることが望ましい。 本稿では,連続状態および行動空間における安全要件の実現可能性を自動的に保証する最初の遮蔽手法を提案する。 実現性は、シールドが常に環境中のあらゆる状態に対して安全なアクションを発生できることを確認する重要な特性である。 我々は、実現可能性もステートフルシールドで検証できることを正式に証明し、非マルコフ的安全要件の組み入れを可能にした。 最後に、ナビゲーション問題やマルチエージェント粒子環境に適用することで、政策精度を損なうことなく安全性を確保するためのアプローチの有効性を実証する。

While Deep Reinforcement Learning (DRL) has achieved remarkable success across various domains, it remains vulnerable to occasional catastrophic failures without additional safeguards. One effective solution to prevent these failures is to use a shield that validates and adjusts the agent's actions to ensure compliance with a provided set of safety specifications. For real-life robot domains, it is desirable to be able to define such safety specifications over continuous state and action spaces to accurately account for system dynamics and calculate new safe actions that minimally alter the agent's output. In this paper, we propose the first shielding approach to automatically guarantee the realizability of safety requirements for continuous state and action spaces. Realizability is an essential property that confirms the shield will always be able to generate a safe action for any state in the environment. We formally prove that realizability can also be verified with a stateful shield, enabling the incorporation of non-Markovian safety requirements. Finally, we demonstrate the effectiveness of our approach in ensuring safety without compromising policy accuracy by applying it to a navigation problem and a multi-agent particle environment.
翻訳日:2024-11-04 09:25:11 公開日:2024-10-02
# 非エルミートゲージの相互性と対称性

Non-Hermitian gauged reciprocity and symmetry ( http://arxiv.org/abs/2410.02041v1 )

ライセンス: Link先を確認
Jiecheng Lyu, Zihe Gao, Liang Feng, Li Ge, (参考訳) ローレンツの相互性は電磁界の基本的な性質であり、外部磁場によって崩壊することが知られている。 しかし、虚数ベクトルポテンシャルや虚数ベクトルポテンシャルにより、その挙動はほとんど不明である。 ここでは、虚ベクトルポテンシャルを持ち、非エルミートスキン効果を示すシステムにおいて、ローレンツの相互性は壊れているが、厳密な数学的関係によって制御され、非エルミートゲージ付き相互性(non-Hermitian gauged reciprocity)と呼ばれる。 しかし、ただの線型集積フォトニック要素を使って虚ベクトルポテンシャルを模倣する場合、ローレンツの相互性につながる条件は依然として満たされており、したがって後者は破れない。 それでも、非エルミートゲージの逆性は、ローレンツ逆性と共に入力と出力の適切な選択で観測可能であることを示す。 さらに、同じ系における別の等振幅応答も明らかにし、これは非エルミートゲージ対称性に帰着する。 さらに,光伝搬は非エルミート的トポロジカルファンネル効果の影響を受けず,コヒーレント駆動系と非駆動系の相違点が強調される。 これらの結果は、結合した光マイクロリング共振器の強結合モデルとフルウェーブシミュレーションを用いて確認され、非エルミート領域におけるローレンツの相互性の拡張に有用である。

The Lorentz reciprocity is a fundamental property in electromagnetism and well known to break down due to an external magnetic field. With a fictitious or imaginary vector potential, however, its behavior is largely unknown. Here we show that in systems with an imaginary vector potential and displaying the non-Hermitian skin effect, the Lorentz reciprocity is broken but still governed by a rigorous mathematical relation, which we term non-Hermitian gauged reciprocity. When mimicking an imaginary vector potential using just linear integrated photonic elements, however, the conditions that lead to the Lorentz reciprocity are still satisfied and hence the latter cannot be broken. Nevertheless, we show that the non-Hermitian gauged reciprocity can still be observed with a proper choice of inputs and outputs, alongside the Lorentz reciprocity. In addition, we also reveal another equal-amplitude response in the same system, which we attribute to a non-Hermitian gauged symmetry. Furthermore, we show that light propagation is not impinged by the non-Hermitian topological funnel effect, highlighting an underappreciated difference between coherently driven and non-driven systems. These findings are confirmed using a tight-binding model and full-wave simulations of coupled optical micro-ring resonators, providing a valuable extension of the Lorentz reciprocity in the non-Hermitian domain.
翻訳日:2024-11-04 09:25:11 公開日:2024-10-02
# EAB-FL:フェデレートラーニングにおけるモデル中毒によるアルゴリズムバイアスの悪化

EAB-FL: Exacerbating Algorithmic Bias through Model Poisoning Attacks in Federated Learning ( http://arxiv.org/abs/2410.02042v1 )

ライセンス: Link先を確認
Syed Irfan Ali Meerza, Jian Liu, (参考訳) フェデレートラーニング(FL)は、複数のパーティがプライベートデータを開示することなく、共同で共有モデルをトレーニングできる技術である。 プライバシー上の優位性から、ますます人気が高まっている。 しかし、FLモデルは、データの異質性や党の選択により、特定の人口集団(例えば、人種や性別グループ)に対する偏見に悩まされることがある。 研究者らはこの問題に対処するためのFLアルゴリズムのグループフェアネスを特徴づけるための様々な戦略を提案している。 しかし、これらの戦略が故意の敵対的攻撃に直面している場合の効果は十分には検討されていない。 既存の研究では、悪意のある参加者によって引き起こされるFLシステムに対する様々な脅威(例えば、モデル中毒攻撃)が明らかにされているが、その主な目的はモデルの精度を下げることである。 本稿では,モデルの有効性を維持しつつ,グループ不公平性を高めることを目的とした新たなモデル中毒攻撃であるERB-FLを提案する。 3つのデータセットに対する大規模な実験は、最先端の公正度最適化アルゴリズムや安全な集約ルールが採用されている場合でも、攻撃の有効性と効率を実証している。

Federated Learning (FL) is a technique that allows multiple parties to train a shared model collaboratively without disclosing their private data. It has become increasingly popular due to its distinct privacy advantages. However, FL models can suffer from biases against certain demographic groups (e.g., racial and gender groups) due to the heterogeneity of data and party selection. Researchers have proposed various strategies for characterizing the group fairness of FL algorithms to address this issue. However, the effectiveness of these strategies in the face of deliberate adversarial attacks has not been fully explored. Although existing studies have revealed various threats (e.g., model poisoning attacks) against FL systems caused by malicious participants, their primary aim is to decrease model accuracy, while the potential of leveraging poisonous model updates to exacerbate model unfairness remains unexplored. In this paper, we propose a new type of model poisoning attack, EAB-FL, with a focus on exacerbating group unfairness while maintaining a good level of model utility. Extensive experiments on three datasets demonstrate the effectiveness and efficiency of our attack, even with state-of-the-art fairness optimization algorithms and secure aggregation rules employed.
翻訳日:2024-11-04 09:15:25 公開日:2024-10-02
# 畳み込みニューラルネットワークにおけるWhite-Box対応攻撃の影響

Impact of White-Box Adversarial Attacks on Convolutional Neural Networks ( http://arxiv.org/abs/2410.02043v1 )

ライセンス: Link先を確認
Rakesh Podder, Sudipto Ghosh, (参考訳) 自動運転車のナビゲーションと医療診断は、画像データに対する機械学習モデルの信頼性とセキュリティが不可欠である多くの分野の1つである。 画像データに広く用いられている畳み込みニューラルネットワーク(CNN)のホワイトボックス攻撃に対する感受性に関する包括的調査を行う。 我々は、CNNのパフォーマンス指標(例えば、損失、精度)、誤り率の増加における敵対的手法の差分効果、知覚された画像品質指標(例えば、ERGAS、PSNR、SSIM、SAM)と分類性能の関係、および反復的対単段階攻撃の有効性について、高速なグラディエント署名法、基本反復法、ヤコビアン・サリエンシ・マップ・アタック、カーリーニ・アンド・ワグナー、投影グラディエント・ディファイア、ディープフールの効果について検討する。 MNIST、CIFAR-10、CIFAR-100、Fashio_MNISTデータセットを用いて、CNNのハイパーパラメータを変化させることで、CNNのパフォーマンス指標に対する異なる攻撃の影響を検討する。 本研究は,CNNの脅威に対する堅牢性,脆弱性の指摘,および,CNNを保護するための堅牢な防御機構の開発と,現実のシナリオにおける信頼性の高い展開の確保に対する緊急の必要性について考察する。

Autonomous vehicle navigation and healthcare diagnostics are among the many fields where the reliability and security of machine learning models for image data are critical. We conduct a comprehensive investigation into the susceptibility of Convolutional Neural Networks (CNNs), which are widely used for image data, to white-box adversarial attacks. We investigate the effects of various sophisticated attacks -- Fast Gradient Sign Method, Basic Iterative Method, Jacobian-based Saliency Map Attack, Carlini & Wagner, Projected Gradient Descent, and DeepFool -- on CNN performance metrics, (e.g., loss, accuracy), the differential efficacy of adversarial techniques in increasing error rates, the relationship between perceived image quality metrics (e.g., ERGAS, PSNR, SSIM, and SAM) and classification performance, and the comparative effectiveness of iterative versus single-step attacks. Using the MNIST, CIFAR-10, CIFAR-100, and Fashio_MNIST datasets, we explore the effect of different attacks on the CNNs performance metrics by varying the hyperparameters of CNNs. Our study provides insights into the robustness of CNNs against adversarial threats, pinpoints vulnerabilities, and underscores the urgent need for developing robust defense mechanisms to protect CNNs and ensuring their trustworthy deployment in real-world scenarios.
翻訳日:2024-11-04 09:15:25 公開日:2024-10-02
# VDM用QuickCheck

QuickCheck for VDM ( http://arxiv.org/abs/2410.02046v1 )

ライセンス: Link先を確認
Nick Battle, Markus Solecki Ellyton, (参考訳) 本稿では,VDM仕様の軽量検証ツールQuickCheckについて述べる。 このツールの目的は、証明義務を迅速に分類することであり、反例で失敗する者、おそらく証明可能なもの、より深い分析を必要とするものを特定することである。 本稿は,ツールの設計と追加チェックのためのプラグイン可能な戦略の利用について論じる。 本稿では,このツールを用いて,VDM仕様の大規模な検証を行い,今後の方向性を提案する。

We describe recent work on a lightweight verification tool for VDM specifications, called QuickCheck. The objective of the tool is to quickly categorise proof obligations: identifying those that fail with counterexamples, those that are probably provable and those that require deeper analysis. The paper discusses the design of the tool and its use of pluggable strategies for adding extra checking. We present the results of the tool being used to check a large set of VDM specifications, and suggest future directions.
翻訳日:2024-11-04 09:15:24 公開日:2024-10-02
# FeelAnyForce:視覚ベース触覚センサにおける触覚からの接触力フィードバックの推定

FeelAnyForce: Estimating Contact Force Feedback from Tactile Sensation for Vision-Based Tactile Sensors ( http://arxiv.org/abs/2410.02048v1 )

ライセンス: Link先を確認
Amir-Hossein Shahidzadeh, Gabriele Caddeo, Koushik Alapati, Lorenzo Natale, Cornelia Fermüller, Yiannis Aloimonos, (参考訳) 本稿では,視覚に基づく触覚センサを用いた3次元接触力推定問題に取り組む。 特に、我々のゴールは、様々な視覚ベースの触覚センサーにまたがって一般化しながら、あらゆる物体の広い範囲(最大15N)で接触力を推定することである。 そこで我々は,力センサに装着されたGelSight Miniセンサに各種のインデンタを押圧するロボットアームを用いて,200K以上のインデンテーションのデータセットを収集し,そのデータを用いて,力回帰のためのマルチヘッドトランスフォーマーのトレーニングを行った。 強い一般化は、深度接触画像を利用する正確なデータ収集と多目的最適化によって達成される。 原始的な形状やテクスチャのみに基づいてトレーニングされているにもかかわらず、回帰器は目に見えない現実世界のオブジェクトのデータセット上で平均4\%の絶対誤差を達成する。 我々は,他のGelSight miniおよびDIGITセンサーに対するアプローチの一般化能力をさらに評価し,事前学習されたモデルを他の視覚ベースセンサーに適用するための再現可能な校正手順を提案する。 さらに, 物体の重み付けや微妙な物体の変形の制御など実世界の課題に対して, 正確な力フィードバックに依存した評価を行った。 プロジェクトWebページ: http://prg.cs.umd.edu/FeelAnyForce

In this paper, we tackle the problem of estimating 3D contact forces using vision-based tactile sensors. In particular, our goal is to estimate contact forces over a large range (up to 15 N) on any objects while generalizing across different vision-based tactile sensors. Thus, we collected a dataset of over 200K indentations using a robotic arm that pressed various indenters onto a GelSight Mini sensor mounted on a force sensor and then used the data to train a multi-head transformer for force regression. Strong generalization is achieved via accurate data collection and multi-objective optimization that leverages depth contact images. Despite being trained only on primitive shapes and textures, the regressor achieves a mean absolute error of 4\% on a dataset of unseen real-world objects. We further evaluate our approach's generalization capability to other GelSight mini and DIGIT sensors, and propose a reproducible calibration procedure for adapting the pre-trained model to other vision-based sensors. Furthermore, the method was evaluated on real-world tasks, including weighing objects and controlling the deformation of delicate objects, which relies on accurate force feedback. Project webpage: http://prg.cs.umd.edu/FeelAnyForce
翻訳日:2024-11-04 09:15:24 公開日:2024-10-02
# Emo3D:感情記述による3次元表情生成のためのメトリクスとベンチマークデータセット

Emo3D: Metric and Benchmarking Dataset for 3D Facial Expression Generation from Emotion Description ( http://arxiv.org/abs/2410.02049v1 )

ライセンス: Link先を確認
Mahshid Dehghani, Amirahmad Shafiee, Ali Shafiei, Neda Fallah, Farahmand Alizadeh, Mohammad Mehdi Gholinejad, Hamid Behroozi, Jafar Habibi, Ehsaneddin Asgari, (参考訳) 既存の3次元顔感情モデリングは、限られた感情クラスと不十分なデータセットによって制約されている。 本稿では、人間の感情の幅広い範囲にまたがる広範な「テキスト画像表現データセット」である「Emo3D」について紹介する。 LLM(Large Language Models)を活用することで,多種多様なテキスト記述が生成され,幅広い感情表現の獲得が容易になる。 このユニークなデータセットを用いて、3次元表情合成のための変換言語画像事前学習(CLIP)のような言語モデルによる微調整および視覚言語モデルの包括的評価を行う。 また,この課題に対する新たな評価基準を導入し,伝達された感情をより直接的に測定する。 新しい評価指標であるEmo3Dは、人間の感情に関連する3次元表情における視覚的テキストアライメントと意味的リッチネスを評価する上で、平均二乗誤差(MSE)指標よりも優れていることを示す。 エモ3D」はアニメーションデザイン、バーチャルリアリティ、感情的な人間とコンピュータのインタラクションに優れた応用がある。

Existing 3D facial emotion modeling have been constrained by limited emotion classes and insufficient datasets. This paper introduces "Emo3D", an extensive "Text-Image-Expression dataset" spanning a wide spectrum of human emotions, each paired with images and 3D blendshapes. Leveraging Large Language Models (LLMs), we generate a diverse array of textual descriptions, facilitating the capture of a broad spectrum of emotional expressions. Using this unique dataset, we conduct a comprehensive evaluation of language-based models' fine-tuning and vision-language models like Contranstive Language Image Pretraining (CLIP) for 3D facial expression synthesis. We also introduce a new evaluation metric for this task to more directly measure the conveyed emotion. Our new evaluation metric, Emo3D, demonstrates its superiority over Mean Squared Error (MSE) metrics in assessing visual-text alignment and semantic richness in 3D facial expressions associated with human emotions. "Emo3D" has great applications in animation design, virtual reality, and emotional human-computer interaction.
翻訳日:2024-11-04 09:15:24 公開日:2024-10-02
# スタイルあいまいさ損失を用いた拡散モデルの美学改善

Using Style Ambiguity Loss to Improve Aesthetics of Diffusion Models ( http://arxiv.org/abs/2410.02055v1 )

ライセンス: Link先を確認
James Baker, (参考訳) 創造的なテキスト・ツー・イメージモデルを教えるには、スタイルの曖昧さの損失を使用する必要がある。 本研究では,拡散モデルを用いて,創造性を近似するためのあいまいさ学習の目的について検討する。 次に、分類器やラベル付きデータセットを訓練する必要のないスタイルあいまいさ損失の形式を実験し、スタイルあいまいさ損失で訓練されたモデルがベースライン拡散モデルやGANよりも優れた画像を生成することを発見した。 コードはhttps://github.com/jamesBaker361/clipcreateで入手できる。

Teaching text-to-image models to be creative involves using style ambiguity loss. In this work, we explore using the style ambiguity training objective, used to approximate creativity, on a diffusion model. We then experiment with forms of style ambiguity loss that do not require training a classifier or a labeled dataset, and find that the models trained with style ambiguity loss can generate better images than the baseline diffusion models and GANs. Code is available at https://github.com/jamesBaker361/clipcreate.
翻訳日:2024-11-04 09:15:24 公開日:2024-10-02
# Synthio: 合成データによる小規模オーディオ分類データセットの強化

Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data ( http://arxiv.org/abs/2410.02056v1 )

ライセンス: Link先を確認
Sreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha, (参考訳) 音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。 我々の目標は、ラベル付きデータによる音声分類精度を向上させることである。 従来のデータ拡張技術は、人工的な変換(例えば、ランダムなノイズやマスキングセグメントを追加する)を適用し、現実世界のオーディオに存在する真の多様性をキャプチャするデータを作成するのに苦労している。 この欠点に対処するために,テキスト・トゥ・オーディオ(T2A)拡散モデルから生成された合成音声を用いてデータセットを拡張することを提案する。 しかし, 有効拡張の合成は, 生成したデータが下位の小規模データセットと音響的に整合するだけでなく, 十分な構成多様性を持つ必要があるため, 困難である。 最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。 これにより、生成されたデータの音響特性が小さなデータセットと一致し続けることが保証される。 2つ目の課題に対処するために,(1)多種多様な有意義な音声キャプションを生成し,(2)その品質を反復的に改善する,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。 生成されたキャプションは、アライメントされたT2Aモデルを促すために使用される。 我々はSynthioを10のデータセットと4つのシミュレートされた限定データ設定で広範囲に評価した。 その結果,弱キャプション型AudioSetのみをトレーニングしたT2Aモデルを用いて,すべてのベースラインを0.1%~39%向上させることができた。

We present Synthio, a novel approach for augmenting small-scale audio classification datasets with synthetic data. Our goal is to improve audio classification accuracy with limited labeled data. Traditional data augmentation techniques, which apply artificial transformations (e.g., adding random noise or masking segments), struggle to create data that captures the true diversity present in real-world audios. To address this shortcoming, we propose to augment the dataset with synthetic audio generated from text-to-audio (T2A) diffusion models. However, synthesizing effective augmentations is challenging because not only should the generated data be acoustically consistent with the underlying small-scale dataset, but they should also have sufficient compositional diversity. To overcome the first challenge, we align the generations of the T2A model with the small-scale dataset using preference optimization. This ensures that the acoustic characteristics of the generated data remain consistent with the small-scale dataset. To address the second challenge, we propose a novel caption generation technique that leverages the reasoning capabilities of Large Language Models to (1) generate diverse and meaningful audio captions and (2) iteratively refine their quality. The generated captions are then used to prompt the aligned T2A model. We extensively evaluate Synthio on ten datasets and four simulated limited-data settings. Results indicate our method consistently outperforms all baselines by 0.1%-39% using a T2A model trained only on weakly-captioned AudioSet.
翻訳日:2024-11-04 09:15:24 公開日:2024-10-02
# 2次元量子スピン系の可逆相の指数

An index for invertible phases of two-dimensional quantum spin systems ( http://arxiv.org/abs/2410.02059v1 )

ライセンス: Link先を確認
Nikita Sopenko, (参考訳) 追加対称性を持たない2次元フェルミオンおよびボゾン量子スピン系の可逆相の指数を定義する。 理論的には、有効共形場理論の記述が有効であれば、境界モード $c_- \bmod 24$ のカイラル中心電荷に関連する不変量の顕微鏡的定義を提供する。 この指数を用いて、チャーン数 $\nu \bmod 48 \neq 0$ を持つ自由フェルミオン系が非自明な可逆相であることを示す。

We define an index for invertible phases of two-dimensional fermionic and bosonic quantum spin systems without any additional symmetry. Conjecturally, it provides a microscopic definition of an invariant related to the chiral central charge of the boundary modes $c_- \bmod 24$ when the effective conformal field theory description is valid. Using this index, we prove that free fermionic systems with Chern number $\nu \bmod 48 \neq 0$ are in a non-trivial invertible phase.
翻訳日:2024-11-04 09:15:24 公開日:2024-10-02
# PerTok: シンボリック音楽のアイデアと変奏の表現的エンコーディングとモデリング

PerTok: Expressive Encoding and Modeling of Symbolic Musical Ideas and Variations ( http://arxiv.org/abs/2410.02060v1 )

ライセンス: Link先を確認
Julian Lenz, Anirudh Mani, (参考訳) カデンザ(Cadenza)は、記号的音楽観念の表現的変化と無条件世代を予測するための、新しい多段階生成フレームワークである。 そこで本研究では,提案するMIDI符号化手法であるPerTok(Performance Tokenizer)を提案する。 提案するフレームワークは,2段階からなる。 1)作曲者・作曲者 2)演奏者。 Composerモデルはトランスフォーマーベースの変分自動エンコーダ(VAE)であり、Rotary Positional Embeddings (RoPE)ROPEと、入力された音楽アイデアの潜時符号をより効果的に統合するために修正された自動回帰デコーダを備える。 Performerモデルは双方向トランスフォーマーエンコーダであり、MIDIシーケンス上で速度とマイクロチューニングを予測するために別々に訓練されている。 客観的・人的評価はカデンザの多角的能力を示す 1) より表現力のある発音をしながら、他の非条件の最先端の記号モデルと音楽的品質の整合性 2) ユーザに対して斬新なアイデアを提供しながら, 入力にスタイリスティックに関連した, 表現力に富んだ新しいアイデアを構築すること。 我々のフレームワークは、ミュージシャンに倫理的にインスピレーションを与える目的で設計、研究、実装されている。

We introduce Cadenza, a new multi-stage generative framework for predicting expressive variations of symbolic musical ideas as well as unconditional generations. To accomplish this we propose a novel MIDI encoding method, PerTok (Performance Tokenizer) that captures minute expressive details whilst reducing sequence length up to 59% and vocabulary size up to 95% for polyphonic, monophonic and rhythmic tasks. The proposed framework comprises of two sequential stages: 1) Composer and 2) Performer. The Composer model is a transformer-based Variational Autoencoder (VAE), with Rotary Positional Embeddings (RoPE)ROPE and an autoregressive decoder modified to more effectively integrate the latent codes of the input musical idea. The Performer model is a bidirectional transformer encoder that is separately trained to predict velocities and microtimings on MIDI sequences. Objective and human evaluations demonstrate Cadenza's versatile capability in 1) matching other unconditional state-of-the-art symbolic models in musical quality whilst sounding more expressive, and 2) composing new, expressive ideas that are both stylistically related to the input whilst providing novel ideas to the user. Our framework is designed, researched and implemented with the objective of ethically providing inspiration for musicians.
翻訳日:2024-11-04 09:15:24 公開日:2024-10-02
# TPP-LLM:大規模言語モデルによる時間点過程のモデル化

TPP-LLM: Modeling Temporal Point Processes by Efficiently Fine-Tuning Large Language Models ( http://arxiv.org/abs/2410.02062v1 )

ライセンス: Link先を確認
Zefang Liu, Yinzhu Quan, (参考訳) 時間的ポイントプロセス(TPP)は、ソーシャルネットワーク、交通システム、eコマースなどのドメインにおけるイベントのタイミングと発生をモデル化するために広く用いられている。 本稿では,大規模言語モデル(LLM)をTPPと統合し,イベントシーケンスの意味的側面と時間的側面の両方を捉える新しいフレームワークであるTPP-LLMを紹介する。 分類的なイベント型表現に依存する従来の方法とは異なり、TPP-LLMは、イベントタイプのテキスト記述を直接利用し、モデルがテキストに埋め込まれたリッチなセマンティック情報をキャプチャすることを可能にする。 LLMはイベントセマンティクスの理解に優れていますが、時間的パターンのキャプチャには適していません。 これを解決するため、TPP-LLMは時間的埋め込みを導入し、パラメータ効率の微調整(PEFT)手法を用いて時間的ダイナミクスを広範囲のトレーニングなしに効果的に学習する。 このアプローチは予測精度と計算効率の両方を改善する。 実世界の様々なデータセットに対する実験結果から、TPP-LLMはシーケンスモデリングとイベント予測において最先端のベースラインよりも優れており、TLPとLPMを組み合わせる利点が強調されている。

Temporal point processes (TPPs) are widely used to model the timing and occurrence of events in domains such as social networks, transportation systems, and e-commerce. In this paper, we introduce TPP-LLM, a novel framework that integrates large language models (LLMs) with TPPs to capture both the semantic and temporal aspects of event sequences. Unlike traditional methods that rely on categorical event type representations, TPP-LLM directly utilizes the textual descriptions of event types, enabling the model to capture rich semantic information embedded in the text. While LLMs excel at understanding event semantics, they are less adept at capturing temporal patterns. To address this, TPP-LLM incorporates temporal embeddings and employs parameter-efficient fine-tuning (PEFT) methods to effectively learn temporal dynamics without extensive retraining. This approach improves both predictive accuracy and computational efficiency. Experimental results across diverse real-world datasets demonstrate that TPP-LLM outperforms state-of-the-art baselines in sequence modeling and event prediction, highlighting the benefits of combining LLMs with TPPs.
翻訳日:2024-11-04 09:15:24 公開日:2024-10-02
# Llama3-8b-インストラクションにおける自己生成テキスト認識能力の検査と制御

Inspection and Control of Self-Generated-Text Recognition Ability in Llama3-8b-Instruct ( http://arxiv.org/abs/2410.02064v1 )

ライセンス: Link先を確認
Christopher Ackerman, Nina Panickssery, (参考訳) LLMは自身の著作を認識できると報告されている。 これはAIの安全性に潜在的に影響を及ぼす可能性があるが、比較的検討されているため、その現象を調査し、それが行動レベルで堅牢に起こるかどうか、観察された振る舞いがどのように達成されるか、制御できるかどうかを確かめる。 まず,Llama3-8b-Instructチャットモデルにおいて,Llama3-8bモデルではなく,Llama3-8bモデルを用いて,人間と自身のアウトプットを確実に区別できることを見出した。 第2に,モデルが正しい自己書面認識判定を行う際に,モデル残流のベクトルを差動的に活性化し,そのベクトルが自己オーサシップに関連する情報に応答して活性化することを示すとともに,そのベクトルがモデルにおける「自己」の概念と関連していることを示すとともに,モデルが自己オーサシップを知覚し,主張する能力に因果的に関連していることを示す。 最後に,モデルの動作と知覚の両方をベクトルで制御し,モデルが生成した出力にベクトルを適用することによって,著者の主張や否定をモデルで制御し,モデルがそれを読み取ると任意のテキストを信じるか,あるいは無視するかを判断する。

It has been reported that LLMs can recognize their own writing. As this has potential implications for AI safety, yet is relatively understudied, we investigate the phenomenon, seeking to establish whether it robustly occurs at the behavioral level, how the observed behavior is achieved, and whether it can be controlled. First, we find that the Llama3-8b-Instruct chat model - but not the base Llama3-8b model - can reliably distinguish its own outputs from those of humans, and present evidence that the chat model is likely using its experience with its own outputs, acquired during post-training, to succeed at the writing recognition task. Second, we identify a vector in the residual stream of the model that is differentially activated when the model makes a correct self-written-text recognition judgment, show that the vector activates in response to information relevant to self-authorship, present evidence that the vector is related to the concept of "self" in the model, and demonstrate that the vector is causally related to the model's ability to perceive and assert self-authorship. Finally, we show that the vector can be used to control both the model's behavior and its perception, steering the model to claim or disclaim authorship by applying the vector to the model's output as it generates it, and steering the model to believe or disbelieve it wrote arbitrary texts by applying the vector to them as the model reads them.
翻訳日:2024-11-04 09:15:24 公開日:2024-10-02
# 確率的コンテキスト帯域における高速かつサンプルなマルチタスク表現学習

Fast and Sample Efficient Multi-Task Representation Learning in Stochastic Contextual Bandits ( http://arxiv.org/abs/2410.02068v1 )

ライセンス: Link先を確認
Jiabin Lin, Shana Moothedath, Namrata Vaswani, (参考訳) 本研究では,表現学習が文脈的包帯問題の学習効率を向上させる方法について検討する。 我々は、T の文脈線型包帯を d 次元で同時に演奏する状況について検討し、これらの T バンディットタスクは、d よりもずっと小さい次元の r 次元の共通線型表現を集合的に共有する。 低ランクな特徴行列を復元するために、交互に投影される勾配降下(GD)と最小化推定器に基づく新しいアルゴリズムを提案する。 提案した推定器を用いて,線形文脈帯域に対するマルチタスク学習アルゴリズムを提案する。 実験を行い,提案アルゴリズムの性能をベンチマークアルゴリズムと比較した。

We study how representation learning can improve the learning efficiency of contextual bandit problems. We study the setting where we play T contextual linear bandits with dimension d simultaneously, and these T bandit tasks collectively share a common linear representation with a dimensionality of r much smaller than d. We present a new algorithm based on alternating projected gradient descent (GD) and minimization estimator to recover a low-rank feature matrix. Using the proposed estimator, we present a multi-task learning algorithm for linear contextual bandits and prove the regret bound of our algorithm. We presented experiments and compared the performance of our algorithm against benchmark algorithms.
翻訳日:2024-11-04 09:05:40 公開日:2024-10-02
# MMFNet:多変量時系列予測のためのマルチスケール周波数マスキングニューラルネットワーク

MMFNet: Multi-Scale Frequency Masking Neural Network for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2410.02070v1 )

ライセンス: Link先を確認
Aitian Ma, Dongsheng Luo, Mo Sha, (参考訳) 長期時系列予測(LTSF)は、電力消費計画、財務予測、疾病の伝播分析など、多くの実世界の応用において重要である。 LTSFは入力と出力の間の長距離依存関係をキャプチャする必要があるため、複雑な時間的ダイナミクスと高い計算要求のために大きな課題が生じる。 線形モデルは周波数領域分解を用いることでモデルの複雑さを減少させるが、現在の手法では定常性を仮定し、重要な短期変動を含む高周波成分をフィルタリングすることが多い。 本稿では,マルチスケールマスク型周波数分解手法を用いて,長期多変量予測の強化を目的とした新しいモデルMMFNetを提案する。 MMFNetは、時系列を様々なスケールの周波数セグメントに変換し、学習可能なマスクを用いて非関連成分を適応的にフィルタリングすることで、微細で中間的で粗い時間パターンをキャプチャする。 ベンチマークデータセットによる大規模な実験は、MMFNetが既存のメソッドの制限に対処するだけでなく、パフォーマンスも一貫して達成していることを示している。 具体的には、MMFNetは、多変量予測タスク用に設計された最先端モデルと比較して、平均二乗誤差(MSE)を最大6.0%削減する。

Long-term Time Series Forecasting (LTSF) is critical for numerous real-world applications, such as electricity consumption planning, financial forecasting, and disease propagation analysis. LTSF requires capturing long-range dependencies between inputs and outputs, which poses significant challenges due to complex temporal dynamics and high computational demands. While linear models reduce model complexity by employing frequency domain decomposition, current approaches often assume stationarity and filter out high-frequency components that may contain crucial short-term fluctuations. In this paper, we introduce MMFNet, a novel model designed to enhance long-term multivariate forecasting by leveraging a multi-scale masked frequency decomposition approach. MMFNet captures fine, intermediate, and coarse-grained temporal patterns by converting time series into frequency segments at varying scales while employing a learnable mask to filter out irrelevant components adaptively. Extensive experimentation with benchmark datasets shows that MMFNet not only addresses the limitations of the existing methods but also consistently achieves good performance. Specifically, MMFNet achieves up to 6.0% reductions in the Mean Squared Error (MSE) compared to state-of-the-art models designed for multivariate forecasting tasks.
翻訳日:2024-11-04 09:05:40 公開日:2024-10-02
# ジャイアンツから学ぶ:水中深度と表面正常度推定への実践的アプローチ

Learning from the Giants: A Practical Approach to Underwater Depth and Surface Normals Estimation ( http://arxiv.org/abs/2410.02072v1 )

ライセンス: Link先を確認
Alzayat Saleh, Melanie Olsen, Bouchra Senadji, Mostafa Rahimi Azghadi, (参考訳) 単眼深度と表面正常度推定(MDSNE)は3次元再構成、自律航法、水中探査などの作業に不可欠である。 現在の手法は、透明または反射面に苦しむ識別モデルや、正確ではあるが計算コストが高い生成モデルに依存している。 本稿では,CNN(Convolutional Neural Networks)とTransformersを統合し,両アプローチの強みを活用するハイブリッドアーキテクチャを用いて,特に水中環境に適したMDSNEのための新しいディープラーニングモデルを提案する。 効果的なMDSNEモデルのトレーニングは、しばしばノイズの多い実世界のデータセットと、合成データセットの限定的な一般化によって妨げられる。 そこで我々は,複数の事前学習MDSNEモデルを用いて,擬似ラベル付き実データを生成する。 このデータの品質を確保するために、ドメイン固有のメトリクスを用いて最も信頼性の高い疑似ラベル付きサンプルを評価・選択するDepth Normal Evaluation and Selection Algorithm (DNESA)を提案する。 ライトウェイトな学生モデルは、このキュレートされたデータセットでトレーニングされる。 我々のモデルはパラメータを90%削減し、トレーニングコストを80%削減し、リソース制約されたデバイス上でリアルタイムな3D認識を可能にする。 主なコントリビューションは、新規で効率的なMDSNEモデル、DNESAアルゴリズム、ドメイン固有のデータパイプライン、リアルタイムのパフォーマンスとスケーラビリティに焦点を当てている。 実際の水中アプリケーションのために設計されたこのモデルは、水中ロボットと自動運転車の低コスト展開を促進し、研究と実践のギャップを埋める。

Monocular Depth and Surface Normals Estimation (MDSNE) is crucial for tasks such as 3D reconstruction, autonomous navigation, and underwater exploration. Current methods rely either on discriminative models, which struggle with transparent or reflective surfaces, or generative models, which, while accurate, are computationally expensive. This paper presents a novel deep learning model for MDSNE, specifically tailored for underwater environments, using a hybrid architecture that integrates Convolutional Neural Networks (CNNs) with Transformers, leveraging the strengths of both approaches. Training effective MDSNE models is often hampered by noisy real-world datasets and the limited generalization of synthetic datasets. To address this, we generate pseudo-labeled real data using multiple pre-trained MDSNE models. To ensure the quality of this data, we propose the Depth Normal Evaluation and Selection Algorithm (DNESA), which evaluates and selects the most reliable pseudo-labeled samples using domain-specific metrics. A lightweight student model is then trained on this curated dataset. Our model reduces parameters by 90% and training costs by 80%, allowing real-time 3D perception on resource-constrained devices. Key contributions include: a novel and efficient MDSNE model, the DNESA algorithm, a domain-specific data pipeline, and a focus on real-time performance and scalability. Designed for real-world underwater applications, our model facilitates low-cost deployments in underwater robots and autonomous vehicles, bridging the gap between research and practical implementation.
翻訳日:2024-11-04 09:05:40 公開日:2024-10-02
# Depth Pro:シャープ単分子メートルの深さは1秒以下

Depth Pro: Sharp Monocular Metric Depth in Less Than a Second ( http://arxiv.org/abs/2410.02073v1 )

ライセンス: Link先を確認
Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun, (参考訳) ゼロショット距離単眼深度推定のための基礎モデルを提案する。 我々のモデルであるDepth Proは、非並列のシャープネスと高周波の詳細で高分解能深度マップを合成する。 予測は、カメラ固有のようなメタデータの可用性に頼ることなく、絶対スケールでメトリックである。 モデルは高速で、標準的なGPUで0.3秒で2.25メガピクセルの深度マップを生成する。 これらの特徴は、高密度な予測のための効率的なマルチスケール視覚変換器、実際のデータセットと合成データセットを組み合わせて、詳細な境界追跡とともに高い計量精度を達成するためのトレーニングプロトコル、推定深度マップにおける境界精度の専用評価指標、単一画像からの最先端焦点距離推定など、多くの技術的貢献によって実現されている。 大規模な実験は、特定の設計選択を分析し、Depth Proが複数の次元に沿って前の作業より優れていることを示す。 コードと重みはhttps://github.com/apple/ml-depth-proで公開しています。

We present a foundation model for zero-shot metric monocular depth estimation. Our model, Depth Pro, synthesizes high-resolution depth maps with unparalleled sharpness and high-frequency details. The predictions are metric, with absolute scale, without relying on the availability of metadata such as camera intrinsics. And the model is fast, producing a 2.25-megapixel depth map in 0.3 seconds on a standard GPU. These characteristics are enabled by a number of technical contributions, including an efficient multi-scale vision transformer for dense prediction, a training protocol that combines real and synthetic datasets to achieve high metric accuracy alongside fine boundary tracing, dedicated evaluation metrics for boundary accuracy in estimated depth maps, and state-of-the-art focal length estimation from a single image. Extensive experiments analyze specific design choices and demonstrate that Depth Pro outperforms prior work along multiple dimensions. We release code and weights at https://github.com/apple/ml-depth-pro
翻訳日:2024-11-04 09:05:40 公開日:2024-10-02
# 大規模Eコマースグループ推薦における価格誘導型ユーザアテンション

Price-guided user attention in large-scale E-commerce group recommendation ( http://arxiv.org/abs/2410.02074v1 )

ライセンス: Link先を確認
Yang Shi, Young-joo Chung, (参考訳) 既存のグループレコメンデータシステムは、グループ決定に最も影響を及ぼす重要なユーザを特定するために、アテンションメカニズムを利用する。 実世界のEコマースデータセット上で広く利用されているグループ推薦モデルからユーザ注意スコアを分析し,アイテム価格とユーザインタラクション履歴が重要なユーザの選択に大きく影響することを発見した。 アイテム価格が低い場合、広範囲にわたるインタラクション履歴を持つユーザは、グループ意思決定に影響を及ぼす。 逆に、その影響はアイテム価格の上昇とともに減少する。 そこで本研究では,ユーザアグリゲーションの指針としてアイテム価格を組み込んだグループレコメンデーション手法を提案する。 本モデルでは,商品価格に基づいて出力ロジットを調整し,ユーザアグリゲーションの精度を高めるために,適応型シグモイド関数を用いる。 価格情報が得られれば、アテンションベースのグループレコメンデータシステムに差し込むことができる。 我々は、公開ベンチマークと実世界のデータセットでモデルの性能を評価する。 我々は、他の最先端グループレコメンデーション手法と比較する。 以上の結果から,我々の価格誘導型ユーザアテンションアプローチは,ヒット率と平均二乗誤差で最先端の手法よりも優れていることが示された。

Existing group recommender systems utilize attention mechanisms to identify critical users who influence group decisions the most. We analyzed user attention scores from a widely-used group recommendation model on a real-world E-commerce dataset and found that item price and user interaction history significantly influence the selection of critical users. When item prices are low, users with extensive interaction histories are more influential in group decision-making. Conversely, their influence diminishes with higher item prices. Based on these observations, we propose a novel group recommendation approach that incorporates item price as a guiding factor for user aggregation. Our model employs an adaptive sigmoid function to adjust output logits based on item prices, enhancing the accuracy of user aggregation. Our model can be plugged into any attention-based group recommender system if the price information is available. We evaluate our model's performance on a public benchmark and a real-world dataset. We compare it with other state-of-the-art group recommendation methods. Our results demonstrate that our price-guided user attention approach outperforms the state-of-the-art methods in terms of hit ratio and mean square error.
翻訳日:2024-11-04 09:05:40 公開日:2024-10-02
# Kolmogorov-Arnoldネットワークオートエンコーダ

Kolmogorov-Arnold Network Autoencoders ( http://arxiv.org/abs/2410.02077v1 )

ライセンス: Link先を確認
Mohammadamin Moradi, Shirin Panahi, Erik Bollt, Ying-Cheng Lai, (参考訳) ディープラーニングモデルは、データ回帰や画像分類といったタスクの基盤となるマルチ層パーセプトロン(MLP)など、さまざまな領域に革命をもたらした。 しかし、最近の研究では、ノードではなくエッジに置かれるアクティベーション関数を活用することで、MLPの代替としてKAN(Kolmogorov-Arnold Networks)を導入している。 この構造シフトはカンをコルモゴロフ・アルノルドの表現定理と密接に一致させ、モデル精度と解釈可能性の両方を高める可能性がある。 本研究では,MNIST,SVHN,CIFAR-10データセット上の従来の畳み込みニューラルネットワーク(CNN)と比較し,自動エンコーダによるデータ表現の文脈におけるkanの有効性を検討した。 この結果から,kanベースのオートエンコーダは,データ解析タスクにおいて有効なツールであることを示す。

Deep learning models have revolutionized various domains, with Multi-Layer Perceptrons (MLPs) being a cornerstone for tasks like data regression and image classification. However, a recent study has introduced Kolmogorov-Arnold Networks (KANs) as promising alternatives to MLPs, leveraging activation functions placed on edges rather than nodes. This structural shift aligns KANs closely with the Kolmogorov-Arnold representation theorem, potentially enhancing both model accuracy and interpretability. In this study, we explore the efficacy of KANs in the context of data representation via autoencoders, comparing their performance with traditional Convolutional Neural Networks (CNNs) on the MNIST, SVHN, and CIFAR-10 datasets. Our results demonstrate that KAN-based autoencoders achieve competitive performance in terms of reconstruction accuracy, thereby suggesting their viability as effective tools in data analysis tasks.
翻訳日:2024-11-04 09:05:40 公開日:2024-10-02
# 生成前駆体に基づくランゲヴィンダイナミックスによる後部サンプリング

Posterior sampling via Langevin dynamics based on generative priors ( http://arxiv.org/abs/2410.02078v1 )

ライセンス: Link先を確認
Vishal Purohit, Matthew Repasky, Jianfeng Lu, Qiang Qiu, Yao Xie, Xiuyuan Cheng, (参考訳) 生成モデルを用いた高次元空間における後方サンプリングは、逆問題やガイド付き生成タスクなどを含む様々な応用において大きな可能性を秘めている。 多くの最近の発展にもかかわらず、既存の手法では、新しいサンプルごとに生成プロセス全体を再起動する必要があるため、様々な後続サンプルを生成することは依然として困難である。 本研究では,事前学習した生成モデルの雑音空間におけるLangevinダイナミクスをシミュレートして,効率的な後部サンプリングを提案する。 蒸留流や整合性モデルによって得られるノイズとデータ空間のマッピングを利用することで, 全サンプリングチェーンの再実行を必要とせずに後方のシームレスな探索が可能となり, 計算オーバーヘッドを大幅に削減できる。 理論的には、生成モデルが先行分布を十分に近似すると仮定して、提案した雑音空間ランゲヴィン力学が後部を近似することを保証している。 本研究では,LSUN-Bedroom (256 x 256) および ImageNet (64 x 64) データセットに適用した非線形および非線形前方演算子を含む画像復元タスクについて実験的に検証した。 提案手法は,機能評価の限られた条件下でも,意味的多様性が向上した高忠実度サンプルを生成し,既存の拡散法よりも効率と性能がよいことを示した。

Posterior sampling in high-dimensional spaces using generative models holds significant promise for various applications, including but not limited to inverse problems and guided generation tasks. Despite many recent developments, generating diverse posterior samples remains a challenge, as existing methods require restarting the entire generative process for each new sample, making the procedure computationally expensive. In this work, we propose efficient posterior sampling by simulating Langevin dynamics in the noise space of a pre-trained generative model. By exploiting the mapping between the noise and data spaces which can be provided by distilled flows or consistency models, our method enables seamless exploration of the posterior without the need to re-run the full sampling chain, drastically reducing computational overhead. Theoretically, we prove a guarantee for the proposed noise-space Langevin dynamics to approximate the posterior, assuming that the generative model sufficiently approximates the prior distribution. Our framework is experimentally validated on image restoration tasks involving noisy linear and nonlinear forward operators applied to LSUN-Bedroom (256 x 256) and ImageNet (64 x 64) datasets. The results demonstrate that our approach generates high-fidelity samples with enhanced semantic diversity even under a limited number of function evaluations, offering superior efficiency and performance compared to existing diffusion-based posterior sampling techniques.
翻訳日:2024-11-04 09:05:40 公開日:2024-10-02
# 雑音非定常力学系の同定のための深部生成モデル

Deep Generative Modeling for Identification of Noisy, Non-Stationary Dynamical Systems ( http://arxiv.org/abs/2410.02079v1 )

ライセンス: Link先を確認
Doris Voina, Steven Brunton, J. Nathan Kutz, (参考訳) 多くの科学・工学分野において重要な課題は、微分方程式の形で支配方程式を復元することで、時間依存の測定データを理解することである。 本稿では,非線形,雑音,非自律的な力学系に対する擬似常微分方程式(ODE)モデルの探索に着目し,データ駆動型システム同定のための機械学習手法を提案する。 多くの手法がノイズや限られたデータに対処しているが、微分方程式パラメータが時間とともに変化する非定常性は、あまり注目されていない。 提案手法は,SINDyとSINDy(非線形力学のスパース同定)を結合し,スパースODEの時間変化係数をモデル化する。 この枠組みは、従来の自律システムの手法で拡張されたODE係数の不確実性定量化を可能にする。 これらの係数は潜在変数として解釈され、自律力学モデルを得るためにシステムに追加される。 非線形発振器やローレンツ系を含む合成データを用いて本手法を検証し,C. elegansの神経活動データに適用した。 Dynamic SINDyはグローバルな非線形モデルを発見し、実際の、ノイズの多い、カオス的なデータセットを扱えることを示した。 本手法を様々な問題,特に時間依存パラメータの複雑な動的システムに適用することを目的としている。

A significant challenge in many fields of science and engineering is making sense of time-dependent measurement data by recovering governing equations in the form of differential equations. We focus on finding parsimonious ordinary differential equation (ODE) models for nonlinear, noisy, and non-autonomous dynamical systems and propose a machine learning method for data-driven system identification. While many methods tackle noisy and limited data, non-stationarity - where differential equation parameters change over time - has received less attention. Our method, dynamic SINDy, combines variational inference with SINDy (sparse identification of nonlinear dynamics) to model time-varying coefficients of sparse ODEs. This framework allows for uncertainty quantification of ODE coefficients, expanding on previous methods for autonomous systems. These coefficients are then interpreted as latent variables and added to the system to obtain an autonomous dynamical model. We validate our approach using synthetic data, including nonlinear oscillators and the Lorenz system, and apply it to neuronal activity data from C. elegans. Dynamic SINDy uncovers a global nonlinear model, showing it can handle real, noisy, and chaotic datasets. We aim to apply our method to a variety of problems, specifically dynamic systems with complex time-dependent parameters.
翻訳日:2024-11-04 09:05:40 公開日:2024-10-02
# EMMA:マルチモードLCMにおける効率的な視覚アライメント

EMMA: Efficient Visual Alignment in Multi-Modal LLMs ( http://arxiv.org/abs/2410.02080v1 )

ライセンス: Link先を確認
Sara Ghazanfari, Alexandre Araujo, Prashanth Krishnamurthy, Siddharth Garg, Farshad Khorrami, (参考訳) MLLM(Multi-modal Large Language Models)は、視覚基盤モデルを利用して画像の中核となる概念を表現にエンコードすることで、目覚しい汎用性を示した。 これらは命令と組み合わせて、言語モデルによって処理され、高品質な応答を生成する。 言語コンポーネントの大幅な進歩にもかかわらず、タスク固有の適応性のために、言語モデル内で視覚的エンコーディングを最適に融合させることが課題である。 近年の研究では、モダリティ適応モジュールによる融合の改善に焦点が当てられているが、モデルの複雑さを大幅に増加させ、データニーズをトレーニングするコストが掛かっている。 本稿では,視覚的およびテキスト的エンコーディングを効率的に融合し,言語モデルのための命令対応視覚表現を生成する軽量な多モードモジュールEMMA(Efficient Multi-Modal Adaptation)を提案する。 本研究の主な貢献は,(1) 視覚と言語表現を最小限の追加パラメータ(モデルサイズが0.2%増加しない)と統合する効率的な早期融合機構,(2) 提案手法の内部メカニズムに光を当てる詳細な解釈可能性分析,(3) MLLMの特殊ベンチマークと一般ベンチマークの両方において顕著な改善を示す総合的な実験である。 実験の結果、EMMAは幻覚に対する堅牢性を著しく改善しつつ、複数のタスクにわたるパフォーマンスを最大9.3%向上させることが示された。 私たちのコードはhttps://github.com/SaraGhazanfari/EMMAで利用可能です。

Multi-modal Large Language Models (MLLMs) have recently exhibited impressive general-purpose capabilities by leveraging vision foundation models to encode the core concepts of images into representations. These are then combined with instructions and processed by the language model to generate high-quality responses. Despite significant progress in enhancing the language component, challenges persist in optimally fusing visual encodings within the language model for task-specific adaptability. Recent research has focused on improving this fusion through modality adaptation modules but at the cost of significantly increased model complexity and training data needs. In this paper, we propose EMMA (Efficient Multi-Modal Adaptation), a lightweight cross-modality module designed to efficiently fuse visual and textual encodings, generating instruction-aware visual representations for the language model. Our key contributions include: (1) an efficient early fusion mechanism that integrates vision and language representations with minimal added parameters (less than 0.2% increase in model size), (2) an in-depth interpretability analysis that sheds light on the internal mechanisms of the proposed method; (3) comprehensive experiments that demonstrate notable improvements on both specialized and general benchmarks for MLLMs. Empirical results show that EMMA boosts performance across multiple tasks by up to 9.3% while significantly improving robustness against hallucinations. Our code is available at https://github.com/SaraGhazanfari/EMMA
翻訳日:2024-11-04 09:05:40 公開日:2024-10-02
# MixLinear:0.1Kパラメータによる極低リソース多変量時系列予測

MixLinear: Extreme Low Resource Multivariate Time Series Forecasting with 0.1K Parameters ( http://arxiv.org/abs/2410.02081v1 )

ライセンス: Link先を確認
Aitian Ma, Dongsheng Luo, Mo Sha, (参考訳) 近年,長期時系列予測(LTSF)への関心が高まっており,大量の時系列データを分析してパターンや傾向を識別することで,長期的将来価値を予測する。 LTSFには複雑な時間的依存関係と高い計算要求のために大きな課題がある。 Transformerベースのモデルは高い予測精度を提供するが、ハードウェア制約のあるデバイスにデプロイするには計算集約的すぎることが多い。 一方,線形モデルは時間領域の分解法と周波数領域のコンパクト表現を用いて計算オーバーヘッドを低減することを目的としている。 本稿では,資源制約のあるデバイスに特化して設計された,超軽量多変量時系列予測モデルであるMixLinearを提案する。 MixLinearは、時間領域におけるセグメント内およびセグメント間変異をモデル化し、周波数領域内の低次元潜在空間から周波数変動を抽出することにより、時間領域と周波数領域の両方の特徴を効果的にキャプチャする。 ダウンサンプリングされた$n$の入出力1層線形モデルのパラメータスケールを$O(n^2)$から$O(n)$に小さくすることで、MixLinearは精度を犠牲にすることなく効率的な計算を実現する。 4つのベンチマークデータセットによる大規模な評価によると、MixLinearは、パラメータが大幅に少ない最先端モデル(0.1Kドル)に匹敵する、あるいは超えた予測性能を達成している。

Recently, there has been a growing interest in Long-term Time Series Forecasting (LTSF), which involves predicting long-term future values by analyzing a large amount of historical time-series data to identify patterns and trends. There exist significant challenges in LTSF due to its complex temporal dependencies and high computational demands. Although Transformer-based models offer high forecasting accuracy, they are often too compute-intensive to be deployed on devices with hardware constraints. On the other hand, the linear models aim to reduce the computational overhead by employing either decomposition methods in the time domain or compact representations in the frequency domain. In this paper, we propose MixLinear, an ultra-lightweight multivariate time series forecasting model specifically designed for resource-constrained devices. MixLinear effectively captures both temporal and frequency domain features by modeling intra-segment and inter-segment variations in the time domain and extracting frequency variations from a low-dimensional latent space in the frequency domain. By reducing the parameter scale of a downsampled $n$-length input/output one-layer linear model from $O(n^2)$ to $O(n)$, MixLinear achieves efficient computation without sacrificing accuracy. Extensive evaluations with four benchmark datasets show that MixLinear attains forecasting performance comparable to, or surpassing, state-of-the-art models with significantly fewer parameters ($0.1K$), which makes it well-suited for deployment on devices with limited computational capacity.
翻訳日:2024-11-04 09:05:40 公開日:2024-10-02
# 肺サブタイプ分類のための多眼・量子機械学習統合

Multi-Omic and Quantum Machine Learning Integration for Lung Subtypes Classification ( http://arxiv.org/abs/2410.02085v1 )

ライセンス: Link先を確認
Mandeep Kaur Saggi, Amandeep Singh Bhatia, Mensah Isaiah, Humaira Gowher, Sabre Kais, (参考訳) 量子機械学習(Quantum Machine Learning, QML)は、新しい発見とエキサイティングな機会をもたらし、幅広い計算問題の解決、スピードアップ、分析を洗練するレッドホットな分野である。 バイオメディカル・リサーチとパーソナライズド・メディカル・メディカルの領域において、マルチオミクスの統合の意義は、複雑な生物学的システムの包括的で包括的な理解を提供する能力にある。 この技術は基礎研究と臨床実践を結びつける。 統合オミクスデータから得られた知見は、診断、予後、治療計画のための臨床ツールに変換することができる。 量子コンピューティングと機械学習の融合は、マルチオミクスデータセット内の複雑なパターンを解き放つことを約束している。 本論文の主な動機は, 肺扁平上皮癌 (LUSC-I) と肺腺癌 (LUAD-II) と肺扁平上皮癌 (LUSC-I) の鑑別, 肺腺癌 (LUAD-II) の統合である。 我々は,バイオマーカー発見の可能性を秘めたLUADデータセットとLUSCデータセットの最適な識別方法を開発した。

Quantum Machine Learning (QML) is a red-hot field that brings novel discoveries and exciting opportunities to resolve, speed up, or refine the analysis of a wide range of computational problems. In the realm of biomedical research and personalized medicine, the significance of multi-omics integration lies in its ability to provide a thorough and holistic comprehension of complex biological systems. This technology links fundamental research to clinical practice. The insights gained from integrated omics data can be translated into clinical tools for diagnosis, prognosis, and treatment planning. The fusion of quantum computing and machine learning holds promise for unraveling complex patterns within multi-omics datasets, providing unprecedented insights into the molecular landscape of lung cancer. Due to the heterogeneity, complexity, and high dimensionality of multi-omic cancer data, characterized by the vast number of features (such as gene expression, micro-RNA, and DNA methylation) relative to the limited number of lung cancer patient samples, our prime motivation for this paper is the integration of multi-omic data, unique feature selection, and diagnostic classification of lung subtypes: lung squamous cell carcinoma (LUSC-I) and lung adenocarcinoma (LUAD-II) using quantum machine learning. We developed a method for finding the best differentiating features between LUAD and LUSC datasets, which has the potential for biomarker discovery.
翻訳日:2024-11-04 08:55:37 公開日:2024-10-02
# Anchors Aweigh! 最適な統一マルチモーダル表現のためのセイル

Anchors Aweigh! Sail for Optimal Unified Multi-Modal Representations ( http://arxiv.org/abs/2410.02086v1 )

ライセンス: Link先を確認
Minoh Jeong, Min Namgung, Zae Myung Kim, Dongyeop Kang, Yao-Yi Chiang, Alfred Hero, (参考訳) マルチモーダル学習は、機械学習モデルがテキスト、画像、オーディオなどの多様なデータソースを融合して活用し、さまざまな下流タスクをサポートするために重要な役割を果たす。 様々なモダリティをまたいだ統一表現は、効率と性能を改善するために特に重要である。 ImageBind (Girdhar et al , 2023) のような最近のバインディング手法では、固定アンカーモダリティを用いてアンカーモダル埋め込み空間内のマルチモーダルデータを整列させるのが一般的である。 本稿では,固定されたアンカー結合法を数学的に解析し,(1)アンカーモダリティの選択に対する過度な依存,(2)モダリティ内情報の取得の失敗,(3)非アンカーモダリティ間のモーダル間相関の考慮の失敗など,顕著な制約を明らかにする。 これらの制限に対処するために、CentroBindを提案する。これは、固定アンカーの必要性を排除し、代わりに、利用可能なすべてのモダリティから動的に調整可能なセントロイドベースのアンカーを採用し、バランスよくリッチな表現空間をもたらす。 理論的には、本手法は、モーダル内学習、モーダル間学習、マルチモーダルアライメントの3つの重要な特性を捉えるとともに、すべてのモーダルをまたいだ堅牢な統一表現を構築する。 合成および実世界の両方のデータセットに対する実験により提案手法の優位性を実証し, 動的アンカー法が固定アンカー結合法よりも優れており, 前者がよりニュアンスなマルチモーダル相互作用を捉えていることを示す。

Multimodal learning plays a crucial role in enabling machine learning models to fuse and utilize diverse data sources, such as text, images, and audio, to support a variety of downstream tasks. A unified representation across various modalities is particularly important for improving efficiency and performance. Recent binding methods, such as ImageBind (Girdhar et al., 2023), typically use a fixed anchor modality to align multimodal data in the anchor modal embedding space. In this paper, we mathematically analyze the fixed anchor binding methods and uncover notable limitations: (1) over-reliance on the choice of the anchor modality, (2) failure to capture intra-modal information, and (3) failure to account for inter-modal correlation among non-anchored modalities. To address these limitations, we propose CentroBind, a simple yet powerful approach that eliminates the need for a fixed anchor; instead, it employs dynamically adjustable centroid-based anchors generated from all available modalities, resulting in a balanced and rich representation space. We theoretically demonstrate that our method captures three crucial properties of multimodal learning: intra-modal learning, inter-modal learning, and multimodal alignment, while also constructing a robust unified representation across all modalities. Our experiments on both synthetic and real-world datasets demonstrate the superiority of the proposed method, showing that dynamic anchor methods outperform all fixed anchor binding methods as the former captures more nuanced multimodal interactions.
翻訳日:2024-11-04 08:55:37 公開日:2024-10-02
# HyperBrain: 時間的ハイパーグラフ脳ネットワークの異常検出

HyperBrain: Anomaly Detection for Temporal Hypergraph Brain Networks ( http://arxiv.org/abs/2410.02087v1 )

ライセンス: Link先を確認
Sadaf Sadeghian, Xiaoxiao Li, Margo Seltzer, (参考訳) 異常な脳活動の同定は神経科学研究において重要な課題であり、脳疾患の早期発見に役立つ。 脳ネットワークをグラフとして表現することは一般的であり、研究者はそれらを解析するための様々なグラフベースの機械学習手法を開発した。 しかし、既存の脳のグラフ学習ツールのほとんどは、以下の3つの重要な制限の組合せに直面している。 まず、脳の領域間の一対の相関にのみ焦点をあて、大きな領域のグループ間で同期された活動を捉える能力を制限する。 第2に、彼らは脳ネットワークを静的ネットワークとしてモデル化し、脳の時間的変化を見渡す。 第3に、大部分は脳ネットワークを健康的または障害と分類するためにのみ設計されており、障害に関連するバイオマーカーに関連する異常な脳活動パターンを識別する能力がない。 これらの問題に対処するために、時間的ハイパーグラフ脳ネットワークのための教師なし異常検出フレームワークHyperBrainを提案する。 HyperBrainはfMRI時系列データを時間ハイパーグラフとしてモデル化し、動的高次相互作用をキャプチャする。 次に、新しいカスタマイズされた側頭歩行(BrainWalk)とニューラルエンコーディングを使用して、脳の領域間の異常なコアクティベーションを検出する。 自閉症スペクトラム障害と注意欠陥高活動障害(ADHD)の総合的および現実的設定におけるHyperBrainの性能評価を行った。 HyperBrainは、脳ネットワークにおける異常なコアクティベーションの検出において、他のすべてのベースラインよりも優れています。 さらに、HyperBrainから得られた結果は、これらの脳疾患に関する臨床研究と一致している。 以上の結果から,脳内の時間的・高次接続の学習は,脳ネットワークにおける複雑な接続パターンを明らかにする上で有望なアプローチであり,診断精度の向上をもたらすことが示唆された。

Identifying unusual brain activity is a crucial task in neuroscience research, as it aids in the early detection of brain disorders. It is common to represent brain networks as graphs, and researchers have developed various graph-based machine learning methods for analyzing them. However, the majority of existing graph learning tools for the brain face a combination of the following three key limitations. First, they focus only on pairwise correlations between regions of the brain, limiting their ability to capture synchronized activity among larger groups of regions. Second, they model the brain network as a static network, overlooking the temporal changes in the brain. Third, most are designed only for classifying brain networks as healthy or disordered, lacking the ability to identify abnormal brain activity patterns linked to biomarkers associated with disorders. To address these issues, we present HyperBrain, an unsupervised anomaly detection framework for temporal hypergraph brain networks. HyperBrain models fMRI time series data as temporal hypergraphs capturing dynamic higher-order interactions. It then uses a novel customized temporal walk (BrainWalk) and neural encodings to detect abnormal co-activations among brain regions. We evaluate the performance of HyperBrain in both synthetic and real-world settings for Autism Spectrum Disorder and Attention Deficit Hyperactivity Disorder(ADHD). HyperBrain outperforms all other baselines on detecting abnormal co-activations in brain networks. Furthermore, results obtained from HyperBrain are consistent with clinical research on these brain disorders. Our findings suggest that learning temporal and higher-order connections in the brain provides a promising approach to uncover intricate connectivity patterns in brain networks, offering improved diagnosis.
翻訳日:2024-11-04 08:55:37 公開日:2024-10-02
# キャビティアシストインタラクションによるユニバーサル論理量子フォトニックニューラルネットワークプロセッサ

Universal Logical Quantum Photonic Neural Network Processor via Cavity-Assisted Interactions ( http://arxiv.org/abs/2410.02088v1 )

ライセンス: Link先を確認
Jasvith Raj Basani, Murphy Yuezhen Niu, Edo Waks, (参考訳) ボソニックモードで量子情報を符号化することは、ハードウェア効率とフォールトトレラントな量子情報処理に有望な方向を提供する。 しかし、ネイティブフォトニックハードウェアを用いたボソニック自由度に対する高忠実度ユニバーサルコントロールの実現は依然として課題である。 本稿では、量子フォトニクスニューラルネットワークを用いて、任意の多モード多光子状態に対する論理量子演算の準備と実行を行うアーキテクチャを提案する。 我々のアプローチの中心は光学的非線形性であり、3レベルLambda原子系との強い光-物質相互作用によって実現される。 この相互作用のダイナミクスは単一モード部分空間に限られており、高忠実度量子ゲートの構築を可能にする。 この非線形性は光子数選択位相ゲートとして機能し、普遍ゲートセットの構築を容易にし、ニューラルネットワークアーキテクチャにおける要素ワイドアクティベーション機能として機能する。 数値シミュレーションにより、論理量子情報処理の鍵となるタスクを実行することで、我々のアプローチの汎用性を実証する。 このネットワークは、必須資源状態を含む幅広いマルチモード多光子状態を決定的に準備することができる。 また,このアーキテクチャはボソニックな誤り訂正符号上で論理演算を符号化し,実行可能であることを示す。 さらに、アーキテクチャのコンポーネントを適応させることで、ボソニックコードを保護するためにエラー訂正回路を構築することができる。 提案アーキテクチャは,誤差補正型量子計算が可能で,現在の集積フォトニックハードウェアで実現可能な,短期的な量子フォトニックプロセッサの道を開くものである。

Encoding quantum information within bosonic modes offers a promising direction for hardware-efficient and fault-tolerant quantum information processing. However, achieving high-fidelity universal control over the bosonic degree of freedom using native photonic hardware remains a challenge. Here, we propose an architecture to prepare and perform logical quantum operations on arbitrary multimode multi-photon states using a quantum photonic neural network. Central to our approach is the optical nonlinearity, which is realized through strong light-matter interaction with a three-level Lambda atomic system. The dynamics of this interaction are confined to the single-mode subspace, enabling the construction of high-fidelity quantum gates. This nonlinearity functions as a photon-number selective phase gate, which facilitates the construction of a universal gate set and serves as the element-wise activation function in our neural network architecture. Through numerical simulations, we demonstrate the versatility of our approach by executing tasks that are key to logical quantum information processing. The network is able to deterministically prepare a wide array of multimode multi-photon states, including essential resource states. We also show that the architecture is capable of encoding and performing logical operations on bosonic error-correcting codes. Additionally, by adapting components of our architecture, error-correcting circuits can be built to protect bosonic codes. The proposed architecture paves the way for near-term quantum photonic processors that enable error-corrected quantum computation, and can be achieved using present-day integrated photonic hardware.
翻訳日:2024-11-04 08:55:37 公開日:2024-10-02
# RLEF: 強化学習による実行フィードバックのための基盤コードLLM

RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning ( http://arxiv.org/abs/2410.02089v1 )

ライセンス: Link先を確認
Jonas Gehring, Kunhao Zheng, Jade Copet, Vegard Mella, Taco Cohen, Gabriel Synnaeve, (参考訳) エージェントとしてデプロイされる大規模言語モデル(LLM)は、必要な手動のエンゲージメントを最小限に抑えながら、複数のステップでユーザ指定タスクを解決する。 重要なことは、そのようなLLMは、望ましい結果を達成するために得られたフィードバックに世代を根ざす必要がある。 本稿では,コード合成の領域における実行フィードバックを活用するためのモデルのエンドツーエンド強化学習手法を提案する。 我々は競合プログラミングのタスクをベンチマークし、小さな(8Bパラメータ)と大きな(70B)の両方のモデルで新たな開始結果を得るとともに、桁違いに必要とされるサンプルの量を削減します。 提案手法は,複数のステップにまたがる自動フィードバックを効果的に活用するLLMを生成することを示す。

Large language models (LLMs) deployed as agents solve user-specified tasks over multiple steps while keeping the required manual engagement to a minimum. Crucially, such LLMs need to ground their generations in any feedback obtained to reliably achieve desired outcomes. We propose an end-to-end reinforcement learning method for teaching models to leverage execution feedback in the realm of code synthesis, where state-of-the-art LLMs struggle to improve code iteratively compared to independent sampling. We benchmark on competitive programming tasks, where we achieve new start-of-the art results with both small (8B parameters) and large (70B) models while reducing the amount of samples required by an order of magnitude. Our analysis of inference-time behavior demonstrates that our method produces LLMs that effectively leverage automatic feedback over multiple steps.
翻訳日:2024-11-04 08:55:37 公開日:2024-10-02
# オープンソースソフトウェア開発における生成AIの影響 - GitHub Copilotからの証拠

The Impact of Generative AI on Collaborative Open-Source Software Development: Evidence from GitHub Copilot ( http://arxiv.org/abs/2410.02091v1 )

ライセンス: Link先を確認
Fangchen Song, Ashish Agarwal, Wen Wen, (参考訳) 生成人工知能(AI)は、ソフトウェア開発におけるコーディングを含む自動コンテンツ生産の可能性を開放し、ソフトウェア開発者への参加とパフォーマンスに大きな影響を及ぼす可能性がある。 この影響を探るため、生成的なAIペアプログラマであるGitHub Copilotが、オープンソースコミュニティにおけるソフトウェア開発において、複数の開発者が自発的にソフトウェア開発に協力する役割について調査した。 GitHubのオープンソースリポジトリ用のデータセットと一般化された合成コントロールメソッドを使用して、Copilotはプロジェクトのレベル生産性を6.5%向上させる。 より深く掘り下げると、私たちはこの改善を導く重要なメカニズムを識別します。 その結果,個人の生産性は5.5%増加し,参加率も5.4%上昇した。 しかし、これは統合時間の41.6%が増加し、調整コストが高騰している可能性がある。 興味深いことに、開発者間の差分効果も観察する。 コア開発者は、Copilotを使用することで、プロジェクトレベルの生産性の向上を達成でき、ソフトウェアプロジェクトに精通しているため、周辺開発者に比べて、個々の生産性と参加の面で利益を得ることができます。 また、プロジェクトレベルの生産性向上にはコード品質の変更が伴わないこともわかりました。 結論として、AIペアプログラマは、コードの自動化と強化に開発者にメリットをもたらしますが、ソフトウェアプロジェクトに関する人間の開発者の知識は、そのメリットを高めることができます。 まとめると、我々の研究は、オープンソースコミュニティ内のプロジェクトレベルの生産性に影響を与えるAIペアプログラマの役割を強調し、オープンソースプロジェクトの構造に潜在的な影響を示唆している。

Generative artificial intelligence (AI) has opened the possibility of automated content production, including coding in software development, which can significantly influence the participation and performance of software developers. To explore this impact, we investigate the role of GitHub Copilot, a generative AI pair programmer, on software development in open-source community, where multiple developers voluntarily collaborate on software projects. Using GitHub's dataset for open-source repositories and a generalized synthetic control method, we find that Copilot significantly enhances project-level productivity by 6.5%. Delving deeper, we dissect the key mechanisms driving this improvement. Our findings reveal a 5.5% increase in individual productivity and a 5.4% increase in participation. However, this is accompanied with a 41.6% increase in integration time, potentially due to higher coordination costs. Interestingly, we also observe the differential effects among developers. We discover that core developers achieve greater project-level productivity gains from using Copilot, benefiting more in terms of individual productivity and participation compared to peripheral developers, plausibly due to their deeper familiarity with software projects. We also find that the increase in project-level productivity is accompanied with no change in code quality. We conclude that AI pair programmers bring benefits to developers to automate and augment their code, but human developers' knowledge of software projects can enhance the benefits. In summary, our research underscores the role of AI pair programmers in impacting project-level productivity within the open-source community and suggests potential implications for the structure of open-source software projects.
翻訳日:2024-11-04 08:55:37 公開日:2024-10-02
# ブラックボックス言語モデルのための透かし

A Watermark for Black-Box Language Models ( http://arxiv.org/abs/2410.02099v1 )

ライセンス: Link先を確認
Dara Bahri, John Wieting, Dana Alon, Donald Metzler, (参考訳) 近年,大規模言語モデル(LLM)の出力を検出する効果的な手法としてウォーターマーキングが登場している。 既存のほとんどのスキームでは、LLM APIの下流のユーザにはアクセスできない次世代の確率分布に 'emph{white-box} アクセスする必要がある。 本研究では, LLM からシーケンスをサンプリングする機能 (すなわち \emph{black-box} アクセス) のみを必要とする基本的透かし方式を提案する。 性能保証を提供し、ホワイトボックスアクセスが利用可能である場合にどのように活用できるかを実証し、包括的実験によって既存のホワイトボックススキームよりも優れていることを示す。

Watermarking has recently emerged as an effective strategy for detecting the outputs of large language models (LLMs). Most existing schemes require \emph{white-box} access to the model's next-token probability distribution, which is typically not accessible to downstream users of an LLM API. In this work, we propose a principled watermarking scheme that requires only the ability to sample sequences from the LLM (i.e. \emph{black-box} access), boasts a \emph{distortion-free} property, and can be chained or nested using multiple secret keys. We provide performance guarantees, demonstrate how it can be leveraged when white-box access is available, and show when it can outperform existing white-box schemes via comprehensive experiments.
翻訳日:2024-11-04 08:45:48 公開日:2024-10-02
# オリエントなもの

Orient Anything ( http://arxiv.org/abs/2410.02101v1 )

ライセンス: Link先を確認
Christopher Scarvelis, David Benhaim, Paul Zhang, (参考訳) 方向推定は3次元形状解析における基本的な課題であり、形状の方向軸(横軸、上軸、前軸)を推定する。 このデータを用いて、形状を正準向きに回転させ、その配向軸は座標軸と整列する。 一般形状の完全な配向を確実に推定する配向アルゴリズムの開発は、未解決の問題である。 本研究では,2段階の配向パイプラインを導入し,3つの配向軸すべてを求める全配向推定の有効性を実証する。 従来の作業とは異なり、クラスのサブセットではなく、すべてのShapenet上でメソッドをトレーニングし、評価します。 回転対称形状の配向推定に基本的障害を記述した理論により,我々の工学的貢献を動機付け,これらの障害を回避する方法を示す。

Orientation estimation is a fundamental task in 3D shape analysis which consists of estimating a shape's orientation axes: its side-, up-, and front-axes. Using this data, one can rotate a shape into canonical orientation, where its orientation axes are aligned with the coordinate axes. Developing an orientation algorithm that reliably estimates complete orientations of general shapes remains an open problem. We introduce a two-stage orientation pipeline that achieves state of the art performance on up-axis estimation and further demonstrate its efficacy on full-orientation estimation, where one seeks all three orientation axes. Unlike previous work, we train and evaluate our method on all of Shapenet rather than a subset of classes. We motivate our engineering contributions by theory describing fundamental obstacles to orientation estimation for rotationally-symmetric shapes, and show how our method avoids these obstacles.
翻訳日:2024-11-04 08:45:48 公開日:2024-10-02
# Racing Thoughts: 大規模言語モデルのコンテキスト化エラーを説明する

Racing Thoughts: Explaining Large Language Model Contextualization Errors ( http://arxiv.org/abs/2410.02102v1 )

ライセンス: Link先を確認
Michael A. Lepori, Michael Mozer, Asma Ghandeharioun, (参考訳) トランスフォーマーベースの言語モデルの大きな成功は、応答の生成やタスクの完了のために、入力シーケンスから関連するコンテキスト情報を統合できることに起因する。 しかし、モデルがこの機能を実装するために採用するアルゴリズムについてはほとんど分かっていないし、それらの障害モードも理解していない。 例えば、「ジョンは釣りに行くので、彼は銀行に歩いて行きます。ATM取引をできますか?」というプロンプトがあると、金融機関ではなく地理的特徴として「銀行」を適切に文脈化していない場合、モデルは誤って「Yes」に応答します。 本稿では,この形態の文脈化誤差を説明するために,LLMレース条件仮説を提案する。 この仮説はトークン間の依存関係(例えば、"bank"は最終トークンの前に適切にコンテキスト化されなければならない)を特定し、"bank"からの情報を統合する。 機械的不可解性から様々な手法を用いて、仮説を支持する相関的および因果的証拠を提供し、それに対処するための推論時間的介入を提案する。

The profound success of transformer-based language models can largely be attributed to their ability to integrate relevant contextual information from an input sequence in order to generate a response or complete a task. However, we know very little about the algorithms that a model employs to implement this capability, nor do we understand their failure modes. For example, given the prompt "John is going fishing, so he walks over to the bank. Can he make an ATM transaction?", a model may incorrectly respond "Yes" if it has not properly contextualized "bank" as a geographical feature, rather than a financial institution. We propose the LLM Race Conditions Hypothesis as an explanation of contextualization errors of this form. This hypothesis identifies dependencies between tokens (e.g., "bank" must be properly contextualized before the final token, "?", integrates information from "bank"), and claims that contextualization errors are a result of violating these dependencies. Using a variety of techniques from mechanistic intepretability, we provide correlational and causal evidence in support of the hypothesis, and suggest inference-time interventions to address it.
翻訳日:2024-11-04 08:45:48 公開日:2024-10-02
# MVGS:新しいビュー合成のための多視点制御ガウス平滑化

MVGS: Multi-view-regulated Gaussian Splatting for Novel View Synthesis ( http://arxiv.org/abs/2410.02103v1 )

ライセンス: Link先を確認
Xiaobiao Du, Yida Wang, Xin Yu, (参考訳) 近年のボリュームレンダリング, \textit{e g } NeRF と 3D Gaussian Splatting (3DGS) の研究は、学習された暗黙的神経放射場や3D Gaussian の助けを借りて、レンダリング品質と効率を大幅に向上させた。 明示的な表現の上にレンダリングすることで、バニラ3DGSとその変種は、NeRFから採用されているトレーニング中に、反復ごとに単一ビューの監督でパラメトリックモデルを最適化することで、リアルタイムの効率を提供する。 その結果、いくつかのビューは過度に適合し、新規なビュー合成と不正確な3Dジオメトリで不満足な外観となる。 上記の問題を解決するために,4つの重要な貢献を具現化した新しい3DGS最適化手法を提案する。 1) 従来のシングルビュートレーニングパラダイムをマルチビュートレーニング戦略に変換する。 提案したマルチビューレギュレーションでは、特定のトレーニングビューを過度に適合させることなく、3Dガウス属性をさらに最適化する。 一般解として、様々なシナリオと異なるガウス多様体の全体的な精度を改善する。 2)追加の視点によってもたらされた利益に触発されて,我々はさらに,異なる解決方法に関する粗大な訓練手順を導出する,内在的な指導スキームを提案する。 3) マルチビュー規制トレーニングの上に構築されたクロスレイデシフィケーション戦略により, 複数視点からの視線干渉領域のガウス核の密度を増大させる。 4) デンシフィケーション戦略のさらなる検討により, 特定の視点が劇的に異なる場合には, デンシフィケーションの効果を高めることが確認された。 そこで本研究では,3次元ガウシアンに対して十分な数の密度化を奨励し,再現精度を向上する,新しい多面的拡張密度化戦略を提案する。

Recent works in volume rendering, \textit{e.g.} NeRF and 3D Gaussian Splatting (3DGS), significantly advance the rendering quality and efficiency with the help of the learned implicit neural radiance field or 3D Gaussians. Rendering on top of an explicit representation, the vanilla 3DGS and its variants deliver real-time efficiency by optimizing the parametric model with single-view supervision per iteration during training which is adopted from NeRF. Consequently, certain views are overfitted, leading to unsatisfying appearance in novel-view synthesis and imprecise 3D geometries. To solve aforementioned problems, we propose a new 3DGS optimization method embodying four key novel contributions: 1) We transform the conventional single-view training paradigm into a multi-view training strategy. With our proposed multi-view regulation, 3D Gaussian attributes are further optimized without overfitting certain training views. As a general solution, we improve the overall accuracy in a variety of scenarios and different Gaussian variants. 2) Inspired by the benefit introduced by additional views, we further propose a cross-intrinsic guidance scheme, leading to a coarse-to-fine training procedure concerning different resolutions. 3) Built on top of our multi-view regulated training, we further propose a cross-ray densification strategy, densifying more Gaussian kernels in the ray-intersect regions from a selection of views. 4) By further investigating the densification strategy, we found that the effect of densification should be enhanced when certain views are distinct dramatically. As a solution, we propose a novel multi-view augmented densification strategy, where 3D Gaussians are encouraged to get densified to a sufficient number accordingly, resulting in improved reconstruction accuracy.
翻訳日:2024-11-04 08:45:48 公開日:2024-10-02
# FlipAttack:Jailbreak LLMs via Flipping

FlipAttack: Jailbreak LLMs via Flipping ( http://arxiv.org/abs/2410.02832v1 )

ライセンス: Link先を確認
Yue Liu, Xiaoxin He, Miao Xiong, Jinlan Fu, Shumin Deng, Bryan Hooi, (参考訳) 本稿では,ブラックボックスLSMに対するFlipAttackという単純なジェイルブレイク攻撃を提案する。 まず、自己回帰的な性質から、LLMは左から右へテキストを理解する傾向にあり、ノイズが左に付加されたときにテキストを理解するのに苦労していることが明らかになった。 これらの知見に感化されて、我々はプロンプト自体に基づいて左側のノイズを合成し、これを4つのフリップモードに一般化することで有害なプロンプトを偽装することを提案する。 第2に,LLMがテキストフリッピングタスクを行う上での強い能力を検証するとともに,LLMを識別し,理解し,かつ有害な振る舞いを正確に実行するための4つの変種を開発する。 これらの設計はFlipAttackを普遍的でステルス的でシンプルに保ち、単一のクエリでブラックボックスのLSMをジェイルブレイクすることができる。 8LLM実験はFlipAttackの優位性を実証した。 GPT-4oでの攻撃成功率は$\sim$98\%、平均5つのガードレールモデルに対する$\sim$98\%バイパスレートは$\sim$98\%である。 コードはGitHub\footnote{https://github.com/yueliu 1999/FlipAttack}で公開されている。

This paper proposes a simple yet effective jailbreak attack named FlipAttack against black-box LLMs. First, from the autoregressive nature, we reveal that LLMs tend to understand the text from left to right and find that they struggle to comprehend the text when noise is added to the left side. Motivated by these insights, we propose to disguise the harmful prompt by constructing left-side noise merely based on the prompt itself, then generalize this idea to 4 flipping modes. Second, we verify the strong ability of LLMs to perform the text-flipping task, and then develop 4 variants to guide LLMs to denoise, understand, and execute harmful behaviors accurately. These designs keep FlipAttack universal, stealthy, and simple, allowing it to jailbreak black-box LLMs within only 1 query. Experiments on 8 LLMs demonstrate the superiority of FlipAttack. Remarkably, it achieves $\sim$98\% attack success rate on GPT-4o, and $\sim$98\% bypass rate against 5 guardrail models on average. The codes are available at GitHub\footnote{https://github.com/yueliu1999/FlipAttack}.
翻訳日:2024-11-03 05:24:53 公開日:2024-10-02
# MLEはLGCに最適である

The MLE is minimax optimal for LGC ( http://arxiv.org/abs/2410.02835v1 )

ライセンス: Link先を確認
Doron Cohen, Aryeh Kontorovich, Roi Weiss, (参考訳) 我々は最近導入されたローカルGlivenko-Cantelliセッティングを再考し、このセッティングは分布依存的一様対流速度(Maximum Likelihood Estimator, MLE)を研究する。 本研究では、任意の推定器が MLE だけでなく MLE も許容されるような設定の一般化について検討する。 厳格に大きな尺度が学べるだろうか? よりリスクの高い崩壊率が得られるか? 学習者が無限次元の病理を悪用することを禁じられるならば、どちらも否定的である。 一方で、このようなエクスプロイトを可能にすることは、学習可能な尺度の厳格なクラスに繋がる。

We revisit the recently introduced Local Glivenko-Cantelli setting, which studies distribution-dependent uniform convegence rates of the Maximum Likelihood Estimator (MLE). In this work, we investigate generalizations of this setting where arbitrary estimators are allowed rather than just the MLE. Can a strictly larger class of measures be learned? Can better risk decay rates be obtained? We provide exhaustive answers to these questions -- which are both negative, provided the learner is barred from exploiting some infinite-dimensional pathologies. On the other hand, allowing such exploits does lead to a strictly larger class of learnable measures.
翻訳日:2024-11-03 05:24:53 公開日:2024-10-02
# 音声認識のための効率的なストリーミングLLM

Efficient Streaming LLM for Speech Recognition ( http://arxiv.org/abs/2410.03752v1 )

ライセンス: Link先を確認
Junteng Jia, Gil Keren, Wei Zhou, Egor Lakomkin, Xiaohui Zhang, Chunyang Wu, Frank Seide, Jay Mahadeokar, Ozlem Kalinli, (参考訳) 近年の研究では、大きな言語モデルに音声符号化を施すことで、音声認識能力を解き放つことが示されている。 しかし、既存のテクニックは、特に長い形式のストリーミングオーディオ入力を扱う場合、効率的にスケールしない -- トレーニング中に見られるオーディオ長をはるかに超過するだけでなく、注意の二次的なコストのために計算的に非効率である。 本研究では,ストリーミング音声認識のための線形スケーリングデコーダモデルであるSpeechLLM-XLを提案する。 制限されたアテンションウィンドウを用いて構成可能なチャンクで音声を処理し、EOSが予測されるまで、各チャンクのテキストトークンを自動回帰的に生成する。 トレーニング中は、エンコーダ出力から推定されるCTC強制アライメントを使用して、トランスクリプトをチャンクに分割する。 1.28秒のチャンクサイズを持つSpeechLLM-XLは、LibriSpeechテストで2.7%/6.7%のWERを達成する。

Recent works have shown that prompting large language models with audio encodings can unlock speech recognition capabilities. However, existing techniques do not scale efficiently, especially while handling long form streaming audio inputs -- not only do they extrapolate poorly beyond the audio length seen during training, but they are also computationally inefficient due to the quadratic cost of attention. In this work, we introduce SpeechLLM-XL, a linear scaling decoder-only model for streaming speech recognition. We process audios in configurable chunks using limited attention window for reduced computation, and the text tokens for each audio chunk are generated auto-regressively until an EOS is predicted. During training, the transcript is segmented into chunks, using a CTC forced alignment estimated from encoder output. SpeechLLM-XL with 1.28 seconds chunk size achieves 2.7%/6.7% WER on LibriSpeech test clean/other, and it shows no quality degradation on long form utterances 10x longer than the training utterances.
翻訳日:2024-11-02 16:40:48 公開日:2024-10-02
# 派生特徴アソシエーションを用いたQAシステムにおける検索の強化

Enhancing Retrieval in QA Systems with Derived Feature Association ( http://arxiv.org/abs/2410.03754v1 )

ライセンス: Link先を確認
Keyush Shah, Abhishek Goyal, Isaac Wasserman, (参考訳) Retrieval augmented generation (RAG) は、長い文脈質問応答(QA)システムにおいて標準となっている。 しかしながら、RAGの典型的な実装は、クエリと最もよく似た埋め込みを持つテキストを最も関連性が高いとみなす、比較的単純な検索機構に依存している。 主観的なQAタスクでは、最も関連性の高いテキストが直接答えを含まない可能性がある。 本稿では,AI派生文書(RAIDD)からレトリーバル(Retrieval)と呼ばれるRAGシステムの拡張を提案する。 RAIDDは、要約や例題などの推測された特徴を、摂取中の文書から導き出すことによって、検索プロセスにおけるLLMのフルパワーを活用する。 本稿では,長文QAタスクにおけるRAGシステムの性能を大幅に向上させることを実証する。

Retrieval augmented generation (RAG) has become the standard in long context question answering (QA) systems. However, typical implementations of RAG rely on a rather naive retrieval mechanism, in which texts whose embeddings are most similar to that of the query are deemed most relevant. This has consequences in subjective QA tasks, where the most relevant text may not directly contain the answer. In this work, we propose a novel extension to RAG systems, which we call Retrieval from AI Derived Documents (RAIDD). RAIDD leverages the full power of the LLM in the retrieval process by deriving inferred features, such as summaries and example questions, from the documents at ingest. We demonstrate that this approach significantly improves the performance of RAG systems on long-context QA tasks.
翻訳日:2024-11-02 16:40:48 公開日:2024-10-02
# 共同組み込み予測アーキテクチャによるDenoising

Denoising with a Joint-Embedding Predictive Architecture ( http://arxiv.org/abs/2410.03755v1 )

ライセンス: Link先を確認
Dengsheng Chen, Jie Hu, Xiaoming Wei, Enhua Wu, (参考訳) JEPA(Joint-embedding predictive Architectures)は、自己教師付き表現学習において大きな可能性を秘めている。 逆に拡散モデルは任意の確率分布をモデル化する上で有意な効果を示した。 本稿では,JEPAをジェネレーティブ・モデリングに統合したD-JEPA(Joint-Embedding Predictive Architecture)について紹介する。 本稿では,JEPAをマスク画像モデリングの一形態として認識することにより,これを一般化した次世代予測戦略として再解釈し,自動回帰的なデータ生成を容易にする。 さらに,拡散損失を考慮した確率分布のモデル化を行い,連続空間におけるデータ生成を可能にする。 また,拡散損失の代替としてフローマッチング損失を適用し,D-JEPAの柔軟性を向上させる。 実証的には、GFLOPの増加に伴い、D-JEPAはトレーニングエポックの少ない低いFIDスコアを一貫して達成し、優れたスケーラビリティを示している。 私たちのベース、大規模、巨大なモデルは、クラス条件のImageNetベンチマークにおいて、あらゆるスケールで以前の生成モデルよりも優れています。 画像生成以外にも、D-JEPAはビデオやオーディオを含む他の連続データモデリングにも適している。

Joint-embedding predictive architectures (JEPAs) have shown substantial promise in self-supervised representation learning, yet their application in generative modeling remains underexplored. Conversely, diffusion models have demonstrated significant efficacy in modeling arbitrary probability distributions. In this paper, we introduce Denoising with a Joint-Embedding Predictive Architecture (D-JEPA), pioneering the integration of JEPA within generative modeling. By recognizing JEPA as a form of masked image modeling, we reinterpret it as a generalized next-token prediction strategy, facilitating data generation in an auto-regressive manner. Furthermore, we incorporate diffusion loss to model the per-token probability distribution, enabling data generation in a continuous space. We also adapt flow matching loss as an alternative to diffusion loss, thereby enhancing the flexibility of D-JEPA. Empirically, with increased GFLOPs, D-JEPA consistently achieves lower FID scores with fewer training epochs, indicating its good scalability. Our base, large, and huge models outperform all previous generative models across all scales on class-conditional ImageNet benchmarks. Beyond image generation, D-JEPA is well-suited for other continuous data modeling, including video and audio.
翻訳日:2024-11-02 16:40:48 公開日:2024-10-02
# 環境保全のための建物におけるエネルギー・エミッション最適化のための強化学習エージェントのオフライン研修のための実世界データと校正シミュレーションスイート

Real-World Data and Calibrated Simulation Suite for Offline Training of Reinforcement Learning Agents to Optimize Energy and Emission in Buildings for Environmental Sustainability ( http://arxiv.org/abs/2410.03756v1 )

ライセンス: Link先を確認
Judah Goldfeder, John Sipple, (参考訳) 米国エネルギー情報局(EIA)によると、商業用オフィスビルは米国の二酸化炭素排出量の17%を占めており、その効率を改善して環境負荷と運用コストを削減している。 これらの建物におけるエネルギー消費の主な貢献は、暖房、換気、空調(HVAC)装置である。 HVACデバイスはビルや外部の気象条件と複雑で相互接続した熱力学システムを形成しており、現在のセグポイント制御ポリシーはエネルギー使用量や二酸化炭素排出量を最小限に抑えるために完全に最適化されていない。 適切なトレーニング環境が与えられると、強化学習(RL)エージェントはこれらのポリシーを改善することができるが、そのようなモデル、特に数千の建物にスケールする方法で訓練することは、多くの実践的な課題を提示している。 この重要なタスクにRLを適用するための既存の作業は、プロプライエタリなデータを利用するか、あるいは現実世界にない高価なプロプライエタリなシミュレーションに焦点を当てている。 本稿では,実際のオフィスビルにおけるデバイスのライブセンサ計測から抽出した,初のオープンソースのインタラクティブなHVAC制御データセットであるSmart Buildings Control Suiteを紹介する。 データセットは、オフラインのRLのための3つの建物からの6年間の実世界の歴史的データと、オンラインとモデルベースのRLのための履歴データを使用して調整された各建物のための軽量なインタラクティブシミュレータの2つのコンポーネントで構成されている。 使いやすくするために、私たちのRL環境は、すべてOpenAIのジム環境標準と互換性があります。 また,シミュレータの校正方法,シミュレータ上でのRLエージェントのトレーニング,実世界のデータの予測,データから直接RLエージェントのトレーニングのベースライン結果を示す。 このベンチマークは、建築最適化と環境サステナビリティ研究の進展と協力を加速するものと考えています。

Commercial office buildings contribute 17 percent of Carbon Emissions in the US, according to the US Energy Information Administration (EIA), and improving their efficiency will reduce their environmental burden and operating cost. A major contributor of energy consumption in these buildings are the Heating, Ventilation, and Air Conditioning (HVAC) devices. HVAC devices form a complex and interconnected thermodynamic system with the building and outside weather conditions, and current setpoint control policies are not fully optimized for minimizing energy use and carbon emission. Given a suitable training environment, a Reinforcement Learning (RL) agent is able to improve upon these policies, but training such a model, especially in a way that scales to thousands of buildings, presents many practical challenges. Most existing work on applying RL to this important task either makes use of proprietary data, or focuses on expensive and proprietary simulations that may not be grounded in the real world. We present the Smart Buildings Control Suite, the first open source interactive HVAC control dataset extracted from live sensor measurements of devices in real office buildings. The dataset consists of two components: six years of real-world historical data from three buildings, for offline RL, and a lightweight interactive simulator for each of these buildings, calibrated using the historical data, for online and model-based RL. For ease of use, our RL environments are all compatible with the OpenAI gym environment standard. We also demonstrate a novel method of calibrating the simulator, as well as baseline results on training an RL agent on the simulator, predicting real-world data, and training an RL agent directly from data. We believe this benchmark will accelerate progress and collaboration on building optimization and environmental sustainability research.
翻訳日:2024-11-02 16:40:48 公開日:2024-10-02
# ステップを減らしたSAGAアルゴリズムについて

On the SAGA algorithm with decreasing step ( http://arxiv.org/abs/2410.03760v1 )

ライセンス: Link先を確認
Luis Fredes, Bernard Bercu, Eméric Gbaguidi, (参考訳) 確率最適化は、機械学習を含む多くのアプリケーション領域に自然に現れる。 我々の目標は、Stochastic Average Gradient Accelerated (SAGA)アルゴリズムの分析をさらに進めることです。 そこで我々は,Stochastic Gradient Descent(\lambda=0$)とSAGAアルゴリズム(\lambda=1$)を補間する新しい$\lambda$-SAGAアルゴリズムを導入する。 第一に、目的関数に付随する制限的な強い凸性やリプシッツ勾配仮説を避けることができるステップを減らして、この新しいアルゴリズムのほぼ確実な収束について検討する。 次に、$\lambda$-SAGAアルゴリズムの中央極限定理を確立する。 最後に、非漸近的な$\mathbb{L}^p$収束率を与える。

Stochastic optimization naturally appear in many application areas, including machine learning. Our goal is to go further in the analysis of the Stochastic Average Gradient Accelerated (SAGA) algorithm. To achieve this, we introduce a new $\lambda$-SAGA algorithm which interpolates between the Stochastic Gradient Descent ($\lambda=0$) and the SAGA algorithm ($\lambda=1$). Firstly, we investigate the almost sure convergence of this new algorithm with decreasing step which allows us to avoid the restrictive strong convexity and Lipschitz gradient hypotheses associated to the objective function. Secondly, we establish a central limit theorem for the $\lambda$-SAGA algorithm. Finally, we provide the non-asymptotic $\mathbb{L}^p$ rates of convergence.
翻訳日:2024-11-02 16:40:48 公開日:2024-10-02
# HiReview: 階層型分類駆動型自動文献レビュー生成

HiReview: Hierarchical Taxonomy-Driven Automatic Literature Review Generation ( http://arxiv.org/abs/2410.03761v1 )

ライセンス: Link先を確認
Yuntong Hu, Zhuofeng Li, Zheng Zhang, Chen Ling, Raasikh Kanjiani, Boxin Zhao, Liang Zhao, (参考訳) 本稿では,階層型分類による自動文献レビュー生成のための新しいフレームワークであるHiReviewを紹介する。 学術文献の指数的な増加に伴い、手作業による文献レビューは労働集約的かつ時間を要するものとなり、従来の要約モデルは包括的な文書レビューを効果的に生成するのに苦労している。 大きな言語モデル(LLM)とその強力なテキスト処理能力は潜在的な解決策を提供するが、自動文書生成にLLMを組み込む研究は限られている。 大規模自動文献レビュー生成(LRG)における課題に対処するため,グラフに基づく階層的クラスタリングと検索拡張LDMを組み合わせた2段階の分類・理論生成手法を提案する。 まず、引用ネットワーク内で最も関連性の高いサブコミュニティを検索し、テキストの内容と引用の関係の両方に基づいて論文をクラスタリングすることで階層的な分類木を生成する。 第2段階では、LCMは、各階層レベルでクラスタやトピックの一貫性と文脈的に正確な要約を生成し、文献の包括的カバレッジと論理的構成を保証する。 総合的な実験により、HiReviewは、自動文献レビュー生成タスクにおいて、優れた階層的組織、コンテンツ関連性、事実的正確性を達成し、最先端の手法を著しく上回ることを示した。

In this work, we present HiReview, a novel framework for hierarchical taxonomy-driven automatic literature review generation. With the exponential growth of academic documents, manual literature reviews have become increasingly labor-intensive and time-consuming, while traditional summarization models struggle to generate comprehensive document reviews effectively. Large language models (LLMs), with their powerful text processing capabilities, offer a potential solution; however, research on incorporating LLMs for automatic document generation remains limited. To address key challenges in large-scale automatic literature review generation (LRG), we propose a two-stage taxonomy-then-generation approach that combines graph-based hierarchical clustering with retrieval-augmented LLMs. First, we retrieve the most relevant sub-community within the citation network, then generate a hierarchical taxonomy tree by clustering papers based on both textual content and citation relationships. In the second stage, an LLM generates coherent and contextually accurate summaries for clusters or topics at each hierarchical level, ensuring comprehensive coverage and logical organization of the literature. Extensive experiments demonstrate that HiReview significantly outperforms state-of-the-art methods, achieving superior hierarchical organization, content relevance, and factual accuracy in automatic literature review generation tasks.
翻訳日:2024-11-02 16:40:48 公開日:2024-10-02
# ドアに入る: 大規模言語モデルによる民事訴訟サービスの取扱いの合理化

Getting in the Door: Streamlining Intake in Civil Legal Services with Large Language Models ( http://arxiv.org/abs/2410.03762v1 )

ライセンス: Link先を確認
Quinten Steenhuis, Hannes Westermann, (参考訳) 無料の法的援助プログラムの援助を受ける資格があるかどうかを判断する手続きである法的な摂取は、かなりの時間と資源を要する。 これは、認定基準がニュアンス化され、オープンテクスチャが確保され、認可の開始と終了が頻繁に行われるためである。 本稿では,この負担を軽減するため,大規模言語モデル (LLM) の使用について検討する。 本稿では,論理ルールとLLMを組み合わせたディジタル取り込みプラットフォームについて述べる。 このアプローチの有望な結果は、最良のモデルがF1スコアの.82に到達し、偽陰性を最小化しながら、正義のギャップを埋めることに役立つ。

Legal intake, the process of finding out if an applicant is eligible for help from a free legal aid program, takes significant time and resources. In part this is because eligibility criteria are nuanced, open-textured, and require frequent revision as grants start and end. In this paper, we investigate the use of large language models (LLMs) to reduce this burden. We describe a digital intake platform that combines logical rules with LLMs to offer eligibility recommendations, and we evaluate the ability of 8 different LLMs to perform this task. We find promising results for this approach to help close the access to justice gap, with the best model reaching an F1 score of .82, while minimizing false negatives.
翻訳日:2024-11-02 16:40:48 公開日:2024-10-02
# 平和を表す言葉

Words that Represent Peace ( http://arxiv.org/abs/2410.03764v1 )

ライセンス: Link先を確認
T. Prasad, L. S. Liebovitch, M. Wild, H. West, P. T. Coleman, (参考訳) 私たちはLexisNexisのデータを使って、各国をより高いか低い平和に分類するニュースメディアの言葉を判断しました。 我々は、より高い平和ニュースは、財政、日々の行動、健康のテーマによって特徴づけられ、低い平和ニュースは、政治、政府、法的問題のテーマによって特徴づけられることを発見した。 この研究は、平和のレベルを測り、それらの言葉の下にある社会的過程を特定するための出発点を提供する。

We used data from LexisNexis to determine the words in news media that best classifies countries as higher or lower peace. We found that higher peace news is characterized by themes of finance, daily actitivities, and health and that lower peace news is characterized by themes of politics, government, and legal issues. This work provides a starting point to measure levels of peace and identify the social processes that underly those words.
翻訳日:2024-11-02 16:30:33 公開日:2024-10-02
# Basis Sharing: 大規模言語モデル圧縮のためのクロス層パラメータ共有

Basis Sharing: Cross-Layer Parameter Sharing for Large Language Model Compression ( http://arxiv.org/abs/2410.03765v1 )

ライセンス: Link先を確認
Jingcun Wang, Yu-Guang Chen, Ing-Chao Lin, Bing Li, Grace Li Zhang, (参考訳) 大きな言語モデル(LLM)は驚くべきブレークスルーを達成した。 しかし、LLMの膨大な数のパラメータは、推論においてかなりの量のメモリストレージを必要とするため、多くのアプリケーションにおいて実際のデプロイを妨げている。 LLMの記憶容量を削減するため、特異値分解(SVD)はLLMを圧縮するための近似重み行列に対する有望な解を提供する。 本稿では,LLMのより効率的な圧縮を実現するために,SVDを用いて異なる層にまたがるパラメータ共有について検討する。 具体的には、異なる層における重み行列を分解し、共有基底ベクトルの集合と一意係数の線形結合として表現する。 LLMを圧縮して性能を維持する際に, 重量行列の種類とベースシェアリングのための層選択について検討した。 総合的な実験により、Basis Sharingは、特に大きな圧縮比の下で、最先端のSVDベースの圧縮アプローチとパラメータ共有技術より優れていることが示された。 https://github.com/TUDa-HWAI/Basis_Sharing

Large Language Models (LLMs) have achieved remarkable breakthroughs. However, the huge number of parameters in LLMs require significant amount of memory storage in inference, which prevents their practical deployment in many applications. To reduce memory storage of LLMs, singular value decomposition (SVD) provides a promising solution to approximate weight matrices for compressing LLMs. In this paper, we take a step further to explore parameter sharing across different layers with SVD to achieve more effective compression for LLMs. Specifically, weight matrices in different layers are decomposed and represented as a linear combination of a set of shared basis vectors and unique coefficients. The types of weight matrices and the layer selection for basis sharing are examined when compressing LLMs to maintain the performance. Comprehensive experiments demonstrate that Basis Sharing outperforms state-of-the-art SVD-based compression approaches and parameter sharing techniques, especially under large compression ratios. Code is available at: https://github.com/TUDa-HWAI/Basis_Sharing
翻訳日:2024-11-02 16:30:33 公開日:2024-10-02
# 対実的フィードバックによる言語モデルにおける推論的励振

Reasoning Elicitation in Language Models via Counterfactual Feedback ( http://arxiv.org/abs/2410.03767v1 )

ライセンス: Link先を確認
Alihan Hüyük, Xinnuo Xu, Jacqueline Maasch, Aditya V. Nori, Javier González, (参考訳) 言語モデルの有効性の高まりにもかかわらず、その推論能力は未発達のままである。 特に、反実的質問応答による因果推論は欠如している。 この仕事は、このギャップを埋めることを目的としています。 まず、従来の事実のみに基づくメトリクスよりも、言語モデルの推論能力の完全なビューを捉えることで、事実と反事実の質問の正確さのバランスをとる新しいメトリクスを導出します。 第2に,提案手法を用いて,より優れた推論機構を実現するための微調整手法を提案する。 最後に,細調整言語モデルの性能を,様々なシナリオで評価する。 特に,我々の微調整アプローチが,帰納的推論能力や帰納的推論能力を必要とするいくつかの問題において,ベースモデルに対するより優れた一般化を実現するかを検討する。

Despite the increasing effectiveness of language models, their reasoning capabilities remain underdeveloped. In particular, causal reasoning through counterfactual question answering is lacking. This work aims to bridge this gap. We first derive novel metrics that balance accuracy in factual and counterfactual questions, capturing a more complete view of the reasoning abilities of language models than traditional factual-only based metrics. Second, we propose several fine-tuning approaches that aim to elicit better reasoning mechanisms, in the sense of the proposed metrics. Finally, we evaluate the performance of the fine-tuned language models in a variety of realistic scenarios. In particular, we investigate to what extent our fine-tuning approaches systemically achieve better generalization with respect to the base models in several problems that require, among others, inductive and deductive reasoning capabilities.
翻訳日:2024-11-02 16:30:33 公開日:2024-10-02
# 平文に隠された電顕衝突の創発と軽減

Hidden in Plain Text: Emergence & Mitigation of Steganographic Collusion in LLMs ( http://arxiv.org/abs/2410.03768v1 )

ライセンス: Link先を確認
Yohan Mathew, Ollie Matthews, Robert McCarthy, Joan Velja, Christian Schroeder de Witt, Dylan Cope, Nandi Schoots, (参考訳) フロンティアモデルエージェントの急激な増殖は、社会的な進歩を約束する一方で、安全でない相互作用から生じるシステム的リスクへの懸念も引き起こす。 他者の不利に対するコラボレーションは、望ましくないエージェント協力の中心的な形態として認識されている。 エージェント通信における情報隠蔽(ステガノグラフィー)の使用は、衝突を事実上検出できないものにする可能性がある。 このことは、ステガノグラフィーの共謀能力を監視・緩和するための評価フレームワークの必要性を浮き彫りにする。 本稿は, LLMにおける強靭なステガノグラフィーの衝突が, 最適化圧力から間接的に起こることを初めて示すことによって, 文献の重大なギャップに対処する。 そこで本研究では,高度言語テキストステガノグラフィーを確実に導入するための2つの手法,GBRL法とICRL法を設計した。 重要なこととして、緊急ステガノグラフィーの衝突は、モデル出力の受動的ステガナティックな監視と、通信パラフレーズによるアクティブな緩和の両方に頑健であることが判明した。 我々は,新しいモデル評価フレームワークを提供し,限界と今後の課題について議論する。 本研究は, ステガノグラフィーによる再デプロイ後の効果的なリスク軽減には, 受動的かつアクティブな監視手法の革新が必要であることを示唆する。

The rapid proliferation of frontier model agents promises significant societal advances but also raises concerns about systemic risks arising from unsafe interactions. Collusion to the disadvantage of others has been identified as a central form of undesirable agent cooperation. The use of information hiding (steganography) in agent communications could render collusion practically undetectable. This underscores the need for evaluation frameworks to monitor and mitigate steganographic collusion capabilities. We address a crucial gap in the literature by demonstrating, for the first time, that robust steganographic collusion in LLMs can arise indirectly from optimization pressure. To investigate this problem we design two approaches -- a gradient-based reinforcement learning (GBRL) method and an in-context reinforcement learning (ICRL) method -- for reliably eliciting sophisticated LLM-generated linguistic text steganography. Importantly, we find that emergent steganographic collusion can be robust to both passive steganalytic oversight of model outputs and active mitigation through communication paraphrasing. We contribute a novel model evaluation framework and discuss limitations and future work. Our findings imply that effective risk mitigation from steganographic collusion post-deployment requires innovation in passive and active oversight techniques.
翻訳日:2024-11-02 16:30:33 公開日:2024-10-02
# SciSafeEval: 科学的タスクにおける大規模言語モデルの安全性アライメントのための総合ベンチマーク

SciSafeEval: A Comprehensive Benchmark for Safety Alignment of Large Language Models in Scientific Tasks ( http://arxiv.org/abs/2410.03769v1 )

ライセンス: Link先を確認
Tianhao Li, Jingyu Lu, Chuangxin Chu, Tianyu Zeng, Yujia Zheng, Mei Li, Haotian Huang, Bin Wu, Zuoxian Liu, Kai Ma, Xuejing Yuan, Xingkai Wang, Keyan Ding, Huajun Chen, Qiang Zhang, (参考訳) 大規模言語モデル(LLM)は、生物学、化学、医学、物理学など、様々な分野の科学的なタスクに変化をもたらした。 しかしながら、これらのモデルの科学的研究における安全性の確保は未調査の領域であり、既存のベンチマークは主にテキストの内容に焦点を当て、分子、タンパク質、ゲノム言語といった重要な科学的表現を見下ろしている。 さらに,LLMの安全機構について検討した。 これらの制約に対処するために,様々な科学的タスクにおけるLLMの安全性アライメントを評価するために設計された総合的なベンチマークであるSciSafeEvalを紹介した。 SciSafeEvalは、テキスト、分子、タンパク質、ゲノムなど、複数の科学的言語にまたがっており、幅広い科学領域をカバーしている。 我々は,LLMをゼロショット,少数ショット,チェーンオブシンクの設定で評価し,安全ガードレールを装備したLLMに対して,悪意ある意図に対して厳格に防御試験を行う「ジェイルブレイク」強化機能を導入する。 我々のベンチマークは,LLMの安全性と性能を科学的文脈で評価するための堅牢なプラットフォームを提供するため,既存の安全データセットをスケールとスコープの両方で上回っている。 本研究は、科学研究における安全性と倫理基準との整合性を促進することを目的として、LCMの責任ある開発と展開を促進することを目的とする。

Large language models (LLMs) have had a transformative impact on a variety of scientific tasks across disciplines such as biology, chemistry, medicine, and physics. However, ensuring the safety alignment of these models in scientific research remains an underexplored area, with existing benchmarks primarily focus on textual content and overlooking key scientific representations such as molecular, protein, and genomic languages. Moreover, the safety mechanisms of LLMs in scientific tasks are insufficiently studied. To address these limitations, we introduce SciSafeEval, a comprehensive benchmark designed to evaluate the safety alignment of LLMs across a range of scientific tasks. SciSafeEval spans multiple scientific languages - including textual, molecular, protein, and genomic - and covers a wide range of scientific domains. We evaluate LLMs in zero-shot, few-shot and chain-of-thought settings, and introduce a 'jailbreak' enhancement feature that challenges LLMs equipped with safety guardrails, rigorously testing their defenses against malicious intention. Our benchmark surpasses existing safety datasets in both scale and scope, providing a robust platform for assessing the safety and performance of LLMs in scientific contexts. This work aims to facilitate the responsible development and deployment of LLMs, promoting alignment with safety and ethical standards in scientific research.
翻訳日:2024-11-02 16:30:33 公開日:2024-10-02
# 大規模言語モデルを用いた効果的な臨床情報収集のための2段階プロアクティブ対話生成装置

A Two-Stage Proactive Dialogue Generator for Efficient Clinical Information Collection Using Large Language Model ( http://arxiv.org/abs/2410.03770v1 )

ライセンス: Link先を確認
Xueshen Li, Xinlong Hou, Nirupama Ravi, Ziyi Huang, Yu Gan, (参考訳) 患者と医師の効果的な相互作用は、疾患の診断に成功するための鍵となる要素である。 会話中、医師は、患者の症状、以前の手術、および医学的エビデンスデータ(テスト結果)を超える関連情報などの補完的な診断情報を問い合わせて、疾患の診断を強化することができた。 しかし、この手順は通常時間がかかり、効率が悪く、コンピュータ支援システムによって最適化される可能性がある。 そこで我々は,患者情報収集手順を自動化する診断対話システムを提案する。 医療史と会話のロジックを活用することで、会話エージェント、特に医師エージェントは、多回にわたる臨床質問をすることで、最も関連性の高い疾患診断情報を効果的に収集することができる。 さらに, 2段階の推薦構造, 慎重に設計されたランキング基準, 対話型患者エージェントにより, 対話生成における探索的・非フレキシブルな課題を克服することができる。 実世界の医療会話データセットを用いた実験結果から,本モデルでは,医師の会話スタイルを模倣した臨床クエリを,効率のよい流速,専門性,安全性で生成し,関連する疾患診断情報を効果的に収集できることが示唆された。

Efficient patient-doctor interaction is among the key factors for a successful disease diagnosis. During the conversation, the doctor could query complementary diagnostic information, such as the patient's symptoms, previous surgery, and other related information that goes beyond medical evidence data (test results) to enhance disease diagnosis. However, this procedure is usually time-consuming and less-efficient, which can be potentially optimized through computer-assisted systems. As such, we propose a diagnostic dialogue system to automate the patient information collection procedure. By exploiting medical history and conversation logic, our conversation agents, particularly the doctor agent, can pose multi-round clinical queries to effectively collect the most relevant disease diagnostic information. Moreover, benefiting from our two-stage recommendation structure, carefully designed ranking criteria, and interactive patient agent, our model is able to overcome the under-exploration and non-flexible challenges in dialogue generation. Our experimental results on a real-world medical conversation dataset show that our model can generate clinical queries that mimic the conversation style of real doctors, with efficient fluency, professionalism, and safety, while effectively collecting relevant disease diagnostic information.
翻訳日:2024-11-02 16:30:33 公開日:2024-10-02
# 高精度知識編集:大規模言語モデルにおける安全性向上

Precision Knowledge Editing: Enhancing Safety in Large Language Models ( http://arxiv.org/abs/2410.03772v1 )

ライセンス: Link先を確認
Xuying Li, Zhuo Li, Yuji Kosuga, Yasuhiro Yoshida, Victor Bian, (参考訳) 大型言語モデル(LLM)は目覚ましい能力を示してきたが、有害な内容や有害な内容の生成に関わるリスクも生じている。 本研究は, LLM内の有害パラメータ領域をより効果的に識別し, 修正するために, 既存の知識編集手法に基づく高度な技術である精密知識編集(PKE)を導入する。 ニューロンの重量追跡と活性化経路の追跡を活用することで、PKEは、DINM(Detoxifying Instance Neuron Modification)のような従来の方法と比較して、有害なコンテンツ管理の微粒化を実現する。 実験の結果,PKEはLlama2-7bやLlama-3-8b-instructなど,様々なモデルにおける攻撃成功率(ASR)を大幅に低減し,全体のモデル性能を維持できることがわかった。 さらに,実験では,いくつかのクローズドソースモデル(gpt-4-0613とClaude 3 Sonnet)の性能も比較した。 この研究は、LLMを現実世界のアプリケーションにとってより安全で信頼性の高いものにするための継続的な取り組みに貢献している。

Large language models (LLMs) have demonstrated remarkable capabilities, but they also pose risks related to the generation of toxic or harmful content. This work introduces Precision Knowledge Editing (PKE), an advanced technique that builds upon existing knowledge editing methods to more effectively identify and modify toxic parameter regions within LLMs. By leveraging neuron weight tracking and activation pathway tracing, PKE achieves finer granularity in toxic content management compared to previous methods like Detoxifying Instance Neuron Modification (DINM). Our experiments demonstrate that PKE significantly reduces the attack success rate (ASR) across various models, including Llama2-7b and Llama-3-8b-instruct, while maintaining overall model performance. Additionally, we also compared the performance of some closed-source models (gpt-4-0613 and Claude 3 Sonnet) in our experiments, and found that models adjusted using our method far outperformed the closed-source models in terms of safety. This research contributes to the ongoing efforts to make LLMs safer and more reliable for real-world applications.
翻訳日:2024-11-02 16:30:33 公開日:2024-10-02
# 英語とドイツ語におけるクロスプラットフォームソーシャルメディアデータを用いたヘイトスピーチ検出

Hate Speech Detection Using Cross-Platform Social Media Data In English and German Language ( http://arxiv.org/abs/2410.05287v1 )

ライセンス: Link先を確認
Gautam Kishore Shahi, Tim A. Majchrzak, (参考訳) ヘイトスピーチは、危機、選挙、社会不安の時代に激化して広まりつつある現象へと成長してきた。 人工知能を用いてヘイトスピーチを検出するために複数のアプローチが開発されているが、一般化されたモデルはまだ未完成である。 テキスト分類としてのヘイトスピーチ検出の課題は、高品質なトレーニングデータを取得するコストである。 本研究は、YouTubeコメントにおけるバイリンガルヘイトスピーチの検出と、他のプラットフォームからの追加データを用いて分類モデルの性能を評価することに焦点を当てた。 分類モデルの性能向上のために,クロスプラットフォームから追加のトレーニングデータセットの価値を検討する。 また、コンテンツ類似性、定義類似性、共通のヘイトワードといった要素も含み、データセットがパフォーマンスに与える影響を測定しました。 以上の結果から,コンテンツ類似性,ヘイトワード,定義に基づく類似したデータセットの追加により,分類モデルの性能が向上することが示唆された。 最高のパフォーマンスは、YouTubeコメント、Twitter、Gabのデータセットと、英語とドイツ語のYouTubeコメントのためのF1スコアの0.74と0.68を組み合わせることで得られる。

Hate speech has grown into a pervasive phenomenon, intensifying during times of crisis, elections, and social unrest. Multiple approaches have been developed to detect hate speech using artificial intelligence, but a generalized model is yet unaccomplished. The challenge for hate speech detection as text classification is the cost of obtaining high-quality training data. This study focuses on detecting bilingual hate speech in YouTube comments and measuring the impact of using additional data from other platforms in the performance of the classification model. We examine the value of additional training datasets from cross-platforms for improving the performance of classification models. We also included factors such as content similarity, definition similarity, and common hate words to measure the impact of datasets on performance. Our findings show that adding more similar datasets based on content similarity, hate words, and definitions improves the performance of classification models. The best performance was obtained by combining datasets from YouTube comments, Twitter, and Gab with an F1-score of 0.74 and 0.68 for English and German YouTube comments.
翻訳日:2024-11-01 19:47:38 公開日:2024-10-02
# 投資決定のための生成モデルからの蒸留分析

Distilling Analysis from Generative Models for Investment Decisions ( http://arxiv.org/abs/2410.07225v1 )

ライセンス: Link先を確認
Chung-Chi Chen, Hiroya Takamura, Ichiro Kobayashi, Yusuke Miyao, (参考訳) 専門職の決定はあらゆる分野の焦点である。 例えば、政治家の判断は国の将来に影響を及ぼし、株価アナリストの判断は市場に影響を与える。 複数の分野にわたる意思決定プロセスの形成における専門家の視点、傾向、行動の影響力を認識し、金融市場でこれらの決定をモデル化するための3つの課題を提案する。 これを容易にするために,専門家の意思決定プロセスをシミュレートする新しいデータセットA3を導入する。 現在のモデルでは、特に取引決定を行う際に、プロフェッショナルの行動を予測するための課題が提示されているが、提案されたChain-of-Decisionアプローチは、有望な改善を示している。 意見生成システムを統合し,各ニュース項目に基づいて主観的分析を行い,提案課題の性能をさらに向上させる。

Professionals' decisions are the focus of every field. For example, politicians' decisions will influence the future of the country, and stock analysts' decisions will impact the market. Recognizing the influential role of professionals' perspectives, inclinations, and actions in shaping decision-making processes and future trends across multiple fields, we propose three tasks for modeling these decisions in the financial market. To facilitate this, we introduce a novel dataset, A3, designed to simulate professionals' decision-making processes. While we find current models present challenges in forecasting professionals' behaviors, particularly in making trading decisions, the proposed Chain-of-Decision approach demonstrates promising improvements. It integrates an opinion-generator-in-the-loop to provide subjective analysis based on each news item, further enhancing the proposed tasks' performance.
翻訳日:2024-10-31 21:26:45 公開日:2024-10-02
# 限られたデータからエコシステムを学習する - メタ学習アプローチ

Learning to learn ecosystems from limited data -- a meta-learning approach ( http://arxiv.org/abs/2410.07368v1 )

ライセンス: Link先を確認
Zheng-Meng Zhai, Bryan Glaz, Mulugeta Haile, Ying-Cheng Lai, (参考訳) 状態推定や予測といったタスクに対するデータ駆動型アプローチの開発における根本的な課題は、観測データや測定データの妥当性である。 例えば、ディープラーニングや貯水池コンピューティングのような現代の機械学習技術は、通常大量のデータを必要とする。 本研究では, 時間遅延フィードフォワードニューラルネットワークを用いたメタラーニングフレームワークを開発し, 環境システムの長期的挙動を予測する。 本研究では, 生態系の「動的気候」を, 限られたデータで正確に再構築できることを示す。 三種の食品連鎖であるHastings-PowellモデルとLotka-Volterraシステムという3つのベンチマーク集団モデルを用いて,メタラーニングに基づく予測フレームワークの性能を実証した。 いずれの場合も、生態系データのみからトレーニングされた機械学習手法と比較して、トレーニングデータの5~7倍の精度と堅牢性が達成される。 予測性能に影響するいくつかの問題に対処する。

A fundamental challenge in developing data-driven approaches to ecological systems for tasks such as state estimation and prediction is the paucity of the observational or measurement data. For example, modern machine-learning techniques such as deep learning or reservoir computing typically require a large quantity of data. Leveraging synthetic data from paradigmatic nonlinear but non-ecological dynamical systems, we develop a meta-learning framework with time-delayed feedforward neural networks to predict the long-term behaviors of ecological systems as characterized by their attractors. We show that the framework is capable of accurately reconstructing the ``dynamical climate'' of the ecological system with limited data. Three benchmark population models in ecology, namely the Hastings-Powell model, a three-species food chain, and the Lotka-Volterra system, are used to demonstrate the performance of the meta-learning based prediction framework. In all cases, enhanced accuracy and robustness are achieved using five to seven times less training data as compared with the corresponding machine-learning method trained solely from the ecosystem data. A number of issues affecting the prediction performance are addressed.
翻訳日:2024-10-31 20:47:00 公開日:2024-10-02
# 深層学習による耐震性評価のための実ベンチマーク・スウェルノイズデータセット

A Real Benchmark Swell Noise Dataset for Performing Seismic Data Denoising via Deep Learning ( http://arxiv.org/abs/2410.08231v1 )

ライセンス: Link先を確認
Pablo M. Barros, Roosevelt de L. Sardinha, Giovanny A. M. Arboleda, Lessandro de S. S. Valente, Isabelle R. V. de Melo, Albino Aveleda, André Bulcão, Sergio L. Netto, Alexandre G. Evsukoff, (参考訳) コンピュータビジョンのための最近のディープラーニング(DL)手法の開発は、新しいアルゴリズムをテストし再現可能な結果と比較するオープンなベンチマークデータセットの作成によって進められている。 DL法は地球物理学に多くの応用があるが、特に石油・ガス産業における地震データ処理のシナリオにおける主要な問題である実際のデータのデノベートのために、DLモデルのベンチマークを行うための実際の地震データセットはほとんど存在しない。 本稿では, 実データ上に実装されたフィルタリングプロセスから抽出したノイズにより, 合成地震データからなるベンチマークデータセットを提案する。 本研究は,2つの有名なDLに基づくデノナイジングモデルの比較を行い,地震データデノナイジングのための新しいソリューションの開発を加速するためのベンチマークとして提案する。 この研究は、モデル結果の小さなバリエーションをキャプチャできる新しい評価指標も導入している。 その結果, DLモデルは地震探査に有効であることがわかったが, 未解決の問題も残されている。

The recent development of deep learning (DL) methods for computer vision has been driven by the creation of open benchmark datasets on which new algorithms can be tested and compared with reproducible results. Although DL methods have many applications in geophysics, few real seismic datasets are available for benchmarking DL models, especially for denoising real data, which is one of the main problems in seismic data processing scenarios in the oil and gas industry. This article presents a benchmark dataset composed of synthetic seismic data corrupted with noise extracted from a filtering process implemented on real data. In this work, a comparison between two well-known DL-based denoising models is conducted on this dataset, which is proposed as a benchmark for accelerating the development of new solutions for seismic data denoising. This work also introduces a new evaluation metric that can capture small variations in model results. The results show that DL models are effective at denoising seismic data, but some issues remain to be solved.
翻訳日:2024-10-31 04:36:03 公開日:2024-10-02