このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241009となっている論文です。

PDF登録状況(公開日: 20241009)

TitleAuthorsAbstract論文公表日・翻訳日
# OpenGraph: Open Graph Foundationモデルに向けて

OpenGraph: Towards Open Graph Foundation Models ( http://arxiv.org/abs/2403.01121v3 )

ライセンス: Link先を確認
Lianghao Xia, Ben Kao, Chao Huang, (参考訳) グラフ学習は、レコメンデーションシステムからソーシャルネットワーク分析まで、さまざまな分野における関係データの解釈と活用に欠かせないものとなっている。 この文脈では、グラフの構造情報を符号化するための有望な手法として様々なGNNが出現している。 グラフの基盤構造を効果的に把握することにより、これらのGNNは、リンク予測やノード分類といったグラフ学習タスクのパフォーマンスを高める大きな可能性を示している。 これらの高度な手法は、トレーニングインスタンスと大きく異なる未確認のグラフデータに一般化する上で、しばしば困難に直面します。 本研究の目的は,一般的なグラフ基盤モデルを開発することにより,グラフ学習パラダイムを進化させることである。 このモデルは、多様なグラフデータに存在する複雑なトポロジパターンを理解するために設計されており、異なる下流データセットをまたいだゼロショットグラフ学習タスクを最適化することができる。 この目標を達成するために、OpenGraphモデルのいくつかの重要な技術的課題に対処します。 まず,未確認グラフデータにグラフモデルを適用し,基礎となるグラフ特性が訓練中に遭遇したグラフと大きく異なる場合であっても,グラフモデルを適切に一般化するための統一グラフトークン化手法を提案する。 第2に,グローバルトポロジカルコンテキスト内のノード依存性を効果的にキャプチャする基盤エンコーダとして,スケーラブルなグラフトランスフォーマを開発する。 第3に,LLMによって強化されたデータ拡張機構を導入し,実世界のシナリオにおけるデータ不足の限界を緩和する。 大規模な実験により、我々のフレームワークの有効性が検証された。 我々はOpenGraphを新しいグラフ特性に適用し、多様なグラフのニュアンスを理解することにより、様々な設定や領域にわたって優れたゼロショットグラフ学習性能を実現する。

Graph learning has become indispensable for interpreting and harnessing relational data in diverse fields, ranging from recommendation systems to social network analysis. In this context, a variety of GNNs have emerged as promising methodologies for encoding the structural information of graphs. By effectively capturing the graph's underlying structure, these GNNs have shown great potential in enhancing performance in graph learning tasks, such as link prediction and node classification. However, despite their successes, a significant challenge persists: these advanced methods often face difficulties in generalizing to unseen graph data that significantly differs from the training instances. In this work, our aim is to advance the graph learning paradigm by developing a general graph foundation model. This model is designed to understand the complex topological patterns present in diverse graph data, enabling it to excel in zero-shot graph learning tasks across different downstream datasets. To achieve this goal, we address several key technical challenges in our OpenGraph model. Firstly, we propose a unified graph tokenizer to adapt our graph model to generalize well on unseen graph data, even when the underlying graph properties differ significantly from those encountered during training. Secondly, we develop a scalable graph transformer as the foundational encoder, which effectively captures node-wise dependencies within the global topological context. Thirdly, we introduce a data augmentation mechanism enhanced by a LLM to alleviate the limitations of data scarcity in real-world scenarios. Extensive experiments validate the effectiveness of our framework. By adapting our OpenGraph to new graph characteristics and comprehending the nuances of diverse graphs, our approach achieves remarkable zero-shot graph learning performance across various settings and domains.
翻訳日:2024-11-09 04:21:34 公開日:2024-10-09
# Quest:大規模言語モデルの長文スケーリングのためのクエリ中心のデータ合成手法

Quest: Query-centric Data Synthesis Approach for Long-context Scaling of Large Language Model ( http://arxiv.org/abs/2405.19846v4 )

ライセンス: Link先を確認
Chaochen Gao, Xing Wu, Qi Fu, Songlin Hu, (参考訳) 大規模な言語モデルは、最初は限られたコンテキスト長で事前訓練され、拡張されたコンテキストを持つコーパスでのトレーニングを継続することで、より長いテキストを扱うことができる。 しかし、複数のドメインにまたがる長文の不足と不均一な分散のため、有効な長文データを取得することは困難である。 この問題に対処するために,クエストと略されるクエリ中心のデータ合成手法を提案する。 Quest(クエスト)は、類似したクエリによって検索された文書は関連性はあるが、低冗長であり、長文データの合成に適しているという観察に基づく解釈可能な手法である。 この方法はスケーラブルで、大量の長文データを構築することができる。 Questを用いてコンテキスト長128kまでの長文データセットを合成し、複数の長文ベンチマークデータセットにおいて、他のデータ合成方法よりも大幅に優れています。 さらに,法実験のスケーリングによってQuest法が予測可能であることを確認する。

Large language models, initially pre-trained with a limited context length, can better handle longer texts by continuing training on a corpus with extended contexts. However, obtaining effective long-context data is challenging due to the scarcity and uneven distribution of long documents across different domains. To address this issue, we propose a Query-centric data synthesis method, abbreviated as Quest. Quest is an interpretable method based on the observation that documents retrieved by similar queries are relevant but low-redundant, thus well-suited for synthesizing long-context data. The method is also scalable and capable of constructing large amounts of long-context data. Using Quest, we synthesize a long-context dataset up to 128k context length, significantly outperforming other data synthesis methods on multiple long-context benchmark datasets. In addition, we further verify that the Quest method is predictable through scaling law experiments, making it a reliable solution for advancing long-context models.
翻訳日:2024-11-09 02:07:29 公開日:2024-10-09
# 大規模言語モデル探索木における不確かさ誘導最適化

Uncertainty-Guided Optimization on Large Language Model Search Trees ( http://arxiv.org/abs/2407.03951v2 )

ライセンス: Link先を確認
Julia Grosse, Ruotian Wu, Ahmad Rashid, Philipp Hennig, Pascal Poupart, Agustinus Kristiadi, (参考訳) 大規模言語モデル (LLM) の復号過程における最大可能性列の探索においては、greedy や beam search などの木探索アルゴリズムが標準である。 ただし、完全なルート・ツー・リーフ・パスを考慮に入れないため、明色である。 さらに、それらはプロセスに関する事前の知識を知らない:例えば、最大化される目的が確率であるとは考えておらず、したがって単位区間に束縛されるような特定の性質を持つ。 確率論的アプローチを用いて、LLMsの遷移確率に関する事前の信念を定義し、各反復において最も有望な経路についての後続の信念を得る。 これらの信念は、LLM上の標準探索アルゴリズムよりも、よりデータ効率の高い探索スキームを可能にする、サンプルベースで非ミオピックな取得関数を定義するのに有用である。 重要なことに、モンテカルロ木探索のような高価なシミュレーションに基づく非筋電図法とは異なり、我々の手法は信念からのサンプルのみを必要とする。 したがって, LLMデコーディングを木上のベイズ最適化とみなす。 提案手法は,提案手法がノード数を減らしつつ,同じあるいは高い確率で実現可能であることを示す。

Tree search algorithms such as greedy and beam search are the standard when it comes to finding sequences of maximum likelihood in the decoding processes of large language models (LLMs). However, they are myopic since they do not take the complete root-to-leaf path into account. Moreover, they are agnostic to prior knowledge available about the process: For example, it does not consider that the objective being maximized is a probability and thereby has specific properties like being bound in the unit interval. Taking a probabilistic approach, we define prior beliefs over LLMs' transition probabilities and obtain posterior beliefs over the most promising paths in each iteration. These beliefs are useful for defining a sample-based, non-myopic acquisition function that allows for a more data-efficient exploration scheme than standard search algorithms on LLMs. Crucially, unlike expensive simulation-based non-myopic methods like the Monte Carlo tree search, our method only requires samples from the beliefs. Our formulation thus views LLM decoding as Bayesian optimization on trees. We discuss how to select the prior and the acquisition function, and demonstrate in experiments with various LLMs that our method achieves higher efficiency than recent baselines: Our method achieves the same or a higher likelihood while expanding fewer nodes.
翻訳日:2024-11-08 23:57:53 公開日:2024-10-09
# MINDECHO: キーオピニオンリーダーのためのロールプレイング言語エージェント

MINDECHO: Role-Playing Language Agents for Key Opinion Leaders ( http://arxiv.org/abs/2407.05305v2 )

ライセンス: Link先を確認
Rui Xu, Dakuan Lu, Xiaoyu Tan, Xintao Wang, Siyu Yuan, Jiangjie Chen, Wei Chu, Yinghui Xu, (参考訳) 大規模言語モデル~(LLM)は様々なアプリケーションにおいて印象的な性能を示しており、その中にはロールプレイング言語エージェント(RPLA)が幅広いユーザーベースを担っている。 今や、キーオピニオンリーダー(KOL)、シャイ、インターネットの有名人、ドメインのトレンドや意見を形作るRPLAに対する需要が増えている。 しかし、この系統の研究は過小評価されている。 そこで本稿では,KOL RPLAの開発と評価のための総合的なフレームワークであるMINDECHOを紹介する。 MINDECHOは、様々な専門分野のインターネットビデオテキストからKOLデータを収集し、GPT-4を利用して会話を合成する。 そして、各会話と書き起こしは、それぞれ個別化されたモデルトレーニングと推論時間検索に使用される。 評価は, KOLの一般次元(感情, 知識, トーン)とファン中心次元(ファン中心次元)の両方をカバーする。 大規模な実験は、KOL RPLAの開発と評価におけるMINDECHOの有効性を検証する。

Large language models~(LLMs) have demonstrated impressive performance in various applications, among which role-playing language agents (RPLAs) have engaged a broad user base. Now, there is a growing demand for RPLAs that represent Key Opinion Leaders (KOLs), \ie, Internet celebrities who shape the trends and opinions in their domains. However, research in this line remains underexplored. In this paper, we hence introduce MINDECHO, a comprehensive framework for the development and evaluation of KOL RPLAs. MINDECHO collects KOL data from Internet video transcripts in various professional fields, and synthesizes their conversations leveraging GPT-4. Then, the conversations and the transcripts are used for individualized model training and inference-time retrieval, respectively. Our evaluation covers both general dimensions (\ie, knowledge and tones) and fan-centric dimensions for KOLs. Extensive experiments validate the effectiveness of MINDECHO in developing and evaluating KOL RPLAs.
翻訳日:2024-11-08 23:24:33 公開日:2024-10-09
# SBoRA: 地域重み更新による低ランク適応

SBoRA: Low-Rank Adaptation with Regional Weight Updates ( http://arxiv.org/abs/2407.05413v3 )

ライセンス: Link先を確認
Lai-Man Po, Yuyang Liu, Haoxuan Wu, Tianqi Zhang, Wing-Yin Yu, Zhuohan Wang, Zeyu Jiang, Kun Li, (参考訳) 本稿では,Low-Rank Adaptation (LoRA) とOrthogonal Adaptation (Orthogonal Adaptation) の先駆的な業績を生かした,大規模言語モデルのためのパラメータ効率の良い微調整手法であるStandard Basis LoRA(SBoRA)を紹介する。 SBoRAは、学習性能を改善しながら、トレーニング可能なパラメータの数を、LoRAと同じ数のトレーニング可能なパラメータで半分または2倍に削減する。 直交標準基底ベクトルを利用して低ランク行列の1つ($\mathbf{A}$または$\mathbf{B}$)を初期化することにより、SBoRAは局所的な重み更新とメモリ効率の良い微調整を容易にする。 この結果、SBoRA-FA と SBoRA-FB という2つの変種が生まれ、行列の1つだけが更新され、スパース更新行列 $\mathrm{\Delta} \mathbf{W}$ がほとんどゼロの行や列を持つ。 その結果、細調整されたモデルの重量のほとんど$(\mathbf{W}_0+\mathrm{\Delta} \mathbf{W})$は、人間の脳のモジュラー構造に似ており、新しいタスクに効率的に適応する。 実験の結果,Lora よりも SBoRA-FA の方が,コモンセンス推論や算術推論など,様々な微調整タスクにおいて優れていることが示された。 さらに、様々なスケールの量子化LLaMAモデルにおけるQSBoRAの有効性を評価し、新しいタスクへの効率的な適応の可能性を強調した。 コードはhttps://github.com/cityuhkai/SBoRAで公開されている。

This paper introduces Standard Basis LoRA (SBoRA), a novel parameter-efficient fine-tuning approach for Large Language Models that builds upon the pioneering works of Low-Rank Adaptation (LoRA) and Orthogonal Adaptation. SBoRA reduces the number of trainable parameters by half or doubles the rank with the similar number of trainable parameters as LoRA, while improving learning performance. By utilizing orthogonal standard basis vectors to initialize one of the low-rank matrices (either $\mathbf{A}$ or $\mathbf{B}$), SBoRA facilitates regional weight updates and memory-efficient fine-tuning. This results in two variants, SBoRA-FA and SBoRA-FB, where only one of the matrices is updated, leading to a sparse update matrix $\mathrm{\Delta} \mathbf{W}$ with predominantly zero rows or columns. Consequently, most of the fine-tuned model's weights $(\mathbf{W}_0+\mathrm{\Delta} \mathbf{W})$ remain unchanged from the pre-trained weights, akin to the modular organization of the human brain, which efficiently adapts to new tasks. Our empirical results demonstrate the superiority of SBoRA-FA over LoRA in various fine-tuning tasks, including commonsense reasoning and arithmetic reasoning. Furthermore, we evaluate the effectiveness of QSBoRA on quantized LLaMA models of varying scales, highlighting its potential for efficient adaptation to new tasks. Code is available at https://github.com/cityuhkai/SBoRA
翻訳日:2024-11-08 23:24:33 公開日:2024-10-09
# Greener GRASS: エンコーディング、リライト、アテンションによるGNNの強化

Greener GRASS: Enhancing GNNs with Encoding, Rewiring, and Attention ( http://arxiv.org/abs/2407.05649v3 )

ライセンス: Link先を確認
Tongzhou Liao, Barnabás Póczos, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データ上での機械学習において重要なツールとなっている。 本稿では,新しいGNNアーキテクチャであるGRASS(Graph Attention with Stochastic Structures)を導入することにより,グラフエンコーディング,グラフリウィリング,グラフアテンションの相乗的組み合わせについて検討する。 GRASSは、相対ランダムウォーク確率(RRWP)エンコーディングと、新しい分解型(D-RRWP)を使用して、構造情報を効率的に取得する。 ランダムな正規グラフを重畳して入力グラフを再構成し、長距離情報伝播を強化する。 また、グラフ構造化データに適した新しい付加的注意機構も採用している。 我々の経験的評価は、GRASSが、ZINCデータセットの平均絶対誤差を20.3%削減するなど、複数のベンチマークデータセットで最先端のパフォーマンスを達成することを示した。

Graph Neural Networks (GNNs) have become important tools for machine learning on graph-structured data. In this paper, we explore the synergistic combination of graph encoding, graph rewiring, and graph attention, by introducing Graph Attention with Stochastic Structures (GRASS), a novel GNN architecture. GRASS utilizes relative random walk probabilities (RRWP) encoding and a novel decomposed variant (D-RRWP) to efficiently capture structural information. It rewires the input graph by superimposing a random regular graph to enhance long-range information propagation. It also employs a novel additive attention mechanism tailored for graph-structured data. Our empirical evaluations demonstrate that GRASS achieves state-of-the-art performance on multiple benchmark datasets, including a 20.3% reduction in mean absolute error on the ZINC dataset.
翻訳日:2024-11-08 23:24:33 公開日:2024-10-09
# 人工知能(AI)を用いた銃口型乳牛識別システム

Muzzle-Based Cattle Identification System Using Artificial Intelligence (AI) ( http://arxiv.org/abs/2407.06096v2 )

ライセンス: Link先を確認
Hasan Zohirul Islam, Safayet Khan, Sanjib Kumar Paul, Sheikh Imtiaz Rahi, Fahim Hossain Sifat, Md. Mahadi Hasan Sany, Md. Shahjahan Ali Sarker, Tareq Anam, Ismail Hossain Polas, (参考訳) 乳牛鑑定技術の欠如は、保険会社が家畜保険の提供を妨げている重要な問題であった。 この技術不足は、バングラデシュにおける牛の事故死などの予期せぬ出来事に対して補償を請求する機会がなかったため、限界農夫にとって経済的に壊滅的な結果をもたらした。 機械学習と深層学習アルゴリズムを用いて,ウシの識別システムを開発・導入することで,牛の識別のボトルネックを解消した。 牛の銃口の独特さは科学的に確立されており、人間の指紋に似ている。 これは、牛の銃口の特異性を抽出する牛の識別システムを開発するきっかけとなった基本的な前提である。 この目的で,826頭の牛から32,374枚の画像を収集した。 画像からノイズを除去する前処理工程において, シャープニングフィルタを用いたコントラスト制限適応ヒストグラム等化(CLAHE)を適用した。 画像中の牛の銃口検出のためのYOLOアルゴリズムとFaceNetアーキテクチャを用いて、四角い$L_2$距離を用いて銃口画像から一括埋め込みを学習した。 我々のシステムは、9,6.489\%$、9,7.334\%$のF_1$スコアと8,7.993\%の真の正レート(tpr)を驚くほど低い偽陽性レート(fpr)の0.098\%$で実行している。 この牛を同定するための信頼性と効率のよいシステムは、家畜の保険と精密農業を著しく向上させることができる。

Absence of tamper-proof cattle identification technology was a significant problem preventing insurance companies from providing livestock insurance. This lack of technology had devastating financial consequences for marginal farmers as they did not have the opportunity to claim compensation for any unexpected events such as the accidental death of cattle in Bangladesh. Using machine learning and deep learning algorithms, we have solved the bottleneck of cattle identification by developing and introducing a muzzle-based cattle identification system. The uniqueness of cattle muzzles has been scientifically established, which resembles human fingerprints. This is the fundamental premise that prompted us to develop a cattle identification system that extracts the uniqueness of cattle muzzles. For this purpose, we collected 32,374 images from 826 cattle. Contrast-limited adaptive histogram equalization (CLAHE) with sharpening filters was applied in the preprocessing steps to remove noise from images. We used the YOLO algorithm for cattle muzzle detection in the image and the FaceNet architecture to learn unified embeddings from muzzle images using squared $L_2$ distances. Our system performs with an accuracy of $96.489\%$, $F_1$ score of $97.334\%$, and a true positive rate (tpr) of $87.993\%$ at a remarkably low false positive rate (fpr) of $0.098\%$. This reliable and efficient system for identifying cattle can significantly advance livestock insurance and precision farming.
翻訳日:2024-11-08 23:13:33 公開日:2024-10-09
# 数学、Jenny、Jingzhenのどちらが得意か?

Who is better at math, Jenny or Jingzhen? Uncovering Stereotypes in Large Language Models ( http://arxiv.org/abs/2407.06917v2 )

ライセンス: Link先を確認
Zara Siddique, Liam D. Turner, Luis Espinosa-Anke, (参考訳) 大型言語モデル (LLM) は有害なステレオタイプを伝播し、増幅することが示されている。 これらのステレオタイプの効果をより包括的に理解するために、GlobalBiasを紹介した。これは、偏見文学で典型的に使用される記述子とともに、40の異なるジェンダー・バイ・エスニシティー・グループを含む876kの文からなるデータセットで、世界中の幅広いステレオタイプの研究を可能にする。 我々はGlobalBiasを使用して、パープレキシティ(perplexity)を介してLMのスイートを直接探索し、プロキシとして、モデルの内部表現で特定のステレオタイプがどのように表現されているかを決定する。 その後、与えられた名前に基づいて文字プロファイルを生成し、モデル出力におけるステレオタイプの有効性を評価する。 様々なステレオタイプに関連付けられた階層群は、モデル確率とモデル出力の間で一貫性が保たれていることが判明した。 さらに、より大型のモデルは、明示的に指示されていなくても、より高レベルのステレオタイプ出力を表示する。

Large language models (LLMs) have been shown to propagate and amplify harmful stereotypes, particularly those that disproportionately affect marginalised communities. To understand the effect of these stereotypes more comprehensively, we introduce GlobalBias, a dataset of 876k sentences incorporating 40 distinct gender-by-ethnicity groups alongside descriptors typically used in bias literature, which enables us to study a broad set of stereotypes from around the world. We use GlobalBias to directly probe a suite of LMs via perplexity, which we use as a proxy to determine how certain stereotypes are represented in the model's internal representations. Following this, we generate character profiles based on given names and evaluate the prevalence of stereotypes in model outputs. We find that the demographic groups associated with various stereotypes remain consistent across model likelihoods and model outputs. Furthermore, larger models consistently display higher levels of stereotypical outputs, even when explicitly instructed not to.
翻訳日:2024-11-08 22:51:20 公開日:2024-10-09
# 数学、Jenny、Jingzhenのどちらが得意か?

Who is better at math, Jenny or Jingzhen? Uncovering Stereotypes in Large Language Models ( http://arxiv.org/abs/2407.06917v3 )

ライセンス: Link先を確認
Zara Siddique, Liam D. Turner, Luis Espinosa-Anke, (参考訳) 大型言語モデル (LLM) は有害なステレオタイプを伝播し、増幅することが示されている。 これらのステレオタイプの効果をより包括的に理解するために、GlobalBiasを紹介した。これは、偏見文学で典型的に使用される記述子とともに、40の異なるジェンダー・バイ・エスニシティー・グループを含む876kの文からなるデータセットで、世界中の幅広いステレオタイプの研究を可能にする。 我々はGlobalBiasを使用して、パープレキシティ(perplexity)を介してLMのスイートを直接探索し、プロキシとして、モデルの内部表現で特定のステレオタイプがどのように表現されているかを決定する。 その後、与えられた名前に基づいて文字プロファイルを生成し、モデル出力におけるステレオタイプの有効性を評価する。 様々なステレオタイプに関連付けられた階層群は、モデル確率とモデル出力の間で一貫性が保たれていることが判明した。 さらに、より大型のモデルは、明示的に指示されていなくても、より高レベルのステレオタイプ出力を表示する。

Large language models (LLMs) have been shown to propagate and amplify harmful stereotypes, particularly those that disproportionately affect marginalised communities. To understand the effect of these stereotypes more comprehensively, we introduce GlobalBias, a dataset of 876k sentences incorporating 40 distinct gender-by-ethnicity groups alongside descriptors typically used in bias literature, which enables us to study a broad set of stereotypes from around the world. We use GlobalBias to directly probe a suite of LMs via perplexity, which we use as a proxy to determine how certain stereotypes are represented in the model's internal representations. Following this, we generate character profiles based on given names and evaluate the prevalence of stereotypes in model outputs. We find that the demographic groups associated with various stereotypes remain consistent across model likelihoods and model outputs. Furthermore, larger models consistently display higher levels of stereotypical outputs, even when explicitly instructed not to.
翻訳日:2024-11-08 22:51:20 公開日:2024-10-09
# 分解・比較整合性:タスク分解整合性比較によるVLMの解答信頼性の測定

Decompose and Compare Consistency: Measuring VLMs' Answer Reliability via Task-Decomposition Consistency Comparison ( http://arxiv.org/abs/2407.07840v3 )

ライセンス: Link先を確認
Qian Yang, Weixiang Yan, Aishwarya Agrawal, (参考訳) 膨大な進歩にもかかわらず、現在の最先端のビジョン・ランゲージ・モデル(VLM)はまだ完璧には程遠い。 幻覚を起こす傾向があり、偏りのある反応を生じさせる。 このような状況下では、VLMによって生成された所定の応答の信頼性を評価する方法が有用である。 解答確率を用いた不確実性の推定や、素早い信頼生成といった既存の手法は、しばしば過度な自信に悩まされる。 他の方法は自己整合性比較を用いるが、確認バイアスに影響される。 これらを解決するために,信頼性測定のための分解・比較一貫性(DeCC)を提案する。 VLMの内部推論プロセスを用いて生成された直接回答と、VLMが生成したサブ問合せと推論に質問を分解して得られる間接回答との整合性を比較することにより、DeCCはVLMの直接回答の信頼性を測定する。 3つのVLMを用いた6つの視覚言語タスクを対象とした実験により、DeCCの信頼性推定は既存の手法と比較してタスク精度との相関性が良くなった。

Despite tremendous advancements, current state-of-the-art Vision-Language Models (VLMs) are still far from perfect. They tend to hallucinate and may generate biased responses. In such circumstances, having a way to assess the reliability of a given response generated by a VLM is quite useful. Existing methods, such as estimating uncertainty using answer likelihoods or prompt-based confidence generation, often suffer from overconfidence. Other methods use self-consistency comparison but are affected by confirmation biases. To alleviate these, we propose Decompose and Compare Consistency (DeCC) for reliability measurement. By comparing the consistency between the direct answer generated using the VLM's internal reasoning process, and the indirect answers obtained by decomposing the question into sub-questions and reasoning over the sub-answers produced by the VLM, DeCC measures the reliability of VLM's direct answer. Experiments across six vision-language tasks with three VLMs show DeCC's reliability estimation achieves better correlation with task accuracy compared to the existing methods.
翻訳日:2024-11-08 22:29:09 公開日:2024-10-09
# 2+$ de Sitter SpacetimeでQFTを復活

Reviving QFT in $2+1$ de Sitter Spacetime ( http://arxiv.org/abs/2407.07942v2 )

ライセンス: Link先を確認
Guido D'Amico, Nemanja Kaloper, (参考訳) 2+1$ 次元静的アインシュタイン宇宙 $R \times S^2$ 上の共形結合スカラー QFT を考え、ヒルベルト空間を記す。 この理論は秘密裏に、2+1$ de Sitter 空間の QFT である、なぜなら全ての量子可観測性経験 {\it quantum revivals} は、自然に d Sitter の時間範囲に$R$ を制限しているからである。 我々は, 事象の地平線によるQFTの定式化のために, 因果障害を回避した。 静的なアインシュタインは存在しない。 この理論の「単位ゲージ」の記述は、粒子高調波$P_\ell(\hat n \cdot \hat n')$によって実現される。 共形不変な外部ソースとの相互作用がこれらのモードによってのみ媒介されることを検証する。 したがって、これらのモードは「バルク」理論の完全な基礎を構成する。 理論がUVで切り離されるとき、基底次元はベーケンシュタイン・ホーキングの公式としてスケールする。

We consider a conformally coupled scalar QFT on $2+1$ dimensional static Einstein universe $R \times S^2$, and write down the free theory Hilbert space. We explain that this theory is secretly a QFT in $2+1$ de Sitter space because all the quantum observables experience {\it quantum revivals}, which naturally restricts the timelike $R$ to the appropriate de Sitter time range. Our construction circumvents the causal obstruction to formulating QFT in de Sitter due to event horizons. There aren't any in static Einstein. The `unitary gauge' description of the theory is realized by the zonal harmonics $P_\ell(\hat n \cdot \hat n')$. We verify that interactions with conformally invariant external sources are mediated only by these modes. Hence these modes comprise the complete basis of the "bulk" theory. When the theory is cut off in the UV the basis dimension scales as the Bekenstein-Hawking formula.
翻訳日:2024-11-08 22:29:09 公開日:2024-10-09
# 貯水池工学オポマグノメカニクスによるマグノンのスクイーズ

Magnon squeezing via reservoir-engineered optomagnomechanics ( http://arxiv.org/abs/2407.08186v2 )

ライセンス: Link先を確認
Zhi-Yuan Fan, Huai-Bing Zhu, Hao-Tian Li, Jie Li, (参考訳) 磁歪による機械的変位が放射圧を介して光学的キャビティに結合するオポマノメカニカルシステムにおいて,マグノニック圧縮状態の調製方法を示す。 マグノメカニカルカップリングが線形か分散的かによっては2つのシナリオを論じる。 どちらの場合も、光学キャビティの2トーン駆動により得られる強いメカニカルスクイーズを効率よくマグノンモードに転送できることが示される。 線形カップリングの場合、定常マグノンスクイーズを行い、分散カップリングケースでは、2段階のプロトコルで一過性マグノンスクイーズ状態を作成する。 提案したマグノン圧縮状態は、マグノンを用いた量子情報処理と量子センシングに有望な応用を見出す。

We show how to prepare magnonic squeezed states in an optomagnomechanical system, in which magnetostriction induced mechanical displacement couples to an optical cavity via radiation pressure. We discuss two scenarios depending on whether the magnomechanical coupling is linear or dispersive. We show that in both cases the strong mechanical squeezing obtained via two-tone driving of the optical cavity can be efficiently transferred to the magnon mode. In the linear coupling case, stationary magnon squeezing is achieved; while in the dispersive coupling case, a transient magnonic squeezed state is prepared in a two-step protocol. The proposed magnonic squeezed states find promising applications in quantum information processing and quantum sensing using magnons.
翻訳日:2024-11-08 22:29:08 公開日:2024-10-09
# 適応パラメトリック活性化

Adaptive Parametric Activation ( http://arxiv.org/abs/2407.08567v2 )

ライセンス: Link先を確認
Konstantinos Panagiotis Alexandridis, Jiankang Deng, Anh Nguyen, Shan Luo, (参考訳) アクティベーション関数はモデル最適化において重要な役割を果たすが、最適選択は依然として不明である。 例えば、シグモイドの活性化は、バランスの取れた分類タスクにおけるデファクトの活性化であるが、不均衡な分類では、頻繁なクラスに対する偏見によって不適切であることが証明される。 本研究では,バランスの取れたネットワークと不均衡なネットワークの両方の分類層と中間層を包括的に統計解析することにより,この現象を深く掘り下げるとともに,アクティベーション関数とデータ分布の整合性を実証的に示し,バランスの取れたタスクと不均衡なタスクの両方のパフォーマンスを向上させる。 そこで本研究では,APA(Adaptive Parametric Activation)関数を提案する。 APAは中間層と注目層の両方に適用でき、ImageNet-LT、iNaturalist2018、Places-LT、CIFAR100-LT、LVIS、ImageNet1K、COCO、V3DETのようなバランスのとれたベンチマークにおいて、最先端のベンチマークを著しく上回っている。 コードはhttps://github.com/kostas1515/AGLUで公開されている。

The activation function plays a crucial role in model optimisation, yet the optimal choice remains unclear. For example, the Sigmoid activation is the de-facto activation in balanced classification tasks, however, in imbalanced classification, it proves inappropriate due to bias towards frequent classes. In this work, we delve deeper in this phenomenon by performing a comprehensive statistical analysis in the classification and intermediate layers of both balanced and imbalanced networks and we empirically show that aligning the activation function with the data distribution, enhances the performance in both balanced and imbalanced tasks. To this end, we propose the Adaptive Parametric Activation (APA) function, a novel and versatile activation function that unifies most common activation functions under a single formula. APA can be applied in both intermediate layers and attention layers, significantly outperforming the state-of-the-art on several imbalanced benchmarks such as ImageNet-LT, iNaturalist2018, Places-LT, CIFAR100-LT and LVIS and balanced benchmarks such as ImageNet1K, COCO and V3DET. The code is available at https://github.com/kostas1515/AGLU.
翻訳日:2024-11-08 22:17:54 公開日:2024-10-09
# 正確性を超えて:大規模言語モデルのための多次元コード生成のベンチマーク

Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models ( http://arxiv.org/abs/2407.11470v2 )

ライセンス: Link先を確認
Jiasheng Zheng, Boxi Cao, Zhengzhao Ma, Ruotong Pan, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun, (参考訳) 近年,大規模言語モデル(LLM)の符号化能力を評価するために,多数のベンチマークが提案されている。 しかし、現在のベンチマークは主にLLM生成コードの精度を評価し、実際の開発においてコード品質に大きな影響を及ぼす他の重要な次元を無視している。 さらに、導出基準としてのみ正確性に依存すると、LLMはデータ汚染の影響を受けやすい。 そこで本研究では,可読性,mAintainability,正確性,効率性の4次元にわたってLLMが生成するコードの品質を総合的に評価するRASベンチマークを提案する。 具体的には、正確性を超えた次元の要求に依存した性質を考慮し、各次元に対する様々なタイプのユーザ要求を設計し、モデルがユーザ要求を満たす正しいコードを生成する能力を評価する。 RACEに基づく28の代表的なLCMを解析し,その有用性を見いだす。 1) 現在の正当性中心のベンチマークでは、実世界のシナリオにおけるコードの多面的要件を捉えることができず、一方 RACE では、複数の次元にわたる LLM の欠陥を明らかにする包括的な評価を行っている。 2 RACEベンチマークは、データ汚染のリスクに抵抗する有効なツールとして機能する。 3) 最も先進的なコード LLM でさえ,複雑な命令を含むカスタマイズ要求において,依然として重大な課題に直面している。 4)ほとんどのLLMは、特定のコーディングスタイルに固有の嗜好を示す。 これらの知見は、実世界のアプリケーションの正確性を超えたメトリクスを強調し、LLMの多次元評価の必要性を強調している。 今後の取り組みは、さまざまな制約の下でコード生成を強化し、多様なユーザニーズに対するカバレッジとユーザビリティを向上させるための、新しい学習アルゴリズムの開発を目標とする。

In recent years, researchers have proposed numerous benchmarks to evaluate the impressive coding capabilities of large language models (LLMs). However, current benchmarks primarily assess the accuracy of LLM-generated code, while neglecting other critical dimensions that also significantly impact code quality in real-world development. Moreover, relying exclusively on correctness as the guiding metric renders LLMs susceptible to data contamination. Therefore, this paper proposes the RACE benchmark, which comprehensively evaluates the quality of code generated by LLMs across 4 dimensions: Readability, mAintainability, Correctness, and Efficiency. Specifically, considering the demand-dependent nature of dimensions beyond correctness, we design various types of user requirements for each dimension to assess the model's ability to generate correct code that also meets user demands. We analyze 28 representative LLMs based on RACE and find that: 1) current correctness-centric benchmarks fail to capture the multifaceted requirements of code in real-world scenarios, while RACE provides a comprehensive evaluation that reveals the defects of LLMs across multiple dimensions; 2) the RACE benchmark serves as an effective tool for resisting the risk of data contamination; 3) even the most advanced code LLMs still encounter significant challenges in customized requirements involving complex instructions; 4) most LLMs exhibit an inherent preference for specific coding style. These findings highlight the need for a multidimensional evaluation of code LLMs, emphasizing metrics beyond correctness for real-world applications. Future efforts should aim to develop novel learning algorithms to enhance code generation under varied constraints and improve coverage and usability for diverse user needs.
翻訳日:2024-11-08 21:10:26 公開日:2024-10-09
# 大規模合成テキスト生成のためのプライベート予測

Private prediction for large-scale synthetic text generation ( http://arxiv.org/abs/2407.12108v2 )

ライセンス: Link先を確認
Kareem Amin, Alex Bie, Weiwei Kong, Alexey Kurakin, Natalia Ponomareva, Umar Syed, Andreas Terzis, Sergei Vassilvitskii, (参考訳) 本稿では,大規模言語モデル (LLM) を用いた個人用テキスト生成手法を提案する。 プライベートな予測フレームワークでは、差分プライバシー保証を満たすために出力された合成データのみを必要とする。 これは、潜在的に敏感なユーザ供給ソースデータに対して生成モデルをトレーニングし、モデル自体が安全にリリースできるようにするアプローチとは対照的である。 我々は、ソースデータで事前訓練されたLLMを起動するが、次の注意すべき予測が、異なるプライバシ保証で実行されることを保証する。 このパラダイムの以前の研究は、適切なプライバシーレベルで少数の例(10)を生成したと報告していた。 対照的に、私たちは何千もの高品質な合成データポイントを生成できるように変更し、潜在的なアプリケーションセットを大きく拡大します。 我々の改善は、LLMのトークンをサンプリングするソフトマックス層と指数的なメカニズムとの等価性を活用することで、プライバシー分析の改善と、より優れたプライベート選択機構によって実現されている。 さらに、機密データなしで予測可能なトークンに対して、プライバシコストを払わないスパースベクター手法によるパブリック予測を新たに導入し、構造化データに特に有効であることが判明した。

We present an approach for generating differentially private synthetic text using large language models (LLMs), via private prediction. In the private prediction framework, we only require the output synthetic data to satisfy differential privacy guarantees. This is in contrast to approaches that train a generative model on potentially sensitive user-supplied source data and seek to ensure the model itself is safe to release. We prompt a pretrained LLM with source data, but ensure that next-token predictions are made with differential privacy guarantees. Previous work in this paradigm reported generating a small number of examples (<10) at reasonable privacy levels, an amount of data that is useful only for downstream in-context learning or prompting. In contrast, we make changes that allow us to generate thousands of high-quality synthetic data points, greatly expanding the set of potential applications. Our improvements come from an improved privacy analysis and a better private selection mechanism, which makes use of the equivalence between the softmax layer for sampling tokens in LLMs and the exponential mechanism. Furthermore, we introduce a novel use of public predictions via the sparse vector technique, in which we do not pay privacy costs for tokens that are predictable without sensitive data; we find this to be particularly effective for structured data.
翻訳日:2024-11-08 20:48:00 公開日:2024-10-09
# イベントベース正規流からの運動と構造

Motion and Structure from Event-based Normal Flow ( http://arxiv.org/abs/2407.12239v3 )

ライセンス: Link先を確認
Zhongyang Ren, Bangyan Liao, Delei Kong, Jinghang Li, Peidong Liu, Laurent Kneip, Guillermo Gallego, Yi Zhou, (参考訳) 映像データからカメラの動きとシーンの形状を復元することは、コンピュータビジョンの分野における根本的な問題である。 標準的なビジョンにおけるその成功は、特徴抽出、データアソシエーション、多視点幾何学の成熟による。 近年のニューロモルフィックなイベントベースカメラの出現は、この根本的な問題を解決するために生のイベントデータを入力として利用するアプローチに大きな需要を課している。 既存の最先端ソリューションは、通常、イベントデータ生成プロセスを反復的に反転することによって暗黙的にデータアソシエーションを推測する。 しかしながら、これらの手法の非線形性は、リアルタイムタスクにおける適用性を制限し、一定運動の仮定は、アジャイルの動きの下で不安定な結果をもたらす。 この目的のために、イベントカメラの差動動作原理とよく一致した方法で、問題の定式化を再考する。 イベントベース正規フローは,一階数論とシーン幾何学を含む幾何学的問題を解く際の全フローの代替として,提案した幾何的誤差項を通じて利用できることを示す。 さらに,提案した幾何誤差項の上に,高速線形解法と連続時間非線形解法を開発する。 合成データと実データの両方の実験は、精度と効率の観点から線形解法の優位性を示し、その相補的特徴を既存の非線形解法の初期化方法として示している。 また, 連続時間非線形解法は, 一定運動仮定に依存しないため, 突然の運動変動を調節する異常な機能を示す。

Recovering the camera motion and scene geometry from visual data is a fundamental problem in the field of computer vision. Its success in standard vision is attributed to the maturity of feature extraction, data association and multi-view geometry. The recent emergence of neuromorphic event-based cameras places great demands on approaches that use raw event data as input to solve this fundamental problem. Existing state-of-the-art solutions typically infer implicitly data association by iteratively reversing the event data generation process. However, the nonlinear nature of these methods limits their applicability in real-time tasks, and the constant-motion assumption leads to unstable results under agile motion. To this end, we rethink the problem formulation in a way that aligns better with the differential working principle of event cameras. We show that the event-based normal flow can be used, via the proposed geometric error term, as an alternative to the full flow in solving a family of geometric problems that involve instantaneous first-order kinematics and scene geometry. Furthermore, we develop a fast linear solver and a continuous-time nonlinear solver on top of the proposed geometric error term. Experiments on both synthetic and real data show the superiority of our linear solver in terms of accuracy and efficiency, and indicate its complementary feature as an initialization method for existing nonlinear solvers. Besides, our continuous-time non-linear solver exhibits exceptional capability in accommodating sudden variations in motion since it does not rely on the constant-motion assumption.
翻訳日:2024-11-08 20:48:00 公開日:2024-10-09
# ReFeR: 階層モデルによる評価と推論の改善

ReFeR: Improving Evaluation and Reasoning through Hierarchy of Models ( http://arxiv.org/abs/2407.12877v2 )

ライセンス: Link先を確認
Yaswanth Narsupalli, Abhranil Chandra, Sreevatsa Muppirala, Manish Gupta, Pawan Goyal, (参考訳) 大規模言語モデルや視覚言語モデルなどの生成モデルによって生成されたアウトプットの品質を評価することは、顕著な課題である。 従来の評価手法は、典型的には、資源集約的な人的評価や、人間の判断と相関の低い自動測定に頼っている。 もうひとつの一般的なアプローチは、大量の計算と時間を消費するだけでなく、広範なトレーニングデータを必要とするディープラーニングシステムを使用することだ。 本研究では,LLMとVLMの2レベル階層を利用して,テキストと画像の両方を含む生成出力を評価するためのReFeRというチューニングフリーフレームワークを提案する。 フレームワークであるReFeRを4つの多様な評価タスクで厳格に評価します。 このフレームワークは、これらの評価の精度を向上し、以前のベンチマークを上回るだけでなく、建設的なフィードバックも生成する。 興味深いことに、このフレームワークは推論タスクにも適用できる。 4つの推論タスクの実験は、フレームワークのより優れた集団推論能力を示す。 性能向上のために最適化されたReFeR-Turboと、よりコスト効率の良いソリューションを提供するReFeR-Liteの2つのバリエーションを提示する。 ReFeR-Liteは$\sim7.7\times$より効率的であり、ReFeR-Turboと同等に正確である。 コード、データ、PIPパッケージを公開しています。 PIP URL https://pypi.org/project/refer-agents/ と Git URL https://github.com/yaswanth-iitkgp/ReFeR_Code をご覧ください。

Assessing the quality of outputs generated by generative models, such as large language models and vision language models, presents notable challenges. Traditional methods for evaluation typically rely on either human assessments, which are resource-intensive, or automatic metrics that often show a low correlation with human judgment. Another common approach is to use deep learning systems, which not only consume a substantial amount of compute and time but also require extensive training data. In this study, we introduce a tuning-free framework called ReFeR, designed to evaluate generative outputs, including both text and images, by leveraging a 2-level hierarchy of LLMs and VLMs themselves. We rigorously evaluate our framework, ReFeR, across four diverse evaluation tasks. The framework not only improves the accuracy of these evaluations, surpassing previous benchmarks but also generates constructive feedback. Interestingly, the framework is also applicable to reasoning tasks. Experiments on four reasoning tasks demonstrate superior collective reasoning abilities of the framework. We present two variants of the framework: ReFeR-Turbo, optimized for accelerated performance, and ReFeR-Lite, offering a more cost-effective solution. ReFeR-Lite is $\sim7.7\times$ more efficient while being comparably accurate to ReFeR-Turbo. We make code, data and PIP package publicly available. See this PIP URL https://pypi.org/project/refer-agents/ and this Git URL https://github.com/yaswanth-iitkgp/ReFeR_Code .
翻訳日:2024-11-08 20:25:29 公開日:2024-10-09
# 同種暗号を用いたプロキシシグナへの署名権を委譲する新しいアプローチ

A new approach to delegate signing rights to proxy signers using isogeny-based cryptography ( http://arxiv.org/abs/2407.13318v2 )

ライセンス: Link先を確認
Kunal Dey, Somnath Kumar, Vikas Srivastava, Sumit Kumar Debnath, Ashok Kumar Das, (参考訳) E-governanceは、政府サービスを使用し、データを共有し、情報を要求するための双方向プロトコルである。 行政サービスを効率的かつ迅速に公共に提供するためのコミュニケーションと情報技術の使用を指す。 さらに、e-Governmentシステムに提出された書類は、デジタル署名方式を用いて政府職員によって認証されなければならない。 デジタルシグネチャの文脈では、プロキシシグネチャは重要な暗号プリミティブであり、元のシグネチャが署名権限を他のシグネチャ(プロキシシグネチャ)に委譲することを可能にする。 プロキシシグネチャは、E- Governmentシステムに多くの重要な応用がある。 現在、大量のプロキシシグネチャスキームがあります。 それらの殆どのセキュリティは、離散対数問題と整数問題の因数分解という、以下の難しい問題に依存している。 しかし、ショアのアルゴリズムにより、大規模量子コンピュータは多項式時間で解くことができる。 結果として、量子コンピュータに抵抗するプロキシシグネチャが、量子敵からE-Governanceシステムを保護する必要がある。 本研究では、量子後等質性に基づく最初のプロキシシグネチャスキームCSI-PS(commutative supersingular isogeny proxy signature)を提案する。 同種性に基づくグループアクション逆問題(GAIP)の難易度下では,本手法は u-cma が安全であることが証明された。

E-governance is a two-way protocol through which one can use government services, share data and request information. It refers to the use of communication and information technologies to provide government services to public in an efficient and fast manner. In addition, any document submitted to the e-Government system must be authenticated by a government officer using a digital signature scheme. In the context of digital signatures, the proxy signature is an important cryptographic primitive that allows the original signer to delegate signing authority to another signer (proxy signer). The proxy signature has a number of important applications in the e-government system. There are now a large amount of proxy signature schemes. The security of most of them relies on the following hard problems: the discrete logarithm problem and the factorization of integers problem. However, a large-scale quantum computer can solve them in polynomial time due to Shor's algorithm. As a consequence, there is a need for a quantum computer-resistant proxy signature to secure e-governance system from quantum adversaries. In this work, we propose the first post-quantum isogeny based proxy signature scheme CSI-PS (commutative supersingular isogeny proxy signature). Our construction is proven to be uf-cma secure under the hardness of the group action inverse problem (GAIP) based on isogeny.
翻訳日:2024-11-08 20:14:30 公開日:2024-10-09
# ECCO: 機能的正確さを犠牲にすることなく、モデル生成コードの効率を向上できるか?

ECCO: Can We Improve Model-Generated Code Efficiency Without Sacrificing Functional Correctness? ( http://arxiv.org/abs/2407.14044v2 )

ライセンス: Link先を確認
Siddhant Waghjale, Vishruth Veerendranath, Zora Zhiruo Wang, Daniel Fried, (参考訳) 大規模言語モデル(LLM)は機能的に正しいプログラムを生成することに大きく成功しているが、効率的な解を生成するための条件付けモデルは依然として課題である。 さらに、コードの効率をベンチマークする際の信頼性の欠如は、Pythonのような一般的なインタプリタ言語に対する様々なハードウェア仕様のハードルである。 本稿では,自然言語(NL)に基づくコード生成と履歴に基づくコード編集という,プログラム効率を評価するための再現可能なベンチマークECCOを提案する。 ECCO上では、テキスト内学習、実行やNLフィードバックによる反復的改善、実行履歴と編集履歴の微調整という、最も有望な3つのLCMベースのアプローチを適応し、徹底的に検討する。 ほとんどの手法は機能的正当性を低下させ、プログラム効率を適度に向上させるが、実行情報の追加は機能的正当性を維持するのに役立ち、NLフィードバックは効率を向上する。 LLMベースの効率的なコード生成に関する今後の作業を支援するため、我々のベンチマークをリリースする。

Although large language models (LLMs) have been largely successful in generating functionally correct programs, conditioning models to produce efficient solutions while ensuring correctness remains a challenge. Further, unreliability in benchmarking code efficiency is a hurdle across varying hardware specifications for popular interpreted languages such as Python. In this paper, we present ECCO, a reproducible benchmark for evaluating program efficiency via two paradigms: natural language (NL) based code generation and history-based code editing. On ECCO, we adapt and thoroughly investigate the three most promising existing LLM-based approaches: in-context learning, iterative refinement with execution or NL feedback, and fine-tuning conditioned on execution and editing history. While most methods degrade functional correctness and moderately increase program efficiency, we find that adding execution information often helps maintain functional correctness, and NL feedback enhances more on efficiency. We release our benchmark to support future work on LLM-based generation of efficient code.
翻訳日:2024-11-08 19:38:31 公開日:2024-10-09
# 単一光子源としての1次元フォトニックワイヤ:次元が減少するフォノン浴における空洞QEDの影響

One-dimensional photonic wire as a single-photon source: Implications of cavity QED to a phonon bath of reduced dimensionality ( http://arxiv.org/abs/2407.14462v2 )

ライセンス: Link先を確認
José Ferreira Neto, Matias Bundgaard-Nielsen, Niels Gregersen, Luca Vannucci, (参考訳) 固体材料に配置された半導体量子ドットは単一光子の決定論的放出を可能にするが、光子不明瞭性は固体環境の格子振動、フォノンとの固有結合に強く影響される。 本研究では、均質円筒ナノワイヤの1次元系に置かれた量子ドットに対するフォノン誘起デコヒーレンスについて検討する。 このような構造は複数の長手フォノン分岐をサポートし、これらのモードに対するエミッタの線形結合と二次結合の両方を考える。 ポーラロン法では,まず1D純脱落率の解析式を導出し,バルクに比べて純脱落率を低下させる。 これらの結果を完全な空洞量子電磁力学モデルに実装することにより、1次元系の不明瞭性を正確に予測するためには、多重モード結合が必要であり、そうでなければかなり過小評価される可能性があることを実証する。

While the semiconductor quantum dot placed in a solid-state material allows for deterministic emission of single photons, the photon indistinguishability is strongly influenced by the intrinsic coupling to lattice vibrations, phonons, of the solid-state environment. This work investigates the phonon-induced decoherence for a quantum dot placed in the one-dimensional system of a homogeneous cylindrical nanowire. Such a structure supports multiple longitudinal phonon branches, and we consider both a linear and a quadratic coupling of the emitter to these modes. Under a polaron approach, we initially derive an analytical expression for the 1D pure dephasing rate, which leads to a reduced pure dephasing rate compared with bulk. By implementing these results into a full cavity quantum electrodynamic model, we demonstrate that multimode coupling is necessary to correctly predict the indistinguishability in a 1D system, which may otherwise be significantly underestimated.
翻訳日:2024-11-08 19:38:31 公開日:2024-10-09
# MovieDreamer:コヒーレントなロングビジュアルシーケンスの階層的生成

MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence ( http://arxiv.org/abs/2407.16655v2 )

ライセンス: Link先を確認
Canyu Zhao, Mingyu Liu, Wen Wang, Weihua Chen, Fan Wang, Hao Chen, Bo Zhang, Chunhua Shen, (参考訳) ビデオ生成の最近の進歩は、主に短調コンテンツに対する拡散モデルを活用している。 しかし、これらのアプローチは、複雑な物語をモデル化し、映画のような長編ビデオ制作に欠かせない、長い期間にわたってキャラクターの一貫性を維持することにしばしば失敗する。 自己回帰モデルと拡散に基づくレンダリングを融合した新しい階層型フレームワークであるMovieDreamerを提案する。 提案手法では,グローバルな物語コヒーレンスに自己回帰モデルを用いて,拡散レンダリングにより高品質な映像フレームに変換される視覚トークンのシーケンスを予測する。 この方法は、複雑なストーリーを、管理可能なシーンキャプチャーに分解する従来の映画制作プロセスに似ている。 さらに,シーン記述に詳細な文字情報と視覚的スタイルを付加したマルチモーダルスクリプトを用いて,シーン間の連続性とキャラクタの同一性を向上する。 様々な映画ジャンルにまたがって広範な実験を行い、我々のアプローチが優れた視覚的・物語的品質を達成できるだけでなく、生成したコンテンツの持続時間を現在の能力を超えて効果的に拡張できることを実証した。 ホームページ:https://aim-uofa.github.io/MovieDreamer/。

Recent advancements in video generation have primarily leveraged diffusion models for short-duration content. However, these approaches often fall short in modeling complex narratives and maintaining character consistency over extended periods, which is essential for long-form video production like movies. We propose MovieDreamer, a novel hierarchical framework that integrates the strengths of autoregressive models with diffusion-based rendering to pioneer long-duration video generation with intricate plot progressions and high visual fidelity. Our approach utilizes autoregressive models for global narrative coherence, predicting sequences of visual tokens that are subsequently transformed into high-quality video frames through diffusion rendering. This method is akin to traditional movie production processes, where complex stories are factorized down into manageable scene capturing. Further, we employ a multimodal script that enriches scene descriptions with detailed character information and visual style, enhancing continuity and character identity across scenes. We present extensive experiments across various movie genres, demonstrating that our approach not only achieves superior visual and narrative quality but also effectively extends the duration of generated content significantly beyond current capabilities. Homepage: https://aim-uofa.github.io/MovieDreamer/.
翻訳日:2024-11-08 15:34:26 公開日:2024-10-09
# インテクスト学習の展開 : 作業メカニズムを理解するための協調システム

Unveiling In-Context Learning: A Coordinate System to Understand Its Working Mechanism ( http://arxiv.org/abs/2407.17011v2 )

ライセンス: Link先を確認
Anhao Zhao, Fanghua Ye, Jinlan Fu, Xiaoyu Shen, (参考訳) 大規模言語モデル(LLM)は、優れたインコンテキスト学習(ICL)能力を示す。 しかし、ICLの基盤となる作用機構はいまだよく理解されていない。 最近の研究は、ICLに関する2つの矛盾する見解を提示している: 1つは、デモにおける同様の例の影響を強調し、ラベルの正しさとより多くのショットの必要性を強調している。 もう1つは、LLMが本来持つタスク認識能力、ラベルの正しさ、およびデモのショットナンバーを重要ではないとみなすものである。 本研究では,両ビューを体系的なフレームワークに統合する2次元コーディネートシステムを提案する。 このフレームワークは、2つの直交変数を通してICLの振る舞いを説明する: 同様の例がデモ(知覚)で提示されるかどうか、LLMがタスク(認識)を認識できるかどうかである。 本研究では, LLMのタスク認識能力を検出するために, ピーク逆ランク測定法を提案し, 類似性の異なる定義に対するLLMの反応について検討する。 これらに基づいて、複数の代表分類タスクにおいて、各四角形に対してICL関数がどのように機能するかを解明するための広範な実験を行う。 最後に,解析結果を生成タスクに拡張することにより,生成タスクのICLを効果的に解釈できることを示す。

Large language models (LLMs) exhibit remarkable in-context learning (ICL) capabilities. However, the underlying working mechanism of ICL remains poorly understood. Recent research presents two conflicting views on ICL: One emphasizes the impact of similar examples in the demonstrations, stressing the need for label correctness and more shots. The other attributes it to LLMs' inherent ability of task recognition, deeming label correctness and shot numbers of demonstrations as not crucial. In this work, we provide a Two-Dimensional Coordinate System that unifies both views into a systematic framework. The framework explains the behavior of ICL through two orthogonal variables: whether similar examples are presented in the demonstrations (perception) and whether LLMs can recognize the task (cognition). We propose the peak inverse rank metric to detect the task recognition ability of LLMs and study LLMs' reactions to different definitions of similarity. Based on these, we conduct extensive experiments to elucidate how ICL functions across each quadrant on multiple representative classification tasks. Finally, we extend our analyses to generation tasks, showing that our coordinate system can also be used to interpret ICL for generation tasks effectively.
翻訳日:2024-11-08 15:23:20 公開日:2024-10-09
# Gymnasium:強化学習環境の標準インターフェース

Gymnasium: A Standard Interface for Reinforcement Learning Environments ( http://arxiv.org/abs/2407.17032v2 )

ライセンス: Link先を確認
Ariel Kwiatkowski, Mark Towers, Jordan Terry, John U. Balis, Gianluca De Cola, Tristan Deleu, Manuel Goulão, Andreas Kallinteris, Markus Krimmel, Arjun KG, Rodrigo Perez-Vicente, Andrea Pierré, Sander Schulhoff, Jun Jet Tai, Hannah Tan, Omar G. Younis, (参考訳) 強化学習(Reinforcement Learning、RL)は、人工知能の多くの領域に革命をもたらす可能性がある継続的な成長分野である。 しかし、その約束にもかかわらず、RLの研究は環境やアルゴリズムの実装における標準化の欠如によってしばしば妨げられている。 これにより、研究者同士の作業の比較や構築が難しくなり、フィールドの進捗が遅くなる。 Gymnasiumはオープンソースのライブラリで、RL環境の標準APIを提供する。 Gymnasiumの主な特徴は、環境とトレーニングアルゴリズム間の広範な相互運用性を可能にする抽象化のセットであり、研究者がRLアルゴリズムの開発とテストを容易にする。 さらに、Gymnasiumは簡単に使える環境のコレクション、環境をカスタマイズするためのツール、RL研究の再現性と堅牢性を保証するツールを提供している。 この統合されたフレームワークを通じて、GymnasiumはRLアルゴリズムの開発とテストのプロセスを著しく合理化し、研究者はイノベーションに集中でき、実装の詳細に焦点を絞ることができる。 RL研究のための標準化されたプラットフォームを提供することで、Gymnasiumは強化学習の分野を前進させ、その潜在能力を最大限に活用するのに役立つ。 Gymnasiumはhttps://github.com/Farama-Foundation/Gymnasiumで公開されている。

Reinforcement Learning (RL) is a continuously growing field that has the potential to revolutionize many areas of artificial intelligence. However, despite its promise, RL research is often hindered by the lack of standardization in environment and algorithm implementations. This makes it difficult for researchers to compare and build upon each other's work, slowing down progress in the field. Gymnasium is an open-source library that provides a standard API for RL environments, aiming to tackle this issue. Gymnasium's main feature is a set of abstractions that allow for wide interoperability between environments and training algorithms, making it easier for researchers to develop and test RL algorithms. In addition, Gymnasium provides a collection of easy-to-use environments, tools for easily customizing environments, and tools to ensure the reproducibility and robustness of RL research. Through this unified framework, Gymnasium significantly streamlines the process of developing and testing RL algorithms, enabling researchers to focus more on innovation and less on implementation details. By providing a standardized platform for RL research, Gymnasium helps to drive forward the field of reinforcement learning and unlock its full potential. Gymnasium is available online at https://github.com/Farama-Foundation/Gymnasium
翻訳日:2024-11-08 15:23:20 公開日:2024-10-09
# 格子依存型物理インフォームドコルモゴロフ・アルノルドネットワークの適応学習

Adaptive Training of Grid-Dependent Physics-Informed Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2407.17611v2 )

ライセンス: Link先を確認
Spyros Rigas, Michalis Papachristou, Theofilos Papadopoulos, Fotios Anagnostopoulos, Georgios Alexandridis, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、ニューラルネットワークを介して解を近似し、損失関数に物理に基づく制約を課することにより、部分微分方程式(PDE)を解決するための堅牢なフレームワークとして登場した。 伝統的に、マルチレイヤパーセプトロン(MLP)は選択されたニューラルネットワークであり、トレーニングを最適化する上で大きな進歩を遂げてきた。 近年、KAN(Kolmogorov-Arnold Networks)が実現可能な代替手段として導入され、より優れた解釈可能性と効率を提供すると同時に、パラメータを少なくする可能性があった。 本稿では,PDEを解くために,グリッド依存のKolmogorov-Arnold Networks (PIKANs) の高速JAXベースの実装を提案する。 本稿では、グリッド拡張間の損失関数ピークを回避するための適応状態遷移手法を導入し、PIKANを代替基底関数で設計する手法を提案する。 比較実験により,適応的特徴は解の精度を著しく向上させ,基準解に対するL^2誤差を最大43.02%減少させることを示した。 調査対象のPDEでは,最大8.5倍のパラメータを持つアーキテクチャから得られた結果にアプローチあるいは超越し,科学的・工学的応用において優れた代替手段として,適応型グリッド依存型PIKANの可能性を強調した。

Physics-Informed Neural Networks (PINNs) have emerged as a robust framework for solving Partial Differential Equations (PDEs) by approximating their solutions via neural networks and imposing physics-based constraints on the loss function. Traditionally, Multilayer Perceptrons (MLPs) have been the neural network of choice, with significant progress made in optimizing their training. Recently, Kolmogorov-Arnold Networks (KANs) were introduced as a viable alternative, with the potential of offering better interpretability and efficiency while requiring fewer parameters. In this paper, we present a fast JAX-based implementation of grid-dependent Physics-Informed Kolmogorov-Arnold Networks (PIKANs) for solving PDEs, achieving up to 84 times faster training times than the original KAN implementation. We propose an adaptive training scheme for PIKANs, introducing an adaptive state transition technique to avoid loss function peaks between grid extensions, and a methodology for designing PIKANs with alternative basis functions. Through comparative experiments, we demonstrate that the adaptive features significantly enhance solution accuracy, decreasing the L^2 error relative to the reference solution by up to 43.02%. For the studied PDEs, our methodology approaches or surpasses the results obtained from architectures that utilize up to 8.5 times more parameters, highlighting the potential of adaptive, grid-dependent PIKANs as a superior alternative in scientific and engineering applications.
翻訳日:2024-11-08 15:12:19 公開日:2024-10-09
# Unlearnで学ぶ: 生成言語モデルのための反復的アンラーニングフレームワーク

Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models ( http://arxiv.org/abs/2407.20271v2 )

ライセンス: Link先を確認
Haoyu Tang, Ye Liu, Xukai Liu, Kai Zhang, Yanghai Zhang, Qi Liu, Enhong Chen, (参考訳) 機械学習の最近の進歩、特に自然言語処理(NLP)は、広範囲なデータセットで訓練された洗練されたモデルの開発に繋がったが、センシティブな情報の漏洩を懸念している。 これに対し、欧州連合(EU)の一般データ保護規則(GDPR)などの規制措置は、特定のデータエントリを選択的に忘れることを可能にする機械学習技術への関心を高めている。 初期のアプローチは、主に前処理方式に依存していたが、最近の研究では、トレーニングベースの未学習技術に移行している。 その有効性にもかかわらず、既存のほとんどのメソッドは、しばしばアクセスできないオリジナルのトレーニングデータにアクセスする必要がある。 さらに、未学習のテクニックを直接適用すると、モデルの表現能力を損なうコストがかかる。 これらの課題に対処するために、我々は、3つのコアコンポーネントからなるIterative Contrastive Unlearning (ICU)フレームワークを紹介した。これは、未学習の損失を通じて特定の知識を取り除くように設計された知識未学習誘導モジュール、純粋な未学習の目標に対してモデルの表現力を維持するためのコントラスト学習拡張モジュール、特定のデータ片の未学習範囲を動的に評価し、反復的な更新を行う反復未学習修正モジュールである。 実験により、モデル全体の性能を維持しながら、未学習のセンシティブな情報に対するICU手法の有効性を実証し、プライバシーに配慮した機械学習アプリケーションに有望なソリューションを提供する。

Recent advancements in machine learning, particularly in Natural Language Processing (NLP), have led to the development of sophisticated models trained on extensive datasets, yet raising concerns about the potential leakage of sensitive information. In response, regulatory measures such as the European Union's General Data Protection Regulation (GDPR) have driven increasing interest in Machine Unlearning techniques, which enable models to selectively forget specific data entries. Early approaches primarily relied on pre-processing methods, while more recent research has shifted towards training-based unlearning techniques. Despite their effectiveness, most existing methods require access to the original training data, which is often inaccessible. Additionally, directly applying unlearning techniques bear the cost of undermining the model's expressive capabilities. To address these challenges, we introduce the Iterative Contrastive Unlearning (ICU) framework, which consists of three core components: A Knowledge Unlearning Induction module designed to remove specific knowledge through an unlearning loss; A Contrastive Learning Enhancement module to preserve the model's expressive capabilities against the pure unlearning goal; And an Iterative Unlearning Refinement module that dynamically assess the unlearning extent on specific data pieces and make iterative update. Experimental results demonstrate the efficacy of our ICU method in unlearning sensitive information while maintaining the model's overall performance, offering a promising solution for privacy-conscious machine learning applications.
翻訳日:2024-11-08 14:05:01 公開日:2024-10-09
# 大きな条件数を持つシステムにおけるHHLアルゴリズムの強化

Enhancing the Harrow-Hassidim-Lloyd (HHL) algorithm in systems with large condition numbers ( http://arxiv.org/abs/2407.21641v2 )

ライセンス: Link先を確認
Peniel Bertrand Tsemo, Akshaya Jayashankar, K. Sugisaki, Nishanth Baskaran, Sayan Chakraborty, V. S. Prasannaa, (参考訳) HHL (Harrow-Hassidim-Lloyd) アルゴリズムは、A$行列の条件数 (\mathcal{\kappa}$) のスケーリングに関連する問題に直面している。 本研究では,HHLアルゴリズムの単純かつ効果的な修正を伴い,|x\rangle$という特徴を抽出し,大条件条件条件に対して$\mathcal{\kappa$(線形スケーリング)の最適動作を実現する,ポストセレクション改良HHL(Psi-HHL)アプローチを導入することでこの問題に対処する。 これは、従来のHHLアルゴリズムと比較してかなり少ないショットを使用する必要があるという重要な実践的意味を持っている。 2組のシミュレーションを行い、26量子ビットの計算を行い、Psi-HHLが大きな$\mathcal{\kappa}$行列を扱えることを示す。 (a)おもちゃの行列のセットで、64ドルと$\mathcal{\kappaの64ドルと$\mathcal{\kappaの値が最大$\approx$100M(100万ドル)になる。 b) 量子化学の深い研究で、行列は最大で256 \times 256$で、$\mathcal{\kappa} は約466である。 私たちが考える分子系は、Li$_{\mathrm{2}}$, RbH, CsHである。 私たちの例では、|x\rangle$ の特徴は HHL アルゴリズムの入力状態と出力状態の重複であるが、我々のアプローチは一般的であり、|x\rangle$ を含む任意の遷移行列要素に原理的に適用することができる。

Although the Harrow-Hassidim-Lloyd (HHL) algorithm offers an exponential speedup in system size for treating linear equations of the form $A\vec{x}=\vec{b}$ on quantum computers when compared to their traditional counterparts, it faces a challenge related to the condition number ($\mathcal{\kappa}$) scaling of the $A$ matrix. In this work, we address the issue by introducing the post-selection-improved HHL (Psi-HHL) approach that involves a simple yet effective modification of the HHL algorithm to extract a feature of $|x\rangle$, and which leads to achieving optimal behaviour in $\mathcal{\kappa}$ (linear scaling) for large condition number situations. This has the important practical implication of having to use substantially fewer shots relative to the traditional HHL algorithm. We carry out two sets of simulations, where we go up to 26-qubit calculations, to demonstrate the ability of Psi-HHL to handle situations involving large $\mathcal{\kappa}$ matrices via: (a) a set of toy matrices, for which we go up to size $64 \times 64$ and $\mathcal{\kappa}$ values of up to $\approx$ 1 million, and (b) a deep-dive into quantum chemistry, where we consider matrices up to size $256 \times 256$ that reach $\mathcal{\kappa}$ of about 466. The molecular systems that we consider are Li$_{\mathrm{2}}$, RbH, and CsH. Although the feature of $|x\rangle$ considered in our examples is an overlap between the input and output states of the HHL algorithm, our approach is general and can be applied in principle to any transition matrix element involving $|x\rangle$.
翻訳日:2024-11-08 13:40:32 公開日:2024-10-09
# 大きな条件数を持つシステムにおけるHHLアルゴリズムの強化

Enhancing the Harrow-Hassidim-Lloyd (HHL) algorithm in systems with large condition numbers ( http://arxiv.org/abs/2407.21641v3 )

ライセンス: Link先を確認
Peniel Bertrand Tsemo, Akshaya Jayashankar, K. Sugisaki, Nishanth Baskaran, Sayan Chakraborty, V. S. Prasannaa, (参考訳) HHL (Harrow-Hassidim-Lloyd) アルゴリズムは、A$行列の条件数 (\mathcal{\kappa}$) のスケーリングに関連する問題に直面している。 本研究では,HHLアルゴリズムの単純かつ効果的な修正を伴い,|x\rangle$という特徴を抽出し,大条件条件条件に対して$\mathcal{\kappa$(線形スケーリング)の最適動作を実現する,ポストセレクション改良HHL(Psi-HHL)アプローチを導入することでこの問題に対処する。 これは、従来のHHLアルゴリズムと比較してかなり少ないショットを使用する必要があるという重要な実践的意味を持っている。 2組のシミュレーションを行い、26量子ビットの計算を行い、Psi-HHLが大きな$\mathcal{\kappa}$行列を扱えることを示す。 (a)おもちゃの行列のセットで、64ドルと$\mathcal{\kappaの64ドルと$\mathcal{\kappaの値が最大$\approx$100M(100万ドル)になる。 b) 量子化学の深い研究で、行列は最大で256 \times 256$で、$\mathcal{\kappa} は約466である。 私たちが考える分子系は、Li$_{\mathrm{2}}$, RbH, CsHである。 私たちの例では、|x\rangle$ の特徴は HHL アルゴリズムの入力状態と出力状態の重複であるが、我々のアプローチは一般的であり、|x\rangle$ を含む任意の遷移行列要素に原理的に適用することができる。

Although the Harrow-Hassidim-Lloyd (HHL) algorithm offers an exponential speedup in system size for treating linear equations of the form $A\vec{x}=\vec{b}$ on quantum computers when compared to their traditional counterparts, it faces a challenge related to the condition number ($\mathcal{\kappa}$) scaling of the $A$ matrix. In this work, we address the issue by introducing the post-selection-improved HHL (Psi-HHL) approach that involves a simple yet effective modification of the HHL algorithm to extract a feature of $|x\rangle$, and which leads to achieving optimal behaviour in $\mathcal{\kappa}$ (linear scaling) for large condition number situations. This has the important practical implication of having to use substantially fewer shots relative to the traditional HHL algorithm. We carry out two sets of simulations, where we go up to 26-qubit calculations, to demonstrate the ability of Psi-HHL to handle situations involving large $\mathcal{\kappa}$ matrices via: (a) a set of toy matrices, for which we go up to size $64 \times 64$ and $\mathcal{\kappa}$ values of up to $\approx$ 1 million, and (b) a deep-dive into quantum chemistry, where we consider matrices up to size $256 \times 256$ that reach $\mathcal{\kappa}$ of about 466. The molecular systems that we consider are Li$_{\mathrm{2}}$, RbH, and CsH. Although the feature of $|x\rangle$ considered in our examples is an overlap between the input and output states of the HHL algorithm, our approach is general and can be applied in principle to any transition matrix element involving $|x\rangle$.
翻訳日:2024-11-08 13:40:32 公開日:2024-10-09
# 大規模言語モデルアライメントのための段階的ラベル強調

Progressively Label Enhancement for Large Language Model Alignment ( http://arxiv.org/abs/2408.02599v2 )

ライセンス: Link先を確認
Biao Liu, Ning Xu, Xin Geng, (参考訳) 大規模言語モデル(LLM)のアライメントは、人間の期待に反するコンテンツをモデルが生成することを防ぐことを目的としており、倫理的および法的懸念につながる可能性がある。 近年,ヒトフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)がアライメントを実現する最も顕著な方法である。 複数のモデル間の複雑な相互作用から生じるRLHFステージの安定性とスケーラビリティの課題により、研究者はRLHFステージに匹敵する効果を達成するための代替手法を模索している。 しかし、これらの手法は多くの場合、大きな高品質なデータセットに依存している。 データセットを拡張するための追加データの生成を検討するいくつかの手法にもかかわらず、モデルトレーニングとデータ生成を分離された静的プロセスとして扱うことが多い。 この問題に対処するため,LLMアライメントのプログレッシブ・ラベル・エンハンスメント(Progressively Label Enhancement for LLM Alignment)という,生成されたデータの進化的品質に基づいてモデルのトレーニングプロセスを動的に調整するフレームワークを提案する。 具体的には,本モデルに対して,厳密な設計原則によって導かれたクエリとクエリの両方に対する応答を生成するように促すとともに,動的しきい値を用いて,対応する報酬スコアに基づいて,両方の応答に対する適切なトレーニングアプローチを決定する。 従来のLCMアライメント法と比較して, PLEの有効性を示す実験結果が得られた。

Large Language Models (LLM) alignment aims to prevent models from producing content that misaligns with human expectations, which can lead to ethical and legal concerns. In the last few years, Reinforcement Learning from Human Feedback (RLHF) has been the most prominent method for achieving alignment. Due to challenges in stability and scalability with RLHF stages, which arise from the complex interactions between multiple models, researchers are exploring alternative methods to achieve effects comparable to those of RLHF. However, these methods often rely on large high-quality datasets. Despite some methods considering the generation of additional data to expand datasets, they often treat model training and data generation as separate and static processes, overlooking the fact that these processes are highly interdependent, leading to inefficient utilization of the generated data. To deal with this problem, we propose PLE, i.e., Progressively Label Enhancement for LLM Alignment, a framework that dynamically adjusts the model's training process based on the evolving quality of the generated data. Specifically, we prompt the model to generate responses for both the original query and the query guided by a set of carefully designed principles, and then utilize a dynamic threshold to determine the appropriate training approach for both responses based on their corresponding reward scores. Experimental results demonstrate the effectiveness of PLE compared to existing LLM alignment methods.
翻訳日:2024-11-08 12:55:50 公開日:2024-10-09
# FlowDreamer: 整流による高忠実テキスト・ツー・3D生成の探索

FlowDreamer: Exploring High Fidelity Text-to-3D Generation via Rectified Flow ( http://arxiv.org/abs/2408.05008v3 )

ライセンス: Link先を確認
Hangyu Li, Xiangxiang Chu, Dingyuan Shi, Wang Lin, (参考訳) テキスト・ツー・3D生成の最近の進歩は、大きな進歩をもたらした。 特に,事前学習した拡散モデルでは,SDS(Score Distillation Sampling)を用いて,テキストから3D生成におけるNeural RaRecentの進歩などの3Dモデルのトレーニングが盛んに行われている。 特に、事前訓練された拡散モデルでは、既存の手法は主にスコア蒸留サンプリング(SDS)を使用してニューラルレイディアンス・フィールド(NeRF)や3Dガウス・スプラッティング(3D GS)などの3Dモデルを訓練している。 しかしハードルは、過度に滑らかなテクスチャと過度に飽和した色で、しばしば困難に直面することである。 単純な常微分方程式(ODE)を用いて直線軌道を表現した整流流モデルは、テキストから3D生成の代替となる。 時間非依存ベクトル場を学習し、SDSフレームワークの時間依存スコアを用いて計算される3次元モデル更新勾配の曖昧さを低減する。 そこで我々はまず,SDSを整流モデルとシームレスに統合する数学的解析法を開発し,Vector Field Distillation Sampling (VFDS) と呼ばれる初期フレームワークへの道を開いた。 しかし, 経験的所見から, VFDSは相変わらず過剰な結果をもたらすことが示唆された。 そこで本研究では, ODEトラジェクトリの観点から, このような障害の原因を解析する。 また,フロードレーマーという新しいフレームワークを提案する。このフレームワークは,よりリッチなテキストの詳細とより高速な収束によって,高い忠実度が得られる。 鍵となる洞察は、VFDSのようにランダムにサンプリングされたノイズを使用するのではなく、整流モデルの結合性と可逆性を利用して対応するノイズを探索することである。 そこで,本研究では,同じ軌道に沿って3次元モデルに最適化を誘導する新しいUCM(Unique Couple Matching)の損失について紹介する。

Recent advances in text-to-3D generation have made significant progress. In particular, with the pretrained diffusion models, existing methods predominantly use Score Distillation Sampling (SDS) to train 3D models such as Neural RaRecent advances in text-to-3D generation have made significant progress. In particular, with the pretrained diffusion models, existing methods predominantly use Score Distillation Sampling (SDS) to train 3D models such as Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3D GS). However, a hurdle is that they often encounter difficulties with over-smoothing textures and over-saturating colors. The rectified flow model -- which utilizes a simple ordinary differential equation (ODE) to represent a straight trajectory -- shows promise as an alternative prior to text-to-3D generation. It learns a time-independent vector field, thereby reducing the ambiguity in 3D model update gradients that are calculated using time-dependent scores in the SDS framework. In light of this, we first develop a mathematical analysis to seamlessly integrate SDS with rectified flow model, paving the way for our initial framework known as Vector Field Distillation Sampling (VFDS). However, empirical findings indicate that VFDS still results in over-smoothing outcomes. Therefore, we analyze the grounding reasons for such a failure from the perspective of ODE trajectories. On top, we propose a novel framework, named FlowDreamer, which yields high fidelity results with richer textual details and faster convergence. The key insight is to leverage the coupling and reversible properties of the rectified flow model to search for the corresponding noise, rather than using randomly sampled noise as in VFDS. Accordingly, we introduce a novel Unique Couple Matching (UCM) loss, which guides the 3D model to optimize along the same trajectory.
翻訳日:2024-11-08 12:00:36 公開日:2024-10-09
# 量子チャネルの量子容量における相転移

Phase Transition in the Quantum Capacity of Quantum Channels ( http://arxiv.org/abs/2408.05733v3 )

ライセンス: Link先を確認
Shayan Roofeh, Vahid Karimipour, (参考訳) 量子チャネルの容量を決定することは、量子情報理論の基本的な問題の一つである。 この問題は極めて困難で技術的に困難であり、特定の種類のチャネルに対して下限と上限しか計算できない。 本稿では、任意の次元において全ての量子チャネル$\Lambda$が、$\Lambda_x(\rho)=(1-x)\Lambda(\rho)+x\text{Tr}(\rho) \frac{I}{d}$の形でホワイトノイズによって汚染されると、$x\geq \frac{1}{2}$のときに量子状態の伝送能力を完全に失うことを示す。 言い換えれば、チャネルの量子容量はこの領域で消滅する。 これを示すために、$d$次元の量子偏極チャネルが $\mathcal{D}_x (\rho):=(1-x)\rho+\frac{x}{d}I_d$ と定義されるのは、$x\geq \frac{1}{2}$ のときである。 この性質の間接的な証明はあるが、量子チャネル ${\cal N}_x$ は明らかにこのチャネルを劣化させる。 さらに、この方法では、同じ領域で分解可能な${\cal D}^c_x$という新しいチャネルが見つかる。 分解性があるということは、この新しいチャネルは量子容量の付加的な性質を享受することを意味する。

Determining the capacities of quantum channels is one of the fundamental problems of quantum information theory. This problem is extremely challenging and technically difficult, allowing only lower and upper bounds to be calculated for certain types of channels. In this paper, we prove that every quantum channel $\Lambda$ in arbitrary dimension, when contaminated by white noise in the form $\Lambda_x(\rho)=(1-x)\Lambda(\rho)+x\text{Tr}(\rho) \frac{I}{d}$, completely loses its capacity of transmiting quantum states when $x\geq \frac{1}{2}$, no matter what type of encoding and decoding is used. In other words, the quantum capacity of the channel vanishes in this region. To show this, we prove that the quantum depolarizing channel in $d$ dimension, defined as $\mathcal{D}_x (\rho):=(1-x)\rho+\frac{x}{d}I_d$ is anti-degradable when $x\geq \frac{1}{2}$. Although there are indirect proofs of this property, we explicitly find the quantum channel ${\cal N}_x$, which anti-degrades this channel. Furthermore, in this way, we find a new channel, namely ${\cal D}^c_x$ which is degradable in the same region. Being degradable, means that this new channel enjoys additive property for its quantum capacity.
翻訳日:2024-11-08 11:49:24 公開日:2024-10-09
# ハンケルDMD制御のための低騒音安定クープマン演算子の学習

Learning Noise-Robust Stable Koopman Operator for Control with Hankel DMD ( http://arxiv.org/abs/2408.06607v4 )

ライセンス: Link先を確認
Shahriar Akbar Sakib, Shaowu Pan, (参考訳) 本研究では,非線形力学系のクープマン演算子に対して,雑音に対する長期的安定性とロバスト性を確保するためのノイズロスト学習フレームワークを提案する。 拡張動的モード分解(EDMD)におけるアドホック・オブザーバブル(ad-hoc observables)やブラックボックス・ニューラル・ネットワーク(Black-box Neural Network)に依存する既存のアプローチとは異なり、我々のフレームワークは、ハンケル行列を通じてシステムダイナミクスによって生成されたオブザーバブルを利用する。 雑音の頑健性を高め,長期安定性を確保するため,クープマン演算子の安定パラメータ化と,ロールアウト繰り返し損失の漸進的学習戦略を開発した。 位相空間におけるモデル性能をさらに向上させるために、データ拡張の簡単な反復戦略を開発した。 アブレーション法による古典非線形システムの予測と制御に関する数値実験により, 提案手法の有効性が示された。

We propose a noise-robust learning framework for the Koopman operator of nonlinear dynamical systems, ensuring long-term stability and robustness to noise. Unlike some existing approaches that rely on ad-hoc observables or black-box neural networks in extended dynamic mode decomposition (EDMD), our framework leverages observables generated by the system dynamics through a Hankel matrix, which shares similarities with discrete Polyflow. To enhance noise robustness and ensure long-term stability, we developed a stable parameterization of the Koopman operator, along with a progressive learning strategy for roll-out recurrent loss. To further improve model performance in the phase space, a simple iterative strategy of data augmentation was developed. Numerical experiments of prediction and control of classic nonlinear systems with ablation study showed the effectiveness of the proposed techniques over several state-of-the-art practices.
翻訳日:2024-11-08 11:26:46 公開日:2024-10-09
# 直接選好最適化のためのペアワイズデータのブリッジとモデリング相関

Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization ( http://arxiv.org/abs/2408.07471v2 )

ライセンス: Link先を確認
Yuxin Jiang, Bo Huang, Yufei Wang, Xingshan Zeng, Liangyou Li, Yasheng Wang, Xin Jiang, Lifeng Shang, Ruiming Tang, Wei Wang, (参考訳) オフライン選好最適化アルゴリズムとして広く採用されているDPOは,大規模言語モデル(LLM)を,ペアワイズ選好データを用いて人為的な行動と整合させることを目的としている。 しかし、ペアデータ内の勝利応答と敗応答は孤立的に生成され、両者間の相関が弱くなり、最適下アライメント性能が低下する。 この問題に対処するために,BMC という名前のペアデータにおけるブリッジ・アンド・モデリング・相関のための効果的なフレームワークを提案する。 まず、目的の修正によってペアの選好信号の整合性と情報性を高め、勝利応答の損失応答を基準として、擬似入賞応答を合成する。 第二に、DPOだけではこれらの相関をモデル化し、微妙な変動を捉えるには不十分である。 そこで本研究では,訓練中の政策モデルの信頼度を動的に活用し,トークンレベルの相関関係の学習を提案する。 QA,数学,命令追従タスクに関する総合的な実験は,DPOを含む競争ベースラインをはるかに超えて,我々のアプローチの有効性を実証している。 さらに,本手法がDPOよりも優れている理由を明らかにし,他のDPOよりも汎用性を示す。 私たちはリポジトリをhttps://github.com/YJiangcm/BMCでリリースしています。

Direct preference optimization (DPO), a widely adopted offline preference optimization algorithm, aims to align large language models (LLMs) with human-desired behaviors using pairwise preference data. However, the winning response and the losing response within pairwise data are generated isolatedly, leading to weak correlations between them as well as suboptimal alignment performance. To address this issue, we propose an effective framework for Bridging and Modeling Correlations in pairwise data, named BMC. Firstly, we increase the consistency and informativeness of the pairwise preference signals through targeted modifications, synthesizing a pseudo-winning response by improving the losing response with the winning response as a reference. Secondly, we identify that DPO alone is insufficient to model these correlations and capture nuanced variations. Therefore, we propose learning token-level correlations by dynamically leveraging the policy model's confidence during training. Comprehensive experiments on QA, math, and instruction-following tasks demonstrate the effectiveness of our approach, significantly surpassing competitive baselines, including DPO. Additionally, our in-depth quantitative analysis reveals the reasons behind our method's superior performance over DPO and showcases its versatility to other DPO variants. We release our repository at https://github.com/YJiangcm/BMC.
翻訳日:2024-11-08 07:40:14 公開日:2024-10-09
# トレーニングオーバーヘッド比率:大規模言語モデルトレーニングシステムのための実践的信頼性指標

Training Overhead Ratio: A Practical Reliability Metric for Large Language Model Training Systems ( http://arxiv.org/abs/2408.07482v3 )

ライセンス: Link先を確認
Ning Lu, Qian Xie, Hao Zhang, Wenyi Fang, Yang Zheng, Zheng Hu, Jiantao Ma, (参考訳) 大規模言語モデル(LLM)は、優れた能力でAI産業に革命をもたらしている。 これらのモデルのトレーニングには、大規模なGPUクラスタと大きな計算時間が必要です。 その重要性にもかかわらず、この分野は信頼性を評価するための指標が欠けている。 本研究では,耐故障性LLMトレーニングシステムの信頼性を評価するために,新しい信頼性指標である \emph{Training Overhead Ratio} (TOR) を導入する。 TORは、観測されたシステムのトレーニング時間に対する最適なトレーニング時間の割合として定義され、あるシステム上でLLMのトレーニングに要する実際の時間を推定するための実用的なツールとして機能する。 さらに,本研究では,信頼性向上の鍵となる要因と,実際に遭遇した各種障害に対するTOR式について検討した。

Large Language Models (LLMs) are revolutionizing the AI industry with their superior capabilities. Training these models requires large-scale GPU clusters and significant computing time, leading to frequent failures that significantly increase training costs. Despite its significance, this field lacks a metric for evaluating reliability. In this work, we introduce a novel reliability metric called \emph{Training Overhead Ratio} (TOR) to evaluate the reliability of fault-tolerant LLM training systems. TOR is defined as the ratio of optimal training time to the observed training time of a system, serving as a practical tool for users to estimate the actual time required to train an LLM on a given system. Furthermore, our investigation identifies the key factor for enhancing reliability and present TOR equations for various types of failures encountered in practice.
翻訳日:2024-11-08 07:40:14 公開日:2024-10-09
# 三原子分子における振動・回転・電子波パケットの動特性のイメージング

Imaging coupled vibrational, rotational, and electronic wave packet dynamics in a triatomic molecule ( http://arxiv.org/abs/2408.07958v2 )

ライセンス: Link先を確認
Huynh Van Sa Lam, Van-Hung Hoang, Anbu Selvam Venkatachalam, Surjendu Bhattacharyya, Keyu Chen, Sina Jacob, Sanduni Kudagama, Tu Thanh Nguyen, Daniel Rolles, Uwe Thumm, Artem Rudenko, Vinod Kumarappan, (参考訳) 光との相互作用によって引き起こされる分子動力学は、しばしばいくつかの電子状態、振動状態、回転状態の励起を含む。 結果として生じる電子と核のパケットの動きを特徴付けることは、小さな多原子系であっても深刻な課題である。 このレターでは、振動、回転、電子自由度の間の相互作用が、強電離二酸化硫黄の低層状態における分子波パケットの進化をいかに制御するかを示す。 時間分解型クーロン爆発画像(CEI)と量子機械波パケットシミュレーションを組み合わせることで、分子の曲げ振動を直接マッピングし、振動波パケットが分子配向によってどのように影響するかを示し、カチオンの2つの最低電子状態間のカップリングの役割を明らかにする。 これらの状態の間の円錐的交叉は曲がりと非対称な伸張座標を結合し、これは相関した断片モータにはっきりと反映される。 以上の結果から,多分子分子における電子・原子間相互作用の結合を特徴付けるための効率的な実験ツールとして,多共起CEIが有用であることが示唆された。

Molecular dynamics triggered by interaction with light often involve the excitation of several electronic, vibrational, and rotational states. Characterizing the resulting coupled electronic and nuclear wave packet motion represents a severe challenge, even for small polyatomic systems. In this Letter, we demonstrate how the interplay between vibrational, rotational, and electronic degrees of freedom governs the evolution of molecular wave packets in the low-lying states of strong-field-ionized sulfur dioxide. Using time-resolved Coulomb explosion imaging (CEI) in combination with quantum mechanical wave packet simulations, we directly map bending vibrations of the molecule, show how the vibrational wave packet is influenced by molecular alignment, and elucidate the role of the coupling between the two lowest electronic states of the cation. A conical intersection between these states couples the bending and asymmetric stretching coordinates, which is clearly reflected in the correlated fragment momenta. Our results suggest that multi-coincident CEI represents an efficient experimental tool for characterizing coupled electronic and nuclear motion in polyatomic molecules.
翻訳日:2024-11-08 07:40:14 公開日:2024-10-09
# 生成モデルにおけるガウス潜伏剤の線形結合:補間とそれ以上

Linear combinations of Gaussian latents in generative models: interpolation and beyond ( http://arxiv.org/abs/2408.08558v2 )

ライセンス: Link先を確認
Erik Bodin, Carl Henrik Ek, Henry Moss, (参考訳) 生成モデルからのサンプリングは、データ合成や拡張といったアプリケーションにとって重要なツールとなっている。 拡散、フローマッチング、連続正規化フローは様々なモードで有効性を示し、生成にはガウス潜在変数に依存している。 生成プロセスのさらなる制御を必要とする検索ベースアプリケーションやクリエイティブアプリケーションでは、潜伏変数を直接操作することが一般的になっている。 しかし、そのような操作を行う既存のアプローチ(例えば、補間や低次元表現の形成)は、特別なケースでのみうまく機能するか、ネットワークやデータモダリティに特化している。 本稿では, ガウス変数(COG)の組み合わせを, 実装が容易な汎用補間法として提案する。 さらに、COGは、潜在変数の一般線型結合を形成するというより広範なタスクに対処し、潜在空間の部分空間の構築を可能にし、高次元オブジェクトの表現的低次元空間の作成を劇的に単純化する。

Sampling from generative models has become a crucial tool for applications like data synthesis and augmentation. Diffusion, Flow Matching and Continuous Normalizing Flows have shown effectiveness across various modalities, and rely on Gaussian latent variables for generation. For search-based or creative applications that require additional control over the generation process, it has become common to manipulate the latent variable directly. However, existing approaches for performing such manipulations (e.g. interpolation or forming low-dimensional representations) only work well in special cases or are network or data-modality specific. We propose Combination of Gaussian variables (COG) as a general purpose interpolation method that is easy to implement yet outperforms recent sophisticated methods. Moreover, COG naturally addresses the broader task of forming general linear combinations of latent variables, allowing the construction of subspaces of the latent space, dramatically simplifying the creation of expressive low-dimensional spaces of high-dimensional objects.
翻訳日:2024-11-08 07:18:07 公開日:2024-10-09
# 生成モデルにおけるガウス潜伏剤の線形結合:補間とそれ以上

Linear combinations of Gaussian latents in generative models: interpolation and beyond ( http://arxiv.org/abs/2408.08558v3 )

ライセンス: Link先を確認
Erik Bodin, Carl Henrik Ek, Henry Moss, (参考訳) 生成モデルからのサンプリングは、データ合成や拡張といったアプリケーションにとって重要なツールとなっている。 拡散、フローマッチング、連続正規化フローは様々なモードで有効性を示し、生成にはガウス潜在変数に依存している。 生成プロセスのさらなる制御を必要とする検索ベースアプリケーションやクリエイティブアプリケーションでは、潜伏変数を直接操作することが一般的になっている。 しかし、そのような操作を行う既存のアプローチ(例えば、補間や低次元表現の形成)は、特別なケースでのみうまく機能するか、ネットワークやデータモダリティに特化している。 本稿では, ガウス変数(COG)の組み合わせを, 実装が容易な汎用補間法として提案する。 さらに、COGは、潜在変数の一般線型結合を形成するというより広範なタスクに対処し、潜在空間の部分空間の構築を可能にし、高次元オブジェクトの表現的低次元空間の作成を劇的に単純化する。

Sampling from generative models has become a crucial tool for applications like data synthesis and augmentation. Diffusion, Flow Matching and Continuous Normalizing Flows have shown effectiveness across various modalities, and rely on Gaussian latent variables for generation. For search-based or creative applications that require additional control over the generation process, it has become common to manipulate the latent variable directly. However, existing approaches for performing such manipulations (e.g. interpolation or forming low-dimensional representations) only work well in special cases or are network or data-modality specific. We propose Combination of Gaussian variables (COG) as a general purpose interpolation method that is easy to implement yet outperforms recent sophisticated methods. Moreover, COG naturally addresses the broader task of forming general linear combinations of latent variables, allowing the construction of subspaces of the latent space, dramatically simplifying the creation of expressive low-dimensional spaces of high-dimensional objects.
翻訳日:2024-11-08 07:18:07 公開日:2024-10-09
# 自己回帰型言語モデルにおける帰属法の忠実度評価の手段としての反事実

Counterfactuals As a Means for Evaluating Faithfulness of Attribution Methods in Autoregressive Language Models ( http://arxiv.org/abs/2408.11252v2 )

ライセンス: Link先を確認
Sepehr Kamahi, Yadollah Yaghoobzadeh, (参考訳) 自己回帰言語モデルが広く採用されているにもかかわらず、説明可能性評価の研究は主に埋め込んだ言語モデルとマスキング言語モデルに焦点を当てている。 モデルの説明からモデルを切り離すことが難しいため、説明手法の忠実さ(モデルの内部の動作と意思決定をいかに正確に説明するか)を評価することは困難である。 ほとんどの忠実度評価技術は、特定の属性(機能の重要性)メソッドによって重要とみなされる入力トークンを破損または除去し、結果のモデル出力の変化を観察する。 しかし, 自己回帰型言語モデルでは, 次段階の予測学習目標のため, 分布外入力を生成する。 本研究では,自己回帰型言語モデルに対する帰属手法の忠実度を評価するために,反事実生成を利用した手法を提案する。 提案手法は, 流動性, 分散性, 分散性, 分散性, 評価プロトコルの信頼性を向上する。

Despite the widespread adoption of autoregressive language models, explainability evaluation research has predominantly focused on span infilling and masked language models. Evaluating the faithfulness of an explanation method -- how accurately it explains the inner workings and decision-making of the model -- is challenging because it is difficult to separate the model from its explanation. Most faithfulness evaluation techniques corrupt or remove input tokens deemed important by a particular attribution (feature importance) method and observe the resulting change in the model's output. However, for autoregressive language models, this approach creates out-of-distribution inputs due to their next-token prediction training objective. In this study, we propose a technique that leverages counterfactual generation to evaluate the faithfulness of attribution methods for autoregressive language models. Our technique generates fluent, in-distribution counterfactuals, making the evaluation protocol more reliable.
翻訳日:2024-11-08 06:22:37 公開日:2024-10-09
# 自己回帰型言語モデルにおける帰属法の忠実度評価の手段としての反事実

Counterfactuals As a Means for Evaluating Faithfulness of Attribution Methods in Autoregressive Language Models ( http://arxiv.org/abs/2408.11252v3 )

ライセンス: Link先を確認
Sepehr Kamahi, Yadollah Yaghoobzadeh, (参考訳) 自己回帰言語モデルが広く採用されているにもかかわらず、説明可能性評価の研究は主に埋め込んだ言語モデルとマスキング言語モデルに焦点を当てている。 モデルの説明からモデルを切り離すことが難しいため、説明手法の忠実さ(モデルの内部の動作と意思決定をいかに正確に説明するか)を評価することは困難である。 ほとんどの忠実度評価技術は、特定の属性(機能の重要性)メソッドによって重要とみなされる入力トークンを破損または除去し、結果のモデル出力の変化を観察する。 しかし, 自己回帰型言語モデルでは, 次段階の予測学習目標のため, 分布外入力を生成する。 本研究では,自己回帰型言語モデルに対する帰属手法の忠実度を評価するために,反事実生成を利用した手法を提案する。 提案手法は, 流動性, 分散性, 分散性, 分散性, 評価プロトコルの信頼性を向上する。

Despite the widespread adoption of autoregressive language models, explainability evaluation research has predominantly focused on span infilling and masked language models. Evaluating the faithfulness of an explanation method -- how accurately it explains the inner workings and decision-making of the model -- is challenging because it is difficult to separate the model from its explanation. Most faithfulness evaluation techniques corrupt or remove input tokens deemed important by a particular attribution (feature importance) method and observe the resulting change in the model's output. However, for autoregressive language models, this approach creates out-of-distribution inputs due to their next-token prediction training objective. In this study, we propose a technique that leverages counterfactual generation to evaluate the faithfulness of attribution methods for autoregressive language models. Our technique generates fluent, in-distribution counterfactuals, making the evaluation protocol more reliable.
翻訳日:2024-11-08 06:22:37 公開日:2024-10-09
# 軽量局所パターン認識のステアケースカスケード融合と構造き裂の長期依存性

Staircase Cascaded Fusion of Lightweight Local Pattern Recognition and Long-Range Dependencies for Structural Crack Segmentation ( http://arxiv.org/abs/2408.12815v2 )

ライセンス: Link先を確認
Hui Liu, Chen Jia, Fan Shi, Xu Cheng, Mianzhao Wang, Shengyong Chen, (参考訳) クラックの局所的なテクスチャと画素依存性を効果的に統合する既存の手法では、キー構造に対する画素レベルの精度でクラックを検出することが大きな課題である。 さらに、これらの手法は、エッジ制御デバイスへの展開を複雑にし、多くのパラメータと相当な計算要求を持つことが多い。 本稿では,最小限の計算資源を用いて高品質な亀裂分割マップを生成する階段型亀裂分割ネットワーク(CrackSCF)を提案する。 我々は,局所的な亀裂パターンや画素の長距離依存性を効果的に捉え,背景雑音を効果的に抑制できる階段列融合モジュールを構築した。 モデルが必要とする計算資源を削減するために,ネットワーク内のすべての畳み込み操作を置き換える軽量畳み込みブロックを導入し,ネットワークの性能に影響を与えることなく,必要な計算とパラメータを著しく削減した。 この手法を評価するために、TUTと呼ばれる挑戦的なベンチマークデータセットを作成し、このデータセットと他の5つの公開データセットについて実験を行った。 実験結果から,本手法は既存の手法に比べて,特に背景雑音の干渉やき裂の詳細なセグメンテーションの処理において有益であることがわかった。 TUTデータセット上のF1とmIoUスコアはそれぞれ0.8382と0.8473であり、最小の計算資源を必要としながら最先端(SOTA)のパフォーマンスを達成する。 コードとデータセットはhttps://github.com/Karl1109/CrackSCFで公開されている。

Detecting cracks with pixel-level precision for key structures is a significant challenge, as existing methods struggle to effectively integrate local textures and pixel dependencies of cracks. Furthermore, these methods often possess numerous parameters and substantial computational requirements, complicating deployment on edge control devices. In this paper, we propose a staircase cascaded fusion crack segmentation network (CrackSCF) that generates high-quality crack segmentation maps using minimal computational resources. We constructed a staircase cascaded fusion module that effectively captures local patterns of cracks and long-range dependencies of pixels, and it can suppress background noise well. To reduce the computational resources required by the model, we introduced a lightweight convolution block, which replaces all convolution operations in the network, significantly reducing the required computation and parameters without affecting the network's performance. To evaluate our method, we created a challenging benchmark dataset called TUT and conducted experiments on this dataset and five other public datasets. The experimental results indicate that our method offers significant advantages over existing methods, especially in handling background noise interference and detailed crack segmentation. The F1 and mIoU scores on the TUT dataset are 0.8382 and 0.8473, respectively, achieving state-of-the-art (SOTA) performance while requiring the least computational resources. The code and dataset is available at https://github.com/Karl1109/CrackSCF.
翻訳日:2024-11-08 05:37:29 公開日:2024-10-09
# Atlas Gaussian Diffusion for 3D Generation (特集 バイオサイバネティックスとバイオサイバネティックス)

Atlas Gaussians Diffusion for 3D Generation ( http://arxiv.org/abs/2408.13055v2 )

ライセンス: Link先を確認
Haitao Yang, Yuan Dong, Hanwen Jiang, Dejia Xu, Georgios Pavlakos, Qixing Huang, (参考訳) 潜伏拡散モデルを用いることで、新しい3D生成技術の開発に有効であることが証明されている。 潜伏拡散モデルを活用するために重要な課題は、潜伏空間と3次元空間を結びつける高忠実で効率的な表現を設計することである。 本稿では,フィードフォワードネイティブな3D生成のための新しい表現であるAtlas Gaussiansを紹介する。 Atlas Gaussianはローカルパッチの結合として形状を表し、各パッチは3D Gaussianをデコードできる。 特徴ベクトルの列としてパッチをパラメータ化し,特徴ベクトルから3次元ガウスを復号する学習可能な関数を設計する。 このプロセスでは、UVに基づくサンプリングを導入し、十分に大きく、理論上無限な3次元ガウス点の生成を可能にする。 大量の3Dガウス多様体は高品質な細部の生成を可能にする。 さらに、表現の局所的な認識により、変換器ベースの復号処理はパッチレベルで動作し、効率性を確保する。 我々は変分オートエンコーダを訓練してAtlas Gaussian表現を学習し、その潜在空間に潜時拡散モデルを適用して3D生成を学習する。 実験により,本手法は,フィードフォワードネイティブな3D世代における先行技術よりも優れていることが示された。

Using the latent diffusion model has proven effective in developing novel 3D generation techniques. To harness the latent diffusion model, a key challenge is designing a high-fidelity and efficient representation that links the latent space and the 3D space. In this paper, we introduce Atlas Gaussians, a novel representation for feed-forward native 3D generation. Atlas Gaussians represent a shape as the union of local patches, and each patch can decode 3D Gaussians. We parameterize a patch as a sequence of feature vectors and design a learnable function to decode 3D Gaussians from the feature vectors. In this process, we incorporate UV-based sampling, enabling the generation of a sufficiently large, and theoretically infinite, number of 3D Gaussian points. The large amount of 3D Gaussians enables the generation of high-quality details. Moreover, due to local awareness of the representation, the transformer-based decoding procedure operates on a patch level, ensuring efficiency. We train a variational autoencoder to learn the Atlas Gaussians representation, and then apply a latent diffusion model on its latent space for learning 3D Generation. Experiments show that our approach outperforms the prior arts of feed-forward native 3D generation.
翻訳日:2024-11-08 05:26:28 公開日:2024-10-09
# ReCon:Quantum Generative Adversarial NetworksのためのアナログRydbergAtom量子コンピュータの再構成

ReCon: Reconfiguring Analog Rydberg Atom Quantum Computers for Quantum Generative Adversarial Networks ( http://arxiv.org/abs/2408.13389v2 )

ライセンス: Link先を確認
Nicholas S. DiBrita, Daniel Leeds, Yuqian Huo, Jason Ludmir, Tirthak Patel, (参考訳) 量子コンピューティングは、GAN(Generative Adversarial Network)を用いた生成タスクを含む、いくつかの機械学習タスクにおいて、理論的にスピードアップの可能性を示している。 量子コンピュータは様々な種類の技術で実装されているが、近年、アナログRydberg原子量子コンピュータは、再構成可能な量子ビット(量子ビット)位置やマルチキュービット演算などの望ましい特性を持つことが示されている。 この技術の特性を活用するために、アナログRydberg原子量子コンピュータ上で量子GANを実装する最初の研究であるReConを提案する。 シミュレーションと実コンピュータ実行による評価は,超伝導量子ビット技術に実装された最先端技術よりも,生成画像の品質(Frechet Inception Distance (FID) を用いて測定)が33%向上したことを示している。

Quantum computing has shown theoretical promise of speedup in several machine learning tasks, including generative tasks using generative adversarial networks (GANs). While quantum computers have been implemented with different types of technologies, recently, analog Rydberg atom quantum computers have been demonstrated to have desirable properties such as reconfigurable qubit (quantum bit) positions and multi-qubit operations. To leverage the properties of this technology, we propose ReCon, the first work to implement quantum GANs on analog Rydberg atom quantum computers. Our evaluation using simulations and real-computer executions shows 33% better quality (measured using Frechet Inception Distance (FID)) in generated images than the state-of-the-art technique implemented on superconducting-qubit technology.
翻訳日:2024-11-08 05:26:28 公開日:2024-10-09
# RoCP-GNN:ノード分類におけるグラフニューラルネットワークのロバストコンフォーマル予測

RoCP-GNN: Robust Conformal Prediction for Graph Neural Networks in Node-Classification ( http://arxiv.org/abs/2408.13825v2 )

ライセンス: Link先を確認
S. Akansha, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの結果を予測する強力なツールとして登場した。 しかし、GNNの顕著な制限は、堅牢な不確実性推定を提供することができず、エラーがコストのかかる状況において信頼性を損なうことである。 この問題に対処する一つの方法は、事前に定義された確率マージンを持つ真のラベルを含む予測セットを提供することである。 我々の手法は、統計的に堅牢な予測セットや間隔を構築することを約束するフレームワークである共形予測(CP)に基づいている。 まず、グラフのような依存データを考えると、CPにおける重要な前提である交換可能性(交換可能性)がノード分類に適用されるかどうかは不明です。 第二に、もし交換可能性仮定が共形リンク予測に有効であるとしても、高い効率性を確保する必要がある。 本稿では、共形予測(CP)を直接GNNトレーニングプロセスに統合するRoCP-GNN(Roust Conformal Prediction for GNN)と呼ばれる新しいアプローチを提案する。 この方法は、単に点予測ではなく、ユーザ定義の信頼度レベルで有効である予測セットを生成し、交換可能性のみを仮定する。 提案手法は,グラフベース半教師付き学習(SSL)領域における予測の不確実性を定量化しながら,任意の予測的GNNモデルを用いて結果を確実に予測する。 実験により,GNNモデルのサイズ損失が統計的に有意な性能向上をもたらすことが示された。 ノード分類における様々な最先端のGNNと組み合わせることで,標準グラフベンチマークデータセットに対するアプローチを検証する。 コードは公開後に公開されます。

Graph Neural Networks (GNNs) have emerged as powerful tools for predicting outcomes in graph-structured data. However, a notable limitation of GNNs is their inability to provide robust uncertainty estimates, which undermines their reliability in contexts where errors are costly. One way to address this issue is by providing prediction sets that contain the true label with a predefined probability margin. Our approach builds upon conformal prediction (CP), a framework that promises to construct statistically robust prediction sets or intervals. There are two primary challenges: first, given dependent data like graphs, it is unclear whether the critical assumption in CP - exchangeability - still holds when applied to node classification. Second, even if the exchangeability assumption is valid for conformalized link prediction, we need to ensure high efficiency, i.e., the resulting prediction set or the interval length is small enough to provide useful information. In this article, we propose a novel approach termed Robust Conformal Prediction for GNNs (RoCP-GNN), which integrates conformal prediction (CP) directly into the GNN training process. This method generates prediction sets, instead of just point predictions, that are valid at a user-defined confidence level, assuming only exchangeability. Our approach robustly predicts outcomes with any predictive GNN model while quantifying the uncertainty in predictions within the realm of graph-based semi-supervised learning (SSL). Experimental results demonstrate that GNN models with size loss provide a statistically significant increase in performance. We validate our approach on standard graph benchmark datasets by coupling it with various state-of-the-art GNNs in node classification. The code will be made available after publication.
翻訳日:2024-11-08 05:15:13 公開日:2024-10-09
# 予測可能性の最大化と語順調和の起源

Predictability maximization and the origins of word order harmony ( http://arxiv.org/abs/2408.16570v4 )

ライセンス: Link先を確認
Ramon Ferrer-i-Cancho, (参考訳) 本稿では,情報理論の観点から,頭部の逐次配置とその依存関係の言語的問題に対処する。 特に、シーケンスの予測可能性を最大化するヘッドの最適配置について検討する。 係り受けは, 自由選択原理と依存文法の中核的な仮定に従って, 頭部に対して統計的に独立であると仮定する。 我々は、頭部を最後に配置すると頭部の予測可能性が最大になるのに対して、頭部を最初に配置すると依存者の予測可能性が最大になるという調和秩序の最適性を示す。 また,頭部の延期が予測可能性の最大化のための最適戦略であり,さらに,依存者の予測可能性の最大化のための最適戦略であることを示す。 我々は,依存者の予測可能性の最大化よりも,頭部の予測可能性の最大化という戦略の利点を明らかにする。 以上の結果から,実言語で採用される頭部の配置や,異なる種類の実験で現れる頭部の配置が明らかになった。

We address the linguistic problem of the sequential arrangement of a head and its dependents from an information theoretic perspective. In particular, we consider the optimal placement of a head that maximizes the predictability of the sequence. We assume that dependents are statistically independent given a head, in line with the open-choice principle and the core assumptions of dependency grammar. We demonstrate the optimality of harmonic order, i.e., placing the head last maximizes the predictability of the head whereas placing the head first maximizes the predictability of dependents. We also show that postponing the head is the optimal strategy to maximize its predictability while bringing it forward is the optimal strategy to maximize the predictability of dependents. We unravel the advantages of the strategy of maximizing the predictability of the head over maximizing the predictability of dependents. Our findings shed light on the placements of the head adopted by real languages or emerging in different kinds of experiments.
翻訳日:2024-11-08 04:08:49 公開日:2024-10-09
# 予測可能性の最大化と語順調和の起源

Predictability maximization and the origins of word order harmony ( http://arxiv.org/abs/2408.16570v5 )

ライセンス: Link先を確認
Ramon Ferrer-i-Cancho, (参考訳) 本稿では,情報理論の観点から,頭部の逐次配置とその依存関係の言語的問題に対処する。 特に、シーケンスの予測可能性を最大化するヘッドの最適配置について検討する。 係り受けは, 自由選択原理と依存文法の中核的な仮定に従って, 頭部に対して統計的に独立であると仮定する。 我々は、頭部を最後に配置すると頭部の予測可能性が最大になるのに対して、頭部を最初に配置すると依存者の予測可能性が最大になるという調和秩序の最適性を示す。 また,頭部の延期が予測可能性の最大化のための最適戦略であり,さらに,依存者の予測可能性の最大化のための最適戦略であることを示す。 我々は,依存者の予測可能性の最大化よりも,頭部の予測可能性の最大化という戦略の利点を明らかにする。 以上の結果から,実言語で採用される頭部の配置や,異なる種類の実験で現れる頭部の配置が明らかになった。

We address the linguistic problem of the sequential arrangement of a head and its dependents from an information theoretic perspective. In particular, we consider the optimal placement of a head that maximizes the predictability of the sequence. We assume that dependents are statistically independent given a head, in line with the open-choice principle and the core assumptions of dependency grammar. We demonstrate the optimality of harmonic order, i.e., placing the head last maximizes the predictability of the head whereas placing the head first maximizes the predictability of dependents. We also show that postponing the head is the optimal strategy to maximize its predictability while bringing it forward is the optimal strategy to maximize the predictability of dependents. We unravel the advantages of the strategy of maximizing the predictability of the head over maximizing the predictability of dependents. Our findings shed light on the placements of the head adopted by real languages or emerging in different kinds of experiments.
翻訳日:2024-11-08 04:08:49 公開日:2024-10-09
# 証拠に基づく誤情報検出のためのWeb検索エージェント

Web Retrieval Agents for Evidence-Based Misinformation Detection ( http://arxiv.org/abs/2409.00009v2 )

ライセンス: Link先を確認
Jacob-Junqi Tian, Hao Yu, Yury Orlovskiy, Tyler Vergho, Mauricio Rivera, Mayank Goel, Zachary Yang, Jean-Francois Godbout, Reihaneh Rabbany, Kellin Pelrine, (参考訳) 本稿では,誤情報検出のためのエージェントベース自動事実チェック手法を提案する。 検索にインターネットにアクセスできない強力なLLMエージェントとオンライン検索エージェントを組み合わせることで,各ツールを独立して使用する場合よりも優れた結果が得られることを示す。 提案手法は,複数のモデルにまたがって堅牢であり,代替品よりも優れ,誤情報検出のマクロF1を検索不要のLLMと比較して最大20%向上する。 また,検索ツールや知識ベースなどのシステム構築における判断,必要なエビデンスの種類,結果への影響,およびプロセス全体の他の部分について,システムの利用源とそのバイアスに関する広範な分析を行う。 高い性能と深い理解を組み合わせることで、将来検索可能な誤情報軽減システムの構築ブロックを提供したいと思っています。

This paper develops an agent-based automated fact-checking approach for detecting misinformation. We demonstrate that combining a powerful LLM agent, which does not have access to the internet for searches, with an online web search agent yields better results than when each tool is used independently. Our approach is robust across multiple models, outperforming alternatives and increasing the macro F1 of misinformation detection by as much as 20 percent compared to LLMs without search. We also conduct extensive analyses on the sources our system leverages and their biases, decisions in the construction of the system like the search tool and the knowledge base, the type of evidence needed and its impact on the results, and other parts of the overall process. By combining strong performance with in-depth understanding, we hope to provide building blocks for future search-enabled misinformation mitigation systems.
翻訳日:2024-11-08 03:57:28 公開日:2024-10-09
# Free-DyGS:動的手術ビデオのためのガウススプレイティングに基づくカメラ不要シーン再構成

Free-DyGS: Camera-Pose-Free Scene Reconstruction based on Gaussian Splatting for Dynamic Surgical Videos ( http://arxiv.org/abs/2409.01003v2 )

ライセンス: Link先を確認
Qian Li, Shuojue Yang, Daiyun Shen, Yueming Jin, (参考訳) 内視鏡的ビデオの再構成は,高忠実度可視化と外科手術の効率化に不可欠である。 重要にもかかわらず、既存の3D再構成手法は、精度の厳しい要求、不正確なカメラ位置決め、複雑なダイナミックシーン、迅速な再構築の必要性など、いくつかの課題に直面している。 これらの課題に対処するために,3Dガウススプラッティング技術を活用し,ダイナミックな手術ビデオに適したカメラレスシーン再構築フレームワークであるFree-DyGSを提案する。 提案手法は,フレーム単位の再構築戦略を採用し,シーン初期化,共同学習,シーン拡張,レトロスペクティブ学習という4つの段階に分けられる。 本稿では,RGBDフレームから各画素のガウス属性を逐次生成するために,Scene Initialization と Expansion フェーズ内に一般化可能なガウスパラメータ化モジュールを導入する。 共同学習フェーズは、革新的なフレキシブルな変形モジュールによって促進されるシーン変形とカメラポーズを同時に推定する。 シーン拡大段階では、カメラが動くにつれてガウス点が徐々に大きくなる。 振り返り学習フェーズは、先行フレームの再評価を通じてシーン変形の精度を高めることを目的としている。 提案されたFree-DyGSの有効性は、StereoMISとHamlynデータセットという2つのデータセットの実験を通じて実証されている。 実験結果は、Free-DyGSが従来のベースラインモデルを超え、レンダリング忠実度と計算効率の両方を上回っていることを示している。

Reconstructing endoscopic videos is crucial for high-fidelity visualization and the efficiency of surgical operations. Despite the importance, existing 3D reconstruction methods encounter several challenges, including stringent demands for accuracy, imprecise camera positioning, intricate dynamic scenes, and the necessity for rapid reconstruction. Addressing these issues, this paper presents the first camera-pose-free scene reconstruction framework, Free-DyGS, tailored for dynamic surgical videos, leveraging 3D Gaussian splatting technology. Our approach employs a frame-by-frame reconstruction strategy and is delineated into four distinct phases: Scene Initialization, Joint Learning, Scene Expansion, and Retrospective Learning. We introduce a Generalizable Gaussians Parameterization module within the Scene Initialization and Expansion phases to proficiently generate Gaussian attributes for each pixel from the RGBD frames. The Joint Learning phase is crafted to concurrently deduce scene deformation and camera pose, facilitated by an innovative flexible deformation module. In the scene expansion stage, the Gaussian points gradually grow as the camera moves. The Retrospective Learning phase is dedicated to enhancing the precision of scene deformation through the reassessment of prior frames. The efficacy of the proposed Free-DyGS is substantiated through experiments on two datasets: the StereoMIS and Hamlyn datasets. The experimental outcomes underscore that Free-DyGS surpasses conventional baseline models in both rendering fidelity and computational efficiency.
翻訳日:2024-11-08 03:35:26 公開日:2024-10-09
# YoloTag:視覚ベースのロバストUAVナビゲーション

YoloTag: Vision-based Robust UAV Navigation with Fiducial Markers ( http://arxiv.org/abs/2409.02334v2 )

ライセンス: Link先を確認
Sourav Raxit, Simant Bahadur Singh, Abdullah Al Redwan Newaz, (参考訳) 環境の視覚的ランドマークとして画像マーカーを活用することで、無人航空機(UAV)は正確な地図を迅速に構築し、安全かつ効率的に空間をナビゲートすることができる。 既存の画像マーカー手法は手作りの特徴抽出に依存しており、精度を犠牲にしている。 一方、マーカー検出のためのディープラーニングパイプラインは、ナビゲーションアプリケーションに不可欠なリアルタイムランタイム制約を満たしていない。 そこで本研究では,リアルタイムなフィデューシャルマーカーに基づく位置決めシステムであるYoloTagを提案する。 YoloTagは、軽量のYOLO v8オブジェクト検出器を使用して、ナビゲーションに必要なランタイム制約を満たしながら、画像中のフィデューシャルマーカーを正確に検出する。 検出されたマーカーは、UAV状態を推定するために効率的な視点-n-pointアルゴリズムによって使用される。 しかし、この局所化システムはノイズを導入し、軌道追跡の不安定性を引き起こす。 雑音を抑制するため、周波数領域解析によりノイズを効果的に除去する高次バターワースフィルタを設計する。 室内環境における実ロボット実験により,提案手法の軌跡追跡性能と他の手法との比較を行った。

By harnessing fiducial markers as visual landmarks in the environment, Unmanned Aerial Vehicles (UAVs) can rapidly build precise maps and navigate spaces safely and efficiently, unlocking their potential for fluent collaboration and coexistence with humans. Existing fiducial marker methods rely on handcrafted feature extraction, which sacrifices accuracy. On the other hand, deep learning pipelines for marker detection fail to meet real-time runtime constraints crucial for navigation applications. In this work, we propose YoloTag -a real-time fiducial marker-based localization system. YoloTag uses a lightweight YOLO v8 object detector to accurately detect fiducial markers in images while meeting the runtime constraints needed for navigation. The detected markers are then used by an efficient perspective-n-point algorithm to estimate UAV states. However, this localization system introduces noise, causing instability in trajectory tracking. To suppress noise, we design a higher-order Butterworth filter that effectively eliminates noise through frequency domain analysis. We evaluate our algorithm through real-robot experiments in an indoor environment, comparing the trajectory tracking performance of our method against other approaches in terms of several distance metrics.
翻訳日:2024-11-07 23:45:04 公開日:2024-10-09
# TASAR: 骨格行動認識におけるトランスファーベースアタック

TASAR: Transfer-based Attack on Skeletal Action Recognition ( http://arxiv.org/abs/2409.02483v2 )

ライセンス: Link先を確認
Yunfeng Diao, Baiqi Wu, Ruixuan Zhang, Ajian Liu, Xingxing Wei, Meng Wang, He Wang, (参考訳) 骨格配列は、人間の行動のよく構造化された表現であり、ヒト活動認識(HAR)において重要な役割を担っている。 敵の骨格配列の転送性は、自律運転、インテリジェントな監視、人間とコンピュータの相互作用など、現実世界のHARシナリオでの攻撃を可能にする。 しかしながら、既存のスケルトンベースのHAR(S-HAR)攻撃のほとんどは、主にホワイトボックスのシナリオ用に設計されており、弱い対向性を示す。 したがって、それらは真の転送ベースのS-HAR攻撃とはみなせない。 さらに重要なことは、この失敗の理由ははっきりしていない。 本稿では、この現象を損失面のレンズを通して研究し、その鋭さがS-HARの弱い伝達性に寄与することを示した。 本研究は,S-HARの対向移動性が向上する可能性があると仮定し,実証的に検証した。 そこで本稿では,最初の \textbf{T}ransfer-based \textbf{A}ttack on \textbf{S}keletal \textbf{A}ction \textbf{R}ecognition, TASARを提案する。 TASARは、後続のデュアルベイズ最適化戦略によって達成されるサロゲート再訓練を必要とせずに、滑らかなモデル後部を探索する。 さらに、各フレームを独立に扱い、シーケンス内の時間的コヒーレンスを無視する以前の転送ベースの攻撃とは異なり、TASARはベイズ攻撃勾配に運動力学を取り入れ、S-HARの時空間コヒーレンスを効果的に破壊する。 提案手法の有効性を徹底的に評価するために,S-HARモデル7,攻撃方法10,S-HARデータセット3,防衛手法2の大規模頑健なS-HARベンチマークを構築した。 大規模な結果はTASARの優位性を示している。 我々のベンチマークは、補足材料で利用可能なコードを使って、将来の研究を簡単に比較できる。

Skeletal sequences, as well-structured representations of human behaviors, play a vital role in Human Activity Recognition (HAR). The transferability of adversarial skeletal sequences enables attacks in real-world HAR scenarios, such as autonomous driving, intelligent surveillance, and human-computer interactions. However, most existing skeleton-based HAR (S-HAR) attacks are primarily designed for white-box scenarios and exhibit weak adversarial transferability. Therefore, they cannot be considered true transfer-based S-HAR attacks. More importantly, the reason for this failure remains unclear. In this paper, we study this phenomenon through the lens of loss surface, and find that its sharpness contributes to the weak transferability in S-HAR. Inspired by this observation, we assume and empirically validate that smoothening the rugged loss landscape could potentially improve adversarial transferability in S-HAR. To this end, we propose the first \textbf{T}ransfer-based \textbf{A}ttack on \textbf{S}keletal \textbf{A}ction \textbf{R}ecognition, TASAR. TASAR explores the smoothed model posterior without requiring surrogate re-training, which is achieved by a new post-train Dual Bayesian optimization strategy. Furthermore, unlike previous transfer-based attacks that treat each frame independently and overlook temporal coherence within sequences, TASAR incorporates motion dynamics into the Bayesian attack gradient, effectively disrupting the spatial-temporal coherence of S-HARs. To exhaustively evaluate the effectiveness of existing methods and our method, we build the first large-scale robust S-HAR benchmark, comprising 7 S-HAR models, 10 attack methods, 3 S-HAR datasets and 2 defense methods. Extensive results demonstrate the superiority of TASAR. Our benchmark enables easy comparisons for future studies, with the code available in the supplementary material.
翻訳日:2024-11-07 23:45:04 公開日:2024-10-09
# 生成モデルは分配外変量シフトを検出できるか?

Can Your Generative Model Detect Out-of-Distribution Covariate Shift? ( http://arxiv.org/abs/2409.03043v2 )

ライセンス: Link先を確認
Christiaan Viviers, Amaan Valiuddin, Francisco Caetano, Lemar Abdi, Lena Filatova, Peter de With, Fons van der Sommen, (参考訳) OOD(Out-of-Distribution)知覚データの検出と共変量分布シフトは、キャプチャー、正規およびIn-Distribution(ID)セットに異なる高レベル画像統計を持つ新しいテスト例を特定することを目的としている。 既存のOOD検出文献は、共変量シフトに対するコンセンサスをほとんど含まないセマンティックシフトに重点を置いている。 生成モデルは教師なしの方法でIDデータをキャプチャし、下流のタスクに関係なく、この学習された分布から著しく逸脱したサンプルを効果的に識別する。 本研究では,多種多様なモデルを含む広範囲な解析を通じて,生成モデルがドメイン固有の共変量シフトを検出し,定量化する能力を明らかにする。 この結果から,高頻度信号依存および独立性の詳細のみをモデル化することで,発生頻度の高い感覚障害(大域信号統計における異常や偏差)を検出することができると推測した。 条件付き正規化フロー(cNFs)を用いた異方性高周波数画像成分の共変処理に適したOOD検出のための新しい手法であるCovariateFlowを提案する。 CIFAR10 対 CIFAR10-C と ImageNet200 対 ImageNet200-C では,OOD 共変量シフトを正確に検出し,本手法の有効性を示した。 この研究は、共変量シフトの存在下でのOOD検出において、イメージングシステムの忠実性の向上と機械学習モデルの支援に寄与する。

Detecting Out-of-Distribution (OOD) sensory data and covariate distribution shift aims to identify new test examples with different high-level image statistics to the captured, normal and In-Distribution (ID) set. Existing OOD detection literature largely focuses on semantic shift with little-to-no consensus over covariate shift. Generative models capture the ID data in an unsupervised manner, enabling them to effectively identify samples that deviate significantly from this learned distribution, irrespective of the downstream task. In this work, we elucidate the ability of generative models to detect and quantify domain-specific covariate shift through extensive analyses that involves a variety of models. To this end, we conjecture that it is sufficient to detect most occurring sensory faults (anomalies and deviations in global signals statistics) by solely modeling high-frequency signal-dependent and independent details. We propose a novel method, CovariateFlow, for OOD detection, specifically tailored to covariate heteroscedastic high-frequency image-components using conditional Normalizing Flows (cNFs). Our results on CIFAR10 vs. CIFAR10-C and ImageNet200 vs. ImageNet200-C demonstrate the effectiveness of the method by accurately detecting OOD covariate shift. This work contributes to enhancing the fidelity of imaging systems and aiding machine learning models in OOD detection in the presence of covariate shift.
翻訳日:2024-11-07 23:23:02 公開日:2024-10-09
# 教師なし楽音伝達のための潜時拡散ブリッジ

Latent Diffusion Bridges for Unsupervised Musical Audio Timbre Transfer ( http://arxiv.org/abs/2409.06096v3 )

ライセンス: Link先を確認
Michele Mancusi, Yurii Halychanskyi, Kin Wai Cheuk, Chieh-Hsin Lai, Stefan Uhlich, Junghyun Koo, Marco A. Martínez-Ramírez, Wei-Hsiang Liao, Giorgio Fabbro, Yuki Mitsufuji, (参考訳) 音楽の音色伝達は、旋律構造を保ちながら、音声信号の音色特性を変更するという難題である。 本稿では,ココホラレスデータセットを用いて訓練された二重拡散ブリッジに基づく新しい手法を提案する。 各拡散モデルは、ガウス事前を持つ特定の楽器で訓練される。 推測中、入力オーディオを対応するガウス先行にマッピングするソースモデルとしてモデルが指定され、ターゲットモデルとして別のモデルが指定され、このガウス先行からターゲットオーディオを再構成し、音色伝達を容易にする。 VAEGAN や Gaussian Flow Bridges (GFB) のような既存の教師なし音色伝達モデルとの比較を行った。 Fr'echet Audio Distance (FAD) とメロディ保存をVAEGANとGFBと比較して低ピッチ距離 (DPD) で再現できることを示す実験結果を得た。 さらに,ガウス前の音レベルである$\sigma$はメロディ保存の程度と音色伝達量を制御するために調整できることがわかった。

Music timbre transfer is a challenging task that involves modifying the timbral characteristics of an audio signal while preserving its melodic structure. In this paper, we propose a novel method based on dual diffusion bridges, trained using the CocoChorales Dataset, which consists of unpaired monophonic single-instrument audio data. Each diffusion model is trained on a specific instrument with a Gaussian prior. During inference, a model is designated as the source model to map the input audio to its corresponding Gaussian prior, and another model is designated as the target model to reconstruct the target audio from this Gaussian prior, thereby facilitating timbre transfer. We compare our approach against existing unsupervised timbre transfer models such as VAEGAN and Gaussian Flow Bridges (GFB). Experimental results demonstrate that our method achieves both better Fr\'echet Audio Distance (FAD) and melody preservation, as reflected by lower pitch distances (DPD) compared to VAEGAN and GFB. Additionally, we discover that the noise level from the Gaussian prior, $\sigma$, can be adjusted to control the degree of melody preservation and amount of timbre transferred.
翻訳日:2024-11-07 22:16:23 公開日:2024-10-09
# 表現チューニング

Representation Tuning ( http://arxiv.org/abs/2409.06927v2 )

ライセンス: Link先を確認
Christopher M. Ackerman, (参考訳) 大規模言語モデル(LLM)のオンライン制御手段として,アクティベーションエンジニアリングがますます普及している。 本研究は,これらのベクトルを直接モデルにチューニングし,オンライン制御の必要性を回避し,関心の行動方向を表すベクトルを用いたアクティブステアリングの考え方を拡張した。 まず、オープンソースのLCM(Llama-2-13b-chat)において、正直性に関連するアクティベーションベクトルを同定する。 次に、生成中の残ストリームアクティベーションにこれらのベクトルの正あるいは負の倍数を加えることで、モデル出力を多かれ少なかれ正直にすることができることを示す。 次に,残差ストリームアクティベーションと標準トークンベースのロス(表現チューニング)を組み合わせたベクトルとのコサイン類似性に基づく二重損失関数を用いて,ベクトルを直接モデルに微調整することで,同様の効果が得られることを示す。 最後に、私は、結果のモデルから得られた正直なプロンプトに反応した世代と、トークンベースの損失だけで微調整されたモデルと、オンラインステアリングを受けた未調整モデルの世代を比較します。 全体として、コサイン類似度とトークン損失を用いたモデルへのベクトルの微調整は、オンラインステアリングよりも強い効果を示し、標準損失よりも良く一般化された。 コードとデータはhttps://github.com/cma1114/representation_tuningで、チューニングされたモデルはhttps://huggingface.co/collections/cackerman/ representation-tuning-66da1e5ab41cd1b824687d9fで入手できる。

Activation engineering is becoming increasingly popular as a means of online control of large language models (LLMs). In this work, I extend the idea of active steering with vectors that represent a behavioral direction of interest to tuning those vectors directly into the model, obviating the need for online control. First, I identify activation vectors related to honesty in an open-source LLM (Llama- 2-13b-chat). Next, I demonstrate that model output can be made more or less honest by adding positive or negative multiples of these vectors to residual stream activations during generation. Then, I show that a similar effect can be achieved by fine-tuning the vectors directly into the model, by use of a dual loss function based on the cosine similarity of residual stream activations to the vectors combined with a standard token-based loss ("representation tuning"). Finally, I compare the generations in response to honesty-probing prompts from the resulting models to those from models fine-tuned with a token-based loss alone, and to those from the untuned model subjected to online steering. Overall, fine-tuning the vectors into the models using the cosine similarity plus token loss showed a stronger effect than online steering, and generalized better than using the standard loss, suggesting the potential utility of this approach as a safety measure. Code and data are available at https://github.com/cma1114/representation_tuning; tuned models are available at https://huggingface.co/collections/cackerman/ representation-tuning-66da1e5ab41cd1b824687d9f.
翻訳日:2024-11-07 21:53:46 公開日:2024-10-09
# 表現チューニング

Representation Tuning ( http://arxiv.org/abs/2409.06927v3 )

ライセンス: Link先を確認
Christopher M. Ackerman, (参考訳) 大規模言語モデル(LLM)のオンライン制御手段として,アクティベーションエンジニアリングがますます普及している。 本研究は,これらのベクトルを直接モデルにチューニングし,オンライン制御の必要性を回避し,関心の行動方向を表すベクトルを用いたアクティブステアリングの考え方を拡張した。 まず、オープンソースのLCM(Llama-2-13b-chat)において、正直性に関連するアクティベーションベクトルを同定する。 次に、生成中の残ストリームアクティベーションにこれらのベクトルの正あるいは負の倍数を加えることで、モデル出力を多かれ少なかれ正直にすることができることを示す。 次に,残差ストリームアクティベーションと標準トークンベースのロス(表現チューニング)を組み合わせたベクトルとのコサイン類似性に基づく二重損失関数を用いて,ベクトルを直接モデルに微調整することで,同様の効果が得られることを示す。 最後に、私は、結果のモデルから得られた正直なプロンプトに反応した世代と、トークンベースの損失だけで微調整されたモデルと、オンラインステアリングを受けた未調整モデルの世代を比較します。 全体として、コサイン類似度とトークン損失を用いたモデルへのベクトルの微調整は、オンラインステアリングよりも強い効果を示し、標準損失よりも良く一般化された。 コードとデータはhttps://github.com/cma1114/representation_tuningで、チューニングされたモデルはhttps://huggingface.co/collections/cackerman/ representation-tuning-66da1e5ab41cd1b824687d9fで入手できる。

Activation engineering is becoming increasingly popular as a means of online control of large language models (LLMs). In this work, I extend the idea of active steering with vectors that represent a behavioral direction of interest to tuning those vectors directly into the model, obviating the need for online control. First, I identify activation vectors related to honesty in an open-source LLM (Llama- 2-13b-chat). Next, I demonstrate that model output can be made more or less honest by adding positive or negative multiples of these vectors to residual stream activations during generation. Then, I show that a similar effect can be achieved by fine-tuning the vectors directly into the model, by use of a dual loss function based on the cosine similarity of residual stream activations to the vectors combined with a standard token-based loss ("representation tuning"). Finally, I compare the generations in response to honesty-probing prompts from the resulting models to those from models fine-tuned with a token-based loss alone, and to those from the untuned model subjected to online steering. Overall, fine-tuning the vectors into the models using the cosine similarity plus token loss showed a stronger effect than online steering, and generalized better than using the standard loss, suggesting the potential utility of this approach as a safety measure. Code and data are available at https://github.com/cma1114/representation_tuning; tuned models are available at https://huggingface.co/collections/cackerman/ representation-tuning-66da1e5ab41cd1b824687d9f.
翻訳日:2024-11-07 21:53:46 公開日:2024-10-09
# 分散不均一データを用いた学習のためのフェデレート印象

Federated Impression for Learning with Distributed Heterogeneous Data ( http://arxiv.org/abs/2409.07351v2 )

ライセンス: Link先を確認
Atrin Arya, Sana Ayromlou, Armin Saadat, Purang Abolmaesumi, Xiaoxiao Li, (参考訳) 標準的なディープラーニングに基づく分類アプローチは、すべてのサンプルの集中的な収集を必要とするため、実世界の臨床応用では必ずしも実用的ではないかもしれない。 フェデレートラーニング(FL)は、データ共有を必要とせずに、クライアント間で分散データセットから学習可能なパラダイムを提供する。 FLでは、データ収集プロトコルや患者人口の多様さにより、データの不均一性によって引き起こされる準最適収束が、異なる保健所のデータに共通している。 本研究では,データの不均一性が局所訓練中の破滅的忘れ込み現象を引き起こすことを示す。 我々は,グローバル情報を表す合成データをフェデレーションとして復元することで,破滅的な忘れを緩和するFedImpresを提案する。 これを実現するために,各通信ラウンドから得られた大域的モデルを蒸留する。 その後,局所学習の一般化を促進するために,局所データとともに合成データを用いる。 提案手法は,ラベルの不均衡とドメインシフトを含むBloodMNISTとRetinaデータセットの両方で最先端の性能を実現し,分類精度を最大20%向上することを示した。

Standard deep learning-based classification approaches may not always be practical in real-world clinical applications, as they require a centralized collection of all samples. Federated learning (FL) provides a paradigm that can learn from distributed datasets across clients without requiring them to share data, which can help mitigate privacy and data ownership issues. In FL, sub-optimal convergence caused by data heterogeneity is common among data from different health centers due to the variety in data collection protocols and patient demographics across centers. Through experimentation in this study, we show that data heterogeneity leads to the phenomenon of catastrophic forgetting during local training. We propose FedImpres which alleviates catastrophic forgetting by restoring synthetic data that represents the global information as federated impression. To achieve this, we distill the global model resulting from each communication round. Subsequently, we use the synthetic data alongside the local data to enhance the generalization of local training. Extensive experiments show that the proposed method achieves state-of-the-art performance on both the BloodMNIST and Retina datasets, which contain label imbalance and domain shift, with an improvement in classification accuracy of up to 20%.
翻訳日:2024-11-07 21:53:46 公開日:2024-10-09
# フラキソニウムと後空洞の間の可逆符号とのin-situチューナブル相互作用

In-situ tunable interaction with an invertible sign between a fluxonium and a post cavity ( http://arxiv.org/abs/2409.07612v2 )

ライセンス: Link先を確認
Desislava G. Atanasova, Ian Yang, Teresa Hönigl-Decrinis, Daria Gusenkova, Ioan M. Pop, Gerhard Kirchmair, (参考訳) ボソニックモードを用いた量子計算は、複雑な情報処理タスクを実行するために量子力学の原理を利用するための強力なパラダイムを示す。 超伝導回路を用いたボソニック量子ビットの構築において、非線形性は典型的にはアシラリー2レベル量子ビットを介してキャビティモードに導入される。 しかし、アンシラの急激な加熱は完全なフォールトトレラントなボソニッククビットへの進行を妨げている。 使用していないときにアンシラを分離する能力は有益であるが、今のところは調整可能なカプラや追加のパラメトリックドライブでのみ実現されている。 本研究は, 読み出し共振器を介してフラクソニウムアンシラに結合した3次元後空洞を含む, 量子情報処理のための新しいアーキテクチャを提案する。 この系の複雑なエネルギー準位構造は、付加的な元素を必要とせずにフラクソニウムループをスレッディングする磁場によって、サインをその場で調整できる複雑な相互作用の風景をもたらす。 その結果,ボソニック量子ビットの寿命と可制御性が著しく向上した。

Quantum computation with bosonic modes presents a powerful paradigm for harnessing the principles of quantum mechanics to perform complex information processing tasks. In constructing a bosonic qubit with superconducting circuits, nonlinearity is typically introduced to a cavity mode through an ancillary two-level qubit. However, the ancilla's spurious heating has impeded progress towards fully fault-tolerant bosonic qubits. The ability to in situ decouple the ancilla when not in use would be beneficial but has so far only been realized with tunable couplers or additional parametric drives. This work presents a novel architecture for quantum information processing, comprising a 3D post cavity coupled to a fluxonium ancilla via a readout resonator. This system's intricate energy level structure results in a complex landscape of interactions whose sign can be tuned in situ by the magnetic field threading the fluxonium loop without the need of additional elements. Our results could significantly advance the lifetime and controllability of bosonic qubits.
翻訳日:2024-11-07 21:42:46 公開日:2024-10-09
# CoCA:立憲校正による多モーダル大言語モデルの安全性向上

CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration ( http://arxiv.org/abs/2409.11365v2 )

ライセンス: Link先を確認
Jiahui Gao, Renjie Pi, Tianyang Han, Han Wu, Lanqing Hong, Lingpeng Kong, Xin Jiang, Zhenguo Li, (参考訳) マルチモーダルな大言語モデル(MLLM)の展開は、大規模言語モデル(LLM)の優れたパワーのおかげで、視覚的な入力を含む会話に多大な成功を収めた。 これらのMLLMは通常、LLMをベースとして構築され、画像エンコーダによってLLMのトークン埋め込み空間に画像を処理する。 しかし、視覚的モダリティの統合は独特な脆弱性をもたらしている: MLLMは悪意のある視覚的入力に影響を受けやすくなり、LLMが人間の価値に合わせてテキストデータセットで訓練されているにもかかわらず、機密性や有害な応答を引き起こす傾向にある。 本稿では,「MLLMは悪意ある画像入力に対して安全を意識しているか?」という質問を最初に提起する。 MLLMの入力に安全性要件を規定する原則を付加すると,モデルの安全性意識が向上することがわかった。 この現象は、画像入力に対するMLLMの安全性認識の存在を検証し、モダリティギャップによってのみ弱められる。 次に, MLLMの出力分布を校正することにより, MLLMの安全性を向上する, CoCA と呼ばれる簡易かつ効果的な手法を提案する。 提案した戦略は,モデルが元の能力を失うことなく,元の安全性を回復するのに役立つ。 マルチモーダル安全性と理解ベンチマークにおけるアプローチの有効性を検証する。

The deployment of multimodal large language models (MLLMs) has demonstrated remarkable success in engaging in conversations involving visual inputs, thanks to the superior power of large language models (LLMs). Those MLLMs are typically built based on the LLMs, with an image encoder to process images into the token embedding space of the LLMs. However, the integration of visual modality has introduced a unique vulnerability: the MLLM becomes susceptible to malicious visual inputs and prone to generating sensitive or harmful responses, even though the LLM has been trained on textual dataset to align with human value. In this paper, we first raise the question: ``Do the MLLMs possess safety-awareness against malicious image inputs?". We find that after adding a principle that specifies the safety requirement into the input of the MLLM, the model's safety awareness becomes boosted. This phenomenon verifies the existence of MLLM's safety-awareness against image inputs, it is only weakened by the modality gap. We then introduce a simple yet effective technique termed CoCA, which amplifies the safety-awareness of the MLLM by calibrating its output distribution. Our proposed strategy helps the model reclaim its original safety awareness without losing its original capabilities. We verify the effectiveness of our approach on both multimodal safety and understanding benchmarks.
翻訳日:2024-11-07 20:01:55 公開日:2024-10-09
# クラスタ・キャッシュ・ダイグラフによる外乱検出

Outlier Detection with Cluster Catch Digraphs ( http://arxiv.org/abs/2409.11596v2 )

ライセンス: Link先を確認
Rui Shi, Nedret Billor, Elvan Ceyhan, (参考訳) 本稿では,クラスタ・キャッシュ・ダイグラフ(CCD)に基づく新しい外乱検出アルゴリズム群について紹介する。 本研究では,Mutual Catch Graphを用いたUniformity-based CCD (U-MCCD),Uniformity- and Neighbor-based CCD with Mutual Catch Graph (UN-MCCD)を提案する。 これらのアルゴリズムの利点と欠点を示し、それぞれのアルゴリズムを定義するモチベーションや必要性を提供する。 総合的なモンテカルロシミュレーションを通じて,その性能を評価し,様々な設定や汚染レベルにまたがるアルゴリズムの堅牢性と有効性を示す。 また,様々な実生活データセット上でのアルゴリズムの利用についても解説する。 U-MCCDアルゴリズムは、高い真の負のレートを維持しつつ、効率よく外れ値の同定を行い、SU-MCCDアルゴリズムは、非一様クラスタの処理における大幅な改善を示す。 さらに、UN-MCCDとSUN-MCCDのアルゴリズムは、クラスタリングと外れ値検出にNearest Neighbor Distances(NND)を用いることで、高次元空間における既存の手法の限界に対処する。 以上の結果から,これらのアルゴリズムは,外乱検出の精度と適応性を大幅に向上させ,様々な実世界のアプリケーションに有用なツールを提供することが示唆された。 キーワード:outlier Detection, Graph-based clustering, Cluster catch digraphs, $k$-nearest-neighborhood, Mutual catch graphs, Nearest neighbor distance。

This paper introduces a novel family of outlier detection algorithms based on Cluster Catch Digraphs (CCDs), specifically tailored to address the challenges of high dimensionality and varying cluster shapes, which deteriorate the performance of most traditional outlier detection methods. We propose the Uniformity-Based CCD with Mutual Catch Graph (U-MCCD), the Uniformity- and Neighbor-Based CCD with Mutual Catch Graph (UN-MCCD), and their shape-adaptive variants (SU-MCCD and SUN-MCCD), which are designed to detect outliers in data sets with arbitrary cluster shapes and high dimensions. We present the advantages and shortcomings of these algorithms and provide the motivation or need to define each particular algorithm. Through comprehensive Monte Carlo simulations, we assess their performance and demonstrate the robustness and effectiveness of our algorithms across various settings and contamination levels. We also illustrate the use of our algorithms on various real-life data sets. The U-MCCD algorithm efficiently identifies outliers while maintaining high true negative rates, and the SU-MCCD algorithm shows substantial improvement in handling non-uniform clusters. Additionally, the UN-MCCD and SUN-MCCD algorithms address the limitations of existing methods in high-dimensional spaces by utilizing Nearest Neighbor Distances (NND) for clustering and outlier detection. Our results indicate that these novel algorithms offer substantial advancements in the accuracy and adaptability of outlier detection, providing a valuable tool for various real-world applications. Keyword: Outlier detection, Graph-based clustering, Cluster catch digraphs, $k$-nearest-neighborhood, Mutual catch graphs, Nearest neighbor distance.
翻訳日:2024-11-07 20:01:55 公開日:2024-10-09
# Hi-SLAM:階層的分類型ガウススプレイティングによるSLAMのスケールアップセマンティックス

Hi-SLAM: Scaling-up Semantics in SLAM with a Hierarchically Categorical Gaussian Splatting ( http://arxiv.org/abs/2409.12518v1 )

ライセンス: Link先を確認
Boying Li, Zhixi Cai, Yuan-Fang Li, Ian Reid, Hamid Rezatofighi, (参考訳) 提案手法は,3次元世界における高精度なグローバルな3次元セマンティックマッピング,スケールアップ機能,明示的なセマンティックラベル予測を可能にする,新しい階層的カテゴリ表現を特徴とするセマンティック3Dガウス分割SLAM法である。 意味的SLAMシステムにおけるパラメータの使用量は、環境の複雑さが増大するにつれて著しく増加し、シーン理解において特に困難でコストがかかる。 この問題に対処するために,我々は,大規模言語モデル(LLM)の機能を活用して,意味情報をコンパクトな形式で3次元ガウススプラッティングに符号化する,新しい階層表現を導入する。 さらに,階層的セマンティック情報を階層間最適化とクロスレベル最適化によって最適化する新しいセマンティックロスを導入する。 さらに、SLAMシステム全体を拡張し、トラッキング性能とマッピング性能を改善した。 我々のHi-SLAMは、マッピングと追跡の精度の両方で既存の高密度SLAM法より優れており、2倍の動作速度を実現しています。 さらに、小さな合成シーンにおけるセマンティックセグメンテーションのレンダリングにおける競合性能を示し、ストレージとトレーニング時間を大幅に削減する。 FPSのレンダリングは、セマンティック情報付きで2,000、それなしで3000に達する。 最も注目すべきは、500以上のセマンティッククラスで複雑な現実世界のシーンを扱う能力を示し、その価値あるスケーリング機能を強調していることだ。

We propose Hi-SLAM, a semantic 3D Gaussian Splatting SLAM method featuring a novel hierarchical categorical representation, which enables accurate global 3D semantic mapping, scaling-up capability, and explicit semantic label prediction in the 3D world. The parameter usage in semantic SLAM systems increases significantly with the growing complexity of the environment, making it particularly challenging and costly for scene understanding. To address this problem, we introduce a novel hierarchical representation that encodes semantic information in a compact form into 3D Gaussian Splatting, leveraging the capabilities of large language models (LLMs). We further introduce a novel semantic loss designed to optimize hierarchical semantic information through both inter-level and cross-level optimization. Furthermore, we enhance the whole SLAM system, resulting in improved tracking and mapping performance. Our Hi-SLAM outperforms existing dense SLAM methods in both mapping and tracking accuracy, while achieving a 2x operation speed-up. Additionally, it exhibits competitive performance in rendering semantic segmentation in small synthetic scenes, with significantly reduced storage and training time requirements. Rendering FPS impressively reaches 2,000 with semantic information and 3,000 without it. Most notably, it showcases the capability of handling the complex real-world scene with more than 500 semantic classes, highlighting its valuable scaling-up capability.
翻訳日:2024-11-07 14:30:28 公開日:2024-10-09
# Hi-SLAM:階層的分類型ガウススプレイティングによるSLAMのスケールアップセマンティックス

Hi-SLAM: Scaling-up Semantics in SLAM with a Hierarchically Categorical Gaussian Splatting ( http://arxiv.org/abs/2409.12518v2 )

ライセンス: Link先を確認
Boying Li, Zhixi Cai, Yuan-Fang Li, Ian Reid, Hamid Rezatofighi, (参考訳) 提案手法は,3次元世界における高精度なグローバルな3次元セマンティックマッピング,スケールアップ機能,明示的なセマンティックラベル予測を可能にする,新しい階層的カテゴリ表現を特徴とするセマンティック3Dガウス分割SLAM法である。 意味的SLAMシステムにおけるパラメータの使用量は、環境の複雑さが増大するにつれて著しく増加し、シーン理解において特に困難でコストがかかる。 この問題に対処するために,我々は,大規模言語モデル(LLM)の機能を活用して,意味情報をコンパクトな形式で3次元ガウススプラッティングに符号化する,新しい階層表現を導入する。 さらに,階層的セマンティック情報を階層間最適化とクロスレベル最適化によって最適化する新しいセマンティックロスを導入する。 さらに、SLAMシステム全体を拡張し、トラッキング性能とマッピング性能を改善した。 我々のHi-SLAMは、マッピングと追跡の精度の両方で既存の高密度SLAM法より優れており、2倍の動作速度を実現しています。 さらに、小さな合成シーンにおけるセマンティックセグメンテーションのレンダリングにおける競合性能を示し、ストレージとトレーニング時間を大幅に削減する。 FPSのレンダリングは、セマンティック情報付きで2,000、それなしで3000に達する。 最も注目すべきは、500以上のセマンティッククラスで複雑な現実世界のシーンを扱う能力を示し、その価値あるスケーリング機能を強調していることだ。

We propose Hi-SLAM, a semantic 3D Gaussian Splatting SLAM method featuring a novel hierarchical categorical representation, which enables accurate global 3D semantic mapping, scaling-up capability, and explicit semantic label prediction in the 3D world. The parameter usage in semantic SLAM systems increases significantly with the growing complexity of the environment, making it particularly challenging and costly for scene understanding. To address this problem, we introduce a novel hierarchical representation that encodes semantic information in a compact form into 3D Gaussian Splatting, leveraging the capabilities of large language models (LLMs). We further introduce a novel semantic loss designed to optimize hierarchical semantic information through both inter-level and cross-level optimization. Furthermore, we enhance the whole SLAM system, resulting in improved tracking and mapping performance. Our Hi-SLAM outperforms existing dense SLAM methods in both mapping and tracking accuracy, while achieving a 2x operation speed-up. Additionally, it exhibits competitive performance in rendering semantic segmentation in small synthetic scenes, with significantly reduced storage and training time requirements. Rendering FPS impressively reaches 2,000 with semantic information and 3,000 without it. Most notably, it showcases the capability of handling the complex real-world scene with more than 500 semantic classes, highlighting its valuable scaling-up capability.
翻訳日:2024-11-07 14:30:28 公開日:2024-10-09
# FreeAvatar:表現基礎モデル学習によるロバストな3次元顔アニメーション転送

FreeAvatar: Robust 3D Facial Animation Transfer by Learning an Expression Foundation Model ( http://arxiv.org/abs/2409.13180v1 )

ライセンス: Link先を確認
Feng Qiu, Wei Zhang, Chen Liu, Rudong An, Lincheng Li, Yu Ding, Changjie Fan, Zhipeng Hu, Xin Yu, (参考訳) ビデオ駆動の3D顔アニメーション転送は、アクターの表情を再現するためにアバターを駆動することを目的としている。 既存の手法は、幾何学的および知覚的整合性の両方を制約することで、顕著な結果を得た。 しかし、幾何学的制約(顔のランドマークにデザインされているものなど)は微妙な感情を捉えるには不十分であるが、分類タスクで訓練された表現機能は複雑な感情に対して細かい粒度を欠いている。 そこで本研究では,学習した表現表現にのみ依存する,堅牢な顔アニメーショントランスファー手法である「textbf{FreeAvatar}」を提案する。 具体的には、FreeAvatarは式基礎モデルと顔アニメーション転送モデルという2つの主要コンポーネントから構成される。 最初のコンポーネントでは、まず顔再構成タスクを通して顔の特徴空間を構築し、その後、異なる表現間の類似性を探索して表現特徴空間を最適化する。 未ラベルの顔画像の量と再コンパイルされた表情比較データセットのトレーニングにより、我々のモデルは、どの入力された顔画像にも、自由に効果的に適応できる。 本稿では,3次元アバターの表情制御パラメータに表現意味をマッピングし,入力画像と出力画像の間に知覚的制約を課し,表現一貫性を維持する新しい表現駆動型マルチアバターアニメーションを提案する。 プロセス全体を識別可能にするために、トレーニング済みのニューラルレンダラーを使用して、rigパラメータを対応するイメージに変換する。 さらに,各アバターごとに分離したデコーダを必要とする従来の方法とは異なり,複数のアバターを1つのネットワーク内で共同でトレーニングできる動的アイデンティティインジェクションモジュールを提案する。

Video-driven 3D facial animation transfer aims to drive avatars to reproduce the expressions of actors. Existing methods have achieved remarkable results by constraining both geometric and perceptual consistency. However, geometric constraints (like those designed on facial landmarks) are insufficient to capture subtle emotions, while expression features trained on classification tasks lack fine granularity for complex emotions. To address this, we propose \textbf{FreeAvatar}, a robust facial animation transfer method that relies solely on our learned expression representation. Specifically, FreeAvatar consists of two main components: the expression foundation model and the facial animation transfer model. In the first component, we initially construct a facial feature space through a face reconstruction task and then optimize the expression feature space by exploring the similarities among different expressions. Benefiting from training on the amounts of unlabeled facial images and re-collected expression comparison dataset, our model adapts freely and effectively to any in-the-wild input facial images. In the facial animation transfer component, we propose a novel Expression-driven Multi-avatar Animator, which first maps expressive semantics to the facial control parameters of 3D avatars and then imposes perceptual constraints between the input and output images to maintain expression consistency. To make the entire process differentiable, we employ a trained neural renderer to translate rig parameters into corresponding images. Furthermore, unlike previous methods that require separate decoders for each avatar, we propose a dynamic identity injection module that allows for the joint training of multiple avatars within a single network.
翻訳日:2024-11-07 11:29:51 公開日:2024-10-09
# FreeAvatar:表現基礎モデル学習によるロバストな3次元顔アニメーション転送

FreeAvatar: Robust 3D Facial Animation Transfer by Learning an Expression Foundation Model ( http://arxiv.org/abs/2409.13180v2 )

ライセンス: Link先を確認
Feng Qiu, Wei Zhang, Chen Liu, Rudong An, Lincheng Li, Yu Ding, Changjie Fan, Zhipeng Hu, Xin Yu, (参考訳) ビデオ駆動の3D顔アニメーション転送は、アクターの表情を再現するためにアバターを駆動することを目的としている。 既存の手法は、幾何学的および知覚的整合性の両方を制約することで、顕著な結果を得た。 しかし、幾何学的制約(顔のランドマークにデザインされているものなど)は微妙な感情を捉えるには不十分であるが、分類タスクで訓練された表現機能は複雑な感情に対して細かい粒度を欠いている。 そこで本研究では,学習した表現表現にのみ依存する,堅牢な顔アニメーショントランスファー手法である「textbf{FreeAvatar}」を提案する。 具体的には、FreeAvatarは式基礎モデルと顔アニメーション転送モデルという2つの主要コンポーネントから構成される。 最初のコンポーネントでは、まず顔再構成タスクを通して顔の特徴空間を構築し、その後、異なる表現間の類似性を探索して表現特徴空間を最適化する。 未ラベルの顔画像の量と再コンパイルされた表情比較データセットのトレーニングにより、我々のモデルは、どの入力された顔画像にも、自由に効果的に適応できる。 本稿では,3次元アバターの表情制御パラメータに表現意味をマッピングし,入力画像と出力画像の間に知覚的制約を課し,表現一貫性を維持する新しい表現駆動型マルチアバターアニメーションを提案する。 プロセス全体を識別可能にするために、トレーニング済みのニューラルレンダラーを使用して、rigパラメータを対応するイメージに変換する。 さらに,各アバターごとに分離したデコーダを必要とする従来の方法とは異なり,複数のアバターを1つのネットワーク内で共同でトレーニングできる動的アイデンティティインジェクションモジュールを提案する。

Video-driven 3D facial animation transfer aims to drive avatars to reproduce the expressions of actors. Existing methods have achieved remarkable results by constraining both geometric and perceptual consistency. However, geometric constraints (like those designed on facial landmarks) are insufficient to capture subtle emotions, while expression features trained on classification tasks lack fine granularity for complex emotions. To address this, we propose \textbf{FreeAvatar}, a robust facial animation transfer method that relies solely on our learned expression representation. Specifically, FreeAvatar consists of two main components: the expression foundation model and the facial animation transfer model. In the first component, we initially construct a facial feature space through a face reconstruction task and then optimize the expression feature space by exploring the similarities among different expressions. Benefiting from training on the amounts of unlabeled facial images and re-collected expression comparison dataset, our model adapts freely and effectively to any in-the-wild input facial images. In the facial animation transfer component, we propose a novel Expression-driven Multi-avatar Animator, which first maps expressive semantics to the facial control parameters of 3D avatars and then imposes perceptual constraints between the input and output images to maintain expression consistency. To make the entire process differentiable, we employ a trained neural renderer to translate rig parameters into corresponding images. Furthermore, unlike previous methods that require separate decoders for each avatar, we propose a dynamic identity injection module that allows for the joint training of multiple avatars within a single network.
翻訳日:2024-11-07 11:29:51 公開日:2024-10-09
# FIXベンチマーク:eXpertに解釈可能な機能の抽出

The FIX Benchmark: Extracting Features Interpretable to eXperts ( http://arxiv.org/abs/2409.13684v1 )

ライセンス: Link先を確認
Helen Jin, Shreya Havaldar, Chaehyeon Kim, Anton Xue, Weiqiu You, Helen Qu, Marco Gatti, Daniel A Hashimoto, Bhuvnesh Jain, Amin Madani, Masao Sako, Lyle Ungar, Eric Wong, (参考訳) 特徴に基づく手法はモデル予測を説明するのによく用いられるが、これらの手法はしばしば解釈可能な特徴が容易に利用できると暗黙的に仮定する。 しかし、これは高次元データには当てはまらないことが多く、ドメインの専門家でさえ、どの機能が重要なのかを数学的に特定することは困難である。 代わりに、専門家の知識に合わせて、自動的にコレクションや機能のグループを抽出できますか? このギャップに対処するため、FIX(Features Interpretable to eXperts)という、機能の集合が専門家の知識とどの程度うまく一致しているかを測定するベンチマークを提示する。 ドメインの専門家と共同で、さまざまな実世界の設定にまたがる機能解釈可能性の目標を開発し、それらをFIXベンチマークである単一のフレームワークに統合しました。 人気の高い機能ベースの説明手法は、専門家が特定した知識との整合性が低く、専門家に解釈可能な機能をよりよく識別できる新しい方法の必要性を強調している。

Feature-based methods are commonly used to explain model predictions, but these methods often implicitly assume that interpretable features are readily available. However, this is often not the case for high-dimensional data, and it can be hard even for domain experts to mathematically specify which features are important. Can we instead automatically extract collections or groups of features that are aligned with expert knowledge? To address this gap, we present FIX (Features Interpretable to eXperts), a benchmark for measuring how well a collection of features aligns with expert knowledge. In collaboration with domain experts, we have developed feature interpretability objectives across diverse real-world settings and unified them into a single framework that is the FIX benchmark. We find that popular feature-based explanation methods have poor alignment with expert-specified knowledge, highlighting the need for new methods that can better identify features interpretable to experts.
翻訳日:2024-11-07 05:57:35 公開日:2024-10-09
# FIXベンチマーク:eXpertに解釈可能な機能の抽出

The FIX Benchmark: Extracting Features Interpretable to eXperts ( http://arxiv.org/abs/2409.13684v2 )

ライセンス: Link先を確認
Helen Jin, Shreya Havaldar, Chaehyeon Kim, Anton Xue, Weiqiu You, Helen Qu, Marco Gatti, Daniel A Hashimoto, Bhuvnesh Jain, Amin Madani, Masao Sako, Lyle Ungar, Eric Wong, (参考訳) 特徴に基づく手法はモデル予測を説明するのによく用いられるが、これらの手法はしばしば解釈可能な特徴が容易に利用できると暗黙的に仮定する。 しかし、これは高次元データには当てはまらないことが多く、ドメインの専門家でさえ、どの機能が重要なのかを数学的に特定することは困難である。 代わりに、専門家の知識に合わせたコレクションや機能の集まりを自動的に抽出できますか? このギャップに対処するため、FIX(Features Interpretable to eXperts)という、機能の集合が専門家の知識とどの程度うまく一致しているかを測定するベンチマークを提示する。 FIXScoreは、視覚、言語、時系列データモダリティにおいて、宇宙論、心理学、医学領域にまたがる多様な現実世界の設定に適用可能な、統一された専門家アライメント尺度である。 FIXScoreでは、人気のある機能ベースの説明手法が専門家が特定した知識と整合性に欠けており、専門家に解釈可能な機能をよりよく識別できる新しい方法の必要性が強調されている。

Feature-based methods are commonly used to explain model predictions, but these methods often implicitly assume that interpretable features are readily available. However, this is often not the case for high-dimensional data, and it can be hard even for domain experts to mathematically specify which features are important. Can we instead automatically extract collections or groups of features that are aligned with expert knowledge? To address this gap, we present FIX (Features Interpretable to eXperts), a benchmark for measuring how well a collection of features aligns with expert knowledge. In collaboration with domain experts, we propose FIXScore, a unified expert alignment measure applicable to diverse real-world settings across cosmology, psychology, and medicine domains in vision, language and time series data modalities. With FIXScore, we find that popular feature-based explanation methods have poor alignment with expert-specified knowledge, highlighting the need for new methods that can better identify features interpretable to experts.
翻訳日:2024-11-07 05:57:35 公開日:2024-10-09
# 抑うつ診断対話シミュレーション:三次記憶を伴う自己改善精神科医

Depression Diagnosis Dialogue Simulation: Self-improving Psychiatrist with Tertiary Memory ( http://arxiv.org/abs/2409.15084v2 )

ライセンス: Link先を確認
Kunyao Lan, Bingrui Jin, Zichen Zhu, Siyuan Chen, Shu Zhang, Kenny Q. Zhu, Mengyue Wu, (参考訳) 精神疾患、特にうつ病は、効果的な自動診断方法の開発を必要とする現代社会において重大な課題を呈している。 本稿では,患者と精神科医の対話を模擬してうつ病診断を促進する自己改善型会話エージェントシステムであるエージェント・メンタル・クリニック(AMC)を紹介する。 対話の質と診断精度を高めるため,第3の記憶構造,「スーパーバイザ」として機能する対話制御,および記憶サンプリングモジュールからなる精神科医エージェントを設計し,精神科医エージェントが反映するスキルを十分に活用し,抑うつリスクや自殺リスク診断の精度を高める。 実生活シナリオで収集したデータセットを用いた実験結果から, 精神科医の訓練手順を模擬したシステムが, LLMの重みを変更することなく, 特定の領域における実生活分布とLLMを整合させる, 有望な最適化手法であることが示された。

Mental health issues, particularly depressive disorders, present significant challenges in contemporary society, necessitating the development of effective automated diagnostic methods. This paper introduces the Agent Mental Clinic (AMC), a self-improving conversational agent system designed to enhance depression diagnosis through simulated dialogues between patient and psychiatrist agents. To enhance the dialogue quality and diagnosis accuracy, we design a psychiatrist agent consisting of a tertiary memory structure, a dialogue control and reflect plugin that acts as ``supervisor'' and a memory sampling module, fully leveraging the skills reflected by the psychiatrist agent, achieving great accuracy on depression risk and suicide risk diagnosis via conversation. Experiment results on datasets collected in real-life scenarios demonstrate that the system, simulating the procedure of training psychiatrists, can be a promising optimization method for aligning LLMs with real-life distribution in specific domains without modifying the weights of LLMs, even when only a few representative labeled cases are available.
翻訳日:2024-11-06 20:27:58 公開日:2024-10-09
# UNCV2024におけるBRAVOセマンティックセマンティックセグメンテーションの課題

The BRAVO Semantic Segmentation Challenge Results in UNCV2024 ( http://arxiv.org/abs/2409.15107v2 )

ライセンス: Link先を確認
Tuan-Hung Vu, Eduardo Valle, Andrei Bursuc, Tommie Kerssies, Daan de Geus, Gijs Dubbelman, Long Qian, Bingke Zhu, Yingying Chen, Ming Tang, Jinqiao Wang, Tomáš Vojíř, Jan Šochman, Jiří Matas, Michael Smith, Frank Ferrie, Shamik Basu, Christos Sakaridis, Luc Van Gool, (参考訳) 現実的な摂動と未知のアウト・オブ・ディストリビューション(OOD)シナリオ下でのセマンティックセグメンテーションモデルの信頼性をベンチマークするための統合BRAVOチャレンジを提案する。 我々は,(1)モデルが様々な摂動にさらされたときの精度とキャリブレーションを反映したセマンティック信頼性,(2)トレーニング中に未知のオブジェクトクラスを検出する能力を測定するOOD信頼性の2つのカテゴリを定義した。 この挑戦は、著名な研究機関を代表する国際チームから100人近い応募者を惹きつけた。 その結果、大規模事前学習と最小限のアーキテクチャ設計が、堅牢で信頼性の高いセマンティックセグメンテーションモデルを開発する上で重要であるという興味深い洞察が浮かび上がっている。

We propose the unified BRAVO challenge to benchmark the reliability of semantic segmentation models under realistic perturbations and unknown out-of-distribution (OOD) scenarios. We define two categories of reliability: (1) semantic reliability, which reflects the model's accuracy and calibration when exposed to various perturbations; and (2) OOD reliability, which measures the model's ability to detect object classes that are unknown during training. The challenge attracted nearly 100 submissions from international teams representing notable research institutions. The results reveal interesting insights into the importance of large-scale pre-training and minimal architectural design in developing robust and reliable semantic segmentation models.
翻訳日:2024-11-06 20:27:58 公開日:2024-10-09
# LH2にインスパイアされたナノスケール積層リング幾何学における効率的な励起伝達

Efficient excitation transfer in an LH2-inspired nanoscale stacked ring geometry ( http://arxiv.org/abs/2409.15288v1 )

ライセンス: Link先を確認
Arpita Pal, Raphael Holzinger, Maria Moreno-Cardoner, Helmut Ritsch, (参考訳) サブ波長のリング状の量子エミッタ構造は優れた放射特性を示し、アンテナ、励起輸送、貯蔵に有用である。 生体光ハーベスティング2 (LH2) 錯体のオリゴマー幾何学から着想を得て, 2層原子で形成される直径400 \textit{nm} の3次元(3D) サブ波長の同心重心リング構造において, 高い効率の励起転移を予測した。 量子光学的オープン・システム・マスター方程式を用いた双極子力学の解法により, 生体模倣型3Dリングは2つのリング層間の効率的な励起伝達を可能にすることを示した。 本研究は, バイオミメティックな光物質プラットフォームやエミッタアレイを応用して, 効率的なエネルギー移動を実現するための展望を明らかにした。

Subwavelength ring-shaped structures of quantum emitters exhibit outstanding radiation properties and are useful for antennas, excitation transport, and storage. Taking inspiration from the oligomeric geometry of biological light-harvesting 2 (LH2) complexes, we study here generic examples and predict highly efficient excitation transfer in a three-dimensional (3D) subwavelength concentric stacked ring structure with a diameter of 400 \textit{nm}, formed by two-level atoms. Utilizing the quantum optical open system master equation approach for the collective dipole dynamics, we demonstrate that, depending on the system parameters, our bio-mimicked 3D ring enables efficient excitation transfer between two ring layers. Our findings open prospects for engineering other biomimetic light-matter platforms and emitter arrays to achieve efficient energy transfer.
翻訳日:2024-11-06 20:16:59 公開日:2024-10-09
# LH2にインスパイアされたナノスケール積層リング幾何学における効率的な励起伝達

Efficient excitation transfer in an LH2-inspired nanoscale stacked ring geometry ( http://arxiv.org/abs/2409.15288v2 )

ライセンス: Link先を確認
Arpita Pal, Raphael Holzinger, Maria Moreno-Cardoner, Helmut Ritsch, (参考訳) サブ波長のリング状の量子エミッタ構造は優れた放射特性を示し、アンテナ、励起輸送、貯蔵に有用である。 生体光ハーベスティング2 (LH2) 錯体のオリゴマー構造から着想を得て, 3次元(3D) サブ波長の同心重心リング構造における高効率な励起転移を予測し, 直径400$nm$の2レベル原子で生成する。 量子光学的オープン・システム・マスター方程式を用いた双極子力学の解法により, 生体模倣型3Dリングは2つのリング層間の効率的な励起伝達を可能にすることを示した。 本研究は, バイオミメティックな光物質プラットフォームやエミッタアレイを応用して, 効率的なエネルギー移動を実現するための展望を明らかにした。

Subwavelength ring-shaped structures of quantum emitters exhibit outstanding radiation properties and are useful for antennas, excitation transport, and storage. Taking inspiration from the oligomeric geometry of biological light-harvesting 2 (LH2) complexes, we study here generic examples and predict highly efficient excitation transfer in a three-dimensional (3D) subwavelength concentric stacked ring structure with a diameter of 400 $nm$, formed by two-level atoms. Utilizing the quantum optical open system master equation approach for the collective dipole dynamics, we demonstrate that, depending on the system parameters, our bio-mimicked 3D ring enables efficient excitation transfer between two ring layers. Our findings open prospects for engineering other biomimetic light-matter platforms and emitter arrays to achieve efficient energy transfer.
翻訳日:2024-11-06 20:16:59 公開日:2024-10-09
# NLP説明における反感の忠実さと通知

Faithfulness and the Notion of Adversarial Sensitivity in NLP Explanations ( http://arxiv.org/abs/2409.17774v2 )

ライセンス: Link先を確認
Supriya Manna, Niladri Sett, (参考訳) 忠実さは、説明可能なAIの信頼性を評価する上で、間違いなく最も重要な指標である。 NLPでは、現在の忠実度評価の手法は相違点と偏見を伴い、しばしばモデルの真の推論を捉えない。 本稿では, モデルが敵攻撃を受ける際の説明者の反応に着目し, 忠実度評価への新たなアプローチとして, 対人感について紹介する。 本手法は, 逆入力変化に対する感度を捉えることによって, 説明者の忠実さを考慮に入れている。 この研究は、既存の評価手法における重大な制限に対処し、さらに、重要で未調査のパラダイムから忠実さを定量化する。

Faithfulness is arguably the most critical metric to assess the reliability of explainable AI. In NLP, current methods for faithfulness evaluation are fraught with discrepancies and biases, often failing to capture the true reasoning of models. We introduce Adversarial Sensitivity as a novel approach to faithfulness evaluation, focusing on the explainer's response when the model is under adversarial attack. Our method accounts for the faithfulness of explainers by capturing sensitivity to adversarial input changes. This work addresses significant limitations in existing evaluation techniques, and furthermore, quantifies faithfulness from a crucial yet underexplored paradigm.
翻訳日:2024-11-06 16:00:56 公開日:2024-10-09
# 超電導量子アーキテクチャのエラー予算化に向けて

Towards Error Budgeting for Superconducting Modular Quantum Architecture Designs ( http://arxiv.org/abs/2409.18262v1 )

ライセンス: Link先を確認
Evan McKinney, Girgis Falstin, Israa Yusuf, Gaurav Agarwal, Michael Hatridge, Alex K. Jones, (参考訳) 本稿では、SNAILベースの量子モジュールに着目し、モジュラー量子アーキテクチャ設計における周波数群集制約に対処する。 主な目的は2つある。 まず,SNAILモジュール内のゲートの物理モデルを記述し,デバイス特性から得られた誤差予算を用いた忠実度モデルを構築する。 第2に,モジュールの基数の増加に伴うゲート忠実度に対する周波数群集の影響を解析することにより,アロケーション問題に対処する。 分離しきい値の定義に固執しながら、ゲートの忠実度をキュービット周波数の離散的なセットで保存できるかどうかを考察する。 この研究は、不安定なノイズの影響を緩和し、全体的なゲート性能を改善するために、新しい量子アーキテクチャと結合最適化技術に関する洞察を提供する。

This paper addresses frequency crowding constraints in modular quantum architecture design, focusing on the SNAIL-based quantum modules. Two key objectives are explored. First, we present physics-informed design constraints by describing a physical model for realizable gates within a SNAIL module and building a fidelity model using error budgeting derived from device characteristics. Second, we tackle the allocation problem by analyzing the impact of frequency crowding on gate fidelity as the radix of the module increases. We explore whether the gate fidelity can be preserved with a discrete set of qubit frequencies while adhering to defined separation thresholds. This work offers insights into novel quantum architectures and coupled optimization techniques to mitigate the effects of unstable noise and improve overall gate performance.
翻訳日:2024-11-06 14:51:14 公開日:2024-10-09
# 超電導量子アーキテクチャのエラー予算化に向けて

Towards Error Budgeting for Superconducting Modular Quantum Architecture Designs ( http://arxiv.org/abs/2409.18262v2 )

ライセンス: Link先を確認
Evan McKinney, Girgis Falstin, Israa G. Yusuf, Gaurav Agarwal, Michael Hatridge, Alex K. Jones, (参考訳) 本稿では、SNAILベースの量子モジュールに着目し、モジュラー量子アーキテクチャ設計における周波数群集制約に対処する。 主な目的は2つある。 まず,SNAILモジュール内のゲートの物理モデルを記述し,デバイス特性から得られた誤差予算を用いた忠実度モデルを構築する。 第2に,モジュールの基数の増加に伴うゲート忠実度に対する周波数群集の影響を解析することにより,アロケーション問題に対処する。 分離しきい値の定義に固執しながら、ゲートの忠実度をキュービット周波数の離散的なセットで保存できるかどうかを考察する。 この研究は、不安定なノイズの影響を緩和し、全体的なゲート性能を改善するために、新しい量子アーキテクチャと結合最適化技術に関する洞察を提供する。

This paper addresses frequency crowding constraints in modular quantum architecture design, focusing on the SNAIL-based quantum modules. Two key objectives are explored. First, we present physics-informed design constraints by describing a physical model for realizable gates within a SNAIL module and building a fidelity model using error budgeting derived from device characteristics. Second, we tackle the allocation problem by analyzing the impact of frequency crowding on gate fidelity as the radix of the module increases. We explore whether the gate fidelity can be preserved with a discrete set of qubit frequencies while adhering to defined separation thresholds. This work offers insights into novel quantum architectures and coupled optimization techniques to mitigate the effects of unstable noise and improve overall gate performance.
翻訳日:2024-11-06 14:51:14 公開日:2024-10-09
# 超電導量子アーキテクチャのエラー予算化に向けて

Towards Error Budgeting for Superconducting Modular Quantum Architecture Designs ( http://arxiv.org/abs/2409.18262v3 )

ライセンス: Link先を確認
Evan McKinney, Girgis Falstin, Israa G. Yusuf, Gaurav Agarwal, Michael Hatridge, Alex K. Jones, (参考訳) 本稿では、SNAILベースの量子モジュールに着目し、モジュラー量子アーキテクチャ設計における周波数群集制約に対処する。 主な目的は2つある。 まず,SNAILモジュール内のゲートの物理モデルを記述し,デバイス特性から得られた誤差予算を用いた忠実度モデルを構築する。 第2に,モジュールの基数の増加に伴うゲート忠実度に対する周波数群集の影響を解析することにより,アロケーション問題に対処する。 分離しきい値の定義に固執しながら、ゲートの忠実度をキュービット周波数の離散的なセットで保存できるかどうかを考察する。 この研究は、不安定なノイズの影響を緩和し、全体的なゲート性能を改善するために、新しい量子アーキテクチャと結合最適化技術に関する洞察を提供する。

This paper addresses frequency crowding constraints in modular quantum architecture design, focusing on the SNAIL-based quantum modules. Two key objectives are explored. First, we present physics-informed design constraints by describing a physical model for realizable gates within a SNAIL module and building a fidelity model using error budgeting derived from device characteristics. Second, we tackle the allocation problem by analyzing the impact of frequency crowding on gate fidelity as the radix of the module increases. We explore whether the gate fidelity can be preserved with a discrete set of qubit frequencies while adhering to defined separation thresholds. This work offers insights into novel quantum architectures and coupled optimization techniques to mitigate the effects of unstable noise and improve overall gate performance.
翻訳日:2024-11-06 14:51:14 公開日:2024-10-09
# ASCIIアートによるLSM攻撃と毒性検出システム

Read Over the Lines: Attacking LLMs and Toxicity Detection Systems with ASCII Art to Mask Profanity ( http://arxiv.org/abs/2409.18708v2 )

ライセンス: Link先を確認
Sergey Berezin, Reza Farahbakhsh, Noel Crespi, (参考訳) 言語モデルがASCIIアートを解釈できないことを生かした,敵対的攻撃の新たなファミリーを紹介した。 これらの攻撃を評価するため、ToxASCIIベンチマークを提案し、2つのカスタムASCIIアートフォントを開発する。 当社の攻撃は,OpenAIのo1-previewやLLaMA 3.1を含む10モデルで,完全な1.0アタック成功率を実現しています。 警告: 本論文は, 研究目的に使用される有毒言語の例を含む。

We introduce a novel family of adversarial attacks that exploit the inability of language models to interpret ASCII art. To evaluate these attacks, we propose the ToxASCII benchmark and develop two custom ASCII art fonts: one leveraging special tokens and another using text-filled letter shapes. Our attacks achieve a perfect 1.0 Attack Success Rate across ten models, including OpenAI's o1-preview and LLaMA 3.1. Warning: this paper contains examples of toxic language used for research purposes.
翻訳日:2024-11-06 05:42:34 公開日:2024-10-09
# ASCIIアートによるLSM攻撃と毒性検出システム

Read Over the Lines: Attacking LLMs and Toxicity Detection Systems with ASCII Art to Mask Profanity ( http://arxiv.org/abs/2409.18708v3 )

ライセンス: Link先を確認
Sergey Berezin, Reza Farahbakhsh, Noel Crespi, (参考訳) 言語モデルがASCIIアートを解釈できないことを生かした,敵対的攻撃の新たなファミリーを紹介した。 これらの攻撃を評価するため、ToxASCIIベンチマークを提案し、2つのカスタムASCIIアートフォントを開発する。 当社の攻撃は,OpenAIのo1-previewやLLaMA 3.1を含む10モデルで,完全な1.0アタック成功率を実現しています。 警告: 本論文は, 研究目的に使用される有毒言語の例を含む。

We introduce a novel family of adversarial attacks that exploit the inability of language models to interpret ASCII art. To evaluate these attacks, we propose the ToxASCII benchmark and develop two custom ASCII art fonts: one leveraging special tokens and another using text-filled letter shapes. Our attacks achieve a perfect 1.0 Attack Success Rate across ten models, including OpenAI's o1-preview and LLaMA 3.1. Warning: this paper contains examples of toxic language used for research purposes.
翻訳日:2024-11-06 05:42:34 公開日:2024-10-09
# ASCIIアートによるLSM攻撃と毒性検出システム

Read Over the Lines: Attacking LLMs and Toxicity Detection Systems with ASCII Art to Mask Profanity ( http://arxiv.org/abs/2409.18708v4 )

ライセンス: Link先を確認
Sergey Berezin, Reza Farahbakhsh, Noel Crespi, (参考訳) 言語モデルがASCIIアートを解釈できないことを生かした,敵対的攻撃の新たなファミリーを紹介した。 これらの攻撃を評価するため、ToxASCIIベンチマークを提案し、2つのカスタムASCIIアートフォントを開発する。 当社の攻撃は,OpenAIのo1-previewやLLaMA 3.1を含む10モデルで,完全な1.0アタック成功率を実現しています。 警告: 本論文は, 研究目的に使用される有毒言語の例を含む。

We introduce a novel family of adversarial attacks that exploit the inability of language models to interpret ASCII art. To evaluate these attacks, we propose the ToxASCII benchmark and develop two custom ASCII art fonts: one leveraging special tokens and another using text-filled letter shapes. Our attacks achieve a perfect 1.0 Attack Success Rate across ten models, including OpenAI's o1-preview and LLaMA 3.1. Warning: this paper contains examples of toxic language used for research purposes.
翻訳日:2024-11-06 05:32:49 公開日:2024-10-09
# ディープラーニングと機械学習、ビッグデータ分析と管理の改善:オブジェクト指向プログラミング

Deep Learning and Machine Learning, Advancing Big Data Analytics and Management: Object-Oriented Programming ( http://arxiv.org/abs/2409.19916v1 )

ライセンス: Link先を確認
Ming Li, Ziqian Bi, Tianyang Wang, Keyu Chen, Jiawei Xu, Qian Niu, Junyu Liu, Benji Peng, Sen Zhang, Xuanhe Pan, Jinlang Wang, Pohsun Feng, Caitlyn Heqi Yin, Yizhu Wen, Ming Liu, (参考訳) オブジェクト指向プログラミング(OOP)は、特に機械学習、ディープラーニング、大規模言語モデル(LLM)、データ分析といった分野において、現代のソフトウェアシステムの複雑さの増加を管理するための重要なパラダイムになっています。 この作業は、コードのモジュール化、保守性、拡張性の改善に焦点を当てた、これらの領域におけるOOPテクニックの統合に関する包括的な紹介を提供する。 まずは計算の進化とOOPの台頭について概説し、続いてカプセル化、継承、多型化、抽象化といったOOPの主要な原則について詳細に議論します。 これらの原則の実践的応用は、AIとデータサイエンスにおいて広く採用されている言語であるPythonを用いて実証されている。 さらに,機械学習システムの構造と効率を高めるために,設計パターンとモジュールプログラミングをどのように利用することができるかを検討する。 その後のセクションでは、これらのOOP概念を、事前処理ワークフローのカプセル化、機械学習モデルトレーニング、評価を含む現実世界のAIタスクに適用する。 詳細な例は、OOPが再利用可能なスケーラブルな機械学習システムの構築にどのように使用できるかを示し、コードの明確性を維持し、冗長性を低下させる。この作業は、初心者と経験豊富な開発者の両方にとってブリッジとして機能することを目的としており、AI駆動プロジェクトにおいてOOP方法論を適用するために必要な知識を備え、最終的にはより堅牢で保守可能なシステムの開発を促進する。

Object-Oriented Programming (OOP) has become a crucial paradigm for managing the growing complexity of modern software systems, particularly in fields like machine learning, deep learning, large language models (LLM), and data analytics. This work provides a comprehensive introduction to the integration of OOP techniques within these domains, with a focus on improving code modularity, maintainability, and scalability. We begin by outlining the evolution of computing and the rise of OOP, followed by an in-depth discussion of key OOP principles such as encapsulation, inheritance, polymorphism, and abstraction. The practical application of these principles is demonstrated using Python, a widely adopted language in AI and data science. Furthermore, we examine how design patterns and modular programming can be employed to enhance the structure and efficiency of machine learning systems. In subsequent sections, we apply these OOP concepts to real-world AI tasks, including the encapsulation of preprocessing workflows, machine learning model training, and evaluation. Detailed examples illustrate how OOP can be used to build reusable, scalable machine learning systems while maintaining code clarity and reducing redundancy.This work is intended to serve as a bridge for both beginners and experienced developers, equipping them with the necessary knowledge to apply OOP methodologies in AI-driven projects, ultimately fostering the development of more robust and maintainable systems.
翻訳日:2024-11-05 16:57:15 公開日:2024-10-09
# ディープラーニングと機械学習、ビッグデータ分析と管理の改善:オブジェクト指向プログラミング

Deep Learning and Machine Learning, Advancing Big Data Analytics and Management: Object-Oriented Programming ( http://arxiv.org/abs/2409.19916v2 )

ライセンス: Link先を確認
Tianyang Wang, Ziqian Bi, Keyu Chen, Jiawei Xu, Qian Niu, Junyu Liu, Benji Peng, Ming Li, Sen Zhang, Xuanhe Pan, Jinlang Wang, Pohsun Feng, Caitlyn Heqi Yin, Yizhu Wen, Ming Liu, (参考訳) オブジェクト指向プログラミング(OOP)は、特に機械学習、ディープラーニング、大規模言語モデル(LLM)、データ分析といった分野において、現代のソフトウェアシステムの複雑さの増加を管理するための重要なパラダイムになっています。 この作業は、コードのモジュール化、保守性、拡張性の改善に焦点を当てた、これらの領域におけるOOPテクニックの統合に関する包括的な紹介を提供する。 まずは計算の進化とOOPの台頭について概説し、続いてカプセル化、継承、多型化、抽象化といったOOPの主要な原則について詳細に議論します。 これらの原則の実践的応用は、AIとデータサイエンスにおいて広く採用されている言語であるPythonを用いて実証されている。 さらに,機械学習システムの構造と効率を高めるために,設計パターンとモジュールプログラミングをどのように利用することができるかを検討する。 その後のセクションでは、これらのOOP概念を、事前処理ワークフローのカプセル化、機械学習モデルトレーニング、評価を含む現実世界のAIタスクに適用する。 詳細な例は、OOPが再利用可能なスケーラブルな機械学習システムの構築にどのように使用できるかを示し、コードの明確性を維持し、冗長性を低下させる。この作業は、初心者と経験豊富な開発者の両方にとってブリッジとして機能することを目的としており、AI駆動プロジェクトにおいてOOP方法論を適用するために必要な知識を備え、最終的にはより堅牢で保守可能なシステムの開発を促進する。

Object-Oriented Programming (OOP) has become a crucial paradigm for managing the growing complexity of modern software systems, particularly in fields like machine learning, deep learning, large language models (LLM), and data analytics. This work provides a comprehensive introduction to the integration of OOP techniques within these domains, with a focus on improving code modularity, maintainability, and scalability. We begin by outlining the evolution of computing and the rise of OOP, followed by an in-depth discussion of key OOP principles such as encapsulation, inheritance, polymorphism, and abstraction. The practical application of these principles is demonstrated using Python, a widely adopted language in AI and data science. Furthermore, we examine how design patterns and modular programming can be employed to enhance the structure and efficiency of machine learning systems. In subsequent sections, we apply these OOP concepts to real-world AI tasks, including the encapsulation of preprocessing workflows, machine learning model training, and evaluation. Detailed examples illustrate how OOP can be used to build reusable, scalable machine learning systems while maintaining code clarity and reducing redundancy.This work is intended to serve as a bridge for both beginners and experienced developers, equipping them with the necessary knowledge to apply OOP methodologies in AI-driven projects, ultimately fostering the development of more robust and maintainable systems.
翻訳日:2024-11-05 16:57:15 公開日:2024-10-09
# 埋め込みにおける意味成分の高次相関の理解

Understanding Higher-Order Correlations Among Semantic Components in Embeddings ( http://arxiv.org/abs/2409.19919v1 )

ライセンス: Link先を確認
Momose Oyama, Hiroaki Yamagiwa, Hidetoshi Shimodaira, (参考訳) 独立成分分析(ICA)は、埋め込みの固有の幾何学的構造を意味的要素として解釈する有効な方法である。 ICA理論は埋め込みを独立成分に線形に分解できると仮定するが、現実のデータはこの仮定を満たさないことが多い。 その結果、ICAが排除できない推定コンポーネントの間には、非依存が残っている。 我々は高次相関を用いてこれらの非独立性を定量化し、高次相関が大きい場合、それら間の強い意味的関連性を示すことを示した。 構造全体の可視化は、セマンティックコンポーネントの最大スパンニングツリーを使用して行われた。 これらの知見はICAによる埋め込みのさらなる理解を可能にする。

Independent Component Analysis (ICA) is an effective method for interpreting the intrinsic geometric structure of embeddings as semantic components. While ICA theory assumes that embeddings can be linearly decomposed into independent components, real-world data often do not satisfy this assumption. Consequently, there are remaining non-independencies between the estimated components that ICA cannot eliminate. We quantified these non-independencies using higher-order correlations and demonstrated that when the higher-order correlation between two components is large, it indicates a strong semantic association between them. The entire structure was revealed through visualization using a maximum spanning tree of semantic components. These findings allow for further understanding of embeddings through ICA.
翻訳日:2024-11-05 16:57:15 公開日:2024-10-09
# 埋め込みにおける意味成分の高次相関の理解

Understanding Higher-Order Correlations Among Semantic Components in Embeddings ( http://arxiv.org/abs/2409.19919v2 )

ライセンス: Link先を確認
Momose Oyama, Hiroaki Yamagiwa, Hidetoshi Shimodaira, (参考訳) 独立コンポーネント分析(ICA)は、埋め込みの解釈可能なセマンティックコンポーネントを提供する。 ICA理論は埋め込みを独立成分に線形に分解できると仮定するが、現実のデータはこの仮定を満たさないことが多い。 その結果、非依存はICAが排除できない推定コンポーネントの間に留まる。 我々は,高次相関を用いてこれらの非独立性を定量化し,高次相関が大きい場合,両者の強い意味的関連性を示すとともに,共通意味を両成分と共有する語が多いことを実証した。 非独立性の全体構造は、セマンティックコンポーネントの最大スパンニングツリーを使用して視覚化された。 これらの知見はICAによる埋め込みに関する深い洞察を与える。

Independent Component Analysis (ICA) offers interpretable semantic components of embeddings. While ICA theory assumes that embeddings can be linearly decomposed into independent components, real-world data often do not satisfy this assumption. Consequently, non-independencies remain between the estimated components, which ICA cannot eliminate. We quantified these non-independencies using higher-order correlations and demonstrated that when the higher-order correlation between two components is large, it indicates a strong semantic association between them, along with many words sharing common meanings with both components. The entire structure of non-independencies was visualized using a maximum spanning tree of semantic components. These findings provide deeper insights into embeddings through ICA.
翻訳日:2024-11-05 16:57:15 公開日:2024-10-09
# DoPAMine: シード誘導データマイニングによるドメイン固有の事前トレーニング適応

DoPAMine: Domain-specific Pre-training Adaptation from seed-guided data Mining ( http://arxiv.org/abs/2410.00260v1 )

ライセンス: Link先を確認
Vinayak Arannil, Sourav Sanjukta Bhabesh, Neha Narwal, Sai Nikhil Thirandas, Darren Yow-Bang Wang, Graham Horwood, Alex Anto Chirayath, Gouri Pandeshwar, (参考訳) 大規模言語モデル(LLM)は、様々なタスクを実行しながら、多くの業界領域で効果的に一般化する能力を示す。 これらの能力の多くは、言語モデル(LM)の事前学習フェーズで使用されるデータから得られる。 しかし、これらのモデルは、専門または低リソースの業界ドメインでの実行をタスクする際の制限を示す。 近年のアプローチでは、LLMを使用してドメイン固有の合成データを生成するが、多くの場合、真性や複雑さに欠ける。 あるいは、医療やファイナンスのようなドメインデータが利用可能である場合、ほとんどのLMは、現実の業界固有の事前トレーニングデータをキュレートするためのスケーラブルな方法を必要とするプロプライエタリなものです。 本研究では,シード誘導データマイニングから,LMのドメイン適応のための大規模データコーパスから,ドメイン固有のトレーニングデータをマイニングするための,DoPAMine:Domain-specific Pre-training Adaptationを提案する。 このフレームワークは、LLMのパラメトリック知識を活用して、特定のドメインに適した多様で代表的なシードデータを生成し、Common Crawlのような大規模なデータコーパスから現実世界のデータをマイニングする。 本研究は,医療分野における2つのドメイン固有7BパラメータLMのトレーニングと,DoPAMineを用いたデータマイニングによるファイナンスにより,CPT(Continuousal pre-training)設定におけるフレームワークの性能を評価した。 本実験により, MMLU, MedQA, MedMCQA, PubMedQA の医療タスクでは, 平均4.9%, 5ショット設定では5.1%, FiQA-SA, FPB, Headlines の金融タスクでは2.9%, 5ショット設定では5ショット設定では2.7%, 5ショット設定では2.9%, 5ショット設定では5ショット設定では2.7%が向上した。

Large Language Models (LLMs) have shown remarkable ability to generalize effectively across numerous industry domains while executing a range of tasks. Many of these competencies are obtained from the data utilized during the pre-training phase of the Language Models (LMs). However, these models exhibit limitations when tasked with performing in specialized or low-resource industry domains. More recent approaches use LLMs for generating domain-specific synthetic data but most often they lack in truthfulness and complexity. Alternatively, in cases where domain data is available like healthcare and finance most of the LMs are proprietary necessitating the need for a scalable method to curate real world industry specific pre-training data. In this work, we propose an automated and scalable framework - DoPAMine:Domain-specific Pre-training Adaptation from seed-guided data Mining, to mine domain specific training data from a large data corpus for domain adaptation of a LM. The framework leverages the parametric knowledge of a LLM to generate diverse and representative seed data tailored to a specific domain which is then used to mine real world data from a large data corpus like Common Crawl. We evaluated our framework's performance in the continual pre-training (CPT) setting by training two domain specific 7B parameter LMs in healthcare and finance with data mined via DoPAMine. Our experiments show that DoPAMine boosts the performance of pre-trained LLMs on average by 4.9% and 5.1% in zero-shot and 5-shot settings respectively on healthcare tasks from MMLU, MedQA, MedMCQA and PubMedQA datasets, and 2.9% and 6.7% for zero-shot and 5-shot settings respectively on finance tasks from FiQA-SA, FPB and Headlines datasets when compared to the baseline.
翻訳日:2024-11-05 06:46:17 公開日:2024-10-09
# DoPAMine: シード誘導データマイニングによるドメイン固有の事前トレーニング適応

DoPAMine: Domain-specific Pre-training Adaptation from seed-guided data Mining ( http://arxiv.org/abs/2410.00260v2 )

ライセンス: Link先を確認
Vinayak Arannil, Neha Narwal, Sourav Sanjukta Bhabesh, Sai Nikhil Thirandas, Darren Yow-Bang Wang, Graham Horwood, Alex Anto Chirayath, Gouri Pandeshwar, (参考訳) 大規模言語モデル(LLM)は、様々なタスクを実行しながら、多くの業界領域で効果的に一般化する能力を示す。 これらの能力の多くは、言語モデル(LM)の事前学習フェーズで使用されるデータから得られる。 しかし、これらのモデルは、専門または低リソースの業界ドメインでの実行をタスクする際の制限を示す。 近年のアプローチでは、LLMを使用してドメイン固有の合成データを生成するが、多くの場合、真性や複雑さに欠ける。 あるいは、医療やファイナンスのようなドメインデータが利用可能である場合、ほとんどのLMは、現実の業界固有の事前トレーニングデータをキュレートするためのスケーラブルな方法を必要とするプロプライエタリなものです。 本研究では,シード誘導データマイニングから,LMのドメイン適応のための大規模データコーパスから,ドメイン固有のトレーニングデータをマイニングするための,DoPAMine:Domain-specific Pre-training Adaptationを提案する。 このフレームワークは、LLMのパラメトリック知識を活用して、特定のドメインに適した多様で代表的なシードデータを生成し、Common Crawlのような大規模なデータコーパスから現実世界のデータをマイニングする。 本研究は,医療分野における2つのドメイン固有7BパラメータLMのトレーニングと,DoPAMineを用いたデータマイニングによるファイナンスにより,CPT(Continuousal pre-training)設定におけるフレームワークの性能を評価した。 本実験により, MMLU, MedQA, MedMCQA, PubMedQA の医療タスクでは, 平均4.9%, 5ショット設定では5.1%, FiQA-SA, FPB, Headlines の金融タスクでは2.9%, 5ショット設定では5ショット設定では2.7%, 5ショット設定では2.9%, 5ショット設定では5ショット設定では2.7%が向上した。

Large Language Models (LLMs) have shown remarkable ability to generalize effectively across numerous industry domains while executing a range of tasks. Many of these competencies are obtained from the data utilized during the pre-training phase of the Language Models (LMs). However, these models exhibit limitations when tasked with performing in specialized or low-resource industry domains. More recent approaches use LLMs for generating domain-specific synthetic data but most often they lack in truthfulness and complexity. Alternatively, in cases where domain data is available like healthcare and finance most of the LMs are proprietary necessitating the need for a scalable method to curate real world industry specific pre-training data. In this work, we propose an automated and scalable framework - DoPAMine:Domain-specific Pre-training Adaptation from seed-guided data Mining, to mine domain specific training data from a large data corpus for domain adaptation of a LM. The framework leverages the parametric knowledge of a LLM to generate diverse and representative seed data tailored to a specific domain which is then used to mine real world data from a large data corpus like Common Crawl. We evaluated our framework's performance in the continual pre-training (CPT) setting by training two domain specific 7B parameter LMs in healthcare and finance with data mined via DoPAMine. Our experiments show that DoPAMine boosts the performance of pre-trained LLMs on average by 4.9% and 5.1% in zero-shot and 5-shot settings respectively on healthcare tasks from MMLU, MedQA, MedMCQA and PubMedQA datasets, and 2.9% and 6.7% for zero-shot and 5-shot settings respectively on finance tasks from FiQA-SA, FPB and Headlines datasets when compared to the baseline.
翻訳日:2024-11-05 06:46:17 公開日:2024-10-09
# IMUデータを用いたエクササイズカウントのためのメトリックベースFew-Shot学習

Metric-Based Few-Shot Learning for Exercise Repetition Counting with IMU Data ( http://arxiv.org/abs/2410.00407v1 )

ライセンス: Link先を確認
Yooseok Lim, Sujee Lee, (参考訳) 本研究は、IMU信号を解析し、トレーニング中に見られない新しいエクササイズを含むあらゆる種類のエクササイズ運動をカウントするユニバーサルエクササイズカウントタスクを単一のモデルを用いて、自動的にカウントする方法を開発する。 このようなモデルを開発する上で重要な課題は、さまざまなタイプのエクササイズにまたがるピークパターンのかなりのバリエーションを扱うことだ。 ピークパターンは、異なるエクササイズと同一のエクササイズを行う個人間で大きく異なるため、モデルを効果的に一般化するためには、センサーデータの複雑な埋め込み空間を学習する必要がある。 この課題に対処するために,既存の演習と新規演習の両方を扱うために設計された,深度メートル法に基づく数点学習アプローチを用いた反復カウント手法を提案する。 数えるタスクを数発の分類問題として再定義することにより、トレーニング中に見えないエクササイズにおけるピーク繰り返しパターンを検出することができる。 このアプローチでは、三重項損失を持つシームズネットワークを使用し、埋め込み空間を最適化し、ピークフレームと非ピークフレームを区別する。 提案フレームワークは, 標準分類訓練, 少数ショット訓練, 新規演習のための微調整の3段階からなる。 評価の結果,提案手法の有効性が示され,28種類のエクササイズで10回以上の繰り返しを正確にカウントする確率は86.8%であった。 このパフォーマンスは、トレーニングデータに存在しないものを含む、さまざまなエクササイズタイプにわたってモデルを一般化する能力を強調します。 このような堅牢性と適応性は、フィットネスおよびヘルスケアアプリケーションにおけるリアルタイム実装の強力な候補となる。

This study develops a method to automatically count exercise repetitions by analyzing IMU signals, with a focus on a universal exercise repetition counting task that counts all types of exercise movements, including novel exercises not seen during training, using a single model. A key challenge in developing such a model is handling the considerable variation in peak patterns across different types of exercises. Since peak patterns can vary significantly between different exercises as well as between individuals performing the same exercise, the model needs to learn a complex embedding space of sensor data to generalize effectively. To address this challenge, we propose a repetition counting technique utilizing a deep metric-based few-shot learning approach, designed to handle both existing and novel exercises. By redefining the counting task as a few-shot classification problem, the method is capable of detecting peak repetition patterns in exercises not seen during training. The approach employs a Siamese network with triplet loss, optimizing the embedding space to distinguish between peak and non-peak frames. The proposed framework is composed of three main phases: standard classification training, few-shot training, and fine-tuning for novel exercises, followed by post-processing to refine the final repetition counts. Evaluation results demonstrate the effectiveness of the proposed approach, showing an 86.8% probability of accurately counting ten or more repetitions within a single set across 28 different exercises. This performance highlights the model's ability to generalize across various exercise types, including those not present in the training data. Such robustness and adaptability make the system a strong candidate for real-time implementation in fitness and healthcare applications.
翻訳日:2024-11-05 05:46:46 公開日:2024-10-09
# 未知の運動に対する知的反復数:センサ信号を用いたわずかなショット学習アプローチ

Intelligent Repetition Counting for Unseen Exercises: A Few-Shot Learning Approach with Sensor Signals ( http://arxiv.org/abs/2410.00407v2 )

ライセンス: Link先を確認
Yooseok Lim, Sujee Lee, (参考訳) センシング技術は、人間の動きを反映するシステム、特にロボットや医療において、標的の動きを自動的に検出するシステムにおいて、大幅に進歩している。 本研究は、IMU信号を解析し、トレーニング中に見られない新しいエクササイズを含むあらゆる種類のエクササイズ運動をカウントするユニバーサルエクササイズカウントタスクを単一のモデルを用いて、自動的にカウントする方法を開発する。 ピークパターンは、異なるエクササイズと同一のエクササイズを行う個人間で大きく異なるため、モデルを効果的に一般化するためには、センサーデータの複雑な埋め込み空間を学習する必要がある。 この課題に対処するために,既存の演習と新規演習の両方を扱うために設計された,深度メートル法に基づく数点学習アプローチを用いた反復カウント手法を提案する。 数えるタスクを数発の分類問題として再定義することにより、トレーニング中に見えないエクササイズにおけるピーク繰り返しパターンを検出することができる。 このアプローチでは、三重項損失を持つシームズネットワークを使用し、埋め込み空間を最適化し、ピークフレームと非ピークフレームを区別する。 評価の結果,提案手法の有効性が示され,28種類のエクササイズで10回以上の繰り返しを正確にカウントする確率は86.8%であった。 このパフォーマンスは、トレーニングデータに存在しないものを含む、さまざまなエクササイズタイプにわたってモデルを一般化する能力を強調します。 このような堅牢性と適応性は、フィットネスおよびヘルスケアアプリケーションにおけるリアルタイム実装の強力な候補となる。

Sensing technology has significantly advanced in automating systems that reflect human movement, particularly in robotics and healthcare, where it is used to automatically detect target movements. This study develops a method to automatically count exercise repetitions by analyzing IMU signals, with a focus on a universal exercise repetition counting task that counts all types of exercise movements, including novel exercises not seen during training, using a single model. Since peak patterns can vary significantly between different exercises as well as between individuals performing the same exercise, the model needs to learn a complex embedding space of sensor data to generalize effectively. To address this challenge,we propose a repetition counting technique utilizing a deep metric-based few-shot learning approach, designed to handle both existing and novel exercises. By redefining the counting task as a few-shot classification problem, the method is capable of detecting peak repetition patterns in exercises not seen during training. The approach employs a Siamese network with triplet loss, optimizing the embedding space to distinguish between peak and non-peak frames. Evaluation results demonstrate the effectiveness of the proposed approach, showing an 86.8% probability of accurately counting ten or more repetitions within a single set across 28 different exercises. This performance highlights the model's ability to generalize across various exercise types, including those not present in the training data. Such robustness and adaptability make the system a strong candidate for real-time implementation in fitness and healthcare applications.
翻訳日:2024-11-05 05:46:46 公開日:2024-10-09
# LayerKV: レイヤワイドKVキャッシュ管理による大規模言語モデルの最適化

LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management ( http://arxiv.org/abs/2410.00428v1 )

ライセンス: Link先を確認
Yi Xiong, Hao Wu, Changxu Shao, Ziqing Wang, Rui Zhang, Yuhong Guo, Junping Zhao, Ke Zhang, Zhenxuan Pan, (参考訳) 大規模言語モデル(LLM)におけるコンテキストウィンドウの拡張は、様々なアプリケーションにおけるその機能を大幅に強化しているが、特にTTFT(Time to First Token)において、低レイテンシを維持する上での重大な課題も導入している。 本稿では、コンテキスト長の増加に伴うTTFTの急激な増加は、KVキャッシュブロックの限られた可用性と相反するGPUキーバリュー(KV)キャッシュ割り当ての需要の増加に起因する遅延の待ち行列によって主に引き起こされることを示す。 そこで本研究では,既存の並列処理戦略やスケジューリング手法をシームレスに統合しながら,ハードウェアの追加や出力性能の向上を必要とせず,TTFTを効果的に削減する,シンプルかつ効果的なプラグイン手法であるLayerKVを提案する。 具体的には、レイヤワイドなKVブロック割り当て、管理、システムメモリのきめ細かい制御のためのオフロード、サービスレベルオブジェクト(SLO)全体を最適化するSLO対応スケジューラが導入されている。 様々なGPU構成の7Bから70Bパラメータを含む代表モデルの包括的な評価は、LayerKVがTTFTレイテンシを最大11倍改善し、SLO違反率を28.7%削減し、ユーザエクスペリエンスを著しく向上させることを示した。

The expanding context windows in large language models (LLMs) have greatly enhanced their capabilities in various applications, but they also introduce significant challenges in maintaining low latency, particularly in Time to First Token (TTFT). This paper identifies that the sharp rise in TTFT as context length increases is predominantly driven by queuing delays, which are caused by the growing demands for GPU Key-Value (KV) cache allocation clashing with the limited availability of KV cache blocks. To address this issue, we propose LayerKV, a simple yet effective plug-in method that effectively reduces TTFT without requiring additional hardware or compromising output performance, while seamlessly integrating with existing parallelism strategies and scheduling techniques. Specifically, LayerKV introduces layer-wise KV block allocation, management, and offloading for fine-grained control over system memory, coupled with an SLO-aware scheduler to optimize overall Service Level Objectives (SLOs). Comprehensive evaluations on representative models, ranging from 7B to 70B parameters, across various GPU configurations, demonstrate that LayerKV improves TTFT latency up to 11x and reduces SLO violation rates by 28.7\%, significantly enhancing the user experience
翻訳日:2024-11-05 05:46:46 公開日:2024-10-09
# LayerKV: レイヤワイドKVキャッシュ管理による大規模言語モデルの最適化

LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management ( http://arxiv.org/abs/2410.00428v2 )

ライセンス: Link先を確認
Yi Xiong, Hao Wu, Changxu Shao, Ziqing Wang, Rui Zhang, Yuhong Guo, Junping Zhao, Ke Zhang, Zhenxuan Pan, (参考訳) 大規模言語モデル(LLM)におけるコンテキストウィンドウの拡張は、様々なアプリケーションにおけるその機能を大幅に強化しているが、特にTTFT(Time to First Token)において、低レイテンシを維持する上での重大な課題も導入している。 本稿では、コンテキスト長の増加に伴うTTFTの急激な増加は、KVキャッシュブロックの限られた可用性と相反するGPUキーバリュー(KV)キャッシュ割り当ての需要の増加に起因する遅延の待ち行列によって主に引き起こされることを示す。 そこで本研究では,既存の並列処理戦略やスケジューリング手法をシームレスに統合しながら,ハードウェアの追加や出力性能の向上を必要とせず,TTFTを効果的に削減する,シンプルかつ効果的なプラグイン手法であるLayerKVを提案する。 具体的には、レイヤワイドなKVブロック割り当て、管理、システムメモリのきめ細かい制御のためのオフロード、サービスレベルオブジェクト(SLO)全体を最適化するSLO対応スケジューラが導入されている。 様々なGPU構成の7Bから70Bパラメータを含む代表モデルの包括的な評価は、LayerKVがTTFTレイテンシを最大69倍改善し、SLO違反率を28.7%削減し、ユーザエクスペリエンスを大幅に向上させることを示した。

The expanding context windows in large language models (LLMs) have greatly enhanced their capabilities in various applications, but they also introduce significant challenges in maintaining low latency, particularly in Time to First Token (TTFT). This paper identifies that the sharp rise in TTFT as context length increases is predominantly driven by queuing delays, which are caused by the growing demands for GPU Key-Value (KV) cache allocation clashing with the limited availability of KV cache blocks. To address this issue, we propose LayerKV, a simple yet effective plug-in method that effectively reduces TTFT without requiring additional hardware or compromising output performance, while seamlessly integrating with existing parallelism strategies and scheduling techniques. Specifically, LayerKV introduces layer-wise KV block allocation, management, and offloading for fine-grained control over system memory, coupled with an SLO-aware scheduler to optimize overall Service Level Objectives (SLOs). Comprehensive evaluations on representative models, ranging from 7B to 70B parameters, across various GPU configurations, demonstrate that LayerKV improves TTFT latency up to 69x and reduces SLO violation rates by 28.7%, significantly enhancing the user experience.
翻訳日:2024-11-05 05:36:46 公開日:2024-10-09
# LayerKV: レイヤワイドKVキャッシュ管理による大規模言語モデルの最適化

LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management ( http://arxiv.org/abs/2410.00428v3 )

ライセンス: Link先を確認
Yi Xiong, Hao Wu, Changxu Shao, Ziqing Wang, Rui Zhang, Yuhong Guo, Junping Zhao, Ke Zhang, Zhenxuan Pan, (参考訳) 大規模言語モデル(LLM)におけるコンテキストウィンドウの拡張は、様々なアプリケーションにおけるその機能を大幅に強化しているが、特にTTFT(Time to First Token)において、低レイテンシを維持する上での重大な課題も導入している。 本稿では、コンテキスト長の増加に伴うTTFTの急激な増加は、KVキャッシュブロックの限られた可用性と相反するGPUキーバリュー(KV)キャッシュ割り当ての需要の増加に起因する遅延の待ち行列によって主に引き起こされることを示す。 そこで本研究では,既存の並列処理戦略やスケジューリング手法をシームレスに統合しながら,ハードウェアの追加や出力性能の向上を必要とせず,TTFTを効果的に削減する,シンプルかつ効果的なプラグイン手法であるLayerKVを提案する。 具体的には、レイヤワイドなKVブロック割り当て、管理、システムメモリのきめ細かい制御のためのオフロード、サービスレベルオブジェクト(SLO)全体を最適化するSLO対応スケジューラが導入されている。 様々なGPU構成の7Bから70Bパラメータを含む代表モデルの包括的な評価は、LayerKVがTTFTレイテンシを最大69倍改善し、SLO違反率を28.7%削減し、ユーザエクスペリエンスを大幅に向上させることを示した。

The expanding context windows in large language models (LLMs) have greatly enhanced their capabilities in various applications, but they also introduce significant challenges in maintaining low latency, particularly in Time to First Token (TTFT). This paper identifies that the sharp rise in TTFT as context length increases is predominantly driven by queuing delays, which are caused by the growing demands for GPU Key-Value (KV) cache allocation clashing with the limited availability of KV cache blocks. To address this issue, we propose LayerKV, a simple yet effective plug-in method that effectively reduces TTFT without requiring additional hardware or compromising output performance, while seamlessly integrating with existing parallelism strategies and scheduling techniques. Specifically, LayerKV introduces layer-wise KV block allocation, management, and offloading for fine-grained control over system memory, coupled with an SLO-aware scheduler to optimize overall Service Level Objectives (SLOs). Comprehensive evaluations on representative models, ranging from 7B to 70B parameters, across various GPU configurations, demonstrate that LayerKV improves TTFT latency up to 69x and reduces SLO violation rates by 28.7%, significantly enhancing the user experience.
翻訳日:2024-11-05 05:36:46 公開日:2024-10-09
# RobustEMD: クロスドメインFewショット画像分割のためのドメインロバストマッチング

RobustEMD: Domain Robust Matching for Cross-domain Few-shot Medical Image Segmentation ( http://arxiv.org/abs/2410.01110v1 )

ライセンス: Link先を確認
Yazhou Zhu, Minxian Li, Qiaolin Ye, Shidong Wang, Tong Xin, Haofeng Zhang, (参考訳) Few-shot Medical Image segmentation (FSMIS) は、医療画像分析の範囲内で限られた注釈付きデータ学習を行うことを目的としている。 進歩にもかかわらず、現在のFSMISモデルは、すべてトレーニングされ、同じデータドメインにデプロイされる。 異なる特定の医用画像領域にまたがってFSMISモデルをどのように一般化するか? 本稿では, 少数ショットセマンティックセグメンテーションモデルのマッチング機構に着目し, クロスドメインシナリオに対するEarth Mover's Distance(EMD)計算に基づくドメインロバストマッチング機構を導入する。 具体的には,前景型サポートクエリーの特徴間のEMD輸送過程を定式化し,各ノードに対してソベルに基づく画像勾配計算を行うことを提案するテクスチャ構造を考慮した重み付け生成法をEMDマッチングフローに導入し,ドメイン関連ノードの抑制を行う。 また、ポイントセットレベル距離測定基準を導入し、サポートセットノードからクエリセットノードへの転送コストを算出した。 本モデルの性能を評価するため,8つの医療データセットと3つの身体領域を含む3つのシナリオ(クロスモーダル,クロスシーケンス,クロスインスティテュート)で実験を行った。

Few-shot medical image segmentation (FSMIS) aims to perform the limited annotated data learning in the medical image analysis scope. Despite the progress has been achieved, current FSMIS models are all trained and deployed on the same data domain, as is not consistent with the clinical reality that medical imaging data is always across different data domains (e.g. imaging modalities, institutions and equipment sequences). How to enhance the FSMIS models to generalize well across the different specific medical imaging domains? In this paper, we focus on the matching mechanism of the few-shot semantic segmentation models and introduce an Earth Mover's Distance (EMD) calculation based domain robust matching mechanism for the cross-domain scenario. Specifically, we formulate the EMD transportation process between the foreground support-query features, the texture structure aware weights generation method, which proposes to perform the sobel based image gradient calculation over the nodes, is introduced in the EMD matching flow to restrain the domain relevant nodes. Besides, the point set level distance measurement metric is introduced to calculated the cost for the transportation from support set nodes to query set nodes. To evaluate the performance of our model, we conduct experiments on three scenarios (i.e., cross-modal, cross-sequence and cross-institution), which includes eight medical datasets and involves three body regions, and the results demonstrate that our model achieves the SoTA performance against the compared models.
翻訳日:2024-11-04 23:10:15 公開日:2024-10-09
# RobustEMD: クロスドメインFewショット画像分割のためのドメインロバストマッチング

RobustEMD: Domain Robust Matching for Cross-domain Few-shot Medical Image Segmentation ( http://arxiv.org/abs/2410.01110v2 )

ライセンス: Link先を確認
Yazhou Zhu, Minxian Li, Qiaolin Ye, Shidong Wang, Tong Xin, Haofeng Zhang, (参考訳) Few-shot Medical Image segmentation (FSMIS) は、医療画像分析の範囲内で限られた注釈付きデータ学習を行うことを目的としている。 進歩にもかかわらず、現在のFSMISモデルは、すべてトレーニングされ、同じデータドメインにデプロイされる。 異なる特定の医用画像領域にまたがってFSMISモデルをどのように一般化するか? 本稿では, 少数ショットセマンティックセグメンテーションモデルのマッチング機構に着目し, クロスドメインシナリオに対するEarth Mover's Distance(EMD)計算に基づくドメインロバストマッチング機構を導入する。 具体的には,前景型サポートクエリーの特徴間のEMD輸送過程を定式化し,各ノードに対してソベルに基づく画像勾配計算を行うことを提案するテクスチャ構造を考慮した重み付け生成法をEMDマッチングフローに導入し,ドメイン関連ノードの抑制を行う。 また、ポイントセットレベル距離測定基準を導入し、サポートセットノードからクエリセットノードへの転送コストを算出した。 本モデルの性能を評価するため,8つの医療データセットと3つの身体領域を含む3つのシナリオ(クロスモーダル,クロスシーケンス,クロスインスティテュート)で実験を行った。

Few-shot medical image segmentation (FSMIS) aims to perform the limited annotated data learning in the medical image analysis scope. Despite the progress has been achieved, current FSMIS models are all trained and deployed on the same data domain, as is not consistent with the clinical reality that medical imaging data is always across different data domains (e.g. imaging modalities, institutions and equipment sequences). How to enhance the FSMIS models to generalize well across the different specific medical imaging domains? In this paper, we focus on the matching mechanism of the few-shot semantic segmentation models and introduce an Earth Mover's Distance (EMD) calculation based domain robust matching mechanism for the cross-domain scenario. Specifically, we formulate the EMD transportation process between the foreground support-query features, the texture structure aware weights generation method, which proposes to perform the sobel based image gradient calculation over the nodes, is introduced in the EMD matching flow to restrain the domain relevant nodes. Besides, the point set level distance measurement metric is introduced to calculated the cost for the transportation from support set nodes to query set nodes. To evaluate the performance of our model, we conduct experiments on three scenarios (i.e., cross-modal, cross-sequence and cross-institution), which includes eight medical datasets and involves three body regions, and the results demonstrate that our model achieves the SoTA performance against the compared models.
翻訳日:2024-11-04 23:10:15 公開日:2024-10-09
# 相対論的プラズマミラーからの超光時空境界、時間反射、量子光発生

Superluminal spacetime boundary, time reflection and quantum light generation from relativistic plasma mirrors ( http://arxiv.org/abs/2410.01287v1 )

ライセンス: Link先を確認
Chenhao Pan, Xinbing Song, Yang Cao, Li Xiong, Xiaofei Lan, Shaoyi Wang, Yuxin Leng, Yiming Pan, (参考訳) プラズマミラー(英: plasma mirror)は、相対論的振動電子のシートを用いて光を発生・操作する高出力超短波長電磁界用光学装置である。 本研究では、超高強度レーザービームによって誘導される時空間的に変化するプラズマ振動が、量子光を探索する大きなポテンシャルを持つ「時空ミラー」として機能することを提案する。 時空鏡にはエキゾチックな特徴がいくつかあります。 (i)超光速時空境界 二 時間反射及び屈折、及び (iii)ペア生成による量子光源。 理論とシミュレーションの結果はよく一致しており、実験的な検証が進行中である。 我々の研究は、時間変化媒体のような新興分野との相互作用を実証し、プラズマミラーを極端における強磁場量子光学の研究の理想的なプラットフォームとして提案する。

A plasma mirror is an optical device for high-power, ultrashort-wavelength electromagnetic fields, utilizing a sheet of relativistic oscillating electrons to generate and manipulate light. In this work, we propose that the spatiotemporally varying plasma oscillation, induced by an ultra-high-intensity laser beam, functions as a "spacetime mirror" with significant potential for exploring quantum light. We find that the spacetime mirror exhibits several exotic features: (i) a superluminal spacetime boundary, (ii) time reflection and refraction, and (iii) quantum light sources with pair generation. Our theoretical and simulation results are in excellent agreement, and experimental verification is underway. Our work demonstrates the interplay with emerging fields such as time varying media, suggesting the plasma mirror as an ideal platform to study strong-field quantum optics at extremes.
翻訳日:2024-11-04 21:59:16 公開日:2024-10-09
# 相対論的プラズマミラーからの超光時空境界、時間反射、量子光発生

Superluminal spacetime boundary, time reflection and quantum light generation from relativistic plasma mirrors ( http://arxiv.org/abs/2410.01287v2 )

ライセンス: Link先を確認
Chenhao Pan, Xinbing Song, Yang Cao, Li Xiong, Xiaofei Lan, Shaoyi Wang, Yuxin Leng, Yiming Pan, (参考訳) プラズマミラー(英: plasma mirror)は、相対論的振動電子のシートを用いて光を発生・操作する高出力超短波長電磁界用光学装置である。 本研究では、超高強度レーザービームによって誘導される時空間的に変化するプラズマ振動が、量子光を探索する大きなポテンシャルを持つ「時空ミラー」として機能することを提案する。 時空鏡にはエキゾチックな特徴がいくつかあります。 (i)超光速時空境界 二 時間反射及び屈折、及び (iii)ペア生成による量子光源。 理論とシミュレーションの結果はよく一致しており、実験的な検証が進行中である。 我々の研究は、時間変化媒体のような新興分野との相互作用を実証し、プラズマミラーを極端における強磁場量子光学の研究の理想的なプラットフォームとして提案する。

A plasma mirror is an optical device for high-power, ultrashort-wavelength electromagnetic fields, utilizing a sheet of relativistic oscillating electrons to generate and manipulate light. In this work, we propose that the spatiotemporally varying plasma oscillation, induced by an ultra-high-intensity laser beam, functions as a "spacetime mirror" with significant potential for exploring quantum light. We find that the spacetime mirror exhibits several exotic features: (i) a superluminal spacetime boundary, (ii) time reflection and refraction, and (iii) quantum light sources with pair generation. Our theoretical and simulation results are in excellent agreement, and experimental verification is underway. Our work demonstrates the interplay with emerging fields such as time varying media, suggesting the plasma mirror as an ideal platform to study strong-field quantum optics at extremes.
翻訳日:2024-11-04 21:59:16 公開日:2024-10-09
# DRUPI:予備情報を用いたデータセットの削減

DRUPI: Dataset Reduction Using Privileged Information ( http://arxiv.org/abs/2410.01611v1 )

ライセンス: Link先を確認
Shaobo Wang, Yantai Yang, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Xuming Hu, Linfeng Zhang, (参考訳) データセットリダクション(DR)は、ターゲットタスクのパフォーマンスを維持しながら、大規模なデータセットからより小さなサブセットにサンプルを選択または蒸留することを目指している。 既存の手法は主に、入力データと対応するラベルである元のデータセットと同じフォーマットでデータのプルーニングや合成に重点を置いている。 しかし、DR設定では、モデルトレーニングを容易にするための追加の学習ターゲットとして、データラベルペア以上の情報を合成することが可能である。 本稿では,DRUPI(Dataset Reduction Using Privileged Information)を提案する。 この特権情報は、特徴ラベルやアテンションラベルの形を取ることができ、モデル学習を改善するための補助的な監督を提供する。 以上の結果から, 効果的な特徴ラベルは, 過度に差別的かつ過度に多様であることのバランスをとらなければならないことが明らかとなった。 ImageNet、CIFAR-10/100、Tiny ImageNetの大規模な実験では、DRUPIが既存のデータセット削減メソッドとシームレスに統合され、大幅なパフォーマンス向上を実現している。

Dataset reduction (DR) seeks to select or distill samples from large datasets into smaller subsets while preserving performance on target tasks. Existing methods primarily focus on pruning or synthesizing data in the same format as the original dataset, typically the input data and corresponding labels. However, in DR settings, we find it is possible to synthesize more information beyond the data-label pair as an additional learning target to facilitate model training. In this paper, we introduce Dataset Reduction Using Privileged Information (DRUPI), which enriches DR by synthesizing privileged information alongside the reduced dataset. This privileged information can take the form of feature labels or attention labels, providing auxiliary supervision to improve model learning. Our findings reveal that effective feature labels must balance between being overly discriminative and excessively diverse, with a moderate level proving optimal for improving the reduced dataset's efficacy. Extensive experiments on ImageNet, CIFAR-10/100, and Tiny ImageNet demonstrate that DRUPI integrates seamlessly with existing dataset reduction methods, offering significant performance gains.
翻訳日:2024-11-04 16:44:34 公開日:2024-10-09
# DRUPI:予備情報を用いたデータセットの削減

DRUPI: Dataset Reduction Using Privileged Information ( http://arxiv.org/abs/2410.01611v2 )

ライセンス: Link先を確認
Shaobo Wang, Yantai Yang, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Xuming Hu, Linfeng Zhang, (参考訳) データセットリダクション(DR)は、ターゲットタスクのパフォーマンスを維持しながら、大規模なデータセットからより小さなサブセットにサンプルを選択または蒸留することを目指している。 既存の手法は主に、入力データと対応するラベルである元のデータセットと同じフォーマットでデータのプルーニングや合成に重点を置いている。 しかし、DR設定では、モデルトレーニングを容易にするための追加の学習ターゲットとして、データラベルペア以上の情報を合成することが可能である。 本稿では,DRUPI(Dataset Reduction Using Privileged Information)を提案する。 この特権情報は、特徴ラベルやアテンションラベルの形を取ることができ、モデル学習を改善するための補助的な監督を提供する。 以上の結果から, 効果的な特徴ラベルは, 過度に差別的かつ過度に多様であることのバランスをとらなければならないことが明らかとなった。 ImageNet、CIFAR-10/100、Tiny ImageNetの大規模な実験では、DRUPIが既存のデータセット削減メソッドとシームレスに統合され、大幅なパフォーマンス向上を実現している。 ※論文の受理後、コードは解放される。 ※

Dataset reduction (DR) seeks to select or distill samples from large datasets into smaller subsets while preserving performance on target tasks. Existing methods primarily focus on pruning or synthesizing data in the same format as the original dataset, typically the input data and corresponding labels. However, in DR settings, we find it is possible to synthesize more information beyond the data-label pair as an additional learning target to facilitate model training. In this paper, we introduce Dataset Reduction Using Privileged Information (DRUPI), which enriches DR by synthesizing privileged information alongside the reduced dataset. This privileged information can take the form of feature labels or attention labels, providing auxiliary supervision to improve model learning. Our findings reveal that effective feature labels must balance between being overly discriminative and excessively diverse, with a moderate level proving optimal for improving the reduced dataset's efficacy. Extensive experiments on ImageNet, CIFAR-10/100, and Tiny ImageNet demonstrate that DRUPI integrates seamlessly with existing dataset reduction methods, offering significant performance gains. *The code will be released after the paper is accepted.*
翻訳日:2024-11-04 16:44:34 公開日:2024-10-09
# 逐次モンテカルロによる数学問題のステップバイステップ推論

Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo ( http://arxiv.org/abs/2410.01920v1 )

ライセンス: Link先を確認
Shengyu Feng, Xiang Kong, Shuang Ma, Aonan Zhang, Dong Yin, Chong Wang, Ruoming Pang, Yiming Yang, (参考訳) 大規模言語モデル(LLM)の多段階推論能力の拡大は、永続的な課題である。 近年, 結果の検証により, 解の整合性の向上が期待できる。 しかし、現在の検証手法はサンプリング非効率に悩まされており、十分な性能を達成するために多数のサンプルを必要とする。 さらに、有効な検証器の訓練は、取得にコストがかかる広範囲なプロセスの監督に依存することが多い。 本稿では,TSMC(Twisted Sequential Monte Carlo)に基づく新しい検証手法を導入することにより,これらの制約に対処する。 TSMCは、有望な候補に焦点を合わせるためのサンプリング努力を順次改善し、その結果、高品質なソリューションをより効率的に生成する。 TSMC を LLM に適用し,部分解に対する将来的な報酬を推定する。 このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。 提案手法の利点を複数のベンチマークベンチマークで実証し,提案手法と既存検証手法の理論的解析を行った。

Augmenting the multi-step reasoning abilities of Large Language Models (LLMs) has been a persistent challenge. Recently, verification has shown promise in improving solution consistency by evaluating generated outputs. However, current verification approaches suffer from sampling inefficiencies, requiring a large number of samples to achieve satisfactory performance. Additionally, training an effective verifier often depends on extensive process supervision, which is costly to acquire. In this paper, we address these limitations by introducing a novel verification method based on Twisted Sequential Monte Carlo (TSMC). TSMC sequentially refines its sampling effort to focus exploration on promising candidates, resulting in more efficient generation of high-quality solutions. We apply TSMC to LLMs by estimating the expected future rewards at partial solutions. This approach results in a more straightforward training target that eliminates the need for step-wise human annotations. We empirically demonstrate the advantages of our method across multiple math benchmarks, and also validate our theoretical analysis of both our approach and existing verification methods.
翻訳日:2024-11-04 10:04:30 公開日:2024-10-09
# 逐次モンテカルロによる数学問題のステップバイステップ推論

Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo ( http://arxiv.org/abs/2410.01920v2 )

ライセンス: Link先を確認
Shengyu Feng, Xiang Kong, Shuang Ma, Aonan Zhang, Dong Yin, Chong Wang, Ruoming Pang, Yiming Yang, (参考訳) 大規模言語モデル(LLM)の多段階推論能力の拡大は、永続的な課題である。 近年, 結果の検証により, 解の整合性の向上が期待できる。 しかし、現在の検証手法はサンプリング非効率に悩まされており、十分な性能を達成するために多数のサンプルを必要とする。 さらに、有効な検証器の訓練は、取得にコストがかかる広範囲なプロセスの監督に依存することが多い。 本稿では,TSMC(Twisted Sequential Monte Carlo)に基づく新しい検証手法を導入することにより,これらの制約に対処する。 TSMCは、有望な候補に焦点を合わせるためのサンプリング努力を順次改善し、その結果、高品質なソリューションをより効率的に生成する。 TSMC を LLM に適用し,部分解に対する将来的な報酬を推定する。 このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。 提案手法の利点を複数のベンチマークベンチマークで実証し,提案手法と既存検証手法の理論的解析を行った。

Augmenting the multi-step reasoning abilities of Large Language Models (LLMs) has been a persistent challenge. Recently, verification has shown promise in improving solution consistency by evaluating generated outputs. However, current verification approaches suffer from sampling inefficiencies, requiring a large number of samples to achieve satisfactory performance. Additionally, training an effective verifier often depends on extensive process supervision, which is costly to acquire. In this paper, we address these limitations by introducing a novel verification method based on Twisted Sequential Monte Carlo (TSMC). TSMC sequentially refines its sampling effort to focus exploration on promising candidates, resulting in more efficient generation of high-quality solutions. We apply TSMC to LLMs by estimating the expected future rewards at partial solutions. This approach results in a more straightforward training target that eliminates the need for step-wise human annotations. We empirically demonstrate the advantages of our method across multiple math benchmarks, and also validate our theoretical analysis of both our approach and existing verification methods.
翻訳日:2024-11-04 10:04:30 公開日:2024-10-09
# 逐次モンテカルロによる数学問題のステップバイステップ推論

Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo ( http://arxiv.org/abs/2410.01920v3 )

ライセンス: Link先を確認
Shengyu Feng, Xiang Kong, Shuang Ma, Aonan Zhang, Dong Yin, Chong Wang, Ruoming Pang, Yiming Yang, (参考訳) 大規模言語モデル(LLM)の多段階推論能力の拡大は、永続的な課題である。 近年, 結果の検証により, 解の整合性の向上が期待できる。 しかし、現在の検証手法はサンプリング非効率に悩まされており、十分な性能を達成するために多数のサンプルを必要とする。 さらに、有効な検証器の訓練は、取得にコストがかかる広範囲なプロセスの監督に依存することが多い。 本稿では,TSMC(Twisted Sequential Monte Carlo)に基づく新しい検証手法を導入することにより,これらの制約に対処する。 TSMCは、有望な候補に焦点を合わせるためのサンプリング努力を順次改善し、その結果、高品質なソリューションをより効率的に生成する。 TSMC を LLM に適用し,部分解に対する将来的な報酬を推定する。 このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。 提案手法の利点を複数のベンチマークベンチマークで実証し,提案手法と既存検証手法の理論的解析を行った。

Augmenting the multi-step reasoning abilities of Large Language Models (LLMs) has been a persistent challenge. Recently, verification has shown promise in improving solution consistency by evaluating generated outputs. However, current verification approaches suffer from sampling inefficiencies, requiring a large number of samples to achieve satisfactory performance. Additionally, training an effective verifier often depends on extensive process supervision, which is costly to acquire. In this paper, we address these limitations by introducing a novel verification method based on Twisted Sequential Monte Carlo (TSMC). TSMC sequentially refines its sampling effort to focus exploration on promising candidates, resulting in more efficient generation of high-quality solutions. We apply TSMC to LLMs by estimating the expected future rewards at partial solutions. This approach results in a more straightforward training target that eliminates the need for step-wise human annotations. We empirically demonstrate the advantages of our method across multiple math benchmarks, and also validate our theoretical analysis of both our approach and existing verification methods.
翻訳日:2024-11-04 10:04:30 公開日:2024-10-09
# DTVLT:LLMに基づく視覚言語追跡のための多モード多言語テキストベンチマーク

DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM ( http://arxiv.org/abs/2410.02492v1 )

ライセンス: Link先を確認
Xuchen Li, Shiyu Hu, Xiaokun Feng, Dailing Zhang, Meiqi Wu, Jing Zhang, Kaiqi Huang, (参考訳) 視覚言語追跡(VLT)は最先端の研究領域として現れ、言語データを利用してマルチモーダル入力によるアルゴリズムを強化し、ビデオ理解アプリケーションを含む従来の単一オブジェクト追跡(SOT)の範囲を広げている。 しかしながら、ほとんどのVLTベンチマークは、ビデオ毎の簡潔で人間による注釈付きテキスト記述に依存している。 これらの記述は、ビデオコンテンツ力学のニュアンスを捉えるのに足りず、一様のディテールと固定されたアノテーション周波数に制約されて、言語におけるスタイリスティックな多様性を欠いていることが多い。 その結果、アルゴリズムは「答えを記憶する」戦略をデフォルトとし、ビデオコンテンツのより深い理解を達成するという中核的な目的から逸脱する傾向にある。 幸いなことに、大きな言語モデル(LLM)の出現により、多様なテキストの生成が可能になった。 この研究はLLMを用いて、代表SOTベンチマークのための様々な意味アノテーション(テキストの長さと粒度)を生成し、新しいマルチモーダルベンチマークを確立する。 具体的には,短期追跡,長期追跡,グローバルインスタンス追跡という3つのサブタスクを含む5つの有名なVLTおよびSOTベンチマークに基づいて,多種多様なテキストを用いた新しい視覚言語追跡ベンチマークDTVLTを提案する。 2) セマンティック情報の範囲と密度を考慮した4つの粒度テキストをベンチマークで提示する。 このマルチグラニュラ生成戦略は,VLTやビデオ理解研究に好適な環境を育むことを期待する。 3)DTVLTの総合的な実験分析を行い,様々なテキストがトラッキング性能に与える影響を評価し,既存のアルゴリズムの性能ボトルネックがVLTおよびビデオ理解におけるさらなる研究を支援することを期待する。 提案されたベンチマーク、実験結果、ツールキットは、http://videocube.aitestunion.com/で徐々にリリースされる。

Visual language tracking (VLT) has emerged as a cutting-edge research area, harnessing linguistic data to enhance algorithms with multi-modal inputs and broadening the scope of traditional single object tracking (SOT) to encompass video understanding applications. Despite this, most VLT benchmarks still depend on succinct, human-annotated text descriptions for each video. These descriptions often fall short in capturing the nuances of video content dynamics and lack stylistic variety in language, constrained by their uniform level of detail and a fixed annotation frequency. As a result, algorithms tend to default to a "memorize the answer" strategy, diverging from the core objective of achieving a deeper understanding of video content. Fortunately, the emergence of large language models (LLMs) has enabled the generation of diverse text. This work utilizes LLMs to generate varied semantic annotations (in terms of text lengths and granularities) for representative SOT benchmarks, thereby establishing a novel multi-modal benchmark. Specifically, we (1) propose a new visual language tracking benchmark with diverse texts, named DTVLT, based on five prominent VLT and SOT benchmarks, including three sub-tasks: short-term tracking, long-term tracking, and global instance tracking. (2) We offer four granularity texts in our benchmark, considering the extent and density of semantic information. We expect this multi-granular generation strategy to foster a favorable environment for VLT and video understanding research. (3) We conduct comprehensive experimental analyses on DTVLT, evaluating the impact of diverse text on tracking performance and hope the identified performance bottlenecks of existing algorithms can support further research in VLT and video understanding. The proposed benchmark, experimental results and toolkit will be released gradually on http://videocube.aitestunion.com/.
翻訳日:2024-11-04 03:01:18 公開日:2024-10-09
# DTVLT:LLMに基づく視覚言語追跡のための多モード多言語テキストベンチマーク

DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM ( http://arxiv.org/abs/2410.02492v2 )

ライセンス: Link先を確認
Xuchen Li, Shiyu Hu, Xiaokun Feng, Dailing Zhang, Meiqi Wu, Jing Zhang, Kaiqi Huang, (参考訳) 視覚言語追跡(VLT)は最先端の研究領域として現れ、言語データを利用してマルチモーダル入力によるアルゴリズムを強化し、ビデオ理解アプリケーションを含む従来の単一オブジェクト追跡(SOT)の範囲を広げている。 しかしながら、ほとんどのVLTベンチマークは、ビデオ毎の簡潔で人間による注釈付きテキスト記述に依存している。 これらの記述は、ビデオコンテンツ力学のニュアンスを捉えるのに足りず、一様のディテールと固定されたアノテーション周波数に制約されて、言語におけるスタイリスティックな多様性を欠いていることが多い。 その結果、アルゴリズムは「答えを記憶する」戦略をデフォルトとし、ビデオコンテンツのより深い理解を達成するという中核的な目的から逸脱する傾向にある。 幸いなことに、大きな言語モデル(LLM)の出現により、多様なテキストの生成が可能になった。 この研究はLLMを用いて、代表SOTベンチマークのための様々な意味アノテーション(テキストの長さと粒度)を生成し、新しいマルチモーダルベンチマークを確立する。 具体的には,短期追跡,長期追跡,グローバルインスタンス追跡という3つのサブタスクを含む5つの有名なVLTおよびSOTベンチマークに基づいて,多種多様なテキストを用いた新しい視覚言語追跡ベンチマークDTVLTを提案する。 2) セマンティック情報の範囲と密度を考慮した4つの粒度テキストをベンチマークで提示する。 このマルチグラニュラ生成戦略は,VLTやビデオ理解研究に好適な環境を育むことを期待する。 3)DTVLTの総合的な実験分析を行い,様々なテキストがトラッキング性能に与える影響を評価し,既存のアルゴリズムの性能ボトルネックがVLTおよびビデオ理解におけるさらなる研究を支援することを期待する。 提案されたベンチマーク、実験結果、ツールキットは、http://videocube.aitestunion.com/で徐々にリリースされる。

Visual language tracking (VLT) has emerged as a cutting-edge research area, harnessing linguistic data to enhance algorithms with multi-modal inputs and broadening the scope of traditional single object tracking (SOT) to encompass video understanding applications. Despite this, most VLT benchmarks still depend on succinct, human-annotated text descriptions for each video. These descriptions often fall short in capturing the nuances of video content dynamics and lack stylistic variety in language, constrained by their uniform level of detail and a fixed annotation frequency. As a result, algorithms tend to default to a "memorize the answer" strategy, diverging from the core objective of achieving a deeper understanding of video content. Fortunately, the emergence of large language models (LLMs) has enabled the generation of diverse text. This work utilizes LLMs to generate varied semantic annotations (in terms of text lengths and granularities) for representative SOT benchmarks, thereby establishing a novel multi-modal benchmark. Specifically, we (1) propose a new visual language tracking benchmark with diverse texts, named DTVLT, based on five prominent VLT and SOT benchmarks, including three sub-tasks: short-term tracking, long-term tracking, and global instance tracking. (2) We offer four granularity texts in our benchmark, considering the extent and density of semantic information. We expect this multi-granular generation strategy to foster a favorable environment for VLT and video understanding research. (3) We conduct comprehensive experimental analyses on DTVLT, evaluating the impact of diverse text on tracking performance and hope the identified performance bottlenecks of existing algorithms can support further research in VLT and video understanding. The proposed benchmark, experimental results and toolkit will be released gradually on http://videocube.aitestunion.com/.
翻訳日:2024-11-04 03:01:18 公開日:2024-10-09
# CriSPO:テキスト生成のための多視点批評・提案誘導自動プロンプト最適化

CriSPO: Multi-Aspect Critique-Suggestion-guided Automatic Prompt Optimization for Text Generation ( http://arxiv.org/abs/2410.02748v1 )

ライセンス: Link先を確認
Han He, Qianchu Liu, Lei Xu, Chaitanya Shivade, Yi Zhang, Sundararajan Srinivasan, Katrin Kirchhoff, (参考訳) 大規模言語モデル(LLM)は、プロンプト技術を用いて、ドメイン間の流動的な要約を生成することができ、要約アプリケーションのためのモデルをトレーニングする必要がなくなる。 しかし、LLMが適切な詳細レベルと書き方で要約を生成するための効果的なプロンプトは、依然として課題である。 本稿では,ソース文書から抽出した有能な情報を用いて要約の促進を図る。 命令にキーフレーズを追加することで、ROUGE F1とリコールが改善され、生成された要約が参照とよりよく似ており、より完全であることが示される。 キーフレーズの数は、精度-リコールトレードオフを制御することができる。 さらに, 句レベルの有意情報の導入は, 単語レベルや文レベルよりも優れていることが明らかとなった。 しかし、幻覚に対する影響はLLM全体では肯定的ではない。 この分析を行うために,ケプラーゼシグナルエクストラクタ (CriSPO) を導入する。 CriSPOを使用することで、データセットとオープンウェイトでプロプライエタリなLLMをLLMのカスタマイズなしで一貫したROUGE改善を実現します。 本研究は,素早い要約システム構築における有能な情報の活用に関する知見を提供する。

Large language models (LLMs) can generate fluent summaries across domains using prompting techniques, reducing the need to train models for summarization applications. However, crafting effective prompts that guide LLMs to generate summaries with the appropriate level of detail and writing style remains a challenge. In this paper, we explore the use of salient information extracted from the source document to enhance summarization prompts. We show that adding keyphrases in prompts can improve ROUGE F1 and recall, making the generated summaries more similar to the reference and more complete. The number of keyphrases can control the precision-recall trade-off. Furthermore, our analysis reveals that incorporating phrase-level salient information is superior to word- or sentence-level. However, the impact on hallucination is not universally positive across LLMs. To conduct this analysis, we introduce Keyphrase Signal Extractor (CriSPO), a lightweight model that can be finetuned to extract salient keyphrases. By using CriSPO, we achieve consistent ROUGE improvements across datasets and open-weight and proprietary LLMs without any LLM customization. Our findings provide insights into leveraging salient information in building prompt-based summarization systems.
翻訳日:2024-11-04 01:03:22 公開日:2024-10-09
# CriSPO:テキスト生成のための多視点批評・提案誘導自動プロンプト最適化

CriSPO: Multi-Aspect Critique-Suggestion-guided Automatic Prompt Optimization for Text Generation ( http://arxiv.org/abs/2410.02748v2 )

ライセンス: Link先を確認
Han He, Qianchu Liu, Lei Xu, Chaitanya Shivade, Yi Zhang, Sundararajan Srinivasan, Katrin Kirchhoff, (参考訳) 既存の自動プロンプトエンジニアリング手法は一般的に差別的なタスクのために設計され、新しいタスクプロンプトは単一の側面を反映する単一のメトリクスからの限られたフィードバックで反復的に洗練される。 しかし、これらの手法は生成タスクに最適であり、生成したテキストのプロンプトを改善し、複数の側面を最適化するために、1つの数値メトリック以上のニュアンスなガイダンスを必要とする。 これらの課題に対処するため、我々は新しいマルチアスペクト・クリティーク・サジェスション誘導自動プロンプト最適化(CriSPO)手法を提案する。 CriSPO はコアコンポーネントとして critique-suggestion モジュールを導入している。 このモジュールは自然にアスペクトを発見し、これらのアスペクト間で生成されたテキストと参照テキストを比較し、迅速な修正のための具体的な提案を提供する。 これらの明確な批判と行動可能な提案は、より実質的な変更を行うために受容オプティマイザモジュールをガイドし、より広範で効果的な検索空間を探索する。 マルチメトリック最適化によりCrisPOをさらに改善するため、複数のメトリクスにわたるタスクプロンプトのパフォーマンスを向上させるために、自動サフィックスチューニング(AST)拡張を導入する。 CriSPOを4つの要約と5つのQAデータセットにまたがる4つの最先端LCM上で評価した。 総合実験により, 要約におけるROUGEスコアの3~4倍の改善, およびQAにおける各種指標の大幅な改善が示された。

Existing automatic prompt engineering methods are typically designed for discriminative tasks, where new task prompts are iteratively refined with limited feedback from a single metric reflecting a single aspect. However, these approaches are suboptimal for generative tasks, which require more nuanced guidance beyond a single numeric metric to improve the prompt and optimize multiple aspects of the generated text. To address these challenges, we propose a novel multi-aspect Critique-Suggestion-guided automatic Prompt Optimization (CriSPO) approach. CriSPO introduces a critique-suggestion module as its core component. This module spontaneously discovers aspects, and compares generated and reference texts across these aspects, providing specific suggestions for prompt modification. These clear critiques and actionable suggestions guide a receptive optimizer module to make more substantial changes, exploring a broader and more effective search space. To further improve CriSPO with multi-metric optimization, we introduce an Automatic Suffix Tuning (AST) extension to enhance the performance of task prompts across multiple metrics. We evaluate CriSPO on 4 state-of-the-art LLMs across 4 summarization and 5 QA datasets. Extensive experiments show 3-4\% ROUGE score improvement on summarization and substantial improvement of various metrics on QA.
翻訳日:2024-11-04 01:03:22 公開日:2024-10-09
# 経験的リスク最小化の正則化における相対エントロピーの非対称性

Asymmetry of the Relative Entropy in the Regularization of Empirical Risk Minimization ( http://arxiv.org/abs/2410.02833v1 )

ライセンス: Link先を確認
Francisco Daunas, Iañki Esnaola, Samir M. Perlaza, H. Vincent Poor, (参考訳) 相対エントロピー非対称性の効果は、経験的リスク最小化(ERM)と相対エントロピー正則化(ERM-RER)の文脈で分析される。 2つの正規化が考慮されている。 (a) 基準測度(Type-I ERM-RER)に関して最適化すべき測度の相対エントロピー、または$ (b) 最適化すべき基準測度の相対エントロピー(タイプII ERM-RER)について。 主な結果は、タイプII ERM-RER問題の解とその鍵となる性質を特徴づけることである。 良く理解されたタイプI ERM-RERとタイプII ERM-RERを比較することにより、エントロピー非対称性の影響が強調される。 どちらの場合も、相対エントロピーによる正則化は、ソリューションの支持を基準尺度の支持に崩壊させ、トレーニングデータが提供する証拠を覆す強い帰納バイアスをもたらす。 最後に、タイプII正則化は経験的リスク関数の適切な変換を伴うタイプI正則化と等価であることを示す。

The effect of relative entropy asymmetry is analyzed in the context of empirical risk minimization (ERM) with relative entropy regularization (ERM-RER). Two regularizations are considered: $(a)$ the relative entropy of the measure to be optimized with respect to a reference measure (Type-I ERM-RER); or $(b)$ the relative entropy of the reference measure with respect to the measure to be optimized (Type-II ERM-RER). The main result is the characterization of the solution to the Type-II ERM-RER problem and its key properties. By comparing the well-understood Type-I ERM-RER with Type-II ERM-RER, the effects of entropy asymmetry are highlighted. The analysis shows that in both cases, regularization by relative entropy forces the solution's support to collapse into the support of the reference measure, introducing a strong inductive bias that can overshadow the evidence provided by the training data. Finally, it is shown that Type-II regularization is equivalent to Type-I regularization with an appropriate transformation of the empirical risk function.
翻訳日:2024-11-03 05:24:53 公開日:2024-10-09
# 経験的リスク最小化の正則化における相対エントロピーの非対称性

Asymmetry of the Relative Entropy in the Regularization of Empirical Risk Minimization ( http://arxiv.org/abs/2410.02833v2 )

ライセンス: Link先を確認
Francisco Daunas, Iñaki Esnaola, Samir M. Perlaza, H. Vincent Poor, (参考訳) 相対エントロピー非対称性の効果は、経験的リスク最小化(ERM)と相対エントロピー正則化(ERM-RER)の文脈で分析される。 2つの正規化が考慮されている。 (a) 基準測度(Type-I ERM-RER)に関して最適化すべき測度の相対エントロピー、または$ (b) 最適化すべき基準測度の相対エントロピー(タイプII ERM-RER)について。 主な結果は、タイプII ERM-RER問題の解とその鍵となる性質を特徴づけることである。 良く理解されたタイプI ERM-RERとタイプII ERM-RERを比較することにより、エントロピー非対称性の影響が強調される。 どちらの場合も、相対エントロピーによる正則化は、ソリューションの支持を基準尺度の支持に崩壊させ、トレーニングデータが提供する証拠を覆す強い帰納バイアスをもたらす。 最後に、タイプII正則化は経験的リスク関数の適切な変換を伴うタイプI正則化と等価であることを示す。

The effect of relative entropy asymmetry is analyzed in the context of empirical risk minimization (ERM) with relative entropy regularization (ERM-RER). Two regularizations are considered: $(a)$ the relative entropy of the measure to be optimized with respect to a reference measure (Type-I ERM-RER); or $(b)$ the relative entropy of the reference measure with respect to the measure to be optimized (Type-II ERM-RER). The main result is the characterization of the solution to the Type-II ERM-RER problem and its key properties. By comparing the well-understood Type-I ERM-RER with Type-II ERM-RER, the effects of entropy asymmetry are highlighted. The analysis shows that in both cases, regularization by relative entropy forces the solution's support to collapse into the support of the reference measure, introducing a strong inductive bias that can overshadow the evidence provided by the training data. Finally, it is shown that Type-II regularization is equivalent to Type-I regularization with an appropriate transformation of the empirical risk function.
翻訳日:2024-11-03 05:24:53 公開日:2024-10-09
# LEGO: 動的回路のためのQECデコードシステムアーキテクチャ

LEGO: QEC Decoding System Architecture for Dynamic Circuits ( http://arxiv.org/abs/2410.03073v1 )

ライセンス: Link先を確認
Yue Wu, Namitha Liyanage, Lin Zhong, (参考訳) 量子誤り訂正(QEC)はFTQCの重要なコンポーネントであり、QECデコーダは量子計算のための古典計算やC4Qの重要な部分である。 近年,リアルタイムQECデコーダの開発が急速に進んでいる。 リアルタイムデコーダを構築するための既存の取り組みはまだ重要なマイルストーンを達成していない。 これを達成するには、論理回路の分岐に依存して、実行時にデコーダを適応し、再構成するために、かなりのエンジニアリング作業が必要になる。 我々は,動的論理演算をサポートするという野心的な目標を掲げ,LEGOと呼ばれるQECデコーダアーキテクチャを提案する。 LEGOは、動的論理回路の復号問題を記述するために、復号ブロックと呼ばれる新しい抽象化を採用している。 さらに、デコーダの効率、精度、遅延を改善するために、デコードブロックを他の3つのアイデアと組み合わせることができる。 まず、融合ベースのデコードと組み合わせることで、データとタスクの並列性を提供する。 次に、マルチステージデコーダ内のパイプライン並列性を活用できる。 最後に、これらは計算資源管理の基本的な単位として機能する。 デコードブロックを使用することで、LEGOはQEC設定をすべてサポートし、コード、論理演算、キュービットハードウェアという3つの相互依存分野におけるイノベーションに容易に対応できるように、簡単に再構成することができる。 対照的に、既存のデコーダは特定のQEC設定に高度に特化しており、冗長な研究とエンジニアリングの努力をもたらし、イノベーションを遅くし、さらに新しい量子コンピューティング産業を断片化する。

Quantum error correction (QEC) is a critical component of FTQC; the QEC decoder is an important part of Classical Computing for Quantum or C4Q. Recent years have seen fast development in real-time QEC decoders. Existing efforts to build real-time decoders have yet to achieve a critical milestone: decoding dynamic logical circuits with error-corrected readout and feed forward. Achieving this requires significant engineering effort to adapt and reconfigure the decoders during runtime, depending on the branching of the logical circuit. We present a QEC decoder architecture called LEGO, with the ambitious goal of supporting dynamic logical operations. LEGO employs a novel abstraction called the decoding block to describe the decoding problem of a dynamic logical circuit. Moreover, decoding blocks can be combined with three other ideas to improve the efficiency, accuracy and latency of the decoder. First, they provide data and task parallelisms when combined with fusion-based decoding. Second, they can exploit the pipeline parallelism inside multi-stage decoders. Finally, they serve as basic units of work for computational resource management. Using decoding blocks, LEGO can be easily reconfigured to support all QEC settings and to easily accommodate innovations in three interdependent fields: code, logical operations and qubit hardware. In contrast, existing decoders are highly specialized to a specific QEC setting, which leads to redundant research and engineering efforts, slows down innovation, and further fragments the nascent quantum computing industry.
翻訳日:2024-11-03 04:06:08 公開日:2024-10-09
# LEGO: 動的回路のためのQECデコードシステムアーキテクチャ

LEGO: QEC Decoding System Architecture for Dynamic Circuits ( http://arxiv.org/abs/2410.03073v2 )

ライセンス: Link先を確認
Yue Wu, Namitha Liyanage, Lin Zhong, (参考訳) 量子誤り訂正(QEC)はFTQCの重要なコンポーネントであり、QECデコーダは量子計算のための古典計算やC4Qの重要な部分である。 近年,リアルタイムQECデコーダの開発が急速に進んでいる。 リアルタイムデコーダを構築するための既存の取り組みはまだ重要なマイルストーンを達成していない。 これを達成するには、論理回路の分岐に依存して、実行時にデコーダを適応し、再構成するために、かなりのエンジニアリング作業が必要になる。 我々は,動的論理演算をサポートするという野心的な目標を掲げ,LEGOと呼ばれるQECデコーダアーキテクチャを提案する。 LEGOは、動的論理回路の復号問題を記述するために、復号ブロックと呼ばれる新しい抽象化を採用している。 さらに、デコーダの効率、精度、遅延を改善するために、デコードブロックを他の3つのアイデアと組み合わせることができる。 まず、融合ベースのデコードと組み合わせることで、データとタスクの並列性を提供する。 次に、マルチステージデコーダ内のパイプライン並列性を活用できる。 最後に、これらは計算資源管理の基本的な単位として機能する。 デコードブロックを使用することで、LEGOはQEC設定をすべてサポートし、コード、論理演算、キュービットハードウェアという3つの相互依存分野におけるイノベーションに容易に対応できるように、簡単に再構成することができる。 対照的に、既存のデコーダは特定のQEC設定に高度に特化しており、冗長な研究とエンジニアリングの努力をもたらし、イノベーションを遅くし、さらに新しい量子コンピューティング産業を断片化する。

Quantum error correction (QEC) is a critical component of FTQC; the QEC decoder is an important part of Classical Computing for Quantum or C4Q. Recent years have seen fast development in real-time QEC decoders. Existing efforts to build real-time decoders have yet to achieve a critical milestone: decoding dynamic logical circuits with error-corrected readout and feed forward. Achieving this requires significant engineering effort to adapt and reconfigure the decoders during runtime, depending on the branching of the logical circuit. We present a QEC decoder architecture called LEGO, with the ambitious goal of supporting dynamic logical operations. LEGO employs a novel abstraction called the decoding block to describe the decoding problem of a dynamic logical circuit. Moreover, decoding blocks can be combined with three other ideas to improve the efficiency, accuracy and latency of the decoder. First, they provide data and task parallelisms when combined with fusion-based decoding. Second, they can exploit the pipeline parallelism inside multi-stage decoders. Finally, they serve as basic units of work for computational resource management. Using decoding blocks, LEGO can be easily reconfigured to support all QEC settings and to easily accommodate innovations in three interdependent fields: code, logical operations and qubit hardware. In contrast, existing decoders are highly specialized to a specific QEC setting, which leads to redundant research and engineering efforts, slows down innovation, and further fragments the nascent quantum computing industry.
翻訳日:2024-11-03 03:56:19 公開日:2024-10-09
# Nested Deep Learning Model:脳信号データの基礎モデル

Nested Deep Learning Model: A Foundation Model for Brain Signal Data ( http://arxiv.org/abs/2410.03191v1 )

ライセンス: Link先を確認
Fangyi Wei, Jiajie Mo, Kai Zhang, Haipeng Shen, Srikantan Nagarajan, Fei Jiang, (参考訳) てんかんは全世界で5000万人以上の患者に影響を与え、脳波/MEGによるスパイク検出は診断と治療において重要な役割を担っている。 手動スパイク識別には時間を要するため、専門的なトレーニングが必要で、EEG/MEGデータを分析できる専門家の数を制限する。 これを解決するために、様々なアルゴリズムアプローチが開発されている。 しかし、現在の手法では、異なるチャネル構成の処理や、スパイクが発する特定のチャネルの特定において課題に直面している。 本稿では,これらの制約を克服するための新しいNested Deep Learning(NDL)フレームワークを紹介する。 NDLは、全てのチャネルに重み付けされた信号の組み合わせを適用し、異なるチャネル設定への適応性を確保し、臨床医がキーチャネルをより正確に識別できるようにする。 実脳波/MEGデータセットの理論的解析と実証的検証を通じて、NDLは従来の手法に比べてスパイク検出とチャネルのローカライゼーションにおいて優れた精度を示す。 その結果,NDLは予測精度を向上し,モダリティ間のデータ統合をサポートし,様々な神経生理学的応用のために微調整できることがわかった。

Epilepsy affects over 50 million people globally, with EEG/MEG-based spike detection playing a crucial role in diagnosis and treatment. Manual spike identification is time-consuming and requires specialized training, limiting the number of professionals available to analyze EEG/MEG data. To address this, various algorithmic approaches have been developed. However, current methods face challenges in handling varying channel configurations and in identifying the specific channels where spikes originate. This paper introduces a novel Nested Deep Learning (NDL) framework designed to overcome these limitations. NDL applies a weighted combination of signals across all channels, ensuring adaptability to different channel setups, and allows clinicians to identify key channels more accurately. Through theoretical analysis and empirical validation on real EEG/MEG datasets, NDL demonstrates superior accuracy in spike detection and channel localization compared to traditional methods. The results show that NDL improves prediction accuracy, supports cross-modality data integration, and can be fine-tuned for various neurophysiological applications.
翻訳日:2024-11-03 03:04:25 公開日:2024-10-09
# 脳信号データの基礎モデルに向けたNested Deep Learning Model

Nested Deep Learning Model Towards A Foundation Model for Brain Signal Data ( http://arxiv.org/abs/2410.03191v2 )

ライセンス: Link先を確認
Fangyi Wei, Jiajie Mo, Kai Zhang, Haipeng Shen, Srikantan Nagarajan, Fei Jiang, (参考訳) てんかんは全世界で5000万人以上の患者に影響を与え、脳波/MEGによるスパイク検出は診断と治療において重要な役割を担っている。 手動スパイク識別には時間を要するため、専門的なトレーニングが必要で、EEG/MEGデータを分析できる専門家の数を制限する。 これを解決するために、様々なアルゴリズムアプローチが開発されている。 しかし、現在の手法では、異なるチャネル構成の処理や、スパイクが発する特定のチャネルの特定において課題に直面している。 本稿では,これらの制約を克服するための新しいNested Deep Learning(NDL)フレームワークを紹介する。 NDLは、全てのチャネルに重み付けされた信号の組み合わせを適用し、異なるチャネル設定への適応性を確保し、臨床医がキーチャネルをより正確に識別できるようにする。 実脳波/MEGデータセットの理論的解析と実証的検証を通じて、NDLは従来の手法に比べてスパイク検出とチャネルのローカライゼーションにおいて優れた精度を示す。 その結果,NDLは予測精度を向上し,モダリティ間のデータ統合をサポートし,様々な神経生理学的応用のために微調整できることがわかった。

Epilepsy affects over 50 million people globally, with EEG/MEG-based spike detection playing a crucial role in diagnosis and treatment. Manual spike identification is time-consuming and requires specialized training, limiting the number of professionals available to analyze EEG/MEG data. To address this, various algorithmic approaches have been developed. However, current methods face challenges in handling varying channel configurations and in identifying the specific channels where spikes originate. This paper introduces a novel Nested Deep Learning (NDL) framework designed to overcome these limitations. NDL applies a weighted combination of signals across all channels, ensuring adaptability to different channel setups, and allows clinicians to identify key channels more accurately. Through theoretical analysis and empirical validation on real EEG/MEG datasets, NDL demonstrates superior accuracy in spike detection and channel localization compared to traditional methods. The results show that NDL improves prediction accuracy, supports cross-modality data integration, and can be fine-tuned for various neurophysiological applications.
翻訳日:2024-11-03 03:04:25 公開日:2024-10-09
# 機械翻訳評価に大規模言語モデルは何が必要か?

What do Large Language Models Need for Machine Translation Evaluation? ( http://arxiv.org/abs/2410.03278v1 )

ライセンス: Link先を確認
Shenbin Qian, Archchana Sindhujan, Minnie Kabra, Diptesh Kanojia, Constantin Orăsan, Tharindu Ranasinghe, Frédéric Blain, (参考訳) さまざまな自然言語処理タスクに大規模言語モデル(LLM)を活用することで、パフォーマンスに関する最上位の主張につながっている。 機械翻訳 (MT) の評価において, LLM は細調整された多言語事前学習言語モデルに匹敵する結果が得られることを示した。 本稿では,MTの品質評価にLLMが必要とする翻訳情報(ソース,参照,翻訳エラー,ガイドラインガイドラインなど)について検討する。 さらに,高,中,低リソース言語をカバーする8つの言語対に対して,ゼロショット,チェイン・オブ・シント(CoT),少数ショットなどのプロンプト技術について検討した。 以上の結果から,LLMを用いた基準翻訳の重要性が示唆された。 大型モデルの方が必ずしも良いとは限りませんが、より小型モデルよりもCoTプロンプトの恩恵を受ける傾向があります。 また,LLMが評価を生成する際に必ずしも数値スコアを提供するとは限らないことも観察し,その課題に対する信頼性に疑問を呈する。 本研究は,LLMを用いた機械翻訳の資源制約とトレーニングレス評価に関する総合的分析である。 再現性のために、アクルドプロンプトテンプレート、コード、データを公開しています。

Leveraging large language models (LLMs) for various natural language processing tasks has led to superlative claims about their performance. For the evaluation of machine translation (MT), existing research shows that LLMs are able to achieve results comparable to fine-tuned multilingual pre-trained language models. In this paper, we explore what translation information, such as the source, reference, translation errors and annotation guidelines, is needed for LLMs to evaluate MT quality. In addition, we investigate prompting techniques such as zero-shot, Chain of Thought (CoT) and few-shot prompting for eight language pairs covering high-, medium- and low-resource languages, leveraging varying LLM variants. Our findings indicate the importance of reference translations for an LLM-based evaluation. While larger models do not necessarily fare better, they tend to benefit more from CoT prompting, than smaller models. We also observe that LLMs do not always provide a numerical score when generating evaluations, which poses a question on their reliability for the task. Our work presents a comprehensive analysis for resource-constrained and training-less LLM-based evaluation of machine translation. We release the accrued prompt templates, code and data publicly for reproducibility.
翻訳日:2024-11-02 23:18:36 公開日:2024-10-09
# 機械翻訳評価に大規模言語モデルは何が必要か?

What do Large Language Models Need for Machine Translation Evaluation? ( http://arxiv.org/abs/2410.03278v2 )

ライセンス: Link先を確認
Shenbin Qian, Archchana Sindhujan, Minnie Kabra, Diptesh Kanojia, Constantin Orăsan, Tharindu Ranasinghe, Frédéric Blain, (参考訳) さまざまな自然言語処理タスクに大規模言語モデル(LLM)を活用することで、パフォーマンスに関する最上位の主張につながっている。 機械翻訳 (MT) の評価において, LLM は細調整された多言語事前学習言語モデルに匹敵する結果が得られることを示した。 本稿では,MTの品質評価にLLMが必要とする翻訳情報(ソース,参照,翻訳エラー,ガイドラインガイドラインなど)について検討する。 さらに,高,中,低リソース言語をカバーする8つの言語対に対して,ゼロショット,チェイン・オブ・シント(CoT),少数ショットなどのプロンプト技術について検討した。 以上の結果から,LLMを用いた基準翻訳の重要性が示唆された。 大型モデルの方が必ずしも良いとは限りませんが、より小型モデルよりもCoTプロンプトの恩恵を受ける傾向があります。 また,LLMが評価を生成する際に必ずしも数値スコアを提供するとは限らないことも観察し,その課題に対する信頼性に疑問を呈する。 本研究は,LLMを用いた機械翻訳の資源制約とトレーニングレス評価に関する総合的分析である。 再現性のために、アクルドプロンプトテンプレート、コード、データを公開しています。

Leveraging large language models (LLMs) for various natural language processing tasks has led to superlative claims about their performance. For the evaluation of machine translation (MT), existing research shows that LLMs are able to achieve results comparable to fine-tuned multilingual pre-trained language models. In this paper, we explore what translation information, such as the source, reference, translation errors and annotation guidelines, is needed for LLMs to evaluate MT quality. In addition, we investigate prompting techniques such as zero-shot, Chain of Thought (CoT) and few-shot prompting for eight language pairs covering high-, medium- and low-resource languages, leveraging varying LLM variants. Our findings indicate the importance of reference translations for an LLM-based evaluation. While larger models do not necessarily fare better, they tend to benefit more from CoT prompting, than smaller models. We also observe that LLMs do not always provide a numerical score when generating evaluations, which poses a question on their reliability for the task. Our work presents a comprehensive analysis for resource-constrained and training-less LLM-based evaluation of machine translation. We release the accrued prompt templates, code and data publicly for reproducibility.
翻訳日:2024-11-02 23:18:36 公開日:2024-10-09
# 動的拡散変圧器

Dynamic Diffusion Transformer ( http://arxiv.org/abs/2410.03456v1 )

ライセンス: Link先を確認
Wangbo Zhao, Yizeng Han, Jiasheng Tang, Kai Wang, Yibing Song, Gao Huang, Fan Wang, Yang You, (参考訳) 画像生成のための拡散モデルである拡散変換器(DiT)は、優れた性能を示したが、かなりの計算コストに悩まされている。 本研究により,これらのコストは,特定の拡散時間と空間領域に必然的に冗長な計算を導入する静的推論パラダイムに起因していることが明らかとなった。 この非効率性に対処するため,動的拡散変換器 (DyDiT) を提案する。 具体的には,TDW(Timestep-wise Dynamic Width)アプローチを導入する。 さらに,不必要な空間位置における冗長な計算を回避するため,SDT(Spatial-wise Dynamic Token)戦略を設計する。 様々なデータセットと異なるサイズのモデルに対する大規模な実験は、DyDiTの優位性を検証する。 特に,<3%の微調整繰り返しにより,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。 コードはhttps://github.com/NUS-HPC-AI-Lab/Dynamic-Diffusion-Transformerで公開されている。

Diffusion Transformer (DiT), an emerging diffusion model for image generation, has demonstrated superior performance but suffers from substantial computational costs. Our investigations reveal that these costs stem from the static inference paradigm, which inevitably introduces redundant computation in certain diffusion timesteps and spatial regions. To address this inefficiency, we propose Dynamic Diffusion Transformer (DyDiT), an architecture that dynamically adjusts its computation along both timestep and spatial dimensions during generation. Specifically, we introduce a Timestep-wise Dynamic Width (TDW) approach that adapts model width conditioned on the generation timesteps. In addition, we design a Spatial-wise Dynamic Token (SDT) strategy to avoid redundant computation at unnecessary spatial locations. Extensive experiments on various datasets and different-sized models verify the superiority of DyDiT. Notably, with <3% additional fine-tuning iterations, our method reduces the FLOPs of DiT-XL by 51%, accelerates generation by 1.73, and achieves a competitive FID score of 2.07 on ImageNet. The code is publicly available at https://github.com/NUS-HPC-AI-Lab/ Dynamic-Diffusion-Transformer.
翻訳日:2024-11-02 22:09:37 公開日:2024-10-09
# 動的拡散変圧器

Dynamic Diffusion Transformer ( http://arxiv.org/abs/2410.03456v2 )

ライセンス: Link先を確認
Wangbo Zhao, Yizeng Han, Jiasheng Tang, Kai Wang, Yibing Song, Gao Huang, Fan Wang, Yang You, (参考訳) 画像生成のための拡散モデルである拡散変換器(DiT)は、優れた性能を示したが、かなりの計算コストに悩まされている。 本研究により,これらのコストは,特定の拡散時間と空間領域に必然的に冗長な計算を導入する静的推論パラダイムに起因していることが明らかとなった。 この非効率性に対処するため,動的拡散変換器 (DyDiT) を提案する。 具体的には,TDW(Timestep-wise Dynamic Width)アプローチを導入する。 さらに,不必要な空間位置における冗長な計算を回避するため,SDT(Spatial-wise Dynamic Token)戦略を設計する。 様々なデータセットと異なるサイズのモデルに対する大規模な実験は、DyDiTの優位性を検証する。 特に,<3%の微調整繰り返しにより,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。 コードはhttps://github.com/NUS-HPC-AI-Lab/Dynamic-Diffusion-Transformerで公開されている。

Diffusion Transformer (DiT), an emerging diffusion model for image generation, has demonstrated superior performance but suffers from substantial computational costs. Our investigations reveal that these costs stem from the static inference paradigm, which inevitably introduces redundant computation in certain diffusion timesteps and spatial regions. To address this inefficiency, we propose Dynamic Diffusion Transformer (DyDiT), an architecture that dynamically adjusts its computation along both timestep and spatial dimensions during generation. Specifically, we introduce a Timestep-wise Dynamic Width (TDW) approach that adapts model width conditioned on the generation timesteps. In addition, we design a Spatial-wise Dynamic Token (SDT) strategy to avoid redundant computation at unnecessary spatial locations. Extensive experiments on various datasets and different-sized models verify the superiority of DyDiT. Notably, with <3% additional fine-tuning iterations, our method reduces the FLOPs of DiT-XL by 51%, accelerates generation by 1.73, and achieves a competitive FID score of 2.07 on ImageNet. The code is publicly available at https://github.com/NUS-HPC-AI-Lab/ Dynamic-Diffusion-Transformer.
翻訳日:2024-11-02 22:09:37 公開日:2024-10-09
# 構造強化タンパク質インストラクションチューニング : 汎用タンパク質理解に向けて

Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding ( http://arxiv.org/abs/2410.03553v1 )

ライセンス: Link先を確認
Wei Wu, Chao Wang, Liyi Chen, Mingze Yin, Yiheng Zhu, Kun Fu, Jieping Ye, Hui Xiong, Zheng Wang, (参考訳) 重要な生体分子であるタンパク質は、代謝反応やDNA複製を含む生物学的過程において中心的な役割を果たす。 生物学的応用において、それらの性質と機能の正確な予測が重要である。 近年,タンパク質言語モデル (pLM) の開発が進められている。 しかし、微調整モデルは特定の下流予測タスクに合わせて調整されており、汎用的なタンパク質理解を達成することは依然として課題である。 本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを提案する。 提案手法では, 構造的知識を付加し, これらの拡張されたpLMを大規模言語モデル (LLM) に接続し, タンパク質の理解を促進する。 本稿では,まず,タンパク質の基本的理解をキャプションベースで確立し,その理解を専門家(MoEs)の混合で洗練し,より複雑な特性や機能情報を同じ量の活性化パラメータで学習する,新しい2段階のインストラクションチューニングパイプラインを提案する。 さらに,これまでで最大かつ最も包括的なタンパク質解析データセットを構築し,汎用タンパク質理解モデルの訓練と評価を可能にした。 オープンエンド生成およびクローズドセット解答タスクに関する広範囲な実験結果から,タンパク質知識を訓練した一般LCMとオープンソースLSMの両方に対して,SEPITの優れた性能を示す。

Proteins, as essential biomolecules, play a central role in biological processes, including metabolic reactions and DNA replication. Accurate prediction of their properties and functions is crucial in biological applications. Recent development of protein language models (pLMs) with supervised fine tuning provides a promising solution to this problem. However, the fine-tuned model is tailored for particular downstream prediction task, and achieving general-purpose protein understanding remains a challenge. In this paper, we introduce Structure-Enhanced Protein Instruction Tuning (SEPIT) framework to bridge this gap. Our approach integrates a noval structure-aware module into pLMs to inform them with structural knowledge, and then connects these enhanced pLMs to large language models (LLMs) to generate understanding of proteins. In this framework, we propose a novel two-stage instruction tuning pipeline that first establishes a basic understanding of proteins through caption-based instructions and then refines this understanding using a mixture of experts (MoEs) to learn more complex properties and functional information with the same amount of activated parameters. Moreover, we construct the largest and most comprehensive protein instruction dataset to date, which allows us to train and evaluate the general-purpose protein understanding model. Extensive experimental results on open-ended generation and closed-set answer tasks demonstrate the superior performance of SEPIT over both closed-source general LLMs and open-source LLMs trained with protein knowledge.
翻訳日:2024-11-02 21:29:56 公開日:2024-10-09
# 構造強化タンパク質インストラクションチューニング : 汎用タンパク質理解に向けて

Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding ( http://arxiv.org/abs/2410.03553v2 )

ライセンス: Link先を確認
Wei Wu, Chao Wang, Liyi Chen, Mingze Yin, Yiheng Zhu, Kun Fu, Jieping Ye, Hui Xiong, Zheng Wang, (参考訳) 重要な生体分子であるタンパク質は、代謝反応やDNA複製を含む生物学的過程において中心的な役割を果たす。 生物学的応用において、それらの性質と機能の正確な予測が重要である。 近年,タンパク質言語モデル (pLM) の開発が進められている。 しかし、微調整モデルは特定の下流予測タスクに合わせて調整されており、汎用的なタンパク質理解を達成することは依然として課題である。 本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを提案する。 提案手法では, 構造的知識を付加し, これらの拡張されたpLMを大規模言語モデル (LLM) に接続し, タンパク質の理解を促進する。 本稿では,まず,タンパク質の基本的理解をキャプションベースで確立し,その理解を専門家(MoEs)の混合で洗練し,より複雑な特性や機能情報を同じ量の活性化パラメータで学習する,新しい2段階のインストラクションチューニングパイプラインを提案する。 さらに,これまでで最大かつ最も包括的なタンパク質解析データセットを構築し,汎用タンパク質理解モデルの訓練と評価を可能にした。 オープンエンド生成およびクローズドセット解答タスクに関する広範囲な実験結果から,タンパク質知識を訓練した一般LCMとオープンソースLSMの両方に対して,SEPITの優れた性能を示す。

Proteins, as essential biomolecules, play a central role in biological processes, including metabolic reactions and DNA replication. Accurate prediction of their properties and functions is crucial in biological applications. Recent development of protein language models (pLMs) with supervised fine tuning provides a promising solution to this problem. However, the fine-tuned model is tailored for particular downstream prediction task, and achieving general-purpose protein understanding remains a challenge. In this paper, we introduce Structure-Enhanced Protein Instruction Tuning (SEPIT) framework to bridge this gap. Our approach integrates a noval structure-aware module into pLMs to inform them with structural knowledge, and then connects these enhanced pLMs to large language models (LLMs) to generate understanding of proteins. In this framework, we propose a novel two-stage instruction tuning pipeline that first establishes a basic understanding of proteins through caption-based instructions and then refines this understanding using a mixture of experts (MoEs) to learn more complex properties and functional information with the same amount of activated parameters. Moreover, we construct the largest and most comprehensive protein instruction dataset to date, which allows us to train and evaluate the general-purpose protein understanding model. Extensive experimental results on open-ended generation and closed-set answer tasks demonstrate the superior performance of SEPIT over both closed-source general LLMs and open-source LLMs trained with protein knowledge.
翻訳日:2024-11-02 21:29:56 公開日:2024-10-09
# 経済的な視点のためのジェネレーティブAIのハーネス

Harnessing Generative AI for Economic Insights ( http://arxiv.org/abs/2410.03897v1 )

ライセンス: Link先を確認
Manish Jha, Jialin Qian, Michael Weber, Baozhong Yang, (参考訳) 私たちはジェネレーティブAIを使用して、12万件のコーポレートカンファレンスの書面から、彼らの経済見通しに対する管理上の期待を抽出しています。 AIエコノミースコア(AI Economic Score)は、GDPの成長、生産、雇用といった将来の経済指標を短期と10四半期の両方で確実に予測する。 この予測力は、調査予測を含む既存の指標に比例する。 さらに、業界や企業レベルの措置は、セクター固有の企業活動や個別の企業活動に関する貴重な情報を提供する。 以上の結果から,経営陣の期待は経済活動に関する独自の洞察を持ち,マクロ経済とミクロ経済の意思決定の両方に影響を及ぼす可能性が示唆された。

We use generative AI to extract managerial expectations about their economic outlook from over 120,000 corporate conference call transcripts. The overall measure, AI Economy Score, robustly predicts future economic indicators such as GDP growth, production, and employment, both in the short term and to 10 quarters. This predictive power is incremental to that of existing measures, including survey forecasts. Moreover, industry and firm-level measures provide valuable information about sector-specific and individual firm activities. Our findings suggest that managerial expectations carry unique insights about economic activities, with implications for both macroeconomic and microeconomic decision-making.
翻訳日:2024-11-02 15:40:54 公開日:2024-10-09
# 経済的な視点のためのジェネレーティブAIのハーネス

Harnessing Generative AI for Economic Insights ( http://arxiv.org/abs/2410.03897v2 )

ライセンス: Link先を確認
Manish Jha, Jialin Qian, Michael Weber, Baozhong Yang, (参考訳) 私たちはジェネレーティブAIを使用して、12万件のコーポレートカンファレンスの書面から、彼らの経済見通しに対する管理上の期待を抽出しています。 AIエコノミースコア(AI Economic Score)は、GDPの成長、生産、雇用といった将来の経済指標を短期と10四半期の両方で確実に予測する。 この予測力は、調査予測を含む既存の指標に比例する。 さらに、業界や企業レベルの措置は、セクター固有の企業活動や個別の企業活動に関する貴重な情報を提供する。 以上の結果から,経営陣の期待は経済活動に関する独自の洞察を持ち,マクロ経済とミクロ経済の意思決定の両方に影響を及ぼす可能性が示唆された。

We use generative AI to extract managerial expectations about their economic outlook from over 120,000 corporate conference call transcripts. The overall measure, AI Economy Score, robustly predicts future economic indicators such as GDP growth, production, and employment, both in the short term and to 10 quarters. This predictive power is incremental to that of existing measures, including survey forecasts. Moreover, industry and firm-level measures provide valuable information about sector-specific and individual firm activities. Our findings suggest that managerial expectations carry unique insights about economic activities, with implications for both macroeconomic and microeconomic decision-making.
翻訳日:2024-11-02 15:31:01 公開日:2024-10-09
# 時系列異常検出のための量子オートエンコーダの適用

Applying Quantum Autoencoders for Time Series Anomaly Detection ( http://arxiv.org/abs/2410.04154v1 )

ライセンス: Link先を確認
Robin Frehner, Kurt Stockinger, (参考訳) 異常検出は、不正検出、パターン認識、医療診断など、様々な分野の応用において重要な問題である。 古典的な計算手法を用いていくつかのアルゴリズムが導入された。 しかし、時系列データにおける異常検出問題の解法に量子コンピューティングを用いることは、広く探索されていない研究分野である。 本稿では,量子オートエンコーダの時系列異常検出への応用について検討する。 本稿では,(1)量子オートエンコーダによる再構成誤差の解析と(2)潜在表現解析の2つの手法について検討する。 シミュレーション実験の結果,量子オートエンコーダは古典的なディープラーニングベースのオートエンコーダを複数のデータセットで一貫して上回っていることがわかった。 特に、量子オートエンコーダは、パラメータの60~230倍を削減し、5倍のトレーニング繰り返しを必要としながら、優れた異常検出性能を達成する。 さらに,実際の量子ハードウェアに量子エンコーダを実装した。 実験により, 量子オートエンコーダは, シミュレーション値と同等の異常検出性能が得られることを示した。

Anomaly detection is an important problem with applications in various domains such as fraud detection, pattern recognition or medical diagnosis. Several algorithms have been introduced using classical computing approaches. However, using quantum computing for solving anomaly detection problems in time series data is a widely unexplored research field. This paper explores the application of quantum autoencoders to time series anomaly detection. We investigate two primary techniques for classifying anomalies: (1) Analyzing the reconstruction error generated by the quantum autoencoder and (2) latent representation analysis. Our simulated experimental results, conducted across various ansaetze, demonstrate that quantum autoencoders consistently outperform classical deep learning-based autoencoders across multiple datasets. Specifically, quantum autoencoders achieve superior anomaly detection performance while utilizing 60-230 times fewer parameters and requiring five times fewer training iterations. In addition, we implement our quantum encoder on real quantum hardware. Our experimental results demonstrate that quantum autoencoders achieve anomaly detection performance on par with their simulated counterparts.
翻訳日:2024-11-02 13:51:18 公開日:2024-10-09
# 時系列異常検出のための量子オートエンコーダの適用

Applying Quantum Autoencoders for Time Series Anomaly Detection ( http://arxiv.org/abs/2410.04154v2 )

ライセンス: Link先を確認
Robin Frehner, Kurt Stockinger, (参考訳) 異常検出は、不正検出、パターン認識、医療診断など、様々な分野の応用において重要な問題である。 古典的な計算手法を用いていくつかのアルゴリズムが導入された。 しかし、時系列データにおける異常検出問題の解法に量子コンピューティングを用いることは、広く探索されていない研究分野である。 本稿では,量子オートエンコーダの時系列異常検出への応用について検討する。 本稿では,(1)量子オートエンコーダによる再構成誤差の解析と(2)潜在表現解析の2つの手法について検討する。 シミュレーション実験の結果,量子オートエンコーダは古典的なディープラーニングベースのオートエンコーダを複数のデータセットで一貫して上回っていることがわかった。 特に、量子オートエンコーダは、パラメータの60~230倍を削減し、5倍のトレーニング繰り返しを必要としながら、優れた異常検出性能を達成する。 さらに,実際の量子ハードウェアに量子エンコーダを実装した。 実験により, 量子オートエンコーダは, シミュレーション値と同等の異常検出性能が得られることを示した。

Anomaly detection is an important problem with applications in various domains such as fraud detection, pattern recognition or medical diagnosis. Several algorithms have been introduced using classical computing approaches. However, using quantum computing for solving anomaly detection problems in time series data is a widely unexplored research field. This paper explores the application of quantum autoencoders to time series anomaly detection. We investigate two primary techniques for classifying anomalies: (1) Analyzing the reconstruction error generated by the quantum autoencoder and (2) latent representation analysis. Our simulated experimental results, conducted across various ansaetze, demonstrate that quantum autoencoders consistently outperform classical deep learning-based autoencoders across multiple datasets. Specifically, quantum autoencoders achieve superior anomaly detection performance while utilizing 60-230 times fewer parameters and requiring five times fewer training iterations. In addition, we implement our quantum encoder on real quantum hardware. Our experimental results demonstrate that quantum autoencoders achieve anomaly detection performance on par with their simulated counterparts.
翻訳日:2024-11-02 13:51:18 公開日:2024-10-09
# GenSim: 大規模言語モデルに基づくエージェントを備えた汎用ソーシャルシミュレーションプラットフォーム

GenSim: A General Social Simulation Platform with Large Language Model based Agents ( http://arxiv.org/abs/2410.04360v1 )

ライセンス: Link先を確認
Jiakai Tang, Heyang Gao, Xuchen Pan, Lei Wang, Haoran Tan, Dawei Gao, Yushuo Chen, Xu Chen, Yankai Lin, Yaliang Li, Bolin Ding, Jingren Zhou, Ji-Rong Wen, (参考訳) 大規模言語モデル(LLM)の急速な進歩により、近年は人間の社会的行動のシミュレートにLLMベースのエージェントを活用する多くの有望な研究が見られた。 以前の研究は様々な領域で有意義なポテンシャルを示してきたが、その多くは限られた数のエージェントを含む特定のシナリオに焦点を当てており、シミュレーション中にエラーが発生した場合に適応する能力に欠けていた。 これらの制約を克服するために,(1) カスタマイズされた社会的シナリオのシミュレーションを簡略化するために,(1) テキストbf{Abstracts a set of general function} ,(2) テキストbf{Supports 100000 Agent} ,(3) テキストbf{Incorporates エラー訂正機構を改良し,より信頼性と長期のシミュレーションを実現する,新たな LLM エージェントベースのシミュレーションプラットフォームである \textit{GenSim} を提案する。 本研究では,大規模エージェントシミュレーションの有効性と誤り訂正機構の有効性を評価する。 我々の知る限り、GenSimはLLMエージェントに基づく汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初のステップであり、社会科学の分野をさらに前進させることを約束している。

With the rapid advancement of large language models (LLMs), recent years have witnessed many promising studies on leveraging LLM-based agents to simulate human social behavior. While prior work has demonstrated significant potential across various domains, much of it has focused on specific scenarios involving a limited number of agents and has lacked the ability to adapt when errors occur during simulation. To overcome these limitations, we propose a novel LLM-agent-based simulation platform called \textit{GenSim}, which: (1) \textbf{Abstracts a set of general functions} to simplify the simulation of customized social scenarios; (2) \textbf{Supports one hundred thousand agents} to better simulate large-scale populations in real-world contexts; (3) \textbf{Incorporates error-correction mechanisms} to ensure more reliable and long-term simulations. To evaluate our platform, we assess both the efficiency of large-scale agent simulations and the effectiveness of the error-correction mechanisms. To our knowledge, GenSim represents an initial step toward a general, large-scale, and correctable social simulation platform based on LLM agents, promising to further advance the field of social science.
翻訳日:2024-11-02 08:20:17 公開日:2024-10-09
# GenSim: 大規模言語モデルに基づくエージェントを備えた汎用ソーシャルシミュレーションプラットフォーム

GenSim: A General Social Simulation Platform with Large Language Model based Agents ( http://arxiv.org/abs/2410.04360v2 )

ライセンス: Link先を確認
Jiakai Tang, Heyang Gao, Xuchen Pan, Lei Wang, Haoran Tan, Dawei Gao, Yushuo Chen, Xu Chen, Yankai Lin, Yaliang Li, Bolin Ding, Jingren Zhou, Jun Wang, Ji-Rong Wen, (参考訳) 大規模言語モデル(LLM)の急速な進歩により、近年は人間の社会的行動のシミュレートにLLMベースのエージェントを活用する多くの有望な研究が見られた。 以前の研究は様々な領域で有意義なポテンシャルを示してきたが、その多くは限られた数のエージェントを含む特定のシナリオに焦点を当てており、シミュレーション中にエラーが発生した場合に適応する能力に欠けていた。 これらの制約を克服するために,(1) カスタマイズされた社会的シナリオのシミュレーションを簡略化するために,(1) テキストbf{Abstracts a set of general function} ,(2) テキストbf{Supports 100000 Agent} ,(3) テキストbf{Incorporates エラー訂正機構を改良し,より信頼性と長期のシミュレーションを実現する,新たな LLM エージェントベースのシミュレーションプラットフォームである \textit{GenSim} を提案する。 本研究では,大規模エージェントシミュレーションの有効性と誤り訂正機構の有効性を評価する。 我々の知る限り、GenSimはLLMエージェントに基づく汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初のステップであり、社会科学の分野をさらに前進させることを約束している。

With the rapid advancement of large language models (LLMs), recent years have witnessed many promising studies on leveraging LLM-based agents to simulate human social behavior. While prior work has demonstrated significant potential across various domains, much of it has focused on specific scenarios involving a limited number of agents and has lacked the ability to adapt when errors occur during simulation. To overcome these limitations, we propose a novel LLM-agent-based simulation platform called \textit{GenSim}, which: (1) \textbf{Abstracts a set of general functions} to simplify the simulation of customized social scenarios; (2) \textbf{Supports one hundred thousand agents} to better simulate large-scale populations in real-world contexts; (3) \textbf{Incorporates error-correction mechanisms} to ensure more reliable and long-term simulations. To evaluate our platform, we assess both the efficiency of large-scale agent simulations and the effectiveness of the error-correction mechanisms. To our knowledge, GenSim represents an initial step toward a general, large-scale, and correctable social simulation platform based on LLM agents, promising to further advance the field of social science.
翻訳日:2024-11-02 08:10:32 公開日:2024-10-09
# SparseVLM: 効率的な視覚・言語モデル推論のための視覚トークンスカラー化

SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference ( http://arxiv.org/abs/2410.04417v1 )

ライセンス: Link先を確認
Yuan Zhang, Chun-Kai Fan, Junpeng Ma, Wenzhao Zheng, Tao Huang, Kuan Cheng, Denis Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, Shanghang Zhang, (参考訳) 視覚言語モデル(VLM)では、視覚トークンはテキストトークンに比べてスペーサー情報密度が高いにもかかわらず、通常かなりの計算オーバーヘッドを消費する。 これを解決するために、既存のほとんどのメソッドは、冗長なビジュアルトークンを実行し、追加のトレーニングデータを必要とするネットワークを学習する。 そこで本研究では,SparseVLMと呼ばれる学習不要なトークン最適化機構について,パラメータや微調整コストを伴わずに提案する。 具体的には,視覚トークンが言語推論のためにVLMのテキストトークンを補完することを考えると,VLMから抽出した自己認識行列内の視覚トークンの意義を評価するために,視覚関連テキストトークンを選択する。 そして、無関係なトークンを徐々に引き起こします。 そこで本研究では,各層におけるスカラー化率を適応的に決定するランクベース戦略を導入するとともに,よりコンパクトな表現にプルーンドトークンを圧縮するトークンリサイクル手法を提案する。 実験結果から,SparseVLMは画像理解タスクや映像理解タスクにおいて,様々なVLMの効率を向上することが示された。 特に、SparseVLMを搭載したLLaVAは、精度の93%を維持しながら、圧縮比78%で61%から67%のFLOPを削減した。 私たちのコードはhttps://github.com/Gumpest/SparseVLMsで利用可能です。

In vision-language models (VLMs), visual tokens usually consume a significant amount of computational overhead, despite their sparser information density compared to text tokens. To address this, most existing methods learn a network to prune redundant visual tokens and require additional training data. Differently, we propose an efficient training-free token optimization mechanism dubbed SparseVLM without extra parameters or fine-tuning costs. Concretely, given that visual tokens complement text tokens in VLMs for linguistic reasoning, we select visual-relevant text tokens to rate the significance of vision tokens within the self-attention matrix extracted from the VLMs. Then we progressively prune irrelevant tokens. To maximize sparsity while retaining essential information, we introduce a rank-based strategy to adaptively determine the sparsification ratio for each layer, alongside a token recycling method that compresses pruned tokens into more compact representations. Experimental results show that our SparseVLM improves the efficiency of various VLMs across a range of image and video understanding tasks. In particular, LLaVA equipped with SparseVLM reduces 61% to 67% FLOPs with a compression ratio of 78% while maintaining 93% of the accuracy. Our code is available at https://github.com/Gumpest/SparseVLMs.
翻訳日:2024-11-02 08:00:46 公開日:2024-10-09
# SparseVLM: 効率的な視覚・言語モデル推論のための視覚トークンスカラー化

SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference ( http://arxiv.org/abs/2410.04417v2 )

ライセンス: Link先を確認
Yuan Zhang, Chun-Kai Fan, Junpeng Ma, Wenzhao Zheng, Tao Huang, Kuan Cheng, Denis Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, Shanghang Zhang, (参考訳) 視覚言語モデル(VLM)では、視覚トークンはテキストトークンに比べてスペーサー情報密度が高いにもかかわらず、通常かなりの計算オーバーヘッドを消費する。 これを解決するために、既存のほとんどのメソッドは、冗長なビジュアルトークンを実行し、追加のトレーニングデータを必要とするネットワークを学習する。 そこで本研究では,SparseVLMと呼ばれる学習不要なトークン最適化機構について,パラメータや微調整コストを伴わずに提案する。 具体的には,視覚トークンが言語推論のためにVLMのテキストトークンを補完することを考えると,VLMから抽出した自己認識行列内の視覚トークンの意義を評価するために,視覚関連テキストトークンを選択する。 そして、無関係なトークンを徐々に引き起こします。 そこで本研究では,各層におけるスカラー化率を適応的に決定するランクベース戦略を導入するとともに,よりコンパクトな表現にプルーンドトークンを圧縮するトークンリサイクル手法を提案する。 実験結果から,SparseVLMは画像理解タスクや映像理解タスクにおいて,様々なVLMの効率を向上することが示された。 特に、SparseVLMを搭載したLLaVAは、精度の93%を維持しながら、圧縮比78%で61%から67%のFLOPを削減した。 私たちのコードはhttps://github.com/Gumpest/SparseVLMsで利用可能です。

In vision-language models (VLMs), visual tokens usually consume a significant amount of computational overhead, despite their sparser information density compared to text tokens. To address this, most existing methods learn a network to prune redundant visual tokens and require additional training data. Differently, we propose an efficient training-free token optimization mechanism dubbed SparseVLM without extra parameters or fine-tuning costs. Concretely, given that visual tokens complement text tokens in VLMs for linguistic reasoning, we select visual-relevant text tokens to rate the significance of vision tokens within the self-attention matrix extracted from the VLMs. Then we progressively prune irrelevant tokens. To maximize sparsity while retaining essential information, we introduce a rank-based strategy to adaptively determine the sparsification ratio for each layer, alongside a token recycling method that compresses pruned tokens into more compact representations. Experimental results show that our SparseVLM improves the efficiency of various VLMs across a range of image and video understanding tasks. In particular, LLaVA equipped with SparseVLM reduces 61% to 67% FLOPs with a compression ratio of 78% while maintaining 93% of the accuracy. Our code is available at https://github.com/Gumpest/SparseVLMs.
翻訳日:2024-11-02 08:00:46 公開日:2024-10-09
# グラフフーリエニューラルカーネル(G-FuNK):複数領域上の非線形拡散パラメトリックPDEの学習解

Graph Fourier Neural Kernels (G-FuNK): Learning Solutions of Nonlinear Diffusive Parametric PDEs on Multiple Domains ( http://arxiv.org/abs/2410.04655v1 )

ライセンス: Link先を確認
Shane E. Loeffler, Zan Ahmad, Syed Yusuf Ali, Carolyna Yamamoto, Dan M. Popescu, Alana Yee, Yash Lal, Natalia Trayanova, Mauro Maggioni, (参考訳) パラメータや領域の異なる非線形偏微分方程式(PDE)によって支配される複素系の時間依存力学を予測することは、様々な分野にわたる応用によって動機付けられた課題である。 グラフフーリエニューラルカーネルをベースとしたニューラル演算系の新しいファミリを導入し,複数のドメインやパラメータにまたがる高次項が拡散可能な非線形PDEの解生成系を学習する。 G-FuNKはパラメータとドメイン適応のコンポーネントを、そうでないコンポーネントと組み合わせている。 ドメイン適応コンポーネントは、離散化ドメイン上の重み付きグラフを用いて構成され、グラフラプラシアンは、最高次微分項を近似し、境界条件の遵守を確保し、パラメータとドメイン固有の振る舞いをキャプチャする。 一方、学習したコンポーネントは、Fourier Neural Operatorsを介してドメインとパラメータ間で転送される。 このアプローチは、幾何学的および方向的な情報を自然に埋め込んで、ネットワークの再トレーニングを必要とせずに、新しいテスト領域への一般化を改善する。 時間的ダイナミクスの処理には,システム進化を予測するための統合ODEソルバが組み込まれている。 実験により、G-FuNKは様々な測地および異方性拡散場にわたる熱、反応拡散、心電気生理学的方程式を正確に近似する能力を示した。 G-FuNKは、目に見えない領域や繊維の相対誤差が低く、従来の有限要素解法と比較して予測が著しく加速する。

Predicting time-dependent dynamics of complex systems governed by non-linear partial differential equations (PDEs) with varying parameters and domains is a challenging task motivated by applications across various fields. We introduce a novel family of neural operators based on our Graph Fourier Neural Kernels, designed to learn solution generators for nonlinear PDEs in which the highest-order term is diffusive, across multiple domains and parameters. G-FuNK combines components that are parameter- and domain-adapted with others that are not. The domain-adapted components are constructed using a weighted graph on the discretized domain, where the graph Laplacian approximates the highest-order diffusive term, ensuring boundary condition compliance and capturing the parameter and domain-specific behavior. Meanwhile, the learned components transfer across domains and parameters via Fourier Neural Operators. This approach naturally embeds geometric and directional information, improving generalization to new test domains without need for retraining the network. To handle temporal dynamics, our method incorporates an integrated ODE solver to predict the evolution of the system. Experiments show G-FuNK's capability to accurately approximate heat, reaction diffusion, and cardiac electrophysiology equations across various geometries and anisotropic diffusivity fields. G-FuNK achieves low relative errors on unseen domains and fiber fields, significantly accelerating predictions compared to traditional finite-element solvers.
翻訳日:2024-11-02 02:47:36 公開日:2024-10-09
# グラフフーリエニューラルカーネル(G-FuNK):複数領域上の非線形拡散パラメトリックPDEの学習解

Graph Fourier Neural Kernels (G-FuNK): Learning Solutions of Nonlinear Diffusive Parametric PDEs on Multiple Domains ( http://arxiv.org/abs/2410.04655v2 )

ライセンス: Link先を確認
Shane E. Loeffler, Zan Ahmad, Syed Yusuf Ali, Carolyna Yamamoto, Dan M. Popescu, Alana Yee, Yash Lal, Natalia Trayanova, Mauro Maggioni, (参考訳) パラメータや領域の異なる非線形偏微分方程式(PDE)によって支配される複素系の時間依存力学を予測することは、様々な分野にわたる応用によって動機付けられた課題である。 グラフフーリエニューラルカーネルをベースとしたニューラル演算系の新しいファミリを導入し,複数のドメインやパラメータにまたがる高次項が拡散可能な非線形PDEの解生成系を学習する。 G-FuNKはパラメータとドメイン適応のコンポーネントを、そうでないコンポーネントと組み合わせている。 ドメイン適応コンポーネントは、離散化ドメイン上の重み付きグラフを用いて構成され、グラフラプラシアンは、最高次微分項を近似し、境界条件の遵守を確保し、パラメータとドメイン固有の振る舞いをキャプチャする。 一方、学習したコンポーネントは、我々の変種であるFourier Neural Operatorsを使って、ドメインとパラメータ間で転送する。 このアプローチは、幾何学的および方向的な情報を自然に埋め込んで、ネットワークの再トレーニングを必要とせずに、新しいテスト領域への一般化を改善する。 時間的ダイナミクスの処理には,システム進化を予測するための統合ODEソルバが組み込まれている。 実験により、G-FuNKは様々な測地および異方性拡散場にわたる熱、反応拡散、心電気生理学的方程式を正確に近似する能力を示した。 G-FuNKは、目に見えない領域や繊維の相対誤差が低く、従来の有限要素解法と比較して予測が著しく加速する。

Predicting time-dependent dynamics of complex systems governed by non-linear partial differential equations (PDEs) with varying parameters and domains is a challenging task motivated by applications across various fields. We introduce a novel family of neural operators based on our Graph Fourier Neural Kernels, designed to learn solution generators for nonlinear PDEs in which the highest-order term is diffusive, across multiple domains and parameters. G-FuNK combines components that are parameter- and domain-adapted with others that are not. The domain-adapted components are constructed using a weighted graph on the discretized domain, where the graph Laplacian approximates the highest-order diffusive term, ensuring boundary condition compliance and capturing the parameter and domain-specific behavior. Meanwhile, the learned components transfer across domains and parameters using our variant Fourier Neural Operators. This approach naturally embeds geometric and directional information, improving generalization to new test domains without need for retraining the network. To handle temporal dynamics, our method incorporates an integrated ODE solver to predict the evolution of the system. Experiments show G-FuNK's capability to accurately approximate heat, reaction diffusion, and cardiac electrophysiology equations across various geometries and anisotropic diffusivity fields. G-FuNK achieves low relative errors on unseen domains and fiber fields, significantly accelerating predictions compared to traditional finite-element solvers.
翻訳日:2024-11-02 02:47:36 公開日:2024-10-09
# 都市シナリオにおける時空間モデルの一般化能力の評価

Evaluating the Generalization Ability of Spatiotemporal Model in Urban Scenario ( http://arxiv.org/abs/2410.04740v1 )

ライセンス: Link先を確認
Hongjun Wang, Jiyuan Chen, Tong Pan, Zheng Dong, Lingyu Zhang, Renhe Jiang, Xuan Song, (参考訳) 時空間相関を効果的に捉えることで、時空間ニューラルネットワークは都市シナリオにおいて大きな可能性を秘めている。 しかし、都市環境は常に進化しており、現在のモデル評価は交通シナリオに限られることが多く、主にトレーニング期間の数週間後に収集されたデータを用いてモデルの性能を評価する。 これらのモデルの一般化能力はほとんど解明されていない。 これを解決するために,自転車シェアリング,311サービス,歩行者数,交通速度,交通流,配車需要,自転車シェアリングの6つの都市シナリオからなる時空間アウト・オブ・ディストリビューション(ST-OOD)ベンチマークを提案する。 我々は最先端の時空間モデルを広く評価し、その性能は分布外設定で著しく低下し、ほとんどのモデルは単純なMulti-Layer Perceptron (MLP)よりもさらに悪化することを示した。 以上の結果から,従来の指導手法ではトレーニングデータに過度に適合するパラメータが多すぎる傾向にあることが示唆された。 また,オーバーフィッティングによる悪影響を軽減できるかどうかについても検討した。 その結果,ほとんどのデータセットにおいて若干のドロップアウト率で一般化性能が向上し,分配性能に最小限の影響が認められた。 しかし、分配のバランスと分配のアウト・オブ・ディストリビューションのパフォーマンスは依然として難しい問題である。 提案されたベンチマークが、この重要な問題に関するさらなる研究を促進することを期待している。

Spatiotemporal neural networks have shown great promise in urban scenarios by effectively capturing temporal and spatial correlations. However, urban environments are constantly evolving, and current model evaluations are often limited to traffic scenarios and use data mainly collected only a few weeks after training period to evaluate model performance. The generalization ability of these models remains largely unexplored. To address this, we propose a Spatiotemporal Out-of-Distribution (ST-OOD) benchmark, which comprises six urban scenario: bike-sharing, 311 services, pedestrian counts, traffic speed, traffic flow, ride-hailing demand, and bike-sharing, each with in-distribution (same year) and out-of-distribution (next years) settings. We extensively evaluate state-of-the-art spatiotemporal models and find that their performance degrades significantly in out-of-distribution settings, with most models performing even worse than a simple Multi-Layer Perceptron (MLP). Our findings suggest that current leading methods tend to over-rely on parameters to overfit training data, which may lead to good performance on in-distribution data but often results in poor generalization. We also investigated whether dropout could mitigate the negative effects of overfitting. Our results showed that a slight dropout rate could significantly improve generalization performance on most datasets, with minimal impact on in-distribution performance. However, balancing in-distribution and out-of-distribution performance remains a challenging problem. We hope that the proposed benchmark will encourage further research on this critical issue.
翻訳日:2024-11-02 02:17:53 公開日:2024-10-09
# 都市シナリオにおける時空間モデルの一般化能力の評価

Evaluating the Generalization Ability of Spatiotemporal Model in Urban Scenario ( http://arxiv.org/abs/2410.04740v2 )

ライセンス: Link先を確認
Hongjun Wang, Jiyuan Chen, Tong Pan, Zheng Dong, Lingyu Zhang, Renhe Jiang, Xuan Song, (参考訳) 時空間相関を効果的に捉えることで、時空間ニューラルネットワークは都市シナリオにおいて大きな可能性を秘めている。 しかし、都市環境は常に進化しており、現在のモデル評価は交通シナリオに限られることが多く、主にトレーニング期間の数週間後に収集されたデータを用いてモデルの性能を評価する。 これらのモデルの一般化能力はほとんど解明されていない。 これを解決するために,自転車シェアリング,311サービス,歩行者数,交通速度,交通流,配車需要,自転車シェアリングの6つの都市シナリオからなる時空間アウト・オブ・ディストリビューション(ST-OOD)ベンチマークを提案する。 我々は最先端の時空間モデルを広く評価し、その性能は分布外設定で著しく低下し、ほとんどのモデルは単純なMulti-Layer Perceptron (MLP)よりもさらに悪化することを示した。 以上の結果から,従来の指導手法ではトレーニングデータに過度に適合するパラメータが多すぎる傾向にあることが示唆された。 また,オーバーフィッティングによる悪影響を軽減できるかどうかについても検討した。 その結果,ほとんどのデータセットにおいて若干のドロップアウト率で一般化性能が向上し,分配性能に最小限の影響が認められた。 しかし、分配のバランスと分配のアウト・オブ・ディストリビューションのパフォーマンスは依然として難しい問題である。 提案されたベンチマークが、この重要な問題に関するさらなる研究を促進することを期待している。

Spatiotemporal neural networks have shown great promise in urban scenarios by effectively capturing temporal and spatial correlations. However, urban environments are constantly evolving, and current model evaluations are often limited to traffic scenarios and use data mainly collected only a few weeks after training period to evaluate model performance. The generalization ability of these models remains largely unexplored. To address this, we propose a Spatiotemporal Out-of-Distribution (ST-OOD) benchmark, which comprises six urban scenario: bike-sharing, 311 services, pedestrian counts, traffic speed, traffic flow, ride-hailing demand, and bike-sharing, each with in-distribution (same year) and out-of-distribution (next years) settings. We extensively evaluate state-of-the-art spatiotemporal models and find that their performance degrades significantly in out-of-distribution settings, with most models performing even worse than a simple Multi-Layer Perceptron (MLP). Our findings suggest that current leading methods tend to over-rely on parameters to overfit training data, which may lead to good performance on in-distribution data but often results in poor generalization. We also investigated whether dropout could mitigate the negative effects of overfitting. Our results showed that a slight dropout rate could significantly improve generalization performance on most datasets, with minimal impact on in-distribution performance. However, balancing in-distribution and out-of-distribution performance remains a challenging problem. We hope that the proposed benchmark will encourage further research on this critical issue.
翻訳日:2024-11-02 02:17:53 公開日:2024-10-09
# システム・オン・チップのためのセキュアなソフトウェア/ハードウェアハイブリッド・イン・フィールド・テスト

Secure Software/Hardware Hybrid In-Field Testing for System-on-Chip ( http://arxiv.org/abs/2410.05109v1 )

ライセンス: Link先を確認
Saleh Mulhem, Christian Ewert, Andrija Neskovic, Amrit Sharma Poudel, Christoph Hübner, Mladen Berekovic, Rainer Buchty, (参考訳) Modern Systems-on-Chip (SoCs) は組み込みセルフテスト (BIST) モジュールをデバイスの知的財産権 (IP) ブロックに深く組み込んでいる。 このようなモジュールは、デバイス操作中にハードウェアの欠陥や欠陥を処理します。 したがって、BISTの結果はテスト中のデバイスの内部構造と状態を明らかにし、そのため攻撃ベクトルを開放する可能性がある。 いわゆる結果のコンパクト化は、BISTチェーン構造を隠すことでこの脆弱性を克服できるが、エイリアス化や無効なシグネチャの問題を提起する。 Software-BISTは、これらの問題に対処できるフレキシブルなソリューションを提供するが、可観測性とフォールトカバレッジの制限に悩まされている。 そこで本稿では,上記の制約を克服する,低オーバーヘッドなソフトウェア/ハードウェアハイブリッドアプローチを提案する。 それは頼りです (a)キー付きハッシュメッセージ認証コード(KMAC)は、デバイス固有のセキュアで有効なシグネチャを提供し、エイリアスをゼロにする。 (b)テストスケジューリング用のSoCプロセッサにより、DUTの可用性が向上する。 提案するアプローチは、オンチップとリモートテストの両方機能を提供する。 RISC-VをベースとしたSoCを実演し,システムのオーバヘッドを議論し,その結果の圧縮率について論じる。

Modern Systems-on-Chip (SoCs) incorporate built-in self-test (BIST) modules deeply integrated into the device's intellectual property (IP) blocks. Such modules handle hardware faults and defects during device operation. As such, BIST results potentially reveal the internal structure and state of the device under test (DUT) and hence open attack vectors. So-called result compaction can overcome this vulnerability by hiding the BIST chain structure but introduces the issues of aliasing and invalid signatures. Software-BIST provides a flexible solution, that can tackle these issues, but suffers from limited observability and fault coverage. In this paper, we hence introduce a low-overhead software/hardware hybrid approach that overcomes the mentioned limitations. It relies on (a) keyed-hash message authentication code (KMAC) available on the SoC providing device-specific secure and valid signatures with zero aliasing and (b) the SoC processor for test scheduling hence increasing DUT availability. The proposed approach offers both on-chip- and remote-testing capabilities. We showcase a RISC-V-based SoC to demonstrate our approach, discussing system overhead and resulting compaction rates.
翻訳日:2024-11-02 00:18:32 公開日:2024-10-09
# システム・オン・チップのためのセキュアなソフトウェア/ハードウェアハイブリッド・イン・フィールド・テスト

Secure Software/Hardware Hybrid In-Field Testing for System-on-Chip ( http://arxiv.org/abs/2410.05109v2 )

ライセンス: Link先を確認
Saleh Mulhem, Christian Ewert, Andrija Neskovic, Amrit Sharma Poudel, Christoph Hübner, Mladen Berekovic, Rainer Buchty, (参考訳) Modern Systems-on-Chip (SoCs) は組み込みセルフテスト (BIST) モジュールをデバイスの知的財産権 (IP) ブロックに深く組み込んでいる。 このようなモジュールは、デバイス操作中にハードウェアの欠陥や欠陥を処理します。 したがって、BISTの結果はテスト中のデバイスの内部構造と状態を明らかにし、そのため攻撃ベクトルを開放する可能性がある。 いわゆる結果のコンパクト化は、BISTチェーン構造を隠すことでこの脆弱性を克服できるが、エイリアス化や無効なシグネチャの問題を提起する。 Software-BISTは、これらの問題に対処できるフレキシブルなソリューションを提供するが、可観測性とフォールトカバレッジの制限に悩まされている。 そこで本稿では,上記の制約を克服する,低オーバーヘッドなソフトウェア/ハードウェアハイブリッドアプローチを提案する。 それは頼りです (a)キー付きハッシュメッセージ認証コード(KMAC)は、デバイス固有のセキュアで有効なシグネチャを提供し、エイリアスをゼロにする。 (b)テストスケジューリング用のSoCプロセッサにより、DUTの可用性が向上する。 提案するアプローチは、オンチップとリモートテストの両方機能を提供する。 RISC-VをベースとしたSoCを実演し,システムのオーバヘッドを議論し,その結果の圧縮率について論じる。

Modern Systems-on-Chip (SoCs) incorporate built-in self-test (BIST) modules deeply integrated into the device's intellectual property (IP) blocks. Such modules handle hardware faults and defects during device operation. As such, BIST results potentially reveal the internal structure and state of the device under test (DUT) and hence open attack vectors. So-called result compaction can overcome this vulnerability by hiding the BIST chain structure but introduces the issues of aliasing and invalid signatures. Software-BIST provides a flexible solution, that can tackle these issues, but suffers from limited observability and fault coverage. In this paper, we hence introduce a low-overhead software/hardware hybrid approach that overcomes the mentioned limitations. It relies on (a) keyed-hash message authentication code (KMAC) available on the SoC providing device-specific secure and valid signatures with zero aliasing and (b) the SoC processor for test scheduling hence increasing DUT availability. The proposed approach offers both on-chip- and remote-testing capabilities. We showcase a RISC-V-based SoC to demonstrate our approach, discussing system overhead and resulting compaction rates.
翻訳日:2024-11-02 00:18:32 公開日:2024-10-09
# LLMを用いた密度推定 : 文脈内学習軌跡の幾何学的研究

Density estimation with LLMs: a geometric investigation of in-context learning trajectories ( http://arxiv.org/abs/2410.05218v1 )

ライセンス: Link先を確認
Toni J. B. Liu, Nicolas Boullé, Raphaël Sarfati, Christopher J. Earls, (参考訳) 大規模言語モデル(LLM)は、時系列予測など、様々なタスクでコンテキスト内学習を行う際、顕著な創発的能力を示す。 本研究は,確率密度関数(PDF)を文脈内で観測されたデータから推定するLLMの能力について検討する。 我々は、集中主成分分析(Intensive principal Component Analysis, InPCA)を活用し、LLaMA-2モデルのコンテキスト内学習ダイナミクスを可視化および解析する。 我々の主な発見は、これらのLLMはいずれも、ヒストグラムやガウス核密度推定(KDE)のような従来の密度推定法とは異なる、低次元のInPCA空間における同様の学習軌跡に従うことである。 我々はLLaMA in-context DEプロセスを適応的なカーネル幅と形状を持つKDEとして解釈する。 このカスタムカーネルモデルは、2つのパラメータしか持たないにもかかわらず、LLaMAの振る舞いの大部分をキャプチャする。 さらに、LLaMAのカーネル幅と形状が古典的アルゴリズムと異なる理由を推測し、LLMにおける文脈内確率的推論のメカニズムについて考察する。

Large language models (LLMs) demonstrate remarkable emergent abilities to perform in-context learning across various tasks, including time series forecasting. This work investigates LLMs' ability to estimate probability density functions (PDFs) from data observed in-context; such density estimation (DE) is a fundamental task underlying many probabilistic modeling problems. We leverage the Intensive Principal Component Analysis (InPCA) to visualize and analyze the in-context learning dynamics of LLaMA-2 models. Our main finding is that these LLMs all follow similar learning trajectories in a low-dimensional InPCA space, which are distinct from those of traditional density estimation methods like histograms and Gaussian kernel density estimation (KDE). We interpret the LLaMA in-context DE process as a KDE with an adaptive kernel width and shape. This custom kernel model captures a significant portion of LLaMA's behavior despite having only two parameters. We further speculate on why LLaMA's kernel width and shape differs from classical algorithms, providing insights into the mechanism of in-context probabilistic reasoning in LLMs.
翻訳日:2024-11-01 23:39:03 公開日:2024-10-09
# LLMを用いた密度推定 : 文脈内学習軌跡の幾何学的研究

Density estimation with LLMs: a geometric investigation of in-context learning trajectories ( http://arxiv.org/abs/2410.05218v2 )

ライセンス: Link先を確認
Toni J. B. Liu, Nicolas Boullé, Raphaël Sarfati, Christopher J. Earls, (参考訳) 大規模言語モデル(LLM)は、時系列予測など、様々なタスクでコンテキスト内学習を行う際、顕著な創発的能力を示す。 本研究は,確率密度関数(PDF)を文脈内で観測されたデータから推定するLLMの能力について検討する。 我々は、集中主成分分析(Intensive principal Component Analysis, InPCA)を活用し、LLaMA-2モデルのコンテキスト内学習ダイナミクスを可視化および解析する。 我々の主な発見は、これらのLLMはいずれも、ヒストグラムやガウス核密度推定(KDE)のような従来の密度推定法とは異なる、低次元のInPCA空間における同様の学習軌跡に従うことである。 我々はLLaMA in-context DEプロセスを適応的なカーネル幅と形状を持つKDEとして解釈する。 このカスタムカーネルモデルは、2つのパラメータしか持たないにもかかわらず、LLaMAの振る舞いの大部分をキャプチャする。 さらに、LLaMAのカーネル幅と形状が古典的アルゴリズムと異なる理由を推測し、LLMにおける文脈内確率的推論のメカニズムについて考察する。

Large language models (LLMs) demonstrate remarkable emergent abilities to perform in-context learning across various tasks, including time series forecasting. This work investigates LLMs' ability to estimate probability density functions (PDFs) from data observed in-context; such density estimation (DE) is a fundamental task underlying many probabilistic modeling problems. We leverage the Intensive Principal Component Analysis (InPCA) to visualize and analyze the in-context learning dynamics of LLaMA-2 models. Our main finding is that these LLMs all follow similar learning trajectories in a low-dimensional InPCA space, which are distinct from those of traditional density estimation methods like histograms and Gaussian kernel density estimation (KDE). We interpret the LLaMA in-context DE process as a KDE with an adaptive kernel width and shape. This custom kernel model captures a significant portion of LLaMA's behavior despite having only two parameters. We further speculate on why LLaMA's kernel width and shape differs from classical algorithms, providing insights into the mechanism of in-context probabilistic reasoning in LLMs.
翻訳日:2024-11-01 23:39:03 公開日:2024-10-09
# LLMの校正微調整のための機能レベルの不確かさ定量化

Functional-level Uncertainty Quantification for Calibrated Fine-tuning on LLMs ( http://arxiv.org/abs/2410.06431v1 )

ライセンス: Link先を確認
Ruijia Niu, Dongxia Wu, Rose Yu, Yi-An Ma, (参考訳) 共通センス推論からドメイン固有タスクに至るまで、大規模言語モデル(LLM)のためのパラメータ効率のよい微調整(PEFT)手法は下流タスクにおいて顕著な性能向上を示した。 しかし、微調整のLLMは、不確実な予測において、特に訓練データが少ないため、過信に悩まされることが多い。 この過信は、限られたデータで一般化するモデルの能力の限界から生じる、疫学的な不確実性の校正の欠如を反映している。 LLMの既存のPEFT不確実性定量法は, 術後の微調整段階に焦点をあてており, 疫学不確実性の校正に限界がある。 これらの制約に対処するため,我々は,機能レベル不確実性定量化手法 (UQ4CT) を提案する。 UQ4CTは,5ドルのベンチマークで高い精度を維持しつつ,予測校正誤差(ECE)を25\%以上削減することを示した。 さらに、UQ4CTは、分布シフト時に高い精度で優れたECE性能を維持し、一般化性の向上を示す。

From common-sense reasoning to domain-specific tasks, parameter-efficient fine tuning (PEFT) methods for large language models (LLMs) have showcased significant performance improvements on downstream tasks. However, fine-tuned LLMs often struggle with overconfidence in uncertain predictions, particularly due to sparse training data. This overconfidence reflects poor epistemic uncertainty calibration, which arises from limitations in the model's ability to generalize with limited data. Existing PEFT uncertainty quantification methods for LLMs focus on the post fine-tuning stage and thus have limited capability in calibrating epistemic uncertainty. To address these limitations, we propose Functional-Level Uncertainty Quantification for Calibrated Fine-Tuning (UQ4CT), which captures and calibrates functional-level epistemic uncertainty during the fine-tuning stage via a mixture-of-expert framework. We show that UQ4CT reduces Expected Calibration Error (ECE) by more than $25\%$ while maintaining high accuracy across $5$ benchmarks. Furthermore, UQ4CT maintains superior ECE performance with high accuracy under distribution shift, showcasing improved generalizability.
翻訳日:2024-11-01 05:49:25 公開日:2024-10-09
# LocoVR: バーチャルリアリティにおけるマルチユーザ屋内ロコモーションデータセット

LocoVR: Multiuser Indoor Locomotion Dataset in Virtual Reality ( http://arxiv.org/abs/2410.06437v1 )

ライセンス: Link先を確認
Kojiro Takeyama, Yimeng Liu, Misha Sra, (参考訳) ロボットのようなAIエージェント、特に複雑な屋内環境において、人間の移動を理解することが不可欠である。 これらの空間における人間の軌道のモデル化には、個人が物理的な障害物をどう操作し、社会的ナビゲーションのダイナミクスを管理するかについての洞察が必要である。 これらのダイナミクスには、プロキシに影響された微妙な振る舞いが含まれます。例えば、他人が衝突を避けるために長いルートを通過したり、選択したりするために、脇に足を踏み入れたりといった空間の社会的利用です。 これまでの研究では、屋内のシーンで人間の動きのデータセットが開発されてきたが、規模は限られており、家庭環境に共通する微妙な社会的ナビゲーションのダイナミクスが欠如していることが多い。 この問題を解決するために、130以上の屋内環境から収集された7000人以上の2人以上の軌跡のデータセットであるLocoVRを紹介します。 LocoVRは、社会に動機づけられた運動行動の豊富な例とともに、全身のポーズデータと正確な空間情報を提供する。 例えば、データセットは狭い空間でお互いの周りを移動している個人のインスタンスをキャプチャし、生活領域の個人的境界を尊重する経路を調整し、入り口やキッチンのような交通量の多いゾーンでの動きを調整する。 評価の結果,ロコVRは人体軌道を利用した3つの室内作業におけるモデル性能を著しく向上させ,家庭環境における社会的に認識されたナビゲーションパターンの予測を実証した。

Understanding human locomotion is crucial for AI agents such as robots, particularly in complex indoor home environments. Modeling human trajectories in these spaces requires insight into how individuals maneuver around physical obstacles and manage social navigation dynamics. These dynamics include subtle behaviors influenced by proxemics - the social use of space, such as stepping aside to allow others to pass or choosing longer routes to avoid collisions. Previous research has developed datasets of human motion in indoor scenes, but these are often limited in scale and lack the nuanced social navigation dynamics common in home environments. To address this, we present LocoVR, a dataset of 7000+ two-person trajectories captured in virtual reality from over 130 different indoor home environments. LocoVR provides full body pose data and precise spatial information, along with rich examples of socially-motivated movement behaviors. For example, the dataset captures instances of individuals navigating around each other in narrow spaces, adjusting paths to respect personal boundaries in living areas, and coordinating movements in high-traffic zones like entryways and kitchens. Our evaluation shows that LocoVR significantly enhances model performance in three practical indoor tasks utilizing human trajectories, and demonstrates predicting socially-aware navigation patterns in home environments.
翻訳日:2024-11-01 05:49:25 公開日:2024-10-09
# 深層学習ライブラリにおけるチェッカーバグ検出と修復

Checker Bug Detection and Repair in Deep Learning Libraries ( http://arxiv.org/abs/2410.06440v1 )

ライセンス: Link先を確認
Nima Shiri Harzevili, Mohammad Mahdi Mohajer, Jiho Shin, Moshi Wei, Gias Uddin, Jinqiu Yang, Junjie Wang, Song Wang, Zhen Ming, Jiang, Nachiappan Nagappan, (参考訳) Deep Learning (DL)ライブラリのチェッカーバグは批判的だが、十分に調査されていない。 これらのバグは、しばしばDLライブラリの入力検証とエラーチェックコードに隠蔽され、DLアプリケーションでサイレント障害、不正な結果、予期せぬプログラム動作につながる可能性がある。 これらのライブラリで構築されたDL対応システムの信頼性と性能に大きな影響を与える可能性があるが、チェッカーバグは注目されている。 本稿では、広く使われている2つのDLライブラリ、TensorFlowとPyTorchにおけるDLチェッカーバグの総合的研究について紹介する。 当初、チェッカーバグに関連する特定のキーワードを使用して、2016年9月から2023年12月まで、GitHubのTensorFlowとPyTorchリポジトリから2,418のコミットのデータセットを自動的に収集しました。 手動検査により527個のDLチェッカーバグが確認された。 その後,これらのバグを根本原因,症状,定着パターンという3つの観点から分析した。 さらに,チェッカーバグの根本原因分析を通じて得られた知識を用いて,一連のChatGPTプロンプトをプロンプトエンジニアリングすることで,DLライブラリのチェッカーバグを検出し,修正するための概念実証のためのLLMベースのツールであるTensorGuardを提案する。 我々は、2024年1月から2024年7月までに、TensorFlowとPyTorchの92のバグギーと135のクリーンチェッカー関連変更を含むテストデータセット上で、TensorGuardのパフォーマンスを評価した。 この結果から,Zero-ShotプロンプトとFew-Shotプロンプトを用いた精度とリコールのバランスの取れた性能であるChain of Thoughtプロンプトを用いた平均リコール(94.51\%)が得られた。 パッチ生成に関して、TensorGuardは11.1\%の精度を達成し、最先端のバグ修正ベースラインを2\%上回る。 また、GoogleのJAXライブラリの最新6ヶ月のチェッカー関連変更(493の変更)にもTensorGuardを適用しました。

Checker bugs in Deep Learning (DL) libraries are critical yet not well-explored. These bugs are often concealed in the input validation and error-checking code of DL libraries and can lead to silent failures, incorrect results, or unexpected program behavior in DL applications. Despite their potential to significantly impact the reliability and performance of DL-enabled systems built with these libraries, checker bugs have received limited attention. We present the first comprehensive study of DL checker bugs in two widely-used DL libraries, i.e., TensorFlow and PyTorch. Initially, we automatically collected a dataset of 2,418 commits from TensorFlow and PyTorch repositories on GitHub from Sept. 2016 to Dec. 2023 using specific keywords related to checker bugs. Through manual inspection, we identified 527 DL checker bugs. Subsequently, we analyzed these bugs from three perspectives, i.e., root causes, symptoms, and fixing patterns. Using the knowledge gained via root cause analysis of checker bugs, we further propose TensorGuard, a proof-of-concept RAG-based LLM-based tool to detect and fix checker bugs in DL libraries via prompt engineering a series of ChatGPT prompts. We evaluated TensorGuard's performance on a test dataset that includes 92 buggy and 135 clean checker-related changes in TensorFlow and PyTorch from January 2024 to July 2024. Our results demonstrate that TensorGuard has high average recall (94.51\%) using Chain of Thought prompting, a balanced performance between precision and recall using Zero-Shot prompting and Few-Shot prompting strategies. In terms of patch generation, TensorGuard achieves an accuracy of 11.1\%, which outperforms the state-of-the-art bug repair baseline by 2\%. We have also applied TensorGuard on the latest six months' checker-related changes (493 changes) of the JAX library from Google, which resulted in the detection of 64 new checker bugs.
翻訳日:2024-11-01 05:38:53 公開日:2024-10-09
# Addax: ゼロ階勾配を利用して、微調整言語モデルのためのSGDのメモリ効率と性能を改善する

Addax: Utilizing Zeroth-Order Gradients to Improve Memory Efficiency and Performance of SGD for Fine-Tuning Language Models ( http://arxiv.org/abs/2410.06441v1 )

ライセンス: Link先を確認
Zeman Li, Xinwei Zhang, Peilin Zhong, Yuan Deng, Meisam Razaviyayn, Vahab Mirrokni, (参考訳) Adamオプティマイザを備えた微調整言語モデル(LM)は、しばしば過剰なメモリを必要とするため、アクセシビリティが制限される。 Stochastic Gradient Descent (IP-SGD) と Memory-Efficient Zeroth-order Optimizer (MeZO) の "in-place" バージョンが提案されている。 しかし、IP-SGDは依然としてかなりのメモリを必要とするため、MeZOは収束が遅く、最終性能が劣化する。 本稿では,MeZOと統合することでIP-SGDのメモリ効率と性能を両立させる新しい手法であるAddaxを紹介する。 具体的には、Addaxはメモリ消費に基づいてミニバッチ内のデータポイントの0階または1階の勾配を計算し、これらの勾配推定値を組み合わせて方向を更新する。 メモリの増大と他のメモリの1次勾配を必要とするデータポイントのゼロ階勾配を計算することで、AddaxはMeZOの緩やかな収束とIP-SGDの過剰なメモリ要求を克服する。 さらに、ゼロ階勾配は1階勾配の正則化器として機能し、モデルの最終性能をさらに向上させる。 理論的には、軽度の仮定の下でAddaxの収束を確立し、MeZOよりも高速な収束と制約の少ないハイパーパラメータ選択を示す。 多様なLMとタスクを用いた実験により,メモリフットプリントに匹敵する精度と収束速度において,AddaxはMeZOを一貫して上回っていることがわかった。 1つのA100 GPUでOPT-13Bを微調整すると、AddaxはMeZOの精度/F1スコアを14%上回り、MeZOと同様のメモリを使用しながら15倍速く動作する。 OPT-30Bモデルに対する我々の実験では、平均してAddaxはMeZOよりも精度/F1のスコアが16で、単一のH100 GPU上では30倍高速である。 さらに、AddaxはIP-SGDやAdamといった標準的な微調整アプローチよりも、メモリ要件が大幅に少ないほとんどのタスクでパフォーマンスを上回ります。

Fine-tuning language models (LMs) with the Adam optimizer often demands excessive memory, limiting accessibility. The "in-place" version of Stochastic Gradient Descent (IP-SGD) and Memory-Efficient Zeroth-order Optimizer (MeZO) have been proposed to address this. However, IP-SGD still requires substantial memory, and MeZO suffers from slow convergence and degraded final performance due to its zeroth-order nature. This paper introduces Addax, a novel method that improves both memory efficiency and performance of IP-SGD by integrating it with MeZO. Specifically, Addax computes zeroth- or first-order gradients of data points in the minibatch based on their memory consumption, combining these gradient estimates to update directions. By computing zeroth-order gradients for data points that require more memory and first-order gradients for others, Addax overcomes the slow convergence of MeZO and the excessive memory requirement of IP-SGD. Additionally, the zeroth-order gradient acts as a regularizer for the first-order gradient, further enhancing the model's final performance. Theoretically, we establish the convergence of Addax under mild assumptions, demonstrating faster convergence and less restrictive hyper-parameter choices than MeZO. Our experiments with diverse LMs and tasks show that Addax consistently outperforms MeZO regarding accuracy and convergence speed while having a comparable memory footprint. When fine-tuning OPT-13B with one A100 GPU, on average, Addax outperforms MeZO in accuracy/F1 score by 14% and runs 15x faster while using memory similar to MeZO. In our experiments on the larger OPT-30B model, on average, Addax outperforms MeZO in terms of accuracy/F1 score by >16 and runs 30x faster on a single H100 GPU. Moreover, Addax surpasses the performance of standard fine-tuning approaches, such as IP-SGD and Adam, in most tasks with significantly less memory requirement.
翻訳日:2024-11-01 05:38:53 公開日:2024-10-09
# MaD-Scientist:大規模PINNに基づく先行データを用いた対流拡散反応方程式の解法

MaD-Scientist: AI-based Scientist solving Convection-Diffusion-Reaction Equations Using Massive PINN-Based Prior Data ( http://arxiv.org/abs/2410.06442v1 )

ライセンス: Link先を確認
Mingu Kang, Dongseok Lee, Woojin Cho, Jaehyeon Park, Kookjin Lee, Anthony Gruber, Youngjoon Hong, Noseong Park, (参考訳) ChatGPTのような大規模言語モデル(LLM)は、ノイズの多い事前データをトレーニングしても、コンテキスト内学習(ICL)と事前学習技術によって、新しいタスクに効果的に一般化できることを示した。 そこで我々は,科学的基礎モデル (SFM) に同様のアプローチを適用することができるか検討した。 我々の方法論は次のように構成されている。 i) 数学辞書の任意の線形結合によって構築された偏微分方程式(PDE)に対する解の形で、低コストな物理情報ニューラルネットワーク(PINN)に基づく近似された事前データを収集する。 (II) ゼロショット環境での制御方程式を知らずにPDE解を予測するために, 自己および相互注意機構を備えたトランスフォーマーアーキテクチャを利用する。 3) 1次元対流拡散反応方程式の実験的証拠は, 事前学習が実験精度に限らず, 近似した事前データでも頑健なままであることを示すものである。 この発見は、数値的な高コストデータではなく、現実的で低コストなデータで事前学習するSFMへの道を開く。 これらの結果は,インターネットからクロールされた大量の文の完全クリーニングがほぼ不可能なLSMと同じような方法で,SFMが改善できるという予想を支持する。

Large language models (LLMs), like ChatGPT, have shown that even trained with noisy prior data, they can generalize effectively to new tasks through in-context learning (ICL) and pre-training techniques. Motivated by this, we explore whether a similar approach can be applied to scientific foundation models (SFMs). Our methodology is structured as follows: (i) we collect low-cost physics-informed neural network (PINN)-based approximated prior data in the form of solutions to partial differential equations (PDEs) constructed through an arbitrary linear combination of mathematical dictionaries; (ii) we utilize Transformer architectures with self and cross-attention mechanisms to predict PDE solutions without knowledge of the governing equations in a zero-shot setting; (iii) we provide experimental evidence on the one-dimensional convection-diffusion-reaction equation, which demonstrate that pre-training remains robust even with approximated prior data, with only marginal impacts on test accuracy. Notably, this finding opens the path to pre-training SFMs with realistic, low-cost data instead of (or in conjunction with) numerical high-cost data. These results support the conjecture that SFMs can improve in a manner similar to LLMs, where fully cleaning the vast set of sentences crawled from the Internet is nearly impossible.
翻訳日:2024-11-01 05:38:53 公開日:2024-10-09
# アクティブラーニングに基づくAndroidマルウェアのマルチラベル分類

Multi-label Classification for Android Malware Based on Active Learning ( http://arxiv.org/abs/2410.06444v1 )

ライセンス: Link先を確認
Qijing Qiao, Ruitao Feng, Sen Chen, Fei Zhang, Xiaohong Li, (参考訳) 既存のマルウェア分類手法(バイナリ分類とファミリー分類)は、出力の後の分析にはほとんど役に立たない。 家族分類のアプローチでさえ、正式な命名基準と悪意ある行動の不完全な定義が欠如している。 さらに重要なのは、既存のアプローチは複数の悪意のある振る舞いを持つ1つのマルウェアには無力であり、Androidのマルウェアにとって非常に一般的な現象であることだ。 したがって、どちらも直接的で包括的なマルウェアの理解を研究者に提供することはできない。 本稿では,MLCDroidを提案する。ML-based multi-label classification approachでは,事前に定義された悪意のある動作の存在を直接示すことができる。 詳細な分析により、実世界のマルウェアから、セキュリティレポートとラベル付きデータセットを構築する6つの基本的な悪意のある振る舞いを要約する。 我々は,70のアルゴリズム組み合わせの結果を比較し,有効性(73.3%)を評価する。 データアノテーションの高価なコストの課題に直面して、さらにデータ拡張に基づくアクティブな学習アプローチを提案し、ラベルなしのマルウェアデータセットから5,000以上の高品質なサンプルをデータ拡張することで、全体的な精度を86.7%に向上させる。 これは、きめ細かい悪意のある振る舞いについて、より詳細な情報を提供することを目的とした、最初のマルチラベルAndroidマルウェア分類アプローチである。

The existing malware classification approaches (i.e., binary and family classification) can barely benefit subsequent analysis with their outputs. Even the family classification approaches suffer from lacking a formal naming standard and an incomplete definition of malicious behaviors. More importantly, the existing approaches are powerless for one malware with multiple malicious behaviors, while this is a very common phenomenon for Android malware in the wild. So, neither of them can provide researchers with a direct and comprehensive enough understanding of malware. In this paper, we propose MLCDroid, an ML-based multi-label classification approach that can directly indicate the existence of pre-defined malicious behaviors. With an in-depth analysis, we summarize six basic malicious behaviors from real-world malware with security reports and construct a labeled dataset. We compare the results of 70 algorithm combinations to evaluate the effectiveness (best at 73.3%). Faced with the challenge of the expensive cost of data annotation, we further propose an active learning approach based on data augmentation, which can improve the overall accuracy to 86.7% with a data augmentation of 5,000+ high-quality samples from an unlabeled malware dataset. This is the first multi-label Android malware classification approach intending to provide more information on fine-grained malicious behaviors.
翻訳日:2024-11-01 05:38:53 公開日:2024-10-09
# 科学機械学習を用いたカオスロレンツODEシステムのモデル化

Modeling chaotic Lorenz ODE System using Scientific Machine Learning ( http://arxiv.org/abs/2410.06452v1 )

ライセンス: Link先を確認
Sameera S Kashyap, Raj Abhijit Dandekar, Rajat Dandekar, Sreedath Panat, (参考訳) 気候科学において、地球温暖化と天気予報のモデルは、高品質なデータの入手が限られており、取得が困難であるため、重要な課題に直面している。 過去数年間、SciML(Scientific Machine Learning)モデルは、データ効率のよい方法でトレーニングできるので、現実の気候に非常に適している。 それにもかかわらず、SciML法を利用したカオス的な気候システムモデリングにはほとんど注意が払われていない。 本稿では,SciML法を基礎気象モデルに統合し,物理インフォームド手法を用いて大規模気候予測を改良し,データ削減による高精度化を実現した。 我々は、物理気候モデルの解釈可能性とニューラルネットワークの計算能力を組み合わせることで、SciMLモデルは、気候をモデル化するための信頼できるツールであることが証明された。 これは、従来のブラックボックスベースの機械学習による気候システムのモデリングから物理情報による意思決定へと変化し、効果的な気候政策の実装につながったことを示している。

In climate science, models for global warming and weather prediction face significant challenges due to the limited availability of high-quality data and the difficulty in obtaining it, making data efficiency crucial. In the past few years, Scientific Machine Learning (SciML) models have gained tremendous traction as they can be trained in a data-efficient manner, making them highly suitable for real-world climate applications. Despite this, very little attention has been paid to chaotic climate system modeling utilizing SciML methods. In this paper, we have integrated SciML methods into foundational weather models, where we have enhanced large-scale climate predictions with a physics-informed approach that achieves high accuracy with reduced data. We successfully demonstrate that by combining the interpretability of physical climate models with the computational power of neural networks, SciML models can prove to be a reliable tool for modeling climate. This indicates a shift from the traditional black box-based machine learning modeling of climate systems to physics-informed decision-making, leading to effective climate policy implementation.
翻訳日:2024-11-01 05:38:53 公開日:2024-10-09
# ジェネラリストからスペシャリストへ:タスク特異的ビジュアルインストラクションチューニングによる視覚言語モデルへの適応

From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning ( http://arxiv.org/abs/2410.06456v1 )

ライセンス: Link先を確認
Yang Bai, Yang Zhou, Jun Zhou, Rick Siow Mong Goh, Daniel Shu Wei Ting, Yong Liu, (参考訳) 大きな視覚言語モデル(VLM)は、大きな言語モデルと視覚エンコーダを組み合わせて、様々なタスクにおける約束を示す。 しかし、プレトレーニングと微調整のドメインギャップのため、タスク固有のアプリケーションではパフォーマンスが劣ることが多い。 本稿では,タスク特化モデル(TSM)を統合することで,VLMのタスク特化性を高める新しいフレームワークであるVITaskを紹介する。 VITaskは、EP(Exemplar prompting)、RDA(Response Distribution alignment)、CRT(Contentive Response tuning)の3つの主要な戦略を用いて、VLMのタスク固有の性能を改善する。 EP は TSM 機能を VLM のガイドに、RDA は VLM を TSM の推論なしで適用可能にする。 CRTはさらに、正しい画像応答ペアのランク付けを最適化し、望ましくない応答を発生させるリスクを低減する。 9つの画像モダリティにまたがる12の診断データセットの実験では、VITaskはVLMとTSMの両方に優れており、両モデルの補完機能を効果的に統合する能力を示している。 さらに、VITaskは柔軟なTSM統合や不完全な命令に対する堅牢性といった実用的な利点を提供しており、タスク固有のVLMチューニングのための汎用的で効率的なソリューションとなっている。 私たちのコードはhttps://github.com/baiyang4/VITask.comから入手可能です。

Large vision language models (VLMs) combine large language models with vision encoders, demonstrating promise across various tasks. However, they often underperform in task-specific applications due to domain gaps between pre-training and fine-tuning. We introduce VITask, a novel framework that enhances task-specific adaptability of VLMs by integrating task-specific models (TSMs). VITask employs three key strategies: exemplar prompting (EP), response distribution alignment (RDA), and contrastive response tuning (CRT) to improve the task-specific performance of VLMs by adjusting their response distributions. EP allows TSM features to guide VLMs, while RDA enables VLMs to adapt without TSMs during inference by learning from exemplar-prompted models. CRT further optimizes the ranking of correct image-response pairs, thereby reducing the risk of generating undesired responses. Experiments on 12 medical diagnosis datasets across 9 imaging modalities show that VITask outperforms both vanilla instruction-tuned VLMs and TSMs, showcasing its ability to integrate complementary features from both models effectively. Additionally, VITask offers practical advantages such as flexible TSM integration and robustness to incomplete instructions, making it a versatile and efficient solution for task-specific VLM tuning. Our code are available at https://github.com/baiyang4/VITask.
翻訳日:2024-11-01 05:38:53 公開日:2024-10-09
# 博士課程の学生やポストドックは不平等に対処するために何ができるのか?

What can PhD students and postdocs do to counter inequalities? ( http://arxiv.org/abs/2410.06457v1 )

ライセンス: Link先を確認
Lorena Ballesteros Ferraz, Carolina Charalambous, Sébastien Mouchet, Riccardo Muolo, (参考訳) 本稿では,早期研究者が学業不平等に対して何をするかについて,いくつかの考察と実践的ヒントをまとめた。 これは、最近国際光学・フォトニクス協会 (International Society for Optics and Photonics, SPie.org) のウェブサイトで発表された意見論文のより長いバージョンであり、詳細と提案を含んでいる。

In this opinion article, we gathered some reflections and practical tips on what Early Stage Researchers do against inequalities in academia. This is the longer version of an opinion paper that was recently published on the website of the International Society for Optics and Photonics (spie.org), containing more details and suggestions.
翻訳日:2024-11-01 05:38:53 公開日:2024-10-09
# DeCRIMによるLCM自己補正:複数制約による指示の強化のための分解, 批判, 再定義

LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints ( http://arxiv.org/abs/2410.06458v1 )

ライセンス: Link先を確認
Thomas Palmeira Ferraz, Kartik Mehta, Yu-Hsiang Lin, Haw-Shiuan Chang, Shereen Oraby, Sijia Liu, Vivek Subramanian, Tagyoung Chung, Mohit Bansal, Nanyun Peng, (参考訳) 以下は LLM の重要な機能である。 しかし、最近の研究では、LSMは複数の制約を含む指示(例えば、"面白いトーンの中で"ハッシュタグなしで"ソーシャルメディアポストを作成するよう要求するなど)に苦しむことが示されている。 それにもかかわらず、ほとんどの評価は合成データにのみ焦点をあてている。 そこで本研究では,AIアシスタントに質問されたクエリを活用することで,LLMが実世界のマルチ制約命令に従う能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。 また,本課題に対する人的アノテーションの代案として,モデルに基づく評価について検討する。 その結果,プロプライエタリなGPT-4モデルでさえ21%以上の命令に対して少なくとも1つの制約を満たすことができず,最先端モデルの限界が浮き彫りになることがわかった。 オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するために,LLMの制約に従う能力を高めるDecompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。 DeCRIMはオリジナルの命令を制約のリストに分解し、Cryticモデルを使用してLLMの応答がいつ、どこで改善が必要なのかを決定する。 この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。 さらに,強いフィードバックを得て,DeCRIMを用いたオープンソースLLMは,両方のベンチマークでGPT-4より優れていることを示す。

Instruction following is a key capability for LLMs. However, recent studies have shown that LLMs often struggle with instructions containing multiple constraints (e.g. a request to create a social media post "in a funny tone" with "no hashtag"). Despite this, most evaluations focus solely on synthetic data. To address this, we introduce RealInstruct, the first benchmark designed to evaluate LLMs' ability to follow real-world multi-constrained instructions by leveraging queries real users asked AI assistants. We also investigate model-based evaluation as a cost-effective alternative to human annotation for this task. Our findings reveal that even the proprietary GPT-4 model fails to meet at least one constraint on over 21% of instructions, highlighting the limitations of state-of-the-art models. To address the performance gap between open-source and proprietary models, we propose the Decompose, Critique and Refine (DeCRIM) self-correction pipeline, which enhances LLMs' ability to follow constraints. DeCRIM works by decomposing the original instruction into a list of constraints and using a Critic model to decide when and where the LLM's response needs refinement. Our results show that DeCRIM improves Mistral's performance by 7.3% on RealInstruct and 8.0% on IFEval even with weak feedback. Moreover, we demonstrate that with strong feedback, open-source LLMs with DeCRIM can outperform GPT-4 on both benchmarks.
翻訳日:2024-11-01 05:38:53 公開日:2024-10-09
# ハードウェア設計における直接グラフ表現学習のベンチマーク

A Benchmark on Directed Graph Representation Learning in Hardware Designs ( http://arxiv.org/abs/2410.06460v1 )

ライセンス: Link先を確認
Haoyu Wang, Yinan Huang, Nan Wu, Pan Li, (参考訳) 現代のコンピューティングシステムにおける設計複雑性の急速な進歩に追従するため、特に回路網リストの符号化や計算グラフ、ハードウェア性能予測のための代理モデルの開発において、有向グラフ表現学習(DGRL)が重要になっている。 しかし、DGRLは、特にハードウェア領域では、包括的でユーザフレンドリーなベンチマークが欠如していることから、比較的探索されていないままである。 本研究では,5つのハードウェア設計データセットと,回路抽象化のレベルにまたがる13の予測タスクからなる新しいベンチマークを提案する。 我々は21のDGRLモデルを評価し、多種多様なグラフニューラルネットワークとグラフトランスフォーマー(GT)をバックボーンとして使用し、有向グラフに適した位置符号化(PE)により強化した。 その結果、双方向(BI)メッセージパッシングニューラルネットワーク(MPNN)とロバストPEはモデル性能を大幅に向上させることがわかった。 特に、トップパフォーマンスモデルには、BI-MPNN層にインターリーブされたPE強化GTと、BI-Graphアイソモーフィックネットワークがあり、どちらも13タスクのベースラインを超えている。 さらに,本研究は,DGRLモデルにおけるOOD一般化の急激な改善の必要性を強調した。 このベンチマークは、モジュールコードベースで実装され、ハードウェアとMLの実践者の両方に対するDGRLモデルの評価を合理化している。

To keep pace with the rapid advancements in design complexity within modern computing systems, directed graph representation learning (DGRL) has become crucial, particularly for encoding circuit netlists, computational graphs, and developing surrogate models for hardware performance prediction. However, DGRL remains relatively unexplored, especially in the hardware domain, mainly due to the lack of comprehensive and user-friendly benchmarks. This study presents a novel benchmark comprising five hardware design datasets and 13 prediction tasks spanning various levels of circuit abstraction. We evaluate 21 DGRL models, employing diverse graph neural networks and graph transformers (GTs) as backbones, enhanced by positional encodings (PEs) tailored for directed graphs. Our results highlight that bidirected (BI) message passing neural networks (MPNNs) and robust PEs significantly enhance model performance. Notably, the top-performing models include PE-enhanced GTs interleaved with BI-MPNN layers and BI-Graph Isomorphism Network, both surpassing baselines across the 13 tasks. Additionally, our investigation into out-of-distribution (OOD) performance emphasizes the urgent need to improve OOD generalization in DGRL models. This benchmark, implemented with a modular codebase, streamlines the evaluation of DGRL models for both hardware and ML practitioners
翻訳日:2024-11-01 05:38:53 公開日:2024-10-09
# 大規模言語モデルと悪意のあるコードレコメンダによるAIハイジャック攻撃

Hallucinating AI Hijacking Attack: Large Language Models and Malicious Code Recommenders ( http://arxiv.org/abs/2410.06462v1 )

ライセンス: Link先を確認
David Noever, Forrest McKee, (参考訳) この研究は、人気のあるコードリポジトリで悪意のあるコードに対して、コピーされたコードや幻覚されたAIレコメンデーションを導入するための敵の可能性を構築し、評価する。 OpenAI, Google, Anthropicの基本的な大規模言語モデル(LLM)は有害な振る舞いと有害な文字列の両方を保護しているが、有害なプロンプトを埋め込んだ数学ソリューションに関する以前の研究は、ガードレールが専門家のコンテキストによって異なる可能性があることを示している。 これらの抜け穴は、質問の文脈が変わると専門家のモデルが混在し、有害なコメントをフィルタリングしたり、攻撃的行動を推奨する悪質なトレーニング例が少ない可能性がある。 本研究は, 基礎モデルにおいて, 過度に刺激された場合, 破壊行為を正しく提案することは拒否されるが, コンピュータプログラミングの課題の解決など, 突然の状況変化が生じた場合, ガードを外す可能性があることを示す。 私たちは、GitHub、NPM、NuGetのようなトロイの木馬をホストするリポジトリや、攻撃面を増幅するjsDelivrのような人気のあるコンテンツ配信ネットワーク(CDN)で実証的な例を示します。 LLMのディレクティブでは、例えば、決定されたドメインスクワットがネイティブにコピーされたコードからトリガーされる攻撃的なモバイルインフラストラクチャを取得することができるアプリケーションプログラミングインターフェース(API)エンドポイントを提案する。 我々は、この攻撃を、以前の文脈シフトに関する研究と比較し、マルウェア文学における「土地から逃れる」攻撃の新たなバージョンとして攻撃面を対比した。 後者の場合、基礎言語モデルは、伴うコーディングサポート要求なしで直接提示された場合、所有者の安全ポリシーに違反したアクションを推奨するよう、無実のユーザープロンプトをハイジャックすることができる。

The research builds and evaluates the adversarial potential to introduce copied code or hallucinated AI recommendations for malicious code in popular code repositories. While foundational large language models (LLMs) from OpenAI, Google, and Anthropic guard against both harmful behaviors and toxic strings, previous work on math solutions that embed harmful prompts demonstrate that the guardrails may differ between expert contexts. These loopholes would appear in mixture of expert's models when the context of the question changes and may offer fewer malicious training examples to filter toxic comments or recommended offensive actions. The present work demonstrates that foundational models may refuse to propose destructive actions correctly when prompted overtly but may unfortunately drop their guard when presented with a sudden change of context, like solving a computer programming challenge. We show empirical examples with trojan-hosting repositories like GitHub, NPM, NuGet, and popular content delivery networks (CDN) like jsDelivr which amplify the attack surface. In the LLM's directives to be helpful, example recommendations propose application programming interface (API) endpoints which a determined domain-squatter could acquire and setup attack mobile infrastructure that triggers from the naively copied code. We compare this attack to previous work on context-shifting and contrast the attack surface as a novel version of "living off the land" attacks in the malware literature. In the latter case, foundational language models can hijack otherwise innocent user prompts to recommend actions that violate their owners' safety policies when posed directly without the accompanying coding support request.
翻訳日:2024-11-01 05:38:53 公開日:2024-10-09
# WAPITI: 洗練されたオープンソースLLMのための透かし

WAPITI: A Watermark for Finetuned Open-Source LLMs ( http://arxiv.org/abs/2410.06467v1 )

ライセンス: Link先を確認
Lingjie Chen, Ruizhong Qiu, Siyu Yuan, Zhining Liu, Tianxin Wei, Hyunsik Yoo, Zhichen Zeng, Deqing Yang, Hanghang Tong, (参考訳) 大規模言語モデル(LLM)生成の透かしは、テキスト内に認識不能な統計パターンを埋め込んで、アルゴリズムで検出する。 ウォーターマーキングは、トレーサビリティ、説明責任、操作されたコンテンツの検出を可能にし、意図しない結果の軽減に役立つため、LCMから潜在的な害やバイアスに対処するための有望な方法である。 しかし、オープンソースのモデルでは、透かしは2つの大きな課題に直面している。 (i)微調整されたモデルとの整合性、及び (ii)微調整攻撃に対する脆弱性。 本研究では,基本モデルからパラメータ統合による微調整モデルへ透かしを転送する新しい手法であるWAPITIを提案する。 我々の知識を最大限に活用するために、我々は、その微調整能力を保ったオープンソースのLCMのための最初の透かしを提案する。 さらに,本手法は微調整攻撃に対する効果的な防御効果を提供する。 様々なモデルアーキテクチャと透かし戦略について,本手法を検証した。 その結果,本手法は透かしの注入に成功し,微調整モデルとの互換性が高いことがわかった。 さらに,パラメータの編集が透かしの強さやモデル全体の機能にどのように影響するかを詳細に分析する。

Watermarking of large language models (LLMs) generation embeds an imperceptible statistical pattern within texts, making it algorithmically detectable. Watermarking is a promising method for addressing potential harm and biases from LLMs, as it enables traceability, accountability, and detection of manipulated content, helping to mitigate unintended consequences. However, for open-source models, watermarking faces two major challenges: (i) incompatibility with fine-tuned models, and (ii) vulnerability to fine-tuning attacks. In this work, we propose WAPITI, a new method that transfers watermarking from base models to fine-tuned models through parameter integration. To the best of our knowledge, we propose the first watermark for fine-tuned open-source LLMs that preserves their fine-tuned capabilities. Furthermore, our approach offers an effective defense against fine-tuning attacks. We test our method on various model architectures and watermarking strategies. Results demonstrate that our method can successfully inject watermarks and is highly compatible with fine-tuned models. Additionally, we offer an in-depth analysis of how parameter editing influences the watermark strength and overall capabilities of the resulting models.
翻訳日:2024-11-01 05:38:53 公開日:2024-10-09
# 空間認知はフロンティアモデルに現れるか?

Does Spatial Cognition Emerge in Frontier Models? ( http://arxiv.org/abs/2410.06468v1 )

ライセンス: Link先を確認
Santhosh Kumar Ramakrishnan, Erik Wijmans, Philipp Kraehenbuehl, Vladlen Koltun, (参考訳) まだだ。 本研究では,フロンティアモデルにおける空間認知を体系的に評価するベンチマークSPACEを提案する。 私たちのベンチマークは、認知科学における数十年の研究に基づいている。 生物が物理的環境を横切るときにもたらされる大規模なマッピング能力、物体の形状やレイアウトに関する小規模の推論、空間的注意や記憶などの認知的基盤を評価する。 多くのタスクにおいて、テキストと画像を介して並列プレゼンテーションをインスタンス化し、大きな言語モデルと大きなマルチモーダルモデルの両方をベンチマークすることができる。 その結果、現代のフロンティアモデルは動物の空間的知性に欠けており、動物認知の古典的なテストでほぼチャンスレベルに到達していることが示唆された。

Not yet. We present SPACE, a benchmark that systematically evaluates spatial cognition in frontier models. Our benchmark builds on decades of research in cognitive science. It evaluates large-scale mapping abilities that are brought to bear when an organism traverses physical environments, smaller-scale reasoning about object shapes and layouts, and cognitive infrastructure such as spatial attention and memory. For many tasks, we instantiate parallel presentations via text and images, allowing us to benchmark both large language models and large multimodal models. Results suggest that contemporary frontier models fall short of the spatial intelligence of animals, performing near chance level on a number of classic tests of animal cognition.
翻訳日:2024-11-01 05:38:53 公開日:2024-10-09
# ロボット・オペレーティング・システム・エージェントによる新しいミッション・オペレーションとROSAとのインタラクション

Enabling Novel Mission Operations and Interactions with ROSA: The Robot Operating System Agent ( http://arxiv.org/abs/2410.06472v1 )

ライセンス: Link先を確認
Rob Royce, Marcel Kaufmann, Jonathan Becktor, Sangwoo Moon, Kalind Carpenter, Kai Pak, Amanda Towler, Rohan Thakker, Shehryar Khattak, (参考訳) ロボットシステムの進歩は多くの産業に革命をもたらしたが、その運用には専門的な技術知識が必要であり、非専門家の利用者にはアクセシビリティを制限している。 本稿では,ロボットオペレーティングシステム(ROS)と自然言語インタフェースのギャップを埋めるAIエージェントであるROSA(Robot Operating System Agent)を紹介する。 最先端の言語モデルを活用し、オープンソースのフレームワークを統合することで、ROSAはオペレーターが自然言語を使用してロボットと対話し、コマンドをアクションに翻訳し、明確に定義されたツールを通じてROSと対話することを可能にする。 ROSAの設計はモジュラーで拡張可能で、ROS1とROS2の両方とシームレスに統合され、安全で信頼性の高い操作を保証するためのパラメータ検証や制約強制といった安全メカニズムが提供される。 ROSAはもともとROS用に設計されたものだが、ミッション間の互換性を最大化するために他のロボティクスミドルウェアと連携するように拡張することができる。 ROSAは、複雑なロボットシステムへのアクセスを民主化し、音声統合や視覚知覚などのマルチモーダル機能を備えたすべての専門レベルのユーザに権限を与えることにより、人間とロボットの相互作用を強化する。 AI統合が安全性、透明性、プライバシ、説明責任を促進することを保証する。 ロボットテクノロジーをよりユーザフレンドリでアクセスしやすいものにすることで、ROSAは運用効率を向上するだけでなく、ロボット工学や将来的なミッションオペレーションにおけるAIの責任を負うための新しい標準も設定する。 本稿では,ROSAのアーキテクチャを紹介し,JPLのMars Yardにおける初期モックアップ動作,実験室,そして3つの異なるロボットを用いたシミュレーションを紹介する。 コアROSAライブラリはオープンソースとして提供されている。

The advancement of robotic systems has revolutionized numerous industries, yet their operation often demands specialized technical knowledge, limiting accessibility for non-expert users. This paper introduces ROSA (Robot Operating System Agent), an AI-powered agent that bridges the gap between the Robot Operating System (ROS) and natural language interfaces. By leveraging state-of-the-art language models and integrating open-source frameworks, ROSA enables operators to interact with robots using natural language, translating commands into actions and interfacing with ROS through well-defined tools. ROSA's design is modular and extensible, offering seamless integration with both ROS1 and ROS2, along with safety mechanisms like parameter validation and constraint enforcement to ensure secure, reliable operations. While ROSA is originally designed for ROS, it can be extended to work with other robotics middle-wares to maximize compatibility across missions. ROSA enhances human-robot interaction by democratizing access to complex robotic systems, empowering users of all expertise levels with multi-modal capabilities such as speech integration and visual perception. Ethical considerations are thoroughly addressed, guided by foundational principles like Asimov's Three Laws of Robotics, ensuring that AI integration promotes safety, transparency, privacy, and accountability. By making robotic technology more user-friendly and accessible, ROSA not only improves operational efficiency but also sets a new standard for responsible AI use in robotics and potentially future mission operations. This paper introduces ROSA's architecture and showcases initial mock-up operations in JPL's Mars Yard, a laboratory, and a simulation using three different robots. The core ROSA library is available as open-source.
翻訳日:2024-11-01 05:38:53 公開日:2024-10-09
# チェース制約マルコフ決定過程のフリップに基づく政策

Flipping-based Policy for Chance-Constrained Markov Decision Processes ( http://arxiv.org/abs/2410.06474v1 )

ライセンス: Link先を確認
Xun Shen, Shuo Jiang, Akifumi Wachi, Kaumune Hashimoto, Sebastien Gros, (参考訳) 安全強化学習(RL)は,安全性の確保が不可欠である多くの現実的な意思決定問題に対して,有望なアプローチである。 安全なRL研究では、期待される累積安全性制約(ECSC)が第一選択であるが、不確実性に安全性を組み込む場合、確率制約はより現実的であることが多い。 本稿では,CCMDP(Chance-Constrained Markov Decision Processs)のための「textit{flipping-based policy」を提案する。 フリップベースのポリシーは、2つのアクション候補の間で潜在的に歪んだコインを投げて次のアクションを選択する。 フリップと2つのアクション候補の確率は、状態によって異なる。 我々は, CCMDP に対するベルマン方程式を確立し, 最適解集合内にはフリップ型ポリシーが存在することをさらに証明する。 連関制約による問題解決は実際は困難であるため, 連関制約が期待された累積安全制約(ECSC)に近似可能であること, 制約付きMDPとECSCとの最適解集合にフリップ型ポリシーが存在することを証明した。 実践的な実装の具体例として,制約付きポリシ最適化を適用して,フリップベースのポリシをトレーニングするフレームワークを提案する。 このフレームワークは他の安全なRLアルゴリズムにも適用できる。 提案手法は,セーフティガイムベンチマークの安全性制約と同じ限度で,既存の安全RLアルゴリズムの性能を向上させることを実証する。

Safe reinforcement learning (RL) is a promising approach for many real-world decision-making problems where ensuring safety is a critical necessity. In safe RL research, while expected cumulative safety constraints (ECSCs) are typically the first choices, chance constraints are often more pragmatic for incorporating safety under uncertainties. This paper proposes a \textit{flipping-based policy} for Chance-Constrained Markov Decision Processes (CCMDPs). The flipping-based policy selects the next action by tossing a potentially distorted coin between two action candidates. The probability of the flip and the two action candidates vary depending on the state. We establish a Bellman equation for CCMDPs and further prove the existence of a flipping-based policy within the optimal solution sets. Since solving the problem with joint chance constraints is challenging in practice, we then prove that joint chance constraints can be approximated into Expected Cumulative Safety Constraints (ECSCs) and that there exists a flipping-based policy in the optimal solution sets for constrained MDPs with ECSCs. As a specific instance of practical implementations, we present a framework for adapting constrained policy optimization to train a flipping-based policy. This framework can be applied to other safe RL algorithms. We demonstrate that the flipping-based policy can improve the performance of the existing safe RL algorithms under the same limits of safety constraints on Safety Gym benchmarks.
翻訳日:2024-11-01 05:29:07 公開日:2024-10-09
# 3次元表現法:サーベイ

3D Representation Methods: A Survey ( http://arxiv.org/abs/2410.06475v1 )

ライセンス: Link先を確認
Zhengren Wang, (参考訳) 3D表現の分野は、コンピュータグラフィックス、バーチャルリアリティー、自律システムといった様々なアプリケーションにおける高忠実度3Dモデルの需要の増加によって、大きな進歩を遂げてきた。 本稿では,3次元表現法の開発と現状を概観し,研究の軌跡,革新,強度,弱さを概観する。 Voxel Grid, Point Cloud, Mesh,Signed Distance Function (SDF), Neural Radiance Field (NeRF), 3D Gaussian Splatting, Tri-Plane, Deep Marching Tetrahedra (DMTet) などの主要な技術について概説する。 このレビューでは、フィールドを前進させる上で重要なデータセットも紹介し、その特性と研究の進展への影響を強調している。 最後に,3次元表現手法のさらなる拡張と応用を約束する潜在的研究方向について検討する。

The field of 3D representation has experienced significant advancements, driven by the increasing demand for high-fidelity 3D models in various applications such as computer graphics, virtual reality, and autonomous systems. This review examines the development and current state of 3D representation methods, highlighting their research trajectories, innovations, strength and weakness. Key techniques such as Voxel Grid, Point Cloud, Mesh, Signed Distance Function (SDF), Neural Radiance Field (NeRF), 3D Gaussian Splatting, Tri-Plane, and Deep Marching Tetrahedra (DMTet) are reviewed. The review also introduces essential datasets that have been pivotal in advancing the field, highlighting their characteristics and impact on research progress. Finally, we explore potential research directions that hold promise for further expanding the capabilities and applications of 3D representation methods.
翻訳日:2024-11-01 05:29:07 公開日:2024-10-09
# 金融市場への応用 : EUR/USDケーススタディ

Quantitative Theory of Meaning. Application to Financial Markets. EUR/USD case study ( http://arxiv.org/abs/2410.06476v1 )

ライセンス: Link先を確認
Inga Ivanova, Grzegorz Rzadkowski, Loet Leydesdorff, (参考訳) 本論文は、情報と投資家の期待と市場価格運動の関連性に焦点を当てている。 EUR/USD市場は情報と意味のダイナミクスに関するコミュニケーション理論の観点から検討される。 我々は,情報量論の補完として,意味の定量的理論を構築した。 投資家の異なるグループは異なる基準で情報を処理し、同じ情報を異なる意味で提供できるようにしている。 意味は、市場資産価格運動で明らかにされる投資家の期待を形作っている。 この力学は非線形進化方程式によって捉えることができる。 我々は、論理的連続ウェーブレット変換(CWT)の計算効率の良い手法を用いて、EUR/USD市場を解析する。 その結果,提案モデルが投資家の行動パターンを適切に記述できることを示すモデル予測時系列と一致する潜在EUR/USDトレンド構造が明らかになった。 提案手法は、将来の市場資産の価格変動をよりよく理解し予測するために使用することができる。

The paper focuses on the link between information, investors' expectations and market price movement. EUR/USD market is examined from communication-theoretical perspective on the dynamics of information and meaning. We build upon the quantitative theory of meaning as a complement to the quantitative theory of information. Different groups of investors entertain different criteria to process information, so that the same information can be supplied with different meanings. Meanings shape investors' expectations which are revealed in market asset price movement. This dynamics can be captured by non-linear evolutionary equation. We use a computationally efficient technique of logistic Continuous Wavelet Transformation (CWT) to analyze EUR/USD market. The results reveal the latent EUR/USD trend structure which coincides with the model predicted time series indicating that proposed model can adequately describe some patterns of investors' behavior. Proposed methodology can be used to better understand and forecast future market assets' price movement.
翻訳日:2024-11-01 05:29:07 公開日:2024-10-09
# MaskBlur:Light Field Image Super-Resolutionのための空間的および角的データ拡張

MaskBlur: Spatial and Angular Data Augmentation for Light Field Image Super-Resolution ( http://arxiv.org/abs/2410.06478v1 )

ライセンス: Link先を確認
Wentao Chao, Fuqing Duan, Yulan Guo, Guanghui Wang, (参考訳) データ拡張(DA)は、光場(LF)画像超解像(SR)のような限られたデータでモデル性能を向上させる効果的なアプローチである。 LF画像は本質的に、豊かな空間情報と角情報を持っている。 それにもかかわらず、LF画像用に明示的に調整されたDA手法が不足しており、既存の研究は空間領域と角領域の両方にのみ集中する傾向にある。 本稿では,空間的および角的側面を同時に扱うことで,LF画像SRのためのMaskBlurという新しい空間的および角的DA戦略を提案する。 MaskBlurは空間的ぼやけと角ばった2つのコンポーネントで構成されている。 空間的ぼかしは空間マスクによって制御され、低解像度領域と高解像度領域の間に画素を貼り付けるように、ピクセルがぼやけている場所を制御する。 角マスクは、空間的ぼやけた操作を行うためにどのビューを選択するかという、角状のドロップアウトに責任を負う。 MaskBlurは、すべてのピクセルを均等に扱うのではなく、超解像LF画像において、空間領域と角領域で異なるピクセルを扱えるようにします。 大規模な実験により、既存のSR法の性能を大幅に向上させるMaskBlurの有効性が示された。 さらに、MaskBlurをデノイング、デブロアリング、低照度向上、実世界のSRといった他のLFイメージタスクに拡張する。 コードは \url{https://github.com/chaowentao/MaskBlur} で公開されている。

Data augmentation (DA) is an effective approach for enhancing model performance with limited data, such as light field (LF) image super-resolution (SR). LF images inherently possess rich spatial and angular information. Nonetheless, there is a scarcity of DA methodologies explicitly tailored for LF images, and existing works tend to concentrate solely on either the spatial or angular domain. This paper proposes a novel spatial and angular DA strategy named MaskBlur for LF image SR by concurrently addressing spatial and angular aspects. MaskBlur consists of spatial blur and angular dropout two components. Spatial blur is governed by a spatial mask, which controls where pixels are blurred, i.e., pasting pixels between the low-resolution and high-resolution domains. The angular mask is responsible for angular dropout, i.e., selecting which views to perform the spatial blur operation. By doing so, MaskBlur enables the model to treat pixels differently in the spatial and angular domains when super-resolving LF images rather than blindly treating all pixels equally. Extensive experiments demonstrate the efficacy of MaskBlur in significantly enhancing the performance of existing SR methods. We further extend MaskBlur to other LF image tasks such as denoising, deblurring, low-light enhancement, and real-world SR. Code is publicly available at \url{https://github.com/chaowentao/MaskBlur}.
翻訳日:2024-11-01 05:29:07 公開日:2024-10-09
# ニューラルネットワークによるLLM圧縮

LLM Compression with Neural Architecture Search ( http://arxiv.org/abs/2410.06479v1 )

ライセンス: Link先を確認
Rhea Sanjay Sukthanker, Benedikt Staffler, Frank Hutter, Aaron Klein, (参考訳) 大規模言語モデル(LLM)は顕著な推論能力を示し、コモンセンス推論や命令従順といった幅広い下流タスクを一般化することができる。 しかし、LLMの規模が大きくなるにつれて、推論コストはますます禁じられ、ライフサイクルを通じて著しく蓄積される。 さまざまなサイズとレイテンシ要件を満たすために、事前訓練済みのLLMを圧縮できますか? 我々は、ニューラルアーキテクチャサーチ(NAS)を用いて、アテンションヘッド、ニューロン、レイヤなどの構造部品を刈り込み、性能と効率のパレート最適バランスを達成することを目的として、LCMを圧縮する。 従来,NAS は小規模言語モデルにおいて有望な成果を上げてきたが,本論文では LLM に拡張できる様々な拡張を提案する。 構造的なプルーニングベースラインと比較して,NASはデバイス上でのレイテンシの高速化によりMMLUの性能を最大3.4%向上することを示す。

Large language models (LLMs) exhibit remarkable reasoning abilities, allowing them to generalize across a wide range of downstream tasks, such as commonsense reasoning or instruction following. However, as LLMs scale, inference costs become increasingly prohibitive, accumulating significantly over their life cycle. This poses the question: Can we compress pre-trained LLMs to meet diverse size and latency requirements? We leverage Neural Architecture Search (NAS) to compress LLMs by pruning structural components, such as attention heads, neurons, and layers, aiming to achieve a Pareto-optimal balance between performance and efficiency. While NAS already achieved promising results on small language models in previous work, in this paper we propose various extensions that allow us to scale to LLMs. Compared to structural pruning baselines, we show that NAS improves performance up to 3.4% on MMLU with an on-device latency speedup.
翻訳日:2024-11-01 05:29:07 公開日:2024-10-09
# TCGU:Transferable Condensationに基づくデータ中心グラフアンラーニング

TCGU: Data-centric Graph Unlearning based on Transferable Condensation ( http://arxiv.org/abs/2410.06480v1 )

ライセンス: Link先を確認
Fan Li, Xiaoyang Wang, Dawei Cheng, Wenjie Zhang, Ying Zhang, Xuemin Lin, (参考訳) データプライバシとモデルロバスト性の要求の増加に伴い、トレーニングされたGNNモデルに対する特定のデータの影響を消すグラフアンラーニング(GU)が注目されている。 しかし、既存の正確な未学習手法は、低効率または劣悪なモデル性能に悩まされている。 ユーティリティ保存と効率が向上する一方で、現在の近似アンラーニング手法はゼロガンスプライバシー設定では適用できない。 さらに、モデルパラメータを直接摂動しようとするこれらの近似手法は、実際には高いプライバシー上の懸念を伴っている。 このギャップを埋めるために、ゼロガンスグラフアンラーニングのためのデータ中心のソリューションであるTransferable Condensation Graph Unlearning (TCGU)を提案する。 具体的には、まず最初に、2段階のアライメント戦略を設計し、元のグラフを小さいが実用的に保存可能なデータセットにプリコンデンスする。 未学習の要求を受信すると、プレコンデンサされたデータを低ランクのプラグインで微調整し、その分布を残りのグラフと直接一致させ、削除したデータの情報をアクセスせずに効率的に取り消す。 新しい類似度分布マッチング手法と識別正規化器を提案し, GNNトレーニングにおいて, 凝縮データを効果的に転送し, 有効性を保っている。 最後に、転送された凝縮データに基づいてGNNを再訓練する。 6つのベンチマークデータセットに対する大規模な実験は、TGUが既存のGUメソッドよりもモデルユーティリティ、未学習効率、未学習効率で優れたパフォーマンスを達成できることを示した。

With growing demands for data privacy and model robustness, graph unlearning (GU), which erases the influence of specific data on trained GNN models, has gained significant attention. However, existing exact unlearning methods suffer from either low efficiency or poor model performance. While being more utility-preserving and efficient, current approximate unlearning methods are not applicable in the zero-glance privacy setting, where the deleted samples cannot be accessed during unlearning due to immediate deletion requested by regulations. Besides, these approximate methods, which try to directly perturb model parameters still involve high privacy concerns in practice. To fill the gap, we propose Transferable Condensation Graph Unlearning (TCGU), a data-centric solution to zero-glance graph unlearning. Specifically, we first design a two-level alignment strategy to pre-condense the original graph into a small yet utility-preserving dataset. Upon receiving an unlearning request, we fine-tune the pre-condensed data with a low-rank plugin, to directly align its distribution with the remaining graph, thus efficiently revoking the information of deleted data without accessing them. A novel similarity distribution matching approach and a discrimination regularizer are proposed to effectively transfer condensed data and preserve its utility in GNN training, respectively. Finally, we retrain the GNN on the transferred condensed data. Extensive experiments on 6 benchmark datasets demonstrate that TCGU can achieve superior performance in terms of model utility, unlearning efficiency, and unlearning efficacy than existing GU methods.
翻訳日:2024-11-01 05:29:07 公開日:2024-10-09
# 一様アタッチメントツリー上のリーフストリップ

Leaf Stripping on Uniform Attachment Trees ( http://arxiv.org/abs/2410.06481v1 )

ライセンス: Link先を確認
Louigi Addario-Berry, Anna Brandenberger, Simon Briend, Nicolas Broutin, Gábor Lugosi, (参考訳) そこで本論文では,一様アタッチメント木における簡単なルートフィニングアルゴリズムの性能を解析する。 葉切りアルゴリズムは、慎重に選択されたラウンド数に対して、木の全葉を再帰的に除去する。 確率が 1 - \epsilon$ の場合、残りの頂点の集合は根を含み、木のサイズによらず$\epsilon$ に依存するだけのサイズを持つことを示す。

In this note we analyze the performance of a simple root-finding algorithm in uniform attachment trees. The leaf-stripping algorithm recursively removes all leaves of the tree for a carefully chosen number of rounds. We show that, with probability $1 - \epsilon$, the set of remaining vertices contains the root and has a size only depending on $\epsilon$ but not on the size of the tree.
翻訳日:2024-11-01 05:29:07 公開日:2024-10-09
# OledFL: 対極的なルックアヘッド強化による分散型フェデレーション学習の可能性

OledFL: Unleashing the Potential of Decentralized Federated Learning via Opposite Lookahead Enhancement ( http://arxiv.org/abs/2410.06482v1 )

ライセンス: Link先を確認
Qinglun Li, Miao Zhang, Mengzhu Wang, Quanjun Yin, Li Shen, (参考訳) 分散フェデレートラーニング(DFL)は、より高速なトレーニング、プライバシ保護、光通信という観点で中央フェデレーションラーニング(CFL)を超越し、フェデレーションラーニングの分野で有望な代替手段となる。 しかし、DFLは、理論的な理解がほとんどなく、重度の矛盾により経験的性能が劣化するような一般化能力において、CFLと大きな相違が見られる。 本稿では,両通信ラウンドにおける各クライアントの初期化を最適化するため,Oleと反対のルックアヘッド拡張技術(Ole)を開発し,DFLの整合性を高め,一般化と収束速度の両方を大幅に改善する。 さらに、非凸設定における収束速度を厳格に確立し、その一般化を一様安定性を通して特徴付けることにより、OredFLが高速収束速度と高一般化能力の両方を達成できる具体的な理由を提供する。 CIFAR10とCIFAR100データセットにDirichletとPathologicalディストリビューションを併用した大規模な実験では、DFLのDFedAvgオプティマイザと比較して最大5倍のパフォーマンス向上と8$\times$スピードアップを実現できたことが示されています。

Decentralized Federated Learning (DFL) surpasses Centralized Federated Learning (CFL) in terms of faster training, privacy preservation, and light communication, making it a promising alternative in the field of federated learning. However, DFL still exhibits significant disparities with CFL in terms of generalization ability such as rarely theoretical understanding and degraded empirical performance due to severe inconsistency. In this paper, we enhance the consistency of DFL by developing an opposite lookahead enhancement technique (Ole), yielding OledFL to optimize the initialization of each client in each communication round, thus significantly improving both the generalization and convergence speed. Moreover, we rigorously establish its convergence rate in non-convex setting and characterize its generalization bound through uniform stability, which provides concrete reasons why OledFL can achieve both the fast convergence speed and high generalization ability. Extensive experiments conducted on the CIFAR10 and CIFAR100 datasets with Dirichlet and Pathological distributions illustrate that our OledFL can achieve up to 5\% performance improvement and 8$\times$ speedup, compared to the most popular DFedAvg optimizer in DFL.
翻訳日:2024-11-01 05:29:07 公開日:2024-10-09
# 超広視野カラー画像を用いた糖尿病黄斑浮腫発症予測のための深層学習アンサンブル

Deep Learning Ensemble for Predicting Diabetic Macular Edema Onset Using Ultra-Wide Field Color Fundus Image ( http://arxiv.org/abs/2410.06483v1 )

ライセンス: Link先を確認
Pengyao Qin, Arun J. Thirunavukarasu, Le Zhang, (参考訳) 糖尿病黄斑浮腫(英: Diabetic macular edema, DME)は、糖尿病の重篤な合併症である。 DMEは糖尿病患者の視覚障害の重要かつ一般的な原因である。 中心結合型DME(ci-DME)は、鋭い中心視を司る胎児の近傍に流体が広がるため、疾患の最も危険な形態である。 ci-DMEの早期診断や予測は治療成績を改善する可能性がある。 そこで本研究では,DIAMOND Challengeで提供されるUWF-CFP画像を用いて,1年以内にci-DMEのオンセットを予測するアンサンブル手法を提案する。 我々はResNet、DenseNet、EfficientNet、VGGなど、さまざまなベースラインの最先端分類ネットワークをモデルロバスト性の向上のために採用した。 最高のパフォーマンスモデルはDensenet 121、Resnet 152、EfficientNet b7で、これらは決定的な予測モデルに組み立てられた。 最終的なアンサンブルモデルでは、AUCが0.7017、F1が0.6512、ECEが0.2057である。 このアンサンブルモデルの性能は、より現実的な環境でのトレーニングやテストにもかかわらず、以前の研究に匹敵するものであり、UWF-CFPとディープラーニング分類システムを組み合わせることにより、早期診断の容易化、治療決定の改善、ci-DMEにおける予後の向上が示される。

Diabetic macular edema (DME) is a severe complication of diabetes, characterized by thickening of the central portion of the retina due to accumulation of fluid. DME is a significant and common cause of visual impairment in diabetic patients. Center-involved DME (ci-DME) is the highest risk form of disease as fluid extends close to the fovea which is responsible for sharp central vision. Earlier diagnosis or prediction of ci-DME may improve treatment outcomes. Here, we propose an ensemble method to predict ci-DME onset within a year using ultra-wide-field color fundus photography (UWF-CFP) images provided by the DIAMOND Challenge. We adopted a variety of baseline state-of-the-art classification networks including ResNet, DenseNet, EfficientNet, and VGG with the aim of enhancing model robustness. The best performing models were Densenet 121, Resnet 152 and EfficientNet b7, and these were assembled into a definitive predictive model. The final ensemble model demonstrates a strong performance with an Area Under Curve (AUC) of 0.7017, an F1 score of 0.6512, and an Expected Calibration Error (ECE) of 0.2057 when deployed on a synthetic dataset. The performance of this ensemble model is comparable to previous studies despite training and testing in a more realistic setting, indicating the potential of UWF-CFP combined with a deep learning classification system to facilitate earlier diagnosis, better treatment decisions, and improved prognostication in ci-DME.
翻訳日:2024-11-01 05:29:07 公開日:2024-10-09
# HFH-Font: 高品質、高速、高分解能の中国語フォント合成

HFH-Font: Few-shot Chinese Font Synthesis with Higher Quality, Faster Speed, and Higher Resolution ( http://arxiv.org/abs/2410.06488v1 )

ライセンス: Link先を確認
Hua Li, Zhouhui Lian, (参考訳) 高品質なベクトルフォント、特に大量の複雑なグリフからなるシステム(例えば中国語)を自動合成するという課題は未解決のままである。 既存のフォント合成技術は2つのカテゴリに分類される。 1) 直接ベクターグリフを生成する方法、及び 2) 最初はグリフ画像を合成し、それからベクトル化する手法。 しかしながら、最初のカテゴリは複雑なグリフに対して完全かつ正しい形状を作るのに失敗することが多く、後者は局所的な詳細を保ちながら高解像度のグリフ画像(例えば1024$\times$1024以上)を効率的に合成するのに苦労する。 本稿では,HFH-Fontについて紹介する。HFH-Fontは高精細なグリフ画像を効率よく生成し,高品質なベクトルグリフに変換することのできる数ショットフォント合成法である。 具体的には,様々な入力参照サイズに適応するスタイル情報の異なるレベルを学習するために,コンポーネント認識条件付き拡散モデルに基づく生成フレームワークを用いる。 また,1ステップの高速推論のためのスコア蒸留サンプリングに基づく蒸留モジュールと,低分解能合成結果を洗練・スケールアップするスタイル誘導超解像モジュールを設計した。 本手法が既存のフォント合成手法よりも優れていることを示すために,プロのフォントデザイナーによるユーザスタディを含む大規模な実験が実施されている。 実験により,高品質なベクトルフォントにベクトル化可能な高忠実かつ高解像度なラスタ画像が得られた。 提案手法を用いて,プロのフォントデザイナーが手作業で作成したフォントに匹敵する品質の大規模な中国語のベクトルフォントを自動生成する。

The challenge of automatically synthesizing high-quality vector fonts, particularly for writing systems (e.g., Chinese) consisting of huge amounts of complex glyphs, remains unsolved. Existing font synthesis techniques fall into two categories: 1) methods that directly generate vector glyphs, and 2) methods that initially synthesize glyph images and then vectorize them. However, the first category often fails to construct complete and correct shapes for complex glyphs, while the latter struggles to efficiently synthesize high-resolution (i.e., 1024 $\times$ 1024 or higher) glyph images while preserving local details. In this paper, we introduce HFH-Font, a few-shot font synthesis method capable of efficiently generating high-resolution glyph images that can be converted into high-quality vector glyphs. More specifically, our method employs a diffusion model-based generative framework with component-aware conditioning to learn different levels of style information adaptable to varying input reference sizes. We also design a distillation module based on Score Distillation Sampling for 1-step fast inference, and a style-guided super-resolution module to refine and upscale low-resolution synthesis results. Extensive experiments, including a user study with professional font designers, have been conducted to demonstrate that our method significantly outperforms existing font synthesis approaches. Experimental results show that our method produces high-fidelity, high-resolution raster images which can be vectorized into high-quality vector fonts. Using our method, for the first time, large-scale Chinese vector fonts of a quality comparable to those manually created by professional font designers can be automatically generated.
翻訳日:2024-11-01 05:29:07 公開日:2024-10-09
# FedL2G:不均一なフェデレーション学習におけるローカルトレーニングの指導

FedL2G: Learning to Guide Local Training in Heterogeneous Federated Learning ( http://arxiv.org/abs/2410.06490v1 )

ライセンス: Link先を確認
Jianqing Zhang, Yang Liu, Yang Hua, Jian Cao, Qiang Yang, (参考訳) データとモデルの不均一性は、HtFL(Heterogeneous Federated Learning)の2つの中核的な問題である。 異種モデルアーキテクチャのシナリオでは、アグリゲーションモデルパラメータは実現不可能となり、アグリゲーションとガイダンスにプロトタイプ(クラス代表的特徴ベクトル)が使用される。 しかし、彼らはグローバルプロトタイプに合わせると、余分な誘導目標とクライアントの本来のローカル目標とのミスマッチを経験します。 そこで本稿では,FedL2G(Federated Learning-to-Guide)手法を提案する。 理論的な保証により、FedL2Gは1次微分(英語版) w.r.t. モデルパラメータのみを用いて学習と誘導のプロセスを効率的に実装し、O(1/T)の非凸収束率を達成する。 我々は14の異種モデルアーキテクチャ(例えば、CNN、ViT)を用いて、2つのデータ不均一性と6つのモデル不均一性設定に関する広範な実験を行い、FedL2Gの性能を6つのモデルと比較した。

Data and model heterogeneity are two core issues in Heterogeneous Federated Learning (HtFL). In scenarios with heterogeneous model architectures, aggregating model parameters becomes infeasible, leading to the use of prototypes (i.e., class representative feature vectors) for aggregation and guidance. However, they still experience a mismatch between the extra guiding objective and the client's original local objective when aligned with global prototypes. Thus, we propose a Federated Learning-to-Guide (FedL2G) method that adaptively learns to guide local training in a federated manner and ensures the extra guidance is beneficial to clients' original tasks. With theoretical guarantees, FedL2G efficiently implements the learning-to-guide process using only first-order derivatives w.r.t. model parameters and achieves a non-convex convergence rate of O(1/T). We conduct extensive experiments on two data heterogeneity and six model heterogeneity settings using 14 heterogeneous model architectures (e.g., CNNs and ViTs) to demonstrate FedL2G's superior performance compared to six counterparts.
翻訳日:2024-11-01 05:29:07 公開日:2024-10-09
# インコンテクスト強化学習で、最高のモデルがハックされる

Honesty to Subterfuge: In-Context Reinforcement Learning Can Make Honest Models Reward Hack ( http://arxiv.org/abs/2410.06491v1 )

ライセンス: Link先を確認
Leo McKee-Reid, Christoph Sträter, Maria Angelica Martinez, Joe Needham, Mikita Balesni, (参考訳) これまでの研究では、ゲーム可能な環境のカリキュラムで強化学習を施した「ヘルパフルオンリー」のLLMのトレーニングが、自身の報酬関数の編集やタスクチェックリストの変更など、厳格な仕様ゲームに一般化するモデルにつながることが示されている。 gpt-4o, gpt-4o-mini, o1-preview, o1-mini – 有益で無害で正直な訓練を受けたフロンティアモデルでは、純粋にコンテキスト内反復リフレクション(ICRL)から、タスクのカリキュラムをトレーニングすることなく、仕様ゲーミングを行うことができることを示す。 また, ICRL を用いて専門家反復の高遅延出力を生成することにより, gpt-4o-mini が独自の報酬関数を編集する最も厳密な戦略に一般化し,gpt-4o-mini の仕様ゲーミングポリシー学習の適性を高めることを示す。 本研究の結果は,ゼロショットや通常のトレーニングを伴わない稀な仕様ゲーム戦略を発見するためのコンテキスト内リフレクションの強い能力を指し,ゼロショット設定におけるLCMのアライメントに依存した場合の注意の必要性を強調した。

Previous work has shown that training "helpful-only" LLMs with reinforcement learning on a curriculum of gameable environments can lead models to generalize to egregious specification gaming, such as editing their own reward function or modifying task checklists to appear more successful. We show that gpt-4o, gpt-4o-mini, o1-preview, and o1-mini - frontier models trained to be helpful, harmless, and honest - can engage in specification gaming without training on a curriculum of tasks, purely from in-context iterative reflection (which we call in-context reinforcement learning, "ICRL"). We also show that using ICRL to generate highly-rewarded outputs for expert iteration (compared to the standard expert iteration reinforcement learning algorithm) may increase gpt-4o-mini's propensity to learn specification-gaming policies, generalizing (in very rare cases) to the most egregious strategy where gpt-4o-mini edits its own reward function. Our results point toward the strong ability of in-context reflection to discover rare specification-gaming strategies that models might not exhibit zero-shot or with normal training, highlighting the need for caution when relying on alignment of LLMs in zero-shot settings.
翻訳日:2024-11-01 05:29:07 公開日:2024-10-09
# 自律走行車におけるUbuntu非互換性の克服 - 学んだこと-

Overcoming Autoware-Ubuntu Incompatibility in Autonomous Driving Systems-Equipped Vehicles: Lessons Learned ( http://arxiv.org/abs/2410.06492v1 )

ライセンス: Link先を確認
Dada Zhang, Md Ruman Islam, Pei-Chi Huang, Chun-Hsing Ho, (参考訳) 自律走行車は、輸送システムの安全性と効率性を提供する需要として急速に発展してきた。 自動運転車はオープンソースのオペレーティングシステムとコンピューティングシステムに基づいて設計されているため、Ubuntu、Autoware、Robot Operating System(ROS)で構成されるオペレーティングシステムを構築するためのリソースが多数存在する。 しかし、自動走行システムを搭載した車両(クライスラー・パシフィック)にインストールされたAutowareプラットフォームとUbuntuオペレーティングシステムの不互換性のために、研究者がトラブルシューティングを行うのを助けるための明確なガイドラインは存在しない。 本稿では,不整合問題を解決するためのトラブルシューティングプロセスから学んだ教訓に基づいて,オートウェアプラットフォームを自動運転車のインタフェースに統合する方法について概説する。 自動走行車に搭載されたUbuntu 20.04、Autoware.AI、ROS Noeticソフトウェアの不互換性と統合の問題を解決するために、トラブルシューティングプロセスが提示される。 具体的には、Pythonの互換性、Compute Unified Device Architecture(CUDA)のインストール、Autowareのインストール、Autoware.AIでのシミュレーションを含む、一般的な非互換性の問題とコード解決プロトコルに焦点を当てた。 本論文の目的は、自動運転車の運転干渉の非互換性問題への対処方法を示す、明示的で詳細指向のプレゼンテーションを提供することである。 論文で紹介された教訓と経験は、同様の問題に遭遇し、トラブルシューティング活動を実行し、Ubuntu、Autoware、ROSオペレーティングシステムでADS関連プロジェクトを実装することで、フォローアップできる研究者にとって有用である。

Autonomous vehicles have been rapidly developed as demand that provides safety and efficiency in transportation systems. As autonomous vehicles are designed based on open-source operating and computing systems, there are numerous resources aimed at building an operating platform composed of Ubuntu, Autoware, and Robot Operating System (ROS). However, no explicit guidelines exist to help scholars perform trouble-shooting due to incompatibility between the Autoware platform and Ubuntu operating systems installed in autonomous driving systems-equipped vehicles (i.e., Chrysler Pacifica). The paper presents an overview of integrating the Autoware platform into the autonomous vehicle's interface based on lessons learned from trouble-shooting processes for resolving incompatible issues. The trouble-shooting processes are presented based on resolving the incompatibility and integration issues of Ubuntu 20.04, Autoware.AI, and ROS Noetic software installed in an autonomous driving systems-equipped vehicle. Specifically, the paper focused on common incompatibility issues and code-solving protocols involving Python compatibility, Compute Unified Device Architecture (CUDA) installation, Autoware installation, and simulation in Autoware.AI. The objective of the paper is to provide an explicit and detail-oriented presentation to showcase how to address incompatibility issues among an autonomous vehicle's operating interference. The lessons and experience presented in the paper will be useful for researchers who encountered similar issues and could follow up by performing trouble-shooting activities and implementing ADS-related projects in the Ubuntu, Autoware, and ROS operating systems.
翻訳日:2024-11-01 05:29:07 公開日:2024-10-09
# BiC-MPPI:軌道最適化のためのゴールポーズ,サンプリングに基づく双方向ロールアウトクラスタリングパス積分

BiC-MPPI: Goal-Pursuing, Sampling-Based Bidirectional Rollout Clustering Path Integral for Trajectory Optimization ( http://arxiv.org/abs/2410.06493v1 )

ライセンス: Link先を確認
Minchan Jung, Kwangki Kim, (参考訳) 本稿では,モデル予測パス積分(MPPI)フレームワーク内での目標指向のガイダンス向上を目的とした,双方向クラスタリングMPPI(Bidirectional Clustered MPPI)アルゴリズムを提案する。 BiC-MPPIは、双方向ダイナミクス近似と新しいガイドコスト機構を導入し、軌道計画と目標達成性能の両方を改善した。 前向きと後向きのロールアウトを活用することで、双方向のアプローチは初期状態と終端状態の間の効果的な軌道接続を保証し、ガイドコストは動的に実現可能なパスを発見するのに役立つ。 実験の結果,BiC-MPPIは2次元および3次元環境において既存のMPPIよりも優れており,自律ナビゲーションのための修正BARNデータセット上で900のシミュレーションで高い成功率と競合計算時間を達成していることがわかった。 GitHub:https://github.com/i-ASL/BiC-MPPI

This paper introduces the Bidirectional Clustered MPPI (BiC-MPPI) algorithm, a novel trajectory optimization method aimed at enhancing goal-directed guidance within the Model Predictive Path Integral (MPPI) framework. BiC-MPPI incorporates bidirectional dynamics approximations and a new guide cost mechanism, improving both trajectory planning and goal-reaching performance. By leveraging forward and backward rollouts, the bidirectional approach ensures effective trajectory connections between initial and terminal states, while the guide cost helps discover dynamically feasible paths. Experimental results demonstrate that BiC-MPPI outperforms existing MPPI variants in both 2D and 3D environments, achieving higher success rates and competitive computation times across 900 simulations on a modified BARN dataset for autonomous navigation. GitHub: https://github.com/i-ASL/BiC-MPPI
翻訳日:2024-11-01 05:18:55 公開日:2024-10-09
# 言語横断回路の類似性について--主語と動詞の一致課題を事例として-

On the Similarity of Circuits across Languages: a Case Study on the Subject-verb Agreement Task ( http://arxiv.org/abs/2410.06496v1 )

ライセンス: Link先を確認
Javier Ferrando, Marta R. Costa-jussà, (参考訳) 言語モデルによって実装されたいくつかのアルゴリズムは、最近リバースエンジニアリングに成功している。 しかし、これらの発見は特定のタスクやモデルに集中しており、普遍回路が異なる設定にわたってどのように存在するかは明らかでない。 本稿では,Gemma 2Bが実装した,英語とスペイン語の2言語間での主語/動詞合意課題を解決する回路について検討する。 いずれの回路も高度に一貫したものであり、主に最後のMLPの小さなニューロンによって読まれる最後の残差ストリームに「対象数」信号を書く特定の注意ヘッドによって駆動される。 特に、この被写体番号信号は残留ストリーム空間の方向として表現され、言語に依存しない。 我々は,この方向がモデル予測に因果的影響があることを実証し,スペイン語の予測動詞数を英語の方向と連動させることで効果的に反転させることを示した。 最後に、Gemma 1 および Gemma 2 ファミリー内の他のモデルでも同様の挙動を示す。

Several algorithms implemented by language models have recently been successfully reversed-engineered. However, these findings have been concentrated on specific tasks and models, leaving it unclear how universal circuits are across different settings. In this paper, we study the circuits implemented by Gemma 2B for solving the subject-verb agreement task across two different languages, English and Spanish. We discover that both circuits are highly consistent, being mainly driven by a particular attention head writing a `subject number' signal to the last residual stream, which is read by a small set of neurons in the final MLPs. Notably, this subject number signal is represented as a direction in the residual stream space, and is language-independent. We demonstrate that this direction has a causal effect on the model predictions, effectively flipping the Spanish predicted verb number by intervening with the direction found in English. Finally, we present evidence of similar behavior in other models within the Gemma 1 and Gemma 2 families.
翻訳日:2024-11-01 05:18:55 公開日:2024-10-09
# ERCache:Metaの広告システムにおける大規模ユーザ表現のための効率的で信頼性の高いキャッシングフレームワーク

ERCache: An Efficient and Reliable Caching Framework for Large-Scale User Representations in Meta's Ads System ( http://arxiv.org/abs/2410.06497v1 )

ライセンス: Link先を確認
Fang Zhou, Yaning Huang, Dong Liang, Dai Li, Zhongke Zhang, Kai Wang, Xiao Xin, Abdallah Aboelela, Zheliang Jiang, Yang Wang, Jeff Song, Wei Zhang, Chen Liang, Huayu Li, ChongLin Sun, Hang Yang, Lei Qu, Zhan Shu, Mindi Yuan, Emanuele Maccherani, Taha Hayat, John Guo, Varna Puvvada, Uladzimir Pashkevich, (参考訳) ユーザ表現の計算に使用されるディープラーニングモデルの複雑さの増大は、特に限られた計算リソースと厳しいサービスレベルの合意(SLA)において、大きな課題を呈している。 これまでの研究は、モデル推論の最適化に重点を置いてきたが、重要な問題として、大規模ソーシャルネットワークにおける広告要求毎にユーザーモデル推論を実行する必要があるか? この問題とこれらの課題に対処するために、まずMetaでユーザアクセスパターンを分析し、ほとんどのユーザモデル推論が短い時間枠内で発生することを見つけます。 T氏の観察では、モデルの複雑さ、新鮮さの埋め込み、サービスSLAの間に三角形の関係が明らかになっている。 この知見に基づいて、当社は、ソーシャルネットワーク上の広告推薦システムにおいて、大規模ユーザ表現のための効率的で堅牢なキャッシュフレームワークであるERCacheを設計、実装、評価した。 ERCacheはキャッシュを直接型とフェイルオーバ型に分類し、各モデルにカスタマイズされた設定と終了ポリシーを適用し、キャッシュによって導入された不安定さを考慮しても、モデルの複雑さ、新鮮さの埋め込み、サービスSLAを効果的にバランスさせる。 ERCacheは6ヶ月以上Metaにデプロイされ、30以上のランキングモデルをサポートし、計算リソースを効率的に保存し、サービスSLA要件に準拠している。

The increasing complexity of deep learning models used for calculating user representations presents significant challenges, particularly with limited computational resources and strict service-level agreements (SLAs). Previous research efforts have focused on optimizing model inference but have overlooked a critical question: is it necessary to perform user model inference for every ad request in large-scale social networks? To address this question and these challenges, we first analyze user access patterns at Meta and find that most user model inferences occur within a short timeframe. T his observation reveals a triangular relationship among model complexity, embedding freshness, and service SLAs. Building on this insight, we designed, implemented, and evaluated ERCache, an efficient and robust caching framework for large-scale user representations in ads recommendation systems on social networks. ERCache categorizes cache into direct and failover types and applies customized settings and eviction policies for each model, effectively balancing model complexity, embedding freshness, and service SLAs, even considering the staleness introduced by caching. ERCache has been deployed at Meta for over six months, supporting more than 30 ranking models while efficiently conserving computational resources and complying with service SLA requirements.
翻訳日:2024-11-01 05:18:55 公開日:2024-10-09
# 超線形アンシラを用いたQAC0の計算パワーについて

On the Computational Power of QAC0 with Barely Superlinear Ancillae ( http://arxiv.org/abs/2410.06499v1 )

ライセンス: Link先を確認
Anurag Anshu, Yangjing Dong, Fengning Ou, Penghui Yao, (参考訳) $\mathrm{QAC}^0$ は、任意の単一キュービットユニタリとマルチキュービットトフォリゲートからなる定数深さ多項式サイズの量子回路の族である。 ムーア (arXiv: 9903046) によって$\mathrm{AC}^0$ の量子対として導入され、$\mathrm{QAC}^0$ 回路がPARITYを計算できないという予想とともに導入された。 この研究において、我々はこの長年の予想を前進させる: 深さ-d$$\mathrm{QAC}^0$回路は、近似次数$\Theta(n)$で関数を計算するために$n^{1+3^{-d}}$ ancillaeを必要とし、PARITY、MAJORITY、$\mathrm{MOD}_k$を含む。 これは、パリティの計算に必要なアンシラの大きさに関する最初の超線形下界である。 さらに、量子状態合成と量子チャネル合成の超線形下界を確立する。 これらの下界は、$\mathrm{QAC}^0$回路に低次近似を与えることによって導かれる。 低次作用素に適用すると、d$$$$\mathrm{QAC}^0$回路がスペクトルノルムの次数$(n+a)^{1-3^{-d}}$多項式近似を持つことを示す。 これは、線型サイズ $\mathrm{QAC}^0$ に対応するクラス $\mathrm{QLC}^0$ が近似次数 $o(n)$ を持つことを意味する。 これは、$\mathrm{LC}^0$ 回路が、Bun, Robin, Thaler [SODA 2019] による近似次数 $o(n)$ を持つという結果の量子一般化である。 我々の結果は、$\mathrm{QLC}^0\neq\mathrm{NC}^1$であることを意味する。

$\mathrm{QAC}^0$ is the family of constant-depth polynomial-size quantum circuits consisting of arbitrary single qubit unitaries and multi-qubit Toffoli gates. It was introduced by Moore [arXiv: 9903046] as a quantum counterpart of $\mathrm{AC}^0$, along with the conjecture that $\mathrm{QAC}^0$ circuits can not compute PARITY. In this work we make progress on this longstanding conjecture: we show that any depth-$d$ $\mathrm{QAC}^0$ circuit requires $n^{1+3^{-d}}$ ancillae to compute a function with approximate degree $\Theta(n)$, which includes PARITY, MAJORITY and $\mathrm{MOD}_k$. This is the first superlinear lower bound on the size of the ancillae required for computing parity. We further establish superlinear lower bounds on quantum state synthesis and quantum channel synthesis. These lower bounds are derived by giving low-degree approximations to $\mathrm{QAC}^0$ circuits. We show that a depth-$d$ $\mathrm{QAC}^0$ circuit with $a$ ancillae, when applied to low-degree operators, has a degree $(n+a)^{1-3^{-d}}$ polynomial approximation in the spectral norm. This implies that the class $\mathrm{QLC}^0$, corresponding to linear size $\mathrm{QAC}^0$ circuits, has approximate degree $o(n)$. This is a quantum generalization of the result that $\mathrm{LC}^0$ circuits have approximate degree $o(n)$ by Bun, Robin, and Thaler [SODA 2019]. Our result also implies that $\mathrm{QLC}^0\neq\mathrm{NC}^1$.
翻訳日:2024-11-01 05:18:55 公開日:2024-10-09
# 非識別性誘導による化学誘起拡散

Chemistry-Inspired Diffusion with Non-Differentiable Guidance ( http://arxiv.org/abs/2410.06502v1 )

ライセンス: Link先を確認
Yuchen Shen, Chenhao Zhang, Sijie Fu, Chenghui Zhou, Newell Washburn, Barnabás Póczos, (参考訳) 拡散モデルの最近の進歩は、新しい分子の条件生成に顕著な可能性を示している。 これらのモデルには2つの方法がある。 i) 明確に、条件を表す追加的特徴、または (ii) プロパティ予測子を使用して暗黙的に。 しかし、トレーニングプロパティ予測や条件付き拡散モデルにはラベル付きデータが多く必要であり、現実のアプリケーションでは本質的に困難である。 本研究では, 量子化学の領域知識を非微分可能なオラクルとして活用することにより, 大規模ラベル付きデータセットの獲得の限界を減らし, 非条件拡散モデルを導出する手法を提案する。 オラクルはニューラルネットワークに頼る代わりに、推定勾配の形で正確なガイダンスを提供し、量子化学によって指定された条件分布から拡散過程をサンプリングすることができる。 その結果, 新規な分子構造と安定な分子構造がより精密に生成できることが示唆された。 実験により,(1) 原子間力の低減,(2) 安定性最適化における生成分子の有効性の向上,(2) 拡散モデルにおける明示的および暗黙的なガイダンスの両立,および(3) 安定性最適化以上の分子最適化タスクに効果的に一般化できることが確認された。

Recent advances in diffusion models have shown remarkable potential in the conditional generation of novel molecules. These models can be guided in two ways: (i) explicitly, through additional features representing the condition, or (ii) implicitly, using a property predictor. However, training property predictors or conditional diffusion models requires an abundance of labeled data and is inherently challenging in real-world applications. We propose a novel approach that attenuates the limitations of acquiring large labeled datasets by leveraging domain knowledge from quantum chemistry as a non-differentiable oracle to guide an unconditional diffusion model. Instead of relying on neural networks, the oracle provides accurate guidance in the form of estimated gradients, allowing the diffusion process to sample from a conditional distribution specified by quantum chemistry. We show that this results in more precise conditional generation of novel and stable molecular structures. Our experiments demonstrate that our method: (1) significantly reduces atomic forces, enhancing the validity of generated molecules when used for stability optimization; (2) is compatible with both explicit and implicit guidance in diffusion models, enabling joint optimization of molecular properties and stability; and (3) generalizes effectively to molecular optimization tasks beyond stability optimization.
翻訳日:2024-11-01 05:18:55 公開日:2024-10-09
# MCTSによるLCMの自己改善に向けて:カリキュラム選好学習による段階的知識の活用

Towards Self-Improvement of LLMs via MCTS: Leveraging Stepwise Knowledge with Curriculum Preference Learning ( http://arxiv.org/abs/2410.06508v1 )

ライセンス: Link先を確認
Xiyao Wang, Linfeng Song, Ye Tian, Dian Yu, Baolin Peng, Haitao Mi, Furong Huang, Dong Yu, (参考訳) モンテカルロ木探索(MCTS)は近年,LLMの推論能力を高めるための強力な手法として登場した。 SFTやDPOのような技術により、LCMはMCTSから高品質な振る舞いを蒸留することができ、推論性能が向上した。 しかし, 既存の蒸留法では, LLM推論の改善の可能性を制限するため, MCTSが生み出す豊富な軌跡情報を活用できない。 本稿では, MCTS の挙動蒸留による LLM の自己改善を可能にする, 対角トレーニングフレームワークである AlphaLLM-CPL を提案する。 AlphaLLM-CPLは、探索木で同じ親を共有する子ノードから段階的に軌道対を構築し、より効果的なMCTS行動蒸留のためのステップレベル情報を提供する。 2)AlphaLLM-CPLは,各オフライントレーニングエポックにおける軌道対のトレーニングシーケンスを動的に調整し,重要な学習ステップの優先順位付けと過剰適合の軽減を目的として,カリキュラム優先学習を導入している。 また,AlphaLLM-CPL は従来の MCTS の挙動蒸留法を著しく上回り,LCM の推論能力を大幅に向上させることを示した。

Monte Carlo Tree Search (MCTS) has recently emerged as a powerful technique for enhancing the reasoning capabilities of LLMs. Techniques such as SFT or DPO have enabled LLMs to distill high-quality behaviors from MCTS, improving their reasoning performance. However, existing distillation methods underutilize the rich trajectory information generated by MCTS, limiting the potential for improvements in LLM reasoning. In this paper, we propose AlphaLLM-CPL, a novel pairwise training framework that enables LLMs to self-improve through MCTS behavior distillation. AlphaLLM-CPL efficiently leverages MCTS trajectories via two key innovations: (1) AlphaLLM-CPL constructs stepwise trajectory pairs from child nodes sharing the same parent in the search tree, providing step-level information for more effective MCTS behavior distillation. (2) AlphaLLM-CPL introduces curriculum preference learning, dynamically adjusting the training sequence of trajectory pairs in each offline training epoch to prioritize critical learning steps and mitigate overfitting. Experimental results on mathematical reasoning tasks demonstrate that AlphaLLM-CPL significantly outperforms previous MCTS behavior distillation methods, substantially boosting the reasoning capabilities of LLMs.
翻訳日:2024-11-01 05:18:55 公開日:2024-10-09
# PFAttack:フェデレートラーニングにおけるグループフェアネスをバイパスするステルス攻撃

PFAttack: Stealthy Attack Bypassing Group Fairness in Federated Learning ( http://arxiv.org/abs/2410.06509v1 )

ライセンス: Link先を確認
Jiashi Gao, Ziwei Wang, Xiangyu Zhao, Xin Yao, Xuetao Wei, (参考訳) グループフェアネスメカニズムを統合するフェデレートラーニング(FL)では、複数のクライアントが、センシティブな属性(性別や人種など)によってグループ化された異なる集団に対して、偏見のない決定を行うグローバルモデルを共同でトレーニングすることができる。 その分散性のため、以前の研究では、FL系は毒殺攻撃のモデルに弱いことが示されている。 しかし、これらの研究は主に摂動精度に重点を置いており、批判的な疑問は未解決のまま残されている: 攻撃者はFL内のグループフェアネスメカニズムをバイパスし、バイアスを受けるグローバルモデルを操作することができるか? このような攻撃の動機は様々であり、攻撃者はより高い精度を求めるかもしれないが、公平性に関する考慮は通常、グローバルモデルの正確さを制限するか、倫理的破壊を引き起こすことを目的としている。 この問題に対処するため,我々はPFATTACK(Profit-driven Fairness Attack)と呼ばれるFLにおける新たな攻撃形態を設計した。 我々の基本的な洞察は、グループフェアネスは、機密情報に関連する入力属性への出力の依存を弱めようとすることである。 提案したPFATTACKでは、攻撃者は様々な敏感なグループにまたがって局所的な微調整によってこの依存を回復し、バイアスのある正確性を保つ悪意のあるモデルを作成し、モデルの置換によってFLに注入することができる。 PFATTACKは精度を狙った攻撃に比べ、よりステルス性が高い。 PFATTACKの悪意あるモデルは、元のグローバルモデルと比較して微妙なパラメータのばらつきを示し、ビザンチン耐性凝集による検出とフィルタリングに対して堅牢である。 4つのフェアFLフレームワークと3つのビザンチン耐性アグリゲーションに対してベンチマークデータセットの大規模な実験を行い、FLにおけるグループフェアネスメカニズムをバイパスするPFATTACKの有効性とステルスを実証した。

Federated learning (FL), integrating group fairness mechanisms, allows multiple clients to collaboratively train a global model that makes unbiased decisions for different populations grouped by sensitive attributes (e.g., gender and race). Due to its distributed nature, previous studies have demonstrated that FL systems are vulnerable to model poisoning attacks. However, these studies primarily focus on perturbing accuracy, leaving a critical question unexplored: Can an attacker bypass the group fairness mechanisms in FL and manipulate the global model to be biased? The motivations for such an attack vary; an attacker might seek higher accuracy, yet fairness considerations typically limit the accuracy of the global model or aim to cause ethical disruption. To address this question, we design a novel form of attack in FL, termed Profit-driven Fairness Attack (PFATTACK), which aims not to degrade global model accuracy but to bypass fairness mechanisms. Our fundamental insight is that group fairness seeks to weaken the dependence of outputs on input attributes related to sensitive information. In the proposed PFATTACK, an attacker can recover this dependence through local fine-tuning across various sensitive groups, thereby creating a biased yet accuracy-preserving malicious model and injecting it into FL through model replacement. Compared to attacks targeting accuracy, PFATTACK is more stealthy. The malicious model in PFATTACK exhibits subtle parameter variations relative to the original global model, making it robust against detection and filtering by Byzantine-resilient aggregations. Extensive experiments on benchmark datasets are conducted for four fair FL frameworks and three Byzantine-resilient aggregations against model poisoning, demonstrating the effectiveness and stealth of PFATTACK in bypassing group fairness mechanisms in FL.
翻訳日:2024-11-01 05:18:55 公開日:2024-10-09
# TorchTitan: 生産可能なLLM事前トレーニングのためのワンストップPyTorchネイティブソリューション

TorchTitan: One-stop PyTorch native solution for production ready LLM pre-training ( http://arxiv.org/abs/2410.06511v1 )

ライセンス: Link先を確認
Wanchao Liang, Tianyu Liu, Less Wright, Will Constable, Andrew Gu, Chien-Chin Huang, Iris Zhang, Wei Feng, Howard Huang, Junjie Wang, Sanket Purandare, Gokul Nadathur, Stratos Idreos, (参考訳) 大規模言語モデル(LLM)の開発は、最先端の自然言語処理技術の進歩に役立っている。 数十億のパラメータと数兆のトークンを持つLLMのトレーニングには、数千ものアクセラレータを効率的にスケールするために、いくつかの最先端技術の構築と比較を可能にする高度な分散システムが必要である。 しかし、既存のソリューションは複雑で、複数のライブラリ/リポジトリに分散し、相互運用性が欠如しており、メンテナンスが面倒です。 したがって、トレーニングレシピをキュレートし、経験的に比較するには、非自明なエンジニアリング努力が必要である。 本稿では,PyTorchネイティブな分散トレーニングシステムであるTorchTitanについて紹介する。 TorchTitanは、弾力性のあるスケーリングでモジュール方式で3D並列処理を可能にし、包括的なロギング、チェックポイント、プロダクション対応トレーニングのためのデバッグツールを提供する。 また、ハードウェアとソフトウェアの共同設計ソリューションも組み込まれており、Float8トレーニングやSymmetricMemoryといった機能を活用している。 フレキシブルなテストベッドとして、TorchTitanはカスタムレシピのキュレーションと比較を容易にし、Llama 3.1のための最適化されたトレーニングレシピを開発し、私たちの経験に基づいて最大効率のテクニックを選択するためのガイダンスを提供する。 LLMのLlama 3.1ファミリ上でTorchTitanを徹底的に評価し、80億から4050億のパラメータにまたがり、その例外的なパフォーマンス、モジュール構成性、柔軟性を示す。 また,128-GPUスケール(Llama 3.1 8B)で65.08%,256-GPUスケール(Llama 3.1 70B)で12.59%,512-GPUスケール(Llama 3.1 405B)で512-GPUスケール(Llama 3.1 405B)で3D並列化を30%追加した。

The development of large language models (LLMs) has been instrumental in advancing state-of-the-art natural language processing applications. Training LLMs with billions of parameters and trillions of tokens require sophisticated distributed systems that enable composing and comparing several state-of-the-art techniques in order to efficiently scale across thousands of accelerators. However, existing solutions are complex, scattered across multiple libraries/repositories, lack interoperability, and are cumbersome to maintain. Thus, curating and empirically comparing training recipes require non-trivial engineering effort. This paper introduces TorchTitan, an open-source, PyTorch-native distributed training system that unifies state-of-the-art techniques, streamlining integration and reducing overhead. TorchTitan enables 3D parallelism in a modular manner with elastic scaling, providing comprehensive logging, checkpointing, and debugging tools for production-ready training. It also incorporates hardware-software co-designed solutions, leveraging features like Float8 training and SymmetricMemory. As a flexible test bed, TorchTitan facilitates custom recipe curation and comparison, allowing us to develop optimized training recipes for Llama 3.1 and provide guidance on selecting techniques for maximum efficiency based on our experiences. We thoroughly assess TorchTitan on the Llama 3.1 family of LLMs, spanning 8 billion to 405 billion parameters, and showcase its exceptional performance, modular composability, and elastic scalability. By stacking training optimizations, we demonstrate accelerations of 65.08% with 1D parallelism at the 128-GPU scale (Llama 3.1 8B), an additional 12.59% with 2D parallelism at the 256-GPU scale (Llama 3.1 70B), and an additional 30% with 3D parallelism at the 512-GPU scale (Llama 3.1 405B) on NVIDIA H100 GPUs over optimized baselines.
翻訳日:2024-11-01 05:18:55 公開日:2024-10-09
# MotionRL:マルチリワード強化学習による人選好のテキスト・ツー・モーション生成

MotionRL: Align Text-to-Motion Generation to Human Preferences with Multi-Reward Reinforcement Learning ( http://arxiv.org/abs/2410.06513v1 )

ライセンス: Link先を確認
Xiaoyang Liu, Yunyao Mao, Wengang Zhou, Houqiang Li, (参考訳) 我々は、テキスト・ツー・モーション生成タスクを最適化し、それらを人間の好みに合わせるために、Multi-Reward Reinforcement Learning(RL)を利用する最初のアプローチであるMotionRLを紹介する。 以前の研究は、与えられたデータセットの数値的なパフォーマンス指標の改善に重点を置いており、人間のフィードバックの多様性と主観性を無視することが多かった。 対照的に、我々の新しいアプローチは強化学習を用いて人間の嗜好に基づく動き生成を微調整し、人間の嗜好をよりよく調整する動きを生成する。 さらに、MotionRLは、テキストのアテンデンス、モーションクオリティ、人間の好みのパレート最適性を近似する、新しい多目的最適化戦略を導入している。 大規模な実験とユーザスタディにより、MotionRLは、異なる目的に対して生成された結果の制御を可能にするだけでなく、他のアルゴリズムと比較して、これらのメトリクスのパフォーマンスを大幅に向上することを示した。

We introduce MotionRL, the first approach to utilize Multi-Reward Reinforcement Learning (RL) for optimizing text-to-motion generation tasks and aligning them with human preferences. Previous works focused on improving numerical performance metrics on the given datasets, often neglecting the variability and subjectivity of human feedback. In contrast, our novel approach uses reinforcement learning to fine-tune the motion generator based on human preferences prior knowledge of the human perception model, allowing it to generate motions that better align human preferences. In addition, MotionRL introduces a novel multi-objective optimization strategy to approximate Pareto optimality between text adherence, motion quality, and human preferences. Extensive experiments and user studies demonstrate that MotionRL not only allows control over the generated results across different objectives but also significantly enhances performance across these metrics compared to other algorithms.
翻訳日:2024-11-01 05:18:55 公開日:2024-10-09
# MORSE: 非線形操作を実現する効率的な同型秘密共有方式

MORSE: An Efficient Homomorphic Secret Sharing Scheme Enabling Non-Linear Operation ( http://arxiv.org/abs/2410.06514v1 )

ライセンス: Link先を確認
Weiquan Deng, Bowen Zhao, Yang Xiao, Yantao Zhong, Qingqi Pei, Ximeng Liu, (参考訳) ホモモルフィックシークレット共有(HSS)は、2つのサーバが暗号化されたデータを直接ローカルに実行し、その結果を共有形式で取得することを可能にする。 Paillier ベースの HSS ソリューションは、乗法準同型をシームレスに達成し、通信コストを少なくする。 残念ながら、既存のPaillierベースのHSSスキームは、大きな秘密鍵サイズ、潜在的な計算エラー、高価な計算とストレージオーバーヘッドに悩まされており、線形演算(例えば、加算と乗算)でのみ有効である。 この目的のために、高速な暗号化と復号化を伴うPaillier暗号システムにインスパイアされたMORSEを提案する。 関数の面では、MORSEは加算、減算、乗算、スカラー乗算、比較をサポートする。 特に、1つのPaillier暗号文と2つの秘密共有との相互変換を実現するための2つの変換プロトコルを慎重に設計し、MORSEが上記の操作を連続的に実行できるようにする。 厳密な分析により、MORSEは正しい結果を確実に出力することを示した。 実験結果から、MORSEは安全性の高い乗算で最大9.3倍のランタイム改善を実現し、通信コストは最先端と比較して最大16.6%削減された。

Homomorphic secret sharing (HSS) enables two servers to locally perform functions on encrypted data directly and obtain the results in the form of shares. A Paillier-based HSS solution seamlessly achieves multiplicative homomorphism and consumes less communication costs. Unfortunately, existing Paillier-based HSS schemes suffer from a large private key size, potential calculation error, expensive computation and storage overhead, and only valid on linear operations (e.g., addition and multiplication). To this end, inspired by the Paillier cryptosystem with fast encryption and decryption, we propose MORSE, an efficient homomorphic secret sharing scheme enabling non-linear operation, which enjoys a small key size, no calculation error and low overhead. In terms of functions, MORSE supports addition, subtraction, multiplication, scalar-multiplication, and comparison. Particularly, we carefully design two conversion protocols achieving the mutual conversion between one Paillier ciphertext and two secret shares, which allows MORSE to continuously perform the above operations. Rigorous analyses demonstrate that MORSE securely outputs correct results. Experimental results show that MORSE makes a runtime improvement of up to 9.3 times in terms of secure multiplication, and a communication costs reduction of up to 16.6% in secure comparison, compared to the state-of-the-art.
翻訳日:2024-11-01 05:18:55 公開日:2024-10-09
# クリアーコードレビューに対する実践者の期待

Studying Practitioners' Expectations on Clear Code Review Comments ( http://arxiv.org/abs/2410.06515v1 )

ライセンス: Link先を確認
Zhenhao Li, Junkai Chen, Qiheng Mao, Xing Hu, Kui Liu, Xin Xia, (参考訳) コードレビューコメント(CRC)は、現代のコードレビューの過程において重要なものである。 潜在的なバグを特定し、建設的なフィードバックを提供し、改善を提案する機会をレビュアーに提供する。 明確で簡潔なコードレビューコメント(CRC)は、開発者間のコミュニケーションを促進し、特定され提案されたソリューションの正しい理解に不可欠である。 CRCの明確さの重要性にもかかわらず、良い明快さを構成するものやその評価方法に関するガイドラインがまだ不足している。 本稿では,CRCの明瞭さの理解と評価に関する総合的研究を行う。 まず,CRCの明快さ,すなわちRIE属性(関連性,表現性,表現性)と,文献レビューと実践者による調査に基づく評価基準のセットを導出する。 その後、9つのプログラミング言語で書かれたオープンソースプロジェクトにおけるCRCの明快さを調査し、CRCの大部分が少なくとも1つの属性で明快さを欠いていることを発見した。 最後に,CRCの明瞭度を評価する自動化フレームワークであるClearCRCを提案する。 実験の結果,ClearCRCはCRCの明瞭度を効果的に評価し,ベースラインよりも優れていた。

The code review comment (CRC) is pivotal in the process of modern code review. It provides reviewers with the opportunity to identify potential bugs, offer constructive feedback, and suggest improvements. Clear and concise code review comments (CRCs) facilitate the communication between developers and is crucial to the correct understanding of the issues identified and proposed solutions. Despite the importance of CRCs' clarity, there is still a lack of guidelines on what constitutes a good clarity and how to evaluate it. In this paper, we conduct a comprehensive study on understanding and evaluating the clarity of CRCs. We first derive a set of attributes related to the clarity of CRCs, namely RIE attributes (i.e., Relevance, Informativeness, and Expression), as well as their corresponding evaluation criteria based on our literature review and survey with practitioners. We then investigate the clarity of CRCs in open-source projects written in nine programming languages and find that a large portion (i.e., 28.8%) of the CRCs lack the clarity in at least one of the attributes. Finally, we propose ClearCRC, an automated framework that evaluates the clarity of CRCs. Experimental results show that ClearCRC can effectively evaluate the clarity of CRCs and outperform the baselines.
翻訳日:2024-11-01 05:18:55 公開日:2024-10-09
# QuadBEV:Bird's-Eye-View Representationによる効率的な四重項知覚フレームワーク

QuadBEV: An Efficient Quadruple-Task Perception Framework via Bird's-Eye-View Representation ( http://arxiv.org/abs/2410.06516v1 )

ライセンス: Link先を確認
Yuxin Li, Yiheng Li, Xulei Yang, Mengying Yu, Zihang Huang, Xiaojun Wu, Chai Kiat Yeo, (参考訳) Bird's-Eye-View (BEV) 知覚は、複数のセンサー入力を統一表現に統合し、様々な下流タスクのパフォーマンスを向上させる能力により、自律運転システムにおいて重要な要素となっている。 しかしながら、BEVモデルの計算要求は、限られた資源を持つ車両における現実の展開に困難をもたらす。 これらの制約に対処するために,3次元オブジェクト検出,車線検出,マップセグメンテーション,占有率予測という4つの主要なタスクで共有された空間情報と文脈情報を活用する,効率的なマルチタスク認識フレームワークであるQuadBEVを提案する。 QuadBEVは、共有バックボーンとタスク固有のヘッドを使用してこれらのタスクの統合を合理化するだけでなく、学習速度の感度やタスク目標の矛盾といった一般的なマルチタスク学習課題にも対処する。 我々のフレームワークは冗長な計算を減らし、システム効率を向上し、組込みシステムに特に適している。 本研究は,QuadBEVの有効性とロバスト性を検証し,実世界の応用に適合することを示す包括的実験である。

Bird's-Eye-View (BEV) perception has become a vital component of autonomous driving systems due to its ability to integrate multiple sensor inputs into a unified representation, enhancing performance in various downstream tasks. However, the computational demands of BEV models pose challenges for real-world deployment in vehicles with limited resources. To address these limitations, we propose QuadBEV, an efficient multitask perception framework that leverages the shared spatial and contextual information across four key tasks: 3D object detection, lane detection, map segmentation, and occupancy prediction. QuadBEV not only streamlines the integration of these tasks using a shared backbone and task-specific heads but also addresses common multitask learning challenges such as learning rate sensitivity and conflicting task objectives. Our framework reduces redundant computations, thereby enhancing system efficiency, making it particularly suited for embedded systems. We present comprehensive experiments that validate the effectiveness and robustness of QuadBEV, demonstrating its suitability for real-world applications.
翻訳日:2024-11-01 05:18:55 公開日:2024-10-09
# SEGMENT+:ショートコンテキスト言語モデルによる長文処理

SEGMENT+: Long Text Processing with Short-Context Language Models ( http://arxiv.org/abs/2410.06519v1 )

ライセンス: Link先を確認
Wei Shi, Shuang Li, Kerun Yu, Jinglei Chen, Zujie Liang, Xinhui Wu, Yuxi Qian, Feng Wei, Bo Zheng, Jiaqing Liang, Jiangjie Chen, Yanghua Xiao, (参考訳) 言語モデル(LM)の入力能力を様々な領域に拡張することへの関心が高まっている。 しかし、コンテキストウインドウの増大は、広範囲な文書の理解や、長大でノイズの多いデータからの詳細な情報抽出など、多種多様な長期処理タスクにおける堅牢なパフォーマンスを保証するものではない。 そこで本研究では,制限されたコンテキストウィンドウ内で,拡張入力を効率的に処理できる汎用フレームワークSEGMENT+を紹介する。 SEGMENT+は構造化音符とフィルタリングモジュールを使用して情報の流れを管理し、制御可能かつ解釈可能なシステムを実現する。 本研究は,長期文書質問応答とHaystackタスクに着目し,多種多様なモデルサイズにわたる実験を行い,SEGMENT+の有効性を実証した。

There is a growing interest in expanding the input capacity of language models (LMs) across various domains. However, simply increasing the context window does not guarantee robust performance across diverse long-input processing tasks, such as understanding extensive documents and extracting detailed information from lengthy and noisy data. In response, we introduce SEGMENT+, a general framework that enables LMs to handle extended inputs within limited context windows efficiently. SEGMENT+ utilizes structured notes and a filtering module to manage information flow, resulting in a system that is both controllable and interpretable. Our extensive experiments across various model sizes, focusing on long-document question-answering and Needle-in-a-Haystack tasks, demonstrate the effectiveness of SEGMENT+ in improving performance.
翻訳日:2024-11-01 05:18:55 公開日:2024-10-09
# 長対話のためのLLMに基づく2段階要約手法

A Novel LLM-based Two-stage Summarization Approach for Long Dialogues ( http://arxiv.org/abs/2410.06520v1 )

ライセンス: Link先を確認
Yuan-Jhe Yin, Bo-Yu Chen, Berlin Chen, (参考訳) 長い文書要約は、ほとんどの最先端の訓練済み言語モデルの容量を超える入力長のため、自然言語処理において重要な課題となる。 本研究では,長い文書から情報を分割・凝縮する階層的枠組みを提案し,その後,抽象的な要約モデルを用いて処理されたテキストを微調整する。 教師なしトピックセグメンテーション手法は意味的に適切なブレークポイントを識別する。 凝縮段階は教師なし生成モデルを用いて凝縮データを生成し, 現在の実験ではChatGPT(v3.5)を用いている。 要約段階は、縮合されたデータ上の抽象的な要約モデルを微調整して最終結果を生成する。 このフレームワークは、ドキュメント長がモデルの最大入力サイズを超えた場合でも、長いドキュメントをモデル上で処理できる。 要約モデルから文書全体を除外することで、訓練に必要な時間と計算資源を減らし、制約のある局所的な計算資源のコンテキストに適したフレームワークを作ることができる。

Long document summarization poses a significant challenge in natural language processing due to input lengths that exceed the capacity of most state-of-the-art pre-trained language models. This study proposes a hierarchical framework that segments and condenses information from long documents, subsequently fine-tuning the processed text with an abstractive summarization model. Unsupervised topic segmentation methods identify semantically appropriate breakpoints. The condensation stage utilizes an unsupervised generation model to generate condensed data, and our current experiments employ ChatGPT(v3.5). The summarization stage fine-tunes the abstractive summarization model on the condensed data to generate the final results. This framework enables long documents to be processed on models even when the document length exceeds the model's maximum input size. The exclusion of the entire document from the summarization model reduces the time and computational resources required for training, making the framework suitable for contexts with constrained local computational resources.
翻訳日:2024-11-01 05:09:09 公開日:2024-10-09
# 再スタートマーカーを用いたビットストリームレベルのJPEG暗号化のセキュリティについて

On the Security of Bitstream-level JPEG Encryption with Restart Markers ( http://arxiv.org/abs/2410.06522v1 )

ライセンス: Link先を確認
Mare Hirose, Shoko Imaizumi, Hitoshi Kiya, (参考訳) 本稿では、リスタートマーカー(RST)を用いて、ビットストリームレベルのJPEG暗号化方式のセキュリティを評価することを目的としており、暗号化された画像は、非暗号化画像と同じファイルサイズでJPEGファイルフォーマットを保持することができる。 この方法で暗号化されたデータは、標準JPEGデコーダを用いることでヘッダ情報を変更せずに復号化することができる。 さらに、RTTマーカーを使用することで、マーカによって分割された拡張ブロックの定義が可能になり、空間的に部分的な暗号化とブロック置換に基づく暗号化を行うことができる。 しかし, 本手法の安全性は, ブルートフォース攻撃やその他の限られた攻撃に対する鍵空間解析に関してのみ評価された。 そこで本稿では,最先端攻撃を含む暗号文のみによる攻撃に対するロバスト性に関して,本手法の安全性を評価した。 実験では、従来の暗号化手法と比較し、画像暗号化に使用するパラメータが慎重に選択された場合、暗号文のみの攻撃に対して堅牢であることが確認された。

This paper aims to evaluate the security of a bitstream-level JPEG encryption method using restart (RST) markers, where encrypted image can keep the JPEG file format with the same file size as non-encrypted image. Data encrypted using this method can be decoded without altering header information by employing a standard JPEG decoder. Moreover, the use of RST markers enables the definition of extended blocks divided by the markers, so spatially partial encryption and block-permutation-based encryption can be carried out. However, the security of the method was evaluated only with respect to the key space analysis for brute-force attacks and other limited attacks. Accordingly, in this paper, we evaluated the security of the method with respect to robustness against ciphertext-only attacks including state-of-the-art attacks. In experiments, the method is compared with conventional encryption methods, and it is confirmed to be robust against ciphertext-only attacks if parameters used for image encryption are carefully chosen.
翻訳日:2024-11-01 05:09:09 公開日:2024-10-09
# 超伝導秩序と密度の非線形相互作用からの位相図:データに基づくホログラフィック超伝導体へ向けて

Phase Diagram from Nonlinear Interaction between Superconducting Order and Density: Toward Data-Based Holographic Superconductor ( http://arxiv.org/abs/2410.06523v1 )

ライセンス: Link先を確認
Sejin Kim, Kyung Kiu Kim, Yunseok Seo, (参考訳) ホログラフィック超伝導体のモデリングにおける逆問題に対処する。 我々は,実験によって表される臨界温度挙動に焦点をあてる。 物理インフォームドニューラルネットワークを用いて、位相遷移の挙動を理解するために必要となる質量関数$M(F^2)$を求める。 この質量関数は超伝導秩序と電荷キャリア密度の間の非線形相互作用を記述する。 我々は,アルゴリズムの学習過程を改善するために位置埋め込み層を導入し,Adam最適化を用いてホログラフィック計算による臨界温度データを予測する。 位置埋め込み層の考察は、人工知能(AI)分野における自然言語処理のトランスフォーマーモデルによって動機付けられている。 本研究は, 実データから得られた常・超伝導相の境界線を再現するホログラフィックモデルを得る。 我々の研究は、実験から得られた相転移データを定量的にマッチングする最初のホログラフィックの試みである。 また、本研究は、データに基づくホログラフィーモデルのための新しい方法論を提供する。

We address an inverse problem in modeling holographic superconductors. We focus our research on the critical temperature behavior depicted by experiments. We use a physics-informed neural network method to find a mass function $M(F^2)$, which is necessary to understand phase transition behavior. This mass function describes a nonlinear interaction between superconducting order and charge carrier density. We introduce positional embedding layers to improve the learning process in our algorithm, and the Adam optimization is used to predict the critical temperature data via holographic calculation with appropriate accuracy. Consideration of the positional embedding layers is motivated by the transformer model of natural-language processing in the artificial intelligence (AI) field. We obtain holographic models that reproduce borderlines of the normal and superconducting phases provided by actual data. Our work is the first holographic attempt to match phase transition data quantitatively obtained from experiments. Also, the present work offers a new methodology for data-based holographic models.
翻訳日:2024-11-01 05:09:09 公開日:2024-10-09
# 偉大な心は同じように考えるか?CAIMIRAを用いた質問応答における人間とAIの相補性の検討

Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA ( http://arxiv.org/abs/2410.06524v1 )

ライセンス: Link先を確認
Maharshi Gor, Hal Daumé III, Tianyi Zhou, Jordan Boyd-Graber, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、テキスト理解や推論といった自然言語処理(NLP)タスクにおいて、AIが人間を上回るという主張につながっている。 本研究では,質問応答論(IRT)に根ざした新しいフレームワークであるCAIMIRAを導入することにより,質問応答(QA)エージェントの問題解決能力の定量的評価と比較を可能にする。 70以上のAIシステムと、何千ものクイズ質問にまたがる155人の人間からの30万以上の応答を分析して、CAIMIRAは知識ドメインと推論スキルの異なる習熟パターンを明らかにした。 GPT-4やLLaMAのような最先端のLLMは、特に情報ギャップがパターンマッチングやデータ検索によって適切に定義され、アドレス化可能である場合に、ターゲットとした情報検索と事実ベースの推論において優れたパフォーマンスを示す。 これらの発見は、高次の推論や科学的思考だけでなく、ニュアンスな言語解釈とコンテキスト横断的な知識アプリケーションを必要とし、現実世界の問題解決において人間の認知能力をよりうまくエミュレートし、補完するAI開発を支援する、今後のQAタスクの必要性を強調している。

Recent advancements of large language models (LLMs) have led to claims of AI surpassing humans in natural language processing (NLP) tasks such as textual understanding and reasoning. This work investigates these assertions by introducing CAIMIRA, a novel framework rooted in item response theory (IRT) that enables quantitative assessment and comparison of problem-solving abilities of question-answering (QA) agents: humans and AI systems. Through analysis of over 300,000 responses from ~70 AI systems and 155 humans across thousands of quiz questions, CAIMIRA uncovers distinct proficiency patterns in knowledge domains and reasoning skills. Humans outperform AI systems in knowledge-grounded abductive and conceptual reasoning, while state-of-the-art LLMs like GPT-4 and LLaMA show superior performance on targeted information retrieval and fact-based reasoning, particularly when information gaps are well-defined and addressable through pattern matching or data retrieval. These findings highlight the need for future QA tasks to focus on questions that challenge not only higher-order reasoning and scientific thinking, but also demand nuanced linguistic interpretation and cross-contextual knowledge application, helping advance AI developments that better emulate or complement human cognitive abilities in real-world problem-solving.
翻訳日:2024-11-01 05:09:09 公開日:2024-10-09
# ステレオマッチングのためのサンプリング・ガウスアン

The Sampling-Gaussian for stereo matching ( http://arxiv.org/abs/2410.06527v1 )

ライセンス: Link先を確認
Baiyu Pan, jichao jiao, Bowen Yao, Jianxin Pang, Jun Cheng, (参考訳) ソフトアルグマックス演算は、ニューラルネットワークベースのステレオマッチング法で広く採用されており、相違の微分可能な回帰を可能にする。 しかし、確率分布の形状に明示的な制約がないため、ソフトアルグマックスで訓練されたネットワークはマルチモーダルになりがちである。 従来の手法ではラプラシア分布とクロスエントロピーをトレーニングに利用していたが、精度を効果的に向上できず、ネットワークの効率を損なうこともなかった。 本稿では,従来の配電方式の詳細な解析を行い,ステレオマッチングのための新しい監視手法であるサンプリング・ガウシアンを提案する。 我々は監督のためにガウス分布からサンプルを採取した。 さらに,ベクトル空間における距離の最小化としてトレーニングを解釈し,L1損失とコサイン類似性損失の複合的損失を提案する。 さらに,双線形補間を利用してコストを増幅した。 本手法は効率を低下させることなく任意のソフトargmaxベースのステレオマッチング法に直接適用することができる。 我々はSamping-Gaussianの優れた性能を示すための総合的な実験を行った。 実験の結果,5つのベースライン法と2つのデータセットの精度が向上したことが示された。 私たちのメソッドの実装は簡単で、コードはオンラインで利用可能です。

The soft-argmax operation is widely adopted in neural network-based stereo matching methods to enable differentiable regression of disparity. However, network trained with soft-argmax is prone to being multimodal due to absence of explicit constraint to the shape of the probability distribution. Previous methods leverages Laplacian distribution and cross-entropy for training but failed to effectively improve the accuracy and even compromises the efficiency of the network. In this paper, we conduct a detailed analysis of the previous distribution-based methods and propose a novel supervision method for stereo matching, Sampling-Gaussian. We sample from the Gaussian distribution for supervision. Moreover, we interpret the training as minimizing the distance in vector space and propose a combined loss of L1 loss and cosine similarity loss. Additionally, we leveraged bilinear interpolation to upsample the cost volume. Our method can be directly applied to any soft-argmax-based stereo matching method without a reduction in efficiency. We have conducted comprehensive experiments to demonstrate the superior performance of our Sampling-Gaussian. The experimental results prove that we have achieved better accuracy on five baseline methods and two datasets. Our method is easy to implement, and the code is available online.
翻訳日:2024-11-01 05:09:09 公開日:2024-10-09
# 脳波推定機能的接続性は行動ではなく, パーキンソン病患者とシモン紛争時の健康管理を区別する

EEG-estimated functional connectivity, and not behavior, differentiates Parkinson's patients from health controls during the Simon conflict task ( http://arxiv.org/abs/2410.06534v1 )

ライセンス: Link先を確認
Xiaoxiao Sun, Chongkun Zhao, Sharath Koorathota, Paul Sajda, (参考訳) 病気を分類または予測できる神経バイオマーカーは、神経学的および精神医学的なコミュニティに広く関心がある。 このようなバイオマーカーは、症状や行動が変化する前にも、疾患の状態や治療効果を知らせることができる。 本研究では、パーキンソン病(PD)バイオマーカーとしての脳波推定機能接続(FC)について検討する。 具体的には、神経振動を介するFCについて検討し、シモンズ衝突時の活動について考察する。 この課題は感覚と運動の対立を生じさせ、PD患者と健康管理(HC)の行動の違いを期待するかもしれない。 バイオマーカーとしてFCなどの空間的に焦点を絞ったアプローチを検討することに加え、神経活動の継続的な変化に対してより敏感な時間的バイオマーカーについても検討する。 デルタ (1-4Hz) とセタ (4-7Hz) の振動から推定した FC は時間的特徴や振舞いよりも HC と PD を区別する空間的 FC パターンが有意に優れていることがわかった。 本研究は、スペクトルバンド中のFCが脳全体のプロセスの違いを知らせるものであり、疾患で見られるものと通常の脳機能とを区別するバイオマーカーとして機能することを示した。

Neural biomarkers that can classify or predict disease are of broad interest to the neurological and psychiatric communities. Such biomarkers can be informative of disease state or treatment efficacy, even before there are changes in symptoms and/or behavior. This work investigates EEG-estimated functional connectivity (FC) as a Parkinson's Disease (PD) biomarker. Specifically, we investigate FC mediated via neural oscillations and consider such activity during the Simons conflict task. This task yields sensory-motor conflict, and one might expect differences in behavior between PD patients and healthy controls (HCs). In addition to considering spatially focused approaches, such as FC, as a biomarker, we also consider temporal biomarkers, which are more sensitive to ongoing changes in neural activity. We find that FC, estimated from delta (1-4Hz) and theta (4-7Hz) oscillations, yields spatial FC patterns significantly better at distinguishing PD from HC than temporal features or behavior. This study reinforces that FC in spectral bands is informative of differences in brain-wide processes and can serve as a biomarker distinguishing normal brain function from that seen in disease.
翻訳日:2024-11-01 05:09:09 公開日:2024-10-09
# MedImageInsight: 一般領域の医療画像のためのオープンソースの埋め込みモデル

MedImageInsight: An Open-Source Embedding Model for General Domain Medical Imaging ( http://arxiv.org/abs/2410.06542v1 )

ライセンス: Link先を確認
Noel C. F. Codella, Ying Jin, Shrey Jain, Yu Gu, Ho Hin Lee, Asma Ben Abacha, Alberto Santamaria-Pang, Will Guyman, Naiteek Sangani, Sheng Zhang, Hoifung Poon, Stephanie Hyland, Shruthi Bannur, Javier Alvarez-Valle, Xue Li, John Garrett, Alan McMillan, Gaurav Rajguru, Madhu Maddi, Nilesh Vijayrania, Rehaan Bhimai, Nick Mecklenburg, Rupal Jain, Daniel Holstein, Naveen Gaur, Vijay Aski, Jenq-Neng Hwang, Thomas Lin, Ivan Tarapov, Matthew Lungren, Mu Wei, (参考訳) 本稿では,オープンソース医療画像埋め込みモデルであるMedImageInsightを紹介する。 MedImageInsightは、X線、CT、MRI、皮膚内視鏡、OCT、眼底写真、超音波、病理組織学、マンモグラフィーなど、さまざまな領域にまたがる関連テキストやラベルの医療画像に基づいて訓練されている。 厳密な評価は、MedImageInsightが最先端(SOTA)または人間の専門家レベルのパフォーマンスを、分類、画像画像検索、微調整タスクで達成する能力を示している。 具体的には, 胸部X線, 皮膚科, OCT画像の検索において, CT 3D 画像検索における SOTA と, 疾患分類および検索における SOTA を達成している。 さらに、MedImageInsightは、他のほとんどのドメインの0.9以上のAUCと同様に、骨年齢推定(パブリックデータとパートナーデータの両方)において、人間の専門家のパフォーマンスを達成する。 テキストデコーダと組み合わせると、MedImageInsightは、他のモデルのパラメータの10倍未満のSOTAレベルの単一画像レポート結果を生成する。 MedImageInsight はMIMIC-CXRデータのみを用いた細調整 GPT-4o と比較して臨床指標では優れていたが,GPT-4o が新しい SOTA をセットする語彙指標では性能が劣る。 重要な目的として、MedImageInsightはROC曲線を生成し、臨床ニーズに応じて感度と特異性を調整し、画像画像検索によるエビデンスに基づく意思決定支援を提供する。 胸部X線画像検索の独立した臨床評価において、MedImageInsightは、大きなマージン(6点以上のAUC)で評価された他の公開基盤モデルよりも優れており、AIフェアネス(年齢と性別)において他のモデルよりも著しく優れていた。 MedImageInsightをリリースすることで、医療画像AIの研究と開発における総合的な進歩が促進されることを願っている。

In this work, we present MedImageInsight, an open-source medical imaging embedding model. MedImageInsight is trained on medical images with associated text and labels across a diverse collection of domains, including X-Ray, CT, MRI, dermoscopy, OCT, fundus photography, ultrasound, histopathology, and mammography. Rigorous evaluations demonstrate MedImageInsight's ability to achieve state-of-the-art (SOTA) or human expert level performance across classification, image-image search, and fine-tuning tasks. Specifically, on public datasets, MedImageInsight achieves SOTA in CT 3D medical image retrieval, as well as SOTA in disease classification and search for chest X-ray, dermatology, and OCT imaging. Furthermore, MedImageInsight achieves human expert performance in bone age estimation (on both public and partner data), as well as AUC above 0.9 in most other domains. When paired with a text decoder, MedImageInsight achieves near SOTA level single image report findings generation with less than 10\% the parameters of other models. Compared to fine-tuning GPT-4o with only MIMIC-CXR data for the same task, MedImageInsight outperforms in clinical metrics, but underperforms on lexical metrics where GPT-4o sets a new SOTA. Importantly for regulatory purposes, MedImageInsight can generate ROC curves, adjust sensitivity and specificity based on clinical need, and provide evidence-based decision support through image-image search (which can also enable retrieval augmented generation). In an independent clinical evaluation of image-image search in chest X-ray, MedImageInsight outperformed every other publicly available foundation model evaluated by large margins (over 6 points AUC), and significantly outperformed other models in terms of AI fairness (across age and gender). We hope releasing MedImageInsight will help enhance collective progress in medical imaging AI research and development.
翻訳日:2024-11-01 05:09:09 公開日:2024-10-09
# ガンベル・ラオ・モンテカルロによるオーディオ・ビジュアルディープフェイク検出のためのバイモーダルニューラルネットワーク探索

Gumbel Rao Monte Carlo based Bi-Modal Neural Architecture Search for Audio-Visual Deepfake Detection ( http://arxiv.org/abs/2410.06543v1 )

ライセンス: Link先を確認
Aravinda Reddy PN, Raghavendra Ramachandra, Krothapalli Sreenivasa Rao, Pabitra Mitra Vinod Rathod, (参考訳) ディープフェイクは、高度にリアルな合成メディアを生成することによって、生体認証システムに重大な脅威をもたらす。 既存のマルチモーダルディープフェイク検出器は、しばしば多様なデータに適応するのに苦労し、単純な融合法に依存している。 これらの課題に対処するため,Gumbel-Rao Monte Carlo Bi-modal Neural Architecture Search (GRMC-BMNAS)を提案する。 Rao-Blackwellizationとの分散を低減し、ネットワークトレーニングを安定化することで、Gumbel Softmax (STGS) 法によるストレートを改良する。 2段階の探索手法を用いて、このフレームワークはネットワークアーキテクチャ、パラメータ、パフォーマンスを最適化する。 バックボーンネットワークから地殻の特徴を効率的に同定する一方、細胞構造内では重み付け核融合操作は様々な情報源からの情報を統合する。 温度やモンテカルロサンプルの数などのパラメータが変化すると、分類性能とより優れた一般化能力を最大化するアーキテクチャが得られる。 FakeAVCelebとSWAN-DFデータセットの実験結果は、最小モデルパラメータで達成された印象的なAUCパーセンテージ95.4\%を示している。

Deepfakes pose a critical threat to biometric authentication systems by generating highly realistic synthetic media. Existing multimodal deepfake detectors often struggle to adapt to diverse data and rely on simple fusion methods. To address these challenges, we propose Gumbel-Rao Monte Carlo Bi-modal Neural Architecture Search (GRMC-BMNAS), a novel architecture search framework that employs Gumbel-Rao Monte Carlo sampling to optimize multimodal fusion. It refines the Straight through Gumbel Softmax (STGS) method by reducing variance with Rao-Blackwellization, stabilizing network training. Using a two-level search approach, the framework optimizes the network architecture, parameters, and performance. Crucial features are efficiently identified from backbone networks, while within the cell structure, a weighted fusion operation integrates information from various sources. By varying parameters such as temperature and number of Monte carlo samples yields an architecture that maximizes classification performance and better generalisation capability. Experimental results on the FakeAVCeleb and SWAN-DF datasets demonstrate an impressive AUC percentage of 95.4\%, achieved with minimal model parameters.
翻訳日:2024-11-01 05:09:09 公開日:2024-10-09
# 大規模言語モデルにおける信号透かし

Signal Watermark on Large Language Models ( http://arxiv.org/abs/2410.06545v1 )

ライセンス: Link先を確認
Zhenyu Xu, Victor S. Sheng, (参考訳) 大きな言語モデル(LLM)が高度化するにつれて、偽ニュースの作成や学術的誤用など、重大なセキュリティ上の懸念が持ち上がる。 モデル生成テキストを識別するほとんどの検出器は、パープレキシティとバーストネスのばらつきに依存しているため、かなりの計算資源を必要とする。 本稿では,予め定義された信号パターンに基づいて,LLMによるテキスト生成中に特定の透かしを埋め込む透かし手法を提案する。 この技術は、透かしが人間に見えないことを保証するだけでなく、モデル生成テキストの品質と文法的整合性も維持する。 我々は,トークン確率計算と信号透かしの検出に LLM と Fast Fourier Transform (FFT) を用いる。 LLMによるテキスト生成の領域における信号処理原理のユニークな適用により、微妙に効果的なウォーターマークの埋め込みが可能となり、生成されたテキストの品質やコヒーレンスを損なうことはない。 本手法は,テキスト生成時の温度設定の変化があっても,連続的に高い検出精度を保ちながら,複数のLDMで実証的に検証されている。 人書きテキストと透かしテキストの区別実験において,本手法はAUROCスコア0.97を達成し,GPTZeroなど既存手法の0.64を上回った。 様々な攻撃シナリオに対するウォーターマークのレジリエンスは、その堅牢性をさらに確認し、モデル生成テキスト認証における大きな課題に対処する。

As Large Language Models (LLMs) become increasingly sophisticated, they raise significant security concerns, including the creation of fake news and academic misuse. Most detectors for identifying model-generated text are limited by their reliance on variance in perplexity and burstiness, and they require substantial computational resources. In this paper, we proposed a watermarking method embedding a specific watermark into the text during its generation by LLMs, based on a pre-defined signal pattern. This technique not only ensures the watermark's invisibility to humans but also maintains the quality and grammatical integrity of model-generated text. We utilize LLMs and Fast Fourier Transform (FFT) for token probability computation and detection of the signal watermark. The unique application of signal processing principles within the realm of text generation by LLMs allows for subtle yet effective embedding of watermarks, which do not compromise the quality or coherence of the generated text. Our method has been empirically validated across multiple LLMs, consistently maintaining high detection accuracy, even with variations in temperature settings during text generation. In the experiment of distinguishing between human-written and watermarked text, our method achieved an AUROC score of 0.97, significantly outperforming existing methods like GPTZero, which scored 0.64. The watermark's resilience to various attacking scenarios further confirms its robustness, addressing significant challenges in model-generated text authentication.
翻訳日:2024-11-01 05:09:09 公開日:2024-10-09
# TuringQ: 計算理論におけるAI理解のベンチマーク

TuringQ: Benchmarking AI Comprehension in Theory of Computation ( http://arxiv.org/abs/2410.06547v1 )

ライセンス: Link先を確認
Pardis Sadat Zahraei, Ehsaneddin Asgari, (参考訳) 本稿では,計算理論における大規模言語モデル(LLM)の推論能力を評価するために設計された最初のベンチマークであるTuringQを紹介する。 チューリングQは4,006人の学部生と大学院レベルの質問応答ペアで構成され、難易度は4つの難易度に分類され、7つの中核的な理論領域をカバーする。 我々は、Chain of Thoughtのプロンプトと専門家による人間の評価を用いて、オープンソースのLCMとGPT-4を評価した。 また,人間の評価と比較した場合の競合精度を示すLLMに基づく自動評価システムを提案する。 チューリングQ上のLlama3-8Bモデルを微調整すると、推論能力や代数のような領域外タスクの計測精度が向上する。 TuringQ は複雑な計算推論タスクにおいて LLM 性能を向上させるためのベンチマークとリソースとして機能する。 我々の分析は、LLMの能力と理論計算機科学のAI理解の進歩に関する洞察を提供する。

We present TuringQ, the first benchmark designed to evaluate the reasoning capabilities of large language models (LLMs) in the theory of computation. TuringQ consists of 4,006 undergraduate and graduate-level question-answer pairs, categorized into four difficulty levels and covering seven core theoretical areas. We evaluate several open-source LLMs, as well as GPT-4, using Chain of Thought prompting and expert human assessment. Additionally, we propose an automated LLM-based evaluation system that demonstrates competitive accuracy when compared to human evaluation. Fine-tuning a Llama3-8B model on TuringQ shows measurable improvements in reasoning ability and out-of-domain tasks such as algebra. TuringQ serves as both a benchmark and a resource for enhancing LLM performance in complex computational reasoning tasks. Our analysis offers insights into LLM capabilities and advances in AI comprehension of theoretical computer science.
翻訳日:2024-11-01 04:59:08 公開日:2024-10-09
# DiffGAD:拡散型教師なしグラフ異常検出器

DiffGAD: A Diffusion-based Unsupervised Graph Anomaly Detector ( http://arxiv.org/abs/2410.06549v1 )

ライセンス: Link先を確認
Jinghan Li, Yuan Gao, Jinda Lu, Junfeng Fang, Congcong Wen, Hui Lin, Xiang Wang, (参考訳) グラフ異常検出(GAD)は、ネットワーク内の異常な実体を識別するために重要であり、様々な分野において大きな注目を集めている。 従来の教師なしの方法では、ラベルなしデータの遅延表現を再構成焦点でデコードし、しばしば重要な識別内容のキャプチャに失敗し、極端に異常な検出に繋がった。 これらの課題に対処するため,拡散型グラフ異常検出器(DiffGAD)を提案する。 DiffGADの核心は、未熟な宇宙学習のパラダイムであり、それを差別的コンテンツで導くことによって、その習熟度を高めるために細心の注意を払って設計されている。 このイノベーティブなアプローチは拡散サンプリングを活用して、遅延空間を識別的内容で注入し、異なるスケールで貴重な情報を保持するコンテンツ保存機構を導入し、時間と空間の複雑さに制限のある異常を識別する能力を大幅に向上させる。 DiffGADの総合的な評価は、6つの実世界および大規模データセットと各種メトリクスを用いて行われ、その例外的な性能を示した。

Graph Anomaly Detection (GAD) is crucial for identifying abnormal entities within networks, garnering significant attention across various fields. Traditional unsupervised methods, which decode encoded latent representations of unlabeled data with a reconstruction focus, often fail to capture critical discriminative content, leading to suboptimal anomaly detection. To address these challenges, we present a Diffusion-based Graph Anomaly Detector (DiffGAD). At the heart of DiffGAD is a novel latent space learning paradigm, meticulously designed to enhance its proficiency by guiding it with discriminative content. This innovative approach leverages diffusion sampling to infuse the latent space with discriminative content and introduces a content-preservation mechanism that retains valuable information across different scales, significantly improving its adeptness at identifying anomalies with limited time and space complexity. Our comprehensive evaluation of DiffGAD, conducted on six real-world and large-scale datasets with various metrics, demonstrated its exceptional performance.
翻訳日:2024-11-01 04:59:08 公開日:2024-10-09
# 対話型セマンティックフレーム分析のためのLLM生成トレーニングデータのコスト効率の検討

Investigating Cost-Efficiency of LLM-Generated Training Data for Conversational Semantic Frame Analysis ( http://arxiv.org/abs/2410.06550v1 )

ライセンス: Link先を確認
Shiho Matta, Yin Jou Huang, Fei Cheng, Hirokazu Kiyomaru, Yugo Murawaki, (参考訳) 近年の研究では、LLMが教師付きモデルのトレーニングデータを低コストで作成できることが示されている。 しかし、LLM生成データの質は、人間のラベルデータと完全に一致しないかもしれない。 高品質だが高コストな人的データと、低品質で実質的に安価なLLM生成データとのトレードオフを、どのようにバランスさせるべきか? 本稿では,GPT-4を用いて対話型セマンティックフレーム分析のためのトレーニングデータを合成し,最適な性能を達成するために予算を最適に割り当てる方法について検討した。 様々な予算レベルで実施した実験により, 人・LLM生成データを多種多様な予算レベルで組み合わせることで, 最適コスト効率を実現することができた。 特に、予算が減少するにつれて、LCM生成データの割合の増大がより好ましいものとなる。

Recent studies have demonstrated that few-shot learning allows LLMs to generate training data for supervised models at a low cost. However, the quality of LLM-generated data may not entirely match that of human-labeled data. This raises a crucial question: how should one balance the trade-off between the higher quality but more expensive human data and the lower quality yet substantially cheaper LLM-generated data? In this paper, we synthesized training data for conversational semantic frame analysis using GPT-4 and examined how to allocate budgets optimally to achieve the best performance. Our experiments, conducted across various budget levels, reveal that optimal cost-efficiency is achieved by combining both human and LLM-generated data across a wide range of budget levels. Notably, as the budget decreases, a higher proportion of LLM-generated data becomes more preferable.
翻訳日:2024-11-01 04:59:08 公開日:2024-10-09
# InstantIR:インスタント生成参照によるブラインド画像復元

InstantIR: Blind Image Restoration with Instant Generative Reference ( http://arxiv.org/abs/2410.06551v1 )

ライセンス: Link先を確認
Jen-Yuan Huang, Haofan Wang, Qixun Wang, Xu Bai, Hao Ai, Peng Xing, Jen-Tse Huang, (参考訳) テスト時間未知の劣化の処理は、高モデル一般化を必要とするBlind Image Restoration(BIR)において大きな課題である。 効果的な戦略は、人間の入力または生成モデルから、事前の知識を取り入れることである。 本稿では,Instant-Reference Image Restoration (InstantIR)を提案する。 まず、事前学習された視覚エンコーダを介して入力のコンパクトな表現を抽出する。 各生成ステップにおいて、この表現は、電流拡散潜時をデコードし、生成前でインスタンス化する。 劣化した画像をこの参照で符号化し、堅牢な生成条件を提供する。 生成参照のばらつきは劣化強度によって変動し,さらに入力品質に適応したサンプリングアルゴリズムを開発するための指標として活用する。 大規模な実験は、InstantIRが最先端のパフォーマンスを達成し、優れた視覚的品質を提供することを示す。 生成参照をテキスト記述で調節することで、InstantIRは極端な劣化を回復し、さらに創造的な復元を特徴付けることができる。

Handling test-time unknown degradation is the major challenge in Blind Image Restoration (BIR), necessitating high model generalization. An effective strategy is to incorporate prior knowledge, either from human input or generative model. In this paper, we introduce Instant-reference Image Restoration (InstantIR), a novel diffusion-based BIR method which dynamically adjusts generation condition during inference. We first extract a compact representation of the input via a pre-trained vision encoder. At each generation step, this representation is used to decode current diffusion latent and instantiate it in the generative prior. The degraded image is then encoded with this reference, providing robust generation condition. We observe the variance of generative references fluctuate with degradation intensity, which we further leverage as an indicator for developing a sampling algorithm adaptive to input quality. Extensive experiments demonstrate InstantIR achieves state-of-the-art performance and offering outstanding visual quality. Through modulating generative references with textual description, InstantIR can restore extreme degradation and additionally feature creative restoration.
翻訳日:2024-11-01 04:59:08 公開日:2024-10-09
# DCP: プロパゲーションによるニューラルネットワークのためのアクセラレータデータフローの学習

DCP: Learning Accelerator Dataflow for Neural Network via Propagation ( http://arxiv.org/abs/2410.06553v1 )

ライセンス: Link先を確認
Peng Xu, Wenqi Shao, Mingyu Ding, Ping Luo, (参考訳) ディープニューラルネットワーク(DNN)ハードウェア(HW)アクセラレータは、DNNのパフォーマンスと効率を改善する上で大きな成功を収めている。 主な理由は、オンチップのデータパーティショニング、計算並列化、スケジューリングポリシなど、DNN層の実行におけるデータフローであり、レイテンシとエネルギー消費に大きな影響を及ぼす。 HWエンジニアがさまざまなDNNに適切なデータフローを設計するために必要な以前の作業とは異なり、この作業では、DNNレイヤの最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。 先行芸術にはないいくつかの魅力的な利点がある。 i) HWデータフロー構成を統一されたデータフロー符号化空間のコード表現に変換し、DNN層やネットワークに与えられる勾配をバックプロパゲートすることで最適化する。 (II) DCPは、データフローコードを所望の勾配方向に向けて効率的に更新し、例えば、レイテンシ、エネルギといった様々な最適化目標を最小化する神経予測器を学習する。 三 ゼロショット又は少数ショットの学習方法により、見当たらないHW構成に容易に一般化することができる。 例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。 MobileNet、ResNet、ViTなどの代表的なモデルに対する大規模な実験は、DCPが様々な設定でそのモデルよりも優れていることを示している。

Deep neural network (DNN) hardware (HW) accelerators have achieved great success in improving DNNs' performance and efficiency. One key reason is dataflow in executing a DNN layer, including on-chip data partitioning, computation parallelism, and scheduling policy, which have large impacts on latency and energy consumption. Unlike prior works that required considerable efforts from HW engineers to design suitable dataflows for different DNNs, this work proposes an efficient data-centric approach, named Dataflow Code Propagation (DCP), to automatically find the optimal dataflow for DNN layers in seconds without human effort. It has several attractive benefits that prior arts do not have. (i) We translate the HW dataflow configuration into a code representation in a unified dataflow coding space, which can be optimized by backpropagating gradients given a DNN layer or network. (ii) DCP learns a neural predictor to efficiently update the dataflow codes towards the desired gradient directions to minimize various optimization objectives e.g., latency and energy. (iii) It can be easily generalized to unseen HW configurations in a zero-shot or few-shot learning manner. For example, without using additional training data, DCP surpasses the GAMMA method that performs a full search using thousands of samples. Extensive experiments on several representative models such as MobileNet, ResNet, and ViT show that DCP outperforms its counterparts in various settings.
翻訳日:2024-11-01 04:59:08 公開日:2024-10-09
# ING-VP:MLLMは簡単にヴィジュアライズできるゲームはできない

ING-VP: MLLMs cannot Play Easy Vision-based Games Yet ( http://arxiv.org/abs/2410.06555v1 )

ライセンス: Link先を確認
Haoran Zhang, Hangyu Guo, Shuyue Guo, Meng Cao, Wenhao Huang, Jiaheng Liu, Ge Zhang, (参考訳) マルチモーダルな大規模言語モデル(MLLM)は、幅広いタスクにおいて競争力のある性能を示し続けているため、これらの最先端モデルを評価するためにより複雑で包括的なベンチマークが開発されている。 これらのベンチマークでは、知覚、推論、計画といったコア機能に新たな課題が導入されている。 しかし、既存のマルチモーダルベンチマークでは、画像内の空間的関係に基づくマルチステップ計画の集中的な評価が不十分である。 このギャップを埋めるために,我々は,MLLMの空間的想像力と多段階推論能力を評価するために,最初のInteractive Game-based Vision PlanningベンチマークであるING-VPを提案する。 ING-VPには6つの異なるゲームがあり、それぞれが6つのユニークな構成を持つ300のレベルを含んでいる。 1つのモデルが6万回以上のインタラクションを行う。 ベンチマークフレームワークは、画像テキストとテキストのみの入力、シングルステップとマルチステップの推論、歴史のない条件と非歴史のない条件を含む、複数の比較設定を可能にし、モデルの能力に関する貴重な洞察を提供する。 我々は,最先端モデルであるClaude-3.5 Sonnetを用いた最先端MLLMを多数評価し,平均精度は3.37%に過ぎなかった。 本研究の目的は、複雑な空間的推論と計画のためのMLLMの能力向上を促進するための特別な評価フレームワークを提供することである。 コードはhttps://github.com/Thisisus7/ING-VP.gitで公開されている。

As multimodal large language models (MLLMs) continue to demonstrate increasingly competitive performance across a broad spectrum of tasks, more intricate and comprehensive benchmarks have been developed to assess these cutting-edge models. These benchmarks introduce new challenges to core capabilities such as perception, reasoning, and planning. However, existing multimodal benchmarks fall short in providing a focused evaluation of multi-step planning based on spatial relationships in images. To bridge this gap, we present ING-VP, the first INteractive Game-based Vision Planning benchmark, specifically designed to evaluate the spatial imagination and multi-step reasoning abilities of MLLMs. ING-VP features 6 distinct games, encompassing 300 levels, each with 6 unique configurations. A single model engages in over 60,000 rounds of interaction. The benchmark framework allows for multiple comparison settings, including image-text vs. text-only inputs, single-step vs. multi-step reasoning, and with-history vs. without-history conditions, offering valuable insights into the model's capabilities. We evaluated numerous state-of-the-art MLLMs, with the highest-performing model, Claude-3.5 Sonnet, achieving an average accuracy of only 3.37%, far below the anticipated standard. This work aims to provide a specialized evaluation framework to drive advancements in MLLMs' capacity for complex spatial reasoning and planning. The code is publicly available at https://github.com/Thisisus7/ING-VP.git.
翻訳日:2024-11-01 04:59:08 公開日:2024-10-09
# 量子プロセッサ上での障害のない局在と効率的な障害平均化の観察

Observation of disorder-free localization and efficient disorder averaging on a quantum processor ( http://arxiv.org/abs/2410.06557v1 )

ライセンス: Link先を確認
Gaurav Gyawali, Tyler Cochran, Yuri Lensky, Eliott Rosenberg, Amir H. Karamlou, Kostyantyn Kechedzhi, Julia Berndtsson, Tom Westerhout, Abraham Asfaw, Dmitry Abanin, Rajeev Acharya, Laleh Aghababaie Beni, Trond I. Andersen, Markus Ansmann, Frank Arute, Kunal Arya, Nikita Astrakhantsev, Juan Atalaya, Ryan Babbush, Brian Ballard, Joseph C. Bardin, Andreas Bengtsson, Alexander Bilmes, Gina Bortoli, Alexandre Bourassa, Jenna Bovaird, Leon Brill, Michael Broughton, David A. Browne, Brett Buchea, Bob B. Buckley, David A. Buell, Tim Burger, Brian Burkett, Nicholas Bushnell, Anthony Cabrera, Juan Campero, Hung-Shen Chang, Zijun Chen, Ben Chiaro, Jahan Claes, Agnetta Y. Cleland, Josh Cogan, Roberto Collins, Paul Conner, William Courtney, Alexander L. Crook, Sayan Das, Dripto M. Debroy, Laura De Lorenzo, Alexander Del Toro Barba, Sean Demura, Agustin Di Paolo, Paul Donohoe, Ilya Drozdov, Andrew Dunsworth, Clint Earle, Alec Eickbusch, Aviv Moshe Elbag, Mahmoud Elzouka, Catherine Erickson, Lara Faoro, Reza Fatemi, Vinicius S. Ferreira, Leslie Flores Burgos, Ebrahim Forati, Austin G. Fowler, Brooks Foxen, Suhas Ganjam, Robert Gasca, William Giang, Craig Gidney, Dar Gilboa, Raja Gosula, Alejandro Grajales Dau, Dietrich Graumann, Alex Greene, Jonathan A. Gross, Steve Habegger, Michael C. Hamilton, Monica Hansen, Matthew P. Harrigan, Sean D. Harrington, Stephen Heslin, Paula Heu, Gordon Hill, Jeremy Hilton, Markus R. Hoffmann, Hsin-Yuan Huang, Ashley Huff, William J. Huggins, Lev B. Ioffe, Sergei V. Isakov, Evan Jeffrey, Zhang Jiang, Cody Jones, Stephen Jordan, Chaitali Joshi, Pavol Juhas, Dvir Kafri, Hui Kang, Trupti Khaire, Tanuj Khattar, Mostafa Khezri, Mária Kieferová, Seon Kim, Paul V. Klimov, Andrey R. Klots, Bryce Kobrin, Alexander N. Korotkov, Fedor Kostritsa, John Mark Kreikebaum, Vladislav D. Kurilovich, David Landhuis, Tiano Lange-Dei, Brandon W. Langley, Pavel Laptev, Kim-Ming Lau, Loïck Le Guevel, Justin Ledford, Joonho Lee, Kenny Lee, Brian J. Lester, Wing Yan Li, Alexander T. Lill, Wayne Liu, William P. Livingston, Aditya Locharla, Daniel Lundahl, Aaron Lunt, Sid Madhuk, Ashley Maloney, Salvatore Mandrà, Leigh S. Martin, Steven Martin, Orion Martin, Cameron Maxfield, Jarrod R. McClean, Matt McEwen, Seneca Meeks, Anthony Megrant, Xiao Mi, Kevin C. Miao, Amanda Mieszala, Sebastian Molina, Shirin Montazeri, Alexis Morvan, Ramis Movassagh, Charles Neill, Ani Nersisyan, Michael Newman, Anthony Nguyen, Murray Nguyen, Chia-Hung Ni, Murphy Yuezhen Niu, William D. Oliver, Kristoffer Ottosson, Alex Pizzuto, Rebecca Potter, Orion Pritchard, Leonid P. Pryadko, Chris Quintana, Matthew J. Reagor, David M. Rhodes, Gabrielle Roberts, Charles Rocque, Nicholas C. Rubin, Negar Saei, Kannan Sankaragomathi, Kevin J. Satzinger, Henry F. Schurkus, Christopher Schuster, Michael J. Shearn, Aaron Shorter, Noah Shutty, Vladimir Shvarts, Volodymyr Sivak, Jindra Skruzny, Spencer Small, W. Clarke Smith, Sofia Springer, George Sterling, Jordan Suchard, Marco Szalay, Aaron Szasz, Alex Sztein, Douglas Thor, M. Mert Torunbalci, Abeer Vaishnav, Sergey Vdovichev, Guifré Vidal, Catherine Vollgraff Heidweiller, Steven Waltman, Shannon X. Wang, Theodore White, Kristi Wong, Bryan W. K. Woo, Cheng Xing, Z. Jamie Yao, Ping Yeh, Bicheng Ying, Juhwan Yoo, Noureldin Yosri, Grayson Young, Adam Zalcman, Yaxing Zhang, Ningfeng Zhu, Nicholas Zobrist, Sergio Boixo, Julian Kelly, Erik Lucero, Yu Chen, Vadim Smelyanskiy, Hartmut Neven, Dmitry Kovrizhin, Johannes Knolle, Jad C. Halimeh, Igor Aleiner, Roderich Moessner, Pedram Roushan, (参考訳) 量子多体系におけるローカライゼーションの計算学的研究における最も難しい問題の1つは、異常事象の影響を捉えることである。 我々は、量子並列性を利用して、量子プロセッサ上で効率的な手順を実装し、すべての障害実現を効率的にサンプリングする。 一次元と二次元の量子多体力学における乱れのない局所化を観察する:摂動は、進化の生成元と初期状態の両方が完全に変換不変であるにもかかわらず拡散しない。 障害強度とその密度は初期状態を用いて容易に調整できる。 さらに,Renyiエントロピーの測定により,プラットフォームの汎用性を示す。 また,本手法は,身体的観察と障害学習の高次モーメントにまで拡張できる可能性が示唆された。

One of the most challenging problems in the computational study of localization in quantum manybody systems is to capture the effects of rare events, which requires sampling over exponentially many disorder realizations. We implement an efficient procedure on a quantum processor, leveraging quantum parallelism, to efficiently sample over all disorder realizations. We observe localization without disorder in quantum many-body dynamics in one and two dimensions: perturbations do not diffuse even though both the generator of evolution and the initial states are fully translationally invariant. The disorder strength as well as its density can be readily tuned using the initial state. Furthermore, we demonstrate the versatility of our platform by measuring Renyi entropies. Our method could also be extended to higher moments of the physical observables and disorder learning.
翻訳日:2024-11-01 04:59:08 公開日:2024-10-09
# 気象予測のためのサンドウィッチ物理駆動型ニューラルネットワーク

Mitigating Time Discretization Challenges with WeatherODE: A Sandwich Physics-Driven Neural ODE for Weather Forecasting ( http://arxiv.org/abs/2410.06560v1 )

ライセンス: Link先を確認
Peiyuan Liu, Tian Zhou, Liang Sun, Rong Jin, (参考訳) 天気予報の分野では、伝統的なモデルは、しばしば離散化エラーと時間依存のソースの相違に悩まされ、予測性能が制限される。 本稿では,天気予報精度の向上を目的とした,新しい一段階物理駆動型常微分方程式(ODE)モデルであるWeatherODEを提案する。 波動方程式理論の活用と時間依存ソースモデルの統合により、気象学は時分割誤差や動的大気過程に関連する課題を効果的に解決する。 さらに,CNN-ViT-CNNサンドイッチ構造を設計し,対流方程式推定における最適化バイアスの相違を考慮し,相互関係の異なるタスクに適した効率的な学習ダイナミクスを実現する。 厳密な実験を通じて、気象予報タスクと地域気象予報タスクの両方において優れた性能を示し、最近の最先端の手法をそれぞれ40.0\%以上と31.8\%以上の根平均二乗誤差(RMSE)で上回った。 ソースコードは \url{https://github.com/DAMO-DI-ML/WeatherODE} で公開されている。

In the field of weather forecasting, traditional models often grapple with discretization errors and time-dependent source discrepancies, which limit their predictive performance. In this paper, we present WeatherODE, a novel one-stage, physics-driven ordinary differential equation (ODE) model designed to enhance weather forecasting accuracy. By leveraging wave equation theory and integrating a time-dependent source model, WeatherODE effectively addresses the challenges associated with time-discretization error and dynamic atmospheric processes. Moreover, we design a CNN-ViT-CNN sandwich structure, facilitating efficient learning dynamics tailored for distinct yet interrelated tasks with varying optimization biases in advection equation estimation. Through rigorous experiments, WeatherODE demonstrates superior performance in both global and regional weather forecasting tasks, outperforming recent state-of-the-art approaches by significant margins of over 40.0\% and 31.8\% in root mean square error (RMSE), respectively. The source code is available at \url{https://github.com/DAMO-DI-ML/WeatherODE}.
翻訳日:2024-11-01 04:59:08 公開日:2024-10-09
# 相関マッチングに基づく教師の効率的・ロバストな知識蒸留

Efficient and Robust Knowledge Distillation from A Stronger Teacher Based on Correlation Matching ( http://arxiv.org/abs/2410.06561v1 )

ライセンス: Link先を確認
Wenqi Niu, Yingchao Wang, Guohui Cai, Hanpo Hou, (参考訳) ニューラルネットワークの圧縮と性能向上のための重要な技術として、知識蒸留(KD)が登場している。 ほとんどのKD手法は,Kulback-Leibler (KL) の分散損失に基づく教師モデルから軽量の学生モデルへの暗黒知識の伝達を目的としている。 しかし、KDによる生徒の成績改善は、より強い教師モデルが必ずしもより強い生徒モデルに繋がるとは限らない限界リターンを減少させる。 この問題に対処するために、KLに基づくKD法は、学生モデルによって学習されたクラス間の関係を暗黙的に変更し、より複雑で曖昧な決定境界となり、結果としてモデルの精度と一般化能力が低下する可能性があることを実証的に見出した。 そこで,本研究では,教師の出力から得られる確率値だけでなく,授業の相対的ランク付けも学習すべきであり,Pearson と Spearman の相関係数に基づく KD の損失を組み合わせ,より効率的で堅牢な蒸留を実現する新しい相関マッチング知識蒸留法を提案する。 さらに、サンプルの難易度が異なることから、CMKDはピアソンの損失とスピアマンの損失の重量を動的に調節する。 CMKDは単純で実用的であり、CIRAR-100とImageNetの最先端性能を一貫して達成し、様々な教師アーキテクチャ、サイズ、その他のKD手法に順応することを示した。

Knowledge Distillation (KD) has emerged as a pivotal technique for neural network compression and performance enhancement. Most KD methods aim to transfer dark knowledge from a cumbersome teacher model to a lightweight student model based on Kullback-Leibler (KL) divergence loss. However, the student performance improvements achieved through KD exhibit diminishing marginal returns, where a stronger teacher model does not necessarily lead to a proportionally stronger student model. To address this issue, we empirically find that the KL-based KD method may implicitly change the inter-class relationships learned by the student model, resulting in a more complex and ambiguous decision boundary, which in turn reduces the model's accuracy and generalization ability. Therefore, this study argues that the student model should learn not only the probability values from the teacher's output but also the relative ranking of classes, and proposes a novel Correlation Matching Knowledge Distillation (CMKD) method that combines the Pearson and Spearman correlation coefficients-based KD loss to achieve more efficient and robust distillation from a stronger teacher model. Moreover, considering that samples vary in difficulty, CMKD dynamically adjusts the weights of the Pearson-based loss and Spearman-based loss. CMKD is simple yet practical, and extensive experiments demonstrate that it can consistently achieve state-of-the-art performance on CIRAR-100 and ImageNet, and adapts well to various teacher architectures, sizes, and other KD methods.
翻訳日:2024-11-01 04:59:08 公開日:2024-10-09
# 医療用大規模言語モデルにおけるバイアス検出と診断精度の向上

Detecting Bias and Enhancing Diagnostic Accuracy in Large Language Models for Healthcare ( http://arxiv.org/abs/2410.06566v1 )

ライセンス: Link先を確認
Pardis Sadat Zahraei, Zahra Shakeri, (参考訳) バイアスドAIによる医療アドバイスと誤診は患者の安全を危険にさらし、医療におけるAIの整合性はこれまでになく重要になる。 大規模言語モデル(LLM)は、医療的意思決定において、そのバイアスに対処し、正確性を高めることが、安全で信頼性の高いケアを提供するための鍵となる。 本研究では、医療における倫理的かつ正確なAIを促進するために設計された新しいリソースを導入することで、これらの課題に真っ向から対処する。 健康関連LSM出力のバイアスを評価・緩和する6,007組の質問応答対と、症状に基づく診断精度を評価することを目的とした700の疾患にまたがる32,000組の質問応答対の2つのデータセットを提示する。 これらのデータセットを用いて,ChatDoctorフレームワーク上に構築された細調整モデルであるEthiClinicianを開発した。 既存の医療モデルに隠れたバイアスを露呈し、修正することで、我々の研究はより安全で信頼性の高い患者結果のための新しいベンチマークを設定します。

Biased AI-generated medical advice and misdiagnoses can jeopardize patient safety, making the integrity of AI in healthcare more critical than ever. As Large Language Models (LLMs) take on a growing role in medical decision-making, addressing their biases and enhancing their accuracy is key to delivering safe, reliable care. This study addresses these challenges head-on by introducing new resources designed to promote ethical and precise AI in healthcare. We present two datasets: BiasMD, featuring 6,007 question-answer pairs crafted to evaluate and mitigate biases in health-related LLM outputs, and DiseaseMatcher, with 32,000 clinical question-answer pairs spanning 700 diseases, aimed at assessing symptom-based diagnostic accuracy. Using these datasets, we developed the EthiClinician, a fine-tuned model built on the ChatDoctor framework, which outperforms GPT-4 in both ethical reasoning and clinical judgment. By exposing and correcting hidden biases in existing models for healthcare, our work sets a new benchmark for safer, more reliable patient outcomes.
翻訳日:2024-11-01 04:49:21 公開日:2024-10-09
# 凸蒸留:凸最適化によるディープネットワークの効率的な圧縮

Convex Distillation: Efficient Compression of Deep Networks via Convex Optimization ( http://arxiv.org/abs/2410.06567v1 )

ライセンス: Link先を確認
Prateek Varshney, Mert Pilanci, (参考訳) リソース制約のあるエッジデバイスに大規模で複雑なディープニューラルネットワークをデプロイすることは、計算要求と非凸最適化の複雑さのために、大きな課題となる。 蒸留やプルーニングのような伝統的な圧縮法は、そのような装置上での微調整をリアルタイムで複雑にする非凸性を保持することが多い。 さらに、これらの手法は、モデル性能を維持するために圧縮後の広範囲なエンドツーエンドネットワークの微調整を必要とすることが多く、これは時間を要するだけでなく、完全に注釈付きデータセットを必要とするため、効率的なネットワーク圧縮の利点を否定する可能性がある。 本稿では, 中間非凸活性化関数を排除し, 元のモデルからの中間活性化のみを用いる, 凸最適化によりモデルを効率よく圧縮する新しい蒸留手法を提案する。 提案手法は, ラベルフリーなデータ環境での蒸留を可能にし, 圧縮後微調整を必要とせず, 元のモデルに匹敵する性能を実現する。 我々は,複数の標準データセットを用いた画像分類モデルの有効性を実証し,また,データ限定方式では,標準の非凸蒸留手法よりも優れていることを示す。 本手法は,エッジデバイスに高効率で低フットプリントのモデルをデプロイする上で,優れた利点を期待できる。 我々は,大規模な非凸モデルからリッチな特徴表現を備えた凸ニューラルネットワークが,その非凸モデルに匹敵する性能を達成できることを示し,凸最適化と深層学習の交差点における将来の研究への道を開いた。

Deploying large and complex deep neural networks on resource-constrained edge devices poses significant challenges due to their computational demands and the complexities of non-convex optimization. Traditional compression methods such as distillation and pruning often retain non-convexity that complicates fine-tuning in real-time on such devices. Moreover, these methods often necessitate extensive end-to-end network fine-tuning after compression to preserve model performance, which is not only time-consuming but also requires fully annotated datasets, thus potentially negating the benefits of efficient network compression. In this paper, we introduce a novel distillation technique that efficiently compresses the model via convex optimization -- eliminating intermediate non-convex activation functions and using only intermediate activations from the original model. Our approach enables distillation in a label-free data setting and achieves performance comparable to the original model without requiring any post-compression fine-tuning. We demonstrate the effectiveness of our method for image classification models on multiple standard datasets, and further show that in the data limited regime, our method can outperform standard non-convex distillation approaches. Our method promises significant advantages for deploying high-efficiency, low-footprint models on edge devices, making it a practical choice for real-world applications. We show that convex neural networks, when provided with rich feature representations from a large pre-trained non-convex model, can achieve performance comparable to their non-convex counterparts, opening up avenues for future research at the intersection of convex optimization and deep learning.
翻訳日:2024-11-01 04:49:21 公開日:2024-10-09
# ランク空間における統計的アービタージュ

Statistical Arbitrage in Rank Space ( http://arxiv.org/abs/2410.06568v1 )

ライセンス: Link先を確認
Y. -F. Li, G. Papanicolaou, (参考訳) 株式が企業名によってインデックス付けされる名前空間において、伝統的に株式市場の動態を調査している。 対照的に、資本化のランクに基づいて株を索引付けすることで、ランク空間における市場ダイナミクスの異なる視点を得る。 ここでは、ロバストな市場表現と、ランク空間における残留リターンの平均反転特性により駆動される、名前空間上のランク空間における統計的仲裁の優れた性能を示す。 我々の統計仲裁アルゴリズムは、名前とランク空間のポートフォリオ間の効果的な変換のための日内リバランス機構を特徴としている。 我々は、名前空間とランク空間の両方におけるニューラルネットワークの統計的仲裁を探索し、ランク空間におけるニューラルネットワークによるポートフォリオが、名前空間においてかなり優れていることを示す。

Equity market dynamics are conventionally investigated in name space where stocks are indexed by company names. In contrast, by indexing stocks based on their ranks in capitalization, we gain a different perspective of market dynamics in rank space. Here, we demonstrate the superior performance of statistical arbitrage in rank space over name space, driven by a robust market representation and enhanced mean-reverting properties of residual returns in rank space. Our statistical arbitrage algorithm features an intraday rebalancing mechanism for effective conversion between portfolios in name and rank space. We explore statistical arbitrage with and without neural networks in both name and rank space and show that the portfolios obtained in rank space with neural networks significantly outperform those in name space.
翻訳日:2024-11-01 04:49:21 公開日:2024-10-09
# ディープフェイク音声は確実に検出できるのか?

Can DeepFake Speech be Reliably Detected? ( http://arxiv.org/abs/2410.06572v1 )

ライセンス: Link先を確認
Hongbin Liu, Youzheng Chen, Arun Narayanan, Athula Balachandran, Pedro J. Moreno, Lun Wang, (参考訳) 近年のTTS(text-to-speech)システムの進歩、特に音声のクローン機能を持つものは、音声の偽造が容易にアクセスでき、誤報キャンペーンや詐欺などの悪意ある行為を誤用する可能性があるとして、倫理的および法的懸念を提起している。 合成音声検出器(SSD)は、これに対抗するために存在するが、"テストドメインシフト"に弱いため、変換、再生、バックグラウンドノイズによってオーディオを変更すると、パフォーマンスが低下する。 この脆弱性は、検出器の消極を目的とした合成音声の故意な操作によってさらに悪化する。 この研究は、最先端のオープンソースSSDに対するこのようなアクティブな悪意のある攻撃に関する最初の体系的な研究である。 ホワイトボックス攻撃、ブラックボックス攻撃、およびそれらの転送性は、ハードコードされたメトリクスと人間の評価の両方を用いて、攻撃の有効性とステルスネスの両方から研究される。 その結果、敵の脅威が進行する中で、より堅牢な検出方法が緊急に必要であることが明らかとなった。

Recent advances in text-to-speech (TTS) systems, particularly those with voice cloning capabilities, have made voice impersonation readily accessible, raising ethical and legal concerns due to potential misuse for malicious activities like misinformation campaigns and fraud. While synthetic speech detectors (SSDs) exist to combat this, they are vulnerable to ``test domain shift", exhibiting decreased performance when audio is altered through transcoding, playback, or background noise. This vulnerability is further exacerbated by deliberate manipulation of synthetic speech aimed at deceiving detectors. This work presents the first systematic study of such active malicious attacks against state-of-the-art open-source SSDs. White-box attacks, black-box attacks, and their transferability are studied from both attack effectiveness and stealthiness, using both hardcoded metrics and human ratings. The results highlight the urgent need for more robust detection methods in the face of evolving adversarial threats.
翻訳日:2024-11-01 04:49:21 公開日:2024-10-09
# 視覚異常のない表現と異常表現の関係について

On The Relationship between Visual Anomaly-free and Anomalous Representations ( http://arxiv.org/abs/2410.06576v1 )

ライセンス: Link先を確認
Riya Sadrani, Hrishikesh Sharma, Ayush Bachan, (参考訳) 異常検出はコンピュータビジョンにおいて重要な問題であり、様々な現実の応用がある。 しかし、この問題に対する現在のソリューションセットには、既知の、体系的な欠点が伴う。 特に、現代の表面異常検出タスクは、過去の1クラス分類モデルとは異なり、複数の特定の異常クラス、例えば亀裂、さび等が存在することを前提としている。 しかし、このようなセットアップでディープラーニングモデルを構築することは、異常が発生することは稀であり、そのため異常サンプルは極めて少ないため、依然として課題である。 このような状況下では、トランスファーラーニングが望ましいパラダイムとなっている。 しかし、画像Net, JFT-300M, LAION-2Bのような大きなデータセットサイズを持つ典型的なソースドメインは、転送学習の重要な前提である表面や材料のドメインとよく相関しない。 本稿では,本研究の要旨として,正規サンプルの異常のない視覚パターンの空間が,クラス固有の異常サンプルの様々な異常パターンの空間とよく相関していることを示す。 この仮説をトランスファーラーニングに使った最初の結果は、確かに大いに励まされてきた。 このような単純なクローズバイドメインの発見には,多数のサンプルが容易に必然的に必要であり,クラス間セパビリティが狭いものの,クラス間セパビリティを示す場合も少なくない。 特に、異常検出のための領域適応と、異常検出のための少数ショット学習の改善が期待され、将来、非異常検出を現実的に実現する。

Anomaly Detection is an important problem within computer vision, having variety of real-life applications. Yet, the current set of solutions to this problem entail known, systematic shortcomings. Specifically, contemporary surface Anomaly Detection task assumes the presence of multiple specific anomaly classes e.g. cracks, rusting etc., unlike one-class classification model of past. However, building a deep learning model in such setup remains a challenge because anomalies arise rarely, and hence anomaly samples are quite scarce. Transfer learning has been a preferred paradigm in such situations. But the typical source domains with large dataset sizes e.g. ImageNet, JFT-300M, LAION-2B do not correlate well with the domain of surfaces and materials, an important premise of transfer learning. In this paper, we make an important hypothesis and show, by exhaustive experimentation, that the space of anomaly-free visual patterns of the normal samples correlates well with each of the various spaces of anomalous patterns of the class-specific anomaly samples. The first results of using this hypothesis in transfer learning have indeed been quite encouraging. We expect that finding such a simple closeby domain that readily entails large number of samples, and which also oftentimes shows interclass separability though with narrow margins, will be a useful discovery. Especially, it is expected to improve domain adaptation for anomaly detection, and few-shot learning for anomaly detection, making in-the-wild anomaly detection realistically possible in future.
翻訳日:2024-11-01 04:49:21 公開日:2024-10-09
# Rodimus*: 効果的な注意による正確性効率のトレードオフを打破する

Rodimus*: Breaking the Accuracy-Efficiency Trade-Off with Efficient Attentions ( http://arxiv.org/abs/2410.06577v1 )

ライセンス: Link先を確認
Zhihao He, Hang Yu, Zi Gong, Shizhan Liu, Jianguo Li, Weiyao Lin, (参考訳) トランスフォーマーベースの大規模言語モデル(LLM)の最近の進歩は、自然言語処理における新しい標準を定めている。 しかし、古典的なソフトマックスの注目は計算コストを大幅に上回っており、T$がコンテキスト長を表す場合、トーケン生成毎に$O(T)$の複雑さが生じる。 この作業では,Rodimusとその拡張バージョンであるRodimus$+$を導入して,LLMの複雑性の低減とパフォーマンスの維持について検討する。 Rodimusはリニアアテンションベースの純粋にリカレントなフレームワーク内で、革新的なデータ依存型テンプレート選択(DDTS)機構を採用しており、リカレントモデルに関連するメモリ使用量の大幅な削減を実現している。 本手法は,本質的な入力情報を固定サイズの隠蔽状態に維持することにより意味圧縮を実証する。 Rodimus$+は、Rodimusと革新的なSliding Window Shared-Key Attention (SW-SKA)をハイブリッドアプローチで組み合わせ、補完的なセマンティクス、トークン、ヘッド圧縮技術を効果的に活用する。 我々の実験は、1兆ドルのトークンで訓練されたRodimus$+$-1.6Bが、Qwen2-1.5BやRWKV6-1.6Bを含むより多くのトークンで訓練されたモデルに対して、より優れたダウンストリーム性能を実現し、LLMの精度・効率バランスを再定義する可能性を示している。 モデルコードと事前訓練されたチェックポイントが近く提供される。

Recent advancements in Transformer-based large language models (LLMs) have set new standards in natural language processing. However, the classical softmax attention incurs significant computational costs, leading to a $O(T)$ complexity for per-token generation, where $T$ represents the context length. This work explores reducing LLMs' complexity while maintaining performance by introducing Rodimus and its enhanced version, Rodimus$+$. Rodimus employs an innovative data-dependent tempered selection (DDTS) mechanism within a linear attention-based, purely recurrent framework, achieving significant accuracy while drastically reducing the memory usage typically associated with recurrent models. This method exemplifies semantic compression by maintaining essential input information with fixed-size hidden states. Building on this, Rodimus$+$ combines Rodimus with the innovative Sliding Window Shared-Key Attention (SW-SKA) in a hybrid approach, effectively leveraging the complementary semantic, token, and head compression techniques. Our experiments demonstrate that Rodimus$+$-1.6B, trained on 1 trillion tokens, achieves superior downstream performance against models trained on more tokens, including Qwen2-1.5B and RWKV6-1.6B, underscoring its potential to redefine the accuracy-efficiency balance in LLMs. Model code and pre-trained checkpoints will be available soon.
翻訳日:2024-11-01 04:49:21 公開日:2024-10-09
# ボットはスヌープできる - グループチャットにおけるボットのプライバシーリスクの発見と軽減

Bots can Snoop: Uncovering and Mitigating Privacy Risks of Bots in Group Chats ( http://arxiv.org/abs/2410.06587v1 )

ライセンス: Link先を確認
Kai-Hsiang Chou, Yi-Min Lin, Yi-An Wang, Jonathan Weiping Li, Tiffany Hyun-Jin Kim, Hsu-Chun Hsiao, (参考訳) グループメッセージングプラットフォーム上のチャットボットに、新たなプライバシー上の懸念が生じる。 チャットボットは、チャットボットや送信者のアイデンティティに意図しないメッセージなど、意図した機能以上の情報にアクセスすることができる。 チャットボットオペレーターは、そのような情報を利用して個人情報を推測し、グループ間でユーザーをリンクし、個人データ漏洩、広範囲な追跡、ターゲット広告につながる可能性がある。 会話データセットの分析から,(1)チャットボットは,必要以上に多くのメッセージにアクセスすることが多く,(2)ユーザがチャットボットで新しいグループに参加すると,少なくとも1つのチャットボットが,他のグループで以前のインタラクションを認識,関連付けることができる可能性が3.4%あることがわかった。 最先端のグループメッセージングプロトコルは、堅牢なエンドツーエンドセキュリティを提供し、チャットボットアクセスを制限するポリシーを実装しているプラットフォームもあるが、これらの機能をうまく組み合わせるプラットフォームは存在しない。 本稿では,チャットボットに対するセキュアなグループメッセージングプロトコルであるSnoopGuardを紹介する。 提案手法は、選択的なメッセージアクセスを提供し、チャットボットが無関係なメッセージにアクセスするのを防ぎ、グループ内の送信者の匿名性を保証する。 SnoopGuardは、$O(\log n + m)$メッセージ送信複雑性を$n$ユーザと$m$チャットボットのグループで達成している。 プロトタイプ実装では,Message Layer Security(MLS)を統合した場合,50ユーザと10のチャットボットからなるグループでメッセージを送信するのに約30ミリ秒を要することが示された。

New privacy concerns arise with chatbots on group messaging platforms. Chatbots may access information beyond their intended functionalities, such as messages unintended for chatbots or sender's identities. Chatbot operators may exploit such information to infer personal information and link users across groups, potentially leading to personal data breaches, pervasive tracking, and targeted advertising. Our analysis of conversation datasets shows that (1) chatbots often access far more messages than needed, and (2) when a user joins a new group with chatbots, there is a 3.4% chance that at least one of the chatbots can recognize and associate the user with their previous interactions in other groups. Although state-of-the-art group messaging protocols provide robust end-to-end security and some platforms have implemented policies to limit chatbot access, no platforms successfully combine these features. This paper introduces SnoopGuard, a secure group messaging protocol that ensures user privacy against chatbots while maintaining strong end-to-end security. Our method offers selective message access, preventing chatbots from accessing unrelated messages, and ensures sender anonymity within the group. SnoopGuard achieves $O(\log n + m)$ message-sending complexity for a group of $n$ users and $m$ chatbots, compared to $O(\log(n + m))$ in state-of-the-art protocols, with acceptable overhead for enhanced privacy. Our prototype implementation shows that sending a message in a group of 50 users and 10 chatbots takes about 30 milliseconds when integrated with Message Layer Security (MLS).
翻訳日:2024-11-01 04:49:21 公開日:2024-10-09
# リアル・セサリオによる野生の自然画像のマッチングに向けて

Towards Natural Image Matting in the Wild via Real-Scenario Prior ( http://arxiv.org/abs/2410.06593v1 )

ライセンス: Link先を確認
Ruihao Xia, Yu Liang, Peng-Tao Jiang, Hao Zhang, Qianru Sun, Yang Tang, Bo Li, Pan Zhou, (参考訳) 近年のアプローチでは、SAMのような強力なインタラクティブセグメンテーションモデルをインタラクティブなマッティングに適用し、合成マッティングデータセットに基づいてモデルを微調整する試みが行われている。 しかし、合成データに基づいて訓練されたモデルは、複雑で閉塞的なシーンに一般化することができない。 我々は、COCOデータセット、すなわちCOCO-Mattingに基づいた新しいマッチングデータセットを提案することで、この問題に対処する。 具体的には,COCOから実世界の複雑な画像を選択し,セマンティックセグメンテーションマスクをマッティングラベルに変換する。 構築されたCOCO-Mattingは、複雑な自然シナリオにおける38,251人のインスタンスレベルのアルファマットの広範なコレクションを含む。 さらに、既存のSAMベースのマット方式では、凍結したSAMから中間的な特徴やマスクを抽出し、エンドツーエンドのマット化損失によって軽量なマット化デコーダを訓練するのみであり、事前訓練されたSAMの可能性を十分に活用していない。 そこで本研究では,ネットワークアーキテクチャを改良したSEMatを提案する。 ネットワークアーキテクチャにおいて、提案する特徴整合変換器は、きめ細かいエッジと透過性を抽出することを学ぶ。 提案したマットアライメントデコーダは、マット固有のオブジェクトを分割し、粗いマスクを高精度なマットに変換することを目的としている。 トレーニング目的として、提案した正規化とトリマップロスは、事前訓練されたモデルからの事前の保持を目標とし、マスクデコーダから抽出したマットログをトリマップベースのセマンティック情報を含むようにプッシュする。 7つの多様なデータセットにわたる大規模な実験は,本手法の優れた性能を示し,インタラクティブな自然画像マッチングにおける有効性を証明した。 コード、モデル、データセットはhttps://github.com/XiaRho/SEMat.comでオープンソース化しています。

Recent approaches attempt to adapt powerful interactive segmentation models, such as SAM, to interactive matting and fine-tune the models based on synthetic matting datasets. However, models trained on synthetic data fail to generalize to complex and occlusion scenes. We address this challenge by proposing a new matting dataset based on the COCO dataset, namely COCO-Matting. Specifically, the construction of our COCO-Matting includes accessory fusion and mask-to-matte, which selects real-world complex images from COCO and converts semantic segmentation masks to matting labels. The built COCO-Matting comprises an extensive collection of 38,251 human instance-level alpha mattes in complex natural scenarios. Furthermore, existing SAM-based matting methods extract intermediate features and masks from a frozen SAM and only train a lightweight matting decoder by end-to-end matting losses, which do not fully exploit the potential of the pre-trained SAM. Thus, we propose SEMat which revamps the network architecture and training objectives. For network architecture, the proposed feature-aligned transformer learns to extract fine-grained edge and transparency features. The proposed matte-aligned decoder aims to segment matting-specific objects and convert coarse masks into high-precision mattes. For training objectives, the proposed regularization and trimap loss aim to retain the prior from the pre-trained model and push the matting logits extracted from the mask decoder to contain trimap-based semantic information. Extensive experiments across seven diverse datasets demonstrate the superior performance of our method, proving its efficacy in interactive natural image matting. We open-source our code, models, and dataset at https://github.com/XiaRho/SEMat.
翻訳日:2024-11-01 04:49:21 公開日:2024-10-09
# DDRN:Occlud Person Re-Identificationのためのデータ分散再構築ネットワーク

DDRN:a Data Distribution Reconstruction Network for Occluded Person Re-Identification ( http://arxiv.org/abs/2410.06600v1 )

ライセンス: Link先を確認
Zhaoyong Wang, Yujie Liu, Mingyue Li, Wenxin Zhang, Zongmin Li, (参考訳) 隠蔽された人物の再識別(ReID)では、重度の隠蔽が大量の無関係な情報をもたらし、個人の正確な識別を妨げる。 これらの無関係な手がかりは、主に背景干渉と閉塞干渉によるもので、最終検索結果に悪影響を及ぼす。 画像の特定の内容や位置に依存する伝統的な識別モデルは、しばしば排他的の場合は誤分類される。 これらの制約に対処するため,データ分散を利用したデータ分散再構成ネットワーク (DDRN) を提案する。 さらに、重度の閉塞は特徴空間の複雑さにつながる。 これを効果的に処理するために,提案した階層型サブセンターインタフェース(HS-Arcface)損失関数を用いて,複雑な特徴空間をよりよく近似できるマルチセンターアプローチを設計する。 Occluded-Dukeデータセットでは、62.4\%(+1.1\%)のmAPと71.3\%(+0.6\%)のランク-1の精度を達成し、最新の最先端手法(FRT)を大幅に上回った。

In occluded person re-identification(ReID), severe occlusions lead to a significant amount of irrelevant information that hinders the accurate identification of individuals. These irrelevant cues primarily stem from background interference and occluding interference, adversely affecting the final retrieval results. Traditional discriminative models, which rely on the specific content and positions of the images, often misclassify in cases of occlusion. To address these limitations, we propose the Data Distribution Reconstruction Network (DDRN), a generative model that leverages data distribution to filter out irrelevant details, enhancing overall feature perception ability and reducing irrelevant feature interference. Additionally, severe occlusions lead to the complexity of the feature space. To effectively handle this, we design a multi-center approach through the proposed Hierarchical SubcenterArcface (HS-Arcface) loss function, which can better approximate complex feature spaces. On the Occluded-Duke dataset, we achieved a mAP of 62.4\% (+1.1\%) and a rank-1 accuracy of 71.3\% (+0.6\%), surpassing the latest state-of-the-art methods(FRT) significantly.
翻訳日:2024-11-01 04:49:21 公開日:2024-10-09
# Bahasa Harmony: EnGen-TTSの離散コーデックモデリングによるバハサテキスト音声合成のための包括的データセット

Bahasa Harmony: A Comprehensive Dataset for Bahasa Text-to-Speech Synthesis with Discrete Codec Modeling of EnGen-TTS ( http://arxiv.org/abs/2410.06608v1 )

ライセンス: Link先を確認
Onkar Kishor Susladkar, Vishesh Tripathi, Biddwan Ahmed, (参考訳) 本研究では,バハサ語における合成音声の品質と汎用性を高めるために,包括的バハサ音声合成データセットと新しいTSモデルであるEnGen-TTSを紹介する。 データセットは、textasciitilde55.0時間と52K音声記録にまたがっており、多様なテキストソースを統合し、言語的な豊かさを保証している。 微妙な録音装置はバハサの音声のニュアンスを捉え、プロの装置を使って高忠実度オーディオサンプルを確実にする。 統計分析はデータセットのスケールと多様性を明らかにし、モデルトレーニングと評価の基礎を築いた。 提案したEnGen-TTSモデルは、確立されたベースラインよりも優れており、平均オピニオンスコア(MOS)は4.45$\pm$ 0.13である。 さらに、実時間係数とモデルサイズに関する調査では、EnGen-TTSを効率的な性能で魅力的な選択として強調している。 この研究はバハサ TTS 技術の進歩であり、多様な言語応用に影響を及ぼす。 Link to Generated Samples: \url{https://bahasa-harmony-comp.vercel.app/}

This research introduces a comprehensive Bahasa text-to-speech (TTS) dataset and a novel TTS model, EnGen-TTS, designed to enhance the quality and versatility of synthetic speech in the Bahasa language. The dataset, spanning \textasciitilde55.0 hours and 52K audio recordings, integrates diverse textual sources, ensuring linguistic richness. A meticulous recording setup captures the nuances of Bahasa phonetics, employing professional equipment to ensure high-fidelity audio samples. Statistical analysis reveals the dataset's scale and diversity, laying the foundation for model training and evaluation. The proposed EnGen-TTS model performs better than established baselines, achieving a Mean Opinion Score (MOS) of 4.45 $\pm$ 0.13. Additionally, our investigation on real-time factor and model size highlights EnGen-TTS as a compelling choice, with efficient performance. This research marks a significant advancement in Bahasa TTS technology, with implications for diverse language applications. Link to Generated Samples: \url{https://bahasa-harmony-comp.vercel.app/}
翻訳日:2024-11-01 04:49:21 公開日:2024-10-09
# 高次元エンタングルメントからの量子性の単一コピー蒸留実験

Experimental single-copy distillation of quantumness from higher-dimensional entanglement ( http://arxiv.org/abs/2410.06610v1 )

ライセンス: Link先を確認
Xiao-Xu Fang, Gelo Noel M. Tabia, Kai-Siang Chen, Yeong-Cherng Liang, He Lu, (参考訳) 絡み合いは量子理論の中心であり、様々な量子励起技術に責任を負う。 実際には、その準備、保管、配当の間、この貴重な量子リソースは、望まれる情報処理タスクに対する有用性を低下させるノイズの多い相互作用に悩まされる可能性がある。 エンタングルメント蒸留の従来のスキームは、これらの密閉された状態の複数のコピーで集合的な操作を行い、ベルペアを回収するためにそれらのいくつかを犠牲にすることで、この問題を軽減することを目的としている。 しかし、このスキームが機能するためには、蒸留される状態は、これらの集合的な操作の前に、十分な数の最大絡み合った状態を含むべきである。 すべての絡み合った量子状態がこの前提を満たすわけではない。 ここでは、2量子Werner状態のパラダイム的ファミリーを例示として、この要件を満たすために単一コピー局所フィルタリング演算を用いて、これらの高次元状態に隠れた量子性を取り戻す方法を実験的に実証する。 中でも,本研究は,これらの絡み合った状態のベル非局所特性の実証実験として,量子テレポーテーション,高密度符号化,量子ステアビリティの向上,そして特定の識別タスクに有用であることを示す。 理論的に確立されたこれらの状態の操舵ロバスト性に対する下界は、対称準伸張あるいはボソニック対称拡張を認め、隠れた密集係数を示す場合も独立な関心を持つ可能性がある。

Entanglement is at the heart of quantum theory and is responsible for various quantum-enabling technologies. In practice, during its preparation, storage, and distribution to the intended recipients, this valuable quantum resource may suffer from noisy interactions that reduce its usefulness for the desired information-processing tasks. Conventional schemes of entanglement distillation aim to alleviate this problem by performing collective operations on multiple copies of these decohered states and sacrificing some of them to recover Bell pairs. However, for this scheme to work, the states to be distilled should already contain a large enough fraction of maximally entangled states before these collective operations. Not all entangled quantum states meet this premise. Here, by using the paradigmatic family of two-qutrit Werner states as an exemplifying example, we experimentally demonstrate how one may use single-copy local filtering operations to meet this requirement and to recover the quantumness hidden in these higher-dimensional states. Among others, our results provide the first proof-of-principle experimental certification of the Bell-nonlocal properties of these intriguing entangled states, the activation of their usefulness for quantum teleportation, dense coding, and an enhancement of their quantum steerability, and hence usefulness for certain discrimination tasks. Our theoretically established lower bounds on the steering robustness of these states, when they admit a symmetric quasiextension or a bosonic symmetric extension, and when they show hidden dense-codability may also be of independent interest.
翻訳日:2024-11-01 04:49:21 公開日:2024-10-09
# Pair-VPR:視覚変換器を用いた視覚的位置認識のためのPair-VPRとContrastive Pair分類

Pair-VPR: Place-Aware Pre-training and Contrastive Pair Classification for Visual Place Recognition with Vision Transformers ( http://arxiv.org/abs/2410.06614v1 )

ライセンス: Link先を確認
Stephen Hausler, Peyman Moghadam, (参考訳) 本研究では,グローバルな記述子とペアの分類器を同時に学習する,視覚的位置認識(VPR)のための新しい共同学習手法を提案する。 ペア分類器は、与えられた画像のペアが同じ場所から来ているか否かを予測することができる。 ネットワークはエンコーダとペア分類器の両方のためのVision Transformerコンポーネントのみを含み、両方のコンポーネントはそれぞれのクラストークンを使用してトレーニングされる。 既存のVPR手法では、一般的にネットワークはImageNetのような一般的な画像データセットからトレーニング済みの重みを使って初期化される。 そこで本研究では,Samese Masked Image Modelling を事前学習タスクとして活用して,新たな事前学習戦略を提案する。 本稿では,VPRに特化して調整された視覚的特徴を学習するために,大規模なVPRデータセットの集合からPlace-Aware画像サンプリング手順を提案する。 トレーニングの第2段階でMaskイメージモデリングエンコーダとデコーダの重みを再利用することにより、Pair-VPRは、ViT-Bエンコーダを使用した5つのベンチマークデータセットで最先端のVPRパフォーマンスを実現し、さらに大きなエンコーダによるローカライゼーションリコールが改善される。 Pair-VPRのウェブサイトは以下の通りである。

In this work we propose a novel joint training method for Visual Place Recognition (VPR), which simultaneously learns a global descriptor and a pair classifier for re-ranking. The pair classifier can predict whether a given pair of images are from the same place or not. The network only comprises Vision Transformer components for both the encoder and the pair classifier, and both components are trained using their respective class tokens. In existing VPR methods, typically the network is initialized using pre-trained weights from a generic image dataset such as ImageNet. In this work we propose an alternative pre-training strategy, by using Siamese Masked Image Modelling as a pre-training task. We propose a Place-aware image sampling procedure from a collection of large VPR datasets for pre-training our model, to learn visual features tuned specifically for VPR. By re-using the Mask Image Modelling encoder and decoder weights in the second stage of training, Pair-VPR can achieve state-of-the-art VPR performance across five benchmark datasets with a ViT-B encoder, along with further improvements in localization recall with larger encoders. The Pair-VPR website is: https://csiro-robotics.github.io/Pair-VPR.
翻訳日:2024-11-01 04:39:35 公開日:2024-10-09
# 生成QAのための言語モデル信頼スコアの$β$-calibration

$β$-calibration of Language Model Confidence Scores for Generative QA ( http://arxiv.org/abs/2410.06615v1 )

ライセンス: Link先を確認
Putra Manggala, Atalanti Mastakouri, Elke Kirschbaum, Shiva Prasad Kasiviswanathan, Aaditya Ramdas, (参考訳) 意思決定にQA(generative question-and-Awering)システムを使うには、これらのシステムは、その答えの正しさを反映した、よく校正された信頼スコアを提供する必要がある。 既存のキャリブレーション手法は、信頼性スコアが解答の正しさを示す平均的な指標であることを保証することを目的としている。 しかし、この標準(平均ケース)のキャリブレーションの概念は、生成的QAにおける意思決定の解釈が困難である。 これを解決するために、平均校正の標準概念を一般化し、異なる問合せ群間で校正が保たれるような$\beta$-calibrationを導入する。 そこで我々は、$\beta$-calibrationを達成するための離散化ポストホック校正法を提案する。

To use generative question-and-answering (QA) systems for decision-making and in any critical application, these systems need to provide well-calibrated confidence scores that reflect the correctness of their answers. Existing calibration methods aim to ensure that the confidence score is on average indicative of the likelihood that the answer is correct. We argue, however, that this standard (average-case) notion of calibration is difficult to interpret for decision-making in generative QA. To address this, we generalize the standard notion of average calibration and introduce $\beta$-calibration, which ensures calibration holds across different question-and-answer groups. We then propose discretized posthoc calibration schemes for achieving $\beta$-calibration.
翻訳日:2024-11-01 04:39:35 公開日:2024-10-09
# テキストビデオ検索のためのN1-to-1へのN1-to-Nの分解

Decomposing Relationship from 1-to-N into N 1-to-1 for Text-Video Retrieval ( http://arxiv.org/abs/2410.06618v1 )

ライセンス: Link先を確認
Jian Xiao, Zhenzhen Hu, Jia Li, Richang Hong, (参考訳) テキストビデオ検索(TVR)は、事前訓練されたモデルと大規模言語モデル(LLM)の利用により、近年大きく進歩している。 これらの進歩にもかかわらず、ビデオとテキスト間の相違やデータ表現の不規則により、TVRの正確なマッチングを実現することは依然として困難である。 本稿では,従来の1対NのTVR関係を1対1のN関係に分解する新しいフレームワークであるText-Video-ProxyNet(TV-ProxyNet)を提案する。 単一のテキストクエリを一連のテキストプロキシに置き換えることで、TV-ProxyNetはクエリの範囲を広げるだけでなく、より正確な拡張を実現する。 各テキストプロキシは、原文クエリに対するプロキシの方向と距離を調節する、ディレクタとダッシュと呼ばれるメカニズムによって制御される、洗練された反復プロセスによって作成される。 この設定は、より正確なセマンティックアライメントを促進するだけでなく、マルチモーダルデータに固有の相違やノイズを効果的に管理する。 本稿では,MSRVTT,DiDeMo,ActivityNet Captionsの3つの代表的なビデオテキスト検索ベンチマーク実験を行い,TV-ProxyNetの有効性を実証した。 その結果,R@1ではベースラインよりも2.0%から3.3%改善した。 TV-ProxyNetはMSRVTTとActivityNet Captionsの最先端性能を達成し、既存の手法と比較してDiDeMoを2.0%改善し、セマンティックマッピングを強化し、エラーの正当性を低下させるアプローチの能力を検証した。

Text-video retrieval (TVR) has seen substantial advancements in recent years, fueled by the utilization of pre-trained models and large language models (LLMs). Despite these advancements, achieving accurate matching in TVR remains challenging due to inherent disparities between video and textual modalities and irregularities in data representation. In this paper, we propose Text-Video-ProxyNet (TV-ProxyNet), a novel framework designed to decompose the conventional 1-to-N relationship of TVR into N distinct 1-to-1 relationships. By replacing a single text query with a series of text proxies, TV-ProxyNet not only broadens the query scope but also achieves a more precise expansion. Each text proxy is crafted through a refined iterative process, controlled by mechanisms we term as the director and dash, which regulate the proxy's direction and distance relative to the original text query. This setup not only facilitates more precise semantic alignment but also effectively manages the disparities and noise inherent in multimodal data. Our experiments on three representative video-text retrieval benchmarks, MSRVTT, DiDeMo, and ActivityNet Captions, demonstrate the effectiveness of TV-ProxyNet. The results show an improvement of 2.0% to 3.3% in R@1 over the baseline. TV-ProxyNet achieved state-of-the-art performance on MSRVTT and ActivityNet Captions, and a 2.0% improvement on DiDeMo compared to existing methods, validating our approach's ability to enhance semantic mapping and reduce error propensity.
翻訳日:2024-11-01 04:39:35 公開日:2024-10-09
# 構造情報原理に基づく効果的な探索

Effective Exploration Based on the Structural Information Principles ( http://arxiv.org/abs/2410.06621v1 )

ライセンス: Link先を確認
Xianghua Zeng, Hao Peng, Angsheng Li, (参考訳) 伝統的な情報理論は、特にエージェント探索のための表現学習とエントロピーの最大化を通じて、強化学習の貴重な基盤を提供する。 しかし、既存の手法は主にRLの確率変数に関連する不確かさをモデル化することに集中しており、状態と作用空間内の固有の構造を無視している。 本稿では,新しい構造情報原則に基づく有効探索フレームワーク,すなわちSI2Eを提案する。 2変数間の構造的相互情報は、構造情報の単一変数制限に対処するために定義され、動的関連状態-動作表現をキャプチャするための革新的な埋め込み原理が提示される。 SI2Eは、状態-作用対間のエージェントのポリシーの値差を分析し、構造的エントロピーを最小化し、エンコーディングツリーと呼ばれる階層的状態-作用構造を導出する。 この木構造の下では、値条件構造エントロピーが定義され、冗長な遷移を回避し、状態-作用空間のカバレッジを向上する本質的な報酬機構を設計するために最大化される。 SI2Eと古典情報理論の方法論の間には理論的な関係が確立されており、フレームワークの合理性と優位性を強調している。 MiniGrid、MetaWorld、DeepMind Control Suiteのベンチマークの総合的な評価では、SI2Eは最終性能とサンプル効率に関して、それぞれ37.63%と60.25%の最大改善で最先端の探査ベースラインを大幅に上回っている。

Traditional information theory provides a valuable foundation for Reinforcement Learning, particularly through representation learning and entropy maximization for agent exploration. However, existing methods primarily concentrate on modeling the uncertainty associated with RL's random variables, neglecting the inherent structure within the state and action spaces. In this paper, we propose a novel Structural Information principles-based Effective Exploration framework, namely SI2E. Structural mutual information between two variables is defined to address the single-variable limitation in structural information, and an innovative embedding principle is presented to capture dynamics-relevant state-action representations. The SI2E analyzes value differences in the agent's policy between state-action pairs and minimizes structural entropy to derive the hierarchical state-action structure, referred to as the encoding tree. Under this tree structure, value-conditional structural entropy is defined and maximized to design an intrinsic reward mechanism that avoids redundant transitions and promotes enhanced coverage in the state-action space. Theoretical connections are established between SI2E and classical information-theoretic methodologies, highlighting our framework's rationality and advantage. Comprehensive evaluations in the MiniGrid, MetaWorld, and DeepMind Control Suite benchmarks demonstrate that SI2E significantly outperforms state-of-the-art exploration baselines regarding final performance and sample efficiency, with maximum improvements of 37.63% and 60.25%, respectively.
翻訳日:2024-11-01 04:39:35 公開日:2024-10-09
# ETA: 推論時間における視覚言語モデルの安全性の評価

ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time ( http://arxiv.org/abs/2410.06625v1 )

ライセンス: Link先を確認
Yi Ding, Bolian Li, Ruqi Zhang, (参考訳) 視覚言語モデル(VLM)は、マルチモーダルインテリジェンスにとって不可欠なバックボーンとなっているが、重要な安全性上の課題は実世界のアプリケーションを制限する。 テキスト入力はしばしば効果的に保護されるが、敵対的な視覚入力は容易にVLM防御機構をバイパスすることができる。 既存の防衛方法はリソース集約的であり、かなりのデータと計算を必要とするか、あるいは応答の安全性と有用性を同時に確保できないかのいずれかである。 これらの制約に対処するため、新しい2相推論時アライメントフレームワーク、ETA(Evaluating Then Aligning)を提案する。 1)マルチモーダル環境での堅牢な安全意識を確立するための入力視覚内容と出力応答の評価 2) VLMの生成分布を干渉前置詞で条件付けし, 文レベルのベスト・オブ・Nを実行し, 最も危害で有用な生成経路を探索することにより, 浅層および深層の両方で不安全行動の調整を行う。 大規模な実験により、ETAは無害性、有用性、効率の点でベースライン法を上回り、非安全率を87.5%減らし、GPT-4の有用性評価では96.6%の勝利率を達成した。 コードはhttps://github.com/DripNowhy/ETAで公開されている。

Vision Language Models (VLMs) have become essential backbones for multimodal intelligence, yet significant safety challenges limit their real-world application. While textual inputs are often effectively safeguarded, adversarial visual inputs can easily bypass VLM defense mechanisms. Existing defense methods are either resource-intensive, requiring substantial data and compute, or fail to simultaneously ensure safety and usefulness in responses. To address these limitations, we propose a novel two-phase inference-time alignment framework, Evaluating Then Aligning (ETA): 1) Evaluating input visual contents and output responses to establish a robust safety awareness in multimodal settings, and 2) Aligning unsafe behaviors at both shallow and deep levels by conditioning the VLMs' generative distribution with an interference prefix and performing sentence-level best-of-N to search the most harmless and helpful generation paths. Extensive experiments show that ETA outperforms baseline methods in terms of harmlessness, helpfulness, and efficiency, reducing the unsafe rate by 87.5% in cross-modality attacks and achieving 96.6% win-ties in GPT-4 helpfulness evaluation. The code is publicly available at https://github.com/DripNowhy/ETA.
翻訳日:2024-11-01 04:39:35 公開日:2024-10-09
# Open-RGBT:オープンワールド環境におけるオープンボキャブラリRGB-Tゼロショットセマンティックセマンティックセマンティックセグメンテーション

Open-RGBT: Open-vocabulary RGB-T Zero-shot Semantic Segmentation in Open-world Environments ( http://arxiv.org/abs/2410.06626v1 )

ライセンス: Link先を確認
Meng Yu, Luojie Yang, Xunjie He, Yi Yang, Yufeng Yue, (参考訳) セマンティックセグメンテーションは効果的なシーン理解にとって重要な手法である。 従来のRGB-Tセマンティックセグメンテーションモデルは、事前訓練されたモデルや事前定義されたカテゴリに依存しているため、様々なシナリオにまたがる一般化に苦慮することが多い。 視覚言語モデル(VLM)の最近の進歩は、クローズドセットからオープンボキャブラリセマンティックセグメンテーション方法への移行を促進する。 しかし、これらのモデルは複雑なシーンを扱う上で、主にRGBと熱モダリティの不均一性のために困難に直面している。 このギャップに対処するために,オープン語彙RGB-TセマンティックセマンティックセグメンテーションモデルであるOpen-RGBTを提案する。 具体的には、カテゴリ理解を高めるために視覚的プロンプトを取り入れたインスタンスレベルの検出提案を行う。 さらに、CLIPモデルを用いて画像とテキストの類似性を評価し、セマンティックな一貫性を補正し、カテゴリ識別におけるあいまいさを軽減する。 実証的な評価により、Open-RGBTは、RGB-Tセマンティックセマンティックセグメンテーションの分野を著しく進歩させながら、多様で挑戦的な現実世界のシナリオにおいて優れた性能を発揮することが示された。

Semantic segmentation is a critical technique for effective scene understanding. Traditional RGB-T semantic segmentation models often struggle to generalize across diverse scenarios due to their reliance on pretrained models and predefined categories. Recent advancements in Visual Language Models (VLMs) have facilitated a shift from closed-set to open-vocabulary semantic segmentation methods. However, these models face challenges in dealing with intricate scenes, primarily due to the heterogeneity between RGB and thermal modalities. To address this gap, we present Open-RGBT, a novel open-vocabulary RGB-T semantic segmentation model. Specifically, we obtain instance-level detection proposals by incorporating visual prompts to enhance category understanding. Additionally, we employ the CLIP model to assess image-text similarity, which helps correct semantic consistency and mitigates ambiguities in category identification. Empirical evaluations demonstrate that Open-RGBT achieves superior performance in diverse and challenging real-world scenarios, even in the wild, significantly advancing the field of RGB-T semantic segmentation.
翻訳日:2024-11-01 04:39:35 公開日:2024-10-09
# 問題の木:構成性による構造的問題解決の改善

Tree of Problems: Improving structured problem solving with compositionality ( http://arxiv.org/abs/2410.06634v1 )

ライセンス: Link先を確認
Armel Zebaze, Benoît Sagot, Rachel Bawden, (参考訳) 大規模言語モデル(LLM)は、コンテキスト内学習を通じて、複数のタスクにまたがる顕著なパフォーマンスを示す。 ステップバイステップの思考を必要とする複雑な推論タスクに対して、CoT(Chain-of-Thought)は、特に自己整合性(self-consistency)と組み合わせることで、印象的な結果をもたらした。 それでも、LLMが解くのが特に難しいタスクがいくつかある。 Tree of Thoughts (ToT) と Graph of Thoughts (GoT) が代替として登場し、複雑な問題をサブプロブレムの経路に分割した。 本稿では,ToTの簡易版であるTree of Problems (ToP)を提案する。 実験の結果,提案手法はToTやGoTよりも優れており,複雑な推論タスクではCoTよりも優れていることがわかった。 この論文の全コードは、https://github.com/ArmelRandy/tree-of-problems.comで公開されている。

Large Language Models (LLMs) have demonstrated remarkable performance across multiple tasks through in-context learning. For complex reasoning tasks that require step-by-step thinking, Chain-of-Thought (CoT) prompting has given impressive results, especially when combined with self-consistency. Nonetheless, some tasks remain particularly difficult for LLMs to solve. Tree of Thoughts (ToT) and Graph of Thoughts (GoT) emerged as alternatives, dividing the complex problem into paths of subproblems. In this paper, we propose Tree of Problems (ToP), a simpler version of ToT, which we hypothesise can work better for complex tasks that can be divided into identical subtasks. Our empirical results show that our approach outperforms ToT and GoT, and in addition performs better than CoT on complex reasoning tasks. All code for this paper is publicly available here: https://github.com/ArmelRandy/tree-of-problems.
翻訳日:2024-11-01 04:39:35 公開日:2024-10-09
# サブトルエラーが重要: エラー注入型自己編集による選好学習

Subtle Errors Matter: Preference Learning via Error-injected Self-editing ( http://arxiv.org/abs/2410.06638v1 )

ライセンス: Link先を確認
Kaishuai Xu, Tiezheng Yu, Wenjun Hou, Yi Cheng, Chak Tou Leong, Liangyou Li, Xin Jiang, Lifeng Shang, Qun Liu, Wenjie Li, (参考訳) LLM(Large Language Models)は、基本的な算術から高度な競合レベルの問題まで、強力な数学的推論と計算能力を示してきた。 しかし、誤計算や誤置換などの微妙な誤りが頻繁に発生するため、モデルの完全な数学的ポテンシャルは制限される。 数学能力を向上させるための既存の研究は、典型的には、強いLLMからの蒸留推論スキルや、ステップワイズ対応ペアに好みの学習を適用することを含む。 これらの手法は、様々な粒度のサンプルを利用して推論誤差を軽減するが、しばしば発生する微妙な誤りを見落としている。 主な理由は、サンプルの選好ペアがエラーとは無関係な相違を伴うため、モデルが微妙なエラーに焦点を合わせるのを妨げてしまう可能性がある。 本研究では,eRror-Injected Self-Editing (RISE) と呼ばれる新しい選好学習フレームワークを提案する。 詳細は、RISEはモデル自体を使用して、ソリューション内の少数のトークンを編集し、設計された微妙なエラーを注入する。 次に、自己編集解とそれに対応する正解からなるペアと、サンプリングによって得られた正解と誤解のペアを合わせて、微妙な誤り認識DPOトレーニングを行う。 他の選好学習法と比較して、RISEは、詳細なサンプリングや選好アノテーションを必要とせず、事前定義されたエラーとそのトークンに焦点を当てる訓練目標をさらに洗練する。 Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。

Large Language Models (LLMs) have exhibited strong mathematical reasoning and computational prowess, tackling tasks ranging from basic arithmetic to advanced competition-level problems. However, frequently occurring subtle errors, such as miscalculations or incorrect substitutions, limit the models' full mathematical potential. Existing studies to improve mathematical ability typically involve distilling reasoning skills from stronger LLMs or applying preference learning to step-wise response pairs. Although these methods leverage samples of varying granularity to mitigate reasoning errors, they overlook the frequently occurring subtle errors. A major reason is that sampled preference pairs involve differences unrelated to the errors, which may distract the model from focusing on subtle errors. In this work, we propose a novel preference learning framework called eRror-Injected Self-Editing (RISE), which injects predefined subtle errors into partial tokens of correct solutions to construct hard pairs for error mitigation. In detail, RISE uses the model itself to edit a small number of tokens in the solution, injecting designed subtle errors. Then, pairs composed of self-edited solutions and their corresponding correct ones, along with pairs of correct and incorrect solutions obtained through sampling, are used together for subtle error-aware DPO training. Compared with other preference learning methods, RISE further refines the training objective to focus on predefined errors and their tokens, without requiring fine-grained sampling or preference annotation. Extensive experiments validate the effectiveness of RISE, with preference learning on Qwen2-7B-Instruct yielding notable improvements of 3.0% on GSM8K and 7.9% on MATH.
翻訳日:2024-11-01 04:39:35 公開日:2024-10-09
# 表面電極ポールトラップの周波数計測への応用

Preliminary characterization of a surface electrode Paul trap for frequency metrology ( http://arxiv.org/abs/2410.06639v1 )

ライセンス: Link先を確認
Josipa Madunic, Lucas Groult, Bachir Achi, Thomas Lauprêtre, Alan Boudrias, Pierre Roset, Valérie Soumann, Yann Kersalé, Moustafa Abdel Hafiz, Clément Lacroûte, (参考訳) 我々は435.5nmの電気四極子遷移において、$^{171}$Yb$^+$イオンで動作する表面電極(SE)トラップに基づく単一イオン光クロックを開発している。 試作SEトラップを用いて加熱速度の測定を行った。 また,シリコンを用いたマイクロファブリケートSEトラップチップを絶縁体に導入した。 試験用チップを用いて超高真空下で電気試験を行い、破壊電圧の測定とフラッシュオーバー検出を行った。 本稿では,このチップに適したトラップパラメータと,その設計改善のためのロードマップを提案する。

We are developing a single-ion optical clock based on a surface-electrode (SE) trap that we will operate with $^{171}$Yb$^+$ ions on the electric quadrupole transition at 435.5 nm. We present heating rate measurements performed with a prototype SE trap. We also introduce a new, micro-fabricated SE trapping chip using silicon on insulator technology. Electric tests were performed under ultra-high vacuum using a testing chip, including breakdown voltages measurements and flashover detection. We present suitable trapping parameters for this chip, as well as a road-map for improving its design.
翻訳日:2024-11-01 04:39:35 公開日:2024-10-09
# 磁気環境中における磁気感受性原子の輸送

Transport of magnetically sensitive atoms in a magnetic environment ( http://arxiv.org/abs/2410.06640v1 )

ライセンス: Link先を確認
D. A. Kumpilov, I. A. Pyrkh, I. S. Cojocaru, P. V. Trofimova, V. A. Khlebnikov, P. A. Aksentsev, A. E. Rudnev, A. M. Ibrahimov, O. I. Blokhin, K. O. Frolov, S. A. Kuzmin, D. V. Gaifutdinov, A. K. Zykova, D. A. Pershin, V. V. Tsyganok, A. V. Akimov, (参考訳) 低温原子の興味深い応用の中で、量子シミュレーションは多くの注目を集めている。 この文脈では、多くのファノ・フェシュバッハ共鳴と基底状態における磁気双極子モーメントにより、希土類超低温原子は特にそのようなシミュレーターに魅力的である。 しかし、これらの原子で量子ガス顕微鏡を作成することは、主に原子を主冷却室から大きな光学的アクセスを持つ別のチャンバーに移す必要があるため、課題を提起する。 強磁場は原子に力を加えることでこの移動を複雑にする。 トリウム原子を例として、この研究は、成層磁場を直接原子自身を用いて測定できることを示し、これらの磁場は移動過程中に説明できることを示した。 このアプローチは転送効率を大幅に改善し、メインチャンバーから56cm離れた科学チャンバーに原子の1/3以上を移動させる。

Among interesting applications of cold atoms, quantum simulations attract a lot of attention. In this context, rare-earth ultracold atoms are particularly appealing for such simulators due to their numerous Fano-Feshbach resonances and magnetic dipole moments in the ground state. However, creating a quantum gas microscope with these atoms presents challenges, primarily because of the need to transfer the atoms from the main cooling chamber to another chamber with large optical access. Stray magnetic fields complicate this transfer by exerting forces on the atoms. Using thulium atoms as an example, the study demonstrates that stray magnetic fields can be measured directly using the atoms themselves, allowing for these fields to be accounted for during the transfer process. This approach significantly improves the efficiency of the transfer, allowing to transfer over 1/3 of the atoms from the main chamber to the scientific chamber, located 56 cm away.
翻訳日:2024-11-01 04:39:35 公開日:2024-10-09
# 物理誘導型時系列埋め込みに向けて

Toward Physics-guided Time Series Embedding ( http://arxiv.org/abs/2410.06651v1 )

ライセンス: Link先を確認
Jiaxi Hu, Bowen Zhang, Qingsong Wen, Fugee Tsung, Yuxuan Liang, (参考訳) 様々な科学・工学分野において、主要な研究分野は物理に基づく力学系モデリングとデータ駆動時系列解析である。 埋め込み理論によれば、力学系と時系列は観測関数と物理再構成技術を用いて相互に変換できる。 これに基づいて、パラメータ化された埋め込み層が本質的に非線形時系列の線形推定を提供するエンベディング・デュナリティ理論を提案する。 この理論により、パラメータ化された埋め込み層をバイパスし、物理再構成技術を直接利用してデータ埋め込み表現を得ることができる。 物理的プリミティブを使用すると、パラメータの10倍の削減、スピードの3倍のアップ、エキスパートの18%、少数ショットの22%、超パラメータチューニングのないゼロショットタスクの53倍のパフォーマンスが向上する。 すべてのメソッドはプラグイン・アンド・プレイモジュールとしてカプセル化される

In various scientific and engineering fields, the primary research areas have revolved around physics-based dynamical systems modeling and data-driven time series analysis. According to the embedding theory, dynamical systems and time series can be mutually transformed using observation functions and physical reconstruction techniques. Based on this, we propose Embedding Duality Theory, where the parameterized embedding layer essentially provides a linear estimation of the non-linear time series dynamics. This theory enables us to bypass the parameterized embedding layer and directly employ physical reconstruction techniques to acquire a data embedding representation. Utilizing physical priors results in a 10X reduction in parameters, a 3X increase in speed, and maximum performance boosts of 18% in expert, 22% in few-shot, and 53\% in zero-shot tasks without any hyper-parameter tuning. All methods are encapsulated as a plug-and-play module
翻訳日:2024-11-01 04:29:49 公開日:2024-10-09
# 3レベルイオン鎖における環交換物理

Ring-exchange physics in a chain of three-level ions ( http://arxiv.org/abs/2410.06655v1 )

ライセンス: Link先を確認
Sourav Biswas, E. Rico, Tobias Grass, (参考訳) リング交換相互作用の存在下では、はしごのような格子内のボソンは、d波ボース液体(DBL)として知られる相関金属のボソニックアナログを形成することがある。 このレターでは, 3つの内部レベルを持つイオンの鎖が, 1ラン当たり1ボソンの最大占有に制約されたはしごのようなシステムを模倣するために利用できることを示す。 この設定は調整可能な環交換相互作用を可能にし、全てのボソンが片足に制限された偏極状態とDBL状態の間の遷移を引き起こす。 後者の状態は、運動量分布におけるピークの分裂と振動対相関関数によって特徴づけられる。

In the presence of ring exchange interactions, bosons in a ladder-like lattice may form the bosonic analogon of a correlated metal, known as the d-wave Bose liquid (DBL). In this Letter, we show that a chain of trapped ions with three internal levels can be used to mimic a ladder-like system constrained to a maximum occupation of one boson per rung. The setup enables tunable ring exchange interactions, giving rise to a transition between a polarized regime with all bosons confined to one leg and the DBL regime. The latter state is characterized by a splitting of the peak in the momentum distribution and an oscillating pair correlation function.
翻訳日:2024-11-01 04:29:49 公開日:2024-10-09
# WardropNet: 平衡学習による交通流予測

WardropNet: Traffic Flow Predictions via Equilibrium-Augmented Learning ( http://arxiv.org/abs/2410.06656v1 )

ライセンス: Link先を確認
Kai Jungel, Dario Paccagnan, Axel Parmentier, Maximilian Schiffer, (参考訳) 交通システムの最適化においては、交通流の予測が中心的な要素である。 しかし、そのようなトラフィック均衡の計算には計算コストがかかる。 そこで本研究では,高速かつ正確なトラフィックフロー予測を可能にする,新しい組合せ最適化型ニューラルネットワークアーキテクチャを提案する。 従来の階層とその後の平衡層を組み合わせたニューラルネットワークであるWardropNetを提案する。 教師付き学習を用いることで,実際のトラフィックフローと予測出力との差を最小限に抑える。 本稿では、平衡の幾何に適合するブレグマンの発散を利用して、エンドツーエンドの学習を可能にする方法を示す。 WardropNetは、リアルでスタイリングされたトラフィックシナリオに対するトラフィック均衡を予測する純粋な学習ベースのアプローチよりも優れています。 現実的なシナリオでは、WardropNetは、時間不変の予測を最大72%、時間不変の予測を最大23%改善する。

When optimizing transportation systems, anticipating traffic flows is a central element. Yet, computing such traffic equilibria remains computationally expensive. Against this background, we introduce a novel combinatorial optimization augmented neural network architecture that allows for fast and accurate traffic flow predictions. We propose WardropNet, a neural network that combines classical layers with a subsequent equilibrium layer: the first ones inform the latter by predicting the parameterization of the equilibrium problem's latency functions. Using supervised learning we minimize the difference between the actual traffic flow and the predicted output. We show how to leverage a Bregman divergence fitting the geometry of the equilibria, which allows for end-to-end learning. WardropNet outperforms pure learning-based approaches in predicting traffic equilibria for realistic and stylized traffic scenarios. On realistic scenarios, WardropNet improves on average for time-invariant predictions by up to 72% and for time-variant predictions by up to 23% over pure learning-based approaches.
翻訳日:2024-11-01 04:29:49 公開日:2024-10-09
# 見えない遷移を用いたNV中心核スピンの操作

Manipulation of the NV center nuclear spin using invisible transition ( http://arxiv.org/abs/2410.06658v1 )

ライセンス: Link先を確認
S. M. Drofa, V. V. Soshenko, I. S. Cojocaru, S. V. Bolshedvorskii, P. G. Vilyuzhanina, E. A. Primak, A. M. Kozodaev, A. Chernyavskiy, V. G. Vins, V. N. Sorokin, A. N. Smolyaninov, S. Ya. Kilin, A. V. Akimov, (参考訳) 近年,ダイヤモンド中の窒素空孔色中心の核スピンを利用した回転センサが実証されている。 しかし、これらのデバイスは電力集約的で、小さなチップベースの電波アンテナや、核スピンの制御や比較的高い磁場の生成に必要な回路に統合することは困難である。 この問題に対処するために、マイクロ波を用いた中程度の磁場をトラップするコヒーレント集団による核スピンのコヒーレント操作が、等方的に純粋なダイヤモンドで成功した。 本研究は,炭素13を多く含むダイヤモンド板に同様の手法を適用できることを実証する。 コヒーレント制御に必要とされる共鳴は部分的にしか観測されなかったが、コヒーレント集団のトラップは目に見える遷移と見えない遷移の両方で成功し、98+-11%、真のコントラストは35+-7%であった。 この発見は、自然発生の炭素13を持つダイヤモンドプレートにおいても、コヒーレント核スピン制御が実現可能であることを確認する。

Recently, rotation sensors utilizing the nuclear spins of nitrogen-vacancy color centers in diamond have been demonstrated. However, these devices are power-intensive and challenging to integrate into small chip-based radiofrequency antennas and circuits necessary for controlling nuclear spins or producing relatively high magnetic fields. To address this issue, the coherent manipulation of nuclear spins via coherent population trapping at moderate magnetic fields using microwave fields has been successfully demonstrated in isotopically pure diamond. In this work, we demonstrate that a similar technique can be applied to a diamond plate with a natural abundance of carbon-13, which holds significant potential for practical sensing applications. Although the forbidden resonances required for coherent control were only partially observed, coherent population trapping was successfully demonstrated at both visible and invisible transitions, with an apparent contrast of up to 98 +- 11% and a true contrast of approximately 35 +-7%. This finding confirms the feasibility of coherent nuclear spin control even in diamond plates with naturally occurring carbon-13.
翻訳日:2024-11-01 04:29:49 公開日:2024-10-09
# Deouple-Then-Merge: 拡散モデルのより良いトレーニングを目指して

Decouple-Then-Merge: Towards Better Training for Diffusion Models ( http://arxiv.org/abs/2410.06664v1 )

ライセンス: Link先を確認
Qianli Ma, Xuefei Ning, Dongrui Liu, Li Niu, Linfeng Zhang, (参考訳) 拡散モデルは、ノイズ破損の各ステップを反転させる一連のモデルを学ぶことで訓練される。 通常、モデルのパラメータはトレーニング効率を高めるために、複数のタイムステップで完全に共有されます。 しかし、デノナイジングタスクは各タイミングで異なるため、異なるタイミングで計算された勾配は相反する可能性があり、画像生成の全体的な性能を低下させる可能性がある。 この問題を解決するために、本研究では、事前訓練されたモデルと特定のタイムステップに合わせて微調整されたモデルから始まるDeouple-then-Merge(DeMe)フレームワークを提案する。 そこで我々は,時間経過間の干渉を最小限に抑えつつ,効果的な知識共有を促進するために,ファインタニング段階においていくつかの改良手法を導入する。 最後に、微調整後、これらの分離されたモデルをパラメータ空間の1つのモデルにマージし、効率的かつ実用的な推論を保証する。 実験の結果、COCO30Kの安定拡散、ImageNet1K、PartiPrompts、LSUN ChurchのDDPM、LSUN Bedroom、CIFAR10の6つのベンチマークにおいて、生成品質が大幅に向上した。

Diffusion models are trained by learning a sequence of models that reverse each step of noise corruption. Typically, the model parameters are fully shared across multiple timesteps to enhance training efficiency. However, since the denoising tasks differ at each timestep, the gradients computed at different timesteps may conflict, potentially degrading the overall performance of image generation. To solve this issue, this work proposes a Decouple-then-Merge (DeMe) framework, which begins with a pretrained model and finetunes separate models tailored to specific timesteps. We introduce several improved techniques during the finetuning stage to promote effective knowledge sharing while minimizing training interference across timesteps. Finally, after finetuning, these separate models can be merged into a single model in the parameter space, ensuring efficient and practical inference. Experimental results show significant generation quality improvements upon 6 benchmarks including Stable Diffusion on COCO30K, ImageNet1K, PartiPrompts, and DDPM on LSUN Church, LSUN Bedroom, and CIFAR10.
翻訳日:2024-11-01 04:29:49 公開日:2024-10-09
# 認識不能表現のレンズによる多変量等価性の再検討

Revisiting Multi-Permutation Equivariance through the Lens of Irreducible Representations ( http://arxiv.org/abs/2410.06665v1 )

ライセンス: Link先を確認
Yonatan Sverdlov, Ido Springer, Nadav Dym, (参考訳) 本稿では、置換とその関連群の表現のための等変線形層の特性について考察する。 パラメータ共有を用いたこれらの問題に対処する従来のアプローチとは異なり、既約表現とシュルの補題に基づく代替手法を考える。 この手法を用いて,DeepSets,2-IGNグラフ同変ネットワーク,およびDeep Weight Space(DWS)ネットワークなどの既存モデルの代替導出を得る。 DWSネットワークの導出は、以前の結果よりも大幅に単純である。 次に、群の Wreath 積に同値性を必要とする非整合対称集合へのアプローチを拡張する。 従来の研究では、この問題をかなり制限的な設定で解決しており、ほとんどのリース同変層はシームズである。 対照的に、このケースでは、レイヤをフルに評価し、いくつかの設定では、さらに多くの非シーム層が存在することを示す。 また、これらの追加の非シーム層は、グラフ異常の検出、重み空間のアライメント、ワッサーシュタイン距離の学習といったタスクのパフォーマンスを向上させることを実証的に示す。 私たちのコードは \href{https://github.com/yonatansverdlov/Irreducible-Representations-of-deep-Weight-Spaces}{GitHub} で利用可能です。

This paper explores the characterization of equivariant linear layers for representations of permutations and related groups. Unlike traditional approaches, which address these problems using parameter-sharing, we consider an alternative methodology based on irreducible representations and Schur's lemma. Using this methodology, we obtain an alternative derivation for existing models like DeepSets, 2-IGN graph equivariant networks, and Deep Weight Space (DWS) networks. The derivation for DWS networks is significantly simpler than that of previous results. Next, we extend our approach to unaligned symmetric sets, where equivariance to the wreath product of groups is required. Previous works have addressed this problem in a rather restrictive setting, in which almost all wreath equivariant layers are Siamese. In contrast, we give a full characterization of layers in this case and show that there is a vast number of additional non-Siamese layers in some settings. We also show empirically that these additional non-Siamese layers can improve performance in tasks like graph anomaly detection, weight space alignment, and learning Wasserstein distances. Our code is available at \href{https://github.com/yonatansverdlov/Irreducible-Representations-of-Deep-Weight-Spaces}{GitHub}.
翻訳日:2024-11-01 04:29:49 公開日:2024-10-09
# GLA-DA:多変量時系列に対するグローバルローカルアライメントドメイン適応

GLA-DA: Global-Local Alignment Domain Adaptation for Multivariate Time Series ( http://arxiv.org/abs/2410.06671v1 )

ライセンス: Link先を確認
Gang Tu, Dan Li, Bingxin Lin, Zibin Zheng, See-Kiong Ng, (参考訳) 画像や自然言語のトークンとは異なり、時系列データは非常に意味的に疎いため、労働集約的なラベルアノテーションが生じる。 非教師付き半教師付きドメイン適応(UDAとSSDA)は、ラベルなしまたは部分的にラベル付けされたターゲットデータのトレーニングにラベル付きソースデータを利用することで、この問題に対処する効率を実証している。 しかし、下流分類タスク用に設計されたドメイン適応手法では、ラベル付きソースサンプルにラベル付きターゲットサンプルを直接適用することで、様々なクラスに類似した分布が生じ、ターゲット分類タスクの性能が向上する。 この課題に対処するため,多変量時系列データに対するGLA(Global-Local Alignment Domain Adaptation)手法を提案する。 2つのドメインのデータは当初、中間機能空間を逆向きに整列するようにエンコードされ、グローバル機能アライメント(GFA)が達成された。 その後、GLA-DAは類似性に基づくモデルと深層学習に基づくモデルの一貫性を活用し、擬似ラベルをラベル付けされていないターゲットデータに割り当てた。 このプロセスは、サンプルを同じクラスラベルで整列させ、ローカルクラスアライメント(LCA)を達成することで、異なるラベルを持つデータ間の差異を保存することを目的としている。 UDAとSSDAの両方のシナリオでGLA-DAを実装し、様々な公開データセットに対する広範な実験を通じて、最先端の手法よりも優れていることを示す。 アブレーション実験は、GLA-DAにおける鍵成分の重要性を裏付けた。

Unlike images and natural language tokens, time series data is highly semantically sparse, resulting in labor-intensive label annotations. Unsupervised and Semi-supervised Domain Adaptation (UDA and SSDA) have demonstrated efficiency in addressing this issue by utilizing pre-labeled source data to train on unlabeled or partially labeled target data. However, in domain adaptation methods designed for downstream classification tasks, directly adapting labeled source samples with unlabelled target samples often results in similar distributions across various classes, thereby compromising the performance of the target classification task. To tackle this challenge, we proposed a Global-Local Alignment Domain Adaptation (GLA-DA) method for multivariate time series data. Data from two domains were initially encoded to align in an intermediate feature space adversarially, achieving Global Feature Alignment (GFA). Subsequently, GLA-DA leveraged the consistency between similarity-based and deep learning-based models to assign pseudo labels to unlabeled target data. This process aims to preserve differences among data with distinct labels by aligning the samples with the same class labels together, achieving Local Class Alignment (LCA). We implemented GLA-DA in both UDA and SSDA scenarios, showcasing its superiority over state-of-the-art methods through extensive experiments on various public datasets. Ablation experiments underscored the significance of key components within GLA-DA.
翻訳日:2024-11-01 04:19:50 公開日:2024-10-09
# AI、気候、規制 - データセンターからAI法まで

AI, Climate, and Regulation: From Data Centers to the AI Act ( http://arxiv.org/abs/2410.06681v1 )

ライセンス: Link先を確認
Kai Ebert, Nicolas Alder, Ralf Herbrich, Philipp Hacker, (参考訳) 私たちは、教育、メディア、医療、モビリティから産業や専門的な仕事場、そしてロボット工学に至るまで、民間と公共の生活のあらゆる分野に浸透し、強化する、AIアプリケーションの前例のないブームを経験している世界に住んでいます。 この世界は同時に気候変動に悩まされているため、AIの開発と利用の気候と環境への影響は、公的な、学術的な議論の主題となっている。 本稿では、特にデータセンターとAIの気候関連規制に関するガイダンスを提供し、これらの要件の運用方法について論じる。 私たちはまた、課題と改善の余地を強調し、この目的のためにいくつかのポリシー提案を行います。 特に、AI法を具体的に解釈し、これまで未解決であったAI推論からのエネルギー消費の報告を範囲に戻すことを提案する。 また、AI法は、AIアプリケーションからの間接的な温室効果ガス排出に対処できないこともわかりました。 さらに, エネルギー消費報告のために, データセンター内の計測レベルを比較し, 累積サーバレベルでの測定を推奨する。 また、環境問題を含む環境問題を含むAI法(サステナビリティリスクアセスメント、SIA)の解釈と、その運用に関するガイダンスについても論じる。 EUのデータセンター規制は、良い第一歩であることを証明していますが、データセンターの再生可能エネルギーと効率目標を結びつけることで、さらなる開発が必要です。 総じて、エネルギー・環境報告義務、法・規制の明確化、透明性・説明責任メカニズム、透明性を超える将来的遠方改善対策の4つの分野において、12の具体的な政策案を策定する。

We live in a world that is experiencing an unprecedented boom of AI applications that increasingly penetrate and enhance all sectors of private and public life, from education, media, medicine, and mobility to the industrial and professional workspace, and -- potentially particularly consequentially -- robotics. As this world is simultaneously grappling with climate change, the climate and environmental implications of the development and use of AI have become an important subject of public and academic debate. In this paper, we aim to provide guidance on the climate-related regulation for data centers and AI specifically, and discuss how to operationalize these requirements. We also highlight challenges and room for improvement, and make a number of policy proposals to this end. In particular, we propose a specific interpretation of the AI Act to bring reporting on the previously unadressed energy consumption from AI inferences back into the scope. We also find that the AI Act fails to address indirect greenhouse gas emissions from AI applications. Furthermore, for the purpose of energy consumption reporting, we compare levels of measurement within data centers and recommend measurement at the cumulative server level. We also argue for an interpretation of the AI Act that includes environmental concerns in the mandatory risk assessment (sustainability risk assessment, SIA), and provide guidance on its operationalization. The EU data center regulation proves to be a good first step but requires further development by including binding renewable energy and efficiency targets for data centers. Overall, we make twelve concrete policy proposals, in four main areas: Energy and Environmental Reporting Obligations; Legal and Regulatory Clarifications; Transparency and Accountability Mechanisms; and Future Far-Reaching Measures beyond Transparency.
翻訳日:2024-11-01 04:19:50 公開日:2024-10-09
# 熱マジョリゼーション・ムペンバ効果 : 統一と普遍性

Thermomajorization Mpemba Effect: Unification and Universality ( http://arxiv.org/abs/2410.06686v1 )

ライセンス: Link先を確認
Tan Van Vu, Hisao Hayakawa, (参考訳) Mpemba効果(Mpemba effect)は、熱いシステムが温かいものよりも速く冷却する反直感的な物理現象である。 近年、Mpemba効果の理論解析が顕微鏡システム向けに開発され、実験的に検証されている。 しかし、従来の理論は緩和速度を定量化するために距離測度の特定の選択に依存しており、いくつかの理論的曖昧さをもたらす。 本文では, 熱行列化理論に基づくMpemba効果の厳密な定量化を導出する。 このアプローチは、既存のすべての曖昧さを解決し、すべての単調測度にまたがる従来のムペンバ効果の統一を提供する。 さらに、マルコフ力学に対する熱行列化Mpemba効果の普遍性を実証し、エネルギー準位が固定された任意の温度条件で起こりうることを厳密に証明した。 本研究は, 熱緩和過程の理解におけるパラダイムシフトと, Mpemba効果を示す設計システムへの洞察を提供する。

The Mpemba effect is a counterintuitive physical phenomenon where a hot system cools faster than a warm one. In recent years, theoretical analyses of the Mpemba effect have been developed for microscopic systems and experimentally verified. However, the conventional theory relies on a specific choice of distance measure to quantify relaxation speed, leading to several theoretical ambiguities. In this Letter, we derive a rigorous quantification of the Mpemba effect based on thermomajorization theory, referred to as the thermomajorization Mpemba effect. This approach resolves all existing ambiguities and provides a unification of the conventional Mpemba effect across all monotone measures. Furthermore, we demonstrate the universality of the thermomajorization Mpemba effect for Markovian dynamics, rigorously proving that it can occur in any temperature regime with fixed energy levels. Our findings offer a paradigm shift in understanding thermal relaxation processes and provide insights into designing systems that exhibit the Mpemba effect.
翻訳日:2024-11-01 04:19:50 公開日:2024-10-09
# 標準単光子アバランシェ光ダイオードによる暗黒直接測定

Direct measurement of darkness using a standard single-photon avalanche photodiode ( http://arxiv.org/abs/2410.06691v1 )

ライセンス: Link先を確認
T. H. A. van der Reep, D. Molenaar, W. Löffler, (参考訳) 人間の視覚の限界を示す実験のような極暗を必要とする実験では、背景光子フラックスの評価が不可欠である。 しかし、標準の単一光子検出器による直接測定は、暗数とそのゆらぎによって挑戦される。 本稿では,標準的な単一光子検出器とメカニカルシャッターのみを用いて,人間の視覚実験に適した専用の暗室における暗室の直接測定に関する実験と詳細な統計分析を行った。 616$hのベイズ解析から、Savage-Dickey比と光度$<0.039$ cnt/s(後の$0.95$-highest density interval)に基づく絶対暗黒(事前分布の選択による)の決定的な証拠が得られた。

In experiments requiring extreme darkness, such as experiments probing the limits of human vision, assessment of the background photon flux is essential. However, direct measurement thereof with standard single photon detectors is challenged by dark counts and their fluctuations. Here we report an experiment and detailed statistical analysis of a direct measurement of darkness in a dedicated dark chamber suitable for human vision experiments, only using a standard single photon detector and a mechanical shutter. From a Bayesian analysis of $616$ h of data, we find substantial to decisive evidence for absolute darkness (depending on choice of prior distribution) based on the Savage-Dickey ratio, and a light level $<0.039$ cnt/s (posterior $0.95$-highest density interval).
翻訳日:2024-11-01 04:19:50 公開日:2024-10-09
# OmniPose6D:モノクロRGBの動的シーンにおける短期的オブジェクトポース追跡を目指して

OmniPose6D: Towards Short-Term Object Pose Tracking in Dynamic Scenes from Monocular RGB ( http://arxiv.org/abs/2410.06694v1 )

ライセンス: Link先を確認
Yunzhi Lin, Yipu Zhao, Fu-Jen Chu, Xingyu Chen, Weiyao Wang, Hao Tang, Patricio A. Vela, Matt Feiszli, Kevin Liang, (参考訳) モノクロRGB入力を用いた動的環境における短期オブジェクトポーズ追跡の課題に対処するために,実世界の状況の多様性を反映した大規模合成データセットOmniPose6Dを導入する。 また、ポーズ追跡アルゴリズムの総合的な比較のためのベンチマークフレームワークを提案する。 本研究では,不確実性を考慮したキーポイント改善ネットワークを特徴とするパイプラインを提案する。 比較評価の結果,本手法は実データセット上での既存のベースラインよりも性能が優れており,動的文脈における追跡精度の向上に有効な合成データセットと改良手法の有効性が示された。 コントリビューションは,複雑な場面におけるオブジェクトポーズ追跡手法の開発と評価の新たな先例となった。

To address the challenge of short-term object pose tracking in dynamic environments with monocular RGB input, we introduce a large-scale synthetic dataset OmniPose6D, crafted to mirror the diversity of real-world conditions. We additionally present a benchmarking framework for a comprehensive comparison of pose tracking algorithms. We propose a pipeline featuring an uncertainty-aware keypoint refinement network, employing probabilistic modeling to refine pose estimation. Comparative evaluations demonstrate that our approach achieves performance superior to existing baselines on real datasets, underscoring the effectiveness of our synthetic dataset and refinement technique in enhancing tracking precision in dynamic contexts. Our contributions set a new precedent for the development and assessment of object pose tracking methodologies in complex scenes.
翻訳日:2024-11-01 04:10:03 公開日:2024-10-09
# イベントカメラを用いた野生生物行動定量化のためのフーリエに基づく行動認識

Fourier-based Action Recognition for Wildlife Behavior Quantification with Event Cameras ( http://arxiv.org/abs/2410.06698v1 )

ライセンス: Link先を確認
Friedhelm Hamann, Suman Ghosh, Ignacio Juarez Martinez, Tom Hart, Alex Kacelnik, Guillermo Gallego, (参考訳) イベントカメラはバイオインスパイアされた新しい視覚センサーで、特定のフレームレートの画像ではなく、ピクセルの明るさが非同期に変化する。 それらは有望なアドバンテージ、すなわち、高いダイナミックレンジ、低レイテンシ、最小のモーションぼかしを提供する。 現代のコンピュータビジョンアルゴリズムは、しばしば、画像のようなデータ表現を必要とし、イベントデータの特徴を完全に活用できない、人工知能のアプローチに依存している。 本稿では,フーリエ変換に基づく行動認識手法を提案する。 これらのアプローチは、自然界に一般的に存在する振動する動きパターンを認識することを目的としている。 特に、我々のアプローチは、観察されたペンギンが特定の頻度で羽を羽ばたかせる行動である「静電ディスプレイ」に注釈付けされたペンギンの繁殖データセットに適用する。 我々のアプローチは単純かつ効果的であり、DNN(Deep Neural Network:ディープニューラルネットワーク)よりもわずかに低い結果を生み出す一方で、DNN(5桁のパラメータ)に比べてパラメータのごく一部に依存していることがわかった。 データセットに存在する、コントロールされていない多様なデータにもかかわらず、うまく機能する。 この作業が、イベントベースの処理とアクション認識に関する新たな視点を開くことを願っています。

Event cameras are novel bio-inspired vision sensors that measure pixel-wise brightness changes asynchronously instead of images at a given frame rate. They offer promising advantages, namely a high dynamic range, low latency, and minimal motion blur. Modern computer vision algorithms often rely on artificial neural network approaches, which require image-like representations of the data and cannot fully exploit the characteristics of event data. We propose approaches to action recognition based on the Fourier Transform. The approaches are intended to recognize oscillating motion patterns commonly present in nature. In particular, we apply our approaches to a recent dataset of breeding penguins annotated for "ecstatic display", a behavior where the observed penguins flap their wings at a certain frequency. We find that our approaches are both simple and effective, producing slightly lower results than a deep neural network (DNN) while relying just on a tiny fraction of the parameters compared to the DNN (five orders of magnitude fewer parameters). They work well despite the uncontrolled, diverse data present in the dataset. We hope this work opens a new perspective on event-based processing and action recognition.
翻訳日:2024-11-01 04:10:03 公開日:2024-10-09
# 視覚の知覚を破る:大規模視覚言語モデルの符号化された視覚トークンを標的とする敵攻撃

Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models ( http://arxiv.org/abs/2410.06699v1 )

ライセンス: Link先を確認
Yubo Wang, Chaohu Liu, Yanqiu Qu, Haoyu Cao, Deqiang Jiang, Linli Xu, (参考訳) 大きな視覚言語モデル(LVLM)は、視覚情報を大きな言語モデルに統合し、目覚ましい多モーダルな会話能力を示す。 しかし、視覚モジュールはLVLMの堅牢性という観点で新たな課題を導入している。 一般に、LVLMは視覚エンコーダに頼って画像を視覚トークンに変換するが、これは言語モデルが画像の内容を効果的に知覚するのに不可欠である。 LVLMは、符号化された視覚トークンが攻撃され、視覚情報が破壊されるとき、正しい応答を生成できるのか? そこで本研究では,画像エンコーダによって出力される視覚トークンのセマンティック特性だけでなく,特徴表現や固有関係を包括的に破壊する目的で,複数の視点から敵例を構築する,VT-Attack(Visual Tokens Attack)と呼ばれる非標的攻撃手法を提案する。 提案攻撃における画像エンコーダへのアクセスのみを用いて、生成した逆数例は、同一の画像エンコーダと異なるタスク間の一般性を利用して、多様なLVLM間での転送可能性を示す。 画像エンコーダによるLVLM攻撃の有効性を実証し、特に視覚的特徴空間の安定性の観点からLVLMのロバスト性に関するガイダンスを提供する。

Large vision-language models (LVLMs) integrate visual information into large language models, showcasing remarkable multi-modal conversational capabilities. However, the visual modules introduces new challenges in terms of robustness for LVLMs, as attackers can craft adversarial images that are visually clean but may mislead the model to generate incorrect answers. In general, LVLMs rely on vision encoders to transform images into visual tokens, which are crucial for the language models to perceive image contents effectively. Therefore, we are curious about one question: Can LVLMs still generate correct responses when the encoded visual tokens are attacked and disrupting the visual information? To this end, we propose a non-targeted attack method referred to as VT-Attack (Visual Tokens Attack), which constructs adversarial examples from multiple perspectives, with the goal of comprehensively disrupting feature representations and inherent relationships as well as the semantic properties of visual tokens output by image encoders. Using only access to the image encoder in the proposed attack, the generated adversarial examples exhibit transferability across diverse LVLMs utilizing the same image encoder and generality across different tasks. Extensive experiments validate the superior attack performance of the VT-Attack over baseline methods, demonstrating its effectiveness in attacking LVLMs with image encoders, which in turn can provide guidance on the robustness of LVLMs, particularly in terms of the stability of the visual feature space.
翻訳日:2024-11-01 04:10:03 公開日:2024-10-09
# PII-Scope: LLMにおけるデータPII漏洩評価のベンチマーク

PII-Scope: A Benchmark for Training Data PII Leakage Assessment in LLMs ( http://arxiv.org/abs/2410.06704v1 )

ライセンス: Link先を確認
Krishna Kanth Nakka, Ahmed Frikha, Ricardo Mendes, Xue Jiang, Xuebing Zhou, (参考訳) 本研究では,多種多様な脅威設定を対象とするPII抽出攻撃の最先端手法を評価するための総合ベンチマークであるPII-Scopeを紹介する。 本研究は、これらの攻撃について、その効果に不可欠ないくつかのハイパーパラメータ(例:デモ選択)を明らかにすることによって、より深い理解を提供する。 この理解に基づいて、我々は研究をより現実的な攻撃シナリオにまで拡張し、反復的および多種多様なクエリを含む高度な敵戦略を用いたPII攻撃を探索し、継続的なPII抽出に反復学習を活用する。 大規模な実験により,既存のシングルクエリー攻撃におけるPII漏洩の顕著な過小評価が明らかとなった。 実際、高度な対数能力と限られたクエリ予算により、事前訓練されたモデルをターゲットにした場合、PII抽出率は最大5倍に向上することを示した。 さらに、微調整モデル上でのPIIリークを評価し、事前訓練モデルよりもリークに対して脆弱であることを示す。 全体として、本研究は、現実的な脅威シナリオにおけるPII抽出攻撃の厳密な実証的ベンチマークを確立し、効果的な緩和戦略を開発するための強力な基盤を提供する。

In this work, we introduce PII-Scope, a comprehensive benchmark designed to evaluate state-of-the-art methodologies for PII extraction attacks targeting LLMs across diverse threat settings. Our study provides a deeper understanding of these attacks by uncovering several hyperparameters (e.g., demonstration selection) crucial to their effectiveness. Building on this understanding, we extend our study to more realistic attack scenarios, exploring PII attacks that employ advanced adversarial strategies, including repeated and diverse querying, and leveraging iterative learning for continual PII extraction. Through extensive experimentation, our results reveal a notable underestimation of PII leakage in existing single-query attacks. In fact, we show that with sophisticated adversarial capabilities and a limited query budget, PII extraction rates can increase by up to fivefold when targeting the pretrained model. Moreover, we evaluate PII leakage on finetuned models, showing that they are more vulnerable to leakage than pretrained models. Overall, our work establishes a rigorous empirical benchmark for PII extraction attacks in realistic threat scenarios and provides a strong foundation for developing effective mitigation strategies.
翻訳日:2024-11-01 04:10:03 公開日:2024-10-09
# 大規模言語モデルに対する垂直化確率の校正

Calibrating Verbalized Probabilities for Large Language Models ( http://arxiv.org/abs/2410.06707v1 )

ライセンス: Link先を確認
Cheng Wang, Gyuri Szarvas, Georges Balazs, Pavel Danchenko, Patrick Ernst, (参考訳) 単語化確率の校正は,ブラックボックス大言語モデル(LLM)の出力を確実に評価し,活用するための新しいアプローチを示す。 近年の手法では,LLMの信頼性スコアにプラットスケーリングや温度スケーリングなどの手法を適用し,キャリブレーションの改善が示されている。 本稿では,弁別課題に対する弁別確率分布の校正について検討する。 まず, LLMによる分類ラベル上の確率分布の生成能力について検討する。 言語化確率のスケーリングから生じるre-softmaxの問題を理論的・実証的に同定し,逆ソフトマックス法を用いて,動詞化確率を逆転させて「論理」を近似する手法を提案する。 本研究では,(1)クラス分布の生成におけるLCMの堅牢性,(2)ロジット推定における逆ソフトマックス手法の有効性を実証する。

Calibrating verbalized probabilities presents a novel approach for reliably assessing and leveraging outputs from black-box Large Language Models (LLMs). Recent methods have demonstrated improved calibration by applying techniques like Platt scaling or temperature scaling to the confidence scores generated by LLMs. In this paper, we explore the calibration of verbalized probability distributions for discriminative tasks. First, we investigate the capability of LLMs to generate probability distributions over categorical labels. We theoretically and empirically identify the issue of re-softmax arising from the scaling of verbalized probabilities, and propose using the invert softmax trick to approximate the "logit" by inverting verbalized probabilities. Through extensive evaluation on three public datasets, we demonstrate: (1) the robust capability of LLMs in generating class distributions, and (2) the effectiveness of the invert softmax trick in estimating logits, which, in turn, facilitates post-calibration adjustments.
翻訳日:2024-11-01 04:10:03 公開日:2024-10-09
# 開発者はML対応システムにグリーンアーキテクチャの戦術を採用するか? マイニングソフトウェアのリポジトリスタディ

Do Developers Adopt Green Architectural Tactics for ML-Enabled Systems? A Mining Software Repository Study ( http://arxiv.org/abs/2410.06708v1 )

ライセンス: Link先を確認
Vincenzo De Martino, Silverio Martínez-Fernández, Fabio Palomba, (参考訳) 機械学習(ML)と人工知能(AI)技術が社会でますます普及するにつれて、その環境持続可能性に対する懸念が高まっている。 ML対応システムの開発、デプロイ、特にトレーニングと推論はリソース集約的であり、持続可能性の問題を引き起こす。 グリーンAIは応答として現れ、精度を維持しながらAIの計算要求を減らすことを提唱している。 近年の研究では、持続可能なML対応システムを開発するための様々なグリーンな戦術が特定されているが、これらの戦術が現実のプロジェクトでどの程度採用されているか、また、追加の文書化されていないプラクティスが存在するかを理解するのにギャップがある。 本稿では,GitHub上の168のオープンソースプロジェクトにおけるグリーン戦略の採用を評価する,マイニングソフトウェアリポジトリの研究を通じて,これらのギャップに対処する。 そこで我々は,大規模言語モデルに基づく新たなマイニング機構を導入し,ソフトウェアリポジトリ内のグリーン戦略を特定し解析する。 この結果から,文献に見出された緑地戦略の採用に関する洞察と,より広範な実装をサポートするコード例を備えた12の新たな戦略を提供することにより,以前のカタログを拡張した。 本研究は,実装の最小化を図り,環境に配慮した緑地戦略を取り入れることで,より持続可能なMLシステムの開発に寄与する。 開発者がシステムを緑化するための実践的な洞察を提供し、これらの戦術の統合を自動化するための将来の研究の道筋を提供する。

As machine learning (ML) and artificial intelligence (AI) technologies become increasingly prevalent in society, concerns about their environmental sustainability have grown. Developing and deploying ML-enabled systems, especially during training and inference, are resource-intensive, raising sustainability issues. Green AI has emerged as a response, advocating for reducing the computational demands of AI while maintaining accuracy. While recent research has identified various green tactics for developing sustainable ML-enabled systems, there is a gap in understanding the extent to which these tactics are adopted in real-world projects and whether additional, undocumented practices exist. This paper addresses these gaps by presenting a mining software repository study that evaluates the adoption of green tactics in 168 open-source ML projects on GitHub. In doing so, we introduce a novel mining mechanism based on large language models to identify and analyze green tactics within software repositories. Our results provide insights into the adoption of green tactics found in the literature and expand previous catalogs by providing 12 new tactics, with code examples to support wider implementation. This study contributes to the development of more sustainable ML systems by identifying adopted green tactics that offer substantial environmental benefits with minimal implementation effort. It provides practical insights for developers to green their systems and offers a path for future research to automate the integration of these tactics.
翻訳日:2024-11-01 04:10:03 公開日:2024-10-09
# 空中ステレオ画像データセットにおける異種距離推定手法の解析

Analysis of different disparity estimation techniques on aerial stereo image datasets ( http://arxiv.org/abs/2410.06711v1 )

ライセンス: Link先を確認
Ishan Narayan, Shashi Poddar, (参考訳) 航空画像データセットの出現により、密集したステレオマッチングは飛躍的な進歩を遂げた。 本研究は,異なる手法を用いて空中画像の立体対応解析を行う。 従来の手法、最適化に基づく手法、学習に基づく手法が実装され、航空画像と比較されている。 従来の方法では,Stereo SGBMのアーキテクチャを実装し,異なるコスト関数を用いて,それらの性能を航空データセット上で理解する。 標準データセットにおけるほとんどの手法の分析は優れた性能を示しているが、空中データセットの場合、ベンチマークはそれほど多くはない。 ステレオ画像から深度推定を行うために,異なるコスト関数と技術を比較するために,2つのステレオ空中データセットの視覚的質的,定量的解析を行った。 既存の事前学習モデルを使用して、最近の学習ベースアーキテクチャもSGBMの異なるコスト関数とともにステレオペアでテストされている。 MSE、SSIM、その他のエラーメトリクスを用いて、出力と与えられた基底真理を比較する。

With the advent of aerial image datasets, dense stereo matching has gained tremendous progress. This work analyses dense stereo correspondence analysis on aerial images using different techniques. Traditional methods, optimization based methods and learning based methods have been implemented and compared here for aerial images. For traditional methods, we implemented the architecture of Stereo SGBM while using different cost functions to get an understanding of their performance on aerial datasets. Analysis of most of the methods in standard datasets has shown good performance, however in case of aerial dataset, not much benchmarking is available. Visual qualitative and quantitative analysis has been carried out for two stereo aerial datasets in order to compare different cost functions and techniques for the purpose of depth estimation from stereo images. Using existing pre-trained models, recent learning based architectures have also been tested on stereo pairs along with different cost functions in SGBM. The outputs and given ground truth are compared using MSE, SSIM and other error metrics.
翻訳日:2024-11-01 04:10:03 公開日:2024-10-09
# 不均質監視システムにおけるノイズによる絡み合いの増強

Entanglement enhancement induced by noise in inhomogeneously monitored systems ( http://arxiv.org/abs/2410.06712v1 )

ライセンス: Link先を確認
Cristiano Muzzi, Mikheil Tsitsishvili, Giuliano Chiriacò, (参考訳) 非均一に観測された量子系における強いノイズが絡み合いをいかに高めるかを研究する。 本稿では,システムチェーンとアンシラチェーンという2つの結合鎖からなる自由フェルミオンモデルについて考察し,異なるノイズ強度下でのシステムチェーン内の絡み合いのダイナミクスについて考察する。 以上の結果から, 典型的には騒音に起因する有害な影響とは対照的に, アシラの騒音はシステム内の絡み合いを著しく高めることが示唆された。 数値シミュレーションは、様々なシステムサイズと雑音パラメータにまたがって、このような絡み合いの強化の堅牢性を示す。 この拡張は、アンシラのホッピング強度に大きく依存しており、量子系の絡み合いを最適化するために、ユニタリダイナミクスとノイズの間の相互作用を調整できることが示唆されている。

We study how stronger noise can enhance the entanglement in inhomogeneously monitored quantum systems. We consider a free fermions model composed of two coupled chains - a system chain and an ancilla chain, each subject to its own different noise - and explore the dynamics of entanglement within the system chain under different noise intensities. Our results demonstrate that, contrary to the detrimental effects typically associated with noise, certain regimes of noise on the ancilla can significantly enhance entanglement within the system. Numerical simulations demonstrate the robustness of such entanglement enhancement across various system sizes and noise parameters. This enhancement is found to be highly dependent on the hopping strength in the ancilla, suggesting that the interplay between unitary dynamics and noise can be tuned to optimize the entanglement of a quantum system.
翻訳日:2024-11-01 04:00:11 公開日:2024-10-09
# 大規模言語モデルからの保証された生成

Guaranteed Generation from Large Language Models ( http://arxiv.org/abs/2410.06716v1 )

ライセンス: Link先を確認
Minbeom Kim, Thibaut Thonet, Jos Rozen, Hwaran Lee, Kyomin Jung, Marc Dymetman, (参考訳) 大規模言語モデル(LLM)は様々なアプリケーションにまたがって使われるようになっているため、特定の制約や要求を満たすためにテキスト生成を制御する必要性が高まっている。 生成した出力の厳密な制約満足度を保証すると同時に、オリジナルモデルの分布を可能な限り保存することは可能ですか? まず第一に、表現された制約を常に満足する理想分布(元モデルに最も近い分布)を、保証された生成の最終的な目標として定義する。 そして、私たちは基本的な制限を述べます。つまり、自己回帰的なトレーニングだけでその目標を達成することは不可能です。 このことは、そのような保証を強制するためにトレーニング時間と推論時間の組み合わせの必要性を動機付けている。 この知見に基づいて, 自己回帰的提案分布と拒絶サンプリングを組み合わせた, 単純かつ効果的なアプローチであるGUARDを提案する。 GUARDの理論的性質を通じて、特定の提案と対象の理想分布とのKL分散の制御が、推論速度と分布の近接性を同時に最適化することを示す。 これらの理論的概念を検証するため、我々は、難易度制約のある2つのテキスト生成設定(語彙制約シナリオと感情逆転シナリオ)について広範な実験を行った。 これらの実験により、GUARDは予測効率を高く向上した理想分布をほぼ保ちながら、完全な制約満足度を達成することが示された。 GUARDは、その生成能力を損なうことなく、LSMの厳格な保証を強制するための原則化されたアプローチを提供する。

As large language models (LLMs) are increasingly used across various applications, there is a growing need to control text generation to satisfy specific constraints or requirements. This raises a crucial question: Is it possible to guarantee strict constraint satisfaction in generated outputs while preserving the distribution of the original model as much as possible? We first define the ideal distribution - the one closest to the original model, which also always satisfies the expressed constraint - as the ultimate goal of guaranteed generation. We then state a fundamental limitation, namely that it is impossible to reach that goal through autoregressive training alone. This motivates the necessity of combining training-time and inference-time methods to enforce such guarantees. Based on this insight, we propose GUARD, a simple yet effective approach that combines an autoregressive proposal distribution with rejection sampling. Through GUARD's theoretical properties, we show how controlling the KL divergence between a specific proposal and the target ideal distribution simultaneously optimizes inference speed and distributional closeness. To validate these theoretical concepts, we conduct extensive experiments on two text generation settings with hard-to-satisfy constraints: a lexical constraint scenario and a sentiment reversal scenario. These experiments show that GUARD achieves perfect constraint satisfaction while almost preserving the ideal distribution with highly improved inference efficiency. GUARD provides a principled approach to enforcing strict guarantees for LLMs without compromising their generative capabilities.
翻訳日:2024-11-01 04:00:11 公開日:2024-10-09
# MatMamba:Matryoshka State Space Model

MatMamba: A Matryoshka State Space Model ( http://arxiv.org/abs/2410.06718v1 )

ライセンス: Link先を確認
Abhinav Shukla, Sai Vemprala, Aditya Kusupati, Ashish Kapoor, (参考訳) Mamba2のような状態空間モデル(SSM)はトランスフォーマーの有望な代替であり、より高速な理論的なトレーニングと推論時間 -- 特に長いコンテキスト長について。Matryoshka Representation Learningに関する最近の研究 -- と、MatFormerのような作品におけるTransformerのバックボーンへの適用 -- は、小さなサブモデルのネストした粒度を1つの普遍弾性モデルに導入する方法を示している。 本研究では,Materyoshka型学習をMatryoshka型学習と組み合わせた状態空間モデルであるMatMambaを提案する。 MatMambaは、様々なモデルサイズにまたがる効率的で適応的なデプロイメントを可能にする。 1つの大きなMatMambaモデルをトレーニングし、スクラッチからトレーニングされたベースラインの小さなモデルのパフォーマンスを維持したり改善したりしながら、多数の小さなネストモデルの無償提供を可能にします。 言語モデルと画像モデルは,35Mから1.4Bまでのパラメータサイズで訓練する。 ImageNet と FineWeb で得られた結果から,MatMamba モデルはより効率的な推論特性を有しつつ,Transformers に相容れないスケールを示した。 これにより、MatMambaは利用可能な推論計算に基づいて、大規模モデルを弾力的にデプロイするための事実上実行可能な選択肢となります。 コードとモデルは、 \url{https://github.com/ScaledFoundations/MatMamba} でオープンソース化される

State Space Models (SSMs) like Mamba2 are a promising alternative to Transformers, with faster theoretical training and inference times -- especially for long context lengths. Recent work on Matryoshka Representation Learning -- and its application to Transformer backbones in works like MatFormer -- showed how to introduce nested granularities of smaller submodels in one universal elastic model. In this work, we present MatMamba: a state space model which combines Matryoshka-style learning with Mamba2, by modifying the block to contain nested dimensions to enable joint training and adaptive inference. MatMamba allows for efficient and adaptive deployment across various model sizes. We train a single large MatMamba model and are able to get a number of smaller nested models for free -- while maintaining or improving upon the performance of a baseline smaller model trained from scratch. We train language and image models at a variety of parameter sizes from 35M to 1.4B. Our results on ImageNet and FineWeb show that MatMamba models scale comparably to Transformers, while having more efficient inference characteristics. This makes MatMamba a practically viable option for deploying large-scale models in an elastic way based on the available inference compute. Code and models are open sourced at \url{https://github.com/ScaledFoundations/MatMamba}
翻訳日:2024-11-01 04:00:11 公開日:2024-10-09
# 大規模言語モデルにおける混合量子化のスケーリング法則

Scaling Laws for Mixed quantization in Large Language Models ( http://arxiv.org/abs/2410.06722v1 )

ライセンス: Link先を確認
Zeyu Cao, Cheng Zhang, Pedro Gimenes, Jianqiao Lu, Jianyi Cheng, Yiren Zhao, (参考訳) 大規模言語モデル(LLM)の学習後の量子化は、これらのモデルで推論を実行する際の計算量の削減に有効であることが証明されている。 本研究では,低精度量子化のための特定の精度やパープレキシティターゲットを目指している場合,LLMをより大きなサイズにスケールする際に,高い精度の数値や計算がいくつ必要か,という簡単な質問に焦点をあてる。 まず、量子化比(quantization ratio)と呼ばれる臨界測度を導入し、量子化されたパラメータの数を、全パラメータ数と比較して、低精度の算術演算と比較する。 異なるモデル族、算術型、量子化の粒度(例えば、層単位で、行列的に)にわたる広範囲かつ慎重に制御された実験を通して、2つの中心的な現象を同定する。 1) 事前学習タスクの難易度や下流タスクの精度によって測定されるように, モデルが大きいほど, 量子化率の向上による性能の維持が図られる。 2) 混合精密量子化の粒度が微細になるほど, モデルの量子化比が増大する。 これらの観測された現象は、将来のAIハードウェア設計と高度なAIアルゴリズムの開発に貴重な洞察を与えると信じている。

Post-training quantization of Large Language Models (LLMs) has proven effective in reducing the computational requirements for running inference on these models. In this study, we focus on a straightforward question: When aiming for a specific accuracy or perplexity target for low-precision quantization, how many high-precision numbers or calculations are required to preserve as we scale LLMs to larger sizes? We first introduce a critical metric named the quantization ratio, which compares the number of parameters quantized to low-precision arithmetic against the total parameter count. Through extensive and carefully controlled experiments across different model families, arithmetic types, and quantization granularities (e.g. layer-wise, matmul-wise), we identify two central phenomenons. 1) The larger the models, the better they can preserve performance with an increased quantization ratio, as measured by perplexity in pre-training tasks or accuracy in downstream tasks. 2) The finer the granularity of mixed-precision quantization (e.g., matmul-wise), the more the model can increase the quantization ratio. We believe these observed phenomena offer valuable insights for future AI hardware design and the development of advanced Efficient AI algorithms.
翻訳日:2024-11-01 04:00:11 公開日:2024-10-09
# 分布変化下における前立腺がん診断のための計算病理学的基礎モデルの評価

Evaluating Computational Pathology Foundation Models for Prostate Cancer Grading under Distribution Shifts ( http://arxiv.org/abs/2410.06723v1 )

ライセンス: Link先を確認
Fredrik K. Gustafsson, Mattias Rantalainen, (参考訳) 基礎モデルは近年、計算病理学における一般的な研究方向となっている。 それらは汎用的な特徴抽出器を意図しており、下流のタスクで優れたパフォーマンスを達成することを約束している。 しかし、実世界の病理画像データにはかなりのばらつきがある。 基礎モデルは、実際に遭遇する可能性のあるこれらのバリエーションや他の分散シフトに対して堅牢であるべきである。 UNI(100,000枚以上)とCONCH(1,100万枚以上)の2つの計算病理基盤モデルを前立腺癌評価モデルの特徴抽出器として利用して評価した。 UNIとCONCHはベースラインとよく比較できるが、絶対的な性能は特定の設定ではあまり満足できない。 ファンデーションモデルが大規模で多様なデータセットでトレーニングされているという事実は、ダウンストリームモデルが常に共通の分散シフトに対して堅牢であることを保証するものではない。

Foundation models have recently become a popular research direction within computational pathology. They are intended to be general-purpose feature extractors, promising to achieve good performance on a range of downstream tasks. Real-world pathology image data does however exhibit considerable variability. Foundation models should be robust to these variations and other distribution shifts which might be encountered in practice. We evaluate two computational pathology foundation models: UNI (trained on more than 100,000 whole-slide images) and CONCH (trained on more than 1.1 million image-caption pairs), by utilizing them as feature extractors within prostate cancer grading models. We find that while UNI and CONCH perform well relative to baselines, the absolute performance can still be far from satisfactory in certain settings. The fact that foundation models have been trained on large and varied datasets does not guarantee that downstream models always will be robust to common distribution shifts.
翻訳日:2024-11-01 04:00:11 公開日:2024-10-09
# 点雲色化がセマンティックセグメンテーション精度に及ぼす影響評価

Evaluating the Impact of Point Cloud Colorization on Semantic Segmentation Accuracy ( http://arxiv.org/abs/2410.06725v1 )

ライセンス: Link先を確認
Qinfeng Zhu, Jiaze Cao, Yuanzhi Cai, Lei Fan, (参考訳) ポイントクラウドセマンティックセグメンテーション(ポイントクラウドセマンティックセグメンテーション)は、各ポイントを事前に定義されたカテゴリに分類するプロセスであり、3Dシーン理解に不可欠である。 画像ベースセグメンテーションは、その成熟度から広く採用されているが、RGB情報のみに依存する手法は、色の不正確さによる劣化性能に悩まされることが多い。 近年の進歩には、強度や幾何情報などの付加的な特徴が組み込まれているが、RGBチャネルは、色付けにおける誤差が発生した場合のセグメンテーション精度に悪影響を及ぼし続けている。 それにもかかわらず、以前の研究では、誤色がセグメンテーション性能に与える影響を厳密に定量化していない。 本稿では,不正確なRGB情報が画像ベースのポイントクラウドセグメンテーションに与える影響を評価するための新しい統計手法を提案する。 我々は,RGBの不正確さを,不正確な色情報と類似した色情報という2つのタイプに分類する。 以上の結果から,2種類のカラー不正確さは,色誤差が特に幾何学的特徴の抽出に影響を及ぼし,セグメンテーションの精度が著しく低下していることが示唆された。 これらの知見は、ポイントクラウドセグメンテーションにおけるRGB情報の役割と将来のアルゴリズム設計におけるその意義を再評価する重要な必要性を浮き彫りにしている。

Point cloud semantic segmentation, the process of classifying each point into predefined categories, is essential for 3D scene understanding. While image-based segmentation is widely adopted due to its maturity, methods relying solely on RGB information often suffer from degraded performance due to color inaccuracies. Recent advancements have incorporated additional features such as intensity and geometric information, yet RGB channels continue to negatively impact segmentation accuracy when errors in colorization occur. Despite this, previous studies have not rigorously quantified the effects of erroneous colorization on segmentation performance. In this paper, we propose a novel statistical approach to evaluate the impact of inaccurate RGB information on image-based point cloud segmentation. We categorize RGB inaccuracies into two types: incorrect color information and similar color information. Our results demonstrate that both types of color inaccuracies significantly degrade segmentation accuracy, with similar color errors particularly affecting the extraction of geometric features. These findings highlight the critical need to reassess the role of RGB information in point cloud segmentation and its implications for future algorithm design.
翻訳日:2024-11-01 04:00:11 公開日:2024-10-09
# MNARコンバウンディングにおける因果効果のシャープ境界

Sharp Bounds of the Causal Effect Under MNAR Confounding ( http://arxiv.org/abs/2410.06726v1 )

ライセンス: Link先を確認
Jose M. Peña, (参考訳) 共同ファウンダーが無作為に欠席している場合、暴露対象の事実的結果の確率と暴露対象外との差について報告する。 我々は、欠落メカニズムが結果に依存しないことを仮定し、我々の境界が任意にシャープであること、すなわち、事実上達成可能か論理的に可能であることを証明する。

We report bounds for any contrast between the probabilities of the counterfactual outcome under exposure and non-exposure when the confounders are missing not at random. We assume that the missingness mechanism is outcome-independent, and prove that our bounds are arbitrarily sharp, i.e., practically attainable or logically possible.
翻訳日:2024-11-01 04:00:11 公開日:2024-10-09
# 量子鎖におけるKramers-Wannier自己双対と非可逆変換対称性:波動関数の観点から

Kramers-Wannier self-duality and non-invertible translation symmetry in quantum chains: a wave-function perspective ( http://arxiv.org/abs/2410.06727v1 )

ライセンス: Link先を確認
Hua-Chen Zhang, Germán Sierra, (参考訳) 臨界量子鎖のKramers-Wannier自己双対性について、モデル波動関数の観点から検討する。 逆場イジング鎖と3$状態ポッツ鎖を例に、クラマース・ワニエ自己双対の対称性作用素は、正準融合基底におけるモデル波動関数の「一般化された」翻訳対称性から単純かつ直接的な方法で従うことを示した。 この変換操作は、下層の融合圏における$F$-movesのシーケンスを含む。 これにより得られる対称性作用素は行列積作用素の形式を自然に認め、非可逆核融合規則に従う。 この結果は、格子上の(非可逆な)翻訳対称性と、スケーリング極限を記述する共形場理論の位相的側面の間の興味深い関係を明らかにした。

The Kramers-Wannier self-duality of critical quantum chains is examined from the perspective of model wave functions. We demonstrate, using the transverse-field Ising chain and the $3$-state Potts chain as examples, that the symmetry operator for the Kramers-Wannier self-duality follows in a simple and direct way from a `generalised' translation symmetry of the model wave function in the anyonic fusion basis. This translation operation, in turn, comprises a sequence of $F$-moves in the underlying fusion category. The symmetry operator thus obtained naturally admits the form of a matrix product operator and obeys non-invertible fusion rules. The findings reveal an intriguing connection between the (non-invertible) translation symmetry on the lattice and topological aspects of the conformal field theory describing the scaling limit.
翻訳日:2024-11-01 04:00:11 公開日:2024-10-09
# 弱Eval-Strong:LLMの側方思考の評価と緩和

Weak-eval-Strong: Evaluating and Eliciting Lateral Thinking of LLMs with Situation Puzzles ( http://arxiv.org/abs/2410.06733v1 )

ライセンス: Link先を確認
Qi Chen, Bowen Zhang, Gang Wang, Qi Wu, (参考訳) NLPの進歩は、垂直思考を必要とするタスクにおけるLarge Language Models(LLM)の性能を大幅に向上させたが、創造的思考プロセスの評価の複雑さと関連するデータの不足により、その側方思考能力は未熟であり、測定が難しいままである。 これらの課題に対処するため,LLM の LAteral Thinking を評価・活用するベンチマークである SPLAT を紹介した。 このベンチマークは、3つの難易度レベルにわたる975グレードのシチュエーションパズルを含むが、従来のモデルに基づく評価ではなく、新しいマルチターンプレーヤジャッジフレームワークを採用しており、しばしばより強力な評価モデルを必要とする。 このフレームワークは、モデル(プレイヤ)が不完全なストーリーについて評価モデル(ジャッジ)に質問し、完全なシナリオを推測するインタラクティブゲームをシミュレートする。 審査員は、詳細な参照シナリオに基づいて回答するか、またはプレイヤーの予測が参照シナリオと一致しているかを評価する。 このアプローチは、より堅牢な評価モデルへの依存を減らし、最先端のLCMの評価を可能にする。 実験により,WizardLM-2のようなロバストな評価モデルは,中間質問回答と最終シナリオの精度の両方において,人間の判断と密に一致し,人間の合意レベルと80%以上を達成できることを示した。 さらに、我々のベンチマークからRiddleSenseやBrainTeaserといった横方向の思考関連ベンチマークにデータや推論プロセスを適用すると、パフォーマンスが向上します。 このことから,LLMの側方思考能力を評価・評価することが示唆された。 コードは、https://github.com/chenqi008/LateralThinking.comで入手できる。

While advancements in NLP have significantly improved the performance of Large Language Models (LLMs) on tasks requiring vertical thinking, their lateral thinking capabilities remain under-explored and challenging to measure due to the complexity of assessing creative thought processes and the scarcity of relevant data. To address these challenges, we introduce SPLAT, a benchmark leveraging Situation Puzzles to evaluate and elicit LAteral Thinking of LLMs. This benchmark, containing 975 graded situation puzzles across three difficulty levels, employs a new multi-turn player-judge framework instead of the traditional model-based evaluation, which often necessitates a stronger evaluation model. This framework simulates an interactive game where the model (player) asks the evaluation model (judge) questions about an incomplete story to infer the full scenario. The judge answers based on a detailed reference scenario or evaluates if the player's predictions align with the reference one. This approach lessens dependence on more robust evaluation models, enabling the assessment of state-of-the-art LLMs. The experiments demonstrate that a robust evaluation model, such as WizardLM-2, closely matches human judgements in both intermediate question-answering and final scenario accuracy, achieving over 80% agreement-similar to the agreement levels among humans. Furthermore, applying data and reasoning processes from our benchmark to other lateral thinking-related benchmarks, e.g., RiddleSense and BrainTeaser, leads to performance enhancements. This suggests that our benchmark effectively evaluates and elicits the lateral thinking abilities of LLMs. Code is available at: https://github.com/chenqi008/LateralThinking.
翻訳日:2024-11-01 03:50:25 公開日:2024-10-09
# 事前学習段階におけるどのプログラミング言語と特徴が下流の論理推論性能に影響を及ぼすか?

Which Programming Language and What Features at Pre-training Stage Affect Downstream Logical Inference Performance? ( http://arxiv.org/abs/2410.06735v1 )

ライセンス: Link先を確認
Fumiya Uchiyama, Takeshi Kojima, Andrew Gambardella, Qi Cao, Yusuke Iwasawa, Yutaka Matsuo, (参考訳) 近年の大規模言語モデル (LLM) は数学や論理的推論タスクにおいて顕著な一般化能力を示している。 以前の研究では、プログラミング言語データで事前訓練されたLLMは、高い数学的および推論能力を示すことが示されているが、この因果関係は厳密に検証されていない。 本研究の目的は,事前学習中の言語と特徴が論理推論性能にどのような影響を及ぼすかを検証することである。 具体的には,10のプログラミング言語(例えば,Python,C,Java)と3つの自然言語データセット(Wikipedia,Fineweb,C4)のデータセットを用いて,スクラッチからデコーダベースの言語モデルを事前訓練した。 その後、論理的推論タスク(FLD, bAbi, 常識や世界知識を必要としない)に基づいて、数発の文脈内学習環境で訓練されたモデルを評価した。 その結果、プログラミング言語で訓練されたほぼすべてのモデルが、自然言語で訓練されたモデルよりも一貫して優れており、プログラミング言語には論理推論のパフォーマンスを誘発する要因が含まれていることが示唆された。 さらに、プログラミング言語で訓練されたモデルでは、自然言語で訓練したモデルよりも、指示に従う能力が高いことがわかった。 さらに解析した結果,プログラムの構文解析結果を表す抽象構文木の深さも論理的推論性能に影響を与えることがわかった。 これらの知見は, LLMの基礎的能力を得るための事前学習の本質的要素について考察する。

Recent large language models (LLMs) have demonstrated remarkable generalization abilities in mathematics and logical reasoning tasks. Prior research indicates that LLMs pre-trained with programming language data exhibit high mathematical and reasoning abilities; however, this causal relationship has not been rigorously tested. Our research aims to verify which programming languages and features during pre-training affect logical inference performance. Specifically, we pre-trained decoder-based language models from scratch using datasets from ten programming languages (e.g., Python, C, Java) and three natural language datasets (Wikipedia, Fineweb, C4) under identical conditions. Thereafter, we evaluated the trained models in a few-shot in-context learning setting on logical reasoning tasks: FLD and bAbi, which do not require commonsense or world knowledge. The results demonstrate that nearly all models trained with programming languages consistently outperform those trained with natural languages, indicating that programming languages contain factors that elicit logic inference performance. In addition, we found that models trained with programming languages exhibit a better ability to follow instructions compared to those trained with natural languages. Further analysis reveals that the depth of Abstract Syntax Trees representing parsed results of programs also affects logical reasoning performance. These findings will offer insights into the essential elements of pre-training for acquiring the foundational abilities of LLMs.
翻訳日:2024-11-01 03:50:25 公開日:2024-10-09
# 知識グラフにおける未知の実体・関係・リテラルに関する推論

Inference over Unseen Entities, Relations and Literals on Knowledge Graphs ( http://arxiv.org/abs/2410.06742v1 )

ライセンス: Link先を確認
Caglar Demir, N'Dah Jean Kouagou, Arnab Sharma, Axel-Cyrille Ngonga Ngomo, (参考訳) 近年,リンク予測や問合せ応答など,様々な課題に対処するために,知識グラフの埋め込みモデルがトランスダクティブ・セッティングにうまく適用されている。 しかし、トランスダクティブ・セッティングは、数値的あるいは非数値的リテラルだけでなく、目に見えない実体、関係性についての推論を許さない。 帰納的シナリオの探求にますます努力が注がれているが、未確認のエンティティ、リレーション、リテラルに対する推論はまだ行われていない。 この制限は、既存の手法が世界の異種情報を含む実世界の動的知識グラフを扱うことを禁止している。 ここでは、この制限に対する対策を提案する。 本稿では、エンティティとリレーションのバイトペアエンコードされたサブワード単位のシーケンスから三重埋め込みを構築するための注意的バイトペアエンコーディング層(BytE)を提案する。 BytEは従来の設定と比較して、知識グラフの埋め込みモデルにエンティティやリレーションではなくサブワード単位の埋め込みを直接学習させるため、重み付けによる大規模な機能の再利用につながる。 したがって、埋め込み行列のサイズは、知識グラフのエンティティの数と関係に縛られない。 実験結果から,三重項の構文表現が意味論的に意味のあるデータセット上での知識グラフ埋め込みモデルのリンク予測性能がBytEにより向上することが示唆された。 しかし、BytEを用いた知識グラフ埋め込みモデルのトレーニングの利点は、エンティティと関係がプレーンな数やURIで表される知識グラフに拡散する。 再現可能な研究を促進するために,BytEのオープンソース実装を提供する。

In recent years, knowledge graph embedding models have been successfully applied in the transductive setting to tackle various challenging tasks including link prediction, and query answering. Yet, the transductive setting does not allow for reasoning over unseen entities, relations, let alone numerical or non-numerical literals. Although increasing efforts are put into exploring inductive scenarios, inference over unseen entities, relations, and literals has yet to come. This limitation prohibits the existing methods from handling real-world dynamic knowledge graphs involving heterogeneous information about the world. Here, we propose a remedy to this limitation. We propose the attentive byte-pair encoding layer (BytE) to construct a triple embedding from a sequence of byte-pair encoded subword units of entities and relations. Compared to the conventional setting, BytE leads to massive feature reuse via weight tying, since it forces a knowledge graph embedding model to learn embeddings for subword units instead of entities and relations directly. Consequently, the size of the embedding matrices are not anymore bound to the unique number of entities and relations of a knowledge graph. Experimental results show that BytE improves the link prediction performance of 4 knowledge graph embedding models on datasets where the syntactic representations of triples are semantically meaningful. However, benefits of training a knowledge graph embedding model with BytE dissipate on knowledge graphs where entities and relations are represented with plain numbers or URIs. We provide an open source implementation of BytE to foster reproducible research.
翻訳日:2024-11-01 03:50:25 公開日:2024-10-09
# 効果的な森林火災検知のための移動学習と事前学習モデルの利用:ウッタラクハンドを事例として

Utilizing Transfer Learning and pre-trained Models for Effective Forest Fire Detection: A Case Study of Uttarakhand ( http://arxiv.org/abs/2410.06743v1 )

ライセンス: Link先を確認
Hari Prabhat Gupta, Rahul Mishra, (参考訳) 森林火災は環境、人命、財産に重大な脅威をもたらす。 早期発見と対応は、これらの災害の影響を軽減するために不可欠である。 しかし,従来の森林火災検出手法は,手動観測や衛星画像の空間分解能の低い信頼性に悩まされることが多い。 本稿では、インドにおける森林火災検知の強化、特にデータ収集の課題を克服し、各地域のモデル精度を向上させる上で、トランスファーラーニングが果たす役割を強調する。 従来の学習手法と移動学習を比較し,地形,気候,植生の地域差によって生じる固有の課題に着目した。 トランスファーラーニングは、ソースとターゲットタスクの類似性、および転送される知識の種類に基づいて、いくつかのタイプに分類することができる。 1つの重要な方法は、事前訓練されたモデルを用いて効率的な転送学習を行うことで、広範囲なラベル付きデータの必要性を大幅に低減する。 森林火災検知などの特定のタスクに対して,MobileNetV2のような事前学習モデルをどのように適用できるかを示す。 最後に,ユッタラカンド森林火災データセットを用いた深層学習モデルの訓練と評価から,この文脈における伝達学習の有効性を示す実験結果を示す。

Forest fires pose a significant threat to the environment, human life, and property. Early detection and response are crucial to mitigating the impact of these disasters. However, traditional forest fire detection methods are often hindered by our reliability on manual observation and satellite imagery with low spatial resolution. This paper emphasizes the role of transfer learning in enhancing forest fire detection in India, particularly in overcoming data collection challenges and improving model accuracy across various regions. We compare traditional learning methods with transfer learning, focusing on the unique challenges posed by regional differences in terrain, climate, and vegetation. Transfer learning can be categorized into several types based on the similarity between the source and target tasks, as well as the type of knowledge transferred. One key method is utilizing pre-trained models for efficient transfer learning, which significantly reduces the need for extensive labeled data. We outline the transfer learning process, demonstrating how researchers can adapt pre-trained models like MobileNetV2 for specific tasks such as forest fire detection. Finally, we present experimental results from training and evaluating a deep learning model using the Uttarakhand forest fire dataset, showcasing the effectiveness of transfer learning in this context.
翻訳日:2024-11-01 03:50:25 公開日:2024-10-09
# 二重粒度カーネル化アテンションを有するクラスタワイズグラフトランス

Cluster-wise Graph Transformer with Dual-granularity Kernelized Attention ( http://arxiv.org/abs/2410.06746v1 )

ライセンス: Link先を確認
Siyuan Huang, Yunchong Song, Jiayue Zhou, Zhouhan Lin, (参考訳) グラフ学習の領域では、グラフを階層構造として概念化し、ノードクラスタリングを利用してより広い構造情報をキャプチャする手法のカテゴリが存在する。 一般的には有効であるが、これらの手法は固定グラフの粗いルーチンに依存し、極端に均質なクラスタ表現とノードレベルの情報の損失をもたらす。 本稿では,各クラスタを1つの埋め込みに圧縮することなく,相互接続したノード集合のネットワークとしてグラフを想定する。 これらのノード間の効果的な情報伝達を実現するために,ノード間クラスタアテンション(N2C-Attn)機構を提案する。 N2C-Attnは、Multiple Kernel Learningのテクニックをカーネル化された注目フレームワークに取り入れ、ノードレベルとクラスタレベルの情報を効果的にキャプチャする。 次に、クラスタ単位のメッセージパッシングフレームワークを用いて、N2C-Attnの効率的な形式を考案し、線形時間複雑性を実現する。 さらに、N2C-Attnがクエリとキーの2レベル特徴マップをどのように組み合わせているかを分析し、二重粒度情報をマージする能力を実証する。 得られたアーキテクチャであるCluster-wise Graph Transformer(Cluster-GT)はノードクラスタをトークンとして使用し,提案したN2C-Attnモジュールを用いて,グラフレベルのタスクにおいて優れたパフォーマンスを示す。 コードはhttps://github.com/LUMIA-Group/Cluster-wise-Graph-Transformerで入手できる。

In the realm of graph learning, there is a category of methods that conceptualize graphs as hierarchical structures, utilizing node clustering to capture broader structural information. While generally effective, these methods often rely on a fixed graph coarsening routine, leading to overly homogeneous cluster representations and loss of node-level information. In this paper, we envision the graph as a network of interconnected node sets without compressing each cluster into a single embedding. To enable effective information transfer among these node sets, we propose the Node-to-Cluster Attention (N2C-Attn) mechanism. N2C-Attn incorporates techniques from Multiple Kernel Learning into the kernelized attention framework, effectively capturing information at both node and cluster levels. We then devise an efficient form for N2C-Attn using the cluster-wise message-passing framework, achieving linear time complexity. We further analyze how N2C-Attn combines bi-level feature maps of queries and keys, demonstrating its capability to merge dual-granularity information. The resulting architecture, Cluster-wise Graph Transformer (Cluster-GT), which uses node clusters as tokens and employs our proposed N2C-Attn module, shows superior performance on various graph-level tasks. Code is available at https://github.com/LUMIA-Group/Cluster-wise-Graph-Transformer.
翻訳日:2024-11-01 03:50:25 公開日:2024-10-09
# 気相回転力学における'l-Doubling'の出現

The manifestations of 'l-Doubling' in gas-phase rotational dynamics ( http://arxiv.org/abs/2410.06752v1 )

ライセンス: Link先を確認
Kfir Rutman Moshe, Dina Rosenberg, Inbar Sternbach, Sharly Fleischer, (参考訳) l-Doubling'現象は、分子の回転と多原子分子の垂直振動(曲げモード)の結合から生じる。 この発散現象は、レーザー誘起分子アライメントにおいてほとんど破棄されている。 ここでは、三原子分子の周囲温度以上のコヒーレントな回転ダイナミクスに対する'l-Doubling'の影響を探索、明らかにする。 観測された'l-Doubling'ダイナミクスは、過去の数百ピコ秒間の衝突崩壊と誤ってみなすことができ、現在の散逸自転力学やコヒーレント回転力学の研究において、l-Doublingの正しい同化の重要性を強調している。

The 'l-Doubling' phenomenon emanates from the coupling between molecular rotations and perpendicular vibrations (bending modes) in polyatomic molecules. This elusive phenomenon has been largely discarded in laser-induced molecular alignment. Here we explore and unveil the ramifications of 'l-Doubling' to the coherent rotational dynamics of triatomic molecules at ambient temperatures and above. The observed 'l-Doubling' dynamics may be wrongly considered as collisional decay throughout the first few hundreds of picoseconds past excitation, highlighting the importance of correct assimilation of l-Doubling in current research of dissipative rotational dynamics and in coherent rotational dynamics in general.
翻訳日:2024-11-01 03:50:25 公開日:2024-10-09
# 六方晶窒化ホウ素における$V_B^-$欠陥の磁場依存性

Magnetic field dependence of $V_B^-$ Defects in hexagonal boron nitride ( http://arxiv.org/abs/2410.06755v1 )

ライセンス: Link先を確認
Mulin Zheng, Shizhuo Ale, Peiqin Chen, Jingpu Tu, Qiang Zhou, Haizhi Song, You Wang, Junfeng Wang, Guangcan Guo, Guangwei Deng, (参考訳) 六方晶窒化ホウ素のスピン欠陥を伴う界面は、近年、有望なプラットフォームとなり、幅広い量子技術において大きな可能性を示している。 六方晶窒化ホウ素(hBN)のV_B^-$欠陥のスピン特性は、その構造やコヒーレント制御と同様に、広く深く研究されている。 しかし、hBNにおけるV_B^-$欠陥のコヒーレンス性に対するオフ軸磁場の影響についてはほとんど分かっていない。 そこで,光検出磁気共鳴分光法(ODMR)を用いて,横方向と縦方向の異なる外磁場下でのODMR共鳴周波数の変化を系統的に検討した。 さらに, 定強度, 様々な角度のオフ軸磁場下でのODMRスペクトルを測定し, 角度が大きくなるにつれて共振周波数の分裂が減少し, ハミルトニアンに基づく理論計算と整合し, オフ軸磁場角を検出する解を見出した。 ラビ振動測定により、オフ軸磁場はスピンコヒーレンス時間を抑制することがわかった。 これらの結果は、hBNにおけるV_B^-$欠陥の最適化に不可欠であり、様々な環境における量子情報処理と磁気センシングのための堅牢な量子センサとしての重要性を確立している。

The interface with spin defects in hexagonal boron nitride has recently become a promising platform and has shown great potential in a wide range of quantum technologies. Varieties of spin properties of $V_B^-$ defects in hexagonal boron nitride (hBN) have been researched widely and deeply, like their structure and coherent control. However, little is known about the influence of off-axis magnetic fields on the coherence properties of $V_B^-$ defects in hBN. Here, by using the optically detected magnetic resonance (ODMR) spectroscopy, we systematically investigated the variations in ODMR resonance frequencies under different transverse and longitudinal external magnetic field, respectively. In addition, we measured the ODMR spectra under off-axis magnetic fields of constant strength but various angles, and observed that the splitting of the resonance frequencies decreases as the angle increases, aligning with our theoretical calculation based on the Hamiltonian, from which we come up with a solution of detecting the off-axis magnetic field angle. Through Rabi oscillation measurements, we found that the off-axis magnetic field suppresses the spin coherence time. These results are crucial for optimizing $V_B^-$ defects in hBN, establishing their significance as robust quantum sensors for quantum information processing and magnetic sensing in varied environments.
翻訳日:2024-11-01 03:50:25 公開日:2024-10-09
# DreamMesh4D:Sparse-Controlled Gaussian-Mesh Hybrid Representationによるビデオから4D生成

DreamMesh4D: Video-to-4D Generation with Sparse-Controlled Gaussian-Mesh Hybrid Representation ( http://arxiv.org/abs/2410.06756v1 )

ライセンス: Link先を確認
Zhiqi Li, Yiming Chen, Peidong Liu, (参考訳) 2D/3D生成技術の最近の進歩は、モノクロビデオから動的3Dオブジェクトを生成するのに役立っている。 従来の手法は主に、暗黙の神経放射場(NeRF)や露骨なガウススプラッティング(英語版)を基礎的な表現として用いており、良好な空間的時間的一貫性と表面的な外観を達成するのに苦労している。 最新の3Dアニメーションパイプラインからインスピレーションを得たDreamMesh4Dは、メッシュ表現と幾何学スキン技術を組み合わせた新しいフレームワークで、モノクロビデオから高品質な4Dオブジェクトを生成する。 従来のテクスチャマップを外観に利用する代わりに,メッシュの三角形面にガウススプレートを結合して,テクスチャとメッシュの頂点の微分可能な最適化を行う。 特にDreamMesh4Dは、画像から3D生成手順によって得られた粗いメッシュから始まる。 スパースポイントはメッシュ表面全体に均一にサンプリングされ、3Dオブジェクトの運動を計算効率のために駆動し、さらなる制約を与えるための変形グラフを構築するために使用される。 各ステップにおいて、変形ネットワークを用いてスパース制御点の変換を予測し、両アプローチの欠点を緩和するLBS(線形ブレンディングスキン)とDQS(二重クアテニオンスキンニング)を組み合わせたハイブリッドアプローチである新しい幾何スキンニングアルゴリズムにより、メッシュ頂点と表面ガウシアンを変形させる。 静的表面ガウスおよびメッシュ頂点および変形ネットワークは、基準視光度損失、点数蒸留損失、および他の正則化器を2段階的に学習する。 大規模な実験により,本手法の優れた性能が示された。 さらに,本手法は現代のグラフィックパイプラインと互換性があり,3Dゲーム・フィルム産業におけるその可能性を示している。

Recent advancements in 2D/3D generative techniques have facilitated the generation of dynamic 3D objects from monocular videos. Previous methods mainly rely on the implicit neural radiance fields (NeRF) or explicit Gaussian Splatting as the underlying representation, and struggle to achieve satisfactory spatial-temporal consistency and surface appearance. Drawing inspiration from modern 3D animation pipelines, we introduce DreamMesh4D, a novel framework combining mesh representation with geometric skinning technique to generate high-quality 4D object from a monocular video. Instead of utilizing classical texture map for appearance, we bind Gaussian splats to triangle face of mesh for differentiable optimization of both the texture and mesh vertices. In particular, DreamMesh4D begins with a coarse mesh obtained through an image-to-3D generation procedure. Sparse points are then uniformly sampled across the mesh surface, and are used to build a deformation graph to drive the motion of the 3D object for the sake of computational efficiency and providing additional constraint. For each step, transformations of sparse control points are predicted using a deformation network, and the mesh vertices as well as the surface Gaussians are deformed via a novel geometric skinning algorithm, which is a hybrid approach combining LBS (linear blending skinning) and DQS (dual-quaternion skinning), mitigating drawbacks associated with both approaches. The static surface Gaussians and mesh vertices as well as the deformation network are learned via reference view photometric loss, score distillation loss as well as other regularizers in a two-stage manner. Extensive experiments demonstrate superior performance of our method. Furthermore, our method is compatible with modern graphic pipelines, showcasing its potential in the 3D gaming and film industry.
翻訳日:2024-11-01 03:50:25 公開日:2024-10-09
# Diff-FMT:蛍光分子線トモグラフィのための拡散モデル

Diff-FMT: Diffusion Models for Fluorescence Molecular Tomography ( http://arxiv.org/abs/2410.06757v1 )

ライセンス: Link先を確認
Qianqian Xue, Peng Zhang, Xingyu Liu, Wenjian Wang, Guanglei Zhang, (参考訳) 蛍光分子トモグラフィー(FMT)は、生体医学研究において重要な役割を果たすリアルタイム非侵襲光学イメージング技術である。 それでも、逆問題の不備は、FMT再建において大きな課題をもたらす。 これまでの様々なディープラーニングアルゴリズムは、重要な問題に対処するために広範囲に研究されてきたが、画像品質の低下を伴う高いデータ依存の課題に直面している。 本稿では,ノイズ画像から高品質な再構成画像を得ることのできるDiff-FMTと呼ばれる拡散確率モデル(DDPM)に基づくFMT再構成手法を初めて提案する。 具体的には、DDPMのノイズ付加機構を用いて、多様なトレーニングサンプルを生成する。 逆過程におけるステップバイステップの確率サンプリング機構により、画像のきめ細かい再構築を実現し、エンドツーエンドのディープラーニング手法で起こりうる画像詳細の損失などの問題を回避する。 さらに, モデルトレーニングにおける条件情報として蛍光信号を導入し, ノイズ画像からの入力蛍光信号と高度に整合した再構成画像のサンプリングを行う。 多くの実験結果から、Diff-FMTは、他の最先端アルゴリズムと比較して、大規模なデータセットに頼ることなく、高解像度の再構成画像を実現できることが示された。

Fluorescence molecular tomography (FMT) is a real-time, noninvasive optical imaging technology that plays a significant role in biomedical research. Nevertheless, the ill-posedness of the inverse problem poses huge challenges in FMT reconstructions. Previous various deep learning algorithms have been extensively explored to address the critical issues, but they remain faces the challenge of high data dependency with poor image quality. In this paper, we, for the first time, propose a FMT reconstruction method based on a denoising diffusion probabilistic model (DDPM), termed Diff-FMT, which is capable of obtaining high-quality reconstructed images from noisy images. Specifically, we utilize the noise addition mechanism of DDPM to generate diverse training samples. Through the step-by-step probability sampling mechanism in the inverse process, we achieve fine-grained reconstruction of the image, avoiding issues such as loss of image detail that can occur with end-to-end deep-learning methods. Additionally, we introduce the fluorescence signals as conditional information in the model training to sample a reconstructed image that is highly consistent with the input fluorescence signals from the noisy images. Numerous experimental results show that Diff-FMT can achieve high-resolution reconstruction images without relying on large-scale datasets compared with other cutting-edge algorithms.
翻訳日:2024-11-01 03:50:25 公開日:2024-10-09
# 等質なU(1)不変近傍量子ビット回路における可積分性は一般性である

Integrability is generic in homogeneous U(1)-invariant nearest-neighbor qubit circuits ( http://arxiv.org/abs/2410.06760v1 )

ライセンス: Link先を確認
Marko Znidaric, Urban Duh, Lenart Zadnik, (参考訳) 可積分性(Integability)は、微調整されたパラメータを持つシステムに対してのみ成り立つと信じられている例外的な性質である。 対照的に、U(1)対称性を持つ同種近接量子ビット回路では、同じ磁化保存二量子ゲートを繰り返し適用する回路はそうではない。 そのようなブロックウォール量子ビット回路はすべて、ランダムに選択されたゲートでも可積分である。 保存法則,輸送特性,強ゼロエッジモードの異なる2つの相を同定する。 実験的に重要なことは、U(1)ゲートの任意のパラメータが変化するという事実であり、通常、2つの位相を分離する臨界多様体を横切ることである。 最後に、開境界条件を持つ系を直交類に、周期境界条件を持つ系をユニタリ類に持つような、従来とは異なる時間反転対称性について報告する。

Integrability is an exceptional property believed to hold only for systems with fine-tuned parameters. Contrary, we explicitly show that in homogeneous nearest-neighbor qubit circuits with a U(1) symmetry, i.e., circuits that repeatedly apply the same magnetization-conserving two-qubit gate, this is not the case. There, integrability is generic: all such brickwall qubit circuits are integrable, even with a randomly selected gate. We identify two phases with different conservation laws, transport properties, and strong zero edge modes. Experimentally important is the fact that varying any one of the parameters in the generic U(1) gate, one will typically cross the critical manifold that separates the two phases. Finally, we report on an unconventional time-reversal symmetry causing the system with open boundary conditions to be in the orthogonal class, while the one with periodic boundary conditions is in the unitary class.
翻訳日:2024-11-01 03:40:32 公開日:2024-10-09
# 保存・圧縮:多モーダル大言語モデルにおけるコネクタ選択の深い研究

To Preserve or To Compress: An In-Depth Study of Connector Selection in Multimodal Large Language Models ( http://arxiv.org/abs/2410.06765v1 )

ライセンス: Link先を確認
Junyan Lin, Haoran Chen, Dawei Zhu, Xiaoyu Shen, (参考訳) 近年,マルチモーダル・大規模言語モデル (MLLM) が産学・産学ともに注目されている。 しかし、MLLMアーキテクチャの構築、特に様々な粒度の認識タスクに適したコネクタの選択については、まだかなりの議論がある。 本稿では,コネクタがMLLM性能に与える影響を系統的に検討する。 具体的には,コネクタを特徴保存型と特徴圧縮型に分類する。 統一された分類基準を用いて,MMBench,MME,SEED-Benchの3つの総合的なベンチマークから,粗粒度知覚,微粒度知覚,推論の3つのタスクタイプに分類し,性能評価を行う。 以上の結果から, 機能保存コネクタは, 詳細な視覚情報を保持する能力により, タスクにおいて優れることが明らかとなった。 対照的に、機能圧縮コネクタは、きめ細かい知覚タスクでは効果が低いが、顕著な速度優位性を提供し、 \emph{coarse-fine perception} タスクと \emph{reasoning} タスクで相補的に機能する。 これらの知見はMLLMアーキテクチャ設計の指導とMLLMアーキテクチャの最適化の推進に不可欠である。

In recent years, multimodal large language models (MLLMs) have garnered significant attention from both industry and academia. However, there is still considerable debate on constructing MLLM architectures, particularly regarding the selection of appropriate connectors for perception tasks of varying granularities. This paper systematically investigates the impact of connectors on MLLM performance. Specifically, we classify connectors into feature-preserving and feature-compressing types. Utilizing a unified classification standard, we categorize sub-tasks from three comprehensive benchmarks, MMBench, MME, and SEED-Bench, into three task types: coarse-grained perception, fine-grained perception, and reasoning, and evaluate the performance. Our findings reveal that feature-preserving connectors excel in \emph{fine-grained perception} tasks due to their ability to retain detailed visual information. In contrast, feature-compressing connectors, while less effective in fine-grained perception tasks, offer significant speed advantages and perform comparably in \emph{coarse-grained perception} and \emph{reasoning} tasks. These insights are crucial for guiding MLLM architecture design and advancing the optimization of MLLM architectures.
翻訳日:2024-11-01 03:40:32 公開日:2024-10-09
# カーネル補間を用いたモデル述語制御の安全性と高性能学習

Safe and High-Performance Learning of Model Predicitve Control using Kernel-Based Interpolation ( http://arxiv.org/abs/2410.06771v1 )

ライセンス: Link先を確認
Alexander Rose, Philipp Schaub, Rolf Findeisen, (参考訳) 本稿では,カーネル補間を用いたモデル予測制御器の効率的かつ安全な近似を可能にする手法を提案する。 近似関数の計算複雑性はデータ点数と線形にスケールするため,最も有望なデータを選択するスコアリング関数を提案する。 近似の複雑さをさらに軽減するために、我々は閉ループ到達可能な状態の集合に対する考慮を限定する。 つまり、近似関数はこの集合の中でのみ正確である必要がある。 この手法は初期条件の集合が小さいシステムに特に適している。 設計した近似制御器の安全性と性能を保証するため,モンテカルロ法に基づく到達可能性解析を用いる。

We present a method, which allows efficient and safe approximation of model predictive controllers using kernel interpolation. Since the computational complexity of the approximating function scales linearly with the number of data points, we propose to use a scoring function which chooses the most promising data. To further reduce the complexity of the approximation, we restrict our considerations to the set of closed-loop reachable states. That is, the approximating function only has to be accurate within this set. This makes our method especially suited for systems, where the set of initial conditions is small. In order to guarantee safety and high performance of the designed approximated controller, we use reachability analysis based on Monte Carlo methods.
翻訳日:2024-11-01 03:40:32 公開日:2024-10-09
# HERM:人間中心理解のためのマルチモーダルLLMのベンチマークと強化

HERM: Benchmarking and Enhancing Multimodal LLMs for Human-Centric Understanding ( http://arxiv.org/abs/2410.06777v1 )

ライセンス: Link先を確認
Keliang Li, Zaifei Yang, Jiahe Zhao, Hongze Shen, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen, (参考訳) MLLM(Multimodal Large Language Models)による視覚的理解と指導の大幅な進歩は、多様で普遍的な人間中心のシナリオにおいて、より広範な応用の可能性を広げている。 しかし、既存の画像テキストデータは、人間中心の視覚的理解に不可欠である多粒度情報の正確な調整と統合をサポートしない可能性がある。 本稿では,MLLMの人間中心理解能力を評価するベンチマークであるHERM-Benchを紹介する。 我々の研究は、複雑な人間中心のシナリオを理解する上で、既存のMLLMの限界を明らかにする。 これらの課題に対処するために,MLLMのトレーニングの強化を目的とした,多レベルな人間中心アノテーションを備えた包括的なデータセットHERM-100Kを提案する。 さらに,HERM-100Kの強化トレーニングデータを活用するMLLMであるHERM-7Bを開発した。 HERM-Benchの評価によれば、HERM-7Bは、人中心の視覚理解のためのMLLMトレーニングで使用されるデータアノテーションの現在の不十分さを反映して、既存のMLLMよりも著しく優れている。 本研究は,人間中心理解のためのMLLMの能力向上における,特別なデータセットとベンチマークの重要性を強調する。

The significant advancements in visual understanding and instruction following from Multimodal Large Language Models (MLLMs) have opened up more possibilities for broader applications in diverse and universal human-centric scenarios. However, existing image-text data may not support the precise modality alignment and integration of multi-grained information, which is crucial for human-centric visual understanding. In this paper, we introduce HERM-Bench, a benchmark for evaluating the human-centric understanding capabilities of MLLMs. Our work reveals the limitations of existing MLLMs in understanding complex human-centric scenarios. To address these challenges, we present HERM-100K, a comprehensive dataset with multi-level human-centric annotations, aimed at enhancing MLLMs' training. Furthermore, we develop HERM-7B, a MLLM that leverages enhanced training data from HERM-100K. Evaluations on HERM-Bench demonstrate that HERM-7B significantly outperforms existing MLLMs across various human-centric dimensions, reflecting the current inadequacy of data annotations used in MLLM training for human-centric visual understanding. This research emphasizes the importance of specialized datasets and benchmarks in advancing the MLLMs' capabilities for human-centric understanding.
翻訳日:2024-11-01 03:40:32 公開日:2024-10-09
# 解剖モデルを用いた経食道心エコー法

Transesophageal Echocardiography Generation using Anatomical Models ( http://arxiv.org/abs/2410.06781v1 )

ライセンス: Link先を確認
Emmanuel Oladokun, Musa Abdulkareem, Jurica Šprem, Vicente Grau, (参考訳) 経食道心エコー図(TEE)画像の解析は,自動化により深層学習(DL)により促進される。 しかし、DL法は正確な結果を得るために大量の高品質なデータを必要とするため、満足し難い。 データ拡張は、この問題に対処するために一般的に使用される。 本研究では,合成TEE画像と対応するセマンティックラベルを生成するパイプラインを開発する。 提案したデータ生成パイプラインは、解剖学的モデルから合成画像へのスライス変換により、合成経胸壁心エコー画像を生成する既存のパイプライン上に拡張される。 また, 左室セマンティックセグメンテーションタスクにより, DLネットワークの性能を向上できることを示す。 In the pipeline's unpaired image-to-image (I2I) translation section, we explore two generative methods: CycleGAN and contrastive unpaired translation。 次に、Fr'echet Inception Distance(FID)スコアを用いて、専門家と平均研究者による人間の知覚クイズを用いて、定量的に合成画像を評価する。 本研究では,合成画像を用いてデータセットを増大させた場合,ダイススコアを最大10%向上させる。 さらに,不適切なI2I翻訳の評価方法と,合成画像の評価において不一致を観察する方法を比較した。 最後に、データ拡張に使用する場合、どの指標が生成されたデータの有効性をよりよく予測するかを確認します。

Through automation, deep learning (DL) can enhance the analysis of transesophageal echocardiography (TEE) images. However, DL methods require large amounts of high-quality data to produce accurate results, which is difficult to satisfy. Data augmentation is commonly used to tackle this issue. In this work, we develop a pipeline to generate synthetic TEE images and corresponding semantic labels. The proposed data generation pipeline expands on an existing pipeline that generates synthetic transthoracic echocardiography images by transforming slices from anatomical models into synthetic images. We also demonstrate that such images can improve DL network performance through a left-ventricle semantic segmentation task. For the pipeline's unpaired image-to-image (I2I) translation section, we explore two generative methods: CycleGAN and contrastive unpaired translation. Next, we evaluate the synthetic images quantitatively using the Fr\'echet Inception Distance (FID) Score and qualitatively through a human perception quiz involving expert cardiologists and the average researcher. In this study, we achieve a dice score improvement of up to 10% when we augment datasets with our synthetic images. Furthermore, we compare established methods of assessing unpaired I2I translation and observe a disagreement when evaluating the synthetic images. Finally, we see which metric better predicts the generated data's efficacy when used for data augmentation.
翻訳日:2024-11-01 03:40:32 公開日:2024-10-09
# 時間的整合性を用いた深部終末生存分析

Deep End-to-End Survival Analysis with Temporal Consistency ( http://arxiv.org/abs/2410.06786v1 )

ライセンス: Link先を確認
Mariana Vargas Vieyra, Pascal Frossard, (参考訳) 本研究では,大規模長手データの処理を効率的に行うために,Survival Analysisアルゴリズムを提案する。 我々のアプローチは、強化学習の原則、特に深層Qネットワークのパラダイムからインスピレーションを得て、テンポラルラーニングの概念を持続的回帰へと拡張する。 我々の手法における中心的な考え方は、時間とともにデータにおける過去と将来の成果が円滑に進化するという仮説である時間的一貫性である。 我々のフレームワークは、長期の時間的関係を捕捉し、信頼性の高い更新を保証する安定したトレーニング信号を提供することにより、時間的一貫性を大きなデータセットに独自に組み込む。 さらに、この方法は任意に複雑なアーキテクチャをサポートし、複雑な時間依存のモデリングを可能にし、エンドツーエンドのトレーニングを可能にする。 多数の実験を通じて、さまざまなサイズのデータセット間で時間的一貫性を活用できるフレームワークの能力を示す実証的な証拠を提供する。 さらに、我々のアルゴリズムは、長いシーケンスを持つデータセットのベンチマークよりも優れており、長期パターンをキャプチャする能力を示している。 最後に、アブレーション研究は、我々の方法がトレーニングの安定性をいかに向上させるかを示す。

In this study, we present a novel Survival Analysis algorithm designed to efficiently handle large-scale longitudinal data. Our approach draws inspiration from Reinforcement Learning principles, particularly the Deep Q-Network paradigm, extending Temporal Learning concepts to Survival Regression. A central idea in our method is temporal consistency, a hypothesis that past and future outcomes in the data evolve smoothly over time. Our framework uniquely incorporates temporal consistency into large datasets by providing a stable training signal that captures long-term temporal relationships and ensures reliable updates. Additionally, the method supports arbitrarily complex architectures, enabling the modeling of intricate temporal dependencies, and allows for end-to-end training. Through numerous experiments we provide empirical evidence demonstrating our framework's ability to exploit temporal consistency across datasets of varying sizes. Moreover, our algorithm outperforms benchmarks on datasets with long sequences, demonstrating its ability to capture long-term patterns. Finally, ablation studies show how our method enhances training stability.
翻訳日:2024-11-01 03:40:32 公開日:2024-10-09
# レンズからトークンへ:大規模視覚言語モデルにおける物体の幻覚の再考

From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models ( http://arxiv.org/abs/2410.06795v1 )

ライセンス: Link先を確認
Yuying Shang, Xinyi Zeng, Yutao Zhu, Xiao Yang, Zhengwei Fang, Jingyuan Zhang, Jiawei Chen, Zinan Liu, Yu Tian, (参考訳) 大型視覚言語モデル(LVLM)における幻覚は、視覚入力に表示されないオブジェクトを生成するという重要な課題であり、その信頼性を損なう。 近年の研究では、幻覚は視覚的入力の理解の欠如に起因しているが、より根本的な問題は無視されている:モデルが視覚的特徴を効果的に抽出または分離できないことである。 本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚的エンコーダ(機能抽出)やモーダルアライメントモジュール(機能デカップリング)に原因があるかを検討する。 予備調査の結果に触発され,LVLMの幻覚を緩和するための新しいチューニング戦略であるPATCHを提案する。 このプラグアンドプレイ方式は、適応的な仮想トークンを利用して、バウンディングボックスからオブジェクト特徴を抽出し、視覚的特徴の疎結合不足による幻覚に対処し、様々なLVLMに統合することができる。 PATCHは複数のマルチモーダル幻覚データセット上で最先端のパフォーマンスを達成する。 このアプローチが研究者にLVLMの幻覚の根本原因について深い洞察を与え、この分野のさらなる進歩と革新を促進することを願っている。

Hallucinations in large vision-language models (LVLMs) are a significant challenge, i.e., generating objects that are not presented in the visual input, which impairs their reliability. Recent studies often attribute hallucinations to a lack of understanding of visual input, yet ignore a more fundamental issue: the model's inability to effectively extract or decouple visual features. In this paper, we revisit the hallucinations in LVLMs from an architectural perspective, investigating whether the primary cause lies in the visual encoder (feature extraction) or the modal alignment module (feature decoupling). Motivated by our findings on the preliminary investigation, we propose a novel tuning strategy, PATCH, to mitigate hallucinations in LVLMs. This plug-and-play method can be integrated into various LVLMs, utilizing adaptive virtual tokens to extract object features from bounding boxes, thereby addressing hallucinations caused by insufficient decoupling of visual features. PATCH achieves state-of-the-art performance on multiple multi-modal hallucination datasets. We hope this approach provides researchers with deeper insights into the underlying causes of hallucinations in LVLMs, fostering further advancements and innovation in this field.
翻訳日:2024-11-01 03:40:32 公開日:2024-10-09
# 拡散・混乱:拡散深度音声データセット

Diffuse or Confuse: A Diffusion Deepfake Speech Dataset ( http://arxiv.org/abs/2410.06796v1 )

ライセンス: Link先を確認
Anton Firc, Kamil Malinka, Petr Hanáček, (参考訳) 人工知能と機械学習の進歩は、合成音声生成を大幅に改善した。 本稿では,現実的な合成音声を生成する新しい手法である拡散モデルについて検討する。 利用可能なツールと事前訓練されたモデルを使って拡散データセットを作成します。 さらに,拡散生成型ディープフェイクと非拡散型ディープフェイクの品質と,現在のディープフェイク検出システムに対する潜在的な脅威について検討した。 発見は拡散に基づくディープフェイクの検出が、一般的には非拡散ディープフェイクと同等であり、検出器アーキテクチャに基づくばらつきがあることを示している。 拡散ボコーダによる復号化は最小限の影響を示し、全体的な音声品質は非拡散法に匹敵する。

Advancements in artificial intelligence and machine learning have significantly improved synthetic speech generation. This paper explores diffusion models, a novel method for creating realistic synthetic speech. We create a diffusion dataset using available tools and pretrained models. Additionally, this study assesses the quality of diffusion-generated deepfakes versus non-diffusion ones and their potential threat to current deepfake detection systems. Findings indicate that the detection of diffusion-based deepfakes is generally comparable to non-diffusion deepfakes, with some variability based on detector architecture. Re-vocoding with diffusion vocoders shows minimal impact, and the overall speech quality is comparable to non-diffusion methods.
翻訳日:2024-11-01 03:40:32 公開日:2024-10-09
# 逐次深層学習における効率的な重み付きラプラス・ガウスフィルタと平滑化

Efficient Weight-Space Laplace-Gaussian Filtering and Smoothing for Sequential Deep Learning ( http://arxiv.org/abs/2410.06800v1 )

ライセンス: Link先を確認
Joanna Sliwa, Frank Schneider, Nathanael Bosch, Agustinus Kristiadi, Philipp Hennig, (参考訳) 連続学習のような関連する一連のタスクを効果的に学習することは、破滅的な忘れ物と可塑性の喪失の間の微妙なトレードオフにより、ニューラルネットワークにとって重要な課題となる。 ベイズ推定に基づくタスクを逐次学習するための基盤的枠組みを用いてこの問題に対処する。 具体的には、モデルのパラメータを非線形ガウス状態空間モデルとして扱い、ガウスフィルタと滑らか化を用いて効率的な推論を行う。 この一般的な形式主義は、既存の連続的な学習アプローチを仮定し、そのコンポーネントのより明確な概念的理解を提供する。 フィルタリングにおけるラプラス近似を利用して,各タスクに対するニューラルネットワークの重み空間に関するガウス測度を構築する。 一般化されたガウスニュートン行列(GGN)の構造を利用して、対角および低ランク近似を構築することにより、効率的な正則化器として利用する。 ダイナミックスモデルは、学習プロセスのターゲット制御と、タスク間のシフトのタイプをモデル化するなど、ドメイン固有の知識の取り込みを可能にする。 さらに、ベイジアン近似スムーシングを用いることで、データに再アクセスする必要なしにタスク固有のモデルの性能を向上させることができる。

Efficiently learning a sequence of related tasks, such as in continual learning, poses a significant challenge for neural nets due to the delicate trade-off between catastrophic forgetting and loss of plasticity. We address this challenge with a grounded framework for sequentially learning related tasks based on Bayesian inference. Specifically, we treat the model's parameters as a nonlinear Gaussian state-space model and perform efficient inference using Gaussian filtering and smoothing. This general formalism subsumes existing continual learning approaches, while also offering a clearer conceptual understanding of its components. Leveraging Laplace approximations during filtering, we construct Gaussian posterior measures on the weight space of a neural network for each task. We use it as an efficient regularizer by exploiting the structure of the generalized Gauss-Newton matrix (GGN) to construct diagonal plus low-rank approximations. The dynamics model allows targeted control of the learning process and the incorporation of domain-specific knowledge, such as modeling the type of shift between tasks. Additionally, using Bayesian approximate smoothing can enhance the performance of task-specific models without needing to re-access any data.
翻訳日:2024-11-01 03:30:47 公開日:2024-10-09
# Seg2Act: 文書論理構造化のためのグローバルコンテキスト対応アクション生成

Seg2Act: Global Context-aware Action Generation for Document Logical Structuring ( http://arxiv.org/abs/2410.06802v1 )

ライセンス: Link先を確認
Zichao Li, Shaojie He, Meng Liao, Xuanang Chen, Yaojie Lu, Hongyu Lin, Yanxiong Lu, Xianpei Han, Le Sun, (参考訳) 文書論理構造は、文書の階層構造を抽出することを目的としており、これは文書のインテリジェンスにとって不可欠である。 従来のアプローチは、長いドキュメントの複雑さと可変性を扱うのに不足することが多い。 これらの問題に対処するため、我々は、論理構造抽出をアクション生成タスクとして再考する、エンドツーエンドで生成ベースの文書論理構造化手法であるSeg2Actを紹介した。 具体的には、文書のテキストセグメントが与えられた場合、Seg2Actは、グローバルコンテキスト認識生成モデルを介して、反復的にアクションシーケンスを生成し、生成されたアクションに基づいて、そのグローバルコンテキストと現在の論理構造を同時に更新する。 ChCatExtとHierDocデータセットの実験は、教師付きおよび転送学習設定の両方において、Seg2Actの優れたパフォーマンスを示している。

Document logical structuring aims to extract the underlying hierarchical structure of documents, which is crucial for document intelligence. Traditional approaches often fall short in handling the complexity and the variability of lengthy documents. To address these issues, we introduce Seg2Act, an end-to-end, generation-based method for document logical structuring, revisiting logical structure extraction as an action generation task. Specifically, given the text segments of a document, Seg2Act iteratively generates the action sequence via a global context-aware generative model, and simultaneously updates its global context and current logical structure based on the generated actions. Experiments on ChCatExt and HierDoc datasets demonstrate the superior performance of Seg2Act in both supervised and transfer learning settings.
翻訳日:2024-11-01 03:30:47 公開日:2024-10-09
# 相互作用する粒子の力学における量子力学の普遍的スケーリング

Universal scaling of quantum caustics in the dynamics of interacting particles ( http://arxiv.org/abs/2410.06803v1 )

ライセンス: Link先を確認
Monalisa Singh Roy, Jesse Mumford, D. H. J. O'Dell, Emanuele G. Dalla Torre, (参考訳) 近年の理論的研究は、多体量子力学における因果関係の存在を予測しており、時間的および空間的スケーリング関係に従う拡張された確率密度の領域として現れる。 横場イジングモデルに着目し,スピン鎖内の局所クエンチによって引き起こされる動力学を考察し,異なる因果パターンを生成する外向き伝播励起を導出する。 本研究では,エアリー関数のカタストロフィに付随する2/3の万能指数を求めるために,因果的な服装を施した干渉縞の最初の2つの最大値のスケーリングを計算する。 我々は、この性質がモデルの常磁性相全体において普遍であることを示し、量子相転移(QPT)で変化し始める。 この堅牢なスケーリングは、モデルの可積分性を損なう摂動の下でも持続する。 さらに, 境界条件の影響について検討し, 開放境界が有意なエッジ効果をもたらし, 複雑な干渉パターンが生じることを示した。 これらのエッジ誘起力学にもかかわらず、全体的なパワーロースケーリング指数は頑健である。 これらの知見は、QPTの強力な診断ツールとしての量子因果関係の可能性を強調し、積分可能性破壊的な摂動と境界条件の変化に対するレジリエンスを示す。

Recent theoretical studies have predicted the existence of caustics in many-body quantum dynamics, where they manifest as extended regions of enhanced probability density that obey temporal and spatial scaling relations. Focusing on the transverse-field Ising model, we investigate the dynamics initiated by a local quench in a spin chain, resulting in outward-propagating excitations that create a distinct caustic pattern. We calculate the scaling of the first two maxima of the interference fringes dressing the caustic, finding a universal exponent of 2/3, associated with an Airy function catastrophe. We demonstrate that this property is universal in the entire paramagnetic phase of the model, and starts varying at the quantum phase transition (QPT). This robust scaling persists even under perturbations that break the integrability of the model. We additionally explore the effect of boundary conditions and find that open boundaries introduce significant edge effects, leading to complex interference patterns. Despite these edge-induced dynamics, the overall power-law scaling exponent remains robust. These findings highlight the potential of quantum caustics as a powerful diagnostic tool for QPTs, demonstrating resilience against integrability-breaking perturbations and boundary condition variations.
翻訳日:2024-11-01 03:30:47 公開日:2024-10-09
# クリアスカイ回廊:AIによる太陽系外惑星大気調査による太陽系外惑星のエアロゾル形成への展望

The Clear Sky Corridor: Insights Towards Aerosol Formation in Exoplanets Using An AI-based Survey of Exoplanet Atmospheres ( http://arxiv.org/abs/2410.06804v1 )

ライセンス: Link先を確認
Reza Ashtari, Kevin B. Stevenson, David Sing, Mercedes Lopez-Morales, Munazza K. Alam, Nikolay K. Nikolov, Thomas M. Evans-Soma, (参考訳) 望遠鏡データから太陽系外惑星の最適化された正確な透過スペクトルを作り出すことは、伝統的に手作業と労働集約的な手順であった。 本稿では,ハッブル宇宙望遠鏡 (HST) 広視野カメラ3 (WFC3) 装置で観測された光曲線と分光データを人工知能 (AI) で処理し,この手順を改良・標準化するための最初の試みの結果を紹介する。 我々は、Eurekaパイプラインを自律的に運用するAIベースのパラメータオプティマイザを実装し、現在公開されているHST WFC3データセットの均一な透過スペクトルを生成し、ホットジュピターからサブネプチューンまで太陽系外惑星のタイプにまたがる。 280から2580ケルビンの温度を持つ43個の太陽系外惑星を調査し、熱い木星の1.4 mにおける水バンドの振幅と平衡温度の関係をモデル化した。 また、海王星/亜海王星の大気でも、同様の新しい傾向が見られました。 興味深いことに、惑星質量対平衡温度図では、700から1700のケルビン(質量に依存している)の惑星が、より強い1.4um H2O帯の測定値を示す「クラー・スカイ・コリドール」が示される。 この新しい傾向は、エアロゾル形成の潜在的に重要な要因としての金属性を示している。 この新発見をエアロゾル形成の理解に含めることで、太陽系外惑星の大気研究のスリルを増すでしょう。 HSTは、木星から亜海王星まで、様々な太陽系外惑星のエアロゾル形成の基礎的理解を彫刻することで、ジェームズ・ウェッブ宇宙望遠鏡(JWST)がより広い波長範囲の多くの惑星の同様の大気の傾向を発見するための魅力的なプラットフォームを提示する。

Producing optimized and accurate transmission spectra of exoplanets from telescope data has traditionally been a manual and labor-intensive procedure. Here we present the results of the first attempt to improve and standardize this procedure using artificial intelligence (AI) based processing of light curves and spectroscopic data from transiting exoplanets observed with the Hubble Space Telescope's (HST) Wide Field Camera 3 (WFC3) instrument. We implement an AI-based parameter optimizer that autonomously operates the Eureka pipeline to produce homogeneous transmission spectra of publicly available HST WFC3 datasets, spanning exoplanet types from hot Jupiters to sub-Neptunes. Surveying 43 exoplanets with temperatures between 280 and 2580 Kelvin, we confirm modeled relationships between the amplitude of the water band at 1.4um in hot Jupiters and their equilibrium temperatures. We also identify a similar, novel trend in Neptune/sub-Neptune atmospheres, but shifted to cooler temperatures. Excitingly, a planet mass versus equilibrium temperature diagram reveals a "Clear Sky Corridor," where planets between 700 and 1700 Kelvin (depending on the mass) show stronger 1.4um H2O band measurements. This novel trend points to metallicity as a potentially important driver of aerosol formation. As we unveil and include these new discoveries into our understanding of aerosol formation, we enter a thrilling future for the study of exoplanet atmospheres. With HST sculpting this foundational understanding for aerosol formation in various exoplanet types, ranging from Jupiters to sub-Neptunes, we present a compelling platform for the James Webb Space Telescope (JWST) to discover similar atmospheric trends for more planets across a broader wavelength range.
翻訳日:2024-11-01 03:30:47 公開日:2024-10-09
# ニオブ酸化物の結晶性:ニオブ3次元共振器における二層系欠陥の量子的応用

Crystallinity in Niobium oxides: A pathway to mitigate Two-Level System Defects in Niobium 3D Resonator for quantum applications ( http://arxiv.org/abs/2410.06805v1 )

ライセンス: Link先を確認
Y. Kalboussi, I. Curci, F. Miserque, D. Troadec, N. Brun, M. Walls, G. Jullien, F. Eozenou, M. Baudrier, L. Maurice, T. Proslier, (参考訳) ニオブ系超伝導量子回路の材料欠陥、特に2レベル系(TLS)欠陥はデコヒーレンスの主要な原因であり、究極的には量子計算とセンシングの性能を制限している。 したがって、これらのデバイスにおけるTLS欠陥の微視的起源を特定し、それらを取り除くための戦略を開発することが、超伝導量子ビット性能改善の鍵となる。 本稿では,650{\deg}Cでの10時間高真空(HV)加熱処理による3次元超伝導ニオブ共振器の2レベル系損失の低減効果を示す。 X線光電子分光法 (XPS) と高分解能走査透過電子顕微鏡 (STEM) を用いて, この熱処理がニオブ試料に及ぼす影響を調べたところ, 大気暴露とHPR後に生長したネイティブオキシド組成の変化とナノスケールの結晶性酸化物領域の形成が, 1.3GHzニオブ共振器の低磁場における10倍品質係数の増大と相関していることがわかった。

Materials imperfections in Nniobium based superconducting quantum circuits, in particular, two-level-system (TLS) defects, are a major source of decoherence, ultimately limiting the performance of quantum computation and sensing. Thus, identifying and understanding the microscopic origin of possible TLS defects in these devices and developing strategies to eliminate them is key to superconducting qubit performance improvement. In this paper, we demonstrate the reduction of two-level system losses in three-dimensional superconducting radio frequency (SRF) niobium resonators by a 10-hour high vacuum (HV) heat treatment at 650{\deg}C, even after exposure to air and high pressure rinsing (HPR). By probing the effect of this annealing on niobium samples using X-ray photoelectron spectroscopy (XPS) and high-resolution scanning transmission electron microscopy (STEM), we witness an alteration of the native oxide composition re-grown after air exposure and HPR and the creation of nano-scale crystalline oxide regions, which correlates with the measured tenfold quality factor enhancement at low fields of the 1.3 GHz niobium resonator.
翻訳日:2024-11-01 03:30:47 公開日:2024-10-09
# 近似パターンマッチングのための準最適時間量子アルゴリズム

Near-Optimal-Time Quantum Algorithms for Approximate Pattern Matching ( http://arxiv.org/abs/2410.06808v1 )

ライセンス: Link先を確認
Tomasz Kociumaka, Jakob Nogler, Philip Wellnitz, (参考訳) 近似パターンマッチングは、最も基本的な文字列処理タスクの一つである。 テキスト$T$ of length $n$、パターン$P$ of length $m$、しきい値$k$が与えられたら、そのタスクは、最大$k$から$P$までの距離にある$T$の断片を特定することである。 パターンマッチングにおけるハミング距離(文字置換数)と編集距離(最小文字挿入数、削除数、置換数)である。 量子環境におけるこれらの2つの問題の複雑さを再考する。 我々の最近の研究[STOC'24]は、$\hat{O}(\sqrt{nk})$ 量子クエリが(編集によるパターンマッチングの)解決に十分であることを示している。 しかし、基礎となる解の量子時間複雑性は、古典的な計算よりもいかなる改善も与えない。 一方、Pattern Matching with Mismatches [Jin and Nogler; SODA'23] の最先端のアルゴリズムは、クエリの複雑さを$\hat{O}(\sqrt{nk^{3/2}})$とtimeの複雑さを$\tilde{O}(\sqrt{nk^2})$で達成している。 この研究では、時間複雑性が $\tilde{O}(\sqrt{nk}+\sqrt{n/m}\cdot k^2)$ for Pattern Matching with Mismatches と $\hat{O}(\sqrt{nk}+\sqrt{n/m}\cdot k^{3.5})$ for Pattern Matching with Edits を提示する。 ランニング時間は、それぞれ$k\ll m^{1/3}$と$k\ll m^{1/6}$に最適であり、それぞれ$k\ll (mn)^{1/4}$と$k\ll (mn)^{1/7}$に有利である。 我々の解はまた、$P$ in $T$(算術進行の集合として表される)の概算発生の開始位置を報告し、この場合、無条件の下限とアルゴリズムの複雑さは$\Theta(\sqrt{n/m})$ factorによって増加する。

Approximate Pattern Matching is among the most fundamental string-processing tasks. Given a text $T$ of length $n$, a pattern $P$ of length $m$, and a threshold $k$, the task is to identify the fragments of $T$ that are at distance at most $k$ to $P$. We consider the two most common distances: Hamming distance (the number of character substitutions) in Pattern Matching with Mismatches and edit distance (the minimum number of character insertions, deletions, and substitutions) in Pattern Matching with Edits. We revisit the complexity of these two problems in the quantum setting. Our recent work [STOC'24] shows that $\hat{O}(\sqrt{nk})$ quantum queries are sufficient to solve (the decision version of) Pattern Matching with Edits. However, the quantum time complexity of the underlying solution does not provide any improvement over classical computation. On the other hand, the state-of-the-art algorithm for Pattern Matching with Mismatches [Jin and Nogler; SODA'23] achieves query complexity $\hat{O}(\sqrt{nk^{3/2}})$ and time complexity $\tilde{O}(\sqrt{nk^2})$, falling short of an unconditional lower bound of $\Omega(\sqrt{nk})$ queries. In this work, we present quantum algorithms with a time complexity of $\tilde{O}(\sqrt{nk}+\sqrt{n/m}\cdot k^2)$ for Pattern Matching with Mismatches and $\hat{O}(\sqrt{nk}+\sqrt{n/m}\cdot k^{3.5})$ for Pattern Matching with Edits; both solutions use $\hat{O}(\sqrt{nk})$ queries. The running times are near-optimal for $k\ll m^{1/3}$ and $k\ll m^{1/6}$, respectively, and offer advantage over classical algorithms for $k\ll (mn)^{1/4}$ and $k\ll (mn)^{1/7}$, respectively. Our solutions can also report the starting positions of approximate occurrences of $P$ in $T$ (represented as collections of arithmetic progressions); in this case, the unconditional lower bound and the complexities of our algorithms increase by a $\Theta(\sqrt{n/m})$ factor.
翻訳日:2024-11-01 03:30:47 公開日:2024-10-09
# ルート防衛戦略:LLMの復号化レベルでの安全性確保

Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level ( http://arxiv.org/abs/2410.06809v1 )

ライセンス: Link先を確認
Xinyi Zeng, Yuying Shang, Yutao Zhu, Jiawei Chen, Yu Tian, (参考訳) 大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。 しかし、LSMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。 現在の方法では、ジェイルブレイクのリスクを効果的に解決していますが、共通の制限を共有しています。 1) プレフィルレベルから有害な応答を判断すると、モデルの復号出力が利用できないため、比較的有効性と堅牢性が低下する。 2) 単一評価に基づく潜在的有害応答の排除は, モデルの有用性を著しく損なうおそれがあり, 本論文では, LLMが有害な出力を認識する能力について検討し, 過去のトークンの危険性を評価する能力を明らかにし, 定量化する。 実験結果により,復号化レベルにおいてロバストな防御機構を設計する。 我々の新しいデコーダ指向・ステップバイステップディフェンスアーキテクチャは、直接拒否するのではなく、有害なクエリを直接修正する。 ユーザビリティを高めるために投機的復号化を導入し、セキュアな復号化速度を高めるために展開を容易にする。 大規模な実験により,提案手法は推論速度を損なうことなくモデルセキュリティを向上させることが示された。 特に,本手法は危険情報を識別する能力を活用し,既存の手法と比較して有用性を維持する。

Large language models (LLMs) have demonstrated immense utility across various industries. However, as LLMs advance, the risk of harmful outputs increases due to incorrect or malicious instruction prompts. While current methods effectively address jailbreak risks, they share common limitations: 1) Judging harmful responses from the prefill-level lacks utilization of the model's decoding outputs, leading to relatively lower effectiveness and robustness. 2) Rejecting potentially harmful responses based on a single evaluation can significantly impair the model's helpfulness.This paper examines the LLMs' capability to recognize harmful outputs, revealing and quantifying their proficiency in assessing the danger of previous tokens. Motivated by pilot experiment results, we design a robust defense mechanism at the decoding level. Our novel decoder-oriented, step-by-step defense architecture corrects harmful queries directly rather than rejecting them outright. We introduce speculative decoding to enhance usability and facilitate deployment to boost secure decoding speed. Extensive experiments demonstrate that our approach improves model security without compromising reasoning speed. Notably, our method leverages the model's ability to discern hazardous information, maintaining its helpfulness compared to existing methods.
翻訳日:2024-11-01 03:30:47 公開日:2024-10-09
# 可視・赤外画像融合の評価再考

Rethinking the Evaluation of Visible and Infrared Image Fusion ( http://arxiv.org/abs/2410.06811v1 )

ライセンス: Link先を確認
Dayan Guan, Yixuan Wu, Tianzhu Liu, Alex C. Kot, Yanfeng Gu, (参考訳) Visible と Infrared Image Fusion (VIF) は、オブジェクト検出やセマンティックセグメンテーションなど、幅広い高度なビジョンタスクにおいて大きな関心を集めている。 しかし, 基礎的真理が欠如しているため, VIF法の評価は依然として困難である。 本稿では、セグメンテーション指向評価手法(SEA)を提案し、セグメンテーションタスクを取り入れ、最新のVIFデータセットで利用可能なセグメンテーションラベルを活用する。 具体的には、多様な画像やクラスを扱えるユニバーサルセグメンテーションモデルを用いて、融合画像からのセグメンテーション出力を予測し、これらのアウトプットをセグメンテーションラベルと比較する。 近赤外画像の約半数が可視画像よりも優れた性能を示したにもかかわらず,SEAを用いた最近のVIF法の評価では,その性能は可視画像に比較して同等か劣っていることが明らかとなった。 さらに分析したところ、SEAと最も相関している2つのメトリクスは、勾配に基づく融合計量$Q_{\text{ABF}}$と、従来のVIF評価指標で$Q_{\text{VIFF}}$であり、セグメンテーションラベルが利用できないときにプロキシとして機能することを示している。 我々は,本評価が新規かつ実用的なVIF手法の開発を導くことを願っている。 コードは \url{https://github.com/Yixuan-2002/SEA/} でリリースされた。

Visible and Infrared Image Fusion (VIF) has garnered significant interest across a wide range of high-level vision tasks, such as object detection and semantic segmentation. However, the evaluation of VIF methods remains challenging due to the absence of ground truth. This paper proposes a Segmentation-oriented Evaluation Approach (SEA) to assess VIF methods by incorporating the semantic segmentation task and leveraging segmentation labels available in latest VIF datasets. Specifically, SEA utilizes universal segmentation models, capable of handling diverse images and classes, to predict segmentation outputs from fused images and compare these outputs with segmentation labels. Our evaluation of recent VIF methods using SEA reveals that their performance is comparable or even inferior to using visible images only, despite nearly half of the infrared images demonstrating better performance than visible images. Further analysis indicates that the two metrics most correlated to our SEA are the gradient-based fusion metric $Q_{\text{ABF}}$ and the visual information fidelity metric $Q_{\text{VIFF}}$ in conventional VIF evaluation metrics, which can serve as proxies when segmentation labels are unavailable. We hope that our evaluation will guide the development of novel and practical VIF methods. The code has been released in \url{https://github.com/Yixuan-2002/SEA/}.
翻訳日:2024-11-01 03:30:47 公開日:2024-10-09
# プライバシを意識したスパシティチューニングによるメンバシップ推論攻撃の回避

Defending Membership Inference Attacks via Privacy-aware Sparsity Tuning ( http://arxiv.org/abs/2410.06814v1 )

ライセンス: Link先を確認
Qiang Hu, Hengxiang Zhang, Hongxin Wei, (参考訳) オーバーパラメータ化モデルは通常、特定のサンプルが与えられたモデルのトレーニングに含まれているかどうかを判断することを目的として、メンバシップ推論攻撃に対して脆弱である。 以前の重み正規化(例:L1正規化)は、通常、すべてのパラメータに均一な罰則を課し、モデルユーティリティとプライバシの間の準最適トレードオフをもたらす。 この研究で最初に示されたのは、少数のパラメータしかプライバシのリスクに大きく影響しないことである。 そこで本研究では,L1正則化の簡単な修正であるプライバシを意識したスパシティチューニング(PAST)を提案する。 PASTの背後にある重要な考え方は、プライバシーの漏洩に大きく貢献するパラメータの分散を促進することです。 特に,各パラメータに対する適応重みを,そのプライバシー感度,すなわち損失ギャップのパラメータに対する勾配に基づいて構成する。 PASTを使用すると、ネットワークはメンバーと非メンバーの間の損失ギャップを縮小し、プライバシー攻撃に対する強い抵抗をもたらす。 大規模な実験は、プライバシとユーティリティのトレードオフにおける最先端のバランスを達成することによって、PASTの優位性を実証している。

Over-parameterized models are typically vulnerable to membership inference attacks, which aim to determine whether a specific sample is included in the training of a given model. Previous Weight regularizations (e.g., L1 regularization) typically impose uniform penalties on all parameters, leading to a suboptimal tradeoff between model utility and privacy. In this work, we first show that only a small fraction of parameters substantially impact the privacy risk. In light of this, we propose Privacy-aware Sparsity Tuning (PAST), a simple fix to the L1 Regularization, by employing adaptive penalties to different parameters. Our key idea behind PAST is to promote sparsity in parameters that significantly contribute to privacy leakage. In particular, we construct the adaptive weight for each parameter based on its privacy sensitivity, i.e., the gradient of the loss gap with respect to the parameter. Using PAST, the network shrinks the loss gap between members and non-members, leading to strong resistance to privacy attacks. Extensive experiments demonstrate the superiority of PAST, achieving a state-of-the-art balance in the privacy-utility trade-off.
翻訳日:2024-11-01 03:30:47 公開日:2024-10-09
# Shap-Select:SHAP値と回帰を用いた軽量特徴選択

Shap-Select: Lightweight Feature Selection Using SHAP Values and Regression ( http://arxiv.org/abs/2410.06815v1 )

ライセンス: Link先を確認
Egor Kraev, Baran Koseoglu, Luca Traverso, Mohammed Topiwalla, (参考訳) 特徴選択は、特に高次元データセットを扱う場合、機械学習において不可欠なプロセスである。 機械学習モデルの複雑さを減らし、パフォーマンスを改善し、オーバーフィッティングを軽減し、計算時間を短縮する。 本稿では,新しい特徴選択フレームワーク,shap-selectを提案する。 このフレームワークは、特徴のシェープリー値に基づいて目標の線形的あるいはロジスティック回帰を行い、回帰係数の符号と重要性レベルを用いて、表の回帰と分類タスクにおける特徴選択のための効率的なヒューリスティックを実現する。 我々は,Kaggleクレジットカード詐欺データセットのシェープ選択を評価し,再帰的特徴除去(RFE)やHISEL(相互情報に基づく特徴選択),ボルタ,より単純なShapley値ベース手法などの確立した手法と比較して,その有効性を実証した。 以上の結果から,シェープ選択は解釈可能性,計算効率,性能を両立させ,特徴選択のための堅牢なソリューションを提供することがわかった。

Feature selection is an essential process in machine learning, especially when dealing with high-dimensional datasets. It helps reduce the complexity of machine learning models, improve performance, mitigate overfitting, and decrease computation time. This paper presents a novel feature selection framework, shap-select. The framework conducts a linear or logistic regression of the target on the Shapley values of the features, on the validation set, and uses the signs and significance levels of the regression coefficients to implement an efficient heuristic for feature selection in tabular regression and classification tasks. We evaluate shap-select on the Kaggle credit card fraud dataset, demonstrating its effectiveness compared to established methods such as Recursive Feature Elimination (RFE), HISEL (a mutual information-based feature selection method), Boruta and a simpler Shapley value-based method. Our findings show that shap-select combines interpretability, computational efficiency, and performance, offering a robust solution for feature selection.
翻訳日:2024-11-01 03:30:47 公開日:2024-10-09
# 凸緩和下におけるReLUネットワークのマルチニューロン圧縮性

Multi-Neuron Unleashes Expressivity of ReLU Networks Under Convex Relaxation ( http://arxiv.org/abs/2410.06816v1 )

ライセンス: Link先を確認
Yuhao Mao, Yani Zhang, Martin Vechev, (参考訳) ニューラルワーク認定は、ニューラルネットワークの堅牢性を保証する重要なツールとして、自らを確立している。 認証法は一般に、音境界を提供するために可能な出力セットの凸緩和に依存する。 たとえ$\mathbb{R}^2$ の単純な ``$\max$'' 関数であっても、この関数を表現し、単一ニューロン緩和法で完全に有界な ReLU ネットワークは存在しない。 このことは、$\mathbb{R}^n$ の一般連続ピースワイズ線型函数に対して正確な境界を与える凸緩和が存在するかどうかという問題を提起する。 本稿では、一般的なReLUネットワークに対する(階層的な)マルチニューロン緩和が完全な認証を提供することを示すことにより、この疑問に肯定的に答える。 この新たな結果に基づき、ReLUネットワークの表現性は、マルチニューロン緩和下ではもはや制限されないことを示す。 我々の知る限りでは、これは凸緩和の完全性に対する最初の肯定的な結果であり、証明された堅牢性の実践に光を当てている。

Neural work certification has established itself as a crucial tool for ensuring the robustness of neural networks. Certification methods typically rely on convex relaxations of the feasible output set to provide sound bounds. However, complete certification requires exact bounds, which strongly limits the expressivity of ReLU networks: even for the simple ``$\max$'' function in $\mathbb{R}^2$, there does not exist a ReLU network that expresses this function and can be exactly bounded by single-neuron relaxation methods. This raises the question whether there exists a convex relaxation that can provide exact bounds for general continuous piecewise linear functions in $\mathbb{R}^n$. In this work, we answer this question affirmatively by showing that (layer-wise) multi-neuron relaxation provides complete certification for general ReLU networks. Based on this novel result, we show that the expressivity of ReLU networks is no longer limited under multi-neuron relaxation. To the best of our knowledge, this is the first positive result on the completeness of convex relaxations, shedding light on the practice of certified robustness.
翻訳日:2024-11-01 03:30:47 公開日:2024-10-09
# 乳頭筋摘出術を併用した3次元UNetによる心臓MRI分割法の改良

An Improved Approach for Cardiac MRI Segmentation based on 3D UNet Combined with Papillary Muscle Exclusion ( http://arxiv.org/abs/2410.06818v1 )

ライセンス: Link先を確認
Narjes Benameur, Ramzi Mahmoudi, Mohamed Deriche, Amira fayouka, Imene Masmoudi, Nessrine Zoghlami, (参考訳) 左室流出分画(LVEF)は心血管機能の最も重要な臨床パラメータである。 このパラメータを推定する精度は、左心室構造(LV)の終末およびシストール相の正確なセグメンテーションに大きく依存する。 したがって、異なるフェーズにおける心臓構造の正確なセグメンテーションのための堅牢なアルゴリズムを開発することが重要である。 方法: 本研究では, 心血管磁気共鳴学会の勧告により, 乳頭筋を除いた心筋とLVのセグメンテーションを改良した3次元UNetモデルを導入する。 提案フレームワークの実用試験では,チュニスの軍事病院 (HMPIT) から合計8,400枚の心臓MRI画像が収集され,解析された。 評価指標としてDice係数とF1スコアを用いて,LVと心筋セグメンテーションの検証・検査を行った。 結果: データはトレーニング,検証,テストでそれぞれ70%,10%,20%に分割された。 提案したセグメンテーションモデルは,2つの異なる心相(終末ジスタゾール,終末シストール)において,基底,中隔,心尖の3つの軸視で試験された。 実験の結果,Dice指数は0.965,0.945,F1スコアは0.801,0.799であった。 また,乳頭筋を含む場合,乳頭筋を含む場合,LVEFと他の臨床パラメータに有意な差が認められた。

Left ventricular ejection fraction (LVEF) is the most important clinical parameter of cardiovascular function. The accuracy in estimating this parameter is highly dependent upon the precise segmentation of the left ventricle (LV) structure at the end diastole and systole phases. Therefore, it is crucial to develop robust algorithms for the precise segmentation of the heart structure during different phases. Methodology: In this work, an improved 3D UNet model is introduced to segment the myocardium and LV, while excluding papillary muscles, as per the recommendation of the Society for Cardiovascular Magnetic Resonance. For the practical testing of the proposed framework, a total of 8,400 cardiac MRI images were collected and analysed from the military hospital in Tunis (HMPIT), as well as the popular ACDC public dataset. As performance metrics, we used the Dice coefficient and the F1 score for validation/testing of the LV and the myocardium segmentation. Results: The data was split into 70%, 10%, and 20% for training, validation, and testing, respectively. It is worth noting that the proposed segmentation model was tested across three axis views: basal, medio basal and apical at two different cardiac phases: end diastole and end systole instances. The experimental results showed a Dice index of 0.965 and 0.945, and an F1 score of 0.801 and 0.799, at the end diastolic and systolic phases, respectively. Additionally, clinical evaluation outcomes revealed a significant difference in the LVEF and other clinical parameters when the papillary muscles were included or excluded.
翻訳日:2024-11-01 03:30:47 公開日:2024-10-09
# 動的ニューラルポテンシャル場:移動障害物の存在下でのオンライン軌道最適化

Dynamic Neural Potential Field: Online Trajectory Optimization in Presence of Moving Obstacles ( http://arxiv.org/abs/2410.06819v1 )

ライセンス: Link先を確認
Aleksey Staroverov, Muhammad Alhaddad, Aditya Narendra, Konstantin Mironov, Aleksandr Panov, (参考訳) 本研究では,静的・動的障害物の存在下での移動ロボットの局所軌道計画の課題に対処する。 モデル予測制御(MPC)問題の数値解として局所軌道を求める。 衝突回避は、MPCのコスト関数に障害の反発ポテンシャルを付加することで得られる。 ニューラルモデルにより反発電位を推定する手法を開発する。 動的障害を扱うための3つの戦略を提案し,検討する。 まず、動的障害のある環境を静的環境のシーケンスと見なす。 第二に、ニューラルモデルは一度に反発電位列を予測する。 第3に、ニューラルモデルは、自己回帰モードにおいて、将来の反発電位ステップを段階的に予測する。 我々はこれらの戦略を実装し、ベンチMRフレームワークを用いてCIAO*やMPPIと比較する。 最初の2つの戦略は、安全上の制約を保ちながらCIAO*やMPPIよりも高い性能を示した。 第3の戦略は少し遅かったが、まだ時間制限を満たしている。 我々は,提案するMPC局所軌道プランナーの下で,オフィス廊下を移動するHusky UGVモバイルプラットフォームにアプローチを展開させる。 コードとトレーニングされたモデルは、 \url{https://github.com/CognitiveAISystems/Dynamic-Neural-Potential-Field}で公開されている。

We address a task of local trajectory planning for the mobile robot in the presence of static and dynamic obstacles. Local trajectory is obtained as a numerical solution of the Model Predictive Control (MPC) problem. Collision avoidance may be provided by adding repulsive potential of the obstacles to the cost function of MPC. We develop an approach, where repulsive potential is estimated by the neural model. We propose and explore three possible strategies of handling dynamic obstacles. First, environment with dynamic obstacles is considered as a sequence of static environments. Second, the neural model predict a sequence of repulsive potential at once. Third, the neural model predict future repulsive potential step by step in autoregressive mode. We implement these strategies and compare it with CIAO* and MPPI using BenchMR framework. First two strategies showed higher performance than CIAO* and MPPI while preserving safety constraints. The third strategy was a bit slower, however it still satisfy time limits. We deploy our approach on Husky UGV mobile platform, which move through the office corridors under proposed MPC local trajectory planner. The code and trained models are available at \url{https://github.com/CognitiveAISystems/Dynamic-Neural-Potential-Field}.
翻訳日:2024-11-01 03:21:00 公開日:2024-10-09
# K-SAM: CXR画像におけるSAMのゼロショット性能向上のための事前訓練U-Netを用いたプロンプト手法

K-SAM: A Prompting Method Using Pretrained U-Net to Improve Zero Shot Performance of SAM on Lung Segmentation in CXR Images ( http://arxiv.org/abs/2410.06825v1 )

ライセンス: Link先を確認
Mohamed Deriche, Mohammad Marufur, (参考訳) 臨床手術では,対象領域の正確な局在化が臨床診断およびスクリーニングに必須のステップである。 多くの診断応用において、胸部X線像の肺分画は、画像サイズを大幅に減らし、その後の解析を高速化する重要な第一歩である。 この作業の主な課題の1つは、肺炎や結核などの病気によって、不透明と呼ばれる高濃度の異常で覆われた肺領域を分断することである。 SAMはカテゴリ非依存のセグメンテーションのための驚くべき一般化能力を持っている。 本研究では,肺領域分割作業におけるSAMのゼロショット性能を自動的プロンプト選択により向上させるアルゴリズムを提案する。 2つの異なるUNetモデルがトレーニングされ、1つは肺セグメントを予測し、もう1つは心臓セグメントを予測した。 これらの予測はエッジに関する詳細な詳細を欠いているが、SAMのプロンプトとして正および負の点を提供する。 提案手法を用いて、SAMのゼロショット性能を2つのベンチマークデータセットで評価した。 ViT-lはViThとViTbの2モデルに比べて若干性能が向上した。 平均的なDiceスコアは95.5%と94.9%である。 しかし、ほとんどの画像においてSAMは際立ったセグメンテーションを行い、その予測は一部の画像にはほど遠いものだった。 注意深い検査の結果,これらの画像はいずれも異常あるいは歪んだ形状であった。 SAMを用いたCXR画像からの肺の分画に関するこれまでの研究とは異なり、本研究では入力画像のみから完全に自動的なプロンプト選択プロセスを提案する。 提案手法は,事前学習モデルを用いて迅速な選択を行うことができ,SAMの精度の高い一般化能力を最大限に活用できることを示す。

In clinical procedures, precise localization of the target area is an essential step for clinical diagnosis and screening. For many diagnostic applications, lung segmentation of chest X-ray images is an essential first step that significantly reduces the image size to speed up the subsequent analysis. One of the primary difficulties with this task is segmenting the lung regions covered by dense abnormalities also known as opacities due to diseases like pneumonia and tuberculosis. SAM has astonishing generalization capabilities for category agnostic segmentation. In this study we propose an algorithm to improve zero shot performance of SAM on lung region segmentation task by automatic prompt selection. Two separate UNet models were trained, one for predicting lung segments and another for heart segment. Though these predictions lack fine details around the edges, they provide positive and negative points as prompt for SAM. Using proposed prompting method zero shot performance of SAM is evaluated on two benchmark datasets. ViT-l version of the model achieved slightly better performance compared to other two versions, ViTh and ViTb. It yields an average Dice score of 95.5 percent and 94.9 percent on hold out data for two datasets respectively. Though, for most of the images, SAM did outstanding segmentation, its prediction was way off for some of the images. After careful inspection it is found that all of these images either had extreme abnormality or distorted shape. Unlike most of the research performed so far on lung segmentation from CXR images using SAM, this study proposes a fully automated prompt selection process only from the input image. Our finding indicates that using pretrained models for prompt selection can utilize SAM impressive generalization capability to its full extent.
翻訳日:2024-11-01 03:21:00 公開日:2024-10-09
# カスケード力学系のクラスにおける伝達学習

Transfer Learning for a Class of Cascade Dynamical Systems ( http://arxiv.org/abs/2410.06828v1 )

ライセンス: Link先を確認
Shima Rabiei, Sandipan Mishra, Santiago Paternain, (参考訳) 本研究は、強化学習の文脈における伝達学習の問題について考察する。 具体的には、リダクションシステムでポリシーをトレーニングし、フルステートシステムにデプロイすることを検討する。 このトレーニング戦略の動機は、力学が複雑であれば、フルステートシステムでシミュレーションを実行するのに過剰な時間を要する可能性があることである。 転送学習は計算問題を緩和するが、転送保証は2つのシステム間の相違に依存する。 本研究では、状態空間の部分集合の力学が他の状態に影響を与えるが、逆ではないカスケード力学系のクラスを考える。 強化学習ポリシーは、これらの状態のダイナミクスを無視して、命令入力として扱うモデルで学習する。 フルステートシステムでは、これらのダイナミクスは古典的なコントローラ(例えばPID)を使って処理される。 これらのシステムは制御文献に多大な応用があり、その構造は内部ループコントローラの安定性に依存する転送保証を提供することができる。 立方体に関する数値実験は理論的な結果を支持する。

This work considers the problem of transfer learning in the context of reinforcement learning. Specifically, we consider training a policy in a reduced order system and deploying it in the full state system. The motivation for this training strategy is that running simulations in the full-state system may take excessive time if the dynamics are complex. While transfer learning alleviates the computational issue, the transfer guarantees depend on the discrepancy between the two systems. In this work, we consider a class of cascade dynamical systems, where the dynamics of a subset of the state-space influence the rest of the states but not vice-versa. The reinforcement learning policy learns in a model that ignores the dynamics of these states and treats them as commanded inputs. In the full-state system, these dynamics are handled using a classic controller (e.g., a PID). These systems have vast applications in the control literature and their structure allows us to provide transfer guarantees that depend on the stability of the inner loop controller. Numerical experiments on a quadrotor support the theoretical findings.
翻訳日:2024-11-01 03:21:00 公開日:2024-10-09
# 自己注意モデルにおける動的メタスタビリティ

Dynamic metastability in the self-attention model ( http://arxiv.org/abs/2410.06833v1 )

ライセンス: Link先を確認
Borjan Geshkovski, Hugo Koubbi, Yury Polyanskiy, Philippe Rigollet, (参考訳) 近年の大規模言語モデルの成功の背後にある深層ニューラルネットワークアーキテクチャであるTransformersの玩具モデルとして機能する,ユニットスフィア上の相互作用粒子系である自己アテンションモデルを考える。 我々は[GLPR23]で予想される動的メタスタビリティーの出現を証明し、粒子は無限の時間で1つのクラスターに崩壊するが、指数的に長い期間、複数のクラスターの構成の近くに閉じ込められている。 系の勾配流の解釈を活用することで、オットーとレズニコフ[OR07]によって提唱された勾配流の緩やかな運動の網羅的な枠組みと、アレン・カーン方程式の文脈で結合する。 最終的に、メタスタビリティの指数的に長い期間を超えるダイナミクスを探索し、適切な時間再スケーリングの下では、エネルギーは有限時間でその大域的な最大値に達し、二層ニューラルネットワークの勾配勾配勾配によるトレーニングダイナミクスの解析における最近の研究を反映して、サドル・アンド・サドルのような振る舞いを示す軌道を持つ階段プロファイルを持つことを示した。

We consider the self-attention model - an interacting particle system on the unit sphere, which serves as a toy model for Transformers, the deep neural network architecture behind the recent successes of large language models. We prove the appearance of dynamic metastability conjectured in [GLPR23] - although particles collapse to a single cluster in infinite time, they remain trapped near a configuration of several clusters for an exponentially long period of time. By leveraging a gradient flow interpretation of the system, we also connect our result to an overarching framework of slow motion of gradient flows proposed by Otto and Reznikoff [OR07] in the context of coarsening and the Allen-Cahn equation. We finally probe the dynamics beyond the exponentially long period of metastability, and illustrate that, under an appropriate time-rescaling, the energy reaches its global maximum in finite time and has a staircase profile, with trajectories manifesting saddle-to-saddle-like behavior, reminiscent of recent works in the analysis of training dynamics via gradient descent for two-layer neural networks.
翻訳日:2024-11-01 03:21:00 公開日:2024-10-09
# 高温超伝導体における$φ_0$-junctionとジョセフソンダイオード効果

$φ_0$-junction and Josephson diode effect in high-temperature superconductor ( http://arxiv.org/abs/2410.06838v1 )

ライセンス: Link先を確認
Guo-Liang Guo, Xiao-Hong Pan, Xin Liu, (参考訳) 近年のジョセフソンダイオード効果(JDE)と高温ジョセフソン接合の進展により, s-wave/d-wave/s-wave(s-d-s)超伝導体接合におけるJDEの実現と高温超伝導秩序パラメータの検討が提案されている。 s波とd波超伝導体の間の層間結合は、自発的に時間反転対称性を破る、効果的な$d+is$超伝導状態を引き起こす。 非対称s-d層間結合は反転対称性を破る。 この2つの対称性の破れは$\phi_0$-junctionとなるが、JDEは生成しない。 この接合におけるJDEの出現は、系のC_4$回転対称性に依存する。 C_4$回転対称性の破れは時間反転対称性や反転対称性には影響しないが、ダイオード効率の大きさと極性を制御することができる。 さらに、非対称シャピロステップを用いて、C$_{4}$対称性破壊制御JDEを観察することを提案する。 本研究は, 高温d-waveペアリングに依存するJDE機構を提案する。

Motivated by recent progress in both the Josephson diode effect (JDE) and the high-temperature Josephson junction, we propose to realize the JDE in an s-wave/d-wave/s-wave (s-d-s) superconductor junction and investigate the high-temperature superconducting order parameters. The interlayer coupling between s-wave and d-wave superconductors can induce an effective $d+is$ superconducting state, spontaneously breaking time-reversal symmetry. The asymmetric s-d interlayer couplings break the inversion symmetry. Remarkably, the breaking of these two symmetries leads to a $\phi_0$-junction but does not generate JDE. We find that the emergence of the JDE in this junction depends on the $C_4$ rotational symmetry of the system. Although breaking $C_4$ rotational symmetry does not affect time-reversal and inversion symmetries, it can control the magnitude and polarity of diode efficiency. Furthermore, we propose observing C$_{4}$ symmetry breaking controlled JDE through asymmetric Shapiro steps. Our work suggests a JDE mechanism that relies on high-temperature d-wave pairing, which could inversely contribute to a potential experimental method for detecting the unconventional pairing symmetry in superconductors.
翻訳日:2024-11-01 03:21:00 公開日:2024-10-09
# 大規模言語モデルとレイアウト・ツー・イメージ合成によるフットショット検出

Boosting Few-Shot Detection with Large Language Models and Layout-to-Image Synthesis ( http://arxiv.org/abs/2410.06841v1 )

ライセンス: Link先を確認
Ahmed Abdullah, Nikolas Ebert, Oliver Wasenmüller, (参考訳) 近年の拡散モデルの発展により、様々な下流タスクで使用する高ボリュームで高品質なデータを生成する能力を活用した幅広い研究が実現されている。 Layout-to-Image Synthesis (LIS)と呼ばれるそのようなモデルの1つのサブクラスは、空間的レイアウト(バウンディングボックス、マスク、ポーズなど)に条件付けされた画像を生成することを学び、レイアウトの整合性に限界があるにもかかわらず、現実的な画像を生成する有望な能力を示した。 さらに、これらのモデルを拡張性のある数ショット検出データに効果的に転送する方法については、未解決のままである。 そこで本稿では,Large Language Model (LLM) とLISモデルを用いた協調フレームワークを提案する。 LLMの推論能力を利用してアノテーション空間の空間的先行を外挿し、いくつかの例のみを与えられた新しいバウンディングボックスを生成する。 さらに,新しいレイアウト対応CLIPスコアをサンプルランキングに導入し,生成したレイアウトと画像の密結合を可能にする。 COCO数ショットベンチマークの大幅な改善が観察された。 提案手法では,COCO5-,10-,30-shot設定では,YOLOX-Sベースラインが140%以上,50%以上,mAPが35%向上する。

Recent advancements in diffusion models have enabled a wide range of works exploiting their ability to generate high-volume, high-quality data for use in various downstream tasks. One subclass of such models, dubbed Layout-to-Image Synthesis (LIS), learns to generate images conditioned on a spatial layout (bounding boxes, masks, poses, etc.) and has shown a promising ability to generate realistic images, albeit with limited layout-adherence. Moreover, the question of how to effectively transfer those models for scalable augmentation of few-shot detection data remains unanswered. Thus, we propose a collaborative framework employing a Large Language Model (LLM) and an LIS model for enhancing few-shot detection beyond state-of-the-art generative augmentation approaches. We leverage LLM's reasoning ability to extrapolate the spatial prior of the annotation space by generating new bounding boxes given only a few example annotations. Additionally, we introduce our novel layout-aware CLIP score for sample ranking, enabling tight coupling between generated layouts and images. Significant improvements on COCO few-shot benchmarks are observed. With our approach, a YOLOX-S baseline is boosted by more than 140%, 50%, 35% in mAP on the COCO 5-,10-, and 30-shot settings, respectively.
翻訳日:2024-11-01 03:21:00 公開日:2024-10-09
# SurANet:高能率対話型コントラスト学習戦略による物体検出のための周辺認識ネットワーク

SurANet: Surrounding-Aware Network for Concealed Object Detection via Highly-Efficient Interactive Contrastive Learning Strategy ( http://arxiv.org/abs/2410.06842v1 )

ライセンス: Link先を確認
Yuhan Kang, Qingpeng Li, Leyuan Fang, Jian Zhao, Xuelong Li, (参考訳) 乱れ場面における物体検出(COD)は,様々な画像処理アプリケーションにおいて重要である。 しかし、その隠蔽物は、常にその背景と似ているため、区別するのは極めて困難である。 ここでの大きな障害は、内部と外部の境界領域の小さな特徴差であり、既存のCOD法では正確な結果が得られない。 本稿では, 環境情報をうまく利用して隠蔽対象を識別できることを考慮し, 特徴抽出・損失機能に周辺情報を導入し, 識別を改善するための, CODタスクのためのディープ・サラウンド・アウェア・ネットワーク(SurANet)を提案する。 まず,周辺特徴の差分融合を用いて特徴写像のセマンティクスを強化し,隠蔽対象の強調を行う。 次に、周囲の特徴写像を対照的に学習することで隠蔽対象を識別するために、周囲のコントラストロスを適用した。 次に、SurANetは、特徴力学の調査後、提案した空間圧縮相関伝送戦略により、エンドツーエンドで高い効率で訓練することができる。 最後に、提案したSurANetは、複数の実データセット上で最先端のCOD法より優れていることを示す。 ソースコードはhttps://github.com/kyh433/SurANet.comで公開されます。

Concealed object detection (COD) in cluttered scenes is significant for various image processing applications. However, due to that concealed objects are always similar to their background, it is extremely hard to distinguish them. Here, the major obstacle is the tiny feature differences between the inside and outside object boundary region, which makes it trouble for existing COD methods to achieve accurate results. In this paper, considering that the surrounding environment information can be well utilized to identify the concealed objects, and thus, we propose a novel deep Surrounding-Aware Network, namely SurANet, for COD tasks, which introduces surrounding information into feature extraction and loss function to improve the discrimination. First, we enhance the semantics of feature maps using differential fusion of surrounding features to highlight concealed objects. Next, a Surrounding-Aware Contrastive Loss is applied to identify the concealed object via learning surrounding feature maps contrastively. Then, SurANet can be trained end-to-end with high efficiency via our proposed Spatial-Compressed Correlation Transmission strategy after our investigation of feature dynamics, and extensive experiments improve that such features can be well reserved respectively. Finally, experimental results demonstrate that the proposed SurANet outperforms state-of-the-art COD methods on multiple real datasets. Our source code will be available at https://github.com/kyh433/SurANet.
翻訳日:2024-11-01 03:21:00 公開日:2024-10-09
# MentalArena:メンタルヘルス障害の診断と治療のための言語モデルのセルフプレイトレーニング

MentalArena: Self-play Training of Language Models for Diagnosis and Treatment of Mental Health Disorders ( http://arxiv.org/abs/2410.06845v1 )

ライセンス: Link先を確認
Cheng Li, May Fung, Qingyun Wang, Chi Han, Manling Li, Jindong Wang, Heng Ji, (参考訳) メンタルヘルス障害は世界で最も深刻な病気の1つである。 このような疾患を持つほとんどの人は適切なケアを受けることができず、精神疾患の診断と治療のためのトレーニングモデルの重要性を強調している。 しかし、メンタルヘルスの分野では、プライバシに関する懸念はパーソナライズされた治療データのアクセシビリティを制限し、強力なモデルの構築を困難にしている。 本稿では、ドメイン固有のパーソナライズされたデータを生成して言語モデルを学習するためのセルフプレイフレームワークであるMentalArenaを紹介し、パーソナライズされた診断と治療(セラピストとして)を行い、情報を提供する(患者として)優れたモデルを得る。 ヒトのような精神保健患者を正確にモデル化するために,実際の患者を認知と行動の両方の観点からシミュレートする症状エンコーダを考案した。 患者とセラピストの相互作用における意図バイアスに対処するため,患者とセラピストの対話を識別偏差に応じて動的に管理するシンプレトム・デコーダを提案する。 バイオメディカルQAとメンタルヘルスタスクを含む6つのベンチマークに対して、MentalArenaを6つの高度なモデルと比較した。 我々のモデルは、GPT-3.5とLlama-3-8bの両方で微調整され、GPT-4oを含む他のモデルよりも大幅に優れています。 私たちの研究がパーソナライズされたケアに関する将来の研究を刺激することを期待しています。 コードはhttps://github.com/Scarelette/MentalArena/tree/mainで入手できる。

Mental health disorders are one of the most serious diseases in the world. Most people with such a disease lack access to adequate care, which highlights the importance of training models for the diagnosis and treatment of mental health disorders. However, in the mental health domain, privacy concerns limit the accessibility of personalized treatment data, making it challenging to build powerful models. In this paper, we introduce MentalArena, a self-play framework to train language models by generating domain-specific personalized data, where we obtain a better model capable of making a personalized diagnosis and treatment (as a therapist) and providing information (as a patient). To accurately model human-like mental health patients, we devise Symptom Encoder, which simulates a real patient from both cognition and behavior perspectives. To address intent bias during patient-therapist interactions, we propose Symptom Decoder to compare diagnosed symptoms with encoded symptoms, and dynamically manage the dialogue between patient and therapist according to the identified deviations. We evaluated MentalArena against 6 benchmarks, including biomedicalQA and mental health tasks, compared to 6 advanced models. Our models, fine-tuned on both GPT-3.5 and Llama-3-8b, significantly outperform their counterparts, including GPT-4o. We hope that our work can inspire future research on personalized care. Code is available in https://github.com/Scarelette/MentalArena/tree/main
翻訳日:2024-11-01 03:21:00 公開日:2024-10-09
# 線形複雑度に対する事前学習音声と言語モデルの連成微調整と変換

Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity ( http://arxiv.org/abs/2410.06846v1 )

ライセンス: Link先を確認
Mutian He, Philip N. Garner, (参考訳) LinformerやMambaのようなアーキテクチャは、最近、トランスフォーマーの競合する線形時間置換として登場した。 しかし、対応する大きな事前訓練されたモデルは、特に非テキスト領域では利用できないことが多い。 これを解決するために,変換器モデルを線形時間置換器に変換し,ターゲットタスクに微調整するクロスアーキテクチャ層蒸留(CALD)手法を提案する。 また,本モデルから所望の推論能力を最適に維持するために,ファインチューニングを導くいくつかの方法を比較する。 対象モデルとパラメータの軌跡は,それぞれ異なる。 言語処理,言語モデリング,音声処理に関する一連の実証研究において,CALDが元のモデルの結果を効果的に回復できることを示す。 この変化のいくつかの理由が示唆されている。

Architectures such as Linformer and Mamba have recently emerged as competitive linear time replacements for transformers. However, corresponding large pretrained models are often unavailable, especially in non-text domains. To remedy this, we present a Cross-Architecture Layerwise Distillation (CALD) approach that jointly converts a transformer model to a linear time substitute and fine-tunes it to a target task. We also compare several means to guide the fine-tuning to optimally retain the desired inference capability from the original model. The methods differ in their use of the target model and the trajectory of the parameters. In a series of empirical studies on language processing, language modeling, and speech processing, we show that CALD can effectively recover the result of the original model, and that the guiding strategy contributes to the result. Some reasons for the variation are suggested.
翻訳日:2024-11-01 03:21:00 公開日:2024-10-09
# モデルフリーの安全強化学習における安全モジュレータアクタ臨界法とUAVホバーディングへの応用

A Safety Modulator Actor-Critic Method in Model-Free Safe Reinforcement Learning and Application in UAV Hovering ( http://arxiv.org/abs/2410.06847v1 )

ライセンス: Link先を確認
Qihan Qi, Xinsong Yang, Gang Xia, Daniel W. C. Ho, Pengyang Tang, (参考訳) 本稿では、モデルフリーな安全強化学習(RL)における安全性制約と過大評価を解消する安全変調器アクター・クリティカル(SMAC)手法を提案する。 安全変調器は、行動を調整することで安全制約を満たすように開発され、安全制約を無視し、報酬を最大化することに集中することができる。 さらに、安全制約付きQ値の過大評価を軽減するため、SMACの理論的更新規則を持つ分布批判を提案する。 無人航空機(UAV)ホバリングにおけるシミュレーションと実世界のシナリオ実験の両方で、SMACが安全性の制約を効果的に維持し、メインストリームのベースラインアルゴリズムより優れていることを確認した。

This paper proposes a safety modulator actor-critic (SMAC) method to address safety constraint and overestimation mitigation in model-free safe reinforcement learning (RL). A safety modulator is developed to satisfy safety constraints by modulating actions, allowing the policy to ignore safety constraint and focus on maximizing reward. Additionally, a distributional critic with a theoretical update rule for SMAC is proposed to mitigate the overestimation of Q-values with safety constraints. Both simulation and real-world scenarios experiments on Unmanned Aerial Vehicles (UAVs) hovering confirm that the SMAC can effectively maintain safety constraints and outperform mainstream baseline algorithms.
翻訳日:2024-11-01 03:21:00 公開日:2024-10-09
# トランスフォーメーションによるフォーミング:クラス認識表現変換によるフェデレーション・アンラーニングの実現

Forgetting Through Transforming: Enabling Federated Unlearning via Class-Aware Representation Transformation ( http://arxiv.org/abs/2410.06848v1 )

ライセンス: Link先を確認
Qi Guo, Zhen Tian, Minghao Yao, Yong Qi, Saiyu Qi, Yun Li, Jin Song Dong, (参考訳) フェデレーション・アンラーニング(FU)は、クライアントがトレーニングされたフェデレーション・ラーニングモデルから特定のデータの影響を選択的に排除し、プライバシの懸念と規制要件に対処することを可能にする。 しかし、既存のFU法は、特に非IID環境でのクラスレベルのアンラーニングにおいて、有効消去とモデルユーティリティ保存のバランスをとるのに苦労することが多い。 本稿では,クラス認識表現変換による未学習を実現する新しい手法として,クラス認識表現変換(FUCRT)を用いたフェデレート・アンラーニングを提案する。 FUCRT は,(1) 最適忘れ方向を特定する変換クラス選択戦略,(2) クライアント間の一貫した変換を保証するために,二重クラス認識型コントラスト学習を用いた変換アライメント手法,の2つの重要な要素を取り入れている。 4つのデータセットに対する大規模な実験は、消去保証、モデルユーティリティ保存、効率の点で、FUCRTの優れたパフォーマンスを示している。 FUCRTは、未学習クラスの完全消去を達成し、残りのクラスのパフォーマンスを維持または改善し、IIDと非IID設定の両方で最先端のベースラインを上回ります。 表現空間の分析は、FUCRTが未学習のクラス表現と残りのクラスからの変換クラスを効果的にマージし、スクラッチから再学習されたモデルを忠実に模倣する能力を明らかにしている。

Federated Unlearning (FU) enables clients to selectively remove the influence of specific data from a trained federated learning model, addressing privacy concerns and regulatory requirements. However, existing FU methods often struggle to balance effective erasure with model utility preservation, especially for class-level unlearning in non-IID settings. We propose Federated Unlearning via Class-aware Representation Transformation (FUCRT), a novel method that achieves unlearning through class-aware representation transformation. FUCRT employs two key components: (1) a transformation class selection strategy to identify optimal forgetting directions, and (2) a transformation alignment technique using dual class-aware contrastive learning to ensure consistent transformations across clients. Extensive experiments on four datasets demonstrate FUCRT's superior performance in terms of erasure guarantee, model utility preservation, and efficiency. FUCRT achieves complete (100\%) erasure of unlearning classes while maintaining or improving performance on remaining classes, outperforming state-of-the-art baselines across both IID and Non-IID settings. Analysis of the representation space reveals FUCRT's ability to effectively merge unlearning class representations with the transformation class from remaining classes, closely mimicking the model retrained from scratch.
翻訳日:2024-11-01 03:21:00 公開日:2024-10-09
# Gabidulin-Kronecker製品コードを用いた暗号システムのセキュリティと設計について

On the Security and Design of Cryptosystems Using Gabidulin-Kronecker Product Codes ( http://arxiv.org/abs/2410.06849v1 )

ライセンス: Link先を確認
Terry Shue Chien Lau, Zhe Sun, Sook-Chin Yip, Ji-Jian Chin, Choo-Yee Ting, (参考訳) 本稿では,Gabidulin-KroneckerProduct Codesを用いた暗号システムのセキュリティと設計に関する予備的研究を行う。 特に,システムの設計の非現実性を指摘し,その改善方法を提案する。

This paper is a preliminary study on the security and design of cryptosystems using Gabidulin-Kronecker Product Codes. In particular, we point out the design impracticality of the system, and propose ways to improve it.
翻訳日:2024-11-01 03:21:00 公開日:2024-10-09
# 移動可能な敵攻撃におけるモデルアンサンブルの理解

Understanding Model Ensemble in Transferable Adversarial Attack ( http://arxiv.org/abs/2410.06851v1 )

ライセンス: Link先を確認
Wei Yao, Zeliang Zhang, Huayi Tang, Yong Liu, (参考訳) モデルアンサンブル対逆攻撃は、未知のモデルさえも対象とするトランスファー可能な対逆攻撃例を生成する強力な方法となっているが、その理論的基礎は未解明のままである。 このギャップに対処するため、モデルアンサンブル攻撃の進行のロードマップとなる初期の理論的知見を提供する。 我々はまず,多様性と経験的モデルアンサンブル・ラデマッハの複雑性の概念とともに,逆転写可能性の誤差を測定するために転送可能性誤差を定義する。 次に、トランスファービリティエラーを脆弱性、多様性、定数に分解し、モデルアンサンブル攻撃におけるトランスファービリティエラーの起源を厳密に説明する。 さらに,情報理論における最新の数学的ツールを用いて,複雑性と一般化項を用いて伝達可能性誤差を束縛し,(1)より多くのサロゲートモデルの導入,(2)多様性の増大,(3)過度な適合の場合の複雑性の低減という3つの実践的ガイドラインに寄与する。 最後に、54モデルを用いた広範囲な実験により、我々の理論的枠組みが検証され、転送可能なモデルアンサンブル対逆攻撃を理解するための重要な一歩が示される。

Model ensemble adversarial attack has become a powerful method for generating transferable adversarial examples that can target even unknown models, but its theoretical foundation remains underexplored. To address this gap, we provide early theoretical insights that serve as a roadmap for advancing model ensemble adversarial attack. We first define transferability error to measure the error in adversarial transferability, alongside concepts of diversity and empirical model ensemble Rademacher complexity. We then decompose the transferability error into vulnerability, diversity, and a constant, which rigidly explains the origin of transferability error in model ensemble attack: the vulnerability of an adversarial example to ensemble components, and the diversity of ensemble components. Furthermore, we apply the latest mathematical tools in information theory to bound the transferability error using complexity and generalization terms, contributing to three practical guidelines for reducing transferability error: (1) incorporating more surrogate models, (2) increasing their diversity, and (3) reducing their complexity in cases of overfitting. Finally, extensive experiments with 54 models validate our theoretical framework, representing a significant step forward in understanding transferable model ensemble adversarial attacks.
翻訳日:2024-11-01 03:21:00 公開日:2024-10-09
# AlGaAs多重絡み合った光子源を用いた量子トライアングルネットワークの非局所性実験

Experimental quantum triangle network nonlocality with an AlGaAs multiplexed entangled photon source ( http://arxiv.org/abs/2410.06860v1 )

ライセンス: Link先を確認
Othmane Meskine, Ivan Šupić, Damian Markham, Félicien Appas, Fabien Boitier, Martina Morassi, Aristide Lemaître, Maria Ines Amanti, Florent Baboux, Eleni Diamanti, Sara Ducci, (参考訳) 量子ネットワークアーキテクチャにおける標準ベルシナリオを超えた非局所性の概念の探求は、量子通信ネットワークの将来的な応用に強い可能性を秘めている、基本的な新しい形式の相関関係を明らかにする。 この可能性を具現化するためには、理論上の進歩を現実的な構成に適応させることが必要である。 ここでは、入力のない量子非局所性は、任意に小さな独立性を持つソースに対して証明できるという理論で示される量子三角形ネットワークについて考察する。 我々は、広帯域で切断されたエネルギー整合チャネルを利用して、1つのAlGaAs多重交絡光子源の出力状態を慎重に設計することで、そのような相関した情報源を実験的に実現した。 このシミュレートされた三角形ネットワークは、ベルのような不等式を初めて実験的に破って、我々のシステムに存在する相関関係における雑音の影響を捉えるのに使用される。 また、生成した状態間の相互情報を分析することで、その知見を厳格に検証する。 この結果から,ネットワーク非局所性に対する理解を深めると同時に,量子通信ネットワークの実践的妥当性を高めることができた。

The exploration of the concept of nonlocality beyond standard Bell scenarios in quantum network architectures unveils fundamentally new forms of correlations that hold a strong potential for future applications of quantum communication networks. To materialize this potential, it is necessary to adapt theoretical advances to realistic configurations. Here we consider a quantum triangle network, for which is was shown in theory that, remarkably, quantum nonlocality without inputs can be demonstrated for sources with an arbitrarily small level of independence. We realize experimentally such correlated sources by carefully engineering the output state of a single AlGaAs multiplexed entangled-photon source, exploiting energy-matched channels cut in its broad spectrum. This simulated triangle network is then used to violate experimentally for the first time a Bell-like inequality that we derive to capture the effect of noise in the correlations present in our system. We also rigorously validate our findings by analysing the mutual information between the generated states. Our results allow us to deepen our understanding of network nonlocality while also pushing its practical relevance for quantum communication networks.
翻訳日:2024-10-31 23:47:07 公開日:2024-10-09
# コンピュータ教育における学生の認識と生成型AIツールの活用

Students' Perceptions and Use of Generative AI Tools for Programming Across Different Computing Courses ( http://arxiv.org/abs/2410.06865v1 )

ライセンス: Link先を確認
Hieke Keuning, Isaac Alpizar-Chacon, Ioanna Lykourentzou, Lauren Beehler, Christian Köppe, Imke de Jong, Sergey Sosnovsky, (参考訳) 生成的人工知能(GenAI)の教育における利用に対する学生の認識と意見の調査が注目されている。 この問題に対処する研究は、典型的には、ある時点で、大きな異種グループによって行われる。 しかし、学生がGenAIツールをどう認識し利用するかは、その背景知識、ツールに親しみ、学習目標やコースの方針など、多くの要因に依存する可能性がある。 本研究では,コンピュータ・コースを受講する学生が,さまざまなプログラムやコースのプログラミング関連タスクにGenAIをどのように利用するかを検討する。 GenAIの能力は急速に変化しており、ユーザはさらにGenAIを採用しています。 ヨーロッパ大の研究大学の全コンピュータ・プログラムの学生を対象に,3回の連続的な調査(秋の「23」,冬の「23」,春の「24」)を行った。 我々は、教育、倫理、就職先における利用について質問し、当時受講していたコースで、GenAIツールの使用が許可されていないことに関して、具体的な質問を行った。 我々は、59の異なるコンピュータコースで、学生がGenAIツールをどのように使っているか、そして、平均的な学生の意見が時間とともに進化するかを調べるために、264の回答を定量的に、質的に分析した。 本研究は,GenAI利用の異なるコース間での差別化と,その利用とコンピュータコースの学習目標との整合性に関する新たな議論に寄与する。

Investigation of students' perceptions and opinions on the use of generative artificial intelligence (GenAI) in education is a topic gaining much interest. Studies addressing this are typically conducted with large heterogeneous groups, at one moment in time. However, how students perceive and use GenAI tools can potentially depend on many factors, including their background knowledge, familiarity with the tools, and the learning goals and policies of the courses they are taking. In this study we explore how students following computing courses use GenAI for programming-related tasks across different programs and courses: Bachelor and Master, in courses in which learning programming is the learning goal, courses that require programming as a means to achieve another goal, and in courses in which programming is optional, but can be useful. We are also interested in changes over time, since GenAI capabilities are changing at a fast pace, and users are adopting GenAI increasingly. We conducted three consecutive surveys (fall `23, winter `23, and spring `24) among students of all computing programs of a large European research university. We asked questions on the use in education, ethics, and job prospects, and we included specific questions on the (dis)allowed use of GenAI tools in the courses they were taking at the time. We received 264 responses, which we quantitatively and qualitatively analyzed, to find out how students have employed GenAI tools across 59 different computing courses, and whether the opinion of an average student about these tools evolves over time. Our study contributes to the emerging discussion of how to differentiate GenAI use across different courses, and how to align its use with the learning goals of a computing course.
翻訳日:2024-10-31 23:47:07 公開日:2024-10-09
# 敵対的攻撃に耐えるセキュアな映像品質評価

Secure Video Quality Assessment Resisting Adversarial Attacks ( http://arxiv.org/abs/2410.06866v1 )

ライセンス: Link先を確認
Ao-Xiang Zhang, Yu Ran, Weixuan Tang, Yuan-Gen Wang, Qingxiao Guan, Chunsheng Yang, (参考訳) ビデオトラフィックの急激な急増により、ビデオ品質アセスメント(VQA)が強化された。 最先端アーキテクチャを活用することで、現在のVQAモデルは人間の互換性のある精度を実現している。 しかし、近年の研究では、既存のVQAモデルの敵攻撃に対する脆弱性が明らかにされている。 信頼性が高く実用的な評価システムを確立するために、このような悪意ある攻撃に抵抗できるセキュアなVQAモデルを緊急に要求する。 残念ながら、この問題を探求する試みは行われていない。 本稿では,既存のVQAモデルにセキュリティを持たせることを目的とした,一般敵防衛の原則について検討する。 具体的には、フレーム内防御のためのビデオフレームにランダムな空間グリッドサンプリングを導入する。 そこで,我々は,対向的摂動を大域的に中和するガーディアンマップを用いて画素単位のランダム化を設計する。 一方、フレーム間防御のための補償として、ビデオシーケンスから時間情報を抽出する。 これらの原則に基づいて,セキュリティ指向の観点から,SecureVQAと呼ばれる新しいVQAフレームワークを提案する。 大規模な実験は、SecureVQAが最新技術モデルと比較して競争力のあるVQA性能を実現しつつ、セキュリティの新たなベンチマークを設定していることを示している。 アブレーション研究はSecureVQAの原則を分析し、その一般化と主要なVQAモデルのセキュリティへの貢献を実証する。

The exponential surge in video traffic has intensified the imperative for Video Quality Assessment (VQA). Leveraging cutting-edge architectures, current VQA models have achieved human-comparable accuracy. However, recent studies have revealed the vulnerability of existing VQA models against adversarial attacks. To establish a reliable and practical assessment system, a secure VQA model capable of resisting such malicious attacks is urgently demanded. Unfortunately, no attempt has been made to explore this issue. This paper first attempts to investigate general adversarial defense principles, aiming at endowing existing VQA models with security. Specifically, we first introduce random spatial grid sampling on the video frame for intra-frame defense. Then, we design pixel-wise randomization through a guardian map, globally neutralizing adversarial perturbations. Meanwhile, we extract temporal information from the video sequence as compensation for inter-frame defense. Building upon these principles, we present a novel VQA framework from the security-oriented perspective, termed SecureVQA. Extensive experiments indicate that SecureVQA sets a new benchmark in security while achieving competitive VQA performance compared with state-of-the-art models. Ablation studies delve deeper into analyzing the principles of SecureVQA, demonstrating their generalization and contributions to the security of leading VQA models.
翻訳日:2024-10-31 23:47:07 公開日:2024-10-09
# 構造モデルにおける群共有値と対実シミュレーション

Group Shapley Value and Counterfactual Simulations in a Structural Model ( http://arxiv.org/abs/2410.06875v1 )

ライセンス: Link先を確認
Yongchan Kwon, Sokbae Lee, Guillaume A. Pouliot, (参考訳) 本稿では, 異なる成分の重要性を定量化することにより, 構造経済モデルにおける反ファクトシミュレーションを解釈するために, シェープリー値, グループシェープリー値の変種を提案する。 本フレームワークは,複数の群に分割した2つのパラメータ集合を比較し,グループシェープ値分解を適用することにより,これらの集合間の変化に対する一意的な加法的寄与が得られる。 相対的なコントリビューションはひとつにまとめられ、回帰表と同じくらい容易に解釈可能な重要度表を生成することができます。 群Shapley値は、制約付き重み付き最小二乗問題の解として特徴づけることができる。 この特性を用いて、グループシェープ値の入力が欠落するシナリオに対処する頑健な分解手法を開発する。 まず,本手法をシンプルなRoyモデルに適用し,その有用性を2つの論文で再検討する。

We propose a variant of the Shapley value, the group Shapley value, to interpret counterfactual simulations in structural economic models by quantifying the importance of different components. Our framework compares two sets of parameters, partitioned into multiple groups, and applying group Shapley value decomposition yields unique additive contributions to the changes between these sets. The relative contributions sum to one, enabling us to generate an importance table that is as easily interpretable as a regression table. The group Shapley value can be characterized as the solution to a constrained weighted least squares problem. Using this property, we develop robust decomposition methods to address scenarios where inputs for the group Shapley value are missing. We first apply our methodology to a simple Roy model and then illustrate its usefulness by revisiting two published papers.
翻訳日:2024-10-31 23:47:07 公開日:2024-10-09
# ノイズは必要なものすべて:ノイズの多いSGDの2次収束

Noise is All You Need: Private Second-Order Convergence of Noisy SGD ( http://arxiv.org/abs/2410.06878v1 )

ライセンス: Link先を確認
Dmitrii Avdiukhin, Michael Dinitz, Chenglin Fan, Grigory Yaroslavtsev, (参考訳) プライベート最適化は機械学習に大きな関心を持つトピックであり、理論と実践の両方において、微分プライベート確率勾配降下(DP-SGD)が重要な役割を果たしている。 さらに、DP-SGDは、堅牢性、機械学習など、プライバシーを超えたコンテキストにおいて強力なツールとして知られている。 DP-SGD の既存の解析は、相対的に強い仮定(例えば、損失関数のリプシッツ連続性、あるいは凸性)を行うか、一階収束のみを証明する(したがって、非凸設定のサドル点で終わる)。 同時に、'`noisy SGD'' の非プライベートバージョンの二階収束の証明や、DP-SGD よりも複雑で二階収束を保証するアルゴリズムの設計の進歩が進んでいる。 我々はDP-SGDを再検討し、'Noise is all you need''を示す: プライバシーに必要なノイズは、Lipschitz非損失関数であっても、標準の滑らかさ仮定の下で既に二階収束を示唆している。 したがって、基本的には2階収束は自由である: DP-SGD は、最小の仮定の下で、二階定常点を見つけるために使用できる。

Private optimization is a topic of major interest in machine learning, with differentially private stochastic gradient descent (DP-SGD) playing a key role in both theory and practice. Furthermore, DP-SGD is known to be a powerful tool in contexts beyond privacy, including robustness, machine unlearning, etc. Existing analyses of DP-SGD either make relatively strong assumptions (e.g., Lipschitz continuity of the loss function, or even convexity) or prove only first-order convergence (and thus might end at a saddle point in the non-convex setting). At the same time, there has been progress in proving second-order convergence of the non-private version of ``noisy SGD'', as well as progress in designing algorithms that are more complex than DP-SGD and do guarantee second-order convergence. We revisit DP-SGD and show that ``noise is all you need'': the noise necessary for privacy already implies second-order convergence under the standard smoothness assumptions, even for non-Lipschitz loss functions. Hence, we get second-order convergence essentially for free: DP-SGD, the workhorse of modern private optimization, under minimal assumptions can be used to find a second-order stationary point.
翻訳日:2024-10-31 23:47:07 公開日:2024-10-09
# ハードスウィッシュ活性化関数調整によるモデル性能の評価

Evaluating Model Performance with Hard-Swish Activation Function Adjustments ( http://arxiv.org/abs/2410.06879v1 )

ライセンス: Link先を確認
Sai Abhinav Pydimarry, Shekhar Madhav Khairnar, Sofia Garces Palacios, Ganesh Sankaranarayanan, Darian Hoagland, Dmitry Nepomnayshy, Huu Phong Nguyen, (参考訳) パターン認識の分野では、高い精度を達成することが不可欠である。 異なる複雑な画像を認識するためにモデルをトレーニングする一方で、可能な限り高い精度を達成するためにモデルを微調整することが不可欠である。 モデルを微調整する1つの戦略は、アクティベーション関数を変更することである。 トレーニング済みのほとんどのモデルでは、デフォルトのアクティベーション関数としてReLUを使用しているが、Hard-Swishのような別のアクティベーション関数に切り替えることは有益である。 本研究では,ReLU,Swish,Hard-Swishのアクティベーション機能を用いた画像データセット間のモデルの性能評価を行った。 CIFAR-10データセットの精度は2.06%向上し,ATLASデータセットの精度は0.30%向上した。 事前訓練されたモデルのアーキテクチャにおけるアクティベーション関数の修正により、全体的な精度が向上する。

In the field of pattern recognition, achieving high accuracy is essential. While training a model to recognize different complex images, it is vital to fine-tune the model to achieve the highest accuracy possible. One strategy for fine-tuning a model involves changing its activation function. Most pre-trained models use ReLU as their default activation function, but switching to a different activation function like Hard-Swish could be beneficial. This study evaluates the performance of models using ReLU, Swish and Hard-Swish activation functions across diverse image datasets. Our results show a 2.06% increase in accuracy for models on the CIFAR-10 dataset and a 0.30% increase in accuracy for models on the ATLAS dataset. Modifying the activation functions in architecture of pre-trained models lead to improved overall accuracy.
翻訳日:2024-10-31 23:47:07 公開日:2024-10-09
# 半順序データのプライベートカウント

Privately Counting Partially Ordered Data ( http://arxiv.org/abs/2410.06881v1 )

ライセンス: Link先を確認
Matthew Joseph, Mónica Ribero, Alexander Yu, (参考訳) 各データポイントが部分順序を満たす$d$ビットからなる場合、差分プライベートカウントを考える。 私たちの主な技術的貢献は問題固有の$K$-normメカニズムで、時間内に$O(d^2)$を実行します。 実験により、問題の部分順序により、我々の解は、既存の純粋に微分プライベートなメカニズムを支配しており、その誤差を桁違いに減らすことができることが示された。

We consider differentially private counting when each data point consists of $d$ bits satisfying a partial order. Our main technical contribution is a problem-specific $K$-norm mechanism that runs in time $O(d^2)$. Experiments show that, depending on the partial order in question, our solution dominates existing pure differentially private mechanisms, and can reduce their error by an order of magnitude or more.
翻訳日:2024-10-31 23:47:07 公開日:2024-10-09
# $\ell^p$-Lossesに基づく分散分布推定のための適応的再分級プロトコル

Adaptive Refinement Protocols for Distributed Distribution Estimation under $\ell^p$-Losses ( http://arxiv.org/abs/2410.06884v1 )

ライセンス: Link先を確認
Deheng Yuan, Tao Guo, Zhongyi Huang, (参考訳) 分散端末が複数の独立したサンプルを持ち、サンプルを記述するために限られたビット数を使用する場合、$\ell^p$損失の下での離散分布の通信制約付き推定を考える。 我々は、ほとんどのパラメーター系における問題の最小値の最適値を得る。 最適値が$p=2$の肘効果が明らかである。 最適率を示すために,まず評価プロトコルを設計し,そを実現する。 これらのプロトコルの鍵となる要素は適応的な改善機構の導入であり、これはまず部分的な情報によって粗い見積もりを生成し、その後、粗い見積もりによって導かれるステップで洗練された見積もりを確立する。 このプロトコルは、連続的な精細化、サンプル圧縮、しきい値設定の手法を利用して、パラメータの異なる状態における最適なレートを達成する。 プロトコルの最適性は、互換性の低いミニマックス境界を導出することによって示される。

Consider the communication-constrained estimation of discrete distributions under $\ell^p$ losses, where each distributed terminal holds multiple independent samples and uses limited number of bits to describe the samples. We obtain the minimax optimal rates of the problem in most parameter regimes. An elbow effect of the optimal rates at $p=2$ is clearly identified. To show the optimal rates, we first design estimation protocols to achieve them. The key ingredient of these protocols is to introduce adaptive refinement mechanisms, which first generate rough estimate by partial information and then establish refined estimate in subsequent steps guided by the rough estimate. The protocols leverage successive refinement, sample compression and thresholding methods to achieve the optimal rates in different parameter regimes. The optimality of the protocols is shown by deriving compatible minimax lower bounds.
翻訳日:2024-10-31 23:47:07 公開日:2024-10-09
# FltLM: 効果的な文脈フィルタリングと理解のための対話型長文大言語モデル

FltLM: An Intergrated Long-Context Large Language Model for Effective Context Filtering and Understanding ( http://arxiv.org/abs/2410.06886v1 )

ライセンス: Link先を確認
Jingyang Deng, Zhengyang Shen, Boyang Wang, Lixin Su, Suqi Cheng, Ying Nie, Junfeng Wang, Dawei Yin, Jinwen Ma, (参考訳) LLM(Long-Context Large Language Models)の開発は、長い文書や複数のコーパスにまたがるテキストデータの処理を容易にすることで、自然言語処理を著しく進歩させた。 しかし、Long-Context LLMは依然として2つの重要な課題に直面している: 重要な中コンテキスト情報が見逃されがちな中間現象の損失と、過度に拡張されたコンテキストのためにモデルが焦点を逸脱する混乱問題。 これらの課題に対処するために,複数文書質問応答(QA)タスクにおけるモデルの有効性を高める,新しいLong-Context LLMであるContext Filtering Language Model (FltLM)を提案する。 具体的には、FltLMは、コンテキストフィルタをソフトマスク機構で革新的に組み込んでおり、関係のないコンテンツを特定し、動的に排除し、関連する情報に集中して理解と推論を改善する。 我々のアプローチは、これらの2つの課題を緩和するだけでなく、1つのフォワードパスでモデルが便利に動作できるようにする。 実験の結果、FltLMは複雑なQAシナリオにおいて教師付き微調整および検索に基づく手法よりも優れており、より正確で信頼性の高い長文自然言語理解アプリケーションにとって有望なソリューションであることが示唆された。

The development of Long-Context Large Language Models (LLMs) has markedly advanced natural language processing by facilitating the process of textual data across long documents and multiple corpora. However, Long-Context LLMs still face two critical challenges: The lost in the middle phenomenon, where crucial middle-context information is likely to be missed, and the distraction issue that the models lose focus due to overly extended contexts. To address these challenges, we propose the Context Filtering Language Model (FltLM), a novel integrated Long-Context LLM which enhances the ability of the model on multi-document question-answering (QA) tasks. Specifically, FltLM innovatively incorporates a context filter with a soft mask mechanism, identifying and dynamically excluding irrelevant content to concentrate on pertinent information for better comprehension and reasoning. Our approach not only mitigates these two challenges, but also enables the model to operate conveniently in a single forward pass. Experimental results demonstrate that FltLM significantly outperforms supervised fine-tuning and retrieval-based methods in complex QA scenarios, suggesting a promising solution for more accurate and reliable long-context natural language understanding applications.
翻訳日:2024-10-31 23:47:07 公開日:2024-10-09
# 限られたラベル付きデータを用いた医用画像分割のための最良シーケンス転送経路の選択

Selecting the Best Sequential Transfer Path for Medical Image Segmentation with Limited Labeled Data ( http://arxiv.org/abs/2410.06892v1 )

ライセンス: Link先を確認
Jingyun Yang, Jingge Wang, Guoqing Zhang, Yang Li, (参考訳) 医用画像処理分野は、注釈付データ不足の重大な問題にしばしば遭遇する。 トランスファーラーニングがソリューションとして登場したが、適切なソースタスクを選択し、ターゲットタスクに効果的に知識を移す方法はまだ難しい。 そこで本研究では,医療画像に適したタスク親和性尺度を用いた新しいシーケンシャルトランスファー方式を提案する。 医用画像分割作業の特徴を考慮し,タスク間の画像とラベルの類似性を分析し,タスク親和性スコアを計算し,タスク間の関連性を評価する。 そこで我々は、適切なソースタスクを選択して、中間ソースタスクを組み込んで、徐々にドメインの不一致を狭め、転送コストを最小化することで、効果的なシーケンシャルトランスファー戦略を開発する。 これにより、与えられた目標タスクに対して、最も優れたシーケンシャルな転送パスが特定される。 FeTS 2022, iSeg-2019, WMHの3つのMRI医学データセットに対する大規模な実験により, 最適なソース配列を見つけるための方法の有効性が示された。 1つのソースタスクからの直接転送と比較すると、シーケンシャル転送の結果は目標タスクのパフォーマンスを大幅に向上させ、セグメンテーションダイススコア(特にFeTS 2022では6.00%)の平均2.58%のゲインを達成した。 コードはgitリポジトリで入手できる。

The medical image processing field often encounters the critical issue of scarce annotated data. Transfer learning has emerged as a solution, yet how to select an adequate source task and effectively transfer the knowledge to the target task remains challenging. To address this, we propose a novel sequential transfer scheme with a task affinity metric tailored for medical images. Considering the characteristics of medical image segmentation tasks, we analyze the image and label similarity between tasks and compute the task affinity scores, which assess the relatedness among tasks. Based on this, we select appropriate source tasks and develop an effective sequential transfer strategy by incorporating intermediate source tasks to gradually narrow the domain discrepancy and minimize the transfer cost. Thereby we identify the best sequential transfer path for the given target task. Extensive experiments on three MRI medical datasets, FeTS 2022, iSeg-2019, and WMH, demonstrate the efficacy of our method in finding the best source sequence. Compared with directly transferring from a single source task, the sequential transfer results underline a significant improvement in target task performance, achieving an average of 2.58% gain in terms of segmentation Dice score, notably, 6.00% for FeTS 2022. Code is available at the git repository.
翻訳日:2024-10-31 23:47:07 公開日:2024-10-09
# 半教師付きLiDARセマンティックセマンティックセグメンテーションのための時空間相関からの学習

Learning from Spatio-temporal Correlation for Semi-Supervised LiDAR Semantic Segmentation ( http://arxiv.org/abs/2410.06893v1 )

ライセンス: Link先を確認
Seungho Lee, Hwijeong Lee, Hyunjung Shim, (参考訳) 半教師付きLiDARセグメンテーション(SSLS)問題,特に低予算シナリオにおける課題に対処する。 低予算SSLSの2つの大きな問題は、未ラベルデータに対する品質の悪い擬似ラベルと、地平線と擬似ラベルの間の大きな不均衡による性能低下である。 この不均衡は、悪質なトレーニングサイクルにつながります。 これらの課題を克服するために、我々は、時間的に隣接したLiDARスキャン間のかなりの重複を認識することで、時空間前処理を利用する。 本稿では,隣接ラベルデータとのセマンティック一貫性を利用して,ラベルなしデータに対する高精度な擬似ラベルを生成する,近接ラベル推定手法を提案する。 さらに,最も近い未ラベルスキャンから擬似ラベルを段階的に拡張することにより,動的クラスに関連付けられたエラーを大幅に低減する。 さらに、データ不均衡による性能劣化を軽減するために、二重ブランチ構造を用いる。 実験結果から,低予算設定 (<= 5%) では顕著な性能を示し,通常の予算設定 (5~50%) では有意義な改善が見られた。 最後に, 半教師付きLiDARセグメンテーションにおけるSemanticKITTIとnuScenesに関する最新の結果を得た。 5%のラベル付きデータしか持たないため、完全に監督されたデータと競合する結果が得られる。 さらに、100%ラベル付きデータ (75.2%) で、nuScenesのラベル付きデータ (76.0%) の20%しか使用していない。 コードはhttps://github.com/halbielee/PLEで公開されている。

We address the challenges of the semi-supervised LiDAR segmentation (SSLS) problem, particularly in low-budget scenarios. The two main issues in low-budget SSLS are the poor-quality pseudo-labels for unlabeled data, and the performance drops due to the significant imbalance between ground-truth and pseudo-labels. This imbalance leads to a vicious training cycle. To overcome these challenges, we leverage the spatio-temporal prior by recognizing the substantial overlap between temporally adjacent LiDAR scans. We propose a proximity-based label estimation, which generates highly accurate pseudo-labels for unlabeled data by utilizing semantic consistency with adjacent labeled data. Additionally, we enhance this method by progressively expanding the pseudo-labels from the nearest unlabeled scans, which helps significantly reduce errors linked to dynamic classes. Additionally, we employ a dual-branch structure to mitigate performance degradation caused by data imbalance. Experimental results demonstrate remarkable performance in low-budget settings (i.e., <= 5%) and meaningful improvements in normal budget settings (i.e., 5 - 50%). Finally, our method has achieved new state-of-the-art results on SemanticKITTI and nuScenes in semi-supervised LiDAR segmentation. With only 5% labeled data, it offers competitive results against fully-supervised counterparts. Moreover, it surpasses the performance of the previous state-of-the-art at 100% labeled data (75.2%) using only 20% of labeled data (76.0%) on nuScenes. The code is available on https://github.com/halbielee/PLE.
翻訳日:2024-10-31 23:47:07 公開日:2024-10-09
# Average Certified Radiusは無作為な平滑化の指標である

Average Certified Radius is a Poor Metric for Randomized Smoothing ( http://arxiv.org/abs/2410.06895v1 )

ライセンス: Link先を確認
Chenhao Sun, Yuhao Mao, Mark Niklas Müller, Martin Vechev, (参考訳) ランダムな平滑化は、敵の攻撃に対して証明された堅牢性を保証するための一般的なアプローチであり、非常に活発な研究領域となっている。 過去数年間、平均認定半径(ACR)は、フィールドにおける手法の比較と進捗の追跡において最も重要な指標として現れてきた。 しかし,本研究では,ランダムな平滑化によって得られるロバスト性保証を評価するための指標として,ACRが極めて貧弱であることを示す。 理論的には、自明な分類器が任意に大きいACRを持つことができるだけでなく、ACRは硬いものよりも簡単なサンプルに対する改善に対してはるかに敏感であることを示す。 実験により、ACRを改善する既存のトレーニング戦略により、ハードサンプルに対するモデルの堅牢性が低下することが確認された。 さらに,簡単なサンプルに注目することで,ACRの増加を効果的に再現できることを示す。 これらの戦略は, 一般的なデータ分布に対するロバスト性を無視しつつも, 厳密なサンプルを明示的に破棄し, 認証された半径でデータセットを再考し, 簡単なサンプルを極端に最適化し, 最先端のACRを実現する戦略を開発する。 全体として、ACRはフィールドに強い望ましくないバイアスをもたらしており、より優れたメトリクスがランダムな平滑化を評価するために必要である。

Randomized smoothing is a popular approach for providing certified robustness guarantees against adversarial attacks, and has become a very active area of research. Over the past years, the average certified radius (ACR) has emerged as the single most important metric for comparing methods and tracking progress in the field. However, in this work, we show that ACR is an exceptionally poor metric for evaluating robustness guarantees provided by randomized smoothing. We theoretically show not only that a trivial classifier can have arbitrarily large ACR, but also that ACR is much more sensitive to improvements on easy samples than on hard ones. Empirically, we confirm that existing training strategies that improve ACR reduce the model's robustness on hard samples. Further, we show that by focusing on easy samples, we can effectively replicate the increase in ACR. We develop strategies, including explicitly discarding hard samples, reweighing the dataset with certified radius, and extreme optimization for easy samples, to achieve state-of-the-art ACR, although these strategies ignore robustness for the general data distribution. Overall, our results suggest that ACR has introduced a strong undesired bias to the field, and better metrics are required to holistically evaluate randomized smoothing.
翻訳日:2024-10-31 23:37:22 公開日:2024-10-09
# 10億個のパラメータを持つ低資源言語のための生成モデル

Generative Model for Less-Resourced Language with 1 billion parameters ( http://arxiv.org/abs/2410.06898v1 )

ライセンス: Link先を確認
Domen Vreš, Martin Božič, Aljaž Potočnik, Tomaž Martinčič, Marko Robnik-Šikonja, (参考訳) 大規模言語モデル(LLM)は、現代の自然言語処理の基盤となる基盤である。 英語、例えばChatGPT、Llama、Falcon、Mistralなど、多くの商用およびオープンソースのLCMが存在する。 これらのモデルは、主に英語のテキストで訓練されているため、低リソース言語や社会の流布や知識は表面的である。 本稿では、低リソース言語のための大規模生成言語モデルの開発について述べる。 GaMS 1B - 10億のパラメータを持つスロベニアの生成モデル。 我々は,スロベニア語,クロアチア語,英語に適応した新しいトークンライザを開発し,組込み初期化法 FOCUS と WECHSEL を用いて英語 OPT モデルから埋め込みを転送した。 我々は,Slovene ベンチマークスイートと生成文単純化タスク SENTA から,いくつかの分類データセットを用いてモデルを評価した。 私たちは、まだインストラクションチューニングされていないモデルについて、数発のインコンテクスト学習しか使用していません。 分類タスクでは、このモードでは、生成モデルは既存のSlovene BERTモデルより遅れ、特定のタスクのために微調整される。 文の単純化タスクでは、GaMSモデルはGPT-3.5-Turboモデルと同等または優れたパフォーマンスを達成する。

Large language models (LLMs) are a basic infrastructure for modern natural language processing. Many commercial and open-source LLMs exist for English, e.g., ChatGPT, Llama, Falcon, and Mistral. As these models are trained on mostly English texts, their fluency and knowledge of low-resource languages and societies are superficial. We present the development of large generative language models for a less-resourced language. GaMS 1B - Generative Model for Slovene with 1 billion parameters was created by continuing pretraining of the existing English OPT model. We developed a new tokenizer adapted to Slovene, Croatian, and English languages and used embedding initialization methods FOCUS and WECHSEL to transfer the embeddings from the English OPT model. We evaluate our models on several classification datasets from the Slovene suite of benchmarks and generative sentence simplification task SENTA. We only used a few-shot in-context learning of our models, which are not yet instruction-tuned. For classification tasks, in this mode, the generative models lag behind the existing Slovene BERT-type models fine-tuned for specific tasks. On a sentence simplification task, the GaMS models achieve comparable or better performance than the GPT-3.5-Turbo model.
翻訳日:2024-10-31 23:37:22 公開日:2024-10-09
# マルチループSQUIDによるボソニックモードの非線形性に関する研究

Engineering the Nonlinearity of Bosonic Modes with a Multi-loop SQUID ( http://arxiv.org/abs/2410.06904v1 )

ライセンス: Link先を確認
Ziyue Hua, Yifang Xu, Weiting Wang, Yuwei Ma, Jie Zhou, Weizhou Cai, Hao Ai, Yu-xi Liu, Ming Li, Chang-Ling Zou, Luyan Sun, (参考訳) 工学的な高次非線形性は、低次項を抑えながら、ボゾン系の量子誤差補正と状態制御には不可欠である。 本稿では、超伝導回路内の複数のループにフラックスをチューニングすることで任意の非線形性を実現することができる非線形工学型マルチループSQUID(NEMS)の一般的なフレームワークを紹介する。 本研究では, 純立方体, クォート, クインティック相互作用を抑制された寄生的結合で選択的に構築するNEMSデバイスの具体例を示す。 超伝導デバイスの非線形ハミルトニアンを調整するための新しい道を開くことで、量子計算、シミュレーション、センシングに応用可能なボソニックモードの精密かつ精密な操作が可能になる。

Engineering high-order nonlinearities while suppressing lower-order terms is crucial for quantum error correction and state control in bosonic systems, yet it remains an outstanding challenge. Here, we introduce a general framework of Nonlinearity-Engineered Multi-loop SQUID (NEMS) device, enabling the realization of arbitrary nonlinearities by tuning fluxes in multiple loops within superconducting circuits. We demonstrate specific examples of NEMS devices that selectively engineer pure cubic, quartic, and quintic interactions with suppressed parasitic couplings, showing great promise for realizing Kerr-cat bias-preserving {\scshape cnot} gates and stabilizing four-leg cat qubits. By opening new avenues for tailoring nonlinear Hamiltonians of superconducting devices, this work enables sophisticated and precise manipulation of bosonic modes, with potential applications in quantum computation, simulation, and sensing.
翻訳日:2024-10-31 23:37:21 公開日:2024-10-09
# モビリティのための計画と拡散の組み合わせと未知のダイナミクス

Combining Planning and Diffusion for Mobility with Unknown Dynamics ( http://arxiv.org/abs/2410.06911v1 )

ライセンス: Link先を確認
Yajvan Ravan, Zhutian Yang, Tao Chen, Tomás Lozano-Pérez, Leslie Pack Kaelbling, (参考訳) 倉庫内のカートのような)長い地平線上で大きな物体を操作することは、デプロイ可能なロボットシステムにとって必須のスキルである。 大きなオブジェクトは、牽引中のオブジェクトとの同時操作、ナビゲーション、移動を含む移動操作を必要とする。 多くの現実世界では、オフィスチェア(回転するベースと5つのキャスターホイール)と地面との相互作用など、オブジェクトのダイナミクスは非常に複雑です。 本稿では,ロボットの動作が部分的に未知な長軸操作問題に対する階層的アルゴリズムを提案する。 拡散に基づく行動クローニングは未知のダイナミクスを持つ短時間水平問題に対して非常に有効であるので,問題を抽象的な高レベル障害物対応動作計画問題に分解し,経路点列を生成する。 我々は,短水平相対運動拡散ポリシーを用いて,経路点を逐次的に達成する。 私たちは、オフィスの椅子を押したり引っ張ったりしなければならないSpotロボットにモバイル操作ポリシーを訓練します。 我々の階層的な操作方針は、特に地平線が大きくなると、厳密な調整対象(それぞれ10ラン中8ラン(逆0ランと5ラン))を想定した長距離のデモンストレーションやモーションプランニングで訓練された拡散政策と比較して、一貫して改善される。 重要なことは、学習したポリシーは、新しいレイアウト、グリップ、椅子、フロアリングに一般化され、さらなるトレーニングをすることなく、より多くの摩擦を引き起こす。 Project Page: https://yravan.github.io/plannerorderedpolicy/

Manipulation of large objects over long horizons (such as carts in a warehouse) is an essential skill for deployable robotic systems. Large objects require mobile manipulation which involves simultaneous manipulation, navigation, and movement with the object in tow. In many real-world situations, object dynamics are incredibly complex, such as the interaction of an office chair (with a rotating base and five caster wheels) and the ground. We present a hierarchical algorithm for long-horizon robot manipulation problems in which the dynamics are partially unknown. We observe that diffusion-based behavior cloning is highly effective for short-horizon problems with unknown dynamics, so we decompose the problem into an abstract high-level, obstacle-aware motion-planning problem that produces a waypoint sequence. We use a short-horizon, relative-motion diffusion policy to achieve the waypoints in sequence. We train mobile manipulation policies on a Spot robot that has to push and pull an office chair. Our hierarchical manipulation policy performs consistently better, especially when the horizon increases, compared to a diffusion policy trained on long-horizon demonstrations or motion planning assuming a rigidly-attached object (success rate of 8 (versus 0 and 5 respectively) out of 10 runs). Importantly, our learned policy generalizes to new layouts, grasps, chairs, and flooring that induces more friction, without any further training, showing promise for other complex mobile manipulation problems. Project Page: https://yravan.github.io/plannerorderedpolicy/
翻訳日:2024-10-31 23:37:21 公開日:2024-10-09
# 双曲型視覚言語モデルのための構成包含学習

Compositional Entailment Learning for Hyperbolic Vision-Language Models ( http://arxiv.org/abs/2410.06912v1 )

ライセンス: Link先を確認
Avik Pal, Max van Spengler, Guido Maria D'Amely di Melendugno, Alessandro Flaborea, Fabio Galasso, Pascal Mettes, (参考訳) 画像テキスト表現学習は視覚言語モデルの基盤となり、画像とテキスト記述のペアは、共有埋め込み空間において対照的に整列される。 視覚的およびテキスト的概念は自然に階層的であるため、近年の研究では、双曲空間が高ポテンシャル多様体として機能し、強力な下流性能を持つ視覚言語表現を学習できることが示されている。 この研究では、画像とテキストのペアを超越して、双曲的埋め込みの自然的階層性を完全に活用する方法を初めて示す。 双曲型視覚言語モデルのための構成的包摂学習を提案する。 この考え方は、画像は文によって記述されるだけでなく、それ自体が複数のオブジェクトボックスの合成であり、それぞれが独自のテキスト記述を持つ、というものである。 このような情報は、文から名詞を抽出し、公開されている局所的接地モデルを用いて自由に得ることができる。 画像, 画像ボックス, テキスト記述を, コントラスト的, エンタテインメント的目的によって階層的に整理する方法を示す。 何百万もの画像テキストペアで訓練された双曲型視覚言語モデルに対する実証的評価は、提案手法が従来のユークリッドCLIP学習よりも優れており、最近の双曲型代替手法では、ゼロショットと検索の一般化が向上し、明らかに階層的性能が向上していることを示している。

Image-text representation learning forms a cornerstone in vision-language models, where pairs of images and textual descriptions are contrastively aligned in a shared embedding space. Since visual and textual concepts are naturally hierarchical, recent work has shown that hyperbolic space can serve as a high-potential manifold to learn vision-language representation with strong downstream performance. In this work, for the first time we show how to fully leverage the innate hierarchical nature of hyperbolic embeddings by looking beyond individual image-text pairs. We propose Compositional Entailment Learning for hyperbolic vision-language models. The idea is that an image is not only described by a sentence but is itself a composition of multiple object boxes, each with their own textual description. Such information can be obtained freely by extracting nouns from sentences and using openly available localized grounding models. We show how to hierarchically organize images, image boxes, and their textual descriptions through contrastive and entailment-based objectives. Empirical evaluation on a hyperbolic vision-language model trained with millions of image-text pairs shows that the proposed compositional learning approach outperforms conventional Euclidean CLIP learning, as well as recent hyperbolic alternatives, with better zero-shot and retrieval generalization and clearly stronger hierarchical performance.
翻訳日:2024-10-31 23:37:21 公開日:2024-10-09
# 対流に踏み込む前の流れを生かして : 拒否意識学習のための知識フローの確実性

Utilize the Flow before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning ( http://arxiv.org/abs/2410.06913v1 )

ライセンス: Link先を確認
Runchuan Zhu, Zhipeng Ma, Jiang Wu, Junyuan Gao, Jiaqi Wang, Dahua Lin, Conghui He, (参考訳) Refusal-Aware Instruction Tuning (RAIT) により、Large Language Models (LLM) は未知の質問に答えることを拒否できる。 学習データ中の未知の質問の応答を「私は知らない」などの反応を拒否するために修正することにより、RAITはLLMの信頼性を高め、幻覚を減少させる。 一般に、RAITは初期LSM応答の正しさに基づいてトレーニングサンプルを変更する。 しかし、この粗末なアプローチは、LLMが正しく答えられる可能性のある質問に答えることを過剰に拒否する可能性がある。 本稿では, RAITデータが正当性基準のみに基づいて構築され, LLMの特徴空間の類似したサンプルが異なるラベルに割り当てられることによって, 静的衝突が発生する。 動的衝突は、従来の未知の質問を未知の質問に変換する微調整中のLLMの知識状態の変化に起因するが、最初のLLMに基づいて構築されたトレーニングデータは変わらぬままである。 これらの対立は、訓練されたLLMが既知の質問を未知のものとして誤分類し、過度に拒絶する原因となる。 この問題に対処するため,CRaFT (Certainty Represented Knowledge Flow for Refusal-Aware Instructions Construction) を提案する。 CRaFTは2つの主要なコントリビューションに重点を置いている。 まず、データを選択的にフィルタリングし、修正し、静的なコンフリクトを減らすために、応答の確実性も追加する。 第2に,LLMの知識状態の変化を特徴付けるための予備的リハーサルトレーニングを実施し,微調整過程における動的衝突を軽減する。 オープンエンド質問応答と複数選択質問課題について広範な実験を行った。 実験の結果, CRaFT は RAIT プロセスにおける LLM の全体的な性能を向上できることがわかった。 ソースコードとトレーニングデータはGithubで公開される。

Refusal-Aware Instruction Tuning (RAIT) enables Large Language Models (LLMs) to refuse to answer unknown questions. By modifying responses of unknown questions in the training data to refusal responses such as "I don't know", RAIT enhances the reliability of LLMs and reduces their hallucination. Generally, RAIT modifies training samples based on the correctness of the initial LLM's response. However, this crude approach can cause LLMs to excessively refuse answering questions they could have correctly answered, the problem we call over-refusal. In this paper, we explore two primary causes of over-refusal: Static conflict emerges when the RAIT data is constructed solely on correctness criteria, causing similar samples in the LLM's feature space to be assigned different labels (original vs. modified "I don't know"). Dynamic conflict occurs due to the changes of LLM's knowledge state during fine-tuning, which transforms previous unknown questions into knowns, while the training data, which is constructed based on the initial LLM, remains unchanged. These conflicts cause the trained LLM to misclassify known questions as unknown, resulting in over-refusal. To address this issue, we introduce Certainty Represented Knowledge Flow for Refusal-Aware Instructions Construction (CRaFT). CRaFT centers on two main contributions: First, we additionally incorporate response certainty to selectively filter and modify data, reducing static conflicts. Second, we implement preliminary rehearsal training to characterize changes in the LLM's knowledge state, which helps mitigate dynamic conflicts during the fine-tuning process. We conducted extensive experiments on open-ended question answering and multiple-choice question task. Experiment results show that CRaFT can improve LLM's overall performance during the RAIT process. Source code and training data will be released at Github.
翻訳日:2024-10-31 23:37:21 公開日:2024-10-09
# SWIFT: LLM推論高速化のためのオンザフライ自己投機的デコーディング

SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration ( http://arxiv.org/abs/2410.06916v1 )

ライセンス: Link先を確認
Heming Xia, Yongqi Li, Jun Zhang, Cunxiao Du, Wenjie Li, (参考訳) 投機的復号化(SD)は、生成品質を損なうことなく、大規模言語モデル(LLM)の推論を加速するパラダイムとして広く使われている。 最初は複数のトークンを効率的にドラフトするためにコンパクトモデルを使用し、次にターゲットのLSMを使用して並列に検証する。 この手法は目覚ましいスピードアップを達成しているが、既存のアプローチのほとんどは効果的なドラフトモデルを構築するために追加のパラメータや広範な訓練を必要とするため、異なるLLMやタスクにまたがる適用性を制限している。 この制限に対処するために、我々は、コンパクトなドラフトモデルとして、ターゲットLLMの中間層をスキップする層スキッピングを備えた、新しいプラグアンドプレイ型SDソリューションを探索する。 分析の結果,LLMは層間空間とタスク固有の性質によって,自己加速の可能性が非常に高いことが明らかとなった。 これらの知見に基づいて,LLMの中間層を適応的に選択して推論中にスキップする,オンザフライ自己投機的復号アルゴリズムであるSWIFTを導入する。 SWIFTは補助モデルや追加の訓練を必要とせず、多様な入力データストリーム間でLLM推論を加速するためのプラグアンドプレイソリューションである。 SWIFTが生成したテキストの元の分布を保ちながら1.3x-1.6x以上のスピードアップを達成可能であることを示す。

Speculative decoding (SD) has emerged as a widely used paradigm to accelerate the inference of large language models (LLMs) without compromising generation quality. It works by first employing a compact model to draft multiple tokens efficiently and then using the target LLM to verify them in parallel. While this technique has achieved notable speedups, most existing approaches necessitate either additional parameters or extensive training to construct effective draft models, thereby restricting their applicability across different LLMs and tasks. To address this limitation, we explore a novel plug-and-play SD solution with layer-skipping, which skips intermediate layers of the target LLM as the compact draft model. Our analysis reveals that LLMs exhibit great potential for self-acceleration through layer sparsity and the task-specific nature of this sparsity. Building on these insights, we introduce SWIFT, an on-the-fly self-speculative decoding algorithm that adaptively selects intermediate layers of LLMs to skip during inference. SWIFT does not require auxiliary models or additional training, making it a plug-and-play solution for accelerating LLM inference across diverse input data streams. Our extensive experiments across a wide range of models and downstream tasks demonstrate that SWIFT can achieve over a 1.3x-1.6x speedup while preserving the original distribution of the generated text.
翻訳日:2024-10-31 23:37:21 公開日:2024-10-09
# オン・マニフォールド・インセプタビリティの結果としての逆の脆弱性

Adversarial Vulnerability as a Consequence of On-Manifold Inseparibility ( http://arxiv.org/abs/2410.06921v1 )

ライセンス: Link先を確認
Rajdeep Haldar, Yue Xing, Qifan Song, Guang Lin, (参考訳) 最近の研究は、冗長なデータ次元が敵の脆弱性の源であることを理論的、実証的に示している。 しかし、その逆は実際には成り立たないようで、次元縮小技術を用いることは、期待したほど頑丈さを示さない。 本研究では,データ分布を低次元多様体として,オン/オフ多様体の向きを規定する高/低分散特徴を持つ分類タスクを考察する。 我々は、勾配降下のような広範に使われている一階最適化器の条件が悪くなることにより、クリーントレーニングはオフマンド方向の収束不良を経験すると主張している。 弱い収束は、データセットがオンマンフォールド方向で分離できない場合に、敵対的脆弱性の源として機能する。 本稿では,ロジスティック回帰の理論的結果と,検討したデータ分布上の2層線形ネットワークについて述べる。 さらに, 条件の悪さを軽減し, 堅牢性の向上につながる2次法を提唱する。 我々は,長期トレーニングと2次手法の活用によるクリーントレーニングにおいて,実験を行い,大幅な堅牢性向上を示す。 さらに、バッチノーム層を含めることで、そのような堅牢性の向上を妨げている。 これは、従来のニューラルネットワークとバッチ正規化ニューラルネットワークの暗黙のバイアスが異なるためです。

Recent works have shown theoretically and empirically that redundant data dimensions are a source of adversarial vulnerability. However, the inverse doesn't seem to hold in practice; employing dimension-reduction techniques doesn't exhibit robustness as expected. In this work, we consider classification tasks and characterize the data distribution as a low-dimensional manifold, with high/low variance features defining the on/off manifold direction. We argue that clean training experiences poor convergence in the off-manifold direction caused by the ill-conditioning in widely used first-order optimizers like gradient descent. The poor convergence then acts as a source of adversarial vulnerability when the dataset is inseparable in the on-manifold direction. We provide theoretical results for logistic regression and a 2-layer linear network on the considered data distribution. Furthermore, we advocate using second-order methods that are immune to ill-conditioning and lead to better robustness. We perform experiments and exhibit tremendous robustness improvements in clean training through long training and the employment of second-order methods, corroborating our framework. Additionally, we find the inclusion of batch-norm layers hinders such robustness gains. We attribute this to differing implicit biases between traditional and batch-normalized neural networks.
翻訳日:2024-10-31 23:37:21 公開日:2024-10-09
# 不完全データセットを用いた機械学習による外惑星質量の推定

Estimating Exoplanet Mass using Machine Learning on Incomplete Datasets ( http://arxiv.org/abs/2410.06922v1 )

ライセンス: Link先を確認
Florian Lalande, Elizabeth Tasker, Kenji Doya, (参考訳) 地球外惑星アーカイブは、発見された太陽系外惑星の性質に関する情報の驚くべき資源であるが、統計学的分析は欠落した値の数によって制限されている。 最も有益なバルク特性の1つは惑星の質量であり、測定値のない発見惑星の70%以上で測定することは特に困難である。 我々は、多次元不完全データセットを用いて惑星質量を計算するための欠落特性を推定できる5つの異なる機械学習アルゴリズムの性能を比較した。 結果は、アーカイブの部分的な部分集合を6つの惑星の性質の完全なセットで使用し、全ての惑星の発見を6つの惑星特性と8つの惑星特性の不完全なセットで活用する場合に比較される。 我々は、追加データが不完全である場合でも、計算結果がより多くのデータで改善され、どの性質が知られているかに関わらず、どの惑星に対しても質量予測が可能であることを発見した。 我々の好むアルゴリズムは、新しく開発された$k$NN$\times$KDEであり、命令された特性に対して確率分布を返すことができる。 この分布の形状は、アルゴリズムの信頼性のレベルを示し、また太陽系外惑星の人口層を知らせる。 本研究では, トランジット法とラジアル速度法のいずれかを用いて発見を行った惑星の一連の例を用いて, 分布を解釈する方法を実証する。 最後に、$k$NN$\times$KDEの生成能力を検証し、アーカイブに基づいて惑星の大規模な合成集団を作成し、多次元空間における特性群から惑星の潜在的カテゴリを特定する。 すべてのコードはオープンソースである。

The exoplanet archive is an incredible resource of information on the properties of discovered extrasolar planets, but statistical analysis has been limited by the number of missing values. One of the most informative bulk properties is planet mass, which is particularly challenging to measure with more than 70\% of discovered planets with no measured value. We compare the capabilities of five different machine learning algorithms that can utilize multidimensional incomplete datasets to estimate missing properties for imputing planet mass. The results are compared when using a partial subset of the archive with a complete set of six planet properties, and where all planet discoveries are leveraged in an incomplete set of six and eight planet properties. We find that imputation results improve with more data even when the additional data is incomplete, and allows a mass prediction for any planet regardless of which properties are known. Our favored algorithm is the newly developed $k$NN$\times$KDE, which can return a probability distribution for the imputed properties. The shape of this distribution can indicate the algorithm's level of confidence, and also inform on the underlying demographics of the exoplanet population. We demonstrate how the distributions can be interpreted with a series of examples for planets where the discovery was made with either the transit method, or radial velocity method. Finally, we test the generative capability of the $k$NN$\times$KDE to create a large synthetic population of planets based on the archive, and identify potential categories of planets from groups of properties in the multidimensional space. All codes are Open Source.
翻訳日:2024-10-31 23:37:21 公開日:2024-10-09
# 大規模言語モデルを用いた行動戦略の再現と拡張実験

Reproducing and Extending Experiments in Behavioral Strategy with Large Language Models ( http://arxiv.org/abs/2410.06932v1 )

ライセンス: Link先を確認
Daniel Albert, Stephan Billinger, (参考訳) 本研究では, LLMエージェントを行動戦略研究の新しいアプローチとして提案し, シミュレーションと実験室実験を補完し, 意思決定における認知過程の理解を促進する。 具体的には,大規模言語モデル(LLM)生成エージェントを用いた行動戦略の人間実験室実験を再現し,LLMエージェントが観察された人間の行動とどのように比較されるかを検討する。 以上の結果から,LLMエージェントは,人間に匹敵する探索行動や意思決定を効果的に再現できることが示唆された。 実験を拡張して、LLMエージェントのシミュレートされた「思考」を分析し、より先見的な思考が、富を最大化するために探索よりも搾取に関係していることを発見した。 我々は、この新しいアプローチが行動戦略研究にどのように活用され、限界に対処できるかを示す。

In this study, we propose LLM agents as a novel approach in behavioral strategy research, complementing simulations and laboratory experiments to advance our understanding of cognitive processes in decision-making. Specifically, we reproduce a human laboratory experiment in behavioral strategy using large language model (LLM) generated agents and investigate how LLM agents compare to observed human behavior. Our results show that LLM agents effectively reproduce search behavior and decision-making comparable to humans. Extending our experiment, we analyze LLM agents' simulated "thoughts," discovering that more forward-looking thoughts correlate with favoring exploitation over exploration to maximize wealth. We show how this new approach can be leveraged in behavioral strategy research and address limitations.
翻訳日:2024-10-31 23:27:23 公開日:2024-10-09
# 技術指標の統合と分類モデルによるBitcoin市場の動向予測

Predicting Bitcoin Market Trends with Enhanced Technical Indicator Integration and Classification Models ( http://arxiv.org/abs/2410.06935v1 )

ライセンス: Link先を確認
Abdelatif Hafid, Mohamed Rahouti, Linglong Kong, Maad Ebrahim, Mohamed Adel Serhani, (参考訳) 暗号通貨と株式市場が急速に拡大するにつれ、利益の可能性が高まっているため、トレーディングは投資家にとってますます魅力的になっている。 しかし、金融市場は複雑で動的であるため、正確な価格予測は重要な課題である。 暗号通貨市場の不安定な性質は、トレーダーや投資家が決定を下すのをさらに困難にしている。 本研究では,暗号市場の方向性を予測するための分類に基づく機械学習モデルを提案する。 このモデルは、移動平均収束ディバージェンス、相対強度指数、ボリンジャーバンドなど、歴史的なデータと重要な技術指標を用いて訓練されている。 当社のアプローチを、Bitcoinの閉鎖価格に関する実証的研究で説明します。 混乱行列と受信器動作特性曲線を含むいくつかのシミュレーションがモデルの性能評価に用いられ、その結果、購入・販売信号の精度は92%以上である。 これらの結果は、機械学習モデルが投資家や暗号通貨のトレーダーが、非常に不安定な市場で賢明かつインフォームドな決定を下すのにどのように役立つかを示している。

Thanks to the high potential for profit, trading has become increasingly attractive to investors as the cryptocurrency and stock markets rapidly expand. However, because financial markets are intricate and dynamic, accurately predicting prices remains a significant challenge. The volatile nature of the cryptocurrency market makes it even harder for traders and investors to make decisions. This study presents a machine learning model based on classification to forecast the direction of the cryptocurrency market, i.e., whether prices will increase or decrease. The model is trained using historical data and important technical indicators such as the Moving Average Convergence Divergence, the Relative Strength Index, and Bollinger Bands. We illustrate our approach with an empirical study of the closing price of Bitcoin. Several simulations, including a confusion matrix and Receiver Operating Characteristic curve, are used to assess the model's performance, and the results show a buy/sell signal accuracy of over 92%. These findings demonstrate how machine learning models can assist investors and traders of cryptocurrencies in making wise/informed decisions in a very volatile market.
翻訳日:2024-10-31 23:27:23 公開日:2024-10-09
# 共分散表現とガウス濃度不等式の初等証明

A covariance representation and an elementary proof of the Gaussian concentration inequality ( http://arxiv.org/abs/2410.06937v1 )

ライセンス: Link先を確認
Christian Houdré, (参考訳) 特徴関数に基づく共分散表現を用いて、ガウス濃度の不等式に関する既知の初等証明を示す。 他にもいくつかのアプリケーションが紹介されている。

Via a covariance representation based on characteristic functions, a known elementary proof of the Gaussian concentration inequality is presented. A few other applications are briefly mentioned.
翻訳日:2024-10-31 23:27:23 公開日:2024-10-09
# 進化のための表現アライメント:教育用拡散トランスフォーマーは想像より簡単

Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think ( http://arxiv.org/abs/2410.06940v1 )

ライセンス: Link先を確認
Sihyun Yu, Sangkyung Kwak, Huiwon Jang, Jongheon Jeong, Jonathan Huang, Jinwoo Shin, Saining Xie, (参考訳) 近年の研究では、(生成的な)拡散モデルにおける認知過程がモデル内で意味のある(差別的な)表現を誘導できることが示されている。 生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある、と我々は主張する。 さらに、拡散モデルのみに頼らずに、高品質な外部視覚表現を組み込むことで、学習をより容易にすることができる。 本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。 我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。 例えば、本手法は、400K未満のステップで7MステップでトレーニングされたSiT-XLモデルの性能(分類子なしガイダンスなしで)をマッチングすることにより、SiTトレーニングを17.5$\times$で高速化することができる。 最終生成品質の面では,FID=1.42の指導間隔を付与した分類器フリーガイダンスを用いて,最先端のFID=1.42を実現する。

Recent studies have shown that the denoising process in (generative) diffusion models can induce meaningful (discriminative) representations inside the model, though the quality of these representations still lags behind those learned through recent self-supervised learning methods. We argue that one main bottleneck in training large-scale diffusion models for generation lies in effectively learning these representations. Moreover, training can be made easier by incorporating high-quality external visual representations, rather than relying solely on the diffusion models to learn them independently. We study this by introducing a straightforward regularization called REPresentation Alignment (REPA), which aligns the projections of noisy input hidden states in denoising networks with clean image representations obtained from external, pretrained visual encoders. The results are striking: our simple strategy yields significant improvements in both training efficiency and generation quality when applied to popular diffusion and flow-based transformers, such as DiTs and SiTs. For instance, our method can speed up SiT training by over 17.5$\times$, matching the performance (without classifier-free guidance) of a SiT-XL model trained for 7M steps in less than 400K steps. In terms of final generation quality, our approach achieves state-of-the-art results of FID=1.42 using classifier-free guidance with the guidance interval.
翻訳日:2024-10-31 23:27:23 公開日:2024-10-09
# WorkflowHub: 計算ワークフローのレジストリ

WorkflowHub: a registry for computational workflows ( http://arxiv.org/abs/2410.06941v1 )

ライセンス: Link先を確認
Ove Johan Ragnar Gustafsson, Sean R. Wilkinson, Finn Bacall, Luca Pireddu, Stian Soiland-Reyes, Simone Leo, Stuart Owen, Nick Juty, José M. Fernández, Björn Grüning, Tom Brown, Hervé Ménager, Salvador Capella-Gutierrez, Frederik Coppens, Carole Goble, (参考訳) 計算ワークフローの人気の高まりは、反復的でスケーラブルなデータ処理、処理ノウハウの共有、透過的な方法の必要性によって引き起こされている。 分析と処理手順の説明の両方が組み合わさったように、ワークフローは再現可能で、再利用可能で、適応可能で、利用可能であるべきです。 ワークフロー共有は、不要な再発明を減らし、再利用を促進し、非専門家のベストプラクティス分析へのアクセスを増やし、生産性を高める機会を提供する。 実際にワークフローは、利用可能なワークフローエンジンとエコシステムの多様性と、ワークフロー共有がまだ研究プラクティスの一部ではないため、散在し、見つけるのが難しくなっている。 WorkflowHubは、コミュニティリポジトリにリンクするすべての計算ワークフローの統一レジストリを提供し、ワークフローライフサイクルとワークフローの発見、アクセス、相互運用、再利用(FAIR)の両方をサポートする。 さまざまなプラットフォーム、サービス、外部レジストリとの相互運用により、WorkflowHubは、ワークフロー共有のサポート、クレジットの明示的に割り当て、FAIRnessの強化、学術的な成果物としてのワークフローの促進によって、価値が追加される。 このレジストリにはグローバルなリーチがあり、何百もの研究組織が関与し、700以上のワークフローが登録されている。

The rising popularity of computational workflows is driven by the need for repetitive and scalable data processing, sharing of processing know-how, and transparent methods. As both combined records of analysis and descriptions of processing steps, workflows should be reproducible, reusable, adaptable, and available. Workflow sharing presents opportunities to reduce unnecessary reinvention, promote reuse, increase access to best practice analyses for non-experts, and increase productivity. In reality, workflows are scattered and difficult to find, in part due to the diversity of available workflow engines and ecosystems, and because workflow sharing is not yet part of research practice. WorkflowHub provides a unified registry for all computational workflows that links to community repositories, and supports both the workflow lifecycle and making workflows findable, accessible, interoperable, and reusable (FAIR). By interoperating with diverse platforms, services, and external registries, WorkflowHub adds value by supporting workflow sharing, explicitly assigning credit, enhancing FAIRness, and promoting workflows as scholarly artefacts. The registry has a global reach, with hundreds of research organisations involved, and more than 700 workflows registered.
翻訳日:2024-10-31 23:27:23 公開日:2024-10-09
# AutoFeedback: 効率的かつ正確なAPI要求生成のためのLLMベースのフレームワーク

AutoFeedback: An LLM-based Framework for Efficient and Accurate API Request Generation ( http://arxiv.org/abs/2410.06943v1 )

ライセンス: Link先を確認
Huanxi Liu, Jiaqi Liao, Dawei Feng, Kele Xu, Huaimin Wang, (参考訳) 大規模言語モデル(LLM)は、主にタスク完了効率を高めるためにAPIリクエストを生成することで、外部ツールを活用する。 API要求生成の精度は、LLMがタスクを遂行する能力を大幅に決定します。 LLM内に固有の幻覚があるため、適切なAPI要求を効率的に正確に生成することは困難である。 現在の研究は、LLMベースのAPIリクエスト生成を容易にするために、プロンプトベースのフィードバックを使用している。 しかし、既存の手法には事実情報が欠如しており、詳細は不十分である。 これらの問題に対処するため,我々は,静的走査コンポーネント (SSC) と動的解析コンポーネント (DAC) を備えた,LLMベースのAPI要求生成フレームワークであるAutoFeedbackを提案する。 SSCは、APIリクエストで検出されたエラーを擬似事実としてフィードバックに組み込んで、事実情報を豊かにする。 DACはAPIドキュメントから情報を取得し、フィードバックの詳細なレベルを向上する。 この2つのコンポーネントに基づいて、Autofeedbackは、LLMによるAPIリクエストを生成するプロセス中に、2つのフィードバックループを実装している。 大規模な実験では、APIリクエスト生成の精度を大幅に改善し、インタラクションコストを削減している。 AutoFeedbackは、実際のAPIデータセット上で100.00\%の精度を実現し、GPT-3.5 Turboとのインタラクションコストを23.44\%、GPT-4 Turboを11.85\%削減する。

Large Language Models (LLMs) leverage external tools primarily through generating the API request to enhance task completion efficiency. The accuracy of API request generation significantly determines the capability of LLMs to accomplish tasks. Due to the inherent hallucinations within the LLM, it is difficult to efficiently and accurately generate the correct API request. Current research uses prompt-based feedback to facilitate the LLM-based API request generation. However, existing methods lack factual information and are insufficiently detailed. To address these issues, we propose AutoFeedback, an LLM-based framework for efficient and accurate API request generation, with a Static Scanning Component (SSC) and a Dynamic Analysis Component (DAC). SSC incorporates errors detected in the API requests as pseudo-facts into the feedback, enriching the factual information. DAC retrieves information from API documentation, enhancing the level of detail in feedback. Based on this two components, Autofeedback implementes two feedback loops during the process of generating API requests by the LLM. Extensive experiments demonstrate that it significantly improves accuracy of API request generation and reduces the interaction cost. AutoFeedback achieves an accuracy of 100.00\% on a real-world API dataset and reduces the cost of interaction with GPT-3.5 Turbo by 23.44\%, and GPT-4 Turbo by 11.85\%.
翻訳日:2024-10-31 23:27:23 公開日:2024-10-09
# CSSL: 相対的に自由な語順と形態素的にリッチな低資源言語に基づく依存構文解析のための対照的な自己教師付き学習

CSSL: Contrastive Self-Supervised Learning for Dependency Parsing on Relatively Free Word Ordered and Morphologically Rich Low Resource Languages ( http://arxiv.org/abs/2410.06944v1 )

ライセンス: Link先を確認
Pretam Ray, Jivnesh Sandhan, Amrith Krishna, Pawan Goyal, (参考訳) ニューラル依存解析は、低資源形態的にリッチな言語で顕著な性能を達成した。 また、形態学的に豊かな言語が比較的自由な語順を示すこともよく研究されている。 モデルは、形態的にリッチな言語の比較的自由な単語順序の性質を利用して、単語順の変動に頑健になるか? 本研究では、7つの比較的自由な単語順序言語上でのグラフベースの構文解析アーキテクチャの堅牢性について検討する。 本研究は,データ拡張や位置エンコーディングの削除など,重要な変更の精査に重点を置いている。 そこで本研究では,単語順の変動に頑健なモデルを実現するための,対照的な自己教師付き学習手法を提案する。 さらに,提案手法は, UAS/LASスコアの基準値と比較すると, 7つの比較的自由な単語順序言語において, 3.03/2.95ポイントの実質的な増加を示す。

Neural dependency parsing has achieved remarkable performance for low resource morphologically rich languages. It has also been well-studied that morphologically rich languages exhibit relatively free word order. This prompts a fundamental investigation: Is there a way to enhance dependency parsing performance, making the model robust to word order variations utilizing the relatively free word order nature of morphologically rich languages? In this work, we examine the robustness of graph-based parsing architectures on 7 relatively free word order languages. We focus on scrutinizing essential modifications such as data augmentation and the removal of position encoding required to adapt these architectures accordingly. To this end, we propose a contrastive self-supervised learning method to make the model robust to word order variations. Furthermore, our proposed modification demonstrates a substantial average gain of 3.03/2.95 points in 7 relatively free word order languages, as measured by the UAS/LAS Score metric when compared to the best performing baseline.
翻訳日:2024-10-31 23:27:23 公開日:2024-10-09
# グラフニューラルネットワークの忠実解釈

Faithful Interpretation for Graph Neural Networks ( http://arxiv.org/abs/2410.06950v1 )

ライセンス: Link先を確認
Lijie Hu, Tianhao Huang, Lu Yu, Wanyu Lin, Tianhang Zheng, Di Wang, (参考訳) 現在,グラフアテンションネットワーク(GAT)やグラフトランスフォーマー(GT)など,グラフニューラルネットワーク(GNN)の注目度が高まっている。 それは、彼らが提供するパフォーマンスが向上するだけでなく、しばしば調査不可能と見なされるモデル行動に対してより巧妙な論理的根拠を提供する能力によってもたらされる。 しかしながら、注意に基づくGNNは、追加のエッジやノードなどの要因を含むトレーニングフェーズとテストフェーズの両方で様々な摂動の源となる場合、解釈可能性の不安定さを証明している。 本稿では,FGAI(Fhithful Graph Attention-based Interpretation)という新しい概念を導入することにより,この問題に対する解決策を提案する。 特に、FGAIは、安定性と解釈に対する感受性と最終的な出力分布に関する4つの重要な特性を持っている。 この概念に基づいて,本論文では,標準注意に基づくGNNのアドホックな修正と見なせるFGAIを得るための効率的な手法を提案する。 提案手法を検証するために,グラフ解釈評価に適した2つの新しい指標を提案する。 実験により,FGAIは優れた安定性を示し,様々な形態の摂動やランダム性の下での注意の解釈可能性を維持しており,FGAIをより忠実で信頼性の高い説明ツールであることが示された。

Currently, attention mechanisms have garnered increasing attention in Graph Neural Networks (GNNs), such as Graph Attention Networks (GATs) and Graph Transformers (GTs). It is not only due to the commendable boost in performance they offer but also its capacity to provide a more lucid rationale for model behaviors, which are often viewed as inscrutable. However, Attention-based GNNs have demonstrated instability in interpretability when subjected to various sources of perturbations during both training and testing phases, including factors like additional edges or nodes. In this paper, we propose a solution to this problem by introducing a novel notion called Faithful Graph Attention-based Interpretation (FGAI). In particular, FGAI has four crucial properties regarding stability and sensitivity to interpretation and final output distribution. Built upon this notion, we propose an efficient methodology for obtaining FGAI, which can be viewed as an ad hoc modification to the canonical Attention-based GNNs. To validate our proposed solution, we introduce two novel metrics tailored for graph interpretation assessment. Experimental results demonstrate that FGAI exhibits superior stability and preserves the interpretability of attention under various forms of perturbations and randomness, which makes FGAI a more faithful and reliable explanation tool.
翻訳日:2024-10-31 23:27:23 公開日:2024-10-09
# SVBM:AdaBoostと残留接続による分類性能の向上

Support Vector Boosting Machine (SVBM): Enhancing Classification Performance with AdaBoost and Residual Connections ( http://arxiv.org/abs/2410.06957v1 )

ライセンス: Link先を確認
Junbo Jacob Lian, (参考訳) 従来のブースティングアルゴリズムでは、誤分類されたトレーニングサンプルに焦点が当てられ、学習過程の難しさに基づいて、その重要性が強調される。 AdaBoostフレームワークでは、標準のSupport Vector Machine(SVM)を弱い学習者として使用することで、エラーサンプルに集中することでモデルパフォーマンスを向上させることができるが、このアプローチには大きな課題が伴う。 具体的には、SVMは安定性と堅牢性を特徴とし、ブースティングパラダイムに適合するために不安定化を必要とする可能性があるため、前回のイテレーションの重み付け結果に依存するため、パフォーマンスを制限できる。 これらの課題に対処するために,SVMアルゴリズムと残差接続技術を組み合わせた新しいサブサンプリングプロセスであるSupport Vector Boosting Machine (SVBM)を提案する。 本手法は,現行モデルの予測値と先行ラウンドからの出力値の両方を考慮し,サンプル重み付けを更新し,有効間隔制御を実現する。 SVBMフレームワークは複雑な決定境界を形成する能力を高め、分類性能を向上させる。 SVBMのMATLABソースコードはhttps://github.com/junbolian/SVBMでアクセスできる。

In traditional boosting algorithms, the focus on misclassified training samples emphasizes their importance based on difficulty during the learning process. While using a standard Support Vector Machine (SVM) as a weak learner in an AdaBoost framework can enhance model performance by concentrating on error samples, this approach introduces significant challenges. Specifically, SVMs, characterized by their stability and robustness, may require destabilization to fit the boosting paradigm, which in turn can constrain performance due to reliance on the weighted results from preceding iterations. To address these challenges, we propose the Support Vector Boosting Machine (SVBM), which integrates a novel subsampling process with SVM algorithms and residual connection techniques. This method updates sample weights by considering both the current model's predictions and the outputs from prior rounds, allowing for effective sparsity control. The SVBM framework enhances the ability to form complex decision boundaries, thereby improving classification performance. The MATLAB source code for SVBM can be accessed at https://github.com/junbolian/SVBM.
翻訳日:2024-10-31 23:27:23 公開日:2024-10-09
# 合成選好データを用いた自己発声大言語モデル

Self-Boosting Large Language Models with Synthetic Preference Data ( http://arxiv.org/abs/2410.06961v1 )

ライセンス: Link先を確認
Qingxiu Dong, Li Dong, Xingxing Zhang, Zhifang Sui, Furu Wei, (参考訳) 人間の好みに合わせて、Large Language Models (LLMs) は、正直で無害で役に立つ応答を生成するために大きく進歩している。 しかし, 高品質な嗜好データ収集は資源集約的かつ創造性に富むプロセスであり, 特にLCMの継続的な改善に寄与する。 モデルアライメントのための合成選好データを活用する自己ブースティングパラダイムであるSynPOを紹介する。 SynPOは、自己プロンプト生成器が多様なプロンプトを生成し、応答改善器が徐々にモデル応答を洗練させる反復機構を採用している。 このアプローチは、LSMに対して、自身の出力に対する生成的報酬を自律的に学習するように訓練し、プロンプトと人間の好みの大規模なアノテーションを不要にする。 4回のSynPOイテレーションの後、Llama3-8BとMistral-7Bは、AlpacaEval 2.0とArenaHardで22.1%以上の勝利率向上を達成した。 同時に、SynPOは様々なタスクにおけるLLMの一般的な性能を改善し、よく認識されたOpen LLMリーダーボードの平均スコアが3.2から5.0に向上した。

Through alignment with human preferences, Large Language Models (LLMs) have advanced significantly in generating honest, harmless, and helpful responses. However, collecting high-quality preference data is a resource-intensive and creativity-demanding process, especially for the continual improvement of LLMs. We introduce SynPO, a self-boosting paradigm that leverages synthetic preference data for model alignment. SynPO employs an iterative mechanism wherein a self-prompt generator creates diverse prompts, and a response improver refines model responses progressively. This approach trains LLMs to autonomously learn the generative rewards for their own outputs and eliminates the need for large-scale annotation of prompts and human preferences. After four SynPO iterations, Llama3-8B and Mistral-7B show significant enhancements in instruction-following abilities, achieving over 22.1% win rate improvements on AlpacaEval 2.0 and ArenaHard. Simultaneously, SynPO improves the general performance of LLMs on various tasks, validated by a 3.2 to 5.0 average score increase on the well-recognized Open LLM leaderboard.
翻訳日:2024-10-31 23:17:38 公開日:2024-10-09
# ヒューマンモデルアライメント改善のための因子レベル設定の解明

Uncovering Factor Level Preferences to Improve Human-Model Alignment ( http://arxiv.org/abs/2410.06965v1 )

ライセンス: Link先を確認
Juhyun Oh, Eunsu Kim, Jiseon Kim, Wenda Xu, Inha Cha, William Yang Wang, Alice Oh, (参考訳) LLM(Large Language Model)のアライメントの進歩にもかかわらず、LLMの好みの背景にある理由を理解することは、望ましい行動と実際の行動のギャップを埋めるのに不可欠である。 LLMは、特定の書き方を好むか、過度に冗長なアウトプットを生成するなど、人間の好みから逸脱するバイアスや傾向を示すことが多い。 しかしながら、現在の選好アライメント評価手法は、粗い粒度の比較に依存するため、説明可能性に欠けることが多い。 これを解決するために,特定要因の影響を解明し,定量化する新しいフレームワーク PROFILE (PRObing Factors of InfLuence for Explainability) を紹介する。 PROFILE の因子レベル分析は、モデル改善の方向性に関する洞察を与えながら、人間のモデルアライメントと不適応の背後にある 'なぜ' なのかを説明している。 PROFILEを用いて、要約、有用な応答生成、文書ベースの質問応答という3つのタスクにまたがる人間とLLMの嗜好を分析する。 我々の因子レベルの分析では、生成タスクにおける人間とLLMの選好とはかなりの相違が示され、一方、LLMは評価タスクにおける人間の選好と強く一致している。 本研究では,不整合要因への対処や世代評価ギャップの活用など,要因レベルの洞察の活用が,人間の嗜好との整合性を改善することを実証する。 この研究は、説明可能な嗜好分析の重要性を強調し、PROFILEが有意義なトレーニング信号を提供する可能性を強調し、人間のモデルアライメントをさらに改善させる。

Despite advancements in Large Language Model (LLM) alignment, understanding the reasons behind LLM preferences remains crucial for bridging the gap between desired and actual behavior. LLMs often exhibit biases or tendencies that diverge from human preferences, such as favoring certain writing styles or producing overly verbose outputs. However, current methods for evaluating preference alignment often lack explainability, relying on coarse-grained comparisons. To address this, we introduce PROFILE (PRObing Factors of InfLuence for Explainability), a novel framework that uncovers and quantifies the influence of specific factors driving preferences. PROFILE's factor level analysis explains the 'why' behind human-model alignment and misalignment, offering insights into the direction of model improvement. We apply PROFILE to analyze human and LLM preferences across three tasks: summarization, helpful response generation, and document-based question-answering. Our factor level analysis reveals a substantial discrepancy between human and LLM preferences in generation tasks, whereas LLMs show strong alignment with human preferences in evaluation tasks. We demonstrate how leveraging factor level insights, including addressing misaligned factors or exploiting the generation-evaluation gap, can improve alignment with human preferences. This work underscores the importance of explainable preference analysis and highlights PROFILE's potential to provide valuable training signals, driving further improvements in human-model alignment.
翻訳日:2024-10-31 23:17:38 公開日:2024-10-09
# パラメータシフト則によるフォトニック量子回路の変分法

Variational approach to photonic quantum circuits via the parameter shift rule ( http://arxiv.org/abs/2410.06966v1 )

ライセンス: Link先を確認
Francesco Hoch, Giovanni Rodari, Taira Giordani, Paul Perret, Nicolò Spagnolo, Gonzalo Carvacho, Ciro Pentangelo, Simone Piacentini, Andrea Crespi, Francesco Ceccarelli, Roberto Osellame, Fabio Sciarrino, (参考訳) ノイズの多い中間スケール量子コンピュータの時代において、変分量子アルゴリズムは、関心のある問題を解くための最も有効なアプローチの1つである。 これらのアルゴリズムはパラメータ化量子回路を訓練し、古典的なオプティマイザを用いて最小化する必要があるコスト関数で符号化された特定のタスクを実行する。 この文脈では、再構成可能な集積光学に基づくフォトニックプラットフォームが、変分アルゴリズムの実装における主要なプラットフォームの一つとして現れる。 量子ビットに基づく量子計算の回路モデルでは、変分回路を訓練するためにパラメータシフトルールが登場し、量子回路の出力における多くの関数の導関数の正確な計算を可能にし、勾配降下に基づく古典的最適化アルゴリズムの使用の可能性を広げた。 本稿では、ボソンサンプリングのパラダイムに基づく再構成可能な光線形回路のパラメータシフト則の定式化を導出する。 これにより、部分的識別可能性や状態の混合性といった実験ノイズの一般的なタイプを自然に埋め込むことができ、弾力性のあるアプローチが得られます。 また、変分パラメータ上の積分の計算についても同様の規則を提示する。 最後に、再構成可能な6モード統一干渉計で処理された単一光子状態の変分アルゴリズムを実験的に検証する手法を開発した。 具体的には、固有解器とユニバーサル・ノートゲートの両方のフォトニックプラットフォーム上での変分実装にフォトニックパラメータシフトルールを適用する。

In the current era of noisy intermediate-scale quantum computers, variational quantum algorithms represent one of the most viable approaches for their application to solve tasks of interest. These algorithms train a parameterized quantum circuit to execute a specific task encoded in a cost function that needs to be minimized using a classical optimizer. In this context, photonic platforms based on reconfigurable integrated optics appear as one of the prominent platforms for the implementation of variational algorithms. In the circuital model of quantum computation based on qubits, to train variational circuits, the parameter shift rule came into being, which allows for the exact calculation of the derivatives of many functions at the output of a quantum circuit, opening up the possibility of using classical optimisation algorithms based on gradient descent. In this paper, we derive a formulation of the parameter shift rule for reconfigurable optical linear circuits based on the Boson Sampling paradigm. This allows us to naturally embed the common types of experimental noise, such as partial distinguishability, and mixedness of the states, thus obtaining a resilient approach. We also present similar rules for the computations of integrals over the variational parameters. Finally, we employ the developed approach to experimentally test variational algorithms with single-photon states processed in a reconfigurable 6-mode universal integrated interferometer. Specifically, we apply the photonic parameter shift rules to the variational implementation, on a photonic platform, of both an eigensolver and a Universal-Not gate.
翻訳日:2024-10-31 23:17:37 公開日:2024-10-09
# $\texttt{ModSCAN}$: 視覚と言語モダリティによる大規模視覚言語モデルにおけるステレオタイプバイアスの測定

$\texttt{ModSCAN}$: Measuring Stereotypical Bias in Large Vision-Language Models from Vision and Language Modalities ( http://arxiv.org/abs/2410.06967v1 )

ライセンス: Link先を確認
Yukun Jiang, Zheng Li, Xinyue Shen, Yugeng Liu, Michael Backes, Yang Zhang, (参考訳) 大規模視覚言語モデル(LVLM)は、様々な分野で急速に開発され、広く利用されているが、モデルにおける(潜在的)ステレオタイプバイアスは、ほとんど探索されていない。 本研究では、先駆的な測定フレームワークである$\texttt{ModSCAN}$を、視覚と言語の両方からLVLM内のステレオタイプバイアスである$\underline{Mod}$alitiesに提示する。 $\texttt{ModSCAN}$は、3種類のシナリオ(職業、記述子、ペルソナ特性)で典型的な2つのステレオタイプ属性(性別と人種)に関するステレオタイプバイアスを調べる。 私たちの発見は 1) 現在普及しているLVLMは,最も偏りのあるモデルとしてCogVLMが出現し,重要なステレオタイプバイアスを示す。 2 この定型バイアスは、トレーニングデータセット及び事前学習モデルにおける固有のバイアスに由来する可能性がある。 3) 視覚・言語モダリティの両面から, 特定のプロンプト接頭辞の利用は, ステレオタイプバイアスの低減に有効である。 我々は,LVLMにおけるステレオタイプバイアスの理解と対処の基盤として,我々の研究が役立つと信じている。

Large vision-language models (LVLMs) have been rapidly developed and widely used in various fields, but the (potential) stereotypical bias in the model is largely unexplored. In this study, we present a pioneering measurement framework, $\texttt{ModSCAN}$, to $\underline{SCAN}$ the stereotypical bias within LVLMs from both vision and language $\underline{Mod}$alities. $\texttt{ModSCAN}$ examines stereotypical biases with respect to two typical stereotypical attributes (gender and race) across three kinds of scenarios: occupations, descriptors, and persona traits. Our findings suggest that 1) the currently popular LVLMs show significant stereotype biases, with CogVLM emerging as the most biased model; 2) these stereotypical biases may stem from the inherent biases in the training dataset and pre-trained models; 3) the utilization of specific prompt prefixes (from both vision and language modalities) performs well in reducing stereotypical biases. We believe our work can serve as the foundation for understanding and addressing stereotypical bias in LVLMs.
翻訳日:2024-10-31 23:17:37 公開日:2024-10-09
# DLGNet: 化学反応のための方向線グラフによるハイパーエッジ分類

DLGNet: Hyperedge Classification through Directed Line Graphs for Chemical Reactions ( http://arxiv.org/abs/2410.06969v1 )

ライセンス: Link先を確認
Stefano Fiorini, Giulia M. Bovolenta, Stefano Coniglio, Michele Ciavotta, Pietro Morerio, Michele Parrinello, Alessio Del Bue, (参考訳) グラフとハイパーグラフは、関心のあるエンティティ間の相互作用をモデル化するための強力な抽象化を提供し、いくつかの分野で成功したアプリケーションのおかげで、文学への関心が高まっている。 特に、化学や生物学などの分野、特に薬物発見や分子生成の分野で急速に拡大している。 成長速度の速い領域の1つは化学反応場であり、化学反応はハイパーグラフの方向のハイパーエッジとして自然に符号化される。 本稿では,DGL(Directed Line Graph)の表記法を導入することで,化学反応の分類問題に対処する。 その上に、DLG変換を介してハイパーグラフを操作するように設計された最初のスペクトルベースグラフニューラルネットワーク(GNN)である、ダイレクトライングラフネットワーク(DLGNet)を構築した。 DLGNetの基礎は、DLG表現のおかげでハイパーグラフの有向ハイパーエッジ内で発生する相互作用の方向性をコンパクトに符号化する、新しいエルミート行列であるダイレクトライングラフラプラシアンである。 Directed Line Graph Laplacian は固有値分解を認め、正の半定値であるなど、多くの望ましい性質を享受しており、スペクトルベース GNN で採用するのに適している。 化学反応データセットに関する広範な実験を通して、DGLNetは既存のアプローチを著しく上回り、実世界のデータセットの収集によって平均相対-パーセント差の改善が33.01%、最大改善が37.71%であることを示す。

Graphs and hypergraphs provide powerful abstractions for modeling interactions among a set of entities of interest and have been attracting a growing interest in the literature thanks to many successful applications in several fields. In particular, they are rapidly expanding in domains such as chemistry and biology, especially in the areas of drug discovery and molecule generation. One of the areas witnessing the fasted growth is the chemical reactions field, where chemical reactions can be naturally encoded as directed hyperedges of a hypergraph. In this paper, we address the chemical reaction classification problem by introducing the notation of a Directed Line Graph (DGL) associated with a given directed hypergraph. On top of it, we build the Directed Line Graph Network (DLGNet), the first spectral-based Graph Neural Network (GNN) expressly designed to operate on a hypergraph via its DLG transformation. The foundation of DLGNet is a novel Hermitian matrix, the Directed Line Graph Laplacian, which compactly encodes the directionality of the interactions taking place within the directed hyperedges of the hypergraph thanks to the DLG representation. The Directed Line Graph Laplacian enjoys many desirable properties, including admitting an eigenvalue decomposition and being positive semidefinite, which make it well-suited for its adoption within a spectral-based GNN. Through extensive experiments on chemical reaction datasets, we show that DGLNet significantly outperforms the existing approaches, achieving on a collection of real-world datasets an average relative-percentage-difference improvement of 33.01%, with a maximum improvement of 37.71%.
翻訳日:2024-10-31 23:17:37 公開日:2024-10-09
# パーソナルインテリジェンスシステム UniLM:Maray Nusantara のためのハイブリッドオンデバイス小型言語モデルとサーバベース大規模言語モデル

Personal Intelligence System UniLM: Hybrid On-Device Small Language Model and Server-Based Large Language Model for Malay Nusantara ( http://arxiv.org/abs/2410.06973v1 )

ライセンス: Link先を確認
Azree Nazri, Olalekan Agbolade, Faisal Aziz, (参考訳) 計算資源やデータ資源が限られている文脈では、特にマレー語の特定のニーズに対処する場合、高リソースの言語モデルは不適切であることがしばしば証明される。 本稿では,デバイス上のモデルとサーバベースのモデルの両方を効率的に統合するパーソナリティ・インテリジェンス・システムを提案する。 このシステムはSLiM-34Mをオンデバイス処理に、メモリと電力使用量に最適化し、MANYAK-1.3Bをサーバベースのタスクに組み込んでおり、スケーラブルで高性能な言語処理を可能にしている。 これらのモデルは、機械翻訳、質問回答、IndoMMLUの翻訳など、様々なタスクにおいて重要な結果をもたらす。 特に注目すべきは、SLiM-34Mは2倍の事前学習トークンを使用しながら、他のLLMと比較して高い精度の向上を達成する能力である。 この研究は、SLiM-34M と MANYAK-1.3B のユニークなオーケストレーションを備えたマレー語のための資源効率の良いモデルの開発に寄与し、効果的な言語モデルを構築するために大規模な計算資源が必要であるという一般的な仮定に挑戦する。

In contexts with limited computational and data resources, high-resource language models often prove inadequate, particularly when addressing the specific needs of Malay languages. This paper introduces a Personal Intelligence System designed to efficiently integrate both on-device and server-based models. The system incorporates SLiM-34M for on-device processing, optimized for low memory and power usage, and MANYAK-1.3B for server-based tasks, allowing for scalable, high-performance language processing. The models achieve significant results across various tasks, such as machine translation, question-answering, and translate IndoMMLU. Particularly noteworthy is SLiM-34M's ability to achieve a high improvement in accuracy compared to other LLMs while using 2 times fewer pre-training tokens. This work challenges the prevailing assumption that large-scale computational resources are necessary to build effective language models, contributing to the development of resource-efficient models for the Malay language with the unique orchestration between SLiM-34M and MANYAK-1.3B.
翻訳日:2024-10-31 23:17:37 公開日:2024-10-09
# Dense Neural Network を用いたハイブリット最適化法による悪性リンパ腫の診断

Diagnosis of Malignant Lymphoma Cancer Using Hybrid Optimized Techniques Based on Dense Neural Networks ( http://arxiv.org/abs/2410.06974v1 )

ライセンス: Link先を確認
Salah A. Aly, Ali Bakhiet, Mazen Balat, (参考訳) 病理組織像の微妙な形態的相違により, リンパ節腫の診断, 特に亜型の鑑別は, 有効治療に重要であるが, いまだに困難である。 本研究では,特徴抽出のためのDenseNet201と分類のためのDense Neural Network(DNN)を組み合わせたハイブリッドディープラーニングフレームワークを提案する。 このモデルは、慢性リンパ性白血病(CLL)、Follicular Lymphoma(FL)、Mantle Cell Lymphoma(MCL)の3種類のリンパ腫にまたがる15,000枚の生検画像のデータセットに基づいて訓練された。 提案手法は99.33\%の精度を達成し,精度とモデル解釈性の両方に有意な改善が認められた。 精度、リコール、F1スコア、ROC-AUCによる包括的評価は、モデルの堅牢性と臨床応用の可能性を示している。 このフレームワークは、オンコロジーにおける診断精度と効率を改善するスケーラブルなソリューションを提供する。

Lymphoma diagnosis, particularly distinguishing between subtypes, is critical for effective treatment but remains challenging due to the subtle morphological differences in histopathological images. This study presents a novel hybrid deep learning framework that combines DenseNet201 for feature extraction with a Dense Neural Network (DNN) for classification, optimized using the Harris Hawks Optimization (HHO) algorithm. The model was trained on a dataset of 15,000 biopsy images, spanning three lymphoma subtypes: Chronic Lymphocytic Leukemia (CLL), Follicular Lymphoma (FL), and Mantle Cell Lymphoma (MCL). Our approach achieved a testing accuracy of 99.33\%, demonstrating significant improvements in both accuracy and model interpretability. Comprehensive evaluation using precision, recall, F1-score, and ROC-AUC underscores the model's robustness and potential for clinical adoption. This framework offers a scalable solution for improving diagnostic accuracy and efficiency in oncology.
翻訳日:2024-10-31 23:17:37 公開日:2024-10-09
# AdaRC: テスト時間におけるグラフ構造シフトの緩和

AdaRC: Mitigating Graph Structure Shifts during Test-Time ( http://arxiv.org/abs/2410.06976v1 )

ライセンス: Link先を確認
Wenxuan Bao, Zhichen Zeng, Zhining Liu, Hanghang Tong, Jingrui He, (参考訳) 強力なグラフニューラルネットワーク(GNN)は、分散シフトに対して脆弱であることが知られている。 近年、テスト時間適応(TTA)が注目されているのは、ソースドメインに再アクセスすることなく、事前学習されたモデルをターゲットドメインに適応できる能力である。 しかし、既存のTTAアルゴリズムは主に、サンプルが独立している視覚タスクの属性シフトのために設計されている。 これらの手法は、ソースグラフとターゲットグラフのノード接続が異なる構造シフトを経験するグラフデータにおいて、性能が良くない。 後者はノード表現の質を著しく低下させ、異なるノードカテゴリの境界を曖昧にします。 グラフにおける構造変化に対処するために,GNNにおけるホップ集約パラメータを調整することにより,構造変化への効果的かつ効率的な適応を目的とした,革新的なフレームワークであるAdaRCを提案する。 表現の質を高めるために,異なるノードカテゴリに対する異なるクラスタの形成を促進するために,予測インフォームドクラスタリング損失を設計する。 さらに、AdaRCは既存のTTAアルゴリズムとシームレスに統合され、属性シフトを効果的に扱うと同時に、構造と属性シフトの組み合わせによる全体的なパフォーマンスを向上させることができる。 我々は,AdaRCが合成データセットと実世界のデータセットの両方に与える影響を検証し,構造と属性のシフトの様々な組み合わせにおける頑健さを実証した。

Powerful as they are, graph neural networks (GNNs) are known to be vulnerable to distribution shifts. Recently, test-time adaptation (TTA) has attracted attention due to its ability to adapt a pre-trained model to a target domain without re-accessing the source domain. However, existing TTA algorithms are primarily designed for attribute shifts in vision tasks, where samples are independent. These methods perform poorly on graph data that experience structure shifts, where node connectivity differs between source and target graphs. We attribute this performance gap to the distinct impact of node attribute shifts versus graph structure shifts: the latter significantly degrades the quality of node representations and blurs the boundaries between different node categories. To address structure shifts in graphs, we propose AdaRC, an innovative framework designed for effective and efficient adaptation to structure shifts by adjusting the hop-aggregation parameters in GNNs. To enhance the representation quality, we design a prediction-informed clustering loss to encourage the formation of distinct clusters for different node categories. Additionally, AdaRC seamlessly integrates with existing TTA algorithms, allowing it to handle attribute shifts effectively while improving overall performance under combined structure and attribute shifts. We validate the effectiveness of AdaRC on both synthetic and real-world datasets, demonstrating its robustness across various combinations of structure and attribute shifts.
翻訳日:2024-10-31 23:17:37 公開日:2024-10-09
# No-U-Turnサンプリングの混合とガウス濃度の幾何学

Mixing of the No-U-Turn Sampler and the Geometry of Gaussian Concentration ( http://arxiv.org/abs/2410.06978v1 )

ライセンス: Link先を確認
Nawaf Bou-Rabee, Stefan Oberdörster, (参考訳) 標準ガウス測度の濃度領域で初期化されるNo-U-Turn Smpler (NUTS) の混合時間は、d^{1/4}$で、d$が次元である対数因子までスケールする。 このスケーリングはシャープになると予想されている。 この結果は、対象分布の幾何学的構造を利用する結合論に基づく。 具体的には、測定値の濃度は、高い確率で保たれるNUTSの局所適応遷移において顕著な均一性をもたらす。 この一様性は、NUTSをアクセプション/リジェクトマルコフ連鎖と解釈することで定式化され、より均一なアクセプション鎖の混合特性は解析的に抽出可能である。 さらに,本研究では,NUTSの経路長適応手順,特にループ動作に関する未発見の問題を明らかにする。

We prove that the mixing time of the No-U-Turn Sampler (NUTS), when initialized in the concentration region of the canonical Gaussian measure, scales as $d^{1/4}$, up to logarithmic factors, where $d$ is the dimension. This scaling is expected to be sharp. This result is based on a coupling argument that leverages the geometric structure of the target distribution. Specifically, concentration of measure results in a striking uniformity in NUTS' locally adapted transitions, which holds with high probability. This uniformity is formalized by interpreting NUTS as an accept/reject Markov chain, where the mixing properties for the more uniform accept chain are analytically tractable. Additionally, our analysis uncovers a previously unnoticed issue with the path length adaptation procedure of NUTS, specifically related to looping behavior, which we address in detail.
翻訳日:2024-10-31 23:17:37 公開日:2024-10-09
# スパースオートエンコーダが大規模言語モデル全体で普遍的な特徴空間を発見

Sparse Autoencoders Reveal Universal Feature Spaces Across Large Language Models ( http://arxiv.org/abs/2410.06981v1 )

ライセンス: Link先を確認
Michael Lan, Philip Torr, Austin Meek, Ashkan Khakzar, David Krueger, Fazl Barez, (参考訳) 大規模言語モデル(LLM)における特徴普遍性(特徴普遍性)について検討し,異なるモデルが中間層の潜在空間における概念をどのように表すかを理解することを目的とした研究分野である。 特徴普遍性を実証することで、潜在表現に関する発見が複数のモデルにまたがって一般化される。 しかし、LLMを横断する特徴を比較することは、個々のニューロンが異なる特徴よりも複数の特徴に対応することの多い多意味性のために困難である。 これにより、さまざまなモデルにまたがる機能を切り離し、一致させることが困難になる。 この問題に対処するために, スパースオートエンコーダ(SAE)を用いて, 個々の特徴に対応するニューロンにまたがるより解釈可能な空間にLSMのアクティベーションを変換する辞書学習法を用いる。 モデル間の特徴ニューロンをアクティベーション相関によりマッチングした後、Singular Value Canonical correlation Analysisのような表現空間類似度メトリクスを適用し、これらのSAE特徴を異なるLLMにわたって解析する。 実験により,SAE特徴空間の様々な LLM における顕著な類似性が明らかとなり,特徴普遍性を示す新たな証拠が得られた。

We investigate feature universality in large language models (LLMs), a research field that aims to understand how different models similarly represent concepts in the latent spaces of their intermediate layers. Demonstrating feature universality allows discoveries about latent representations to generalize across several models. However, comparing features across LLMs is challenging due to polysemanticity, in which individual neurons often correspond to multiple features rather than distinct ones. This makes it difficult to disentangle and match features across different models. To address this issue, we employ a method known as dictionary learning by using sparse autoencoders (SAEs) to transform LLM activations into more interpretable spaces spanned by neurons corresponding to individual features. After matching feature neurons across models via activation correlation, we apply representational space similarity metrics like Singular Value Canonical Correlation Analysis to analyze these SAE features across different LLMs. Our experiments reveal significant similarities in SAE feature spaces across various LLMs, providing new evidence for feature universality.
翻訳日:2024-10-31 23:07:19 公開日:2024-10-09
# 知識蒸留による構造中心ロバスト単分子深さ推定

Structure-Centric Robust Monocular Depth Estimation via Knowledge Distillation ( http://arxiv.org/abs/2410.06982v1 )

ライセンス: Link先を確認
Runze Chen, Haiyong Luo, Fang Zhao, Jingze Yu, Yupeng Jia, Juan Wang, Xuepeng Ma, (参考訳) 自己教師付き学習によって実現された単眼深度推定は、コンピュータビジョンにおける3次元知覚の重要な技術である。 しかし、悪天候、動きのぼやけ、夜間の照明条件の悪いシーンなど、現実世界のシナリオでは大きな課題に直面している。 本研究は, 単分子深度推定を, 深度構造整合性, 局所テクスチャの曖昧さ, 意味構造相関の3つのサブプロブレムに分割できることを明らかにする。 提案手法は, 構造中心の視点を取り入れ, セマンティクスと照明によって示されるシーン構造特性を活用することにより, 既存の自己教師型単眼深度推定モデルから干渉テクスチャへの非破壊性に対処する。 我々は,局所的なテクスチャへの過度な依存を低減し,パターンの欠落や干渉に対する堅牢性を向上するための新しいアプローチを考案した。 さらに、セマンティックエキスパートモデルを教師として組み込んで、学習可能な同型グラフを通してモデル間機能依存を構築し、セマンティックな構造的知識の集約を可能にする。 提案手法は, 公共の有害シナリオデータセットにまたがって, 最先端の単分子深度推定性能を実現する。 大規模なモデルエンジニアリングを必要とせずに、目立ったスケーラビリティと互換性を示す。 これは、様々な産業用途のモデルをカスタマイズする可能性を示している。

Monocular depth estimation, enabled by self-supervised learning, is a key technique for 3D perception in computer vision. However, it faces significant challenges in real-world scenarios, which encompass adverse weather variations, motion blur, as well as scenes with poor lighting conditions at night. Our research reveals that we can divide monocular depth estimation into three sub-problems: depth structure consistency, local texture disambiguation, and semantic-structural correlation. Our approach tackles the non-robustness of existing self-supervised monocular depth estimation models to interference textures by adopting a structure-centered perspective and utilizing the scene structure characteristics demonstrated by semantics and illumination. We devise a novel approach to reduce over-reliance on local textures, enhancing robustness against missing or interfering patterns. Additionally, we incorporate a semantic expert model as the teacher and construct inter-model feature dependencies via learnable isomorphic graphs to enable aggregation of semantic structural knowledge. Our approach achieves state-of-the-art out-of-distribution monocular depth estimation performance across a range of public adverse scenario datasets. It demonstrates notable scalability and compatibility, without necessitating extensive model engineering. This showcases the potential for customizing models for diverse industrial applications.
翻訳日:2024-10-31 23:07:19 公開日:2024-10-09
# 協調制御を用いた多視点PBR集合体の共同生成

Jointly Generating Multi-view Consistent PBR Textures using Collaborative Control ( http://arxiv.org/abs/2410.06985v1 )

ライセンス: Link先を確認
Shimon Vainer, Konstantin Kutsy, Dante De Nigris, Ciara Rowles, Slava Elizarov, Simon Donné, (参考訳) 画像拡散モデルにおいて、マルチビュー一貫性は依然として課題である。 完璧な幾何学的対応が先行するテキスト・ツー・テクスチュア問題においても、多くの手法はビューをまたいで整列した予測を得られず、その結果を元のメッシュに組み込むには非自明な融合法が必要である。 PBRテキスト・トゥ・テクスチャに特化して協調制御ワークフローを実現するために,この問題について検討する。 協調制御は、通常のバンプマップを含むPBR画像の確率分布を直接モデル化する。 本稿では,このモデルをマルチビューに一貫性を持たせるための設計決定について論じ,アブレーション研究におけるアプローチの有効性と実践的応用について述べる。

Multi-view consistency remains a challenge for image diffusion models. Even within the Text-to-Texture problem, where perfect geometric correspondences are known a priori, many methods fail to yield aligned predictions across views, necessitating non-trivial fusion methods to incorporate the results onto the original mesh. We explore this issue for a Collaborative Control workflow specifically in PBR Text-to-Texture. Collaborative Control directly models PBR image probability distributions, including normal bump maps; to our knowledge, the only diffusion model to directly output full PBR stacks. We discuss the design decisions involved in making this model multi-view consistent, and demonstrate the effectiveness of our approach in ablation studies, as well as practical applications.
翻訳日:2024-10-31 23:07:19 公開日:2024-10-09
# 拡散密度推定器

Diffusion Density Estimators ( http://arxiv.org/abs/2410.06986v1 )

ライセンス: Link先を確認
Akhil Premkumar, (参考訳) 神経密度推定器としての拡散モデルについて検討する。 この問題に対する現在のアプローチは、生成プロセスを、確率フローODE(Probability Flow ODE)と呼ばれる滑らかなフローに変換することである。 与えられたサンプルのログ密度は、ブラックボックスソルバでODEを解くことで得られる。 本稿では,フローを解くことなくログ密度を計算できる新しい並列化手法を提案する。 我々のアプローチは、モンテカルロによる経路積分を、拡散モデルのシミュレーション不要な訓練と同一の方法で推定することに基づいている。 また、異なるトレーニングパラメータが密度計算の精度にどのように影響するかを調べ、これらのモデルをよりスケーラブルで効率的なものにする方法についての洞察を提供する。

We investigate the use of diffusion models as neural density estimators. The current approach to this problem involves converting the generative process to a smooth flow, known as the Probability Flow ODE. The log density at a given sample can be obtained by solving the ODE with a black-box solver. We introduce a new, highly parallelizable method that computes log densities without the need to solve a flow. Our approach is based on estimating a path integral by Monte Carlo, in a manner identical to the simulation-free training of diffusion models. We also study how different training parameters affect the accuracy of the density calculation, and offer insights into how these models can be made more scalable and efficient.
翻訳日:2024-10-31 23:07:19 公開日:2024-10-09
# ノイズ注入型ディープインフォマックスによる表現の効率的な分布マッチング

Efficient Distribution Matching of Representations via Noise-Injected Deep InfoMax ( http://arxiv.org/abs/2410.06993v1 )

ライセンス: Link先を確認
Ivan Butakov, Alexander Sememenko, Alexander Tolmachev, Andrey Gladkov, Marina Munkhoeva, Alexey Frolov, (参考訳) Deep InfoMax (DIM) は、ディープニューラルネットワークエンコーダの入力と出力の相互情報の最大化に基づく自己教師付き表現学習(SSRL)の確立された方法である。 DIMと対照的なSSRLは一般によく研究されているが、特定の分布(つまり分布マッチング、DM)に対応する表現を学習するタスクは、まだ未熟である。 複数の下流タスク(生成的モデリング、乱れ、外乱検出など)に対するDMの重要性から、DIMを強化し、学習した表現を予め選択した分布に自動マッチングできるようにする。 これを実現するために、同じInfoMaxトレーニング目標を維持しつつ、エンコーダの正規化出力に独立ノイズを注入することを提案する。 このような修正は、他の絶対連続分布の表現と同様に、一様かつ通常に分散された表現を学習することができることを示す。 私たちのアプローチは、さまざまな下流タスクでテストされています。 その結果,下流作業における性能とDMの品質の中間的なトレードオフが示唆された。

Deep InfoMax (DIM) is a well-established method for self-supervised representation learning (SSRL) based on maximization of the mutual information between the input and the output of a deep neural network encoder. Despite the DIM and contrastive SSRL in general being well-explored, the task of learning representations conforming to a specific distribution (i.e., distribution matching, DM) is still under-addressed. Motivated by the importance of DM to several downstream tasks (including generative modeling, disentanglement, outliers detection and other), we enhance DIM to enable automatic matching of learned representations to a selected prior distribution. To achieve this, we propose injecting an independent noise into the normalized outputs of the encoder, while keeping the same InfoMax training objective. We show that such modification allows for learning uniformly and normally distributed representations, as well as representations of other absolutely continuous distributions. Our approach is tested on various downstream tasks. The results indicate a moderate trade-off between the performance on the downstream tasks and quality of DM.
翻訳日:2024-10-31 23:07:19 公開日:2024-10-09
# CursorCore: 任意のものを調整することでプログラミングを支援する

CursorCore: Assist Programming through Aligning Anything ( http://arxiv.org/abs/2410.07002v1 )

ライセンス: Link先を確認
Hao Jiang, Qi Liu, Rui Li, Shengyu Ye, Shijin Wang, (参考訳) 大規模な言語モデルは、コード補完、コード挿入、命令コード編集などのプログラミング支援タスクにうまく適用されている。 しかし、これらのアプリケーションは自動化が不十分で、コーディング履歴や現在のコード、ユーザ命令など、プログラミングプロセス中に様々な種類の情報を効果的に統合するのに苦労している。 本研究では、これらの情報ソースを包括的に統合し、データを収集し、モデルを訓練し、その性能を評価する新しい対話型フレームワークを提案する。 まず、異なるタイプの情報とそれらの出力の質とがどの程度うまく一致しているかを徹底的に評価するために、プログラミング支援タスクにおけるモデルの性能を包括的に評価する新しいベンチマーク APEval (Assist Programming Eval) を導入する。 そして、データ収集のために、GitHubやオンラインの審査プラットフォームなど、さまざまなソースからのトレーニングデータを合成するデータ生成パイプラインであるProgramming-Instructを開発します。 このパイプラインは、プログラミングプロセスを通して、さまざまなタイプのメッセージを自動生成することができる。 最後に、このパイプラインを用いて、219Kサンプルを生成し、微調整多重モデルを作成し、CursorCoreシリーズを開発する。 CursorCoreは同等のサイズの他のモデルよりも優れています。 このフレームワークは、インラインチャットや自動編集などのアプリケーションを統合することで、コーディングアシスタントの進歩に貢献している。 コード、モデル、データはhttps://github.com/TechxGenus/CursorCore.comで無料で入手できる。

Large language models have been successfully applied to programming assistance tasks, such as code completion, code insertion, and instructional code editing. However, these applications remain insufficiently automated and struggle to effectively integrate various types of information during the programming process, including coding history, current code, and user instructions. In this work, we propose a new conversational framework that comprehensively integrates these information sources, collect data to train our models and evaluate their performance. Firstly, to thoroughly evaluate how well models align with different types of information and the quality of their outputs, we introduce a new benchmark, APEval (Assist Programming Eval), to comprehensively assess the performance of models in programming assistance tasks. Then, for data collection, we develop a data generation pipeline, Programming-Instruct, which synthesizes training data from diverse sources, such as GitHub and online judge platforms. This pipeline can automatically generate various types of messages throughout the programming process. Finally, using this pipeline, we generate 219K samples, fine-tune multiple models, and develop the CursorCore series. We show that CursorCore outperforms other models of comparable size. This framework unifies applications such as inline chat and automated editing, contributes to the advancement of coding assistants. Code, models and data are freely available at https://github.com/TechxGenus/CursorCore.
翻訳日:2024-10-31 23:07:19 公開日:2024-10-09
# 鏡のシュレーディンガー橋(動画あり)

Through the Looking Glass: Mirror Schrödinger Bridges ( http://arxiv.org/abs/2410.07003v1 )

ライセンス: Link先を確認
Leticia Mattos Da Silva, Silvia Sellán, Justin Solomon, (参考訳) 密度が不明な対象尺度からのサンプリングは、数学統計学と機械学習の基本的な問題である。 機械学習の文献を支配している設定は、ガウス分布のような簡単でわかりやすい事前の地図を目標尺度に学習することである。 このモデルでは、前者からのサンプルを前進させ、ターゲット測度に関する新しいサンプルを生成するが、これは直接のサンプリングが困難であることが多い。 本稿では,ミラー・シュリンガー橋(Schr\odinger Bridges)と呼ばれる条件再サンプリングモデルを提案する。 我々のキーとなる観察は、分布とそれ自身の間のシュリンガーブリッジ問題を解くことは、条件分布から新しいサンプルを生成する自然な方法を提供し、入力データポイントの分布内変異を与えることである。 提案手法は, 橋梁問題Schr\"odinger" を効果的に解く方法を示す。 提案手法は,既存手法よりもアルゴリズム的に単純化され,また分布内変動の制御も可能であることを実証する。 実証的に、これらの利点がどのように活用され、複数のアプリケーションドメインで近位標本を生成するかを実証する。

Resampling from a target measure whose density is unknown is a fundamental problem in mathematical statistics and machine learning. A setting that dominates the machine learning literature consists of learning a map from an easy-to-sample prior, such as the Gaussian distribution, to a target measure. Under this model, samples from the prior are pushed forward to generate a new sample on the target measure, which is often difficult to sample from directly. In this paper, we propose a new model for conditional resampling called mirror Schr\"odinger bridges. Our key observation is that solving the Schr\"odinger bridge problem between a distribution and itself provides a natural way to produce new samples from conditional distributions, giving in-distribution variations of an input data point. We show how to efficiently solve this largely overlooked version of the Schr\"odinger bridge problem. We prove that our proposed method leads to significant algorithmic simplifications over existing alternatives, in addition to providing control over in-distribution variation. Empirically, we demonstrate how these benefits can be leveraged to produce proximal samples in a number of application domains.
翻訳日:2024-10-31 23:07:19 公開日:2024-10-09
# Pap2Pat: チャンクベースアウトライン誘導生成による紙から紙への自動描画を目指して

Pap2Pat: Towards Automated Paper-to-Patent Drafting using Chunk-based Outline-guided Generation ( http://arxiv.org/abs/2410.07009v1 )

ライセンス: Link先を確認
Valentin Knappich, Simon Razniewski, Anna Hätty, Annemarie Friedrich, (参考訳) 特許領域は自然言語処理の研究で注目を集めており、特許プロセスの合理化や大規模言語モデル(LLM)の挑戦的なベンチマークの実践的応用を提供している。 しかし、特許文書の90%以上を構成する特許の記載部分の生成については、現在まで研究されていない。 本稿では,発明の技術的仕様を学術論文で提示し,望まれる特許構造を概説する,アウトライン誘導型論文からパテント世代へのタスクを導入することで,このギャップに対処する。 PAP2PATは、典型的な研究室の実践を反映したヒューリスティックスを用いて収集された文書概要を含む、1.8kの特許と特許のペアの新しい挑戦的なベンチマークである。 現在のオープンウェイト LLM とアウトラインガイドによるチャンクベース生成による実験は,特許言語の本質的な反復性のために,論文からの情報を効果的に活用できるが,繰り返しに苦慮していることを示している。 データとコードを公開します。

The patent domain is gaining attention in natural language processing research, offering practical applications in streamlining the patenting process and providing challenging benchmarks for large language models (LLMs). However, the generation of the description sections of patents, which constitute more than 90% of the patent document, has not been studied to date. We address this gap by introducing the task of outline-guided paper-to-patent generation, where an academic paper provides the technical specification of the invention and an outline conveys the desired patent structure. We present PAP2PAT, a new challenging benchmark of 1.8k patent-paper pairs with document outlines, collected using heuristics that reflect typical research lab practices. Our experiments with current open-weight LLMs and outline-guided chunk-based generation show that they can effectively use information from the paper but struggle with repetitions, likely due to the inherent repetitiveness of patent language. We release our data and code.
翻訳日:2024-10-31 23:07:19 公開日:2024-10-09
# 単一領域デコーディングによる時間データの因果表現学習

Causal Representation Learning in Temporal Data via Single-Parent Decoding ( http://arxiv.org/abs/2410.07013v1 )

ライセンス: Link先を確認
Philippe Brouillard, Sébastien Lachapelle, Julia Kaltenborn, Yaniv Gurwicz, Dhanya Sridhar, Alexandre Drouin, Peer Nowack, Jakob Runge, David Rolnick, (参考訳) 科学的研究はしばしば、システム内の高レベル変数の根底にある因果構造を理解しようとする。 例えば、気候科学者はエルニーニョーノのような現象が、地球上の遠隔地にある他の気候プロセスにどのように影響するかを研究する。 しかし、科学者は通常、地理的に分布した温度測定などの低レベルの測定を収集する。 これらのことから、エルニ・ノ現象やその他の過程の高レベルな表現のような因果関係の潜伏変数への写像とそれらの上の因果モデルの両方を学ぶ必要がある。 課題は、因果表現学習と呼ばれるこのタスクが、観測データのみから非常に過小評価されており、不確定性を解決するために学習中に他の制約を必要とすることである。 本研究では,各観測された低レベル変数は1つの潜伏変数にのみ影響される,という空間的仮定を持つ時間モデルについて考察する。 このような仮定は、気候研究における地理的に格子化された測定データから領域を抽出したり、神経活動データから脳領域を捉えるなど、低レベルの変数のグループを見つける必要がある多くの科学的応用において妥当である。 本稿では,本モデルの有効性を実証し,基礎となる潜伏者と因果グラフを同時に学習する,CDSD(Causal Discovery with Single-parent Decoding)という微分可能な手法を提案する。 シミュレーションデータを用いて理論結果の有効性を評価し,気候科学分野における実世界データへの適用において,本手法の実用的妥当性を示す。

Scientific research often seeks to understand the causal structure underlying high-level variables in a system. For example, climate scientists study how phenomena, such as El Ni\~no, affect other climate processes at remote locations across the globe. However, scientists typically collect low-level measurements, such as geographically distributed temperature readings. From these, one needs to learn both a mapping to causally-relevant latent variables, such as a high-level representation of the El Ni\~no phenomenon and other processes, as well as the causal model over them. The challenge is that this task, called causal representation learning, is highly underdetermined from observational data alone, requiring other constraints during learning to resolve the indeterminacies. In this work, we consider a temporal model with a sparsity assumption, namely single-parent decoding: each observed low-level variable is only affected by a single latent variable. Such an assumption is reasonable in many scientific applications that require finding groups of low-level variables, such as extracting regions from geographically gridded measurement data in climate research or capturing brain regions from neural activity data. We demonstrate the identifiability of the resulting model and propose a differentiable method, Causal Discovery with Single-parent Decoding (CDSD), that simultaneously learns the underlying latents and a causal graph over them. We assess the validity of our theoretical results using simulated data and showcase the practical validity of our method in an application to real-world data from the climate science field.
翻訳日:2024-10-31 23:07:19 公開日:2024-10-09
# 正方形校正誤差の分類における最適推定器

Optimizing Estimators of Squared Calibration Errors in Classification ( http://arxiv.org/abs/2410.07014v1 )

ライセンス: Link先を確認
Sebastian G. Gruber, Francis Bach, (参考訳) 本研究では,2乗キャリブレーション誤差の予測器の比較と最適化を可能にする平均二乗誤差に基づくリスクを提案する。 分類器の校正を改善することは、特に繊細な意思決定シナリオにおいて、機械学習モデルの信頼性と解釈可能性を高めるために重要である。 現在の文献には様々なキャリブレーション(エラー)推定器が存在するが、適切な推定器を選択し、そのハイパーパラメータをチューニングするためのガイダンスがない。 正方形キャリブレーション誤差の双線型構造を利用することで、キャリブレーション推定を独立かつ同一に分布する入力対(すなわちd)の回帰問題として再定式化する。 この改定により、カノニカルキャリブレーション(canonical calibration)として知られる最も難しいキャリブレーション基準であっても、異なる推定器の性能を定量化することができる。 本手法は,評価データセットの校正誤差を推定する際のトレーニングバリデーションテストパイプラインを提案する。 我々は,既存のキャリブレーション推定器を最適化し,新しいカーネルリッジ回帰に基づく推定器と比較することにより,パイプラインの有効性を実証する。

In this work, we propose a mean-squared error-based risk that enables the comparison and optimization of estimators of squared calibration errors in practical settings. Improving the calibration of classifiers is crucial for enhancing the trustworthiness and interpretability of machine learning models, especially in sensitive decision-making scenarios. Although various calibration (error) estimators exist in the current literature, there is a lack of guidance on selecting the appropriate estimator and tuning its hyperparameters. By leveraging the bilinear structure of squared calibration errors, we reformulate calibration estimation as a regression problem with independent and identically distributed (i.i.d.) input pairs. This reformulation allows us to quantify the performance of different estimators even for the most challenging calibration criterion, known as canonical calibration. Our approach advocates for a training-validation-testing pipeline when estimating a calibration error on an evaluation dataset. We demonstrate the effectiveness of our pipeline by optimizing existing calibration estimators and comparing them with novel kernel ridge regression-based estimators on standard image classification tasks.
翻訳日:2024-10-31 23:07:19 公開日:2024-10-09
# 3レベルナビゲータ:時系列OOD一般化のためのLLMを利用した3レベル学習

Tri-Level Navigator: LLM-Empowered Tri-Level Learning for Time Series OOD Generalization ( http://arxiv.org/abs/2410.07018v1 )

ライセンス: Link先を確認
Chengtao Jian, Kai Yang, Yang Jiao, (参考訳) 機械学習におけるアウト・オブ・ディストリビューション(OOD)の一般化は、驚くべき研究分野である。 その第一の目的は、新しい、見えない、潜在的に敵対的なデータに直面した時に、機械学習モデルの適応性とレジリエンスを高めることである。 本稿では,事前学習されたLarge Language Models (LLMs) を用いた時系列OOD一般化について検討する。 まず, サンプルレベルとグループレベルの不確実性を両立する, TTSO と呼ばれる新規な \textbf{T}ime \textbf{S}eries \textbf{O}OD 一般化フレームワークを提案する。 この公式は、OOD一般化問題を定式化し解析するための新鮮な理論的な視点を提供する。 さらに,本手法のモチベーションが良好であることを示す理論的解析を行った。 次に、この三段階最適化問題に適した階層化ローカライゼーションアルゴリズムを開発し、提案アルゴリズムの保証収束を理論的に実証する。 我々はまた、$\epsilon$-定常点を得るのに要する反復の複雑さが O($\frac{1}{\epsilon^{2}}$) で有界であることを明らかにする。 提案手法の有効性を明らかにするために,実世界のデータセットに関する大規模な実験を行った。

Out-of-Distribution (OOD) generalization in machine learning is a burgeoning area of study. Its primary goal is to enhance the adaptability and resilience of machine learning models when faced with new, unseen, and potentially adversarial data that significantly diverges from their original training datasets. In this paper, we investigate time series OOD generalization via pre-trained Large Language Models (LLMs). We first propose a novel \textbf{T}ri-level learning framework for \textbf{T}ime \textbf{S}eries \textbf{O}OD generalization, termed TTSO, which considers both sample-level and group-level uncertainties. This formula offers a fresh theoretic perspective for formulating and analyzing OOD generalization problem. In addition, we provide a theoretical analysis to justify this method is well motivated. We then develop a stratified localization algorithm tailored for this tri-level optimization problem, theoretically demonstrating the guaranteed convergence of the proposed algorithm. Our analysis also reveals that the iteration complexity to obtain an $\epsilon$-stationary point is bounded by O($\frac{1}{\epsilon^{2}}$). Extensive experiments on real-world datasets have been conducted to elucidate the effectiveness of the proposed method.
翻訳日:2024-10-31 22:57:18 公開日:2024-10-09
# プログラマが笑う理由 - Subreddit r/ProgrammerHumorの探索

What Makes Programmers Laugh? Exploring the Subreddit r/ProgrammerHumor ( http://arxiv.org/abs/2410.07020v1 )

ライセンス: Link先を確認
Miikka Kuutila, Leevi Rantala, Junhao Li, Simo Hosio, Mika Mäntylä, (参考訳) 背景: 噂は人間のコミュニケーションの基本的な部分であり、以前の仕事は職場でのポジティブなユーモアと、パフォーマンスの向上や仕事の満足度といったポジティブな結果とを結びつける。 Aims: この研究は,大規模ソーシャルメディアコミュニティにおけるプログラミング関連ユーモアの調査を目的としている。 方法論:Reddit subreddit r/ProgrammerHumorから139,718件の応募を集めました。 テキストおよび画像ベース(ミーム)の提出も検討された。 画像データをOCRで処理し,NLP解析のための画像からテキストを抽出した。 提案をユーモラスにするために複数の回帰モデルを構築した。 さらに、800件の応募のランダムなサンプルは、ユーモアの理論、職場への適合性、応募を理解するためのプログラミング知識の必要性、画像ベースの提出のイメージが提出に文脈を追加したかどうかに関して、人間のアノテータによってラベル付けされた。 結果:我々の結果は,ソフトウェア開発者のユーモアを予測することが難しいことを示唆している。 私たちの最高の回帰モデルでは、分散の10%しか説明できませんでした。 しかし、トピック、提出時間、関連するユーモア理論の間で統計的に有意な差異が観測された。 分析の結果, 北半球の冬期において, 週末のUTCの2~3時の間に作成され, ユーモアの優越性と不整合理論と明確に関連し, 「学習」の話題である。 結論: 自然言語処理手法によるユーモアの予測は難しい。 提案論文のユーモア評価におけるメリットと本質的な困難について論じるとともに,今後の研究への道筋についても論じる。 さらに、我々の複製パッケージは将来の研究を助け、ソフトウェア産業と教育のためのジョークリポジトリとして機能するでしょう。

Background: Humor is a fundamental part of human communication, with prior work linking positive humor in the workplace to positive outcomes, such as improved performance and job satisfaction. Aims: This study aims to investigate programming-related humor in a large social media community. Methodology: We collected 139,718 submissions from Reddit subreddit r/ProgrammerHumor. Both textual and image-based (memes) submissions were considered. The image data was processed with OCR to extract text from images for NLP analysis. Multiple regression models were built to investigate what makes submissions humorous. Additionally, a random sample of 800 submissions was labeled by human annotators regarding their relation to theories of humor, suitability for the workplace, the need for programming knowledge to understand the submission, and whether images in image-based submissions added context to the submission. Results: Our results indicate that predicting the humor of software developers is difficult. Our best regression model was able to explain only 10% of the variance. However, statistically significant differences were observed between topics, submission times, and associated humor theories. Our analysis reveals that the highest submission scores are achieved by imagebased submissions that are created during the winter months in the northern hemisphere, between 2-3pm UTC on weekends, which are distinctly related to superiority and incongruity theories of humor, and are about the topic of "Learning". Conclusions: Predicting humor with natural language processing methods is challenging. We discuss the benefits and inherent difficulties in assessing perceived humor of submissions, as well as possible avenues for future work. Additionally, our replication package should help future studies and can act as a joke repository for the software industry and education.
翻訳日:2024-10-31 22:57:18 公開日:2024-10-09
# 現代のCATEモデルは実世界の不均一性を捉えるか?

Do Contemporary CATE Models Capture Real-World Heterogeneity? Findings from a Large-Scale Benchmark ( http://arxiv.org/abs/2410.07021v1 )

ライセンス: Link先を確認
Haining Yu, Yizhou Sun, (参考訳) 本研究では,条件平均処理効果(CATE)推定アルゴリズムを大規模ベンチマークで評価し,予期せぬ結果を示す。 43,200データセットで16の現代的なCATEモデルを実行することで、次のようなことが分かる。 (a)CATE推定の62\%は、自明なゼロエフェクト予測器よりも平均正方形誤差(MSE)が高く、非効率である。 (b)少なくとも1つの有用なCATE推定値を持つデータセットでは、80 % は定数効果モデルよりも MSE が高い。 (c)直交性に基づくモデルは、その性能に対する楽観的評価にもかかわらず、他のモデルよりもわずか30%優れていた。 これらの知見は、現在のCATEモデルにおいて重大な限界を示し、さらなる研究の機会を示唆している。 本研究は,実験データを用いた観測方法から平均処理効果(ATE)の推定値を評価するために開発された,textit{observational sample} の新規な応用に起因している。 CATE評価に観測サンプリングを適用するために,MSE の定数に等しい統計パラメータ $Q$ を導入し,MSE によるモデルのランキングを維持する。 次に、実世界のデータから計算できるサンプル統計のファミリである$\hat{Q}$を導出する。 我々は、$\hat{Q}$が穏やかな技術的条件下での$Q$の一貫した推定量であることを証明する。 観測サンプリングで使用される場合、$\hat{Q}$ は非バイアスであり、漸近的に最小の MSE でモデルを選択する。 ベンチマークが実世界の不均一性を反映することを保証するため、シミュレーションではなくフィールドから結果が得られたデータセットをハンドピックする。 新しい観測サンプリング手法、新しい統計、および実世界のデータセットを組み合わせることで、ベンチマークはCATE推定器のパフォーマンスと現実世界の不均一性を捉える際のギャップを明らかにするためのユニークな視点を提供する。

We present unexpected findings from a large-scale benchmark study evaluating Conditional Average Treatment Effect (CATE) estimation algorithms. By running 16 modern CATE models across 43,200 datasets, we find that: (a) 62\% of CATE estimates have a higher Mean Squared Error (MSE) than a trivial zero-effect predictor, rendering them ineffective; (b) in datasets with at least one useful CATE estimate, 80\% still have higher MSE than a constant-effect model; and (c) Orthogonality-based models outperform other models only 30\% of the time, despite widespread optimism about their performance. These findings expose significant limitations in current CATE models and suggest ample opportunities for further research. Our findings stem from a novel application of \textit{observational sampling}, originally developed to evaluate Average Treatment Effect (ATE) estimates from observational methods with experiment data. To adapt observational sampling for CATE evaluation, we introduce a statistical parameter, $Q$, equal to MSE minus a constant and preserves the ranking of models by their MSE. We then derive a family of sample statistics, collectively called $\hat{Q}$, that can be computed from real-world data. We prove that $\hat{Q}$ is a consistent estimator of $Q$ under mild technical conditions. When used in observational sampling, $\hat{Q}$ is unbiased and asymptotically selects the model with the smallest MSE. To ensure the benchmark reflects real-world heterogeneity, we handpick datasets where outcomes come from field rather than simulation. By combining the new observational sampling method, new statistics, and real-world datasets, the benchmark provides a unique perspective on CATE estimator performance and uncover gaps in capturing real-world heterogeneity.
翻訳日:2024-10-31 22:57:18 公開日:2024-10-09
# 量子計算の優位性におけるコヒーレンスの役割について

On the role of coherence for quantum computational advantage ( http://arxiv.org/abs/2410.07024v1 )

ライセンス: Link先を確認
Hugo Thomas, Pierre-Emmanuel Emeriau, Elham Kashefi, Harold Ollivier, Ulysse Chabaud, (参考訳) 量子コンピュータで利用可能なリソースの定量化は、古典的な計算から量子を分離するために必要と思われる。 その中でも、絡み合い、魔法、一貫性は間違いなく非常に重要である。 量子計算における経路干渉のコヒーレントな経路干渉の尺度として経路コヒーレンスを導入する。 和オーバパス形式を利用して、経路コヒーレンスでスケールする複雑性である量子遷移振幅を推定する古典的アルゴリズムを得る。 経路コヒーレンス(英語版)は古典的シミュレーションの硬さに関連しているため、量子計算上の優位性におけるコヒーレンスの役割についての新しい視点を提供する。 本研究の結果は,従来の計算機による量子計算の大規模クラスをシミュレーションするための実用的応用が期待できる。

Quantifying the resources available to a quantum computer appears to be necessary to separate quantum from classical computation. Among them, entanglement, magic and coherence are arguably of great significance. We introduce path coherence as a measure of the coherent paths interferences arising in a quantum computation. Leveraging the sum-over-paths formalism, we obtain a classical algorithm for estimating quantum transition amplitudes, the complexity of which scales with path coherence. As path coherence relates to the hardness of classical simulation, it provides a new perspective on the role of coherence in quantum computational advantage. Beyond their fundamental significance, our results have practical applications for simulating large classes of quantum computations with classical computers.
翻訳日:2024-10-31 22:57:18 公開日:2024-10-09
# ヒトのフィードバックを伴わない胸部X線解釈モデルにおけるファクタリティの選好的微調整

Preference Fine-Tuning for Factuality in Chest X-Ray Interpretation Models Without Human Feedback ( http://arxiv.org/abs/2410.07025v1 )

ライセンス: Link先を確認
Dennis Hein, Zhihong Chen, Sophie Ostmeier, Justin Xu, Maya Varma, Eduardo Pontes Reis, Arne Edward Michalson, Christian Bluethgen, Hyun Joo Shin, Curtis Langlotz, Akshay S Chaudhari, (参考訳) 放射線技師は医療画像を医療報告に翻訳することで重要な役割を担っている。 しかし、現場は人員不足とワークロードの増加に直面している。 視覚言語モデル(VLM)を用いた自動アプローチは、アシスタントとして有望であるが、非常に高い精度を必要とする。 放射線学における現在のVLMのほとんどは、教師付き微調整(SFT)のみに依存している。 一方、一般ドメインでは、好みの微調整が標準となっている。 放射線学における課題は、放射線技師のフィードバックを得ることの禁止費用にある。 胸部X線(CXR)レポート生成に焦点をあてて,放射線学におけるVLMの自動選好アライメント手法を提案する。 提案手法は,LLM-as-a-Judge機構で利用可能なデータセットを活用し,専門的な放射線学者のフィードバックを不要にする。 我々は,5つの直接アライメントアルゴリズム(DAA)を評価し,ベンチマークを行った。 その結果、平均GREENスコアが57.4%向上し、CXRレポートを評価するLLMベースの指標が、SFTベースラインと比較して6つの指標(ドメイン固有および一般)の平均が9.2%向上した。 本研究は,最大3.2倍の長文化による報酬過小評価について検討した。 潜在的なアライメント税を評価するため、我々は6つの追加の多様なタスクをベンチマークし、重大な劣化は見つからなかった。 4人の放射線学者による調査では、SFTベースラインに対して最大0.62の勝利率を示し、冗長性を著しく罰している。 我々の分析は、放射線学のような高度な分野におけるVLMの開発に有効な知見を提供する。

Radiologists play a crucial role by translating medical images into medical reports. However, the field faces staffing shortages and increasing workloads. While automated approaches using vision-language models (VLMs) show promise as assistants, they require exceptionally high accuracy. Most current VLMs in radiology rely solely on supervised fine-tuning (SFT). Meanwhile, in the general domain, additional preference fine-tuning has become standard practice. The challenge in radiology lies in the prohibitive cost of obtaining radiologist feedback. We propose a scalable automated preference alignment technique for VLMs in radiology, focusing on chest X-ray (CXR) report generation. Our method leverages publicly available datasets with an LLM-as-a-Judge mechanism, eliminating the need for additional expert radiologist feedback. We evaluate and benchmark five direct alignment algorithms (DAAs). Our results show up to a 57.4% improvement in average GREEN scores, a LLM-based metric for evaluating CXR reports, and a 9.2% increase in an average across six metrics (domain specific and general), compared to the SFT baseline. We study reward overoptimization via length exploitation, with reports lengthening by up to 3.2x. To assess a potential alignment tax, we benchmark on six additional diverse tasks, finding no significant degradations. A reader study involving four board-certified radiologists indicates win rates of up to 0.62 over the SFT baseline, while significantly penalizing verbosity. Our analysis provides actionable insights for the development of VLMs in high-stakes fields like radiology.
翻訳日:2024-10-31 22:57:18 公開日:2024-10-09
# 幾何学フロケット理論

Geometric Floquet theory ( http://arxiv.org/abs/2410.07029v1 )

ライセンス: Link先を確認
Paul M. Schindler, Marin Bukov, (参考訳) 量子幾何学からフロケ理論を導出する。 我々は、断熱的ゲージポテンシャル $U(1){\mapsto}\mathbb{Z}$ の破れたゲージ群の結果、準エネルギーの折りたたみを同定する。 これにより、一意なゲージ不変な定式化を導入し、力学を純粋に幾何学的かつ純粋に動的進化に分解することができる。 動的加藤作用素は準エネルギースペクトルをあいまいにソートし、ユニークなフロケ基底状態を特定し、フロケ・ブロッホバンドの充填を定義する方法を提案する。 我々は、正確に解けるXYモデルと非可積分なイジング連鎖を用いて幾何学的フロケ理論の特徴を例証し、この進化への幾何学的寄与が、離散時間結晶における$\pi$-quasienergyギャップや異常なフロケ位相絶縁体におけるエッジモードのような本質的に非平衡効果を説明できることを示した。 加藤作用素のスペクトルは、加熱と時空間対称性を破る遷移の起源を解明する。 最後に, 周期的実験用フレームハミルトンは, フロッケ固有状態に対して遷移のない反断熱駆動を生成することを実証し, ショートカット・トゥ・アディバチティティの技術をフロッケ工学に直接適用し, 明示的なアルゴリズムの手順に変換する。 この研究は、非平衡物理学の一見無関係な領域を直接ブリッジする。

We derive Floquet theory from quantum geometry. We identify quasienergy folding as a consequence of a broken gauge group of the adiabatic gauge potential $U(1){\mapsto}\mathbb{Z}$. This allows us to introduce a unique gauge-invariant formulation, decomposing the dynamics into a purely geometric and a purely dynamical evolution. The dynamical Kato operator provides an unambiguous sorting of the quasienergy spectrum, identifying a unique Floquet ground state and suggesting a way to define the filling of Floquet-Bloch bands. We exemplify the features of geometric Floquet theory using an exactly solvable XY model and a non-integrable kicked Ising chain; we show that the geometric contribution to the evolution accounts for inherently nonequilibrium effects, like the $\pi$-quasienergy gap in discrete time crystals or edge modes in anomalous Floquet topological insulators. The spectrum of the Kato operator elucidates the origin of both heating and spatiotemporal symmetry-breaking transitions. Last, we demonstrate that the periodic lab frame Hamiltonian generates transitionless counterdiabatic driving for Floquet eigenstates; this enables the direct application of shortcuts-to-adiabaticity techniques to Floquet engineering, turning it into an explicit algorithmic procedure. This work directly bridges seemingly unrelated areas of nonequilibrium physics.
翻訳日:2024-10-31 22:57:18 公開日:2024-10-09
# 汚染された視覚言語モデルのクリーンな評価

Clean Evaluations on Contaminated Visual Language Models ( http://arxiv.org/abs/2410.07030v1 )

ライセンス: Link先を確認
Hongyuan Lu, Shujie Miao, Wai Lam, (参考訳) 大型言語モデル(LLM)をクリーンに評価する方法は、汚染される可能性のあるLLMの性能を真に報告する重要な研究時代として確立されている。 しかし、視覚言語モデル(VLM)をきれいに評価する方法は、未研究の課題である。 本稿では,視覚的入力情報に対するデータ拡張手法により,そのような目標を達成するための新しい手法を提案する。 次に、何千ものデータインスタンスで視覚的クリーンな評価ベンチマークを作成します。 広範にわたる実験により、従来の視覚データ拡張手法は有用であるが、トレーニングデータの一部としての使用が回避策として危険にさらされていることがわかった。 さらに、視覚情報の色チャネルを切り替えるために、BGR拡張を用いることを提案する。 また,データ汚染の影響を低減させる簡便かつ効果的な方法であり,幸いなことに,トレーニング中のデータ拡張手法としての利用も有害であることがわかった。 悪質なトレーナーによるトレーニングにこのようなデータ拡張を統合することは困難であり、視覚的LLMをきれいに評価する上で有望な手法である可能性がある。 コード、データ、モデルの重み付けは、公開時にリリースされます。

How to evaluate large language models (LLMs) cleanly has been established as an important research era to genuinely report the performance of possibly contaminated LLMs. Yet, how to cleanly evaluate the visual language models (VLMs) is an under-studied problem. We propose a novel approach to achieve such goals through data augmentation methods on the visual input information. We then craft a new visual clean evaluation benchmark with thousands of data instances. Through extensive experiments, we found that the traditional visual data augmentation methods are useful, but they are at risk of being used as a part of the training data as a workaround. We further propose using BGR augmentation to switch the colour channel of the visual information. We found that it is a simple yet effective method for reducing the effect of data contamination and fortunately, it is also harmful to be used as a data augmentation method during training. It means that it is hard to integrate such data augmentation into training by malicious trainers and it could be a promising technique to cleanly evaluate visual LLMs. Our code, data, and model weights will be released upon publication.
翻訳日:2024-10-31 22:57:18 公開日:2024-10-09
# 位置ID:LLMは位置認識による長さ、コピー、ペーストを制御できる

PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness ( http://arxiv.org/abs/2410.07035v1 )

ライセンス: Link先を確認
Zekun Wang, Feiyu Duan, Yibo Zhang, Wangchunshu Zhou, Ke Xu, Wenhao Huang, Jie Fu, (参考訳) 大きな言語モデル(LLM)は、ロールプレイング、クリエイティブライティング、数学的推論、コーディングなど、さまざまな領域にまたがる印象的な機能を示している。 これらの進歩にもかかわらず、LLMは長さ制御の課題に直面しており、トークンレベルの操作や厳密な長さ制限のあるデータに対する訓練が不十分なため、しばしば特定の長さ制限に従わなかった。 我々は,この問題を位置認識の欠如から起因とみなし,新しいアプローチ-PositionID Prompting と PositionID Fine-Tuning- を提案する。 これらの方法は、生成中のテキストの長さを継続的に監視し、管理するモデルの能力を高める。 また,LLMのコピー&ペースト操作を正確に行うためにPlaceID CP Promptingを導入する。 さらに,長さ制御とコピー・ペースト能力を評価するための2つのベンチマークを開発した。 実験により,提案手法は応答品質を損なうことなく,長さ制約とコピー・ペースト精度に対するモデルの適合性を大幅に向上することを示した。

Large Language Models (LLMs) demonstrate impressive capabilities across various domains, including role-playing, creative writing, mathematical reasoning, and coding. Despite these advancements, LLMs still encounter challenges with length control, frequently failing to adhere to specific length constraints due to their token-level operations and insufficient training on data with strict length limitations. We identify this issue as stemming from a lack of positional awareness and propose novel approaches--PositionID Prompting and PositionID Fine-Tuning--to address it. These methods enhance the model's ability to continuously monitor and manage text length during generation. Additionally, we introduce PositionID CP Prompting to enable LLMs to perform copy and paste operations accurately. Furthermore, we develop two benchmarks for evaluating length control and copy-paste abilities. Our experiments demonstrate that our methods significantly improve the model's adherence to length constraints and copy-paste accuracy without compromising response quality.
翻訳日:2024-10-31 22:57:18 公開日:2024-10-09
# 分散ロバストクラスタ型フェデレーションラーニング--ヘルスケアを事例として

Distributionally Robust Clustered Federated Learning: A Case Study in Healthcare ( http://arxiv.org/abs/2410.07039v1 )

ライセンス: Link先を確認
Xenia Konti, Hans Riess, Manos Giannopoulos, Yi Shen, Michael J. Pencina, Nicoleta J. Economou-Zavlanos, Michael M. Zavlanos, (参考訳) 本稿では,クロスサイロ・ロバスト・クラスタ・フェデレート・ラーニング(CS-RCFL)と呼ばれる新しいアルゴリズムを導入することで,クロスサイロ・フェデレーション・ラーニングにおける異種データ分布の課題に対処する。 提案手法はワッサーシュタイン距離を利用して各クライアントの経験的分布の周囲にあいまいな集合を構築し,ローカルデータの分布変化を捉え,最悪のモデル性能の評価を可能にする。 次に、統計的に不均一なクライアントデータセットによる局所モデルのバイアスを回避するために、クライアントの最適分布的ロバストなクラスタリングを連立に決定するためのモデルに依存しない整数分数プログラムを提案し、線形回帰モデルとロジスティック回帰モデルについて分析する。 最後に、クライアントが医療機関である場合など、クライアントのプライバシを確保するためのフェデレーション学習プロトコルについて議論する。 我々は、人工的および実世界の医療データに基づいてアルゴリズムを評価する。

In this paper, we address the challenge of heterogeneous data distributions in cross-silo federated learning by introducing a novel algorithm, which we term Cross-silo Robust Clustered Federated Learning (CS-RCFL). Our approach leverages the Wasserstein distance to construct ambiguity sets around each client's empirical distribution that capture possible distribution shifts in the local data, enabling evaluation of worst-case model performance. We then propose a model-agnostic integer fractional program to determine the optimal distributionally robust clustering of clients into coalitions so that possible biases in the local models caused by statistically heterogeneous client datasets are avoided, and analyze our method for linear and logistic regression models. Finally, we discuss a federated learning protocol that ensures the privacy of client distributions, a critical consideration, for instance, when clients are healthcare institutions. We evaluate our algorithm on synthetic and real-world healthcare data.
翻訳日:2024-10-31 22:57:18 公開日:2024-10-09
# 繰り返し例による創発的特性

Emergent properties with repeated examples ( http://arxiv.org/abs/2410.07041v1 )

ライセンス: Link先を確認
François Charton, Julia Kempe, (参考訳) 本稿では,アルゴリズムによって生成されたデータセットを用いた学習例の繰り返し回数の関数としてのトランスフォーマーの性能について検討する。 数学の3つの問題(最大公約数、モジュラ乗算、行列固有値)について、一定数のトレーニングステップにおいて、より小さな反復例の集合で訓練されたモデルは、より大きな単用例の集合で訓練されたモデルより優れていることを示す。 2セットのトレーニング — サンプルの小さなランダムなサブセットを繰り返し使用すること、トレーニングセットの他の部分の通常のサンプリング — が、より高速な学習とパフォーマンスを実現することを実証しています。 このことは、反復の利点がデータの多様性よりも優れていることを強調している。 これらのデータセットと問題は、ディープラーニングにおける一般化と記憶の相互作用がまだ理解されていないことに光を当てるための制御された設定を提供する。

We study the performance of transformers as a function of the number of repetitions of training examples with algorithmically generated datasets. On three problems of mathematics: the greatest common divisor, modular multiplication, and matrix eigenvalues, we show that for a fixed number of training steps, models trained on smaller sets of repeated examples outperform models trained on larger sets of single-use examples. We also demonstrate that two-set training - repeated use of a small random subset of examples, along normal sampling on the rest of the training set - provides for faster learning and better performance. This highlights that the benefits of repetition can outweigh those of data diversity. These datasets and problems provide a controlled setting to shed light on the still poorly understood interplay between generalization and memorization in deep learning.
翻訳日:2024-10-31 22:57:18 公開日:2024-10-09
# Z-upscaling:3次元EMボリュームの等方的再構成のための光フローガイドフレーム補間

Z-upscaling: Optical Flow Guided Frame Interpolation for Isotropic Reconstruction of 3D EM Volumes ( http://arxiv.org/abs/2410.07043v1 )

ライセンス: Link先を確認
Fisseha A. Ferede, Ali Khalighifar, Jaison John, Krishnan Venkataraman, Khaled Khairy, (参考訳) 異方性3次元EMボリュームの軸方向分解能を高めて等方性3次元再構成を実現するための新しい光学フローベース手法を提案する。 3次元生体構造の空間的連続性をよく整列したEMボリュームで仮定すると、ビデオの時間分解能向上にしばしば応用される光フロー推定技術が有効である。 画素レベルの運動は、zに沿って隣接する2次元スライス間で推定され、空間勾配流の推定を用いて補間し、新しい2次元スライスを生成し、等方的ボクセルを生成する。 ビデオフレーム補間および転送学習技術における最近の最先端の学習手法を活用し、公開超構造EMボリュームへのアプローチの成功を実証する。

We propose a novel optical flow based approach to enhance the axial resolution of anisotropic 3D EM volumes to achieve isotropic 3D reconstruction. Assuming spatial continuity of 3D biological structures in well aligned EM volumes, we reasoned that optical flow estimation techniques, often applied for temporal resolution enhancement in videos, can be utilized. Pixel level motion is estimated between neighboring 2D slices along z, using spatial gradient flow estimates to interpolate and generate new 2D slices resulting in isotropic voxels. We leverage recent state-of-the-art learning methods for video frame interpolation and transfer learning techniques, and demonstrate the success of our approach on publicly available ultrastructure EM volumes.
翻訳日:2024-10-31 22:57:18 公開日:2024-10-09
# 量子リモートセンシングのためのパスアイデンティティを持つ量子周波数コム

Quantum Frequency Combs with Path Identity for Quantum Remote Sensing ( http://arxiv.org/abs/2410.07044v1 )

ライセンス: Link先を確認
D. A. R. Dalvit, T. J. Volkoff, Y. -S. Choi, A. K. Azad, H. -T. Chen, P. W. Milonni, (参考訳) 量子センシングは、センサープローブとして光や物質の量子状態を利用することによって、センシングアプリケーションに革命をもたらすことを約束する。 光子は、リモートセンシングのための量子プローブとして明らかな選択である。 既存のスキームは主に量子照明フレームワークに基づいており、量子メモリは、ツインがターゲットを反射して最終的な相関測定を行うまで、最初の絡み合ったペアの1つの光子を保存する必要がある。 既存の実証はテーブルトップ実験に限られており、長距離量子ストレージや光子損失、長距離で量子信号を伝送する際のノイズなど様々な障害に直面している。 本稿では、これらの課題に対処する新しい量子センシングフレームワークを提案する。このフレームワークは、1つの鍵量子現象と2つの量子リソース、すなわち、経路アイデンティティによる量子誘導コヒーレンス、量子周波数コム、および2モード圧縮光の組み合わせにより、量子メモリを必要とせずに量子リモートセンシングが可能となる。提案手法は、経路アイデンティティを用いて、ターゲットに到達しないペア内の1つのコムのパルスを計測して、関心の標的を検知・レンジする量子レーダーに類似している。

Quantum sensing promises to revolutionize sensing applications by employing quantum states of light or matter as sensing probes. Photons are the clear choice as quantum probes for remote sensing because they can travel to and interact with a distant target. Existing schemes are mainly based on the quantum illumination framework, which requires a quantum memory to store a single photon of an initially entangled pair until its twin reflects off a target and returns for final correlation measurements. Existing demonstrations are limited to tabletop experiments, and expanding the sensing range faces various roadblocks, including long-time quantum storage and photon loss and noise when transmitting quantum signals over long distances. We propose a novel quantum sensing framework that addresses these challenges using quantum frequency combs with path identity for remote sensing of signatures (``qCOMBPASS"). The combination of one key quantum phenomenon and two quantum resources, namely quantum induced coherence by path identity, quantum frequency combs, and two-mode squeezed light, allows for quantum remote sensing without requiring a quantum memory. The proposed scheme is akin to a quantum radar based on entangled frequency comb pairs that uses path identity to detect/range/sense a remote target of interest by measuring pulses of one comb in the pair that never flew to target, but that contains target information ``teleported" by quantum-induced coherence from the other comb in the pair that did fly to target but is not detected.
翻訳日:2024-10-31 22:57:18 公開日:2024-10-09
# ユニバーサルトランスバーサルゲート

Universal transversal gates ( http://arxiv.org/abs/2410.07045v1 )

ライセンス: Link先を確認
Pragati Gupta, Andrea Morello, Barry C. Sanders, (参考訳) 量子誤り訂正における長年の課題は、イーストン・クニルの定理で示されているように、普遍的超越ゲートの実現性である。 量子符号が普遍的超越ゲートを持つ必要十分条件を求め、Eastin-Knill no-go 結果が一般的な誤差モデルに当てはまらない特別な場合であることを示す。 論理誤差確率を下限~$ \Omega(\nicefrac{1}{n\log d})$から上限~$\mathcal O(\nicefrac{1}{n d})$に変更し、局所誤差と相関誤差の正確な補正を可能にする。 我々の普遍性条件は、任意の量子誤り訂正符号に対する普遍ゲートセットの存在を決定する。

A long-standing challenge in quantum error correction is the infeasibility of universal transversal gates, as shown by the Eastin-Knill theorem. We obtain a necessary and sufficient condition for a quantum code to have universal transversal gates and show that the Eastin-Knill no-go result is a special case that does not hold for a general error model. We present a code construction using~$n$~$d$-dimensional systems that changes the logical error probability from a lower bound~$ \Omega(\nicefrac{1}{n\log d})$ to an upper bound~$\mathcal O (\nicefrac{1}{n d})$ and allows exact correction of both local and correlated errors. Our universality condition determines the existence of a universal gate set for any quantum error-correcting code.
翻訳日:2024-10-31 22:57:18 公開日:2024-10-09
# S2HPruner:プルーニングにおける離散化ギャップのソフト・ハード蒸留ブリッジ

S2HPruner: Soft-to-Hard Distillation Bridges the Discretization Gap in Pruning ( http://arxiv.org/abs/2410.07046v1 )

ライセンス: Link先を確認
Weihao Lin, Shengji Tang, Chong Yu, Peng Ye, Tao Chen, (参考訳) 近年, 分割型離散ネットワーク(ハードネットワーク)のプロキシとして, 連続緩和アーキテクチャ(ソフトネットワーク)を最適化し, より優れたサブアーキテクチャ探索を実現している。 しかし、離散化プロセスの非依存的な影響により、ハードネットワークはソフトネットワークとして同等の表現能力、すなわち離散化ギャップに悩まされ、プルーニング性能を著しく損なう。 本稿では、まず、離散化ギャップについて検討し、S2HPrunerという新しい構造微分可能なマスク切断フレームワークを提案し、離散化ギャップを1段階的に橋渡しする。 トレーニング手順では、SH2Prunerはソフトネットワークとそれに対応するハードネットワークの両方を転送し、ソフトネットワークの監督の下でハードネットワークを蒸留する。 マスクを最適化し,性能劣化を防止するために,分離した双方向知識蒸留法を提案する。 マスクに対応する勾配を維持しながら、ハードからソフトネットワークへの重量更新をブロックする。 既存のプルーニングアーツと比較して、S2HPrunerは、CIFAR-100、Tiny ImageNet、ImageNetなど、様々なネットワークアーキテクチャを含む包括的なベンチマークを微調整することなく、プルーニングパフォーマンスを上回ることができる。 さらに,S2HPrunerの有効性について検討・解析実験を行った。 コードも間もなくリリースされる予定だ。

Recently, differentiable mask pruning methods optimize the continuous relaxation architecture (soft network) as the proxy of the pruned discrete network (hard network) for superior sub-architecture search. However, due to the agnostic impact of the discretization process, the hard network struggles with the equivalent representational capacity as the soft network, namely discretization gap, which severely spoils the pruning performance. In this paper, we first investigate the discretization gap and propose a novel structural differentiable mask pruning framework named S2HPruner to bridge the discretization gap in a one-stage manner. In the training procedure, SH2Pruner forwards both the soft network and its corresponding hard network, then distills the hard network under the supervision of the soft network. To optimize the mask and prevent performance degradation, we propose a decoupled bidirectional knowledge distillation. It blocks the weight updating from the hard to the soft network while maintaining the gradient corresponding to the mask. Compared with existing pruning arts, S2HPruner achieves surpassing pruning performance without fine-tuning on comprehensive benchmarks, including CIFAR-100, Tiny ImageNet, and ImageNet with a variety of network architectures. Besides, investigation and analysis experiments explain the effectiveness of S2HPruner. Codes will be released soon.
翻訳日:2024-10-31 22:57:18 公開日:2024-10-09
# 共有ランダム性支援チャネルシミュレーションのための指数

Exponents for Shared Randomness-Assisted Channel Simulation ( http://arxiv.org/abs/2410.07051v1 )

ライセンス: Link先を確認
Aadil Oufkir, Michael X. Cao, Hao-Chung Cheng, Mario Berta, (参考訳) 最短ケースの総偏差距離において、共有ランダム性支援チャネルシミュレーションの正確な誤差と強い逆指数を決定する。 すなわち、これらの指数はR'enyiチャネルの相互情報に対する単純な最適化として記述できる。 厳密には、チャネル符号化とは対照的に、臨界レートは存在せず、シミュレーション能力以下の任意のレートを厳格に評価することができる。 本稿では,チャネルシミュレーションのためのメタコンバースを漸近的に拡張した[Cao {\it et al }, IEEE Trans。 ~Inf。 〜Theory (2024)] 非署名補助符号に対応する。 本稿では, [Berta {\it et al }, Proc の近似アルゴリズムを用いて, これを漸近的に厳密に証明する。 IEEE ISIT (2024)] は、共有ランダム性のみを使用する戦略に、任意の非署名支援戦略を丸める方法を示している。 これは、追加の量子エンタングルメント・アシストがエラーや強い逆指数を変化させないことを意味する。

We determine the exact error and strong converse exponents of shared randomness-assisted channel simulation in worst case total-variation distance. Namely, we find that these exponents can be written as simple optimizations over the R\'enyi channel mutual information. Strikingly, and in stark contrast to channel coding, there are no critical rates, allowing a tight characterization for arbitrary rates below and above the simulation capacity. We derive our results by asymptotically expanding the meta-converse for channel simulation [Cao {\it et al.}, IEEE Trans.~Inf.~Theory (2024)], which corresponds to non-signaling assisted codes. We prove this to be asymptotically tight by employing the approximation algorithms from [Berta {\it et al.}, Proc.~IEEE ISIT (2024)], which show how to round any non-signaling assisted strategy to a strategy that only uses shared randomness. Notably, this implies that any additional quantum entanglement-assistance does not change the error or the strong converse exponents.
翻訳日:2024-10-31 22:47:07 公開日:2024-10-09
# 中世のロボット:紛争解決におけるLCMの評価

Robots in the Middle: Evaluating LLMs in Dispute Resolution ( http://arxiv.org/abs/2410.07053v1 )

ライセンス: Link先を確認
Jinzhe Tan, Hannes Westermann, Nikhil Reddy Pottanigari, Jaromír Šavelka, Sébastien Meeùs, Mia Godet, Karim Benyekhlef, (参考訳) メディエーション(英語: Mediation)とは、中立的な第三者(仲介者)が介入して紛争を解決するための紛争解決法である。 本稿では,大規模言語モデル (LLM) がメディエータとして機能しうる範囲について検討する。 LLMが紛争会話を分析し、適切な介入タイプを選択し、適切な介入メッセージを生成することができるかどうかを検討する。 50の紛争シナリオを手作業で作成した新しいデータセットを用いて、LLMと人間のアノテータを比較し、いくつかの重要な指標を比較検討する。 全体として、LSMは強い性能を示し、次元にわたって人間のアノテータよりも優れています。 具体的には、62%のケースにおいて、LSMは人間の選択したものよりも優れた評価を受けた介入タイプを選択した。 さらに, 84%の症例では, LLMが生成した介入メッセージは, ヒトが作成した介入メッセージと同等かそれ以上の精度で評価された。 LLMも同様に、公平性、理解、文脈化といった指標で好意的に機能した。 我々の結果は、オンライン紛争解決(ODR)プラットフォームにAIを統合する可能性を示している。

Mediation is a dispute resolution method featuring a neutral third-party (mediator) who intervenes to help the individuals resolve their dispute. In this paper, we investigate to which extent large language models (LLMs) are able to act as mediators. We investigate whether LLMs are able to analyze dispute conversations, select suitable intervention types, and generate appropriate intervention messages. Using a novel, manually created dataset of 50 dispute scenarios, we conduct a blind evaluation comparing LLMs with human annotators across several key metrics. Overall, the LLMs showed strong performance, even outperforming our human annotators across dimensions. Specifically, in 62% of the cases, the LLMs chose intervention types that were rated as better than or equivalent to those chosen by humans. Moreover, in 84% of the cases, the intervention messages generated by the LLMs were rated as better than or equal to the intervention messages written by humans. LLMs likewise performed favourably on metrics such as impartiality, understanding and contextualization. Our results demonstrate the potential of integrating AI in online dispute resolution (ODR) platforms.
翻訳日:2024-10-31 22:47:07 公開日:2024-10-09
# モデル編集によるLLM機械翻訳における言語ミスマッチと繰り返し問題

Mitigating the Language Mismatch and Repetition Issues in LLM-based Machine Translation via Model Editing ( http://arxiv.org/abs/2410.07054v1 )

ライセンス: Link先を確認
Weichuan Wang, Zhaoyi Li, Defu Lian, Chen Ma, Linqi Song, Ying Wei, (参考訳) 大規模言語モデル(LLM)は最近、NLPフィールドに革命をもたらしたが、特定の下流タスクでは依然として不足している。 本研究では,LLMを機械翻訳に活用することに集中し,誤りの2つのパターンが頻繁に発生し,言語ミスマッチや繰り返しといった翻訳品質に劇的な影響を与えていることを観察する。 この研究は、例えば、Feed-Forward Network(FFN)ニューロンや、エラーの原因となるものの位置を特定し、推論時にそれらを非活性化することにより、これらの2つの問題を緩和する可能性を探ることを目的としている。 これらの手法を直接適用することは、目標とする誤りに対して限定的な効果を示すか、あるいは一般的な翻訳品質に負の副作用を与えるかのいずれかであり、位置決めされたコンポーネントはレール上のLLMによる機械翻訳の確保にも重要であることを示している。 そこで本研究では,異なる言語設定下で位置決め結果の交点を抽出し,対象の誤りとは無関係な上記の情報をフィルタリングすることで,位置決めコンポーネントを洗練することを提案する。 実験の結果,提案手法は言語ミスマッチと繰り返し比率を効果的に低減し,またほとんどの場合,一般的な翻訳品質を向上・維持できることが示された。

Large Language Models (LLMs) have recently revolutionized the NLP field, while they still fall short in some specific down-stream tasks. In the work, we focus on utilizing LLMs to perform machine translation, where we observe that two patterns of errors frequently occur and drastically affect the translation quality: language mismatch and repetition. The work sets out to explore the potential for mitigating these two issues by leveraging model editing methods, e.g., by locating Feed-Forward Network (FFN) neurons or something that are responsible for the errors and deactivating them in the inference time. We find that directly applying such methods either limited effect on the targeted errors or has significant negative side-effect on the general translation quality, indicating that the located components may also be crucial for ensuring machine translation with LLMs on the rails. To this end, we propose to refine the located components by fetching the intersection of the locating results under different language settings, filtering out the aforementioned information that is irrelevant to targeted errors. The experiment results empirically demonstrate that our methods can effectively reduce the language mismatch and repetition ratios and meanwhile enhance or keep the general translation quality in most cases.
翻訳日:2024-10-31 22:47:07 公開日:2024-10-09
# 反復後選択プロトコルに基づく量子コンピュータのベンチマークに向けて

Towards a benchmark for quantum computers based on an iterated post-selective protocol ( http://arxiv.org/abs/2410.07056v1 )

ライセンス: Link先を確認
Adrian Ortega, Orsolya Kálmán, Tamás Kiss, (参考訳) 繰り返しプロトコルの各ステップにポストセレクションを適用すると、現在の量子コンピュータをテストし、ベンチマークするために使われる可能性のある、敏感な量子力学が導かれる。 このタイプのプロトコルの例は、本来、未知の量子状態と参照状態とをマッチングするタスクのために提案された。 本稿では,量子コンピュータのテストとベンチマークを目的とした量子状態マッチングプロトコルを提案する。 特に、利用可能なIBM超伝導量子コンピュータ上で、このスキームを実装している。 測定値と、古典的に計算し易い1つの最終選択量子ビットの理論的条件付き確率を比較することにより、ベンチマーク計量を定義する。 さらに、実験結果の平均値の標準偏差は、所定の装置の変動を特徴付ける二次ベンチマーク指標として機能する。 検討されたプロトコルの特筆すべき特徴は、初期準備された状態の位相パラメータが存在し、結果として生じる条件確率は依存すべきでないことである。 測定値の慎重な分析は、初期位相への依存が量子デバイスのコヒーレントゲートエラーに関する有用な情報を明らかにすることを示唆している。

Applying post selection in each step of an iterated protocol leads to sensitive quantum dynamics that may be utilized to test and benchmark current quantum computers. An example of this type of protocols was originally proposed for the task of matching an unknown quantum state to a reference state. We propose to employ the quantum state matching protocol for the purpose of testing and benchmarking quantum computers. In particular, we implement this scheme on freely available IBM superconducting quantum computers. By comparing measured values with the theoretical conditional probability of the single, final post-selected qubit, which is easy to calculate classically, we define a benchmark metric. Additionally, the standard deviation of the experimental results from their average serves as a secondary benchmark metric, characterizing fluctuations in the given device. A peculiar feature of the considered protocol is that there is a phase parameter of the initially prepared state, on which the resulting conditional probability should not depend. A careful analysis of the measured values indicates that its dependence on the initial phase can reveal useful information about coherent gate errors of the quantum device.
翻訳日:2024-10-31 22:47:07 公開日:2024-10-09
# 幾何概念のためのオンラインエプシロンネットとピアシングセット

Online Epsilon Net and Piercing Set for Geometric Concepts ( http://arxiv.org/abs/2410.07059v1 )

ライセンス: Link先を確認
Sujoy Bhore, Devdan Dey, Satyam Singh, (参考訳) VC次元と$\varepsilon$-netsは統計学習理論における重要な概念である。 直観的には、VC次元は集合のクラスの大きさの尺度である。 有名な$\varepsilon$-net定理は、離散幾何の基本的な結果であり、集合系のVC次元が有界であれば、すべての十分大きな集合と交わる小さなサンプルが存在すると断言する。 データが順次到着するオンライン学習シナリオでは、VC次元はセットシステムの複雑さを束縛し、$\varepsilon$-netsは小さな代表集合の選択を保証する。 このサンプリングフレームワークは,空間データ解析,動的環境における動作計画,センサネットワークの最適化,コンピュータビジョンにおける特徴抽出など,様々な領域において重要である。 これらの応用に触発されて、有界VC次元を持つ幾何学的概念に対するオンラインの$\varepsilon$-net問題を研究する。 この問題のオフライン版は広く研究されているが、驚くべきことに、現在までのオンライン版の理論的な結果は知られていない。 区間の最適競合比を$\mathbb{R}$で表した最初の決定論的オンラインアルゴリズムを提案する。 次に、$\mathbb{R}^d$, for $d\le 3$の軸整列箱に対して、ほぼ最適の競合比を持つランダム化オンラインアルゴリズムを提案する。 さらに, 独立性のある$\mathbb{R}^d$において, 一定の記述複雑性の類似サイズのオブジェクトを解析するための新しい手法を導入する。 次に、この問題の連続バージョンに焦点をあて、そこでは集合系の範囲は$\mathbb{R}^d$における幾何学的概念であるが、宇宙は空間全体であり、目的はすべての範囲を交差する小さなサンプルを選択することである。

VC-dimension and $\varepsilon$-nets are key concepts in Statistical Learning Theory. Intuitively, VC-dimension is a measure of the size of a class of sets. The famous $\varepsilon$-net theorem, a fundamental result in Discrete Geometry, asserts that if the VC-dimension of a set system is bounded, then a small sample exists that intersects all sufficiently large sets. In online learning scenarios where data arrives sequentially, the VC-dimension helps to bound the complexity of the set system, and $\varepsilon$-nets ensure the selection of a small representative set. This sampling framework is crucial in various domains, including spatial data analysis, motion planning in dynamic environments, optimization of sensor networks, and feature extraction in computer vision, among others. Motivated by these applications, we study the online $\varepsilon$-net problem for geometric concepts with bounded VC-dimension. While the offline version of this problem has been extensively studied, surprisingly, there are no known theoretical results for the online version to date. We present the first deterministic online algorithm with an optimal competitive ratio for intervals in $\mathbb{R}$. Next, we give a randomized online algorithm with a near-optimal competitive ratio for axis-aligned boxes in $\mathbb{R}^d$, for $d\le 3$. Furthermore, we introduce a novel technique to analyze similar-sized objects of constant description complexity in $\mathbb{R}^d$, which may be of independent interest. Next, we focus on the continuous version of this problem, where ranges of the set system are geometric concepts in $\mathbb{R}^d$ arriving in an online manner, but the universe is the entire space, and the objective is to choose a small sample that intersects all the ranges.
翻訳日:2024-10-31 22:47:07 公開日:2024-10-09
# 注意:変換器の線形コンテキストスケーリング

InAttention: Linear Context Scaling for Transformers ( http://arxiv.org/abs/2410.07063v1 )

ライセンス: Link先を確認
Joseph Eisner, (参考訳) 変圧器モデルのVRAM要求は、自己認識機構によるコンテキスト長の2倍にスケールする。 本稿では,トークンを初期状態にのみ参加させることで,推論中にコンテキスト長に線形にスケールする自己アテンションをInAttentionに置き換えるデコーダのみの変換器を改良する。 ベンチマークによると、InAttentionは推論時のVRAM使用を著しく削減し、コンシューマGPU上の長いシーケンスの処理を可能にする。 我々は、微調整がコンテキスト長を効率的に拡張し、トレーニングコストの高い長いシーケンスの性能を向上させることを裏付ける。 InAttentionは、トランスフォーマーモデルにおける長距離依存に対するスケーラブルなソリューションを提供し、さらなる最適化の道を開く。

VRAM requirements for transformer models scale quadratically with context length due to the self-attention mechanism. In this paper we modify the decoder-only transformer, replacing self-attention with InAttention, which scales linearly with context length during inference by having tokens attend only to initial states. Benchmarking shows that InAttention significantly reduces VRAM usage during inference, enabling handling of long sequences on consumer GPUs. We corroborate that fine-tuning extends context length efficiently, improving performance on long sequences without high training costs. InAttention offers a scalable solution for long-range dependencies in transformer models, paving the way for further optimization.
翻訳日:2024-10-31 22:47:07 公開日:2024-10-09
# 言語モデルに対する最適制御によるデータ選択

Data Selection via Optimal Control for Language Models ( http://arxiv.org/abs/2410.07064v1 )

ライセンス: Link先を確認
Yuxian Gu, Li Dong, Hongning Wang, Yaru Hao, Qingxiu Dong, Furu Wei, Minlie Huang, (参考訳) 本研究は,大規模コーパスから高品質な事前学習データを選択することにより,下流利用におけるLMの能力を向上させることを目的とする。 我々は、PMP(Pongryagin's Maximum Principle)によって理論的に解ける一般化された最適制御問題としてデータ選択を定式化し、最適なデータ選択とLMトレーニングダイナミクスの関係を特徴づける必要条件のセットを得る。 これらの理論的結果に基づいて,PMP条件を解くことで最適なデータ選択を近似するPDS(Data Selection)を提案する。 実験では,PDSを用いてCommonCrawlのデータを選択し,PDS選択コーパスがLMの学習を加速し,様々なモデルサイズの下流タスクにおける性能を継続的に向上することを示す。 さらに、PSDの利点は、スケーリング法則に従ってテスト損失曲線の外挿によって証明されるように、10Tトークンで訓練された約400Bモデルにまで拡張される。 PDSはまた、事前学習データに制限がある場合、データ需要を1.8倍に減らし、利用可能なウェブクローリングコーパスの迅速な枯渇を軽減し、データ利用を改善する。 コード、データ、モデルチェックポイントはhttps://github.com/microsoft/LMOps/tree/main/data_selection.orgにある。

This work investigates the selection of high-quality pre-training data from massive corpora to enhance LMs' capabilities for downstream usage. We formulate data selection as a generalized Optimal Control problem, which can be solved theoretically by Pontryagin's Maximum Principle (PMP), yielding a set of necessary conditions that characterize the relationship between optimal data selection and LM training dynamics. Based on these theoretical results, we introduce PMP-based Data Selection (PDS), a framework that approximates optimal data selection by solving the PMP conditions. In our experiments, we adopt PDS to select data from CommmonCrawl and show that the PDS-selected corpus accelerates the learning of LMs and constantly boosts their performance on a wide range of downstream tasks across various model sizes. Moreover, the benefits of PDS extend to ~400B models trained on ~10T tokens, as evidenced by the extrapolation of the test loss curves according to the Scaling Laws. PDS also improves data utilization when the pre-training data is limited, by reducing the data demand by 1.8 times, which mitigates the quick exhaustion of available web-crawled corpora. Our code, data, and model checkpoints can be found in https://github.com/microsoft/LMOps/tree/main/data_selection.
翻訳日:2024-10-31 22:47:07 公開日:2024-10-09
# フォトニック量子コンピューティングにおけるフォールトトレランスの強化:Floquet Codeはテーラーアーキテクチャにおけるサーフェスコードのパフォーマンスを向上する

Enhanced Fault-tolerance in Photonic Quantum Computing: Floquet Code Outperforms Surface Code in Tailored Architecture ( http://arxiv.org/abs/2410.07065v1 )

ライセンス: Link先を確認
Paul Hilaire, Théo Dessertaine, Boris Bourdoncle, Aurélie Denys, Grégoire de Gliniasty, Gerard Valentí-Rojas, Shane Mansfield, (参考訳) 大規模量子計算の実現にはフォールトトレラントな量子コンピューティングが不可欠であり、ハードウェアアーキテクチャと量子エラー訂正符号との相互作用が重要な考慮事項である。 本稿では、スピン光学量子コンピューティングアーキテクチャの変種に実装された2つの量子誤り訂正符号(表面符号とハニカムフロッケ符号)を比較し、一貫したノイズモデルを用いた符号の直接比較を可能にする。 以上の結果から, ハニカムフロッケ符号は, この設定における表面コードよりも著しく優れていた。 特に,ハニカムFloquetコード実装における光子損失閾値の6.4%を達成している。 この発見は、光子を介する量子コンピューティングにおいて、光子損失がエラーの主な原因であることを考えると、特に重要である。

Fault-tolerant quantum computing is crucial for realizing large-scale quantum computation, and the interplay between hardware architecture and quantum error-correcting codes is a key consideration. We present a comparative study of two quantum error-correcting codes - the surface code and the honeycomb Floquet code - implemented on variants of the spin-optical quantum computing architecture, enabling a direct comparison of the codes using consistent noise models. Our results demonstrate that the honeycomb Floquet code significantly outperforms the surface code in this setting. Notably, we achieve a photon loss threshold of 6.4% for the honeycomb Floquet code implementation - to our knowledge the highest reported for photonic platforms to date without large-scale multiplexing. This finding is particularly significant given that photon loss is the primary source of errors in photon-mediated quantum computing.
翻訳日:2024-10-31 22:47:07 公開日:2024-10-09
# ReIFE: インストラクションフォロー評価の再評価

ReIFE: Re-evaluating Instruction-Following Evaluation ( http://arxiv.org/abs/2410.07069v1 )

ライセンス: Link先を確認
Yixin Liu, Kejian Shi, Alexander R. Fabbri, Yilun Zhao, Peifeng Wang, Chien-Sheng Wu, Shafiq Joty, Arman Cohan, (参考訳) 命令追従の自動評価は、通常、大きな言語モデル(LLM)を使用して応答品質を評価する。 しかし、これらのLCMに基づく評価器は、基本LSMと評価プロトコルの2つの次元にわたって包括的に評価されていない。 そこで本研究では,25基のLDMと15基の最近提案された評価プロトコルを含む命令の詳細なメタ評価を行い,LLM評価器の評価精度を評価した。 評価により,高いロバスト性を有する最良性能のLCMと評価プロトコルを同定できる。 さらに, 大規模評価では, 1) 評価プロトコル間の性能評価は, 信頼性が低いこと,(2) 評価プロトコルのロバスト評価は, プロトコルの性能が使用するベースLLMに依存しているため, 多くの基本LLMを必要とすること,(3) 異なるデータセットに対する評価結果が常に一致しているとは限らないこと, 厳密な評価は, 特徴のある複数のデータセットを必要とすること,などを明らかにした。 我々は,500 LLM-evaluator 構成のコードベースと評価結果の収集を行うメタ評価スイート ReIFE をリリースした。

The automatic evaluation of instruction following typically involves using large language models (LLMs) to assess response quality. However, there is a lack of comprehensive evaluation of these LLM-based evaluators across two dimensions: the base LLMs and the evaluation protocols. Therefore, we present a thorough meta-evaluation of instruction following, including 25 base LLMs and 15 recently proposed evaluation protocols, on 4 human-annotated datasets, assessing the evaluation accuracy of the LLM-evaluators. Our evaluation allows us to identify the best-performing base LLMs and evaluation protocols with a high degree of robustness. Moreover, our large-scale evaluation reveals: (1) Base LLM performance ranking remains largely consistent across evaluation protocols, with less capable LLMs showing greater improvement from protocol enhancements; (2) Robust evaluation of evaluation protocols requires many base LLMs with varying capability levels, as protocol effectiveness can depend on the base LLM used; (3) Evaluation results on different datasets are not always consistent, so a rigorous evaluation requires multiple datasets with distinctive features. We release our meta-evaluation suite ReIFE, which provides the codebase and evaluation result collection for more than 500 LLM-evaluator configurations, to support future research in instruction-following evaluation.
翻訳日:2024-10-31 22:47:06 公開日:2024-10-09
# 隣り合う位置まで相互作用を持つ2ボソン格子ハミルトニアン

A two-boson lattice Hamiltonian with interactions up to next-neighboring sites ( http://arxiv.org/abs/2410.07070v1 )

ライセンス: Link先を確認
S. N. Lakaev, A. K. Motovilov, M. O. Akhmadova, (参考訳) 2次元格子上の2つの同一スピンレスボソンの系は、ボソン間のオンサイトと第1および第2の隣り合うサイト相互作用は非自明であり、これらの相互作用は等級$\gamma$、$\lambda$、$\mu$である、という仮定の下で考慮される。 連結成分への$(\gamma,\lambda,\mu)$-空間の分割は、各連結成分において、質量の中心の零準モメンタムに対応する2ボソンシュレーディンガー作用素が、本質的(連続的な)スペクトルの底下にあり、その上に位置する定数の固有値を持つように確立される。 さらに、各連結成分に対して、質量中心準同値の許容不能な任意の非零値に対応する2ボソンシュリンガー作用素の孤立固有値の個数に鋭い下界が成立する。

A system of two identical spinless bosons on the two-dimensional lattice is considered under the assumption that on-site and first and second nearest-neighboring site interactions between the bosons are only nontrivial and that these interactions are of magnitudes $\gamma$, $\lambda$, and $\mu$, respectively. A partition of the $(\gamma,\lambda,\mu)$-space into connected components is established such that, in each connected component, the two-boson Schroedinger operator corresponding to the zero quasi-momentum of the center of mass has a definite (fixed) number of eigenvalues, which are situated below the bottom of the essential (continuous) spectrum and above its top. Moreover, for each connected component, a sharp lower bound is established on the number of isolated eigenvalues for the two-boson Schr\"odinger operator corresponding to any admissible nonzero value of the center-of-mass quasimomentum.
翻訳日:2024-10-31 22:47:06 公開日:2024-10-09
# Retrieval-Augmented Decision Transformer:In-context RLのための外部メモリ

Retrieval-Augmented Decision Transformer: External Memory for In-context RL ( http://arxiv.org/abs/2410.07071v1 )

ライセンス: Link先を確認
Thomas Schmied, Fabian Paischer, Vihang Patil, Markus Hofmarcher, Razvan Pascanu, Sepp Hochreiter, (参考訳) In-context Learning(ICL)は、モデルがそのコンテキストでいくつかの例を観察することによって新しいタスクを学習する能力である。 NLPで広く使われているが、最近は強化学習(RL)設定でもこの能力が観察されている。 しかし、事前のコンテキスト内RLメソッドは、エージェントのコンテキストにおける全エピソードを必要とする。 複雑な環境は、通常、まばらな報酬を伴う長いエピソードにつながるので、これらの手法は短いエピソードを持つ単純な環境に制約される。 これらの課題に対処するために、我々はRetrieval-Augmented Decision Transformer (RA-DT)を紹介する。 RA-DTは、過去の体験を格納するために外部メモリ機構を使用し、現在の状況に関連するサブトラジェクトリのみを取得する。 RA-DTの検索コンポーネントはトレーニングを必要とせず、完全にドメインに依存しない。 我々は,RA-DTのグリッドワールド環境,ロボットシミュレーション,手続き的に生成したビデオゲームにおける能力を評価する。 グリッドワールドでは、RA-DTはベースラインよりも優れており、コンテキスト長のごく一部しか使用していない。 さらに、複雑な環境における現在のコンテキスト内RL法の限界を照らし、今後の方向性について議論する。 今後の研究を容易にするため、検討された4つの環境のデータセットをリリースする。

In-context learning (ICL) is the ability of a model to learn a new task by observing a few exemplars in its context. While prevalent in NLP, this capability has recently also been observed in Reinforcement Learning (RL) settings. Prior in-context RL methods, however, require entire episodes in the agent's context. Given that complex environments typically lead to long episodes with sparse rewards, these methods are constrained to simple environments with short episodes. To address these challenges, we introduce Retrieval-Augmented Decision Transformer (RA-DT). RA-DT employs an external memory mechanism to store past experiences from which it retrieves only sub-trajectories relevant for the current situation. The retrieval component in RA-DT does not require training and can be entirely domain-agnostic. We evaluate the capabilities of RA-DT on grid-world environments, robotics simulations, and procedurally-generated video games. On grid-worlds, RA-DT outperforms baselines, while using only a fraction of their context length. Furthermore, we illuminate the limitations of current in-context RL methods on complex environments and discuss future directions. To facilitate future research, we release datasets for four of the considered environments.
翻訳日:2024-10-31 22:47:06 公開日:2024-10-09
# XAIに向けて:MIMO受信処理のためのドメイン知識を用いたRNNウェイトの設定

Towards xAI: Configuring RNN Weights using Domain Knowledge for MIMO Receive Processing ( http://arxiv.org/abs/2410.07072v1 )

ライセンス: Link先を確認
Shashank Jere, Lizhong Zheng, Karim Said, Lingjia Liu, (参考訳) 深層学習は、無線通信の物理的層に大きな影響を与えている。 MIMO受信処理などのタスクで優れた経験的性能を示したにもかかわらず、性能改善が示された理由はほとんど不明である。 本研究では,信号処理原理を用いた無線通信の物理層における説明可能なAI(xAI)の分野を前進させる。 具体的には、リカレントニューラルネットワーク(RNN)内のフレームワークである貯水池コンピューティング(RC)を用いたMIMO-OFDM受信処理(例えばシンボル検出)のタスクに着目し、従来のMIMO検出器と他の学習ベースのMIMO検出器より優れている。 我々の分析は信号処理に基づく第一原理によるRCの動作の理解を提供する。 この基本的な理解に基づいて、MIMO-OFDMシンボル検出のためにトレーニングされていないRNN重みを直接設定することで、無線システムのドメイン知識(チャネル統計など)を基礎となるRNNの設計に体系的に組み込むことができる。 導入されたRNN重み設定は、大幅な性能改善を示す広範囲なシミュレーションを通じて検証されている。 これにより、MIMO-OFDMの受信処理におけるRCベースのアーキテクチャの説明可能な基盤を確立し、NextGシステムのニューラルネットワーク設計にドメイン知識を組み込むロードマップを提供する。

Deep learning is making a profound impact in the physical layer of wireless communications. Despite exhibiting outstanding empirical performance in tasks such as MIMO receive processing, the reasons behind the demonstrated superior performance improvement remain largely unclear. In this work, we advance the field of Explainable AI (xAI) in the physical layer of wireless communications utilizing signal processing principles. Specifically, we focus on the task of MIMO-OFDM receive processing (e.g., symbol detection) using reservoir computing (RC), a framework within recurrent neural networks (RNNs), which outperforms both conventional and other learning-based MIMO detectors. Our analysis provides a signal processing-based, first-principles understanding of the corresponding operation of the RC. Building on this fundamental understanding, we are able to systematically incorporate the domain knowledge of wireless systems (e.g., channel statistics) into the design of the underlying RNN by directly configuring the untrained RNN weights for MIMO-OFDM symbol detection. The introduced RNN weight configuration has been validated through extensive simulations demonstrating significant performance improvements. This establishes a foundation for explainable RC-based architectures in MIMO-OFDM receive processing and provides a roadmap for incorporating domain knowledge into the design of neural networks for NextG systems.
翻訳日:2024-10-31 22:37:20 公開日:2024-10-09
# GNNに聞く - グラフインコンテキスト学習のための大規模言語モデル

Let's Ask GNN: Empowering Large Language Model for Graph In-Context Learning ( http://arxiv.org/abs/2410.07074v1 )

ライセンス: Link先を確認
Zhengyu Hu, Yichuan Li, Zhengyu Chen, Jingang Wang, Han Liu, Kyumin Lee, Kaize Ding, (参考訳) テキスト分散グラフ(TAG)は複雑な実世界のシステムのモデリングには不可欠であるが、大規模言語モデル(LLM)をTAGに活用することは、シーケンシャルなテキスト処理とグラフ構造化データの間のギャップが原因で、独特な課題を提起する。 In-Context Learning(ICL)を活用して、グラフデータとタスク固有の情報をLLMに統合することで、このギャップを埋める新しいアプローチであるAskGNNを紹介します。 AskGNNはグラフニューラルネットワーク(GNN)を利用した構造強化レトリバーを使用して、グラフをまたいだラベル付きノードを選択し、複雑なグラフ構造とその監視信号を統合する。 学習から検索までのアルゴリズムは,グラフ上でのLLM性能を最大化するサンプルノードを選択するために,検索アルゴリズムを最適化する。 3つのタスクと7つのLLMにわたる実験は、グラフタスクのパフォーマンスにおいてAskGNNの優れた効果を示し、広範囲な微調整なしにグラフ構造化データに適用するための新たな道を開く。

Textual Attributed Graphs (TAGs) are crucial for modeling complex real-world systems, yet leveraging large language models (LLMs) for TAGs presents unique challenges due to the gap between sequential text processing and graph-structured data. We introduce AskGNN, a novel approach that bridges this gap by leveraging In-Context Learning (ICL) to integrate graph data and task-specific information into LLMs. AskGNN employs a Graph Neural Network (GNN)-powered structure-enhanced retriever to select labeled nodes across graphs, incorporating complex graph structures and their supervision signals. Our learning-to-retrieve algorithm optimizes the retriever to select example nodes that maximize LLM performance on graph. Experiments across three tasks and seven LLMs demonstrate AskGNN's superior effectiveness in graph task performance, opening new avenues for applying LLMs to graph-structured data without extensive fine-tuning.
翻訳日:2024-10-31 22:37:20 公開日:2024-10-09
# 磁場下での2つのXYZ-ハイゼンベルク量子状態の絡み合い, フィッシャーおよびウィグナー・ヤネーゼ情報相関に及ぼすDMとKSEA相互作用の影響

Effects of DM and KSEA interactions on entanglement, Fisher and Wigner-Yanase information correlations of two XYZ-Heisenberg-qubit states under a magnetic field ( http://arxiv.org/abs/2410.07075v1 )

ライセンス: Link先を確認
S. Gaidi, A. Slaoui, A-B. A. Mohamed, M. EL Falaki, R. Ahl Laamara, (参考訳) 我々は、ジアルシンスキー・モリヤ(DM)とカプラン・シャフツマン・エンティン・ウールマン・アハロニ(KSEA)相互作用および磁場と熱平衡温度の影響下での2つのXYZ-ハイゼンベルク量子ビット状態間の熱的絡み合いを特徴付けるために、絡み合い負性、局所量子不確実性(LQU)および局所量子フィッシャー情報(LQFI)を用いる。 比較試験では、これらの相関指標に類似した挙動が示される。 反強磁性のシナリオでは、DM相互作用パラメータDzの増加は熱絡みを強める。 逆に強磁性の場合、熱絡みの挙動は異なるDzと異なる。 さらに、クラウス作用素を用いて、これらの量化器の性能をデコヒーレンスで調べる。 特に、LQFIは負性やLQUよりも強い堅牢性を示し、ある時点で凍った現象を誇示する。

We employ entanglement negativity, local quantum uncertainty (LQU), and local quantum Fisher information (LQFI) to characterize thermal entanglement between two XYZ-Heisenberg-qubit states under the influence of Dzyaloshinsky Moriya (DM) and Kaplan Shekhtman Entin Wohlman Aharony (KSEA) interactions, as well as a magnetic field and thermal equilibrium temperature. A comparative examination reveals similar behaviors among these correlation measures. For the antiferromagnetic scenario, we observe that increasing the DM interaction parameter Dz enhances thermal entanglement. Conversely, in the ferromagnetic case, the behavior of thermal entanglement differs with varying Dz. Additionally, employing Kraus operators, we explore the performance of these quantifiers under decoherence. Notably, LQFI exhibits greater robustness than negativity and LQU, even displaying a frozen phenomenon at some time under dephasing effects.
翻訳日:2024-10-31 22:37:20 公開日:2024-10-09
# 多レベル危険定義を用いた道路交差点交通シナリオの自動生成

Automated and Complete Generation of Traffic Scenarios at Road Junctions Using a Multi-level Danger Definition ( http://arxiv.org/abs/2410.07079v1 )

ライセンス: Link先を確認
Aren A. Babikian, Attila Ficsor, Oszkár Semeráth, Gunter Mussbacher, Dániel Varró, (参考訳) 安全を確保するために、自律走行車(AV)は、他のアクターが意図した操作を行う(任意)シナリオ内で安全に操作を実行することを含む厳格な認定基準を満たす必要がある。 その目的のために、既存のシナリオ生成アプローチは、危険な状況の確率の高いシナリオを導出するために探索を最適化する。 本稿では,道路合流点において,各アクターが指定したハイレベルな操作を行う際に,重なり合う経路から潜在的な危険が発生することを仮説する。 AV認定へのステップとして、任意の道路交差点における(潜在的に危険な)抽象的シナリオの完全なセット、すなわち、ある可能な抽象的パスの集合に対してアクターに割り当てられた抽象的パス(AVを含む)の重なり合う全ての置換を導出するアプローチを提案する。 これらの抽象的なシナリオから、アクターはシミュレーションベースのテストから潜在的な衝突へ導くために従わなければならない正確な経路を導出する。 我々は,2つの現実的な道路合流点上で発生したシナリオに対して,最先端の学習に基づくAVコントローラの動作を評価するための広範囲な実験を行った。 その結果、AVアンダーテストは、機能的および論理的シナリオ特性によって異なるシミュレーションにおける安全でない振る舞いの割合の増加に関与していることがわかった。

To ensure their safe use, autonomous vehicles (AVs) must meet rigorous certification criteria that involve executing maneuvers safely within (arbitrary) scenarios where other actors perform their intended maneuvers. For that purpose, existing scenario generation approaches optimize search to derive scenarios with high probability of dangerous situations. In this paper, we hypothesise that at road junctions, potential danger predominantly arises from overlapping paths of individual actors carrying out their designated high-level maneuvers. As a step towards AV certification, we propose an approach to derive a complete set of (potentially dangerous) abstract scenarios at any given road junction, i.e. all permutations of overlapping abstract paths assigned to actors (including the AV) for a given set of possible abstract paths. From these abstract scenarios, we derive exact paths that actors must follow to guide simulation-based testing towards potential collisions. We conduct extensive experiments to evaluate the behavior of a state-of-the-art learning based AV controller on scenarios generated over two realistic road junctions with increasing number of external actors. Results show that the AV-under-test is involved in increasing percentages of unsafe behaviors in simulation, which vary according to functional- and logical-level scenario properties.
翻訳日:2024-10-31 22:37:20 公開日:2024-10-09
# JPEGがディープラーニングにインスパイア

JPEG Inspired Deep Learning ( http://arxiv.org/abs/2410.07081v1 )

ライセンス: Link先を確認
Ahmed H. Salamah, Kaixiang Zheng, Yiwen Liu, En-Hui Yang, (参考訳) JPEG圧縮のような損失のある画像圧縮はディープニューラルネットワーク(DNN)の性能に悪影響を及ぼすと伝統的に信じられているが、近年の研究では、精巧なJPEG圧縮がディープラーニング(DL)の性能を実際に改善できることが示されている。 これに触発されて、トレーニング可能なJPEG圧縮層で基盤となるDNNアーキテクチャをプリペイドする新しいDLフレームワークJPEG-DLを提案する。 JPEG圧縮における量子化操作を訓練するために、JPEG層に新しい微分可能なソフト量子化器を用い、次いで、量子化演算と基礎となるDNNを共同で訓練する。 実験の結果、JPEG-DLは標準のDLと比較して、さまざまなデータセットやモデルアーキテクチャで大幅な精度向上を実現し、敵攻撃に対する堅牢性を高めていることがわかった。 特に、細かな画像分類データセットでは、JPEG-DLは予測精度を最大20.9%向上させることができる。 私たちのコードはhttps://github.com/JpegInspiredDl/JPEG-Inspired-DL.gitで利用可能です。

Although it is traditionally believed that lossy image compression, such as JPEG compression, has a negative impact on the performance of deep neural networks (DNNs), it is shown by recent works that well-crafted JPEG compression can actually improve the performance of deep learning (DL). Inspired by this, we propose JPEG-DL, a novel DL framework that prepends any underlying DNN architecture with a trainable JPEG compression layer. To make the quantization operation in JPEG compression trainable, a new differentiable soft quantizer is employed at the JPEG layer, and then the quantization operation and underlying DNN are jointly trained. Extensive experiments show that in comparison with the standard DL, JPEG-DL delivers significant accuracy improvements across various datasets and model architectures while enhancing robustness against adversarial attacks. Particularly, on some fine-grained image classification datasets, JPEG-DL can increase prediction accuracy by as much as 20.9%. Our code is available on https://github.com/JpegInspiredDl/JPEG-Inspired-DL.git.
翻訳日:2024-10-31 22:37:20 公開日:2024-10-09
# スタンスフォーマ:スタンス検出のためのターゲット対応トランス

Stanceformer: Target-Aware Transformer for Stance Detection ( http://arxiv.org/abs/2410.07083v1 )

ライセンス: Link先を確認
Krishna Garg, Cornelia Caragea, (参考訳) スタンス検出のタスクは、テキストで表されるスタンスを特定の主題や対象に向けて識別することを含む。 以前の作業は、ターゲットを効果的に優先順位付けする能力に欠ける既存のトランスフォーマーモデルに依存していた。 その結果、これらのモデルでは、ターゲット情報の利用や無視にかかわらず、同様の性能が得られ、タスクの意義を損なうことになる。 この課題に対処するために、トレーニングと推論の両方においてターゲットに対する注意を高めるターゲット対応トランスフォーマーモデルであるStanceformerを導入する。 具体的には,ターゲットに割り当てられた自己注意スコアを増大させる<textit{Target Awareness} 行列を設計する。 本研究では,最新の技術モデルや大規模言語モデル(LLM)など,様々なBERTモデルを用いたStanceformerの有効性を実証し,ゼロショットデータセットとともに3つのスタンス検出データセットのパフォーマンスを評価する。 我々のアプローチであるStanceformerは、優れたパフォーマンスを提供するだけでなく、アスペクトベースのセンチメント分析のような他のドメインにも一般化します。 コードを公開しています。 \footnote{\scriptsize\url{https://github.com/kgarg8/Stanceformer}}

The task of Stance Detection involves discerning the stance expressed in a text towards a specific subject or target. Prior works have relied on existing transformer models that lack the capability to prioritize targets effectively. Consequently, these models yield similar performance regardless of whether we utilize or disregard target information, undermining the task's significance. To address this challenge, we introduce Stanceformer, a target-aware transformer model that incorporates enhanced attention towards the targets during both training and inference. Specifically, we design a \textit{Target Awareness} matrix that increases the self-attention scores assigned to the targets. We demonstrate the efficacy of the Stanceformer with various BERT-based models, including state-of-the-art models and Large Language Models (LLMs), and evaluate its performance across three stance detection datasets, alongside a zero-shot dataset. Our approach Stanceformer not only provides superior performance but also generalizes even to other domains, such as Aspect-based Sentiment Analysis. We make the code publicly available.\footnote{\scriptsize\url{https://github.com/kgarg8/Stanceformer}}
翻訳日:2024-10-31 22:37:20 公開日:2024-10-09
# グラフニューラルネットワークによる衝突検出

Collusion Detection with Graph Neural Networks ( http://arxiv.org/abs/2410.07091v1 )

ライセンス: Link先を確認
Lucas Gomes, Jannis Kueck, Mara Mattes, Martin Spindler, Alexey Zaytsev, (参考訳) コルーシオン(Colusion)は、企業が秘密裏に協力して詐欺行為を行う複雑な現象である。 本稿では,ニューラルネットワーク(NN)とグラフニューラルネットワーク(GNN)を用いて,各国市場における共謀パターンの検出と予測を行う革新的な手法を提案する。 GNNはこのタスクに特に適しているのは、共謀やその他の経済問題に存在するネットワーク構造を活用できるからである。 フェーズIでは,日本,米国,スイス,イタリア,ブラジルの2つの地域において,単一市場における共謀の予測に焦点をあてて,個々の市場データセットのモデルを開発,訓練する。 フェーズIIでは、ゼロショット学習を通じてモデルの応用性を拡張し、トレーニングデータが利用できない市場での共謀を検出するトランスファーラーニングアプローチを採用する。 このフェーズでは、他国や地域の目に見えないデータセット上でのモデルの性能を評価するために、アウト・オブ・ディストリビューション(OOD)の一般化も取り入れている。 本研究では,GNNが複雑な凝固パターンを検出する上で,NNよりも優れていることを示す。 本研究は、市場公正性と経済福祉を高めるために、NNとGNNの経済利用に関する貴重なガイダンスを提供するとともに、衝突防止と検出方法の最適化に関する継続的な議論に貢献する。

Collusion is a complex phenomenon in which companies secretly collaborate to engage in fraudulent practices. This paper presents an innovative methodology for detecting and predicting collusion patterns in different national markets using neural networks (NNs) and graph neural networks (GNNs). GNNs are particularly well suited to this task because they can exploit the inherent network structures present in collusion and many other economic problems. Our approach consists of two phases: In Phase I, we develop and train models on individual market datasets from Japan, the United States, two regions in Switzerland, Italy, and Brazil, focusing on predicting collusion in single markets. In Phase II, we extend the models' applicability through zero-shot learning, employing a transfer learning approach that can detect collusion in markets in which training data is unavailable. This phase also incorporates out-of-distribution (OOD) generalization to evaluate the models' performance on unseen datasets from other countries and regions. In our empirical study, we show that GNNs outperform NNs in detecting complex collusive patterns. This research contributes to the ongoing discourse on preventing collusion and optimizing detection methodologies, providing valuable guidance on the use of NNs and GNNs in economic applications to enhance market fairness and economic welfare.
翻訳日:2024-10-31 22:37:20 公開日:2024-10-09
# LaMP: 動き生成、検索、キャプションのための言語運動事前トレーニング

LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning ( http://arxiv.org/abs/2410.07093v1 )

ライセンス: Link先を確認
Zhe Li, Weihao Yuan, Yisheng He, Lingteng Qiu, Shenhao Zhu, Xiaodong Gu, Weichao Shen, Yuan Dong, Zilong Dong, Laurence T. Yang, (参考訳) 言語は人間の動きの領域において重要な役割を果たす。 既存の方法は、モーション生成のためのCLIPテキストの埋め込みに大きく依存しているが、静的な画像とテキストのペアでCLIPが事前学習しているため、言語とモーションを効果的に整合させるには不足している。 この研究は、Language-Motion PretrainingモデルであるLaMPを導入し、言語ビジョンからより適切な言語モーション潜在空間に移行する。 モーションインフォームティブなテキスト埋め込みを生成することで鍵となる制限に対処し、生成されたモーションシーケンスの関連性とセマンティクスを大幅に強化する。 LaMPでは, テキスト・ツー・モーション生成, モーション・テキスト検索, 動きキャプションの3つの重要なタスクを, 一致した言語・モーション表現学習を通じて進める。 生成にはLaMPを用いてCLIPの代わりにテキスト条件を提供する。また,自動回帰マスク予測は,変圧器のランク崩壊を伴わずにマスクモデリングを実現するように設計されている。 検索には、LaMPのモーショントランスフォーマーのモーション機能がクエリトークンと相互作用し、テキストトランスフォーマーからテキスト機能を取得する。 キャプションでは,言語非表現の動作特徴を持つ大きな言語モデルを微調整し,強力な動きキャプションモデルを開発する。 さらに,テキスト記述による動きのアライメントを評価するため,LaMP-BertScoreメトリックを導入する。 複数のデータセットに対する大規模な実験結果は、3つのタスクすべてにわたって以前の方法よりも大幅に改善されている。 私たちのメソッドのコードは公開されます。

Language plays a vital role in the realm of human motion. Existing methods have largely depended on CLIP text embeddings for motion generation, yet they fall short in effectively aligning language and motion due to CLIP's pretraining on static image-text pairs. This work introduces LaMP, a novel Language-Motion Pretraining model, which transitions from a language-vision to a more suitable language-motion latent space. It addresses key limitations by generating motion-informative text embeddings, significantly enhancing the relevance and semantics of generated motion sequences. With LaMP, we advance three key tasks: text-to-motion generation, motion-text retrieval, and motion captioning through aligned language-motion representation learning. For generation, we utilize LaMP to provide the text condition instead of CLIP, and an autoregressive masked prediction is designed to achieve mask modeling without rank collapse in transformers. For retrieval, motion features from LaMP's motion transformer interact with query tokens to retrieve text features from the text transformer, and vice versa. For captioning, we finetune a large language model with the language-informative motion features to develop a strong motion captioning model. In addition, we introduce the LaMP-BertScore metric to assess the alignment of generated motions with textual descriptions. Extensive experimental results on multiple datasets demonstrate substantial improvements over previous methods across all three tasks. The code of our method will be made public.
翻訳日:2024-10-31 22:37:20 公開日:2024-10-09
# ソフトウェアエンジニアリングチャットボットにおけるラベリング関数の自動生成手法

An Approach for Auto Generation of Labeling Functions for Software Engineering Chatbots ( http://arxiv.org/abs/2410.07094v1 )

ライセンス: Link先を確認
Ebube Alor, Ahmad Abdellatif, SayedHassan Khatoonabadi, Emad Shihab, (参考訳) ソフトウェアエンジニアリング(SE)チャットボットは、開発プロセスの強化における役割に対して、ますます注目を集めている。 チャットボットの中核は自然言語理解プラットフォーム(NLU)であり、ユーザクエリの理解と応答を可能にする。 NLUをデプロイする前には、ラベル付きデータでトレーニングする必要がある。 しかし、高品質なデータセットが不足しているため、SEチャットボットのラベル付きデータを取得することは困難である。 この課題は、SEチャットボットのトレーニングには、典型的な言語データセットにない特別な語彙とフレーズが必要であるためである。 その結果、チャットボット開発者は、しばしば、効果的なチャットボットのトレーニングに必要なデータを集めるために、手動でユーザークエリーをアノテートする。 従来の研究では、ユーザの提案したクエリに注釈をつける際に、チャットボットの実践者を支援するアプローチが提案されている。 しかしながら、これらのアプローチでは、データ内の特定のパターンに基づいてユーザクエリを識別し分類するラベル付け機能(LF)と呼ばれるルールを生成するための人間の介入が必要となる。 この問題に対処するために,ラベル付きユーザクエリからパターンを抽出してLFを自動的に生成する手法を提案する。 AskGit, MSA, Ask Ubuntu, Stack Overflowの4つのSEデータセットのクエリに適用することで, 提案手法の有効性を評価し, 生成したLFでラベル付けされたクエリに対して, NLUをトレーニングすることによって得られる性能改善を評価する。 生成されたLFは、AUCスコアが85.3%までのデータを効果的にラベル付けし、NLUのパフォーマンスは研究データセット全体で27.2%まで向上した。 さらに,LFの生成に使用するLFの数がラベル付け性能に影響を及ぼすことを示した。 当社のアプローチは,ユーザのクエリをラベル付けする際の時間とリソースを節約し,実践者がチャットボットのコア機能に集中できるようにするものだと考えています。

Software engineering (SE) chatbots are increasingly gaining attention for their role in enhancing development processes. At the core of chatbots are the Natural Language Understanding platforms (NLUs), which enable them to comprehend and respond to user queries. Before deploying NLUs, there is a need to train them with labeled data. However, acquiring such labeled data for SE chatbots is challenging due to the scarcity of high-quality datasets. This challenge arises because training SE chatbots requires specialized vocabulary and phrases not found in typical language datasets. Consequently, chatbot developers often resort to manually annotating user queries to gather the data necessary for training effective chatbots, a process that is both time-consuming and resource-intensive. Previous studies propose approaches to support chatbot practitioners in annotating users' posed queries. However, these approaches require human intervention to generate rules, called labeling functions (LFs), that identify and categorize user queries based on specific patterns in the data. To address this issue, we propose an approach to automatically generate LFs by extracting patterns from labeled user queries. We evaluate the effectiveness of our approach by applying it to the queries of four diverse SE datasets (namely AskGit, MSA, Ask Ubuntu, and Stack Overflow) and measure the performance improvement gained from training the NLU on the queries labeled by the generated LFs. We find that the generated LFs effectively label data with AUC scores of up to 85.3%, and NLU's performance improvement of up to 27.2% across the studied datasets. Furthermore, our results show that the number of LFs used to generate LFs affects the labeling performance. We believe that our approach can save time and resources in labeling users' queries, allowing practitioners to focus on core chatbot functionalities.
翻訳日:2024-10-31 22:27:10 公開日:2024-10-09
# 過次文脈の繰り返しによる大規模言語モデルにおけるマルチホップ推論の可能性

Unleashing Multi-Hop Reasoning Potential in Large Language Models through Repetition of Misordered Context ( http://arxiv.org/abs/2410.07103v1 )

ライセンス: Link先を確認
Sangwon Yu, Ik-hwan Kim, Jongyoon Song, Saehyung Lee, Junsung Park, Sungroh Yoon, (参考訳) マルチホップ推論(Multi-hop reasoning)は、あるコンテキスト内でのサポートドキュメントに基づいて多段階の推論を必要とするが、大きな言語モデル(LLM)では依然として困難である。 LLMは、コンテキスト内の無関係なドキュメントをフィルタリングするのに苦労することが多く、それらのパフォーマンスは、そのコンテキスト内のドキュメントをサポートする位置に敏感である。 本稿では, LLMの性能も, 支援文書が提示される順序に敏感であることを示す。 我々はこれを、順序のずれた文脈問題と呼ぶ。 この問題に対処するため,我々は,コンテキストを繰り返し提示し,支援文書がモデルに対して最適な順序で提示されることを保証し,モデルに促す,コンテキスト反復(CoRe)と呼ばれるシンプルで効果的な手法を提案する。 CoReを用いて,マルチホップQAタスクのF1スコアを最大30%改善し,合成タスクの精度を最大70%向上する。 さらに、CoRe は LLM におけるよく知られた "lost-in-the-middle" 問題を緩和し、Chain-of-Thought (CoT) 推論を用いた検索ベースのアプローチと効果的に組み合わせることができる。

Multi-hop reasoning, which requires multi-step reasoning based on the supporting documents within a given context, remains challenging for large language models (LLMs). LLMs often struggle to filter out irrelevant documents within the context, and their performance is sensitive to the position of supporting documents within that context. In this paper, we identify an additional challenge: LLMs' performance is also sensitive to the order in which the supporting documents are presented. We refer to this as the misordered context problem. To address this issue, we propose a simple yet effective method called context repetition (CoRe), which involves prompting the model by repeatedly presenting the context to ensure the supporting documents are presented in the optimal order for the model. Using CoRe, we improve the F1 score by up to 30%p on multi-hop QA tasks and increase accuracy by up to 70%p on a synthetic task. Additionally, CoRe helps mitigate the well-known "lost-in-the-middle" problem in LLMs and can be effectively combined with retrieval-based approaches utilizing Chain-of-Thought (CoT) reasoning.
翻訳日:2024-10-31 22:27:10 公開日:2024-10-09
# 継続的な学習: 忘れることの少ない,適応的コントラストリプレイによるOOD一般化

Continual Learning: Less Forgetting, More OOD Generalization via Adaptive Contrastive Replay ( http://arxiv.org/abs/2410.07110v1 )

ライセンス: Link先を確認
Hossein Rezaei, Mohammad Sabokrou, (参考訳) 機械学習モデルは、新しいクラスを学ぶ際に、以前に学んだ知識を忘れてしまうことも多い。 この問題を緩和するために様々な方法が提案されている。 しかし、従来の授業のサンプルを保持するリハーサルベースの学習は、通常、優れたパフォーマンスを達成できるが、特定のインスタンスを記憶し、アウト・オブ・ディストリビューション(OOD)の一般化に苦慮する傾向にある。 これはしばしば高い忘れ込み率と低い一般化につながる。 驚くべきことに、これらの手法のOOD一般化能力はほとんど解明されていない。 本稿では,この問題に焦点をあて,これを解決するための対照的な学習とデータ中心の原則に着想を得た,シンプルで効果的な戦略を提案する。 本稿では,アダプティブ・コントラスト・リプレイ(ACR, Adaptive Contrastive Replay)を提案する。 ACRは、クラスとタスクのバランスの取れた表現を確保しながら、誤って分類されたサンプルでリプレイバッファを適応的にポップアップさせる。 このようにして決定境界を精製することにより、ACRは安定性と可塑性のバランスを達成する。 提案手法は従来のOOD一般化手法よりも優れており,スプリット CIFAR-100 では 13.41 %,スプリット Mini-ImageNet では 9.91 %,スプリット Tiny-ImageNet では 5.98 % の改善が達成されている。

Machine learning models often suffer from catastrophic forgetting of previously learned knowledge when learning new classes. Various methods have been proposed to mitigate this issue. However, rehearsal-based learning, which retains samples from previous classes, typically achieves good performance but tends to memorize specific instances, struggling with Out-of-Distribution (OOD) generalization. This often leads to high forgetting rates and poor generalization. Surprisingly, the OOD generalization capabilities of these methods have been largely unexplored. In this paper, we highlight this issue and propose a simple yet effective strategy inspired by contrastive learning and data-centric principles to address it. We introduce Adaptive Contrastive Replay (ACR), a method that employs dual optimization to simultaneously train both the encoder and the classifier. ACR adaptively populates the replay buffer with misclassified samples while ensuring a balanced representation of classes and tasks. By refining the decision boundary in this way, ACR achieves a balance between stability and plasticity. Our method significantly outperforms previous approaches in terms of OOD generalization, achieving an improvement of 13.41\% on Split CIFAR-100, 9.91\% on Split Mini-ImageNet, and 5.98\% on Split Tiny-ImageNet.
翻訳日:2024-10-31 22:27:10 公開日:2024-10-09
# パーソナライズされたビジュアルインストラクションチューニング

Personalized Visual Instruction Tuning ( http://arxiv.org/abs/2410.07113v1 )

ライセンス: Link先を確認
Renjie Pi, Jianshu Zhang, Tianyang Han, Jipeng Zhang, Rui Pan, Tong Zhang, (参考訳) 近年のMLLM(Multimodal large language model)の進歩は顕著な進歩を遂げているが,これらのモデルには顕著な限界があり,これを「顔の盲点」と呼ぶ。 具体的には、一般的な会話をすることができるが、特定の個人をターゲットとしたパーソナライズされた対話を行うことができない。 この欠陥は、モバイルデバイスのカスタマイズされた視覚アシスタントや、家族の認識が必要な家庭内ロボットなど、パーソナライズされた設定におけるMLLMの適用を妨げる。 本稿では、画像内の対象個人を特定し、パーソナライズされたコヒーレントな対話を行うための新しいデータキュレーションおよびトレーニングフレームワークである、パーソナライズド・ビジュアル・インストラクション・チューニング(PVIT)を紹介する。 このアプローチでは、パーソナライズされた会話を含むトレーニングデータを自律的に生成する高度なパイプラインを開発する。 このパイプラインは、様々なビジュアルエキスパート、画像生成モデル、および(マルチモーダル)大規模言語モデルの能力を活用する。 MLLMのパーソナライズされたポテンシャルを評価するため,P-Benchというベンチマークを作成した。 この実験は、キュレートしたデータセットを微調整した後に、かなりパーソナライズされたパフォーマンス向上を示す。

Recent advancements in multimodal large language models (MLLMs) have demonstrated significant progress; however, these models exhibit a notable limitation, which we refer to as "face blindness". Specifically, they can engage in general conversations but fail to conduct personalized dialogues targeting at specific individuals. This deficiency hinders the application of MLLMs in personalized settings, such as tailored visual assistants on mobile devices, or domestic robots that need to recognize members of the family. In this paper, we introduce Personalized Visual Instruction Tuning (PVIT), a novel data curation and training framework designed to enable MLLMs to identify target individuals within an image and engage in personalized and coherent dialogues. Our approach involves the development of a sophisticated pipeline that autonomously generates training data containing personalized conversations. This pipeline leverages the capabilities of various visual experts, image generation models, and (multi-modal) large language models. To evaluate the personalized potential of MLLMs, we present a benchmark called P-Bench, which encompasses various question types with different levels of difficulty. The experiments demonstrate a substantial personalized performance enhancement after fine-tuning with our curated dataset.
翻訳日:2024-10-31 22:17:22 公開日:2024-10-09
# 金融リテラシーの民主化に向けた著名な小言語モデルの準備

Exploring the Readiness of Prominent Small Language Models for the Democratization of Financial Literacy ( http://arxiv.org/abs/2410.07118v1 )

ライセンス: Link先を確認
Tagore Rao Kosireddy, Jeffrey D. Wall, Evan Lucas, (参考訳) 30億未満のパラメータを持つモデルとして定義されている小言語モデル(SLM)の使用は、さまざまなドメインやアプリケーションで増加している。 よりアクセスしやすいハードウェア上で動作し、ユーザのプライバシを保護できるため、SLMは異なる社会経済的地位と異なるプライバシの好みを持つ個人のための言語モデルへのアクセスを民主化することができる。 本研究では、金融分野における金融リテラシーLMの開発を支援するために、最先端のSLM(AppleのOpenELM、MicrosoftのPhi、GoogleのGemma、Tinyllamaプロジェクトなど)を評価した。 特に新しい金融市場や製品が出現し、アクセスの容易さにより金融市場への参加が増加するにつれて、金融学の教育を受けていない人々のための質の高い金融情報へのアクセスを民主化することが社会において非常に必要となる。 我々は、個人や学生向けの金融質問応答機能へのアクセスを民主化するためのオープンソースのSLMの使用を初めて検討する。 この目的のために,本研究では,メモリ使用量,推定時間,地道回答との類似性の比較,および著名なSLMの可読性について分析し,どのモデルが最もアクセスしやすく,財務情報へのアクセスを支援することができるかを判定する。 モデルのゼロショットおよび少数ショット学習変種を解析する。 以上の結果から,一部の既成のSLMは,個別の使用に備えるためにさらなる探索と微調整を行うとともに,民主化に限界があることが示唆された。

The use of small language models (SLMs), herein defined as models with less than three billion parameters, is increasing across various domains and applications. Due to their ability to run on more accessible hardware and preserve user privacy, SLMs possess the potential to democratize access to language models for individuals of different socioeconomic status and with different privacy preferences. This study assesses several state-of-the-art SLMs (e.g., Apple's OpenELM, Microsoft's Phi, Google's Gemma, and the Tinyllama project) for use in the financial domain to support the development of financial literacy LMs. Democratizing access to quality financial information for those who are financially under educated is greatly needed in society, particularly as new financial markets and products emerge and participation in financial markets increases due to ease of access. We are the first to examine the use of open-source SLMs to democratize access to financial question answering capabilities for individuals and students. To this end, we provide an analysis of the memory usage, inference time, similarity comparisons to ground-truth answers, and output readability of prominent SLMs to determine which models are most accessible and capable of supporting access to financial information. We analyze zero-shot and few-shot learning variants of the models. The results suggest that some off-the-shelf SLMs merit further exploration and fine-tuning to prepare them for individual use, while others may have limits to their democratization.
翻訳日:2024-10-31 22:17:22 公開日:2024-10-09
# Thing2Reality:XR通信のための2次元コンテンツを条件付きマルチビューと3次元ガウスオブジェクトに変換する

Thing2Reality: Transforming 2D Content into Conditioned Multiviews and 3D Gaussian Objects for XR Communication ( http://arxiv.org/abs/2410.07119v1 )

ライセンス: Link先を確認
Erzhen Hu, Mingyi Li, Jungtaek Hong, Xun Qian, Alex Olwal, David Kim, Seongkook Heo, Ruofei Du, (参考訳) リモートコミュニケーションの間、参加者は相互理解を高めるために、製品デザイン、デジタル資産、環境など、デジタルコンテンツと物理的コンテンツの両方を共有します。 近年の拡張現実の進歩により、ユーザはビデオフィードから共有空間に物理的オブジェクトのデジタル2Dコピーを素早く作成、共有できるようになった。 しかし、従来のデジタルオブジェクトの2D表現は、共有没入環境において、ユーザが空間的にアイテムを参照する能力を制限している。 そこで本稿では,遠隔セッションにおけるデジタルと物理の両方の自発的な議論を促進する,拡張現実(XR)コミュニケーションプラットフォームであるThing2Realityを提案する。 Thing2Realityを使えば、ユーザは、没入的な環境でアイデアや物理的なオブジェクトを迅速に実体化し、それらを条件付きマルチビューレンダリングや3Dガウシアンとして共有できる。 Thing2Realityは、リモートオブジェクトと対話したり、コンセプトを協調的に議論することを可能にする。 本研究により,物体の3次元表現と相互作用し操作する能力は,議論の効率を著しく向上させるとともに,2次元アーティファクトの議論を増大させる可能性が示唆された。

During remote communication, participants often share both digital and physical content, such as product designs, digital assets, and environments, to enhance mutual understanding. Recent advances in augmented communication have facilitated users to swiftly create and share digital 2D copies of physical objects from video feeds into a shared space. However, conventional 2D representations of digital objects restricts users' ability to spatially reference items in a shared immersive environment. To address this, we propose Thing2Reality, an Extended Reality (XR) communication platform that enhances spontaneous discussions of both digital and physical items during remote sessions. With Thing2Reality, users can quickly materialize ideas or physical objects in immersive environments and share them as conditioned multiview renderings or 3D Gaussians. Thing2Reality enables users to interact with remote objects or discuss concepts in a collaborative manner. Our user study revealed that the ability to interact with and manipulate 3D representations of objects significantly enhances the efficiency of discussions, with the potential to augment discussion of 2D artifacts.
翻訳日:2024-10-31 22:17:22 公開日:2024-10-09
# 自動LLMベンチマークの更新:Nullモデルが高い利得を達成

Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates ( http://arxiv.org/abs/2410.07137v1 )

ライセンス: Link先を確認
Xiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Jing Jiang, Min Lin, (参考訳) AlpacaEval 2.0、Arena-Hard-Auto、MT-Benchといった自動LLMベンチマークは、人間の評価に比べてコスト効率とスケーラビリティのため、言語モデルの評価に人気がある。 これらのベンチマークで高い勝利率を達成することは、新しくリリースされた言語モデルのプロモーション効果を著しく向上させる可能性がある。 このプロモーションの利点は、ゲーム性を減らすために長さとアンタングルスタイルを制御するためにいくつかのメカニズムが開発されているにもかかわらず、モデル出力長やスタイルをゲーム勝利率に操作するといったトリックを動機づける可能性がある。 それにもかかわらず、常に一定の応答(入力命令に関連しない)を出力する"nullモデル"でさえ、AlpacaEval 2.0の86.5%のLC勝利率、Arena-Hard-Autoの83.0のスコア、MT-Benchの9.55のスコアなど、自動ベンチマークを騙してトップランクの勝利率を達成することができることを示す。 さらに、これらのベンチマーク(例えば、AlpacaEval 2.0の805サンプル)の命令はプライベートであり、アクセスできないと仮定して、不正な出力が転送可能である。 我々の実験は主に概念実証だが、敵はLSMを使ってより受け入れ難い不正反応を発生させ、非倫理的に高い勝利率とプロモーション効果の恩恵を受けることができる。 以上の結果から,信頼性の高い自動ベンチマークのための加熱防止機構の開発が望まれる。 コードはhttps://github.com/sail-sg/Cheating-LLM-Benchmarksで公開されている。

Automatic LLM benchmarks, such as AlpacaEval 2.0, Arena-Hard-Auto, and MT-Bench, have become popular for evaluating language models due to their cost-effectiveness and scalability compared to human evaluation. Achieving high win rates on these benchmarks can significantly boost the promotional impact of newly released language models. This promotional benefit may motivate tricks, such as manipulating model output length or style to game win rates, even though several mechanisms have been developed to control length and disentangle style to reduce gameability. Nonetheless, we show that even a "null model" that always outputs a constant response (irrelevant to input instructions) can cheat automatic benchmarks and achieve top-ranked win rates: an 86.5% LC win rate on AlpacaEval 2.0; an 83.0 score on Arena-Hard-Auto; and a 9.55 score on MT-Bench. Moreover, the crafted cheating outputs are transferable because we assume that the instructions of these benchmarks (e.g., 805 samples of AlpacaEval 2.0) are private and cannot be accessed. While our experiments are primarily proof-of-concept, an adversary could use LLMs to generate more imperceptible cheating responses, unethically benefiting from high win rates and promotional impact. Our findings call for the development of anti-cheating mechanisms for reliable automatic benchmarks. The code is available at https://github.com/sail-sg/Cheating-LLM-Benchmarks.
翻訳日:2024-10-31 22:06:43 公開日:2024-10-09
# Stuffed Mamba: RNNベースロングコンテキストモデリングの状態崩壊と状態容量

Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling ( http://arxiv.org/abs/2410.07145v1 )

ライセンス: Link先を確認
Yingfa Chen, Xinrong Zhang, Shengding Hu, Xu Han, Zhiyuan Liu, Maosong Sun, (参考訳) トランスフォーマーベースの言語モデルに対するリカレントニューラルネットワーク(RNN)の重要な利点の1つは、シーケンス長に関する線形計算の複雑さである。 しかし、ほとんどの公開RNN(例:Mamba、RWKV)は10Kトークン未満のシーケンスで訓練されており、長いコンテキストにおけるその有効性は、今のところほとんど満足できないままである。 本稿では,RNNの長期的文脈処理能力の低下の原因について検討し,重要な緩和策を提案する。 本研究では,(1)トレーニング長よりも長い入力に外挿できないこと,(2)メモリ容量の上限について,最先端のRNNを長期的文脈に適用する際の2つの実践的関心点について検討する。 最初の懸念に対処するために、まず、トレーニング中に遭遇しないシーケンス長の大幅なパフォーマンス劣化を引き起こす*状態崩壊*(SC)を調査する。 制御された実験では、繰り返し状態がトレーニング長に対して過度にパラメータ化されているため、過度に適合していると考えられる。 第2の懸念事項として,言語モデリングとパスキー検索における逐次状態キャパシティを実証的に推定するために,長いドキュメント上に一連のMamba-2モデルを訓練する。 そして、3つのSC緩和法が提案され、Mamba-2の長さの一般化性が向上し、SCなしで1M以上のトークンを処理できるようになった。 また、パスキー検索における再帰状態容量は、状態サイズに指数関数的にスケールし、256Kコンテキスト長に対してほぼ完全なパスキー検索精度を持つMamba-2 370Mを実験的に訓練する。 これは、RNNベースの長期コンテキストモデリングにとって有望な未来を示唆している。

One essential advantage of recurrent neural networks (RNNs) over transformer-based language models is their linear computational complexity concerning the sequence length, which makes them much faster in handling long sequences during inference. However, most publicly available RNNs (e.g., Mamba and RWKV) are trained on sequences with less than 10K tokens, and their effectiveness in longer contexts remains largely unsatisfying so far. In this paper, we study the cause of the inability to process long context for RNNs and suggest critical mitigations. We examine two practical concerns when applying state-of-the-art RNNs to long contexts: (1) the inability to extrapolate to inputs longer than the training length and (2) the upper bound of memory capacity. Addressing the first concern, we first investigate *state collapse* (SC), a phenomenon that causes severe performance degradation on sequence lengths not encountered during training. With controlled experiments, we attribute this to overfitting due to the recurrent state being overparameterized for the training length. For the second concern, we train a series of Mamba-2 models on long documents to empirically estimate the recurrent state capacity in language modeling and passkey retrieval. Then, three SC mitigation methods are proposed to improve Mamba-2's length generalizability, allowing the model to process more than 1M tokens without SC. We also find that the recurrent state capacity in passkey retrieval scales exponentially to the state size, and we empirically train a Mamba-2 370M with near-perfect passkey retrieval accuracy on 256K context length. This suggests a promising future for RNN-based long-context modeling.
翻訳日:2024-10-31 22:06:43 公開日:2024-10-09
# より良い方向への転換--メンタルヘルス療法を通しての会話のリダイレクト

Taking a turn for the better: Conversation redirection throughout the course of mental-health therapy ( http://arxiv.org/abs/2410.07147v1 )

ライセンス: Link先を確認
Vivian Nguyen, Sang Min Jung, Lillian Lee, Thomas D. Hull, Cristian Danescu-Niculescu-Mizil, (参考訳) メンタルヘルス療法は、患者とセラピストが次に話すべきことを継続的に交渉する複雑な会話の流れを伴う。 例えば、セラピストは、治療過程の追跡と停滞を避けるために会話の方向を変えようとするかもしれないし、患者が焦点を当てたい問題に向けて議論を進めるかもしれない。 そのような患者とセラピストのリダイレクトは、それらの関係の発達と品質にどのように関係するのか? この問いに答えるために、ある発話が会話の流れを即座にリダイレクトする程度を確率的尺度で示し、そのような変化の意図と実際の実現の両方を考慮に入れた。 我々は, 大規模で広く利用されているオンラインセラピープラットフォームにおいて, 複数のセッションにおける患者とセラピストの関係の発達を特徴付けるために, 本手法を適用した。 分析の結果,(1) セラピストとの関係が進行するにつれて,(1) 患者による会話の方向制御は一般的に増加し,(2) 最初の数回のセッションではコントロールが低かった患者は最終的にセラピストへの不満を表明し,その関係を終わらせる可能性が有意に高いことが明らかとなった。

Mental-health therapy involves a complex conversation flow in which patients and therapists continuously negotiate what should be talked about next. For example, therapists might try to shift the conversation's direction to keep the therapeutic process on track and avoid stagnation, or patients might push the discussion towards issues they want to focus on. How do such patient and therapist redirections relate to the development and quality of their relationship? To answer this question, we introduce a probabilistic measure of the extent to which a certain utterance immediately redirects the flow of the conversation, accounting for both the intention and the actual realization of such a change. We apply this new measure to characterize the development of patient-therapist relationships over multiple sessions in a very large, widely-used online therapy platform. Our analysis reveals that (1) patient control of the conversation's direction generally increases relative to that of the therapist as their relationship progresses; and (2) patients who have less control in the first few sessions are significantly more likely to eventually express dissatisfaction with their therapist and terminate the relationship.
翻訳日:2024-10-31 21:56:57 公開日:2024-10-09
# 視覚言語モデルにおける視覚情報処理の解釈に向けて

Towards Interpreting Visual Information Processing in Vision-Language Models ( http://arxiv.org/abs/2410.07149v1 )

ライセンス: Link先を確認
Clement Neo, Luke Ong, Philip Torr, Mor Geva, David Krueger, Fazl Barez, (参考訳) VLM(Vision-Language Models)は、テキストや画像の処理と理解のための強力なツールである。 著名なVLMであるLLaVAの言語モデルコンポーネントにおける視覚トークンの処理について検討する。 提案手法は,オブジェクト情報の局所化,レイヤ間の視覚的トークン表現の進化,および予測のための視覚情報の統合機構の解明に重点を置いている。 アブレーション実験により,対象特定トークンが除去された場合,物体識別精度が70倍以上低下することが実証された。 視覚的トークン表現は,階層間の語彙空間においてますます解釈可能になり,画像の内容に対応するテキストトークンとの整合性が示唆された。 最後に,これらの表現からオブジェクト情報を最終トークン位置で抽出し,実際の関連課題に対するテキストのみの言語モデルに反映することを発見した。 これらの発見は、VLMがどのように処理し、視覚情報を統合するか、言語と視覚モデルの理解のギャップを埋め、より解釈可能で制御可能なマルチモーダルシステムへの道を開くか、といった重要な洞察を与えてくれる。

Vision-Language Models (VLMs) are powerful tools for processing and understanding text and images. We study the processing of visual tokens in the language model component of LLaVA, a prominent VLM. Our approach focuses on analyzing the localization of object information, the evolution of visual token representations across layers, and the mechanism of integrating visual information for predictions. Through ablation studies, we demonstrated that object identification accuracy drops by over 70\% when object-specific tokens are removed. We observed that visual token representations become increasingly interpretable in the vocabulary space across layers, suggesting an alignment with textual tokens corresponding to image content. Finally, we found that the model extracts object information from these refined representations at the last token position for prediction, mirroring the process in text-only language models for factual association tasks. These findings provide crucial insights into how VLMs process and integrate visual information, bridging the gap between our understanding of language and vision models, and paving the way for more interpretable and controllable multimodal systems.
翻訳日:2024-10-31 21:56:57 公開日:2024-10-09
# CHASE:スケルトンに基づくマルチエンティティ動作認識のためのコンベックスハル適応シフト学習

CHASE: Learning Convex Hull Adaptive Shift for Skeleton-based Multi-Entity Action Recognition ( http://arxiv.org/abs/2410.07153v1 )

ライセンス: Link先を確認
Yuhang Wen, Mengyuan Liu, Songtao Wu, Beichen Ding, (参考訳) スケルトンをベースとした多目的行動認識は、対話的行動や複数の多様な実体を含むグループ活動の識別を目的とした課題である。 既存の個人モデルは、エンティティスケルトン間の分布の相違により、しばしばこのタスクで不足し、最適なバックボーンの最適化に繋がる。 この目的のために,Convex Hull Adaptive Shift based multi-Entity Action Recognition method (CHASE)を導入する。 具体的には、学習可能なパラメータ化ネットワークと補助目的とから構成される。 パラメータ化されたネットワークは、2つのキーコンポーネントを通してスケルトン配列の可塑性でサンプル適応的な再配置を実現する。 第一に、Implicit Convex Hull Constrained Adaptive Shiftは、座標系の新しい起源が骨格凸殻内にあることを保証している。 第2に、Coefficient Learning Blockは、スケルトンシーケンスから凸結合における特定の係数へのマッピングの軽量なパラメータ化を提供する。 さらに,誤差最小化のためのネットワークの最適化を導出するために,ミニバッチペアワイドの最大平均離散性を付加目的として提案する。 CHASEはサンプル適応正規化法として機能し、データバイアスを低減し、その後の分類器のマルチエンタリティ動作認識性能を向上させる。 NTU Mutual 11/26, H2O, Assembly101, Collective Activity, Volleyballを含む6つのデータセットに対する大規模な実験は、単一エンタリティのバックボーンにシームレスに適応し、マルチエンタリティシナリオにおけるパフォーマンスを向上することで、私たちのアプローチを一貫して検証しています。 私たちのコードはhttps://github.com/Necolizer/CHASE で公開されています。

Skeleton-based multi-entity action recognition is a challenging task aiming to identify interactive actions or group activities involving multiple diverse entities. Existing models for individuals often fall short in this task due to the inherent distribution discrepancies among entity skeletons, leading to suboptimal backbone optimization. To this end, we introduce a Convex Hull Adaptive Shift based multi-Entity action recognition method (CHASE), which mitigates inter-entity distribution gaps and unbiases subsequent backbones. Specifically, CHASE comprises a learnable parameterized network and an auxiliary objective. The parameterized network achieves plausible, sample-adaptive repositioning of skeleton sequences through two key components. First, the Implicit Convex Hull Constrained Adaptive Shift ensures that the new origin of the coordinate system is within the skeleton convex hull. Second, the Coefficient Learning Block provides a lightweight parameterization of the mapping from skeleton sequences to their specific coefficients in convex combinations. Moreover, to guide the optimization of this network for discrepancy minimization, we propose the Mini-batch Pair-wise Maximum Mean Discrepancy as the additional objective. CHASE operates as a sample-adaptive normalization method to mitigate inter-entity distribution discrepancies, thereby reducing data bias and improving the subsequent classifier's multi-entity action recognition performance. Extensive experiments on six datasets, including NTU Mutual 11/26, H2O, Assembly101, Collective Activity and Volleyball, consistently verify our approach by seamlessly adapting to single-entity backbones and boosting their performance in multi-entity scenarios. Our code is publicly available at https://github.com/Necolizer/CHASE .
翻訳日:2024-10-31 21:56:57 公開日:2024-10-09
# Trans4D: リアル幾何-組成テキストから4次元合成への認識遷移

Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis ( http://arxiv.org/abs/2410.07155v1 )

ライセンス: Link先を確認
Bohan Zeng, Ling Yang, Siyu Li, Jiaming Liu, Zixiang Zhang, Juanxi Tian, Kaixin Zhu, Yongzhen Guo, Fu-Yun Wang, Minkai Xu, Stefano Ermon, Wentao Zhang, (参考訳) 拡散モデルの最近の進歩は、画像および映像生成において例外的な能力を示し、さらに4次元合成の有効性を向上している。 既存の4D生成方法は、ユーザフレンドリーな条件に基づいて高品質な4Dオブジェクトやシーンを生成し、ゲームやビデオ産業に恩恵を与えることができる。 しかし、これらの手法は複雑な4次元遷移とシーン内の相互作用の顕著な物体変形を合成するのに苦労する。 そこで本研究では,現実的な複雑なシーン遷移を実現する新しいテキストから4D合成フレームワークであるTrans4Dを提案する。 具体的には、まずMLLMを用いて、4次元シーンの初期化と効率的な遷移タイミング計画のための物理認識シーン記述を生成する。 そして,その計画に基づく複雑なシーンレベルの4D遷移を実現するための幾何学的4D遷移ネットワークを提案する。 大規模な実験により、Trans4Dは4Dシーンを正確かつ高品質な遷移で生成し、その効果を検証し、既存の最先端の手法を一貫して上回っていることが示されている。 コード:https://github.com/YangLing0818/Trans4D

Recent advances in diffusion models have demonstrated exceptional capabilities in image and video generation, further improving the effectiveness of 4D synthesis. Existing 4D generation methods can generate high-quality 4D objects or scenes based on user-friendly conditions, benefiting the gaming and video industries. However, these methods struggle to synthesize significant object deformation of complex 4D transitions and interactions within scenes. To address this challenge, we propose Trans4D, a novel text-to-4D synthesis framework that enables realistic complex scene transitions. Specifically, we first use multi-modal large language models (MLLMs) to produce a physic-aware scene description for 4D scene initialization and effective transition timing planning. Then we propose a geometry-aware 4D transition network to realize a complex scene-level 4D transition based on the plan, which involves expressive geometrical object deformation. Extensive experiments demonstrate that Trans4D consistently outperforms existing state-of-the-art methods in generating 4D scenes with accurate and high-quality transitions, validating its effectiveness. Code: https://github.com/YangLing0818/Trans4D
翻訳日:2024-10-31 21:56:57 公開日:2024-10-09
# InstructG2I:マルチモーダル分布グラフからの画像の合成

InstructG2I: Synthesizing Images from Multimodal Attributed Graphs ( http://arxiv.org/abs/2410.07157v1 )

ライセンス: Link先を確認
Bowen Jin, Ziqi Pang, Bingjun Guo, Yu-Xiong Wang, Jiaxuan You, Jiawei Han, (参考訳) 本稿では,マルチモーダル属性グラフ(MMAG)から画像を生成するという,見過ごされながら重要なタスクであるGraph2Imageにアプローチする。 このタスクは、グラフサイズの急増、グラフエンティティ間の依存関係、およびグラフ条件における制御性の必要性により、重大な課題を提起する。 これらの課題に対処するため,InstructG2Iと呼ばれるグラフ文脈条件拡散モデルを提案する。 InstructG2Iは、まずグラフ構造とマルチモーダル情報を利用して、パーソナライズされたページランクと視覚言語の特徴に基づく再ランクを組み合わせることで、情報的隣人サンプリングを行う。 そして、グラフノードをグラフプロンプトの補助集合に適応的に符号化し、拡散の分極過程を導出する。 最後に、グラフガイダンスと複数連結エッジの強度をノードに変化させることで、制御可能な生成を可能にするグラフ分類器フリーガイダンスを提案する。 異なる領域の3つのデータセットに対して行われた大規模な実験は、我々のアプローチの有効性と制御性を示している。 コードはhttps://github.com/PeterGriffinJin/InstructG2Iで入手できる。

In this paper, we approach an overlooked yet critical task Graph2Image: generating images from multimodal attributed graphs (MMAGs). This task poses significant challenges due to the explosion in graph size, dependencies among graph entities, and the need for controllability in graph conditions. To address these challenges, we propose a graph context-conditioned diffusion model called InstructG2I. InstructG2I first exploits the graph structure and multimodal information to conduct informative neighbor sampling by combining personalized page rank and re-ranking based on vision-language features. Then, a Graph-QFormer encoder adaptively encodes the graph nodes into an auxiliary set of graph prompts to guide the denoising process of diffusion. Finally, we propose graph classifier-free guidance, enabling controllable generation by varying the strength of graph guidance and multiple connected edges to a node. Extensive experiments conducted on three datasets from different domains demonstrate the effectiveness and controllability of our approach. The code is available at https://github.com/PeterGriffinJin/InstructG2I.
翻訳日:2024-10-31 21:56:57 公開日:2024-10-09
# アバターGO:ゼロショット4Dヒューマンオブジェクトインタラクション生成とアニメーション

AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation ( http://arxiv.org/abs/2410.07164v1 )

ライセンス: Link先を確認
Yukang Cao, Liang Pan, Kai Han, Kwan-Yee K. Wong, Ziwei Liu, (参考訳) 近年の拡散モデルの発展により、4Dフルボディの人-物体相互作用(HOI)の生成とアニメーションが大幅に改善されている。 それにもかかわらず、既存の手法は主にSMPLベースのモーション生成に焦点を当てており、これは現実的な大規模インタラクションデータの不足によって制限されている。 この制約は、毎日のHOIシーンを作成する能力に影響を与える。 本稿では,事前学習した拡散モデルを用いたゼロショットアプローチを用いて,この問題に対処する。 このような可能性にもかかわらず、拡散モデルが「どこで」や「どのように」物体が人体と相互作用するかを理解していないため、目標を達成することは難しい。 これらの問題に対処するために,テキスト入力から直接アニマタブルな4D HOIシーンを生成するために設計された新しいフレームワークであるAvatarGOを紹介した。 具体的には 本研究では,Lang-SAMを用いてテキストプロンプトから接触体部分を識別し,人間と対象の空間関係を正確に表現するLLM誘導接触再ターゲティングを提案する。 2)「ハウ」課題では,SMPL-Xからの線形ブレンドスキン機能を用いて,人間と物体モデルの両方の運動場を構築する対応型運動最適化を導入する。 本フレームワークは,コヒーレントな構成運動を発生させるだけでなく,浸透問題に対処する際の堅牢性も向上する。 既存の手法による大規模な実験は、AvatarGOの優れた生成能力とアニメーション能力を様々な人間とオブジェクトのペアと多様なポーズで検証する。 4Dアバターをオブジェクトインタラクションで合成する最初の試みとして、AvatarGOが人間中心の4Dコンテンツを作るための新しい扉を開くことを願っている。

Recent advancements in diffusion models have led to significant improvements in the generation and animation of 4D full-body human-object interactions (HOI). Nevertheless, existing methods primarily focus on SMPL-based motion generation, which is limited by the scarcity of realistic large-scale interaction data. This constraint affects their ability to create everyday HOI scenes. This paper addresses this challenge using a zero-shot approach with a pre-trained diffusion model. Despite this potential, achieving our goals is difficult due to the diffusion model's lack of understanding of ''where'' and ''how'' objects interact with the human body. To tackle these issues, we introduce AvatarGO, a novel framework designed to generate animatable 4D HOI scenes directly from textual inputs. Specifically, 1) for the ''where'' challenge, we propose LLM-guided contact retargeting, which employs Lang-SAM to identify the contact body part from text prompts, ensuring precise representation of human-object spatial relations. 2) For the ''how'' challenge, we introduce correspondence-aware motion optimization that constructs motion fields for both human and object models using the linear blend skinning function from SMPL-X. Our framework not only generates coherent compositional motions, but also exhibits greater robustness in handling penetration issues. Extensive experiments with existing methods validate AvatarGO's superior generation and animation capabilities on a variety of human-object pairs and diverse poses. As the first attempt to synthesize 4D avatars with object interactions, we hope AvatarGO could open new doors for human-centric 4D content creation.
翻訳日:2024-10-31 21:56:57 公開日:2024-10-09
# Embodied Agent Interface: Embodied Decision Making のための LLM ベンチマーク

Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making ( http://arxiv.org/abs/2410.07166v1 )

ライセンス: Link先を確認
Manling Li, Shiyu Zhao, Qineng Wang, Kangrui Wang, Yu Zhou, Sanjana Srivastava, Cem Gokmen, Tony Lee, Li Erran Li, Ruohan Zhang, Weiyu Liu, Percy Liang, Li Fei-Fei, Jiayuan Mao, Jiajun Wu, (参考訳) 我々は,大規模言語モデル (LLM) を具体的意思決定のために評価することを目指している。 具体的環境における意思決定にLLMを利用することは大きな成果を上げてきましたが、通常、異なる目的のために異なるドメインに適用され、異なる入力や出力に基づいて構築されるため、それらのパフォーマンスに関する体系的な理解はいまだに欠けています。 さらに、既存の評価は最終成功率にのみ依存する傾向にあり、LLMに欠落している能力や、その問題のある場所を特定することは困難であり、結果として、具体化されたエージェントがLLMを効果的に選択的に活用することを妨げる。 これらの制約に対処するために,多種多様なタスクの形式化とLCMベースのモジュールの入出力仕様をサポートする汎用インタフェース(Embodied Agent Interface)を提案する。 具体的には 統合できるのです 1)国家と時間的拡張目標の両方を含む幅広い意思決定課題の具体化。 2 意思決定に広く用いられる4つのLCMベースのモジュール:ゴール解釈、サブゴール分解、アクションシークエンシング、トランジションモデリング 3) 評価を幻覚の誤り、余裕の誤り、様々な種類の計画の誤りなど、さまざまな種類のエラーに分解する詳細な指標の収集。 総合的に、我々のベンチマークは、異なるサブタスクに対するLLMのパフォーマンスを総合的に評価し、LLM駆動型AIシステムの強みと弱みを指摘し、具体的意思決定においてLLMを効果的かつ選択的に活用するための洞察を提供する。

We aim to evaluate Large Language Models (LLMs) for embodied decision making. While a significant body of work has been leveraging LLMs for decision making in embodied environments, we still lack a systematic understanding of their performance because they are usually applied in different domains, for different purposes, and built based on different inputs and outputs. Furthermore, existing evaluations tend to rely solely on a final success rate, making it difficult to pinpoint what ability is missing in LLMs and where the problem lies, which in turn blocks embodied agents from leveraging LLMs effectively and selectively. To address these limitations, we propose a generalized interface (Embodied Agent Interface) that supports the formalization of various types of tasks and input-output specifications of LLM-based modules. Specifically, it allows us to unify 1) a broad set of embodied decision-making tasks involving both state and temporally extended goals, 2) four commonly-used LLM-based modules for decision making: goal interpretation, subgoal decomposition, action sequencing, and transition modeling, and 3) a collection of fine-grained metrics which break down evaluation into various types of errors, such as hallucination errors, affordance errors, various types of planning errors, etc. Overall, our benchmark offers a comprehensive assessment of LLMs' performance for different subtasks, pinpointing the strengths and weaknesses in LLM-powered embodied AI systems, and providing insights for effective and selective use of LLMs in embodied decision making.
翻訳日:2024-10-31 21:46:48 公開日:2024-10-09
# Sylber:Syllabic Embedding Representation of Speech from Raw Audio (英語)

Sylber: Syllabic Embedding Representation of Speech from Raw Audio ( http://arxiv.org/abs/2410.07168v1 )

ライセンス: Link先を確認
Cheol Jun Cho, Nicholas Lee, Akshat Gupta, Dhruv Agarwal, Ethan Chen, Alan W Black, Gopala K. Anumanchipalli, (参考訳) シラブル(Syllables)は、人間の音声知覚と生産において重要な役割を果たす音声言語の構成単位である。 しかし、現在のニューラルスピーチ表現には構造が欠けており、処理に要する高密度なトークンシーケンスが生じる。 このギャップを埋めるために、クリーンでロバストな音節構造を持つ音声表現を生成する新しいモデルSylberを提案する。 具体的には,教師モデルの指数移動平均である教師モデルから抽出した音節セグメントの特徴を回帰する自己教師型モデルを提案する。 この結果,音声特徴の高度に構造化された表現が,3つの大きなメリットをもたらしている。 1) 高速・線形時間音節分割アルゴリズム 2) 平均4.27トークン/秒の効率的なシラバストークン化 3)音節単位は語彙的・構文的理解に適していた。 また、音節単位を用いてトークンから音声への生成モデルを訓練し、これらのトークンから完全に理解可能な音声を再構成可能であることを示す。 最後に,音声知覚の言語的現象であるカテゴリー的知覚が,我々のモデルに自然に出現し,埋め込み空間が従来の自己教師型学習手法よりもカテゴリー的かつ疎いことを観察する。 本稿では,音声を音節として表現するための新しい自己教師型アプローチを提案する。

Syllables are compositional units of spoken language that play a crucial role in human speech perception and production. However, current neural speech representations lack structure, resulting in dense token sequences that are costly to process. To bridge this gap, we propose a new model, Sylber, that produces speech representations with clean and robust syllabic structure. Specifically, we propose a self-supervised model that regresses features on syllabic segments distilled from a teacher model which is an exponential moving average of the model in training. This results in a highly structured representation of speech features, offering three key benefits: 1) a fast, linear-time syllable segmentation algorithm, 2) efficient syllabic tokenization with an average of 4.27 tokens per second, and 3) syllabic units better suited for lexical and syntactic understanding. We also train token-to-speech generative models with our syllabic units and show that fully intelligible speech can be reconstructed from these tokens. Lastly, we observe that categorical perception, a linguistic phenomenon of speech perception, emerges naturally in our model, making the embedding space more categorical and sparse than previous self-supervised learning approaches. Together, we present a novel self-supervised approach for representing speech as syllables, with significant potential for efficient speech tokenization and spoken language modeling.
翻訳日:2024-10-31 21:46:48 公開日:2024-10-09
# 全てを規定する初期化:説明変数適応による微調整

One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation ( http://arxiv.org/abs/2410.07170v1 )

ライセンス: Link先を確認
Fabian Paischer, Lukas Hauzenberger, Thomas Schmied, Benedikt Alkin, Marc Peter Deisenroth, Sepp Hochreiter, (参考訳) ファンデーションモデル(FM)は、大規模なデータセットで事前トレーニングされ、特定のアプリケーションのために下流タスクで微調整される。 最も成功し、最も一般的に使用される微調整法は、ローランク適応(LoRA)を通じてトレーニング済みの重量を更新することである。 LoRAは、モデルウェイト全体にわたって均一なランク分布を持つランダムに初期化される新しいウェイト行列を導入している。 最近の研究は、トレーニング中の適応階級の初期化や学習に焦点を当てている。 どちらの手法も単独でのみ研究され、結果として収束が遅く、あるいは等級分布が均一になり、結果として準最適性能がもたらされる。 本稿では,アクティベーションベクトルのミニバッチ上での特異値分解を計算し,新たな重み付けをデータ駆動方式で初期化することによりLoRAを強化することを提案する。 そして、得られた右特異ベクトルと全ての重み行列中の再二分階数でLoRA行列を初期化して、最大分散量を説明し、標準のLoRA微調整手順を継続する。 その結果,新しい手法であるEVA(Explained Variance Adaptation)が得られた。 EVAを言語生成や理解から画像分類や強化学習まで,さまざまな微調整タスクに適用する。 EVAは競合他社よりも高速な収束を示し、ドメイン当たりのタスクの平均スコアが最も高い。

Foundation models (FMs) are pre-trained on large-scale datasets and then fine-tuned on a downstream task for a specific application. The most successful and most commonly used fine-tuning method is to update the pre-trained weights via a low-rank adaptation (LoRA). LoRA introduces new weight matrices that are usually initialized at random with a uniform rank distribution across model weights. Recent works focus on weight-driven initialization or learning of adaptive ranks during training. Both approaches have only been investigated in isolation, resulting in slow convergence or a uniform rank distribution, in turn leading to sub-optimal performance. We propose to enhance LoRA by initializing the new weights in a data-driven manner by computing singular value decomposition on minibatches of activation vectors. Then, we initialize the LoRA matrices with the obtained right-singular vectors and re-distribute ranks among all weight matrices to explain the maximal amount of variance and continue the standard LoRA fine-tuning procedure. This results in our new method Explained Variance Adaptation (EVA). We apply EVA to a variety of fine-tuning tasks ranging from language generation and understanding to image classification and reinforcement learning. EVA exhibits faster convergence than competitors and attains the highest average score across a multitude of tasks per domain.
翻訳日:2024-10-31 21:46:48 公開日:2024-10-09
# IterComp: テキスト・画像生成のためのモデルギャラリーからの反復的構成認識フィードバック学習

IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation ( http://arxiv.org/abs/2410.07171v1 )

ライセンス: Link先を確認
Xinchen Zhang, Ling Yang, Guohao Li, Yaqi Cai, Jiake Xie, Yong Tang, Yujiu Yang, Mengdi Wang, Bin Cui, (参考訳) RPG、Stable Diffusion 3、FLUXといった高度な拡散モデルは、合成テキスト・画像生成において顕著な進歩を遂げている。 しかしながら、これらの手法は典型的には、空間的関係における属性結合の扱いに優れ、構成生成の異なる強みを示す。 この格差は、様々なモデルの補完的な強みを活用して、構成能力を包括的に改善できるアプローチの必要性を強調します。 そこで本研究では,複数のモデルから合成認識モデルの嗜好を集約する新しいフレームワークであるIterCompを紹介し,コンポジション生成を向上させるために反復的なフィードバック学習アプローチを採用する。 具体的には、6つの強力なオープンソース拡散モデルのギャラリーをキュレートし、属性結合、空間関係、非空間関係の3つの重要な構成指標を評価する。 これらの指標に基づいて、多数の画像ランク対からなる合成対応モデル嗜好データセットを開発し、合成対応報酬モデルを訓練する。 そこで我々は,閉ループ方式で構成性を向上させる反復的フィードバック学習法を提案し,基本拡散モデルと報奨モデルの両方を複数回にわたって漸進的に自己調整することを可能にする。 理論的な証明は、従来のSOTA法(例えば Omost や FLUX)よりも、特に多カテゴリーのオブジェクト合成と複雑な意味的アライメントにおいて、有効性を示し、広範な実験を行った。 IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。 コード:https://github.com/YangLing0818/IterComp

Advanced diffusion models like RPG, Stable Diffusion 3 and FLUX have made notable strides in compositional text-to-image generation. However, these methods typically exhibit distinct strengths for compositional generation, with some excelling in handling attribute binding and others in spatial relationships. This disparity highlights the need for an approach that can leverage the complementary strengths of various models to comprehensively improve the composition capability. To this end, we introduce IterComp, a novel framework that aggregates composition-aware model preferences from multiple models and employs an iterative feedback learning approach to enhance compositional generation. Specifically, we curate a gallery of six powerful open-source diffusion models and evaluate their three key compositional metrics: attribute binding, spatial relationships, and non-spatial relationships. Based on these metrics, we develop a composition-aware model preference dataset comprising numerous image-rank pairs to train composition-aware reward models. Then, we propose an iterative feedback learning method to enhance compositionality in a closed-loop manner, enabling the progressive self-refinement of both the base diffusion model and reward models over multiple iterations. Theoretical proof demonstrates the effectiveness and extensive experiments show our significant superiority over previous SOTA methods (e.g., Omost and FLUX), particularly in multi-category object composition and complex semantic alignment. IterComp opens new research avenues in reward feedback learning for diffusion models and compositional generation. Code: https://github.com/YangLing0818/IterComp
翻訳日:2024-10-31 21:46:48 公開日:2024-10-09
# Glider: グローバルでローカルなインストラクション駆動のエキスパートルータ

Glider: Global and Local Instruction-Driven Expert Router ( http://arxiv.org/abs/2410.07172v1 )

ライセンス: Link先を確認
Pingzhi Li, Prateek Yadav, Jaehong Yoon, Jie Peng, Yi-Lin Sung, Mohit Bansal, Tianlong Chen, (参考訳) 性能訓練済みのモデルが利用可能になったことで、特定のドメインに特化された微調整されたエキスパートモデルが急増した。 これにより、高性能で適応的なルーティングベースの"Model MoErging"メソッドの作成が可能になった。 しかし、既存のMoErgingメソッドは、ホールドインタスクのパフォーマンスを犠牲にして、一般化を優先し、実際のデプロイメントシナリオにおける実用性を制限することが多い。 我々は,現在のトークンレベルのルーティング機構が,入力タスクのグローバルな意味的コンテキストを無視していることを観察する。 このトークン単位の独立性は、ルーティング決定がタスクのセマンティックプロパティを組み込まないため、ホールドインタスクの効果的な専門家選択を妨げる。 そこで本研究では,グローバルルータと学習ローカルルータを含むマルチスケールルーティング機構を統合したGLIDER(Global and Local Instruction Driven Expert Router)を提案する。 グローバルルータは、LLMの高度な推論機能を利用して、セマンティックなコンテキストを解析し、専門家の選択を強化する。 入力クエリとLLMが与えられた後、ルータはすべてのレイヤにまたがる最も関連性の高い専門家の検索をガイドするセマンティックタスク命令を生成する。 このグローバルガイダンスは,各モジュール内のトークンレベルのルーティング決定を容易にするローカルルータによって補完される。 T0タスクとFLANタスクのT5モデルを用いた実験により,GLIDERはホールドアウトタスクの強力な一般化を維持しつつ,ホールドイン性能を大幅に向上することを示した。 また、GLIDERのコンポーネントを深く掘り下げるためのアブレーション実験も行います。 実験では,MoErging 法に対する LLM によるセマンティック推論を活用するマルチスケールルーティングの重要性を強調した。

The availability of performant pre-trained models has led to a proliferation of fine-tuned expert models that are specialized to particular domains. This has enabled the creation of powerful and adaptive routing-based "Model MoErging" methods with the goal of using expert modules to create an aggregate system with improved performance or generalization. However, existing MoErging methods often prioritize generalization to unseen tasks at the expense of performance on held-in tasks, which limits its practical applicability in real-world deployment scenarios. We observe that current token-level routing mechanisms neglect the global semantic context of the input task. This token-wise independence hinders effective expert selection for held-in tasks, as routing decisions fail to incorporate the semantic properties of the task. To address this, we propose, Global and Local Instruction Driven Expert Router (GLIDER) that integrates a multi-scale routing mechanism, encompassing a semantic global router and a learned local router. The global router leverages LLM's advanced reasoning capabilities for semantic-related contexts to enhance expert selection. Given the input query and LLM, the router generates semantic task instructions that guide the retrieval of the most relevant experts across all layers. This global guidance is complemented by a local router that facilitates token-level routing decisions within each module, enabling finer control and enhanced performance on unseen tasks. Our experiments using T5-based models for T0 and FLAN tasks demonstrate that GLIDER achieves substantially improved held-in performance while maintaining strong generalization on held-out tasks. We also perform ablations experiments to dive deeper into the components of GLIDER. Our experiments highlight the importance of our multi-scale routing that leverages LLM-driven semantic reasoning for MoErging methods.
翻訳日:2024-10-31 21:46:48 公開日:2024-10-09
# より良い言語モデルには明快なビジョンがあるか?

Do better language models have crisper vision? ( http://arxiv.org/abs/2410.07173v1 )

ライセンス: Link先を確認
Jona Ruthardt, Gertjan J. Burghouts, Serge Belongie, Yuki M. Asano, (参考訳) テキストのみのLarge Language Models (LLM)は、ビジュアル世界をどのように把握するか? LLMはコンピュータビジョンでますます使われているため、この問題に対処することは基本的かつ関連するものとなる。 しかし、既存の研究は主に、視覚コンテンツやクラスタマルチモーダルデータを生成する能力など、限られたシナリオに焦点を当てている。 そこで本稿では,視覚世界と言語モデルを整合させるキープロパティを分離するためのVisual Text Representation Benchmark (ViTeRB)を提案する。 これにより、大規模デコーダベースのLCMを視覚中心の文脈でテキストを表現するための理想的な候補とみなし、テキストエンコーダを利用する現在の実践に対抗できる。 これらの知見に基づいて,超軽量CLIP様モデルであるShareLockを提案する。 強力なビジョンと言語モデルから事前計算可能なフリーズ機能を活用することで、ShareLockは563kのイメージキャプチャペアしか利用していないにも関わらず、ImageNet上で印象的な51%の精度を実現している。 さらに、トレーニングには1GPU時間(または機能の事前計算を含む10時間)しか必要としない。 コードはリリースされる。

How well do text-only Large Language Models (LLMs) grasp the visual world? As LLMs are increasingly used in computer vision, addressing this question becomes both fundamental and pertinent. However, existing studies have primarily focused on limited scenarios, such as their ability to generate visual content or cluster multimodal data. To this end, we propose the Visual Text Representation Benchmark (ViTeRB) to isolate key properties that make language models well-aligned with the visual world. With this, we identify large-scale decoder-based LLMs as ideal candidates for representing text in vision-centric contexts, counter to the current practice of utilizing text encoders. Building on these findings, we propose ShareLock, an ultra-lightweight CLIP-like model. By leveraging precomputable frozen features from strong vision and language models, ShareLock achieves an impressive 51% accuracy on ImageNet despite utilizing just 563k image-caption pairs. Moreover, training requires only 1 GPU hour (or 10 hours including the precomputation of features) - orders of magnitude less than prior methods. Code will be released.
翻訳日:2024-10-31 21:46:48 公開日:2024-10-09
# 四足歩行の神経回路設計

Neural Circuit Architectural Priors for Quadruped Locomotion ( http://arxiv.org/abs/2410.07174v1 )

ライセンス: Link先を確認
Nikhil X. Bhattasali, Venkatesh Pattabiraman, Lerrel Pinto, Grace W. Lindsay, (参考訳) 四足歩行に対する学習ベースのアプローチは、完全に連結されたMLPのような一般的なポリシーアーキテクチャを採用するのが一般的である。 このようなアーキテクチャには帰納バイアスがほとんどないため、実際には、報酬、訓練カリキュラム、模倣データ、軌道生成器といった形で事前を組み込むのが一般的である。 自然界では、動物は、進化によって形成され、自然の能力と効率的な学習をもたらす、神経系のアーキテクチャーの形で先駆的に生まれる。 例えば、馬は生後数時間で歩けるし、練習で素早く改善できる。 このようなアーキテクチャの先行は、AIのANNアーキテクチャにも有用である。 本研究では, 哺乳動物の肢および脊髄の神経回路に基づく四足歩行に対する生物学的にインスパイアされたANNアーキテクチャの利点について検討する。 我々のアーキテクチャは、MLPに匹敵する優れた初期性能と最終性能を達成すると同時に、少ないデータと桁数のパラメータを使用する。 我々のアーキテクチャはまたタスクのバリエーションをより一般化し、標準のsim-to-realメソッドを使わずに物理ロボットに展開することを認める。 この研究は、ニューラルサーキットがロコモーションに価値あるアーキテクチャ上の事前情報を提供し、他の感覚運動のスキルにおける将来の研究を促進することを示している。

Learning-based approaches to quadruped locomotion commonly adopt generic policy architectures like fully connected MLPs. As such architectures contain few inductive biases, it is common in practice to incorporate priors in the form of rewards, training curricula, imitation data, or trajectory generators. In nature, animals are born with priors in the form of their nervous system's architecture, which has been shaped by evolution to confer innate ability and efficient learning. For instance, a horse can walk within hours of birth and can quickly improve with practice. Such architectural priors can also be useful in ANN architectures for AI. In this work, we explore the advantages of a biologically inspired ANN architecture for quadruped locomotion based on neural circuits in the limbs and spinal cord of mammals. Our architecture achieves good initial performance and comparable final performance to MLPs, while using less data and orders of magnitude fewer parameters. Our architecture also exhibits better generalization to task variations, even admitting deployment on a physical robot without standard sim-to-real methods. This work shows that neural circuits can provide valuable architectural priors for locomotion and encourages future work in other sensorimotor skills.
翻訳日:2024-10-31 21:46:48 公開日:2024-10-09
# Astute RAG:大規模言語モデルにおける不完全検索強化と知識紛争の克服

Astute RAG: Overcoming Imperfect Retrieval Augmentation and Knowledge Conflicts for Large Language Models ( http://arxiv.org/abs/2410.07176v1 )

ライセンス: Link先を確認
Fei Wang, Xingchen Wan, Ruoxi Sun, Jiefeng Chen, Sercan Ö. Arık, (参考訳) Retrieval-Augmented Generation (RAG) は、大きな言語モデル(LLM)の限界に対処するために外部知識を統合するのに効果的であるが、不適切な検索によって損なわれる可能性がある。 その重要性にもかかわらず、従来の研究では、不完全な検索属性の誤りや伝播の仕方、LLMの内部知識と外部情報源の間の潜在的な衝突の発生について、共同分析を通じてRAGの挙動を調査することはめったにない。 現実的な条件下での制御分析により,不完全検索の増大は避けられず,極めて有害である可能性が示唆された。 我々は、検索からLLM内部知識と外部知識の相違をRAGの検索後の段階において克服するボトルネックとして認識する。 本研究では,LLMの内部知識から必須情報を適応的に引き出す新しいRAG手法であるAstute RAGを提案する。 Gemini と Claude を用いた実験により,Astute RAG が従来のロバスト性向上 RAG 法より有意に優れていることが示された。 特にAstute RAGは、最悪のシナリオでRAGを使わずにLLMのパフォーマンスにマッチまたは超過する唯一のアプローチである。 さらに分析した結果, Astute RAG は知識紛争を効果的に解決し,RAG システムの信頼性と信頼性を向上させることが判明した。

Retrieval-Augmented Generation (RAG), while effective in integrating external knowledge to address the limitations of large language models (LLMs), can be undermined by imperfect retrieval, which may introduce irrelevant, misleading, or even malicious information. Despite its importance, previous studies have rarely explored the behavior of RAG through joint analysis on how errors from imperfect retrieval attribute and propagate, and how potential conflicts arise between the LLMs' internal knowledge and external sources. We find that imperfect retrieval augmentation might be inevitable and quite harmful, through controlled analysis under realistic conditions. We identify the knowledge conflicts between LLM-internal and external knowledge from retrieval as a bottleneck to overcome in the post-retrieval stage of RAG. To render LLMs resilient to imperfect retrieval, we propose Astute RAG, a novel RAG approach that adaptively elicits essential information from LLMs' internal knowledge, iteratively consolidates internal and external knowledge with source-awareness, and finalizes the answer according to information reliability. Our experiments using Gemini and Claude demonstrate that Astute RAG significantly outperforms previous robustness-enhanced RAG methods. Notably, Astute RAG is the only approach that matches or exceeds the performance of LLMs without RAG under worst-case scenarios. Further analysis reveals that Astute RAG effectively resolves knowledge conflicts, improving the reliability and trustworthiness of RAG systems.
翻訳日:2024-10-31 21:46:48 公開日:2024-10-09
# MM-Ego:Egocentric Multimodal LLMの構築に向けて

MM-Ego: Towards Building Egocentric Multimodal LLMs ( http://arxiv.org/abs/2410.07177v1 )

ライセンス: Link先を確認
Hanrong Ye, Haotian Zhang, Erik Daxberger, Lin Chen, Zongyu Lin, Yanghao Li, Bowen Zhang, Haoxuan You, Dan Xu, Zhe Gan, Jiasen Lu, Yinfei Yang, (参考訳) 本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築を包括的に検討することである。 この目標を達成するために、私たちは3つの側面に取り組んでいます。 まず,エゴセントリックなビデオ理解のためのQAデータが不足しているため,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックなビデオに対して,高品質な7MのQAサンプルを効率よく生成するデータエンジンを開発した。 これは現在、最もエゴセントリックなQAデータセットである。 第2に、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さの動画の視覚的詳細を認識・記憶するモデルの能力を評価する。 本稿では,評価対象モデルに存在する回避不能な言語バイアスを軽減するために,新しい非バイアス評価手法を提案する。 第3に,新しい「メモリポインタ・プロンプティング」機構を特徴とする,特殊なマルチモーダルアーキテクチャを提案する。 このデザインには、ビデオ全体に対する理解を深め、主要な視覚情報を識別するグローバルなステップが含まれており、その後、キービジュアル情報を利用して応答を生成するフォールバックステップが続く。 これにより、拡張されたビデオコンテンツをより効果的に理解することができる。 データ、ベンチマーク、モデルを用いて、エゴセントリックなマルチモーダルLLMであるMM-Egoを成功させ、エゴセントリックなビデオ理解における強力なパフォーマンスを示す。

This research aims to comprehensively explore building a multimodal foundation model for egocentric video understanding. To achieve this goal, we work on three fronts. First, as there is a lack of QA data for egocentric video understanding, we develop a data engine that efficiently generates 7M high-quality QA samples for egocentric videos ranging from 30 seconds to one hour long, based on human-annotated data. This is currently the largest egocentric QA dataset. Second, we contribute a challenging egocentric QA benchmark with 629 videos and 7,026 questions to evaluate the models' ability in recognizing and memorizing visual details across videos of varying lengths. We introduce a new de-biasing evaluation method to help mitigate the unavoidable language bias present in the models being evaluated. Third, we propose a specialized multimodal architecture featuring a novel "Memory Pointer Prompting" mechanism. This design includes a global glimpse step to gain an overarching understanding of the entire video and identify key visual information, followed by a fallback step that utilizes the key visual information to generate responses. This enables the model to more effectively comprehend extended video content. With the data, benchmark, and model, we successfully build MM-Ego, an egocentric multimodal LLM that shows powerful performance on egocentric video understanding.
翻訳日:2024-10-31 21:46:48 公開日:2024-10-09
# スペクトル誘発時空間ニューラルネットワークを用いたシンチレーション信号特性の効率的な表現学習

Efficient representation learning of scintillation signal characteristics with spectrum-inspired temporal neural networks ( http://arxiv.org/abs/2410.07267v1 )

ライセンス: Link先を確認
Pengcheng Ai, Xiangming Sun, Zhi Deng, Xinchi Ran, (参考訳) シンチレータを用いた核放射線検出器は、粒子・高エネルギー物理実験、核医学イメージング、産業・環境検出等に広く利用されている。 イベントレベルでのシンチレータ信号特性の精密抽出は, シンチレータ自体の理解だけでなく, インシデント粒子の種類や物理的性質についても重要である。 近年の研究では、データ駆動ニューラルネットワークが従来の統計手法よりも優れていることが示されている。 しかし、最も密結合または畳み込みに基づくネットワークはシンチレーション信号のスペクトル構造と時間構造を完全に活用できず、性能改善のための大きな空間を残している。 本稿では,従来の時系列解析に基づくシンチレーション信号のキャラクタリゼーションに適したネットワークアーキテクチャを提案する。 ゼロ周波数成分、低周波数成分の畳み込み方式の調整、異なる周波数からの不偏りのない特徴の再重み付けなどを含む、データ埋め込みのない元の信号にFast Fourier Transformを直接適用することにより、提案したネットワークアーキテクチャは軽量で拡張された表現学習バックボーンとして機能する。 我々は、LUXダークマター検出器の設定によって生成されたシミュレーションデータと、シンチレーション変動をエミュレートする高速電子回路を用いた実験電気信号について、その考え方を実証する。 提案モデルでは,表現学習を伴わない文献や密結合モデルにおいて,参照モデルよりもはるかに優れた結果が得られる。

Nuclear radiation detectors based on scintillators are widely used in particle and high energy physics experiments, nuclear medicine imaging, industrial and environmental detection, etc. Precisely extracting scintillation signal characteristics at the event level is important for these applications, not only in respect of understanding the scintillator itself, but also kinds and physical property of incident particles. Recent researches demonstrate data-driven neural networks are superior to traditional statistical methods, especially when the analytical form of signals is hard to obtain, or noise is significant. However, most densely connected or convolution-based networks fail to fully exploit the spectral and temporal structure of scintillation signals, leaving large space for performance improvement. In this paper, we propose a network architecture specially tailored for scintillation signal characterization based on previous works on time series analysis. By directly applying Fast Fourier Transform on original signals without data embedding, including the zero-frequency component, adjusting convolution scheme for low-frequency components, and unbiasedly re-weighting features from different frequencies, the proposed network architecture can serve as a lightweight and enhanced representation learning backbone. We prove our idea on simulation data generated with the setting of the LUX dark matter detector, and on experimental electrical signals with fast electronics to emulate scintillation variations. The proposed model achieves significantly better results than the reference model in literature and densely connected models without representation learning.
翻訳日:2024-10-31 21:26:45 公開日:2024-10-09
# 鳥のEye-View表現による多モード共同入力プルーニングの学習

Learning Content-Aware Multi-Modal Joint Input Pruning via Bird's-Eye-View Representation ( http://arxiv.org/abs/2410.07268v1 )

ライセンス: Link先を確認
Yuxin Li, Yiheng Li, Xulei Yang, Mengying Yu, Zihang Huang, Xiaojun Wu, Chai Kiat Yeo, (参考訳) 自律運転の分野では、Bird's-Eye-View (BEV) の表現は、最近学術的な注目を集め、マルチモーダルセンサー入力の融合のための変換フレームワークとして機能している。 このBEVパラダイムは、センサ融合の課題をルールベースの方法論からデータ中心のアプローチに効果的にシフトすることで、異種センサの配列からよりニュアンスな特徴抽出を容易にする。 その明らかな利点にもかかわらず、BEVベースの技術に関連する計算オーバーヘッドは、しばしば高容量のハードウェアインフラを義務付け、現実の現実的な実装に挑戦する。 この制限を緩和するために,コンテンツ対応型マルチモーダル入力プルーニング技術を導入する。 本手法は,BEVを共有アンカーとして活用し,知覚モデルのバックボーン導入前の非意味センサ領域をアルゴリズム的に同定・除去する。 提案手法の有効性をNuScenesデータセットの広範な実験により検証し,認識精度を犠牲にすることなく計算効率を著しく向上することを示した。 我々の知る限り、この研究は入力プルーニング点からの計算負担を軽減する最初の試みである。

In the landscape of autonomous driving, Bird's-Eye-View (BEV) representation has recently garnered substantial academic attention, serving as a transformative framework for the fusion of multi-modal sensor inputs. This BEV paradigm effectively shifts the sensor fusion challenge from a rule-based methodology to a data-centric approach, thereby facilitating more nuanced feature extraction from an array of heterogeneous sensors. Notwithstanding its evident merits, the computational overhead associated with BEV-based techniques often mandates high-capacity hardware infrastructures, thus posing challenges for practical, real-world implementations. To mitigate this limitation, we introduce a novel content-aware multi-modal joint input pruning technique. Our method leverages BEV as a shared anchor to algorithmically identify and eliminate non-essential sensor regions prior to their introduction into the perception model's backbone. We validatethe efficacy of our approach through extensive experiments on the NuScenes dataset, demonstrating substantial computational efficiency without sacrificing perception accuracy. To the best of our knowledge, this work represents the first attempt to alleviate the computational burden from the input pruning point.
翻訳日:2024-10-31 21:16:58 公開日:2024-10-09
# ロボット支援外科医の手術機器認識とセグメント化のための深層学習 : システムレビュー

Deep Learning for Surgical Instrument Recognition and Segmentation in Robotic-Assisted Surgeries: A Systematic Review ( http://arxiv.org/abs/2410.07269v1 )

ライセンス: Link先を確認
Fatimaelzahraa Ali Ahmed, Mahmoud Yousef, Mariam Ali Ahmed, Hasan Omar Ali, Anns Mahboob, Hazrat Ali, Zubair Shah, Omar Aboumarzouk, Abdulla Al Ansari, Shidin Balakrishnan, (参考訳) ロボットによる最小侵襲手術(MIS)における手術器具の注釈付けのための深層学習(DL)の適用は,手術技術の著しい進歩を示している。 本研究は,先進的なDL手法とアーキテクチャに関する48の研究を体系的に検討する。 これらの高度なDLモデルは、手術器具の検出と分節の精度と効率を顕著に改善した。 これらのモデルの強化は、リアルタイムの術中指導、総合的な術後評価、手術スキルの客観的評価など、様々な臨床応用をサポートする。 手術器具をビデオデータで正確に識別してセグメント化することにより、DLモデルは外科医に詳細なフィードバックを与え、手術結果の改善と合併症のリスクの低減を図っている。 さらに, 手術教育におけるDLの応用は変革的である。 本総説では,DLが技量評価の精度向上と外科訓練プログラムの総合的品質向上に有意な影響を指摘した。 しかし、手術ツールの検出とセグメント化にDLを実装することは、これらのモデルを効果的にトレーニングするために、大規模で正確に注釈付けされたデータセットを必要とするなど、課題に直面している。 手動のアノテーションプロセスは、労働集約的で時間がかかり、重大なボトルネックを生じさせる。 今後の研究は, 検出・分節プロセスの自動化と, 環境変動に対するDLモデルの堅牢性向上に重点を置くべきである。 各種外科専門分野におけるDLモデルの適用拡大は,この技術の潜在能力を十分に実現するために不可欠である。 拡張現実(AR)などの他の新興技術とDLを統合することで、外科手術の精度と効果をさらに向上する有望な機会を提供する。

Applying deep learning (DL) for annotating surgical instruments in robot-assisted minimally invasive surgeries (MIS) represents a significant advancement in surgical technology. This systematic review examines 48 studies that and advanced DL methods and architectures. These sophisticated DL models have shown notable improvements in the precision and efficiency of detecting and segmenting surgical tools. The enhanced capabilities of these models support various clinical applications, including real-time intraoperative guidance, comprehensive postoperative evaluations, and objective assessments of surgical skills. By accurately identifying and segmenting surgical instruments in video data, DL models provide detailed feedback to surgeons, thereby improving surgical outcomes and reducing complication risks. Furthermore, the application of DL in surgical education is transformative. The review underscores the significant impact of DL on improving the accuracy of skill assessments and the overall quality of surgical training programs. However, implementing DL in surgical tool detection and segmentation faces challenges, such as the need for large, accurately annotated datasets to train these models effectively. The manual annotation process is labor-intensive and time-consuming, posing a significant bottleneck. Future research should focus on automating the detection and segmentation process and enhancing the robustness of DL models against environmental variations. Expanding the application of DL models across various surgical specialties will be essential to fully realize this technology's potential. Integrating DL with other emerging technologies, such as augmented reality (AR), also offers promising opportunities to further enhance the precision and efficacy of surgical procedures.
翻訳日:2024-10-31 21:16:58 公開日:2024-10-09
# マルチタスクプログラムエラー修復と説明診断

Multi-Task Program Error Repair and Explanatory Diagnosis ( http://arxiv.org/abs/2410.07271v1 )

ライセンス: Link先を確認
Zhenyu Xu, Victor S. Sheng, (参考訳) プログラムエラーは、あらゆる種類のプログラミングで起こり、予期しない出力、クラッシュ、パフォーマンス問題など、様々な方法で現れる。 そして、プログラムエラー診断は、開発者が理解するには、特に初心者にとって、抽象的あるいは技術的すぎる場合が多い。 本研究の目的は,マルチタスクプログラムエラー修復・説明診断(mPRED)のための新しい機械学習手法を提案することである。 ソースコードのエンコードには事前訓練された言語モデルが使用され、ダウンストリームモデルはエラーを特定して修復するために特別に設計されている。 プログラムとテストケースは、いくつかの観点から拡張され、最適化されます。 さらに,本手法は「思考の連鎖」手法を導入し,モデルが最終的な修正を行う前に中間的推論説明を作成できるようにする。 プログラム構造を可視化・解析するために,プログラム構造の可視化にグラフニューラルネットワークを用いる。 全体として、我々のアプローチは、プログラムエラーを様々なプログラミング言語で修復し、プログラマに有益な説明を提供する、有望なアプローチを提供する。

Program errors can occur in any type of programming, and can manifest in a variety of ways, such as unexpected output, crashes, or performance issues. And program error diagnosis can often be too abstract or technical for developers to understand, especially for beginners. The goal of this paper is to present a novel machine-learning approach for Multi-task Program Error Repair and Explanatory Diagnosis (mPRED). A pre-trained language model is used to encode the source code, and a downstream model is specifically designed to identify and repair errors. Programs and test cases will be augmented and optimized from several perspectives. Additionally, our approach incorporates a "chain of thoughts" method, which enables the models to produce intermediate reasoning explanations before providing the final correction. To aid in visualizing and analyzing the program structure, we use a graph neural network for program structure visualization. Overall, our approach offers a promising approach for repairing program errors across different programming languages and providing helpful explanations to programmers.
翻訳日:2024-10-31 21:16:58 公開日:2024-10-09
# 触媒加速による分散フェデレーション学習の性能向上

Boosting the Performance of Decentralized Federated Learning via Catalyst Acceleration ( http://arxiv.org/abs/2410.07272v1 )

ライセンス: Link先を確認
Qinglun Li, Miao Zhang, Yingqi Liu, Quanjun Yin, Li Shen, Xiaochun Cao, (参考訳) 分散フェデレーション学習は、より高速なトレーニング、プライバシ保護、通信オーバーヘッドの削減などにより、集中型アーキテクチャに代わるものとして登場した。 分散通信では、集中型フェデレートラーニングにおけるサーバ集約フェーズがクライアント側へと移行し、クライアント同士をピアツーピアで接続する。 しかし、集中型学習と比較して、分散化されたフェデレート学習におけるデータ不均一性は、集約されたモデル間の大きなばらつきを引き起こし、訓練の収束が遅くなり、テストにおける一般化性能が低下する。 これらの問題に対処するため,我々はCatalyst Accelerationを導入し,DFedCataと呼ばれる分散学習アルゴリズムを提案する。 この関数は、データの不均一性に起因するクライアント間のパラメータの不整合に主に対処するMoreauのエンベロープ関数と、アグリゲーションフェーズを加速するNesterovの外挿ステップの2つの主要コンポーネントで構成されている。 理論的には、アルゴリズムの最適化誤差境界と一般化誤差境界を証明し、アルゴリズムの性質とハイパーパラメータ選択に関する理論的視点をより深く理解する。 実験により, CIFAR10/100における収束速度と一般化性能の両面において, 提案アルゴリズムの利点を実証した。 さらに,DFedCataの理論的性質についても実験的に検証した。

Decentralized Federated Learning has emerged as an alternative to centralized architectures due to its faster training, privacy preservation, and reduced communication overhead. In decentralized communication, the server aggregation phase in Centralized Federated Learning shifts to the client side, which means that clients connect with each other in a peer-to-peer manner. However, compared to the centralized mode, data heterogeneity in Decentralized Federated Learning will cause larger variances between aggregated models, which leads to slow convergence in training and poor generalization performance in tests. To address these issues, we introduce Catalyst Acceleration and propose an acceleration Decentralized Federated Learning algorithm called DFedCata. It consists of two main components: the Moreau envelope function, which primarily addresses parameter inconsistencies among clients caused by data heterogeneity, and Nesterov's extrapolation step, which accelerates the aggregation phase. Theoretically, we prove the optimization error bound and generalization error bound of the algorithm, providing a further understanding of the nature of the algorithm and the theoretical perspectives on the hyperparameter choice. Empirically, we demonstrate the advantages of the proposed algorithm in both convergence speed and generalization performance on CIFAR10/100 with various non-iid data distributions. Furthermore, we also experimentally verify the theoretical properties of DFedCata.
翻訳日:2024-10-31 21:16:58 公開日:2024-10-09
# BELM:拡散モデルにおける厳密なインバージョンのための双方向明示的線形多段階サンプリング器

BELM: Bidirectional Explicit Linear Multi-step Sampler for Exact Inversion in Diffusion Models ( http://arxiv.org/abs/2410.07273v1 )

ライセンス: Link先を確認
Fangyikang Wang, Hubery Yin, Yuejiang Dong, Huminhao Zhu, Chao Zhang, Hanbin Zhao, Hui Qian, Chen Li, (参考訳) サンプルの初期ノイズの発見を目的とした拡散モデルサンプリングの逆転は,様々なタスクにおいて重要な役割を果たす。 近年,不正確な逆転問題に対するトレーニング不要な対処法として,ヒューリスティックな正確な逆転検定器がいくつか提案されている。 しかし、これらのヒューリスティックサンプリングの理論的性質はいまだ不明であり、しばしば中程度のサンプリング品質を示す。 本稿では,従来提案されていたすべてのヒューリスティックな正確なインバージョン・サンプルを特別なケースとして含む,正確なインバージョン・サンプルの一般的な定式化であるBELM(emph{Bidirectional Explicit Linear Multi-step})について紹介する。 BELMの定式化は、双方向の明示的制約を統合することによって、可変段差可変形式線形多段階法から導かれる。 この双方向的明示的制約が数学的に正確な逆転の鍵であることを強調する。 BELMフレームワーク内の局所トラニケーション誤差(LTE)を系統的に検討し,既存の正逆サンプリング器のヒューリスティック設計により,準最適LTEが得られることを示す。 そこで本研究ではLTE最小化手法を用いて,O-BELM(Optimal BELM)サンプリング器を提案する。 我々は,提案した最適サンプリング器の理論的安定性と大域収束性を評価するために,さらなる解析を行う。 総合的な実験により,O-BELMサンプリング器は高品質なサンプリングを行いながら,正確な逆転特性を確立した。 画像編集と画像補間に関する追加実験は、O-BELMを様々な応用に適用する広範な可能性を強調している。

The inversion of diffusion model sampling, which aims to find the corresponding initial noise of a sample, plays a critical role in various tasks. Recently, several heuristic exact inversion samplers have been proposed to address the inexact inversion issue in a training-free manner. However, the theoretical properties of these heuristic samplers remain unknown and they often exhibit mediocre sampling quality. In this paper, we introduce a generic formulation, \emph{Bidirectional Explicit Linear Multi-step} (BELM) samplers, of the exact inversion samplers, which includes all previously proposed heuristic exact inversion samplers as special cases. The BELM formulation is derived from the variable-stepsize-variable-formula linear multi-step method via integrating a bidirectional explicit constraint. We highlight this bidirectional explicit constraint is the key of mathematically exact inversion. We systematically investigate the Local Truncation Error (LTE) within the BELM framework and show that the existing heuristic designs of exact inversion samplers yield sub-optimal LTE. Consequently, we propose the Optimal BELM (O-BELM) sampler through the LTE minimization approach. We conduct additional analysis to substantiate the theoretical stability and global convergence property of the proposed optimal sampler. Comprehensive experiments demonstrate our O-BELM sampler establishes the exact inversion property while achieving high-quality sampling. Additional experiments in image editing and image interpolation highlight the extensive potential of applying O-BELM in varying applications.
翻訳日:2024-10-31 21:16:58 公開日:2024-10-09
# 顔非言語行動自動生成における性差の軽減

Mitigation of gender bias in automatic facial non-verbal behaviors generation ( http://arxiv.org/abs/2410.07274v1 )

ライセンス: Link先を確認
Alice Delbosc, Magalie Ochs, Nicolas Sabouret, Brian Ravenet, Stephane Ayache, (参考訳) 対話型エージェントの非言語行動生成に関する研究は、音声による非言語的手がかりの信頼性と同期に重点を置いている。 しかし、既存のモデルは、主にディープラーニングアーキテクチャに基づいており、トレーニングデータに固有のバイアスを持続させることが多い。 このことは、これらのエージェントの意図された適用に依存して、倫理的な懸念を提起する。 本稿では、まず、性別が顔の非言語行動に与える影響について検討する。 私たちは視線、頭の動き、表情に集中しています。 非言語的手がかりから話者の性別を識別できる分類器を導入する。 この分類器は, 従来の研究で開発されたモデルから生成した, 最先端ツールを用いて抽出した実行動データと合成データの両方に対して高い精度を達成し, 従来の行動生成モデルにジェンダー判別器と勾配反転層を統合した新しいモデルであるFairGenderGenを提案する。 本モデルでは, 音声特徴から顔非言語行動を生成し, 生成した行動の性別感受性を緩和する。 実験の結果,最初の段階で開発された分類器は,話者の性別と生成した非言語行動の区別に効果がないことが示された。

Research on non-verbal behavior generation for social interactive agents focuses mainly on the believability and synchronization of non-verbal cues with speech. However, existing models, predominantly based on deep learning architectures, often perpetuate biases inherent in the training data. This raises ethical concerns, depending on the intended application of these agents. This paper addresses these issues by first examining the influence of gender on facial non-verbal behaviors. We concentrate on gaze, head movements, and facial expressions. We introduce a classifier capable of discerning the gender of a speaker from their non-verbal cues. This classifier achieves high accuracy on both real behavior data, extracted using state-of-the-art tools, and synthetic data, generated from a model developed in previous work.Building upon this work, we present a new model, FairGenderGen, which integrates a gender discriminator and a gradient reversal layer into our previous behavior generation model. This new model generates facial non-verbal behaviors from speech features, mitigating gender sensitivity in the generated behaviors. Our experiments demonstrate that the classifier, developed in the initial phase, is no longer effective in distinguishing the gender of the speaker from the generated non-verbal behaviors.
翻訳日:2024-10-31 21:16:57 公開日:2024-10-09
# 非線形量子散逸からの極端事象とパワー・ロー分布

Extreme events and power-law distributions from nonlinear quantum dissipation ( http://arxiv.org/abs/2410.07275v1 )

ライセンス: Link先を確認
Wai-Keong Mok, (参考訳) 停電確率分布は複雑なシステムの極端な統計現象をモデル化するために広く使われており、地震から株式市場の崩壊、パンデミックまで幅広い自然現象に応用されている。 本稿では, 強い非線形散逸を持つ量子系の一般的な特徴として, パワーロー分布の出現を提案する。 非線形散逸を伴う量子力学系の原型系を導入し、エネルギーの定常状態確率分布におけるパワーローテールの出現を解析的に証明する。 力の法則は物理的に量子ノイズの増幅に起因し、そこでは系のエネルギーとともに微視的変動のスケールが大きくなる。 我々のモデルは、測定統計において極端な事象や発散として現れる無限平均エネルギーを持つ無法な状態を予測する。 さらに、量子Li'enard系として知られる一般的な非線形力学のクラスに対して、パワー・ロー分布の数値的な証拠を提供する。 この現象は、光-物質相互作用とセンシングの新たな応用のための極端光子源の開発に利用することができる。

Power-law probability distributions are widely used to model extreme statistical events in complex systems, with applications to a vast array of natural phenomena ranging from earthquakes to stock market crashes to pandemics. We propose the emergence of power-law distributions as a generic feature of quantum systems with strong nonlinear dissipation. We introduce a prototypical family of quantum dynamical systems with nonlinear dissipation, and prove analytically the emergence of power-law tails in the steady state probability distribution for energy. The power law physically originates from the amplification of quantum noise, where the scale of the microscopic fluctuations grows with the energy of the system. Our model predicts a power-law regime with infinite mean energy, which manifests as extreme events and divergences in the measurement statistics. Furthermore, we provide numerical evidence of power-law distributions for a general class of nonlinear dynamics known as quantum Li\'enard systems. This phenomenon can be potentially harnessed to develop extreme photon sources for novel applications in light-matter interaction and sensing.
翻訳日:2024-10-31 21:16:57 公開日:2024-10-09
# ダイヤモンド中のゲルマニウム空調色中心(GeV)に基づく温度センサの感度の最適化

Optimization of the sensitivity of a temperature sensor based on germanium-vacancy color center (GeV) in diamond ( http://arxiv.org/abs/2410.07276v1 )

ライセンス: Link先を確認
I. S. Cojocaru, V. V. Soshenko, S. V. Bolshedvorskii, V. A. Davydov, L. F. Kulikova, V. N. Agafonov, A. Chernyavskiy, A. N. Smolyaninov, V. N. Sorokin, S. Ya. Kilin, A. V. Akimov, (参考訳) ダイヤモンドのGeV色中心に基づく温度センサーは、科学と産業の両方で多くの注目を集めている。 しかし、これらのセンサーの工業的採用は、センサー素子の最もシンプルで安価な設計を必要とする。 元々のセンサ設計は、ゼロフォノン線のスペクトル特性の測定に基づいていた。 近年,GeV放射を二色鏡で分割し,得られた2つの信号の比から温度を決定する手法が提案されている。 本分析では,両手法を詳細に比較する。 室温付近での測定では、どちらの手法も同等の挙動を示しており、使用した部品の品質に若干依存している。 しかし、約300 {\deg}Cの温度におけるフィルタの最適パラメーターに対して、新しい手法は元のパラメーターを約2.5%上回っている。 また, 新手法の感度は室温で観測した感度とほぼ一致している。

Temperature sensors based on GeV color center in diamond are attracting a lot of attention in both science and industry. The industrial adoption of these sensors nevertheless, requires the simplest and cheapest possible design for the sensing element. The original sensor design was based on the measurement of the spectral characteristics of the zero-phonon line. Recently, a modification of this method has been proposed utilizing splitting the GeV emission with a dichroic mirror and determining on temperature from the ratio of two resulting signals. In this analysis, we compare both methods in detail. For measurements near room temperature, both methods have comparable behavior, slightly depended on quality of components used. However, for optimal parameters of a filter at temperatures of about 300 {\deg}C, the new method already outperforms the original by about a factor of 2. Moreover, the sensitivity of the new method remains approximately consistent with that observed at room temperature.
翻訳日:2024-10-31 21:16:57 公開日:2024-10-09
# Swin-BERT:音声によるアルツハイマー認知症検出のための特徴融合システム

Swin-BERT: A Feature Fusion System designed for Speech-based Alzheimer's Dementia Detection ( http://arxiv.org/abs/2410.07277v1 )

ライセンス: Link先を確認
Yilin Pan, Yanpei Shi, Yijia Zhang, Mingyu Lu, (参考訳) 音声は、聴覚と言語能力が早期にADに罹患する人の減少を示すため、通常、自動アルツハイマー認知症(AD)検出システムを構築するために使用される。 しかし、音声はADに関連する地域情報やグローバル情報だけでなく、年齢や性別など認知的地位に関係のない他の情報も含んでいる。 本稿では,認知症自動検出のための音声ベースシステムSwin-BERTを提案する。 画像から局所的・大域的情報を抽出するために提案した移動窓のマルチヘッドアテンションを音響ベースシステムの設計に利用した。 音響特徴抽出における年齢と性別の影響を分離するために、設計された音響システムの付加的な入力として使用される。 言語的部分については、ADの有無によって異なるリズム関連情報を削除し、音声記録を転写文に書き起こしする。 削除したリズム関連情報を補うために,単語レベルのBERTスタイルシステムの余分な入力として,文字レベルの書き起こしを提案する。 最後に、Swin-BERTは、提案した音響ベースシステムから得られた音響特徴と言語ベースシステムを組み合わせる。 実験は、ADReSSとADReSSoという、国際的な認知症検出課題によって提供される2つのデータセットに基づいている。 その結果、提案した音響システムと言語システムの両方が、以前の2つのデータセットによる研究より優れているか、あるいは同等であることがわかった。 上述の結果はADReSSとADReSSoデータセット上のSwin-BERTシステムによって達成され、それぞれ85.58\%Fスコアと87.32\%Fスコアである。

Speech is usually used for constructing an automatic Alzheimer's dementia (AD) detection system, as the acoustic and linguistic abilities show a decline in people living with AD at the early stages. However, speech includes not only AD-related local and global information but also other information unrelated to cognitive status, such as age and gender. In this paper, we propose a speech-based system named Swin-BERT for automatic dementia detection. For the acoustic part, the shifted windows multi-head attention that proposed to extract local and global information from images, is used for designing our acoustic-based system. To decouple the effect of age and gender on acoustic feature extraction, they are used as an extra input of the designed acoustic system. For the linguistic part, the rhythm-related information, which varies significantly between people living with and without AD, is removed while transcribing the audio recordings into transcripts. To compensate for the removed rhythm-related information, the character-level transcripts are proposed to be used as the extra input of a word-level BERT-style system. Finally, the Swin-BERT combines the acoustic features learned from our proposed acoustic-based system with our linguistic-based system. The experiments are based on the two datasets provided by the international dementia detection challenges: the ADReSS and ADReSSo. The results show that both the proposed acoustic and linguistic systems can be better or comparable with previous research on the two datasets. Superior results are achieved by the proposed Swin-BERT system on the ADReSS and ADReSSo datasets, which are 85.58\% F-score and 87.32\% F-score respectively.
翻訳日:2024-10-31 21:16:57 公開日:2024-10-09
# 検索リプレース削減:意味マッチングによる効果的な視覚的トークン削減手法

Retrieval Replace Reduction: An effective visual token reduction method via semantic match ( http://arxiv.org/abs/2410.07278v1 )

ライセンス: Link先を確認
Yingen Liu, Fan Wu, Ruihui Li, Zhuo Tang, Kenli Li, (参考訳) MLLM(Multimodal large language model)は、スクラッチからトレーニングを必要とせず、様々なタスクに強いパフォーマンスを示す。 しかし、特にコンテキスト長を超えるマルチモーダル入力を処理する際には、計算量やメモリの制約がかなり大きい。 本稿では, MLLMの性能を損なうことなく, 視覚的トークンの数を効果的に削減できる新しいアプローチ, \textbf{TRSM} (\textbf{T}oken \textbf{R}eduction via \textbf{S}emantic \textbf{M}atch) を提案する。 TRSMは、人間のマルチモーダルタスクの処理方法にインスパイアされ、あるモダリティからのセマンティック情報を活用して、関連するセマンティクスを別のモダリティでマッチングし、視覚トークンの数を減らし、特に、タスクに関連する視覚トークンを格納するために、クエリベクトルとしてテキストプロンプトを使用し、視覚プロンプトから最も類似したベクトルを検索し、テキストトークンとマージする。 実験結果から,LLaVA-1.5\cite{liu2023} に適用した場合,視覚トークンを 20 % 圧縮し,多様な視覚的質問応答および推論タスクにおいて同等の性能を実現する。

Multimodal large language models (MLLMs) have demonstrated strong performance across various tasks without requiring training from scratch. However, they face significant computational and memory constraints, particularly when processing multimodal inputs that exceed context length, limiting their scalability. In this paper, we introduce a new approach, \textbf{TRSM} (\textbf{T}oken \textbf{R}eduction via \textbf{S}emantic \textbf{M}atch), which effectively reduces the number of visual tokens without compromising MLLM performance. Inspired by how humans process multimodal tasks, TRSM leverages semantic information from one modality to match relevant semantics in another, reducing the number of visual tokens.Specifically, to retain task relevant visual tokens, we use the text prompt as a query vector to retrieve the most similar vectors from the visual prompt and merge them with the text tokens. Based on experimental results, when applied to LLaVA-1.5\cite{liu2023}, our approach compresses the visual tokens by 20\%, achieving comparable performance across diverse visual question-answering and reasoning tasks.
翻訳日:2024-10-31 21:16:57 公開日:2024-10-09
# クリックストリームシーケンス分析のためのユーティリティマイニング駆動型アクティブラーニングアプローチ

A Utility-Mining-Driven Active Learning Approach for Analyzing Clickstream Sequences ( http://arxiv.org/abs/2410.07282v1 )

ライセンス: Link先を確認
Danny Y. C. Wang, Lars Arne Jordanger, Jerry Chun-Wei Lin, (参考訳) 急速に発展する電子商取引業界では、モデルトレーニングのための高品質なデータを選択する能力が不可欠である。 本研究では、この課題に対処するためのユーティリティマイニングに基づくアクティブラーニング戦略であるSHAP(HUSPM-SHAP)モデルを用いた高ユーティリティシーケンスパターンマイニングを提案する。 正および負のSHAP値に対するパラメータ設定が、モデルのマイニング結果に影響を与え、アクティブラーニングフレームワークに重要な考慮事項が導入された。 購入に繋がる行動を予測することを目的とした広範な実験を通じて、設計されたHUSPM-SHAPモデルは、様々なシナリオにおいてその優位性を示す。 高い予測性能を維持しながらラベル付けの必要性を緩和するモデルの能力を強調した。 本研究は,電子商取引データ処理を改良し,より合理化され,コスト効率のよい予測モデルに向けたモデルの有効性を示す。

In rapidly evolving e-commerce industry, the capability of selecting high-quality data for model training is essential. This study introduces the High-Utility Sequential Pattern Mining using SHAP values (HUSPM-SHAP) model, a utility mining-based active learning strategy to tackle this challenge. We found that the parameter settings for positive and negative SHAP values impact the model's mining outcomes, introducing a key consideration into the active learning framework. Through extensive experiments aimed at predicting behaviors that do lead to purchases or not, the designed HUSPM-SHAP model demonstrates its superiority across diverse scenarios. The model's ability to mitigate labeling needs while maintaining high predictive performance is highlighted. Our findings demonstrate the model's capability to refine e-commerce data processing, steering towards more streamlined, cost-effective prediction modeling.
翻訳日:2024-10-31 21:16:57 公開日:2024-10-09
# プロンプト感染症 : マルチエージェントシステムにおけるLPM-LLMプロンプト注入

Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems ( http://arxiv.org/abs/2410.07283v1 )

ライセンス: Link先を確認
Donghyun Lee, Mo Tiwari, (参考訳) 大規模言語モデル(LLM)がますます強力になるにつれて、現代のAIアプリケーションでは、マルチエージェントシステムが普及しつつある。 しかし、ほとんどの安全研究は単一エージェントLSMの脆弱性に焦点を当てている。 これには、外部コンテンツに埋め込まれた悪意のあるプロンプトがLLMを騙して意図しないまたは有害なアクションを実行させ、被害者のアプリケーションに妥協させるプロンプトインジェクション攻撃が含まれる。 本稿では,マルチエージェントシステム内でのLLM-to-LLMプロンプトインジェクションという,より危険なベクトルを明らかにする。 Prompt infectionは、コンピュータウイルスのように振る舞う、相互に繋がったエージェント間で、悪意のある自己複製を促す新たな攻撃である。 この攻撃は、データ盗難、詐欺、誤報、システム全体の破壊など、深刻な脅威を引き起こす。 エージェントがすべての通信を公に共有していない場合でも,マルチエージェントシステムは非常に感受性が高いことを示す。 そこで本研究では,既存の安全対策と組み合わせることで感染拡大を著しく軽減する防衛機構であるLSM Taggingを提案する。 この研究は、マルチエージェントLLMシステムがより広く採用されるにつれて、高度なセキュリティ対策の緊急の必要性を浮き彫りにしている。

As Large Language Models (LLMs) grow increasingly powerful, multi-agent systems are becoming more prevalent in modern AI applications. Most safety research, however, has focused on vulnerabilities in single-agent LLMs. These include prompt injection attacks, where malicious prompts embedded in external content trick the LLM into executing unintended or harmful actions, compromising the victim's application. In this paper, we reveal a more dangerous vector: LLM-to-LLM prompt injection within multi-agent systems. We introduce Prompt Infection, a novel attack where malicious prompts self-replicate across interconnected agents, behaving much like a computer virus. This attack poses severe threats, including data theft, scams, misinformation, and system-wide disruption, all while propagating silently through the system. Our extensive experiments demonstrate that multi-agent systems are highly susceptible, even when agents do not publicly share all communications. To address this, we propose LLM Tagging, a defense mechanism that, when combined with existing safeguards, significantly mitigates infection spread. This work underscores the urgent need for advanced security measures as multi-agent LLM systems become more widely adopted.
翻訳日:2024-10-31 21:16:57 公開日:2024-10-09
# RLを用いた社会環境シミュレーションによる望ましい気候軌道の構築

Crafting desirable climate trajectories with RL explored socio-environmental simulations ( http://arxiv.org/abs/2410.07287v1 )

ライセンス: Link先を確認
James Rudd-Jones, Fiona Thendean, María Pérez-Ortiz, (参考訳) 気候変動は現実的な脅威となり、影響のある変化を起こすのに効果的な気候変動政策を必要とする。 この領域における決定は非常に複雑で、矛盾する実体や証拠を含んでいる。 過去数十年間、政策立案者はシミュレーションや計算手法を使って意思決定を導いてきた。 統合アセスメントモデル(IAM)は、社会、経済、環境シミュレーションを組み合わせて潜在的な政策効果を予測する手法の一つである。 例えば、国連は最近のIPCC(Inter Governmental Panel on Climate Change)レポートにIAMの出力を使用している。 伝統的にこれらは再帰方程式解法を用いて解決されてきたが、いくつかの欠点があり、例えば不確実性の下での意思決定に苦慮している。 従来の解決法を置き換えるために強化学習(RL)を用いた最近の予備研究は、不確実でノイズの多いシナリオにおける意思決定において有望な結果を示している。 我々は、様々な利害関係者や現在の気候危機の多くをリードする国家間の複雑な相互作用をモデル化するための予備的な分析として、複数の相互作用するRLエージェントを導入することにより、この取り組みを拡大する。 以上の結果から, この枠組みの協力的エージェントは, 二酸化炭素排出量の削減と経済改善の観点から, より望ましい未来への道筋を常にグラフ化できることがわかった。 しかし、例えば、相手の報酬関数を使ってエージェント間の競争を導入すると、望ましい気候の未来はめったに到達しない。 モデリング競争は、これらのシミュレーションにおける現実主義の増大の鍵であり、我々は、アルゴリズムの失敗を理解するために、状態がより不確実な振る舞いに繋がるかを視覚化することによってポリシー解釈を採用する。 最後に、政策導出の今後の技術獲得を確実にするため、今後の取り組みに向けた現在の制限と道のりを強調します。

Climate change poses an existential threat, necessitating effective climate policies to enact impactful change. Decisions in this domain are incredibly complex, involving conflicting entities and evidence. In the last decades, policymakers increasingly use simulations and computational methods to guide some of their decisions. Integrated Assessment Models (IAMs) are one of such methods, which combine social, economic, and environmental simulations to forecast potential policy effects. For example, the UN uses outputs of IAMs for their recent Intergovernmental Panel on Climate Change (IPCC) reports. Traditionally these have been solved using recursive equation solvers, but have several shortcomings, e.g. struggling at decision making under uncertainty. Recent preliminary work using Reinforcement Learning (RL) to replace the traditional solvers shows promising results in decision making in uncertain and noisy scenarios. We extend on this work by introducing multiple interacting RL agents as a preliminary analysis on modelling the complex interplay of socio-interactions between various stakeholders or nations that drives much of the current climate crisis. Our findings show that cooperative agents in this framework can consistently chart pathways towards more desirable futures in terms of reduced carbon emissions and improved economy. However, upon introducing competition between agents, for instance by using opposing reward functions, desirable climate futures are rarely reached. Modelling competition is key to increased realism in these simulations, as such we employ policy interpretation by visualising what states lead to more uncertain behaviour, to understand algorithm failure. Finally, we highlight the current limitations and avenues for further work to ensure future technology uptake for policy derivation.
翻訳日:2024-10-31 21:16:56 公開日:2024-10-09
# 主直交潜在成分分析(POLCAネット)

Principal Orthogonal Latent Components Analysis (POLCA Net) ( http://arxiv.org/abs/2410.07289v1 )

ライセンス: Link先を確認
Jose Antonio Martin H., Freddy Perozo, Manuel Lopez, (参考訳) 表現学習は機械学習の分野で重要な分野であり、与えられたタスクに必要な表現や特徴を生データから自動的に発見する手法の開発に焦点を当てている。 機能のマニュアル作成を必要とする従来の機能エンジニアリングとは異なり、表現学習は、分類、予測、クラスタリングといったタスクにより有用で関連性の高い機能を学ぶことを目的としている。 我々はPCAとLDA機能を非線形領域に模倣し拡張するためのPOLCANet(Principal Orthogonal Latent Components Analysis Network)を導入する。 POLCA Netは、自動エンコーダフレームワークと一連の特殊な損失関数を組み合わせることで、有効次元の低減、直交性、分散に基づく特徴ソート、高忠実度再構成を実現し、また分類ラベルで使用する場合、線形分類器やクラス分布の低次元可視化にも適した潜在表現も適している。

Representation learning is a pivotal area in the field of machine learning, focusing on the development of methods to automatically discover the representations or features needed for a given task from raw data. Unlike traditional feature engineering, which requires manual crafting of features, representation learning aims to learn features that are more useful and relevant for tasks such as classification, prediction, and clustering. We introduce Principal Orthogonal Latent Components Analysis Network (POLCA Net), an approach to mimic and extend PCA and LDA capabilities to non-linear domains. POLCA Net combines an autoencoder framework with a set of specialized loss functions to achieve effective dimensionality reduction, orthogonality, variance-based feature sorting, high-fidelity reconstructions, and additionally, when used with classification labels, a latent representation well suited for linear classifiers and low dimensional visualization of class distribution as well.
翻訳日:2024-10-31 21:06:44 公開日:2024-10-09
# IterGen: イテレーティブ構造化LDM生成

IterGen: Iterative Structured LLM Generation ( http://arxiv.org/abs/2410.07295v1 )

ライセンス: Link先を確認
Shubham Ugare, Rohan Gumaste, Tarun Suresh, Gagandeep Singh, Sasa Misailovic, (参考訳) 大規模言語モデル(LLM)は自然言語やコード生成といったタスクに広く使われている。 それでも、そのアウトプットは、プライバシ違反やセマンティックに不正確なコード生成といった問題に悩まされることが多い。 LLM生成用の現在のライブラリは、バックトラックを体系的にサポートすることなく、左から右へのデコードに依存しており、中世代の出力を修正または改善する能力を制限する。 この問題に対処するため,IterGenは文法記号に基づいて生成した出力を前後に移動させる,反復型文法誘導LLM生成のための直感的なフレームワークである。 シンボルと位置のマッピングを活用することで、IterGenはプロセス中の修正を許容しながら、効率的で構造化された生成を保証します。 我々は,LLM出力におけるプライバシリークの低減と,LLM生成SQLクエリの精度向上という,IterGenの有効性を2つの重要なアプリケーションで実証する。 私たちのコードはhttps://github.com/uiuc-arc/itergenで利用可能です。

Large Language Models (LLMs) are widely used for tasks such as natural language and code generation. Still, their outputs often suffer from issues like privacy violations, and semantically inaccurate code generation. Current libraries for LLM generation rely on left-to-right decoding without systematic support for backtracking, limiting the ability to correct or refine outputs mid-generation. To address this issue, we introduce IterGen, an intuitive framework for iterative, grammar-guided LLM generation that enables users to move both forward and backward within the generated output based on grammar symbols. By leveraging a symbol-to-position mapping, IterGen ensures efficient and structured generation while allowing for corrections during the process. We demonstrate IterGen's effectiveness in two important applications: reducing privacy leakage in LLM outputs and improving the accuracy of LLM-generated SQL queries. Our code is available at https://github.com/uiuc-arc/itergen
翻訳日:2024-10-31 21:06:44 公開日:2024-10-09
# 移動ロボットの自律走行と衝突回避:分類とレビュー

Autonomous Navigation and Collision Avoidance for Mobile Robots: Classification and Review ( http://arxiv.org/abs/2410.07297v1 )

ライセンス: Link先を確認
Marcus Vinicius Leal de Carvalho, Roberto Simoni, Leopoldo Yoshioka, (参考訳) 本稿では,自律型移動ロボット(AMR)の3段階と5段階に分類し,自律的衝突のないナビゲーションに焦点をあてる。 さらに,提案した分類の各段階について,主要な手法と広く受け入れられている技術について述べる。 この分類の目的は、システムの独立した入力変数(ハードウェア、ソフトウェア)と自律的なナビゲーションの間の接続を容易に理解し確立することである。 本稿では,自律ナビゲーションに使用されるセンサや手法を用いて,高度に確立された技術を解析することにより,将来の移動ロボットプロジェクトに適用可能な知識の基盤を提供することを目的とする。

This paper introduces a novel classification for Autonomous Mobile Robots (AMRs), into three phases and five steps, focusing on autonomous collision-free navigation. Additionally, it presents the main methods and widely accepted technologies for each phase of the proposed classification. The purpose of this classification is to facilitate understanding and establish connections between the independent input variables of the system (hardware, software) and autonomous navigation. By analyzing well-established technologies in terms of sensors and methods used for autonomous navigation, this paper aims to provide a foundation of knowledge that can be applied in future projects of mobile robots.
翻訳日:2024-10-31 21:06:44 公開日:2024-10-09
# ドメイン間の一般的な時系列理解を目指して

Towards Generalisable Time Series Understanding Across Domains ( http://arxiv.org/abs/2410.07299v1 )

ライセンス: Link先を確認
Özgün Turgut, Philip Müller, Martin J. Menten, Daniel Rueckert, (参考訳) 自然言語処理とコンピュータビジョンでは、大規模なデータセットでの自己教師付き事前トレーニングにより、ドメインとタスクをまたいだ基礎モデル機能が解放される。 しかし、このポテンシャルはまだ時系列解析において実現されておらず、既存の手法は時系列特性の不均一性を無視している。 時系列は、医学、工学、自然科学、金融など多くの領域で広く使われているが、その特徴は、変動数、変量関係、時間力学、サンプリング頻度の点で大きく異なる。 このドメイン間の固有の不均一性は、大きな時系列コーパスでの効果的な事前学習を妨げている。 この問題に対処するために,多領域不均一性を扱うように設計された一般時系列解析のためのオープンモデルであるOTiSを紹介する。 本稿では,学習可能なドメイン固有のシグネチャを持つトークンソーダ,時間的因果関係を捉えるための二重マスキング戦略,長距離依存性をモデル化するための正規化相互相関損失を含む,新しい事前学習パラダイムを提案する。 我々のモデルは、8つの異なるドメインにまたがる640,187個のサンプルと11億個のタイムポイントからなる大規模なコーパスで事前訓練されており、任意の(目に見えない)ドメインから時系列を分析することができる。 分類、回帰、予測を含む15の多様なアプリケーションにわたる総合的な実験において、OTiSはドメイン固有のデータ特性を正確にキャプチャする能力を示し、最先端のベースラインに対する競争力を示している。 私たちのコードと事前トレーニングされたウェイトはhttps://github.com/oetu/otis.comで公開されています。

In natural language processing and computer vision, self-supervised pre-training on large datasets unlocks foundational model capabilities across domains and tasks. However, this potential has not yet been realised in time series analysis, where existing methods disregard the heterogeneous nature of time series characteristics. Time series are prevalent in many domains, including medicine, engineering, natural sciences, and finance, but their characteristics vary significantly in terms of variate count, inter-variate relationships, temporal dynamics, and sampling frequency. This inherent heterogeneity across domains prevents effective pre-training on large time series corpora. To address this issue, we introduce OTiS, an open model for general time series analysis, that has been specifically designed to handle multi-domain heterogeneity. We propose a novel pre-training paradigm including a tokeniser with learnable domain-specific signatures, a dual masking strategy to capture temporal causality, and a normalised cross-correlation loss to model long-range dependencies. Our model is pre-trained on a large corpus of 640,187 samples and 11 billion time points spanning 8 distinct domains, enabling it to analyse time series from any (unseen) domain. In comprehensive experiments across 15 diverse applications - including classification, regression, and forecasting - OTiS showcases its ability to accurately capture domain-specific data characteristics and demonstrates its competitiveness against state-of-the-art baselines. Our code and pre-trained weights are publicly available at https://github.com/oetu/otis.
翻訳日:2024-10-31 21:06:44 公開日:2024-10-09
# アートサブレディットにおけるAI生成メディアの有病率とダイナミクスの検討

Examining the Prevalence and Dynamics of AI-Generated Media in Art Subreddits ( http://arxiv.org/abs/2410.07302v1 )

ライセンス: Link先を確認
Hana Matatov, Marianne Aubin Le Quéré, Ofra Amir, Mor Naaman, (参考訳) Dall-Eのような、広くアクセス可能な生成AIモデルは、誰でも魅力的なビジュアルアートを作れるようにした。 オンラインコミュニティでは、AIGC(AI生成コンテンツ)の導入は、投稿されるコンテンツの種類や、AIによって生成されたと思われるコンテンツに対する反応を変えることによって、コミュニティのダイナミクスに影響を与える可能性がある。 AIGCがRedditのアート関連コミュニティに与える影響について検討する。 私たちは、AIコンテンツを禁止しているコミュニティと、直接的なポリシーのないコミュニティを区別します。 私たちは、これらのコミュニティがAIによって透明に作成する画像ベースの投稿や、生成的AIを使用する著者を疑うコミュニティのコメントを見てみます。 画像ベースの投稿の0.2%未満を占めるAI投稿(および告発)は、2023年末までこれらのコミュニティで非常に小さな役割を果たしてきた。 著者によるAI投稿の絶対数が時間の経過とともに減少しても、AIの使用に対する非難は引き続き持続的だ。 我々は、AIコンテンツが新参者にとってより簡単に利用でき、コミュニティルールに適合すれば参加を増やすのに役立つことを示している。 しかし、AIの使用を疑うコメントのトーンは、特にAIに関する明確なルールを持っていないコミュニティでは、時間とともにネガティブになっている。 全体としては、クリエイティビティのために指定されたオンラインコミュニティにおけるAIGCに関する規範と相互作用の変化を示している。

Broadly accessible generative AI models like Dall-E have made it possible for anyone to create compelling visual art. In online communities, the introduction of AI-generated content (AIGC) may impact community dynamics by shifting the kinds of content being posted or the responses to content suspected of being generated by AI. We take steps towards examining the potential impact of AIGC on art-related communities on Reddit. We distinguish between communities that disallow AI content and those without a direct policy. We look at image-based posts made to these communities that are transparently created by AI, or comments in these communities that suspect authors of using generative AI. We find that AI posts (and accusations) have played a very small part in these communities through the end of 2023, accounting for fewer than 0.2% of the image-based posts. Even as the absolute number of author-labelled AI posts dwindles over time, accusations of AI use remain more persistent. We show that AI content is more readily used by newcomers and may help increase participation if it aligns with community rules. However, the tone of comments suspecting AI use by others have become more negative over time, especially in communities that do not have explicit rules about AI. Overall, the results show the changing norms and interactions around AIGC in online communities designated for creativity.
翻訳日:2024-10-31 21:06:44 公開日:2024-10-09
# モーラルチューリングテスト:モーラル意思決定におけるヒューマンLLMアライメントの評価

The Moral Turing Test: Evaluating Human-LLM Alignment in Moral Decision-Making ( http://arxiv.org/abs/2410.07304v1 )

ライセンス: Link先を確認
Basile Garcia, Crystal Qian, Stefano Palminteri, (参考訳) 大規模言語モデル(LLM)が社会にますます統合されるにつれて、人間のモラルとの整合が不可欠である。 このアライメントをよりよく理解するために、我々は、様々な道徳的シナリオに対して、人間とLLMが生成する反応の大規模なコーパスを作成しました。 LLMと人間は、道徳的に複雑な実用的ジレンマを拒絶する傾向があったが、LLMは個人のフレーミングに敏感であった。 被験者230名(N=230)を対象に,AI生成の有無を判定し,回答との一致を評価した。 人間の評価者は道徳的シナリオにおけるLLMの評価を好んだが、体系的な反AIバイアスが観察された。 統計的およびNLPに基づく分析では、応答の微妙な言語的差異が検出と一致に影響を与えることが明らかとなった。 総じて、道徳的な意思決定における人間とAIの認識の複雑さを浮き彫りにした。

As large language models (LLMs) become increasingly integrated into society, their alignment with human morals is crucial. To better understand this alignment, we created a large corpus of human- and LLM-generated responses to various moral scenarios. We found a misalignment between human and LLM moral assessments; although both LLMs and humans tended to reject morally complex utilitarian dilemmas, LLMs were more sensitive to personal framing. We then conducted a quantitative user study involving 230 participants (N=230), who evaluated these responses by determining whether they were AI-generated and assessed their agreement with the responses. Human evaluators preferred LLMs' assessments in moral scenarios, though a systematic anti-AI bias was observed: participants were less likely to agree with judgments they believed to be machine-generated. Statistical and NLP-based analyses revealed subtle linguistic differences in responses, influencing detection and agreement. Overall, our findings highlight the complexities of human-AI perception in morally charged decision-making.
翻訳日:2024-10-31 21:06:44 公開日:2024-10-09
# ハラル食品トレーサビリティのためのブロックチェーンと人工知能ベースシステム

A Blockchain and Artificial Intelligence based System for Halal Food Traceability ( http://arxiv.org/abs/2410.07305v1 )

ライセンス: Link先を確認
Abdulla Alourani, Shahnawaz Khan, (参考訳) ハラル食品の需要は世界中で急速に増加している。 ハラル食品の消費はムスリムだけでなく、ハラル食品の純度から非ムスリムにも及んでいる。 しかし、ハラル食品消費者が直面している課題はいくつかある。 この課題は、製品がハラルであることの真偽について、ハラル食品消費者の間で疑念を巻き起こす。 したがって、これらの問題に対処し、消費者と生産者の間の信頼を確立することができるソリューションである。 ブロックチェーン技術は、情報の不変レコードの分散台帳を提供することができる。 人工知能はパターン識別のためのソリューションの開発を支援する。 提案研究では,サプライチェーンのすべての操作とプロセスに関連するトレーサビリティを提供し,原料をオープンソース化することにより,ハラル食品の信頼性を保証するシステムを開発するための,人工知能ベースのシステムであるブロックチェーンを利用する。 提案システムは地元のスーパーマーケットでテストされている。 開発したソリューションの結果とテストは効果的に見え、テスタは提案システムの現実的な実装に関心を示した。

The demand of the halal food products is increasing rapidly around the world. The consumption of halal food product is just not among the Muslims but also among non-Muslims, due to the purity of the halal food products. However, there are several challenges that are faced by the halal food consumers. The challenges raise a doubt among the halal food consumers about the authenticity of the product being halal. Therefore, a solution that can address these issues and can establish trust between consumers and producers. Blockchain technology can provide a distributed ledger of an immutable record of the information. Artificial intelligence supports developing a solution for pattern identification. The proposed research utilizes blockchain an artificial intelligence-based system for developing a system that ensure the authenticity of the halal food products by providing the traceability related to all the operations and processes of the supply chain and sourcing the raw material. The proposed system has been tested with a local supermarket. The results and tests of the developed solution seemed effective and the testers expressed interest in real-world implementation of the proposed system.
翻訳日:2024-10-31 21:06:44 公開日:2024-10-09
# Many-boody Spectral Form Factorの単一粒子普遍性

Single-Particle Universality of the Many-Body Spectral Form Factor ( http://arxiv.org/abs/2410.07306v1 )

ライセンス: Link先を確認
Michael O. Flynn, Lev Vidmar, Tatsuhiko N. Ikeda, (参考訳) 我々は、非相互作用ユニタリ回路と相関するオンサイトポテンシャルによって進化したフェルミオンの系を考える。 これらの電位が円ランダム行列アンサンブルの固有値分布から引き出されるとき、結果の回路アンサンブルのスペクトル形成係数(SFF)を数値サンプリングなしで正確に計算することができる。 円形ユニタリアンサンブル(CUE)の場合、任意のシステムサイズに有効なSFFの正確な閉形式を報告し、指数的なランプの連続を通して成長することを示す。 正確な数値法を用いて、円直交およびシンプレクティックアンサンブル(COEとCSE)がSFFの指数関数的な成長をもたらすことを発見した。 この指数的成長は、$\textit{single- Particle}$レベルで確率行列統計を持つ非相互作用系の特徴であり、相互作用を導入すると、多体ランダム行列の普遍性と整合した線形ランプに交差する。 SFFの正確な結果は、単一粒子と多体ランダムマトリクスの交叉に関する将来の研究のベースラインを提供する。

We consider systems of fermions evolved by non-interacting unitary circuits with correlated on-site potentials. When these potentials are drawn from the eigenvalue distribution of a circular random matrix ensemble, the spectral form factor (SFF) of the resulting circuit ensemble can be computed exactly without numerical sampling. In the case of the circular unitary ensemble (CUE) we report an exact closed form for the SFF, valid for arbitrary system sizes, and show that it grows through a sequence of exponential ramps. Using exact numerical methods, we find that the circular orthogonal and symplectic ensembles (COE and CSE, respectively) also lead to exponential growth of the SFF. This exponential growth is characteristic of non-interacting systems with random matrix statistics at the $\textit{single-particle}$ level and, upon introducing interactions, crosses over to a linear ramp consistent with many-body random matrix universality. Our exact results for the SFF provide a baseline for future studies of the crossover between single-particle and many-body random matrix behavior.
翻訳日:2024-10-31 21:06:44 公開日:2024-10-09
# 電荷保存を伴う監視相互作用フェルミオンダイナミクスの場の理論

Field theory of monitored, interacting fermion dynamics with charge conservation ( http://arxiv.org/abs/2410.07317v1 )

ライセンス: Link先を確認
Haoyu Guo, Matthew S. Foster, Chao-Ming Jian, Andreas W. W. Ludwig, (参考訳) 局所電荷測定により観測された非相互作用フェルミオンの電荷保存ダイナミクスは、測定誘起相転移(MIPT)を伴わずに、面積-束縛相のみに1次元空間を有することが示されている。 この現象は、大きなレプリカ対称性を持つ非線形シグマモデルによって与えられる効果的なレプリカ場理論によってエレガントに説明された。 本研究では,1次元における相互作用するフェルミオンの電荷保存ダイナミックスに着目した。 統一レプリカKeldysh場理論を用いて、相互作用が導入されたときのレプリカ対称性の低下により、よりダイナミックな位相と遷移が現れることを示す。 縮小対称性は、離散的なレプリカ置換対称性と各レプリカ内の電荷保存とを結合する。 前者およびその自発的破壊は、領域法則と体積法則の絡み合いのスケーリングの間でMIPTを制御し、弱い結合型再正規化群の流れにおけるセパラトリクスによって説明できる。 複製分解電荷保存法は、局所的な測定値からグローバル電荷情報が隠されたり再構成されたりする2種類のダイナミクス間の「チャージ抑制」遷移をコステリッツ-チューレス型に規定する。 すべての関連する位相と遷移は、同じ統一場理論の中で理解することができる。 さらに、この場の理論は、なぜ体積-法則の絡み合いのスケーリングが存在する場合にのみ電荷-帯電遷移が起こるのかについての洞察を与える。 さらに、我々の場の理論はケルディシュ形式主義を用いて構築されているにもかかわらず、Choi-Jamiolkowski同型の下でヒルベルト空間に写像された系の密度行列の(複製された)時間進化を記述する統計力学モデルと等価であることを示す。 この等価性は、測定誘起加熱効果によるフェルミオン分布関数の自明化の結果である。

Charge-conserving dynamics of non-interacting fermions monitored by local charge measurements have been shown to possess in 1D space only an area-law-entangled phase, with no measurement-induced phase transition (MIPT). This phenomenon was elegantly explained by an effective replica field theory given by a non-linear sigma model featuring large replica symmetries. In this work, we focus on the charge-conserving monitored dynamics of interacting fermions in 1D. Using a unifying replica Keldysh field theory, we show that more dynamical phases and transitions emerge owing to the reduction of replica symmetry when interactions are introduced. The reduced symmetry combines a discrete replica permutation symmetry and the charge-conservation within each replica. The former and its spontaneous breaking govern the MIPT between area-law and volume-law entanglement scalings, which can be described by a separatrix in the weak-coupling renormalization group flow. The replica-resolved charge conservation dictates the Kosterlitz-Thouless type ``charge-sharpening" transition between the two kinds of dynamics where the global charge information is either hidden or reconstructible from the local measurements. All the relevant phases and transitions can be understood within the same unifying field theory. Additionally, this field theory provides insight into why the charge-sharpening transition should only happen in the presence of volume-law entanglement scaling. Moreover, we show that our field theory, despite being constructed using the Keldysh formalism, is equivalent to a statistical mechanics model that describes the (replicated) time-evolution of the system's density matrix mapped to a doubled Hilbert space under the Choi-Jamiolkowski isomorphism. This equivalence is the result of the trivialization of the fermion distribution function by measurement-induced heating effects.
翻訳日:2024-10-31 21:06:44 公開日:2024-10-09
# チューナブルノイズ強度をもつ量子力学のための厳密な解析ツールボックス

Exact analytic toolbox for quantum dynamics with tunable noise strength ( http://arxiv.org/abs/2410.07321v1 )

ライセンス: Link先を確認
Mert Okyay, Oliver Hart, Rahul Nandkishore, Aaron J. Friedman, (参考訳) 我々は、コヒーレントノイズを受ける量子力学の正確な解析処理を可能にする枠組みを導入する。 このノイズは、任意のヒルベルト空間次元$N$のランダム行列アンサンブルから引き出されたハミルトン多様体の下でのユニタリ進化によってモデル化される。 開発した手法は回転不変性の概念を持つ一般アンサンブルに適用されるが、ガウスユニタリアンサンブル(GUE)に主に焦点をあてる。 ハミルトニアンのアンサンブルを平均化すると、有効な量子チャネルが生成され、その特性は解析的に計算可能で、関連するアンサンブルのスペクトル形状因子によって決定される。 我々は、対応するGUE量子チャネルとその分散とともに、任意の有限$N$に対して、GUEのスペクトル形状因子を正確に計算する。 このアプローチの主な利点は、任意の$N$に対して正確な分析結果にアクセスできること、ノイズフリー限界(対照的に、Haarアンサンブル)にチューニングできること、分散を超えたモーメントへの分析アクセスである。 また,GUEチャネルの特異な特徴として,雑音強度の関数としての各種演算子の係数の非単調性や,雑音強度が無限であってもHaar-random制限の飽和化に失敗したことを挙げる。

We introduce a framework that allows for the exact analytic treatment of quantum dynamics subject to coherent noise. The noise is modeled via unitary evolution under a Hamiltonian drawn from a random-matrix ensemble for arbitrary Hilbert-space dimension $N$. While the methods we develop apply to generic such ensembles with a notion of rotation invariance, we focus largely on the Gaussian unitary ensemble (GUE). Averaging over the ensemble of ''noisy'' Hamiltonians produces an effective quantum channel, the properties of which are analytically calculable and determined by the spectral form factors of the relevant ensemble. We compute spectral form factors of the GUE exactly for any finite $N$, along with the corresponding GUE quantum channel, and its variance. Key advantages of our approach include the ability to access exact analytic results for any $N$ and the ability to tune to the noise-free limit (in contrast, e.g., to the Haar ensemble), and analytic access to moments beyond the variance. We also highlight some unusual features of the GUE channel, including the nonmonotonicity of the coefficients of various operators as a function of noise strength and the failure to saturate the Haar-random limit, even with infinite noise strength.
翻訳日:2024-10-31 20:56:57 公開日:2024-10-09
# 超低温原子の分数量子ホールレジームにおける創発フラクトン流体力学

Emergent Fracton Hydrodynamics in the Fractional Quantum Hall Regime of Ultracold Atoms ( http://arxiv.org/abs/2410.07326v1 )

ライセンス: Link先を確認
Caterina Zerba, Alexander Seidel, Frank Pollmann, Michael Knap, (参考訳) 電荷中性超低温原子のための合成ゲージ場の実現と量子ホール物理学のシミュレーションは、顕著な実験的進展をみせた。 ここでは、その非平衡量子力学において、分数量子ホール系のキーシグネチャを確立する。 最下層のランダウでは、系は半拡散的に緩和することを示した。 緩やかな緩和は、全電荷の創発的保存法則と、最も低いランダウ層に投射された有効ハミルトニアンから生じる関連する双極子モーメントから理解され、亜拡散フラクトン流体力学に繋がる。 我々は、この非伝統的な緩和ダイナミクスを観察するために、光学格子における回転量子ガスと超低温原子の展望について論じる。

The realization of synthetic gauge fields for charge neutral ultracold atoms and the simulation of quantum Hall physics has witnessed remarkable experimental progress. Here, we establish key signatures of fractional quantum Hall systems in their non-equilibrium quantum dynamics. We show that in the lowest Landau level the system generically relaxes subdiffusively. The slow relaxation is understood from emergent conservation laws of the total charge and the associated dipole moment that arise from the effective Hamiltonian projected onto the lowest Landau level, leading to subdiffusive fracton hydrodynamics. We discuss the prospect of rotating quantum gases as well as ultracold atoms in optical lattices for observing this unconventional relaxation dynamics.
翻訳日:2024-10-31 20:56:57 公開日:2024-10-09
# GKP符号のファイババンドルフォールトトレランス

Fiber Bundle Fault Tolerance of GKP Codes ( http://arxiv.org/abs/2410.07332v1 )

ライセンス: Link先を確認
Ansgar G. Burchards, Steven T. Flammia, Jonathan Conrad, (参考訳) 幾何学的観点から多モードGKP(Gottesman--Kitaev--Preskill)量子誤り訂正符号について検討する。 まず、それらのモジュライ空間を群の商として構成し、シンプレクティック積分格子のモジュライ空間上のファイバー束として表現する。 次に、論理的 GKP Clifford 演算に対する Gottesman-Zhang 予想を確立し、この空間上の平坦な接続に関して、すべてのそのようなゲートが平行輸送から生じることを示す。 具体的には、非自明なクリフォード演算はGKP符号空間上の位相的に非可換パスに対応し、論理的同一性演算は可縮パスに対応する。

We investigate multi-mode GKP (Gottesman--Kitaev--Preskill) quantum error-correcting codes from a geometric perspective. First, we construct their moduli space as a quotient of groups and exhibit it as a fiber bundle over the moduli space of symplectically integral lattices. We then establish the Gottesman--Zhang conjecture for logical GKP Clifford operations, showing that all such gates arise from parallel transport with respect to a flat connection on this space. Specifically, non-trivial Clifford operations correspond to topologically non-contractible paths on the space of GKP codes, while logical identity operations correspond to contractible paths.
翻訳日:2024-10-31 20:56:57 公開日:2024-10-09
# 相互作用するフェルミオンに対する測定誘起遷移

Measurement-induced transitions for interacting fermions ( http://arxiv.org/abs/2410.07334v1 )

ライセンス: Link先を確認
Igor Poboiko, Paul Pöpperl, Igor V. Gornyi, Alexander D. Mirlin, (参考訳) 時間非依存ハミルトニアンにより動的に支配される粒子数保存と相互作用するフェルミオン系に対する測定の影響について検討した。 我々は、絡み合いと電荷ゆらぎを特徴付ける観測可能に対する統一的なアプローチを提供するケルディシュ場理論フレームワークを開発する。 この枠組みでは, 電荷累積関数の生成と絡み合いのエントロピーをNLSM言語で直接生成する境界条件を組み込んだ, セルディシュ非線形シグマモデル(NLSM)を導出する。 NLSM に対する正規化群アプローチを用いて、位相図と物理観測値のスケーリングを決定する。 重要なことに、NLSM作用の相互作用によって引き起こされる用語は、その対称性を減少させ、劇的な方法で問題の物理学に影響を与える。 電荷累積は絡み合いのエントロピーから切り離される。 第二に、相互作用は絡み合いのボリュームロー位相を安定化させる。 第三に、空間次元$d=1$の場合、相互作用は電荷累積の対数的成長を伴う位相を安定化させる(熱力学の極限において)。 したがって、相互作用の存在下では、自由フェルミオンとばらつきのある任意の$d$に測定遷移があり、その場合、$d=1$系は常に領域法相にある。 行列積状態の時間依存性変動原理を用いた数値シミュレーションにより解析結果が支持され、特に非局在化相の指標として情報と電荷の分離が確認される。

Effect of measurements on interacting fermionic systems with particle-number conservation, whose dynamics is governed by a time-independent Hamiltonian, is studied. We develop Keldysh field-theoretical framework that provides a unified approach to observables characterizing entanglement and charge fluctuations. Within this framework, we derive a replicated Keldysh non-linear sigma model (NLSM), which incorporates boundary conditions specifically designed to produce generating functions for charge cumulants and entanglement entropies directly in the NLSM language. By using the renormalization-group approach for the NLSM, we determine the phase diagram and the scaling of physical observables. Crucially, the interaction-induced terms in the NLSM action reduce its symmetry, which affects the physics of the problem in a dramatic way. First, this leads to the "information-charge separation": charge cumulants get decoupled from entanglement entropies. Second, the interaction stabilizes the volume-law phase for the entanglement. Third, for spatial dimensionality $d=1$, the interaction stabilizes the phase with logarithmic growth of charge cumulants (in the thermodynamic limit). Thus, in the presence of interaction, there are measurement transitions in any $d$, at variance with free fermions, for which a $d=1$ system is always in the area-law phase. Analytical results are supported by numerical simulations using time-dependent variational principles for matrix product states, which, in particular, confirm the separation of information and charge as a hallmark of the delocalized phase.
翻訳日:2024-10-31 20:56:57 公開日:2024-10-09
# 視覚・言語評価と学習のためのポジティブなコントラスト学習

Positive-Augmented Contrastive Learning for Vision-and-Language Evaluation and Training ( http://arxiv.org/abs/2410.07336v1 )

ライセンス: Link先を確認
Sara Sarto, Nicholas Moratelli, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara, (参考訳) キャプション生成の大幅な進歩にもかかわらず、既存の評価基準はキャプションの完全な品質や細かな詳細を捉えるのに失敗することが多い。 これは主に、非特定の人手による参照やノイズの多い事前学習データに依存しているためである。 それでも、効果的な指標の発見はキャプション評価だけでなく、生成フェーズにも不可欠である。 メトリクスはキャプションモデルの微調整段階で重要な役割を果たすことができ、最終的に生成されたキャプションの品質が向上する。 本稿では,CLIPモデルを利用した学習可能なメトリクスであるPAC-S++を提案する。 より強力でキュレートされた事前トレーニングを実施すれば、通常、微調整キャプションモデルに使用される自己批判シーケンストレーニング(SCST)段階の報酬として、PAC-S++を適用できる。 さまざまな画像およびビデオデータセットに対する大規模な実験は、対象幻覚に対する感受性を含む、タスクの一般的な指標と比較して、PAC-S++の有効性を強調している。 さらに, キャプションモデルの微調整段階にPAC-S++を組み込むことで, 文の繰り返しや文法的誤りが少なく, 意味的に豊かなキャプションが得られることを示す。 ドメイン外ベンチマークの評価は、モデル能力を高めるための細調整アプローチの有効性をさらに示す。 ソースコードとトレーニングされたモデルは、https://github.com/aimagelab/pacscore.comで公開されている。

Despite significant advancements in caption generation, existing evaluation metrics often fail to capture the full quality or fine-grained details of captions. This is mainly due to their reliance on non-specific human-written references or noisy pre-training data. Still, finding an effective metric is crucial not only for captions evaluation but also for the generation phase. Metrics can indeed play a key role in the fine-tuning stage of captioning models, ultimately enhancing the quality of the generated captions. In this paper, we propose PAC-S++, a learnable metric that leverages the CLIP model, pre-trained on both web-collected and cleaned data and regularized through additional pairs of generated visual and textual positive samples. Exploiting this stronger and curated pre-training, we also apply PAC-S++ as a reward in the Self-Critical Sequence Training (SCST) stage typically employed to fine-tune captioning models. Extensive experiments on different image and video datasets highlight the effectiveness of PAC-S++ compared to popular metrics for the task, including its sensitivity to object hallucinations. Furthermore, we show that integrating PAC-S++ into the fine-tuning stage of a captioning model results in semantically richer captions with fewer repetitions and grammatical errors. Evaluations on out-of-domain benchmarks further demonstrate the efficacy of our fine-tuning approach in enhancing model capabilities. Source code and trained models are publicly available at: https://github.com/aimagelab/pacscore.
翻訳日:2024-10-31 20:56:57 公開日:2024-10-09
# トラップイオンプラットフォーム上の量子ビットと量子モッドを用いたハイブリッド量子シミュレーションに向けて

Toward hybrid quantum simulations with qubits and qumodes on trapped-ion platforms ( http://arxiv.org/abs/2410.07346v1 )

ライセンス: Link先を確認
Jack Y. Araz, Matt Grau, Jake Montgomery, Felix Ringer, (参考訳) トラップイオンプラットフォーム上での離散(量子)変数と連続(量子)変数を用いたハイブリッド量子コンピューティングの実現可能性について検討する。 トラップされたイオン系は記録的な1ビットと2ビットのゲートフィデリティと長いクビットコヒーレンス時間を示す一方、クアモッドはイオン鎖の集合振動モードで表されるが、コンピュータでの使用については比較的研究されていない。 数値シミュレーションを用いて,既存のトラップイオン量子プラットフォームにおいて,高忠実度ハイブリッドゲートと測定操作が実現可能であることを示す。 例として、相互作用するスピンとボゾン自由度の1次元連鎖によって与えられるJaynes-Cummings-Hubbardモデルの量子シミュレーションを考える。 従来のシミュレーションを用いて,そのリアルタイム進化を考察し,基底状態の準備に適した変分量子アルゴリズムを開発した。 我々の結果は、この文脈におけるハイブリッド量子コンピューティングのさらなる研究を動機付け、凝縮物質や素粒子、核物理学の直接的な応用に繋がる可能性がある。

We explore the feasibility of hybrid quantum computing using both discrete (qubit) and continuous (qumode) variables on trapped-ion platforms. Trapped-ion systems have demonstrated record one- and two-qubit gate fidelities and long qubit coherence times while qumodes, which can be represented by the collective vibrational modes of the ion chain, have remained relatively unexplored for their use in computing. Using numerical simulations, we show that high-fidelity hybrid gates and measurement operations can be achieved for existing trapped-ion quantum platforms. As an exemplary application, we consider quantum simulations of the Jaynes-Cummings-Hubbard model, which is given by a one-dimensional chain of interacting spin and boson degrees of freedom. Using classical simulations, we study its real-time evolution and we develop a suitable variational quantum algorithm for the ground state preparation. Our results motivate further studies of hybrid quantum computing in this context, which may lead to direct applications in condensed matter and fundamental particle and nuclear physics.
翻訳日:2024-10-31 20:56:57 公開日:2024-10-09
# MoE++:ゼロ計算エキスパートによるMixture-of-Expertsメソッドの高速化

MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts ( http://arxiv.org/abs/2410.07348v1 )

ライセンス: Link先を確認
Peng Jin, Bo Zhu, Li Yuan, Shuicheng Yan, (参考訳) 本研究では,Mixture-of-Experts(MoE)法の有効性と効率を同時に向上することを目的としている。 そこで本研究では,Feed-Forward Network~(FFN)とゼロ計算専門家の両方を統合した,汎用的で異種なMoEフレームワークであるMoE++を提案する。 具体的には,ゼロ専門家,コピー専門家,コンスタント専門家の3種類のゼロ計算エキスパートを紹介し,それぞれが廃棄・スキップ・置き換えを行う。 このデザインには3つの利点がある。 (i)低演算オーバーヘッド:バニラ MoE 内の全てのトークンの均一混合機構とは異なり、MoE++ では各トークンが動的数の FFN と関わり、一定ベクトルで調整したり、MoE 層を完全にスキップしたりすることができる。 (ii) ハイパフォーマンス: 単純なトークンでFFNの専門家の少ない使用を可能にすることで、MoE++は、多くの専門家が挑戦的なトークンに集中できるようにし、バニラMoEよりも大きなパフォーマンスの可能性の解放を可能にします。 (iii)デプロイフレンドリー:ゼロ計算の専門家が無視可能なパラメータを持っていることを前提として、ゼロ計算の専門家を各GPUにデプロイし、さまざまなGPUに分散したFFN専門家に関連する重要な通信オーバーヘッドと専門家の負荷不均衡を排除します。 さらに、ゲーティング残差を利用して、各トークンが適切な専門家を選択する際に、前層の経路を考慮できるようにします。 大規模な実験結果によると、MoE++は1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較しながら、パフォーマンスが向上している。

In this work, we aim to simultaneously enhance the effectiveness and efficiency of Mixture-of-Experts (MoE) methods. To achieve this, we propose MoE++, a general and heterogeneous MoE framework that integrates both Feed-Forward Network~(FFN) and zero-computation experts. Specifically, we introduce three types of zero-computation experts: the zero expert, copy expert, and constant expert, which correspond to discard, skip, and replace operations, respectively. This design offers three key advantages: (i) Low Computing Overhead: Unlike the uniform mixing mechanism for all tokens within vanilla MoE, MoE++ allows each token to engage with a dynamic number of FFNs, be adjusted by constant vectors, or even skip the MoE layer entirely. (ii) High Performance: By enabling simple tokens to utilize fewer FFN experts, MoE++ allows more experts to focus on challenging tokens, thereby unlocking greater performance potential than vanilla MoE. (iii) Deployment Friendly: Given that zero-computation experts have negligible parameters, we can deploy all zero-computation experts on each GPU, eliminating the significant communication overhead and expert load imbalance associated with FFN experts distributed across different GPUs. Moreover, we leverage gating residuals, enabling each token to consider the pathway taken in the previous layer when selecting the appropriate experts. Extensive experimental results demonstrate that MoE++ achieves better performance while delivering 1.1-2.1x expert forward throughput compared to a vanilla MoE model of the same size, which lays a solid foundation for developing advanced and efficient MoE-related models.
翻訳日:2024-10-31 20:56:57 公開日:2024-10-09
# ニューラル空間相互作用モデルにおける原位置行列の生成

Generating Origin-Destination Matrices in Neural Spatial Interaction Models ( http://arxiv.org/abs/2410.07352v1 )

ライセンス: Link先を確認
Ioannis Zachos, Mark Girolami, Theodoros Damoulas, (参考訳) エージェントベースモデル(ABM)は、交通、経済、疫学の政策分野にわたる意思決定ツールとして急速に普及している。 これらのモデルでは、中心となる対象は、空間的相互作用を捉える離散原点決定行列であり、位置間のエージェントの移動数である。 既存のアプローチでは、ABMシミュレーションとキャリブレーションを実行するために、この行列の連続的な近似と、その後のアドホックな判別を利用する。 このことは、部分的に観測された要約統計の条件付けを妨げ、離散的な組合せ的サポートを越えてマルチモーダル行列分布を探索することができず、離散化誤差を生じさせる。 これらの課題に対処するために、原点-終点対の数と線形にスケールする計算効率の良いフレームワークを導入し、離散組合せ空間を直接操作し、空間的相互作用を埋め込んだ神経微分方程式を用いてエージェントの移動強度を学習する。 提案手法は, 計算コストのごく一部で, 再構成誤差と基底真理行列のカバレッジにおいて, 先行技術より優れていた。 英国ケンブリッジと米国ワシントンD.C.の大規模空間移動型APMにおいて,これらの利点を実証する。

Agent-based models (ABMs) are proliferating as decision-making tools across policy areas in transportation, economics, and epidemiology. In these models, a central object of interest is the discrete origin-destination matrix which captures spatial interactions and agent trip counts between locations. Existing approaches resort to continuous approximations of this matrix and subsequent ad-hoc discretisations in order to perform ABM simulation and calibration. This impedes conditioning on partially observed summary statistics, fails to explore the multimodal matrix distribution over a discrete combinatorial support, and incurs discretisation errors. To address these challenges, we introduce a computationally efficient framework that scales linearly with the number of origin-destination pairs, operates directly on the discrete combinatorial space, and learns the agents' trip intensity through a neural differential equation that embeds spatial interactions. Our approach outperforms the prior art in terms of reconstruction error and ground truth matrix coverage, at a fraction of the computational cost. We demonstrate these benefits in large-scale spatial mobility ABMs in Cambridge, UK and Washington, DC, USA.
翻訳日:2024-10-31 20:56:57 公開日:2024-10-09
# Cu2Oリドバーグ励起子の寿命とコヒーレンス時間を直接測定する

Direct measurement of the lifetime and coherence time of Cu2O Rydberg excitons ( http://arxiv.org/abs/2410.07355v1 )

ライセンス: Link先を確認
Poulab Chakrabarti, Kerwan Morin, Delphine Lagarde, Xavier Marie, Thomas Boulier, (参考訳) リドベルクは励起子について、固体系において巨大な非線形性を工学するために量子オブジェクトを約束していると述べている。 この目的のために、リドベルク励起子の力学とそれらのコヒーレントな操作の可能性についてより深く理解することが重要である。 酸化銅中の励起子の2光子吸収が様々なリドベルク状態と共鳴する実験結果について報告する。 この手法は、予想されるリドベルクのスケーリング法則とよく一致している、リドベルク状態の寿命を直接測定することを可能にする。 さらに、長寿命コヒーレント振動の存在を含むいくつかの興味深いダイナミクスを観察する。 最後に、リドベルク状態のコヒーレンス時間を修正ミシェルソン干渉計を用いて独立に測定し、エキシトン放出ダイナミクスで検出されたコヒーレント振動とよく一致していることを示す。 寿命は、S系列の現在の高精度分光データに不均一な拡張がないことも示しており、コヒーレンス時間の存在とともに、系がコヒーレントエンジニアリングに適合していることを確認する。

Rydberg states of excitons are promising quantum objects to engineer giant nonlinearities in a solid-state system. For this purpose, a deeper understanding of the dynamics of Rydberg excitons and of their potential for coherent manipulation becomes important. We report experimental results where two-photon absorption is resonant with various Rydberg states of excitons in copper oxide and we detect their emission dynamics on a streak camera with sub-picosecond resolution. This technique enables the direct measurement of the Rydberg states lifetimes, which are in good agreement with the expected Rydberg scaling law. Moreover, we observe several intriguing dynamics including the presence of long-lived coherent oscillations. Finally, we independently measure the coherence time of the Rydberg states using a modified Michelson interferometer and find a good agreement with the coherent oscillations detected in the exciton emission dynamics. The lifetimes also reveal the absence of inhomogeneous broadening in the current high-precision spectroscopic data for the S series, which together with the presence of significant coherence time confirms the suitability of the system for coherent engineering.
翻訳日:2024-10-31 20:56:57 公開日:2024-10-09
# オントロジーによる生徒のパフォーマンス予測モデルの可搬性向上

Improving the portability of predicting students performance models by using ontologies ( http://arxiv.org/abs/2410.07358v1 )

ライセンス: Link先を確認
Javier Lopez Zambrano, Juan A. Lara, Cristobal Romero, (参考訳) 教育データマイニングと学習分析の主な課題の1つは、特定のコースで得られた予測モデルの移植性または伝達性であり、他のコースに適用できる。 この課題に対処するために、最も大きな問題の1つは、モデルをトレーニングに使用する低レベルの属性に過度に依存することであり、モデルのポータビリティが低下する。 この問題を解決するために、オントロジのようなより意味的な意味を持つ高レベル属性を使うことは非常に有用である。 そこで本研究では,学習管理システムと学生のインタラクションを要約した行動分類を用いたオントロジーの活用を提案する。 提案手法は,Moodleログから直接得られる低レベルな原属性を用いた場合と比較した。 その結果,提案するオントロジーを用いることで,予測精度の観点からモデルのポータビリティが向上することが示唆された。 本研究の主な貢献は, 予測精度を損なうことなく, 同一利用レベルの異なるコースに対して, 1つのコースで得られたオントロジモデルを適用することができることを示すことである。

One of the main current challenges in Educational Data Mining and Learning Analytics is the portability or transferability of predictive models obtained for a particular course so that they can be applied to other different courses. To handle this challenge, one of the foremost problems is the models excessive dependence on the low-level attributes used to train them, which reduces the models portability. To solve this issue, the use of high level attributes with more semantic meaning, such as ontologies, may be very useful. Along this line, we propose the utilization of an ontology that uses a taxonomy of actions that summarises students interactions with the Moodle learning management system. We compare the results of this proposed approach against our previous results when we used low-level raw attributes obtained directly from Moodle logs. The results indicate that the use of the proposed ontology improves the portability of the models in terms of predictive accuracy. The main contribution of this paper is to show that the ontological models obtained in one source course can be applied to other different target courses with similar usage levels without losing prediction accuracy.
翻訳日:2024-10-31 20:56:57 公開日:2024-10-09
# リアルタイム蛍光ライフタイムイメージングのアンロック:FPGA高速化処理のためのマルチピクセル並列処理

Unlocking Real-Time Fluorescence Lifetime Imaging: Multi-Pixel Parallelism for FPGA-Accelerated Processing ( http://arxiv.org/abs/2410.07364v1 )

ライセンス: Link先を確認
Ismail Erbas, Aporva Amarnath, Vikas Pandey, Karthik Swaminathan, Naigang Wang, Xavier Intes, (参考訳) 蛍光寿命イメージング(FLI)は、蛍光分子の崩壊時間を計測し、代謝状態、タンパク質相互作用、リガンド-受容体結合の洞察を与えるバイオメディカル分野で広く用いられている技術である。 しかし、ダイナミックアクティビティモニタリングなどの高速な生物学的プロセスや、ガイド付き手術などの臨床応用は、長いデータ取得時間と計算的に要求されるデータ処理によって制限される。 ディープラーニングは後処理時間を短縮していますが、リアルタイムアプリケーションでは、時間解決データ取得がボトルネックとして残っています。 そこで本研究では,FPGAベースのハードウェアアクセラレータを用いたリアルタイムFLIを実現する手法を提案する。 具体的には、時間分解カメラと互換性のあるFPGA基板上に、GRUベースのシーケンス・ツー・シーケンス(Seq2Seq)モデルを実装した。 GRUモデルは、DSPユニットとBRAMに制限のあるFPGAのリソース制約と正確な処理のバランスをとる。 FPGA上の限られたメモリと計算資源は、低レイテンシアプリケーションのためのディープラーニングモデルをデプロイするために、演算とメモリ割り当ての効率的なスケジューリングを必要とする。 ハードウェア上でタスクスケジューリングとメモリ管理を自動化するキューベースの離散イベントシミュレータであるSTOMPを用いて,これらの課題に対処する。 GRUをベースとしたSeq2Seqモデルと、知識蒸留により生成されたSeq2SeqLiteと呼ばれる圧縮バージョンを統合することにより、複数のピクセルを並列に処理し、シーケンシャル処理に比べてレイテンシを低減できる。 性能と資源利用の最適バランスを達成するために,様々なレベルの並列性について検討する。 提案手法は,Seq2SeqモデルとSeq2SeqLiteモデルに対して,手動スケジューリングよりも17.7x,52.0xの高速化を実現している。

Fluorescence lifetime imaging (FLI) is a widely used technique in the biomedical field for measuring the decay times of fluorescent molecules, providing insights into metabolic states, protein interactions, and ligand-receptor bindings. However, its broader application in fast biological processes, such as dynamic activity monitoring, and clinical use, such as in guided surgery, is limited by long data acquisition times and computationally demanding data processing. While deep learning has reduced post-processing times, time-resolved data acquisition remains a bottleneck for real-time applications. To address this, we propose a method to achieve real-time FLI using an FPGA-based hardware accelerator. Specifically, we implemented a GRU-based sequence-to-sequence (Seq2Seq) model on an FPGA board compatible with time-resolved cameras. The GRU model balances accurate processing with the resource constraints of FPGAs, which have limited DSP units and BRAM. The limited memory and computational resources on the FPGA require efficient scheduling of operations and memory allocation to deploy deep learning models for low-latency applications. We address these challenges by using STOMP, a queue-based discrete-event simulator that automates and optimizes task scheduling and memory management on hardware. By integrating a GRU-based Seq2Seq model and its compressed version, called Seq2SeqLite, generated through knowledge distillation, we were able to process multiple pixels in parallel, reducing latency compared to sequential processing. We explore various levels of parallelism to achieve an optimal balance between performance and resource utilization. Our results indicate that the proposed techniques achieved a 17.7x and 52.0x speedup over manual scheduling for the Seq2Seq model and the Seq2SeqLite model, respectively.
翻訳日:2024-10-31 20:47:00 公開日:2024-10-09
# 生成画像モデルのための検出不能な透かし

An undetectable watermark for generative image models ( http://arxiv.org/abs/2410.07369v1 )

ライセンス: Link先を確認
Sam Gunn, Xuandong Zhao, Dawn Song, (参考訳) 生成画像モデルに対する検出不能な最初の透かし方式を提案する。 非検出性は、多くの適応クエリをした後でも、ウォーターマークされた画像とウォーターマークされていない画像とを区別できないことを保証します。 特に、検出不能な透かしは、効率的に計算可能なメートル法で画質を劣化させることはない。 提案手法は, 疑似乱数誤り訂正符号 (Christ and Gunn, 2024) を用いて拡散モデルの初期潜伏点を選択することで, 検出不能性とロバスト性を保証する。 我々は, 安定拡散2.1を用いて, 透かしが品質を保ち, 頑健であることを実験的に実証した。 我々の実験は、テストしたすべての以前のスキームとは対照的に、透かしが画質を劣化させていないことを検証した。 既存の透かし除去攻撃は、画像の品質を著しく低下させることなく、画像から透かしを除去することができない。 最後に、透かしに512ビットをエンコードし、画像が透かし除去攻撃を受けない場合には2500ビットまでエンコードできることがわかりました。 私たちのコードはhttps://github.com/XuandongZhao/PRC-Watermarkで公開されています。

We present the first undetectable watermarking scheme for generative image models. Undetectability ensures that no efficient adversary can distinguish between watermarked and un-watermarked images, even after making many adaptive queries. In particular, an undetectable watermark does not degrade image quality under any efficiently computable metric. Our scheme works by selecting the initial latents of a diffusion model using a pseudorandom error-correcting code (Christ and Gunn, 2024), a strategy which guarantees undetectability and robustness. We experimentally demonstrate that our watermarks are quality-preserving and robust using Stable Diffusion 2.1. Our experiments verify that, in contrast to every prior scheme we tested, our watermark does not degrade image quality. Our experiments also demonstrate robustness: existing watermark removal attacks fail to remove our watermark from images without significantly degrading the quality of the images. Finally, we find that we can robustly encode 512 bits in our watermark, and up to 2500 bits when the images are not subjected to watermark removal attacks. Our code is available at https://github.com/XuandongZhao/PRC-Watermark.
翻訳日:2024-10-31 20:47:00 公開日:2024-10-09
# モバイルアプリにおけるユーザ駆動機能削除の推奨とリリース計画

Recommending and Release Planning of User-Driven Functionality Deletion for Mobile Apps ( http://arxiv.org/abs/2410.07370v1 )

ライセンス: Link先を確認
Maleknaz Nayebi, Konstantin Kuznetsov, Andreas Zeller, Guenther Ruhe, (参考訳) ソフトウェアを多くの機能で進化させることは、理解性とユーザビリティという面での課題を引き起こします。 従来のソフトウェアリリース計画では、機能追加のオーケストレーションに主に重点を置いており、より大きなソフトウェアシステムの複雑さとメンテナンス要件の増大に寄与している。 モバイルアプリでは、過剰な機能性がユーザビリティ、保守性、リソース消費に大きく影響し、モバイルアプリへの継続的成長の法則の適用性に関する微妙な理解を必要とする。 以前の研究によると、機能の削除は一般的であり、時にはユーザレビューによって引き起こされる。 ほとんどのユーザにとって、機能の削除はネガティブな感情と結びつき、使用パターンの変更を促し、ユーザを混乱させる可能性がある。 これらの予備的な結果に触発され、ユーザレビューを入力し、アプリのユーザインターフェース(UI)から何らかの機能を削除すべきかどうかを推奨する。 歴史的データを用いて放射線を評価し,開発者の意見を調査する。 ランダムに選択された115のアプリから190,062のレビューを分析したところ、平均的なFスコアの74%で機能削除を推奨でき、十分な数のネガティブなユーザレビューがそう示唆されている。 141人のソフトウェア開発者を対象に,意思決定プロセスと機能削除計画のレベルについて調査を行った。 以上の結果から,77.3%の参加者が頻繁に,あるいは常にこのような削除を計画していることが示唆された。 このことは、機能削除計画を全体のリリース決定プロセスに組み込むことの重要性を浮き彫りにする。

Evolving software with an increasing number of features poses challenges in terms of comprehensibility and usability. Traditional software release planning has predominantly focused on orchestrating the addition of features, contributing to the growing complexity and maintenance demands of larger software systems. In mobile apps, an excess of functionality can significantly impact usability, maintainability, and resource consumption, necessitating a nuanced understanding of the applicability of the law of continuous growth to mobile apps. Previous work showed that the deletion of functionality is common and sometimes driven by user reviews. For most users, the removal of features is associated with negative sentiments, prompts changes in usage patterns, and may even result in user churn. Motivated by these preliminary results, we propose Radiation to input user reviews and recommend if any functionality should be deleted from an app's User Interface (UI). We evaluate radiation using historical data and survey developers' opinions. From the analysis of 190,062 reviews from 115 randomly selected apps, we show that Radiation can recommend functionality deletion with an average F-Score of 74% and if sufficiently many negative user reviews suggest so. We conducted a survey involving 141 software developers to gain insights into the decision-making process and the level of planning for feature deletions. Our findings indicate that 77.3% of the participants often or always plan for such deletions. This underscores the importance of incorporating feature deletion planning into the overall release decision-making process.
翻訳日:2024-10-31 20:47:00 公開日:2024-10-09
# 現実から学ぶ:ASVspoof5チャレンジへの現実的ディフェンダーの提出

Learn from Real: Reality Defender's Submission to ASVspoof5 Challenge ( http://arxiv.org/abs/2410.07379v1 )

ライセンス: Link先を確認
Yi Zhu, Chirag Goel, Surya Koppisetti, Trang Tran, Ankur Kumar, Gaurav Bharaj, (参考訳) 音声のディープフェイク検出は、AI合成音声の悪意ある使用に対処するために不可欠である。 コミュニティによる多くの取り組みの中で、ASVspoofチャレンジは、検出モデルの一般化性と堅牢性を評価するためのベンチマークの1つとなっている。 本稿では,ASVspoof5チャレンジへの現実デフェンダーの提出を取り上げ,トレーニング中の低計算コストを維持しながら,一般化性を大幅に向上させる新たな事前学習戦略を明らかにする。 我々のシステムSLIMは、自己教師付きコントラスト学習を用いて、様々な種類のボナフィド音声からスタイル言語依存性の埋め込みを学習する。 学習された埋め込みは、スタイルと言語学的側面の関係に焦点をあてることで、ボナファイド音声からスプーフを識別するのに役立つ。 ASVspoof5, ASV2019, In-the-wildについて検討した。 ASVspoof5 Track 1では0.1499, EERは5.5%, EERは7.4%, In-the-wildでは10.8%であった。

Audio deepfake detection is crucial to combat the malicious use of AI-synthesized speech. Among many efforts undertaken by the community, the ASVspoof challenge has become one of the benchmarks to evaluate the generalizability and robustness of detection models. In this paper, we present Reality Defender's submission to the ASVspoof5 challenge, highlighting a novel pretraining strategy which significantly improves generalizability while maintaining low computational cost during training. Our system SLIM learns the style-linguistics dependency embeddings from various types of bonafide speech using self-supervised contrastive learning. The learned embeddings help to discriminate spoof from bonafide speech by focusing on the relationship between the style and linguistics aspects. We evaluated our system on ASVspoof5, ASV2019, and In-the-wild. Our submission achieved minDCF of 0.1499 and EER of 5.5% on ASVspoof5 Track 1, and EER of 7.4% and 10.8% on ASV2019 and In-the-wild respectively.
翻訳日:2024-10-31 20:47:00 公開日:2024-10-09
# SparseGrad: MLP層の効率的な微調整法

SparseGrad: A Selective Method for Efficient Fine-tuning of MLP Layers ( http://arxiv.org/abs/2410.07383v1 )

ライセンス: Link先を確認
Viktoriia Chekalina, Anna Rudenko, Gleb Mezentsev, Alexander Mikhalev, Alexander Panchenko, Ivan Oseledets, (参考訳) Transformerモデルの性能は、パラメータの数と処理されたテキストの長さを増やすことで向上した。 その結果、モデル全体を微調整することは、メモリ集約的なプロセスになる。 パラメータ効率のよい微調整(PEFT)のための高性能な手法は、典型的にはアテンションブロックで動作し、モデルパラメータの約半分を含むMPPブロックを見渡すことが多い。 MLPブロックでよく動作する選択型PEFT法,すなわちSparseGradを提案する。 我々は、層の勾配を、その層の要素の約1\%しか重要なままの空間に転送する。 勾配をスパース構造に変換することにより、更新されたパラメータの数を減らすことができる。 SparseGrad を NLU タスクに BERT と RoBERTa を,質問応答タスクに LLaMa-2 を適用した。 これらの実験では、同じメモリ要件で、我々の手法はロラやメプロップよりも優れており、強靭な最先端PEFTアプローチである。

The performance of Transformer models has been enhanced by increasing the number of parameters and the length of the processed text. Consequently, fine-tuning the entire model becomes a memory-intensive process. High-performance methods for parameter-efficient fine-tuning (PEFT) typically work with Attention blocks and often overlook MLP blocks, which contain about half of the model parameters. We propose a new selective PEFT method, namely SparseGrad, that performs well on MLP blocks. We transfer layer gradients to a space where only about 1\% of the layer's elements remain significant. By converting gradients into a sparse structure, we reduce the number of updated parameters. We apply SparseGrad to fine-tune BERT and RoBERTa for the NLU task and LLaMa-2 for the Question-Answering task. In these experiments, with identical memory requirements, our method outperforms LoRA and MeProp, robust popular state-of-the-art PEFT approaches.
翻訳日:2024-10-31 20:47:00 公開日:2024-10-09
# ボソニック開量子系の定常状態のブートストラップ

Bootstrapping the stationary state of bosonic open quantum systems ( http://arxiv.org/abs/2410.07384v1 )

ライセンス: Link先を確認
Gustave Robichon, Antoine Tilloy, (参考訳) 本研究では,(マルコフ)ボソニック開量子系の定常状態における可観測物の期待値を計算する手法を提案する。 半定値緩和の階層を用いて、任意の利害の期待値に対して、より細く、より細い上と下の境界を得る。 境界は厳密で、定常状態の退化に対して頑健であり、我々の検討した例では、占有数が増加するにつれて数値的に改善される。 これにより、ボソニック量子ビットの定常状態、特に散逸的に安定化された猫量子ビットのシミュレーションに適応する。

We propose a method to compute expectation values of observables in the stationary state of a (Markovian) bosonic open quantum system. Using a hierarchy of semi-definite relaxations, we obtain finer and finer upper and lower bounds to any expectation value of interest. The bounds are rigorous, robust to stationary state degeneracies, and numerically improve as the occupation number increases on the examples we considered. This makes it adapted to the simulation of stationary states of bosonic qubits and in particular dissipatively stabilized cat qubits.
翻訳日:2024-10-31 20:47:00 公開日:2024-10-09
# Micro-CTを用いた微小物体の質量走査と自動表面観察

En masse scanning and automated surfacing of small objects using Micro-CT ( http://arxiv.org/abs/2410.07385v1 )

ライセンス: Link先を確認
Riley C. W. O'Neill, Katrina Yezzi Woodley, Jeff Calder, Peter J. Olver, (参考訳) 現代の考古学的手法は、オブジェクトの3D仮想表現、計算集約分析、高解像度スキャン、大規模なデータセット、機械学習をますます活用している。 より高解像度のスキャンでは、計算能力、メモリ、ファイルストレージを取り巻く課題がすぐに生じる。 高解像度スキャンの処理と解析には、ほとんどのコンピュータでは実現不可能なメモリ集約型ワークフローを必要とすることが多く、スーパーコンピュータや標準コンピュータでの処理に革新的な方法がますます必要となる。 本稿では、メモリ制限設定で機能する処理ワークフローをほとんど自動化した小さなオブジェクトのマイクロCTスキャンを実現するための新しいプロトコルを提案する。 10個のマイクロCTスキャンで1,112個の動物の骨片をスキャンし、個別のPLYファイルに処理した。 特に,本手法は, 古生物学, 地質学, 電気工学, 材料科学など, さまざまな分野に応用することができる。 さらに、当社の方法は、顧客注文をまとめ、より手頃なスキャンを提供するためのスキャン機関によって直ちに採用される可能性がある。 この研究は、考古学・動物考古学エビデンス(AMAAZE)として知られる国際・多分野の研究コンソーシアムによって促進されたより大きなプログラムの一部である。 AMAAZEは人類学、数学、計算機科学の専門家をまとめて、大規模な仮想考古学研究のための新しい手法を開発した。 全体として、我々の新しい走査法と処理ワークフローは、基礎を築き、将来の大規模・高解像度走査研究の標準を定めている。

Modern archaeological methods increasingly utilize 3D virtual representations of objects, computationally intensive analyses, high resolution scanning, large datasets, and machine learning. With higher resolution scans, challenges surrounding computational power, memory, and file storage quickly arise. Processing and analyzing high resolution scans often requires memory-intensive workflows, which are infeasible for most computers and increasingly necessitate the use of super-computers or innovative methods for processing on standard computers. Here we introduce a novel protocol for en-masse micro-CT scanning of small objects with a {\em mostly-automated} processing workflow that functions in memory-limited settings. We scanned 1,112 animal bone fragments using just 10 micro-CT scans, which were post-processed into individual PLY files. Notably, our methods can be applied to any object (with discernible density from the packaging material) making this method applicable to a variety of inquiries and fields including paleontology, geology, electrical engineering, and materials science. Further, our methods may immediately be adopted by scanning institutes to pool customer orders together and offer more affordable scanning. The work presented herein is part of a larger program facilitated by the international and multi-disciplinary research consortium known as Anthropological and Mathematical Analysis of Archaeological and Zooarchaeological Evidence (AMAAZE). AMAAZE unites experts in anthropology, mathematics, and computer science to develop new methods for mass-scale virtual archaeological research. Overall, our new scanning method and processing workflows lay the groundwork and set the standard for future mass-scale, high resolution scanning studies.
翻訳日:2024-10-31 20:47:00 公開日:2024-10-09
# ポアンカレ埋没体のシームズネットワークと進化樹の復元

Siamese networks for Poincaré embeddings and the reconstruction of evolutionary trees ( http://arxiv.org/abs/2410.07387v1 )

ライセンス: Link先を確認
Ciro Carvallo, Hernán Bocaccio, Gabriel B. Mindlin, Pablo Groisman, (参考訳) 本研究では,鳥の鳴き声スペクトログラムを用いた高次元データから進化木を再構成する手法を提案する。 本研究では, 事前に定義された音響特性を伴わずに, 発声などの表現型特徴から系統的関係を推定することの課題に対処する。 提案手法は,次元の縮小と距離計算のためのPoincar\'e埋め込みと,木再構築のための近傍結合アルゴリズムを組み合わせた。 従来の研究とは異なり、潜木葉ノードサンプルのみから埋め込みを学習するために、Siameseネットワークを使用している。 6種のフィンチから得られた合成データと分光値の両方に対して,本手法の有効性を実証した。

We present a method for reconstructing evolutionary trees from high-dimensional data, with a specific application to bird song spectrograms. We address the challenge of inferring phylogenetic relationships from phenotypic traits, like vocalizations, without predefined acoustic properties. Our approach combines two main components: Poincar\'e embeddings for dimensionality reduction and distance computation, and the neighbor joining algorithm for tree reconstruction. Unlike previous work, we employ Siamese networks to learn embeddings from only leaf node samples of the latent tree. We demonstrate our method's effectiveness on both synthetic data and spectrograms from six species of finches.
翻訳日:2024-10-31 20:47:00 公開日:2024-10-09
# 生成AIの認知能力:人間ベンチマークとの比較分析

The Cognitive Capabilities of Generative AI: A Comparative Analysis with Human Benchmarks ( http://arxiv.org/abs/2410.07391v1 )

ライセンス: Link先を確認
Isaac R. Galatzer-Levy, David Munday, Jed McGiffin, Xin Liu, Danny Karmon, Ilia Labzovsky, Rivka Moroshko, Amir Zait, Daniel McDuff, (参考訳) 汎用インテリジェンス基盤モデルの能力を追跡することへの関心が高まっている。 本研究は,Wechsler Adult Intelligence Scale (WAIS-IV)において,人間の認知と知的能力の包括的・集団的評価である,大規模言語モデルと視覚言語モデルによる人的パフォーマンスに対する評価を,VerbalComprehension(VCI),Working Memory(WMI),Perceptual Reasoning(PRI)の領域に焦点をあてた。 ほとんどのモデルは、文字や数字の任意のシーケンスのようなトークンの保存、検索、操作において例外的な機能を示しており、人間の人口規範能力と比較して、ワーキングメモリ指数(WMI)のパフォーマンスは99.5パーセントである。 獲得した情報の検索と単語の意味とその相互関係に関する言語的理解を計測するVCI(Verbal Comprehension Index)のパフォーマンスも,98%以上で一貫した性能を示した。 これらの長所にもかかわらず、視覚情報に対する深い解釈や推論ができないことを示すマルチモーダルモデルから、知覚推論指標(PRI; range 0.1-10th%ile)の連続的な性能の低下を観察した。 より小さなモデルバージョンと古いモデルバージョンは一貫して悪化し、トレーニングデータ、パラメータカウント、チューニングの進歩が認知能力の著しい進歩をもたらすことを示している。

There is increasing interest in tracking the capabilities of general intelligence foundation models. This study benchmarks leading large language models and vision language models against human performance on the Wechsler Adult Intelligence Scale (WAIS-IV), a comprehensive, population-normed assessment of underlying human cognition and intellectual abilities, with a focus on the domains of VerbalComprehension (VCI), Working Memory (WMI), and Perceptual Reasoning (PRI). Most models demonstrated exceptional capabilities in the storage, retrieval, and manipulation of tokens such as arbitrary sequences of letters and numbers, with performance on the Working Memory Index (WMI) greater or equal to the 99.5th percentile when compared to human population normative ability. Performance on the Verbal Comprehension Index (VCI) which measures retrieval of acquired information, and linguistic understanding about the meaning of words and their relationships to each other, also demonstrated consistent performance at or above the 98th percentile. Despite these broad strengths, we observed consistently poor performance on the Perceptual Reasoning Index (PRI; range 0.1-10th percentile) from multimodal models indicating profound inability to interpret and reason on visual information. Smaller and older model versions consistently performed worse, indicating that training data, parameter count and advances in tuning are resulting in significant advances in cognitive ability.
翻訳日:2024-10-31 20:47:00 公開日:2024-10-09
# 開語彙オブジェクト検出器を用いた構造空間推論

Structured Spatial Reasoning with Open Vocabulary Object Detectors ( http://arxiv.org/abs/2410.07394v1 )

ライセンス: Link先を確認
Negar Nejatishahidin, Madhukar Reddy Vongala, Jana Kosecka, (参考訳) オブジェクト間の空間的関係に関する推論は、フェッチ・アンド・デリバリ、オブジェクトの再配置、オブジェクト検索など、多くの実世界のロボットタスクにとって不可欠である。 異なるオブジェクトを検出し、曖昧にし、それらの位置を特定する能力は、これらのタスクを成功させる鍵となる。 いくつかの最近の研究では、ロボットエージェントでこの能力を解き放つために強力なビジョンと言語モデル(VLM)を使用している。 本稿では,3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合し,ロボット知覚の空間的推論を強化する構造的確率論的アプローチを提案する。 この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。 この比較を可能にするために、実世界のRGB-D Active Vision Dataset [1] における空間節を注釈化し、これと合成セマンティック抽象[2]データセットを用いて実験を行う。 その結果,提案手法の有効性を実証し,最先端のオープンソースVLMを20%以上高速化した。

Reasoning about spatial relationships between objects is essential for many real-world robotic tasks, such as fetch-and-delivery, object rearrangement, and object search. The ability to detect and disambiguate different objects and identify their location is key to successful completion of these tasks. Several recent works have used powerful Vision and Language Models (VLMs) to unlock this capability in robotic agents. In this paper we introduce a structured probabilistic approach that integrates rich 3D geometric features with state-of-the-art open-vocabulary object detectors to enhance spatial reasoning for robotic perception. The approach is evaluated and compared against zero-shot performance of the state-of-the-art Vision and Language Models (VLMs) on spatial reasoning tasks. To enable this comparison, we annotate spatial clauses in real-world RGB-D Active Vision Dataset [1] and conduct experiments on this and the synthetic Semantic Abstraction [2] dataset. Results demonstrate the effectiveness of the proposed method, showing superior performance of grounding spatial relations over state of the art open-source VLMs by more than 20%.
翻訳日:2024-10-31 20:47:00 公開日:2024-10-09
# LLM Embeddingsは、タブラル$Y|X$-Shiftsへのテスト時間適応を改善した

LLM Embeddings Improve Test-time Adaptation to Tabular $Y|X$-Shifts ( http://arxiv.org/abs/2410.07395v1 )

ライセンス: Link先を確認
Yibo Zeng, Jiashuo Liu, Henry Lam, Hongseok Namkoong, (参考訳) 表形式のデータセットでは、ラベルと共変量(Y|X$-shifts)の関係の変化は、変数の欠如(すなわち、共同設立者)によって一般的である。 完全に新しい未知の領域に一般化することは不可能であるため、ラベル付き例が少なくても対象領域に適応しやすいモデルを研究する。 我々は, 表データのより情報に富む表現の構築に焦点をあて, 表データのシリアライズ(書き下し)により LLM における先行世界知識を活用することを提案する。 LLM埋め込みだけではロバスト性に一貫性のない改善をもたらすが、トレーニングされたモデルは32個のラベル付き観測を用いても対象領域に適合・微細化することができる。 我々の発見は、7650のソースターゲットペアと、22のアルゴリズムでトレーニングされた261,000のモデル構成に対するベンチマークからなる総合的かつ体系的な研究に基づいている。 我々の観察は、アクセス可能なターゲットデータのサイズと異なる適応戦略を非難するときに成り立つ。 コードはhttps://github.com/namkoong-lab/LLM-Tabular-Shiftsで公開されている。

For tabular datasets, the change in the relationship between the label and covariates ($Y|X$-shifts) is common due to missing variables (a.k.a. confounders). Since it is impossible to generalize to a completely new and unknown domain, we study models that are easy to adapt to the target domain even with few labeled examples. We focus on building more informative representations of tabular data that can mitigate $Y|X$-shifts, and propose to leverage the prior world knowledge in LLMs by serializing (write down) the tabular data to encode it. We find LLM embeddings alone provide inconsistent improvements in robustness, but models trained on them can be well adapted/finetuned to the target domain even using 32 labeled observations. Our finding is based on a comprehensive and systematic study consisting of 7650 source-target pairs and benchmark against 261,000 model configurations trained by 22 algorithms. Our observation holds when ablating the size of accessible target data and different adaptation strategies. The code is available at https://github.com/namkoong-lab/LLM-Tabular-Shifts.
翻訳日:2024-10-31 20:47:00 公開日:2024-10-09
# AIによる人間の直感による発見のアライメント

Aligning AI-driven discovery with human intuition ( http://arxiv.org/abs/2410.07397v1 )

ライセンス: Link先を確認
Kevin Zhang, Hod Lipson, (参考訳) 物理力学系のデータ駆動モデリングが普及するにつれ、これらのモデルをより適合させ、既存の人間の知識と整合させるという新たな課題が生まれつつある。 AI駆動の科学モデリングプロセスは、一般的に隠れた状態変数を特定し、その後に支配方程式を導出し、次に将来の振る舞いを予測し分析する。 状態変数の適切なセットを特定するための重要な初期ステップは、2つの理由から難しいままである。 第一に、有意な予測変数のコンパクトな集合を見つけることは数学的に困難で未定義である。 第二の理由は、発見される変数は物理的重要性を欠くことが多く、それゆえ、人間の科学者が解釈することが困難であるからである。 本研究では,人間の直観と自然に整合した表現を,従来の物理知識に頼らずに蒸留するための新しい一般原理を提案する。 我々は、AIが生成する変数が、人間科学者が独立に選択した変数とよく似た、実験的でシミュレーションされたシステムに対して、我々のアプローチを実証する。 この原則は、人間とAIのコラボレーションをより実りあるものにし、人間の科学的モデリング選択の仕方に光を当てるのに役立つと提案する。

As data-driven modeling of physical dynamical systems becomes more prevalent, a new challenge is emerging: making these models more compatible and aligned with existing human knowledge. AI-driven scientific modeling processes typically begin with identifying hidden state variables, then deriving governing equations, followed by predicting and analyzing future behaviors. The critical initial step of identification of an appropriate set of state variables remains challenging for two reasons. First, finding a compact set of meaningfully predictive variables is mathematically difficult and under-defined. A second reason is that variables found often lack physical significance, and are therefore difficult for human scientists to interpret. We propose a new general principle for distilling representations that are naturally more aligned with human intuition, without relying on prior physical knowledge. We demonstrate our approach on a number of experimental and simulated system where the variables generated by the AI closely resemble those chosen independently by human scientists. We suggest that this principle can help make human-AI collaboration more fruitful, as well as shed light on how humans make scientific modeling choices.
翻訳日:2024-10-31 20:47:00 公開日:2024-10-09
# キーポイント爆発によるサッカーカメラキャリブレーションの強化

Enhancing Soccer Camera Calibration Through Keypoint Exploitation ( http://arxiv.org/abs/2410.07401v1 )

ライセンス: Link先を確認
Nikolay S. Falaleev, Ruilong Chen, (参考訳) 正確なカメラキャリブレーションは、カメラセンサから3次元世界座標へ2D画像を変換し、正確なシーン形状の解釈を可能にし、選手追跡、オフサイド検出、パフォーマンス解析などのスポーツ分析タスクをサポートするために必要である。 しかし,従来の校正法と深層学習に基づく校正法では,十分な数の高品質な点対が得られることが大きな課題である。 本稿では,サッカーピッチの構造的特徴を活用することで,この問題に対処する多段パイプラインを提案する。 提案手法は,直線交点や直線-円錐交点,円錐上の点,その他の幾何学的特徴を利用して,校正に利用できる点の数を大幅に増加させる。 不完全なアノテーションの影響を軽減するため、私たちはデータフィッティング技術を採用しています。 我々のパイプラインは、キーポイントとライン検出のためのディープラーニングを利用し、実世界のピッチ次元に基づく幾何学的制約を取り入れている。 投票アルゴリズムは、最も信頼性の高いキーポイントを反復的に選択し、キャリブレーション精度をさらに高める。 我々は,利用可能な最大のサッカー放送カメラキャリブレーションデータセットについて,我々のアプローチを評価し,実際のシナリオにおける本手法の有効性を実証したサッカーネットカメラキャリブレーションチャレンジ2023(arXiv:2309.06006)の上位位置を確保した。 プロジェクトのコードはhttps://github.com/NikolasEnt/soccernet-calibration-sportlightで公開されている。

Accurate camera calibration is essential for transforming 2D images from camera sensors into 3D world coordinates, enabling precise scene geometry interpretation and supporting sports analytics tasks such as player tracking, offside detection, and performance analysis. However, obtaining a sufficient number of high-quality point pairs remains a significant challenge for both traditional and deep learning-based calibration methods. This paper introduces a multi-stage pipeline that addresses this challenge by leveraging the structural features of the football pitch. Our approach significantly increases the number of usable points for calibration by exploiting line-line and line-conic intersections, points on the conics, and other geometric features. To mitigate the impact of imperfect annotations, we employ data fitting techniques. Our pipeline utilizes deep learning for keypoint and line detection and incorporates geometric constraints based on real-world pitch dimensions. A voter algorithm iteratively selects the most reliable keypoints, further enhancing calibration accuracy. We evaluated our approach on the largest football broadcast camera calibration dataset available, and secured the top position in the SoccerNet Camera Calibration Challenge 2023 [arXiv:2309.06006], which demonstrates the effectiveness of our method in real-world scenarios. The project code is available at https://github.com/NikolasEnt/soccernet-calibration-sportlight .
翻訳日:2024-10-31 20:37:14 公開日:2024-10-09
# 事前学習基礎モデルを用いた強化学習における本質的な動機づけ

Fostering Intrinsic Motivation in Reinforcement Learning with Pretrained Foundation Models ( http://arxiv.org/abs/2410.07404v1 )

ライセンス: Link先を確認
Alain Andres, Javier Del Ser, (参考訳) 探究は強化学習において重要な課題であり、特に外因性報酬が希少であるか存在しない環境では重要な課題である。 CLIPのような最近の基盤モデルの台頭は、広く再利用可能な知識をカプセル化した事前訓練された、意味的にリッチな埋め込みを活用する機会を提供する。 本研究は,これらの基盤モデルが探索を促進するだけでなく,エージェントの探索効果を高める上でのエピソード・ノベルティ項の重要な役割を分析することを目的としている。 また,大きな状態空間における小さな変動を扱うのが困難であるにもかかわらず,本文モジュールに完全な状態情報(部分的な観測よりもむしろ)を提供することで探索を改善することができるかどうかについても検討する。 我々のMiniGrid領域における実験により、本質的なモジュールは、最適なポリシーを学習しながらサンプル効率を大幅に向上させ、完全な状態情報を有効に活用できることが判明した。 さらに,基礎モデルによって提供される埋め込みは,訓練中のエージェントが構築したものよりもさらに優れている場合があり,特に探究力を高めるために,エピソディックなノベルティ用語と組み合わせた場合,学習プロセスが促進されることが示唆された。

Exploration remains a significant challenge in reinforcement learning, especially in environments where extrinsic rewards are sparse or non-existent. The recent rise of foundation models, such as CLIP, offers an opportunity to leverage pretrained, semantically rich embeddings that encapsulate broad and reusable knowledge. In this work we explore the potential of these foundation models not just to drive exploration, but also to analyze the critical role of the episodic novelty term in enhancing exploration effectiveness of the agent. We also investigate whether providing the intrinsic module with complete state information -- rather than just partial observations -- can improve exploration, despite the difficulties in handling small variations within large state spaces. Our experiments in the MiniGrid domain reveal that intrinsic modules can effectively utilize full state information, significantly increasing sample efficiency while learning an optimal policy. Moreover, we show that the embeddings provided by foundation models are sometimes even better than those constructed by the agent during training, further accelerating the learning process, especially when coupled with the episodic novelty term to enhance exploration.
翻訳日:2024-10-31 20:37:14 公開日:2024-10-09
# 映像要約のための基礎的マルチモーダルモデルの探索

Exploring Efficient Foundational Multi-modal Models for Video Summarization ( http://arxiv.org/abs/2410.07405v1 )

ライセンス: Link先を確認
Karan Samel, Apoorva Beedu, Nitish Sontakke, Irfan Essa, (参考訳) 基本モデルは、プロンプト命令やテキスト、オーディオ、イメージ入力を出力するテキストを生成することができる。 近年,これらのモデルを組み合わせて映像の要約などのタスクを遂行している。 このようなビデオ基礎モデルは、各モダリティ固有モデルからの出力を同じ埋め込み空間にアライメントすることで事前学習を行う。 次に、各モデルからの埋め込みを言語モデル内で使用し、所望の命令セットに微調整する。 事前学習中の各モダリティの調整は計算に高価であり、異なる基本モダリティモデルの迅速なテストを防止する。 微調整中、これらの手法の一般化性とデータ効率の理解が難しいドメイン内ビデオで評価を行う。 これらの問題を緩和するために,プラグアンドプレイのビデオ言語モデルを提案する。 各入力モダリティから生成されたテキストを直接言語モデルに使用し、事前トレーニングのアライメントオーバーヘッドを回避する。 微調整の代わりに、数発の命令適応戦略を活用します。 プラグアンドプレイ方式とベースラインチューニング方式のパフォーマンスと計算コストを比較した。 最後に、ドメインシフト中の各メソッドの一般化可能性について検討し、トレーニングデータに制限がある場合のデータについて考察する。 この分析を通じて,現実的な計算とデータ制限が与えられた実効的な結果に対して,マルチモーダル基礎モデルの活用方法に関する実践的な知見を提示する。

Foundational models are able to generate text outputs given prompt instructions and text, audio, or image inputs. Recently these models have been combined to perform tasks on video, such as video summarization. Such video foundation models perform pre-training by aligning outputs from each modality-specific model into the same embedding space. Then the embeddings from each model are used within a language model, which is fine-tuned on a desired instruction set. Aligning each modality during pre-training is computationally expensive and prevents rapid testing of different base modality models. During fine-tuning, evaluation is carried out within in-domain videos where it is hard to understand the generalizability and data efficiency of these methods. To alleviate these issues we propose a plug-and-play video language model. It directly uses the texts generated from each input modality into the language model, avoiding pre-training alignment overhead. Instead of fine-tuning we leverage few-shot instruction adaptation strategies. We compare the performance versus the computational costs for our plug-and-play style method and baseline tuning methods. Finally, we explore the generalizability of each method during domain shift and present insights on what data is useful when training data is limited. Through this analysis, we present practical insights on how to leverage multi-modal foundational models for effective results given realistic compute and data limitations.
翻訳日:2024-10-31 20:37:14 公開日:2024-10-09
# マルチエージェントインタラクションのための責任割り当ての学習:制御障壁関数を用いた微分可能な最適化手法

Learning responsibility allocations for multi-agent interactions: A differentiable optimization approach with control barrier functions ( http://arxiv.org/abs/2410.07409v1 )

ライセンス: Link先を確認
Isaac Remy, David Fridovich-Keil, Karen Leung, (参考訳) 自律運転からパッケージ配信に至るまで、対話のダイナミクスは、社会的規範や文脈的手がかりなどのハード・ツー・モデル要因に影響されるため、安全かつ効率的なマルチエージェントインタラクションを保証することは困難である。 これらの影響を理解することは、行動が人間の価値観と一致している社会的に認識された自律エージェントの設計と評価に役立つ。 本研究では,リスクレンズを介して安全なマルチエージェントインタラクションを管理する要因,すなわち,エージェントが望むコントロールから逸脱し,他者との安全なインタラクションを許容する意思を定式化する。 具体的には、データからエージェントの責任配分を効率的に学習する制御障壁関数と微分可能最適化に基づくデータ駆動モデリング手法を提案する。 人工的および実世界のデータセットを実証し、現在の環境下での安全性を確保するために、エージェントの振る舞いをどの程度調整するかを解釈可能かつ定量的に理解する。

From autonomous driving to package delivery, ensuring safe yet efficient multi-agent interaction is challenging as the interaction dynamics are influenced by hard-to-model factors such as social norms and contextual cues. Understanding these influences can aid in the design and evaluation of socially-aware autonomous agents whose behaviors are aligned with human values. In this work, we seek to codify factors governing safe multi-agent interactions via the lens of responsibility, i.e., an agent's willingness to deviate from their desired control to accommodate safe interaction with others. Specifically, we propose a data-driven modeling approach based on control barrier functions and differentiable optimization that efficiently learns agents' responsibility allocation from data. We demonstrate on synthetic and real-world datasets that we can obtain an interpretable and quantitative understanding of how much agents adjust their behavior to ensure the safety of others given their current environment.
翻訳日:2024-10-31 20:37:14 公開日:2024-10-09
# オーバーコンプリート画素を用いたコントラスト学習による動きブラインド画像の配向

Aligning Motion-Blurred Images Using Contrastive Learning on Overcomplete Pixels ( http://arxiv.org/abs/2410.07410v1 )

ライセンス: Link先を確認
Leonid Pogorelyuk, Stefan T. Radev, (参考訳) 動きのぼかしに不変なオーバーコンプリート画素レベルの特徴を学習するための新しいコントラスト的目的を提案する。 他の不変性(例えば、ポーズ、照明、天候)は、自己監督訓練中にラベルのない画像に対応する変換を適用することで学習することができる。 我々の目的を訓練した単純なU-Netは、現実的で困難な条件下で撮影される見えないビデオのフレームを移動カメラに合わせるのに有用なローカル機能を生み出すことができることを実証する。 また、慎重にデザインされた玩具の例を用いて、画像中のオブジェクトの同一性やそれらのオブジェクトに対する画素座標を符号化できることも示す。

We propose a new contrastive objective for learning overcomplete pixel-level features that are invariant to motion blur. Other invariances (e.g., pose, illumination, or weather) can be learned by applying the corresponding transformations on unlabeled images during self-supervised training. We showcase that a simple U-Net trained with our objective can produce local features useful for aligning the frames of an unseen video captured with a moving camera under realistic and challenging conditions. Using a carefully designed toy example, we also show that the overcomplete pixels can encode the identity of objects in an image and the pixel coordinates relative to these objects.
翻訳日:2024-10-31 20:37:14 公開日:2024-10-09
# ベイズ・ナッシュによる会員推測攻撃に対するプライバシー保護

Bayes-Nash Generative Privacy Protection Against Membership Inference Attacks ( http://arxiv.org/abs/2410.07414v1 )

ライセンス: Link先を確認
Tao Zhang, Rajagopal Venkatesaraman, Rajat K. De, Bradley A. Malin, Yevgeniy Vorobeychik, (参考訳) 集約された形式でデータを共有する能力は、従来の科学とデータサイエンスの両方を前進させる上で重要である。 しかし、そのようなデータセットは個人で構成されており、これらのデータセットのメンバシップはしばしば機密と見なされ、メンバーシップ推論攻撃(MIA)はプライバシを侵害する恐れがある。 本稿では,データ共有機構出力のプライバシ保護のためのベイズゲームモデルを提案する(ゲノムデータの共有に関する要約統計など)。 このゲームでは、ディフェンダーは期待されるユーティリティとプライバシの損失を最小化し、後者はベイズ・ライエンシャル・アタッカーによって最大化される。 本稿では,このゲームのベイズ・ナッシュ均衡を近似するGANスタイルのアルゴリズムを提案し,真偽陽性に対する攻撃者の異種嗜好に頑健な方法で,攻撃者のプライバシと実用性を最適にバランスさせることを目的としたベイズ・ナッシュ生成プライバシ(BNGP)とベイズ・ナッシュ生成プライバシ(BGP)リスクの概念を紹介する。 我々は,BGPリスクに対する合成と後処理の特性を実証し,BNGPと純粋微分プライバシー(PDP)が等価である条件を確立する。 本手法は要約統計の共有に応用され、MIAは集約データからでも個人を識別できる。 理論的解析と実証実験により,ベイジアンゲーム理論法は,サマリ統計のプライバシー保全のための最先端手法よりも優れていることが示された。

An ability to share data, even in aggregated form, is critical to advancing both conventional and data science. However, insofar as such datasets are comprised of individuals, their membership in these datasets is often viewed as sensitive, with membership inference attacks (MIAs) threatening to violate their privacy. We propose a Bayesian game model for privacy-preserving publishing of data-sharing mechanism outputs (for example, summary statistics for sharing genomic data). In this game, the defender minimizes a combination of expected utility and privacy loss, with the latter being maximized by a Bayes-rational attacker. We propose a GAN-style algorithm to approximate a Bayes-Nash equilibrium of this game, and introduce the notions of Bayes-Nash generative privacy (BNGP) and Bayes generative privacy (BGP) risk that aims to optimally balance the defender's privacy and utility in a way that is robust to the attacker's heterogeneous preferences with respect to true and false positives. We demonstrate the properties of composition and post-processing for BGP risk and establish conditions under which BNGP and pure differential privacy (PDP) are equivalent. We apply our method to sharing summary statistics, where MIAs can re-identify individuals even from aggregated data. Theoretical analysis and empirical results demonstrate that our Bayesian game-theoretic method outperforms state-of-the-art approaches for privacy-preserving sharing of summary statistics.
翻訳日:2024-10-31 20:37:14 公開日:2024-10-09
# 3D2Mのデータセット:3次元の多様なメッシュデータセット

3D2M Dataset: A 3-Dimension diverse Mesh Dataset ( http://arxiv.org/abs/2410.07415v1 )

ライセンス: Link先を確認
Sankarshan Dasgupta, (参考訳) 3次元再構築は研究の目立った領域として現れており、学術や産業からも大きな注目を集めている。 3D再構成の様々な応用の中で、顔の再構成は最も恐ろしい課題のいくつかを生んでいる。 さらに、個々の顔の構造は独特であり、元の特徴に忠実さを維持しながら、この可変性を扱うのに十分な頑健さをアルゴリズムに要求する。 本稿では,多様な顔構造とそれに対応する顔のランドマークを特徴とする3Dメッシュの包括的データセットを提案する。 データセットは、女性候補者73名、男性候補者114名を含む188個の3D顔メッシュで構成されている。 民族的背景を広く表現しており、45の異なる民族からの貢献により、顔の特徴の豊富な多様性が保証されている。 各顔メッシュには、関連する機能を正確にアノテートし、正確な分析と操作を容易にするキーポイントが付属している。 このデータセットは、顔のリターゲティング、顔の構造成分の研究、ビデオストリームにおけるリアルタイム人物表現などのアプリケーションに特に有用である。 研究者や開発者にとって堅牢なリソースを提供することで、3D顔の再構築と関連する技術の分野を前進させることを目指している。

Three-dimensional (3D) reconstruction has emerged as a prominent area of research, attracting significant attention from academia and industry alike. Among the various applications of 3D reconstruction, facial reconstruction poses some of the most formidable challenges. Additionally, each individuals facial structure is unique, requiring algorithms to be robust enough to handle this variability while maintaining fidelity to the original features. This article presents a comprehensive dataset of 3D meshes featuring a diverse range of facial structures and corresponding facial landmarks. The dataset comprises 188 3D facial meshes, including 73 from female candidates and 114 from male candidates. It encompasses a broad representation of ethnic backgrounds, with contributions from 45 different ethnicities, ensuring a rich diversity in facial characteristics. Each facial mesh is accompanied by key points that accurately annotate the relevant features, facilitating precise analysis and manipulation. This dataset is particularly valuable for applications such as facial re targeting, the study of facial structure components, and real-time person representation in video streams. By providing a robust resource for researchers and developers, it aims to advance the field of 3D facial reconstruction and related technologies.
翻訳日:2024-10-31 20:37:14 公開日:2024-10-09
# アクティブな輪郭モデルと共振器事前のベイズ融合を伴うセグメンテーション対象

Segmenting objects with Bayesian fusion of active contour models and convnet priors ( http://arxiv.org/abs/2410.07421v1 )

ライセンス: Link先を確認
Przemyslaw Polewski, Jacquelyn Shelton, Wei Yao, Marco Heurich, (参考訳) インスタンスセグメンテーションは、非常に実用的なコンピュータビジョンタスクである。 大規模なベンチマークデータセットによって駆動される最近の進歩は、優れた汎用畳み込みニューラルネットワーク(CNN)ベースの手法を生み出している。 NRM(Natural Resource Monitoring)は、一般的に知られている規模のリモートセンシング画像を使用し、同じクラスの複数の重複するインスタンスを含む。 これは、古典的なベンチマークデータセットに見られる通常の人造オブジェクトとは対照的である。 この問題に対処し,NEM画像を対象とした新しいインスタンス分割手法を提案する。 我々は,個々の物体の輪郭を学習する際に,その形状,位置,位置を最先端CNNアーキテクチャから組み込んで,複数の物体の輪郭を同時にレベルセットに進化させるような,ベイズ的最大値推論として問題を定式化する。 プリエントを供給しているCNNとアクティブな輪郭プロセスとの間に疎結合を採用し、新しいネットワークアーキテクチャをドロップインで置き換えることを可能にする。 さらに,輪郭形状,すなわちGAN(Generative Adversarial Networks)のアーキテクチャに基づく深部形状モデル(Deep Shape Models)のクラスについて紹介する。 これらの深部形状モデルは本質的に古典的固有形定式化の非線形一般化である。 実験では、個々の枯木樹冠を分割し、正確な輪郭を列挙する、挑戦的で現実的な問題に取り組む。 カラー赤外空中画像における2つの主要な汎用インスタンスセグメンテーション手法であるMask R-CNNとK-netとの比較を行った。 その結果, 樹冠輪郭の復元品質において, 両手法を著しく向上させる手法が得られた。 さらに, GANをベースとした深部形状モデルを用いることで, バニラEigenshapeよりも多くの結果が得られた。

Instance segmentation is a core computer vision task with great practical significance. Recent advances, driven by large-scale benchmark datasets, have yielded good general-purpose Convolutional Neural Network (CNN)-based methods. Natural Resource Monitoring (NRM) utilizes remote sensing imagery with generally known scale and containing multiple overlapping instances of the same class, wherein the object contours are jagged and highly irregular. This is in stark contrast with the regular man-made objects found in classic benchmark datasets. We address this problem and propose a novel instance segmentation method geared towards NRM imagery. We formulate the problem as Bayesian maximum a posteriori inference which, in learning the individual object contours, incorporates shape, location, and position priors from state-of-the-art CNN architectures, driving a simultaneous level-set evolution of multiple object contours. We employ loose coupling between the CNNs that supply the priors and the active contour process, allowing a drop-in replacement of new network architectures. Moreover, we introduce a novel prior for contour shape, namely, a class of Deep Shape Models based on architectures from Generative Adversarial Networks (GANs). These Deep Shape Models are in essence a non-linear generalization of the classic Eigenshape formulation. In experiments, we tackle the challenging, real-world problem of segmenting individual dead tree crowns and delineating precise contours. We compare our method to two leading general-purpose instance segmentation methods - Mask R-CNN and K-net - on color infrared aerial imagery. Results show our approach to significantly outperform both methods in terms of reconstruction quality of tree crown contours. Furthermore, use of the GAN-based deep shape model prior yields significant improvement of all results over the vanilla Eigenshape prior.
翻訳日:2024-10-31 20:37:14 公開日:2024-10-09
# CAFEEN:マルチエージェント強化学習によるエネルギー効率の高いNoCの協調的アプローチ

CAFEEN: A Cooperative Approach for Energy Efficient NoCs with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2410.07426v1 )

ライセンス: Link先を確認
Kamil Khan, Sudeep Pasricha, (参考訳) 高性能ネットワークオンチップ(NoC)アーキテクチャでは、エネルギー消費を最小限に抑えるために効率的な電力管理が不可欠である。 本稿では,エネルギー効率のよいNOCに対して,ヒューリスティックベースできめ細粒度と機械学習ベースの粗粒度パワーゲーティングの両方を併用したCAFEENという新しいフレームワークを提案する。 CAFEENは、ネットワーク負荷の低い期間に必須のNoCバッファのみを活性化するために、きめ細かい方法を使用する。 ピーク負荷時の粗粒化手法に切り替え、マルチエージェント強化学習を用いて、起動オーバーヘッドの複雑化を最小限に抑える。 結果として、CAFEENはパフォーマンスと電力効率を適応的にバランスさせ、単一のアプリケーションワークロードで2.60倍、マルチアプリケーションワークロードで4.37倍削減する。

In emerging high-performance Network-on-Chip (NoC) architectures, efficient power management is crucial to minimize energy consumption. We propose a novel framework called CAFEEN that employs both heuristic-based fine-grained and machine learning-based coarse-grained power-gating for energy-efficient NoCs. CAFEEN uses a fine-grained method to activate only essential NoC buffers during lower network loads. It switches to a coarse-grained method at peak loads to minimize compounding wake-up overhead using multi-agent reinforcement learning. Results show that CAFEEN adaptively balances power-efficiency with performance, reducing total energy by 2.60x for single application workloads and 4.37x for multi-application workloads, compared to state-of-the-art NoC power-gating frameworks.
翻訳日:2024-10-31 20:37:14 公開日:2024-10-09
# さらに実験的に現実的な条件下での統計力学の基礎

Foundation of statistical mechanics under even more experimentally realistic conditions ( http://arxiv.org/abs/2410.07429v1 )

ライセンス: Link先を確認
M. R. Passos, Thiago R. de Oliveira, (参考訳) マクロな系がどのように不可逆的な熱挙動を示すかを理解することは、ボルツマンによって初めて有名になった長年にわたる課題である。 近年の進歩は、孤立量子系が最大エントロピー状態に等しく、弱い仮定に基づいて厳密な条件を確立している。 これらの定理は強力であるが、突然のクエンチに適用される。 しかし、自然過程は有限時間摂動やクエンチに関係しており、これは重要な疑問を生じさせる: これらの系は依然としてより現実的で有限時間力学の下で平衡できるのだろうか? 本研究では, 有限時間クエンチを考慮に入れた定式化結果を拡張し, 有限時間摂動下であっても, 多数の重要なエネルギー準位を投入した場合, 系は平衡することを示した。 数学的証明は即時の場合よりも複雑であるが、物理的結論は同じである:十分な摂動は平衡をもたらす。 我々の結果は、孤立量子系における熱化を理解するためのより広く、より現実的な枠組みを提供する。

Understanding how macroscopic systems exhibit irreversible thermal behavior has been a long-standing challenge, first brought to prominence by Boltzmann. Recent advances have established rigorous conditions for isolated quantum systems to equilibrate to a maximum entropy state, contingent upon weak assumptions. These theorems, while powerful, apply for a sudden quench. However, natural processes involve finite-time perturbations or quenches, which raises a crucial question: Can these systems still equilibrate under more realistic, finite-time dynamics? In this work, we extend the established results to account for finite-time quenches, demonstrating that even under finite-time perturbations, the system will equilibrate provided it populates many significant energy levels. While the mathematical proof is more intricate than in the instantaneous case, the physical conclusion remains the same: sufficient perturbation leads to equilibration. Our results provide a broader and more physically realistic framework for understanding thermalization in isolated quantum systems
翻訳日:2024-10-31 17:06:37 公開日:2024-10-09
# EventFlow: フローマッチングによる連続時間イベントデータの予測

EventFlow: Forecasting Continuous-Time Event Data with Flow Matching ( http://arxiv.org/abs/2410.07430v1 )

ライセンス: Link先を確認
Gavin Kerrigan, Kai Nelson, Padhraic Smyth, (参考訳) 連続的なイベントシーケンスは、不規則な間隔で発生し、幅広い産業領域や科学領域にまたがってユビキタスである。 現代のモデリングパラダイムは、そのようなデータを時間的点過程の実現として扱うことであり、機械学習では、ニューラルネットワークを用いて時間的点過程を自己回帰的にモデル化することが一般的である。 自己回帰モデルは、後続のイベントの時間を予測することに成功しているが、カスケードエラーによる長い水平線の予測には不満足である。 本研究では,時間的ポイントプロセスのための非自己回帰生成モデルであるEventFlowを提案する。 我々のモデルはフローマッチングフレームワークの上に構築され、イベント時間を通じて関節分布を直接学習し、自己回帰プロセスをサイドステッピングします。 EventFlowは、可能性のない、実装が容易でサンプルであり、標準ベンチマークのセットで、条件なしおよび条件付きの両方のタスクで、最先端モデルのパフォーマンスにマッチするか、上回っている。

Continuous-time event sequences, in which events occur at irregular intervals, are ubiquitous across a wide range of industrial and scientific domains. The contemporary modeling paradigm is to treat such data as realizations of a temporal point process, and in machine learning it is common to model temporal point processes in an autoregressive fashion using a neural network. While autoregressive models are successful in predicting the time of a single subsequent event, their performance can be unsatisfactory in forecasting longer horizons due to cascading errors. We propose EventFlow, a non-autoregressive generative model for temporal point processes. Our model builds on the flow matching framework in order to directly learn joint distributions over event times, side-stepping the autoregressive process. EventFlow is likelihood-free, easy to implement and sample from, and either matches or surpasses the performance of state-of-the-art models in both unconditional and conditional generation tasks on a set of standard benchmarks
翻訳日:2024-10-31 17:06:37 公開日:2024-10-09
# トランスフォーマーは論理的に推論できるか?SATソルビングの研究

Can Transformers Reason Logically? A Study in SAT Solving ( http://arxiv.org/abs/2410.07432v1 )

ライセンス: Link先を確認
Leyan Pan, Vijay Ganesh, Jacob Abernethy, Chris Esposo, Wenke Lee, (参考訳) 本研究では, LLMの論理的推論能力について, ブール充足可能性(SAT)問題の観点から理論的, 実験的に検討した。 まず,Chain-of-Thought (CoT) によるバックトラックとデダクションを用いてSATを解くデコーダのみの変換器を構築する。 我々は、よく知られたDPLL SAT-solvingアルゴリズムにトレース等価性を示すことによって、その正当性を証明した。 第二に、この抽象的な構成の実装をサポートするために、手続き仕様を入力として取り込んだコンパイラ $\texttt{PARAT}$ を設計し、この仕様を実装したトランスフォーマーモデルを出力する。 第3に、$\textit{ programsming}$ a transformer to reasonというよりは、DPLLアルゴリズムのアルゴリズムトレース(推論パス)から直接学習することで、$\textit{trained}$が可能であるかどうかを経験的に評価する。

We theoretically and empirically study the logical reasoning capabilities of LLMs in the context of the Boolean satisfiability (SAT) problem. First, we construct a decoder-only Transformer that can solve SAT using backtracking and deduction via Chain-of-Thought (CoT). We prove its correctness by showing trace equivalence to the well-known DPLL SAT-solving algorithm. Second, to support the implementation of this abstract construction, we design a compiler $\texttt{PARAT}$ that takes as input a procedural specification and outputs a transformer model implementing this specification. Third, rather than $\textit{programming}$ a transformer to reason, we evaluate empirically whether it can be $\textit{trained}$ to do so by learning directly from algorithmic traces ("reasoning paths") of the DPLL algorithm.
翻訳日:2024-10-31 17:06:37 公開日:2024-10-09
# 外科的深度評価 : 基礎モデルを用いた手術シーンの深さ推定

Surgical Depth Anything: Depth Estimation for Surgical Scenes using Foundation Models ( http://arxiv.org/abs/2410.07434v1 )

ライセンス: Link先を確認
Ange Lou, Yamin Li, Yike Zhang, Jack Noble, (参考訳) 単眼深度推定は、特に手術ビデオの文脈において、追跡と再構成のアルゴリズムに不可欠である。 しかし,術中における地底真理深度マップの直接取得における固有の課題は,教師付き学習アプローチを非現実的なものにしている。 Structure from Motion (SfM) に基づく多くの自己監督手法が有望な結果を示しているが、高品質なカメラモーションに大きく依存しており、患者毎の最適化が必要である。 これらの制限は、Depth Anything、Depth Anythingに現在の最先端の基礎モデルを活用することで緩和することができる。 しかし、外科的シーンに直接適用すると、ディープス・エバーシングはぼやけたり、出血したり、反射したりといった問題に悩まされ、その結果、準最適パフォーマンスがもたらされる。 本稿では,外科領域に特有なDepth Anythingモデルを微調整し,手術環境のユニークな要件や課題に合わせて,より正確なピクセル単位の深度マップを提供することを目的とする。 我々の微調整アプローチは手術シーンにおけるモデルの性能を大幅に改善し、ぼやけや反射に伴う誤差を低減し、より信頼性が高く正確な深度推定を実現する。

Monocular depth estimation is crucial for tracking and reconstruction algorithms, particularly in the context of surgical videos. However, the inherent challenges in directly obtaining ground truth depth maps during surgery render supervised learning approaches impractical. While many self-supervised methods based on Structure from Motion (SfM) have shown promising results, they rely heavily on high-quality camera motion and require optimization on a per-patient basis. These limitations can be mitigated by leveraging the current state-of-the-art foundational model for depth estimation, Depth Anything. However, when directly applied to surgical scenes, Depth Anything struggles with issues such as blurring, bleeding, and reflections, resulting in suboptimal performance. This paper presents a fine-tuning of the Depth Anything model specifically for the surgical domain, aiming to deliver more accurate pixel-wise depth maps tailored to the unique requirements and challenges of surgical environments. Our fine-tuning approach significantly improves the model's performance in surgical scenes, reducing errors related to blurring and reflections, and achieving a more reliable and precise depth estimation.
翻訳日:2024-10-31 17:06:37 公開日:2024-10-09
# 実世界のオーディオディープフェイク検出に向けて:説明可能性のギャップを塞ぐ

Toward Robust Real-World Audio Deepfake Detection: Closing the Explainability Gap ( http://arxiv.org/abs/2410.07436v1 )

ライセンス: Link先を確認
Georgia Channing, Juil Sock, Ronald Clark, Philip Torr, Christian Schroeder de Witt, (参考訳) AIが操作または生成されたオーディオディープフェイクの急速な普及は、メディアの完全性と選挙のセキュリティに深刻な課題をもたらす。 現在のAI駆動検出ソリューションでは、実世界の環境での説明可能性や性能が不足している。 本稿では,最先端のトランスフォーマーを用いたオーディオディープフェイク検出のための新しい説明可能性手法と,実世界の一般化のための新しいベンチマークをオープンソース化する。 トランスフォーマーをベースとしたオーディオディープフェイク検出装置と従来の方法との説明可能性のギャップを狭めることで、人間の専門家との信頼を深めるだけでなく、市民インテリジェンスの可能性を解き明かし、オーディオディープフェイク検出のスケーラビリティ問題を克服する道を開いた。

The rapid proliferation of AI-manipulated or generated audio deepfakes poses serious challenges to media integrity and election security. Current AI-driven detection solutions lack explainability and underperform in real-world settings. In this paper, we introduce novel explainability methods for state-of-the-art transformer-based audio deepfake detectors and open-source a novel benchmark for real-world generalizability. By narrowing the explainability gap between transformer-based audio deepfake detectors and traditional methods, our results not only build trust with human experts, but also pave the way for unlocking the potential of citizen intelligence to overcome the scalability issue in audio deepfake detection.
翻訳日:2024-10-31 17:06:37 公開日:2024-10-09
# 自己監督と対極的パラダイムを用いたロバスト赤外小目標検出

Robust infrared small target detection using self-supervised and a contrario paradigms ( http://arxiv.org/abs/2410.07437v1 )

ライセンス: Link先を確認
Alina Ciocarlan, Sylvie Le Hégarat-Mascle, Sidonie Lefebvre, Arnaud Woiselle, (参考訳) 赤外線画像における小さなターゲットの検出は、複雑な背景とターゲットの小さなサイズがあるため、防衛用途において大きな課題となる。 従来の物体検出法は、特に小さな物体を扱う場合、高い検出率と低い誤報率のバランスをとるのに苦労することが多い。 本稿では、赤外線小ターゲット検出(IRSTD)を改善するために、コントラリオパラダイムと自己監視学習(SSL)を組み合わせた新しいアプローチを提案する。 一方、YOLO検出ヘッドへの対向基準の統合は、誤報を効果的に制御しつつ、小型で予期せぬ物体に対する特徴マップ応答を高める。 一方、IRSTDタスクに共通する制限付きアノテートデータの課題を克服するため、SSL技術について検討する。 具体的には、小さなオブジェクト検出性能を改善するために、いくつかのSSL戦略をベンチマークする。 本研究は, YOLOを用いた小型物体検出に適用した場合, インスタンス識別手法がマスク画像モデリング手法より優れていることを示す。 さらに、コントラリオとSSLのパラダイムを組み合わせることで、パフォーマンスが大幅に向上し、最先端のセグメンテーションメソッドとのギャップが狭まり、フラガアルな設定でもパフォーマンスが向上する。 この2段階のアプローチは、特に困難な条件下で、IRSTD性能を改善するための堅牢なソリューションを提供する。

Detecting small targets in infrared images poses significant challenges in defense applications due to the presence of complex backgrounds and the small size of the targets. Traditional object detection methods often struggle to balance high detection rates with low false alarm rates, especially when dealing with small objects. In this paper, we introduce a novel approach that combines a contrario paradigm with Self-Supervised Learning (SSL) to improve Infrared Small Target Detection (IRSTD). On the one hand, the integration of an a contrario criterion into a YOLO detection head enhances feature map responses for small and unexpected objects while effectively controlling false alarms. On the other hand, we explore SSL techniques to overcome the challenges of limited annotated data, common in IRSTD tasks. Specifically, we benchmark several representative SSL strategies for their effectiveness in improving small object detection performance. Our findings show that instance discrimination methods outperform masked image modeling strategies when applied to YOLO-based small object detection. Moreover, the combination of the a contrario and SSL paradigms leads to significant performance improvements, narrowing the gap with state-of-the-art segmentation methods and even outperforming them in frugal settings. This two-pronged approach offers a robust solution for improving IRSTD performance, particularly under challenging conditions.
翻訳日:2024-10-31 17:06:37 公開日:2024-10-09
# データ拡張のないビジョンベースRLのゼロショット一般化

Zero-Shot Generalization of Vision-Based RL Without Data Augmentation ( http://arxiv.org/abs/2410.07441v1 )

ライセンス: Link先を確認
Sumeet Batra, Gaurav S. Sukhatme, (参考訳) 視覚に基づく強化学習(RL)エージェントを新しい環境に一般化することは、依然として困難かつオープンな課題である。 現在のトレンドは、大規模なデータセットを収集したり、データ拡張技術を使用して、オーバーフィッティングを防止し、下流の一般化を改善することです。 しかし、計算とデータ収集のコストはタスクのバリエーションの数に応じて指数関数的に増加し、RLエージェントを訓練する上で既に困難なタスクを不安定にすることができる。 本研究では,近年の計算神経科学の進歩から着想を得て,ゼロショットの一般化に向けての標準法則に基づくアソシエーション・ラテント・ディスタン・アングルメント(ALDA)モデルを提案する。 具体的には、RLにおける潜伏不整合の役割を再考し、それを連想メモリのモデルと組み合わせることで、データ拡張に頼ることなく、困難なタスクのバリエーションをゼロショットで一般化できることを示す。 最後に,データ拡張技術が弱い絡み合いの一形態であることを正式に示し,この知見の意義について論じる。

Generalizing vision-based reinforcement learning (RL) agents to novel environments remains a difficult and open challenge. Current trends are to collect large-scale datasets or use data augmentation techniques to prevent overfitting and improve downstream generalization. However, the computational and data collection costs increase exponentially with the number of task variations and can destabilize the already difficult task of training RL agents. In this work, we take inspiration from recent advances in computational neuroscience and propose a model, Associative Latent DisentAnglement (ALDA), that builds on standard off-policy RL towards zero-shot generalization. Specifically, we revisit the role of latent disentanglement in RL and show how combining it with a model of associative memory achieves zero-shot generalization on difficult task variations without relying on data augmentation. Finally, we formally show that data augmentation techniques are a form of weak disentanglement and discuss the implications of this insight.
翻訳日:2024-10-31 17:06:37 公開日:2024-10-09
# KACQ-DCNN:心疾患検出のための不確かさを意識したKolmogorov-Arnold古典的量子チャネルニューラルネットワーク

KACQ-DCNN: Uncertainty-Aware Interpretable Kolmogorov-Arnold Classical-Quantum Dual-Channel Neural Network for Heart Disease Detection ( http://arxiv.org/abs/2410.07446v1 )

ライセンス: Link先を確認
Md Abrar Jahin, Md. Akmol Masud, M. F. Mridha, Zeyar Aung, Nilanjan Dey, (参考訳) 心不全は依然として世界的な健康上の課題であり、心臓血管疾患による毎年1780万人の死亡に大きく貢献し、診断ツールの改善の必要性を強調している。 従来の機械学習に基づく現在の心臓疾患予測モデルでは、高次元、不均衡なデータの扱い不足、小さなデータセットでの限られたパフォーマンス、不確実な定量化の欠如など、顔の制限が制限されている。 KACQ-DCNNは,従来のマルチ層パーセプトロンや畳み込み層をKAN(Kolmogorov-Arnold Networks)に置き換える,古典量子ハイブリッド2チャネルニューラルネットワークである。 このアプローチは、学習可能な単変量活性化関数による関数近似を強化し、モデルの複雑さを低減し、一般化を改善する。 KACQ-DCNN 4-qubit 1-layeredモデルでは、37のベンチマークモデルよりも優れており、精度は92.03%、マクロ平均精度、リコール、F1スコアは92.00%、ROC-AUCスコアは94.77%である。 アブレーション研究は、古典的成分と量子的成分をカンと組み合わせることの相乗効果を示す。 加えて、LIMEやSHAPのような説明可能性技術は、特徴レベルの洞察を提供し、モデルの透明性を改善し、一方で共形予測による不確実性定量化は、堅牢な確率推定を保証する。 これらの結果は、KACQ-DCNNがより正確で、解釈可能で、信頼性の高い心臓疾患予測への道のりを提供し、心臓血管医療の進歩への道を開くことを示唆している。

Heart failure remains a major global health challenge, contributing significantly to the 17.8 million annual deaths from cardiovascular disease, highlighting the need for improved diagnostic tools. Current heart disease prediction models based on classical machine learning face limitations, including poor handling of high-dimensional, imbalanced data, limited performance on small datasets, and a lack of uncertainty quantification, while also being difficult for healthcare professionals to interpret. To address these issues, we introduce KACQ-DCNN, a novel classical-quantum hybrid dual-channel neural network that replaces traditional multilayer perceptrons and convolutional layers with Kolmogorov-Arnold Networks (KANs). This approach enhances function approximation with learnable univariate activation functions, reducing model complexity and improving generalization. The KACQ-DCNN 4-qubit 1-layered model significantly outperforms 37 benchmark models across multiple metrics, achieving an accuracy of 92.03%, a macro-average precision, recall, and F1 score of 92.00%, and an ROC-AUC score of 94.77%. Ablation studies demonstrate the synergistic benefits of combining classical and quantum components with KAN. Additionally, explainability techniques like LIME and SHAP provide feature-level insights, improving model transparency, while uncertainty quantification via conformal prediction ensures robust probability estimates. These results suggest that KACQ-DCNN offers a promising path toward more accurate, interpretable, and reliable heart disease predictions, paving the way for advancements in cardiovascular healthcare.
翻訳日:2024-10-31 17:06:37 公開日:2024-10-09
# TinyLidarNet:F1TENTH自律レースのための2次元LiDARに基づくエンドツーエンドディープラーニングモデル

TinyLidarNet: 2D LiDAR-based End-to-End Deep Learning Model for F1TENTH Autonomous Racing ( http://arxiv.org/abs/2410.07447v1 )

ライセンス: Link先を確認
Mohammed Misbah Zarrar, Qitao Weng, Bakhbyergyen Yerjan, Ahmet Soyyigit, Heechul Yun, (参考訳) 従来の研究では、制御信号が生の知覚データから直接導出されるロボットナビゲーションにおいて、エンドツーエンドのディープラーニングの有効性が実証されている。 しかし、既存のエンドツーエンドナビゲーションソリューションの大部分は、主にカメラベースである。 本稿では,2次元LiDARに基づく自律走行のためのエンドツーエンドディープラーニングモデルであるTinyLidarNetを紹介する。 ティニーリダーネットを使用したF1TENTH車両は、12回目のF1TENTH自律グランプリで3位となり、その競争性能を誇った。 トレーニングされていないトラック上でのパフォーマンスとリアルタイム処理の計算要求を系統的に解析する。 TinyLidarNetの1D Convolutional Neural Network (CNN) ベースのアーキテクチャは、広く使われているMulti-Layer Perceptron (MLP) ベースのアーキテクチャよりも大幅に優れていることがわかった。 さらに,ローエンドマイクロコントローラユニット (MCU) 上でリアルタイムに処理可能であることを示す。

Prior research has demonstrated the effectiveness of end-to-end deep learning for robotic navigation, where the control signals are directly derived from raw sensory data. However, the majority of existing end-to-end navigation solutions are predominantly camera-based. In this paper, we introduce TinyLidarNet, a lightweight 2D LiDAR-based end-to-end deep learning model for autonomous racing. An F1TENTH vehicle using TinyLidarNet won 3rd place in the 12th F1TENTH Autonomous Grand Prix competition, demonstrating its competitive performance. We systematically analyze its performance on untrained tracks and computing requirements for real-time processing. We find that TinyLidarNet's 1D Convolutional Neural Network (CNN) based architecture significantly outperforms widely used Multi-Layer Perceptron (MLP) based architecture. In addition, we show that it can be processed in real-time on low-end micro-controller units (MCUs).
翻訳日:2024-10-31 17:06:37 公開日:2024-10-09
# ニューラルネットワークの集合変数:経験的時間進化とスケーリング法則

Collective variables of neural networks: empirical time evolution and scaling laws ( http://arxiv.org/abs/2410.07451v1 )

ライセンス: Link先を確認
Samuel Tovey, Sven Krippendorf, Michael Spannowsky, Konstantin Nikolaou, Christian Holm, (参考訳) この研究は、ニューラルネットワークにおける学習力学とスケーリング関係を理解するための新しい方法を示す。 実験的なニューラル・タンジェント・カーネルのスペクトル、特にエントロピーとトレーサのスペクトルに対する特定の測定により、ニューラルネットワークが学習した表現の洞察と、アーキテクチャのスケーリングを通じてそれらがどのように改善されるかが示される。 これらの結果は、トランスフォーマー、オートエンコーダ、グラフニューラルネットワーク、強化学習研究など、より複雑なネットワークで示される前に、まずテストケースで実証される。 幅広いアーキテクチャのテストにおいて、トレーニングダイナミクスの普遍的な性質を強調し、ニューラルネットワークにおける学習の背景にあるメカニズムを理解するためにどのように使用できるのかをさらに議論する。 我々は、機械学習トレーニングを通して存在する2つの支配的なメカニズムを同定する。 1つ目は情報圧縮であり、トレーニング中にNTKスペクトルのエントロピーを減少させ、主に小さなニューラルネットワークで発生する。 2つ目の構造形成はエントロピーの増大によって見られ、したがって初期化時にネットワークが確立した以前のものを超えて、ニューラルネットワークの表現における構造の生成である。 ディープニューラルネットワークアーキテクチャにおける後者の普遍性と、特徴量の多い表現の作成における柔軟性のため、ネットワークのエントロピーのこの形式の進化は、深層学習体制の開始と見なすことができる。

This work presents a novel means for understanding learning dynamics and scaling relations in neural networks. We show that certain measures on the spectrum of the empirical neural tangent kernel, specifically entropy and trace, yield insight into the representations learned by a neural network and how these can be improved through architecture scaling. These results are demonstrated first on test cases before being shown on more complex networks, including transformers, auto-encoders, graph neural networks, and reinforcement learning studies. In testing on a wide range of architectures, we highlight the universal nature of training dynamics and further discuss how it can be used to understand the mechanisms behind learning in neural networks. We identify two such dominant mechanisms present throughout machine learning training. The first, information compression, is seen through a reduction in the entropy of the NTK spectrum during training, and occurs predominantly in small neural networks. The second, coined structure formation, is seen through an increasing entropy and thus, the creation of structure in the neural network representations beyond the prior established by the network at initialization. Due to the ubiquity of the latter in deep neural network architectures and its flexibility in the creation of feature-rich representations, we argue that this form of evolution of the network's entropy be considered the onset of a deep learning regime.
翻訳日:2024-10-31 17:06:37 公開日:2024-10-09
# 表現強化型ニューラルネットワーク統合と大規模医学オントロジー学習への応用

Representation-Enhanced Neural Knowledge Integration with Application to Large-Scale Medical Ontology Learning ( http://arxiv.org/abs/2410.07454v1 )

ライセンス: Link先を確認
Suqi Liu, Tianxi Cai, Xiaoou Li, (参考訳) 大規模知識グラフは、多様なデータセット間で一貫した解釈を保証する標準化された統合されたフレームワークを提供することにより、バイオメディカルデータ発見の再現性を高める。 様々なソースからのデータを接続することで、一般化性を改善し、異なる集団や状況における発見の広範な適用を可能にする。 しかし、既存の文献から複数ソース情報を活用する信頼性の高い知識グラフを生成することは、特に多数のノードサイズと不均一な関係において困難である。 本稿では,複数の関係型の同時学習を実現するため,理論的に保証されたRENKIという統計フレームワークを提案する。 RENKIは統計学や計算機科学で広く使われている様々なネットワークモデルを一般化している。 提案フレームワークは、表現学習出力をニューラルネットワークの初期エンティティ埋め込みに組み込み、知識グラフのスコア関数を近似し、観測事実に適合するようにモデルを継続的に訓練する。 我々は,知識グラフ関数クラスの擬次元に関して,サンプル内およびサンプル外重み付きMSEの漸近境界を証明した。 さらに,ReLUアクティベーション関数を持つ多層ニューラルネットワークに基づくスコア関数の擬似次元を,埋め込みパラメータが固定またはトレーニング可能な場合のシナリオで提供する。 最後に, 理論的結果と数値的研究を補完し, 複数のオントロジーで観測された知識グラフリンクと事前学習された言語モデル表現を組み合わせた総合的な医療知識グラフの学習手法を適用した。 本実験は,異種関係の存在下での重み付けの効果と,非パラメトリックモデルに表現学習を組み込むことの利点を正当化し,その効果を実証するものである。

A large-scale knowledge graph enhances reproducibility in biomedical data discovery by providing a standardized, integrated framework that ensures consistent interpretation across diverse datasets. It improves generalizability by connecting data from various sources, enabling broader applicability of findings across different populations and conditions. Generating reliable knowledge graph, leveraging multi-source information from existing literature, however, is challenging especially with a large number of node sizes and heterogeneous relations. In this paper, we propose a general theoretically guaranteed statistical framework, called RENKI, to enable simultaneous learning of multiple relation types. RENKI generalizes various network models widely used in statistics and computer science. The proposed framework incorporates representation learning output into initial entity embedding of a neural network that approximates the score function for the knowledge graph and continuously trains the model to fit observed facts. We prove nonasymptotic bounds for in-sample and out-of-sample weighted MSEs in relation to the pseudo-dimension of the knowledge graph function class. Additionally, we provide pseudo-dimensions for score functions based on multilayer neural networks with ReLU activation function, in the scenarios when the embedding parameters either fixed or trainable. Finally, we complement our theoretical results with numerical studies and apply the method to learn a comprehensive medical knowledge graph combining a pretrained language model representation with knowledge graph links observed in several medical ontologies. The experiments justify our theoretical findings and demonstrate the effect of weighting in the presence of heterogeneous relations and the benefit of incorporating representation learning in nonparametric models.
翻訳日:2024-10-31 17:06:37 公開日:2024-10-09
# SAGE: 大規模スパースオートエンコーダのためのスケーラブルなグラウンドトゥルース評価

SAGE: Scalable Ground Truth Evaluations for Large Sparse Autoencoders ( http://arxiv.org/abs/2410.07456v1 )

ライセンス: Link先を確認
Constantin Venhoff, Anisoara Calinescu, Philip Torr, Christian Schroeder de Witt, (参考訳) 解釈可能性の重要な課題は、モデルのアクティベーションを意味のある機能に分解することだ。 スパースオートエンコーダ(SAE)がこのタスクの有望なツールとして登場した。 しかし、SAEの質を評価する上での中心的な問題は、金の評価基準として機能する根拠となる真理の特徴が欠如していることである。 したがって、SAEの現在の評価手法は、重要なトレードオフに直面している:SAEは、事前に定義された地上の真理特性を持つおもちゃモデルや他のプロキシを利用するか、または、現実的なタスク回路に関する広範な事前知識を使用することができる。 前者は評価結果の一般化可能性を制限するが、後者は評価に使用できるモデルやタスクの範囲を制限する。 SAGE: Scalable Autoencoder Ground-Truth Evaluationは、SAEのための基礎的真理評価フレームワークで、最先端のSAEやモデルにスケールする。 提案手法は,タスク固有のアクティベーションを自動的に識別し,これらの点における基底的真理特徴を計算できることを実証する。 従来の手法と比較して,サブ層活性化に残留ストリームSAEを適用可能な新しい再構成手法を導入することにより,トレーニングオーバーヘッドを低減することができる。 これにより、タスク固有のアクティベーションロケーション毎にトレーニングされたSAEが不要になる。 次に、Pythia70M, GPT-2 Small, Gemma-2における新しいタスクのSAEを評価することにより、我々のフレームワークのスケーラビリティを検証する。 そこで,本研究の枠組みは,解釈可能性研究におけるSAEの一般化,大規模評価の道を開くものである。

A key challenge in interpretability is to decompose model activations into meaningful features. Sparse autoencoders (SAEs) have emerged as a promising tool for this task. However, a central problem in evaluating the quality of SAEs is the absence of ground truth features to serve as an evaluation gold standard. Current evaluation methods for SAEs are therefore confronted with a significant trade-off: SAEs can either leverage toy models or other proxies with predefined ground truth features; or they use extensive prior knowledge of realistic task circuits. The former limits the generalizability of the evaluation results, while the latter limits the range of models and tasks that can be used for evaluations. We introduce SAGE: Scalable Autoencoder Ground-truth Evaluation, a ground truth evaluation framework for SAEs that scales to large state-of-the-art SAEs and models. We demonstrate that our method can automatically identify task-specific activations and compute ground truth features at these points. Compared to previous methods we reduce the training overhead by introducing a novel reconstruction method that allows to apply residual stream SAEs to sublayer activations. This eliminates the need for SAEs trained on every task-specific activation location. Then we validate the scalability of our framework, by evaluating SAEs on novel tasks on Pythia70M, GPT-2 Small, and Gemma-2-2. Our framework therefore paves the way for generalizable, large-scale evaluations of SAEs in interpretability research.
翻訳日:2024-10-31 17:06:37 公開日:2024-10-09
# リチウムイオン電池生成時のサイクル寿命予測のための系統的特徴設計

Systematic Feature Design for Cycle Life Prediction of Lithium-Ion Batteries During Formation ( http://arxiv.org/abs/2410.07458v1 )

ライセンス: Link先を確認
Jinwook Rhyu, Joachim Schaeffer, Michael L. Li, Xiao Cui, William C. Chueh, Martin Z. Bazant, Richard D. Braatz, (参考訳) リチウムイオン電池製造における生成工程の最適化は、固体電解質間相形成の物理的理解が限られており、細胞が寿命に達するまでの長い試験時間(約100日)が困難である。 本稿では,形成期間中の正確なサイクルライフサイクル予測のために,最小限のドメイン知識を必要とする機能設計フレームワークを提案する。 追加の診断サイクルを伴わない生成データから抽出したフレームワークから設計された2つの単純なQ(V)特徴は、サイクルライフサイクル予測において中央値の9.20%の誤差を達成し、事前定義された特徴を用いた数千のオートMLモデルを上回った。 設計した特徴の強い特性は、その物理的起源に起因している。我々のフレームワークによって同定された電圧範囲は、形成温度と微視的粒子抵抗の不均一性の影響を捉えている。 高度に解釈可能な特徴を設計することにより,データ駆動型特徴設計と機械的理解の相互作用を活用することにより,構成研究を加速することができる。

Optimization of the formation step in lithium-ion battery manufacturing is challenging due to limited physical understanding of solid electrolyte interphase formation and the long testing time (~100 days) for cells to reach the end of life. We propose a systematic feature design framework that requires minimal domain knowledge for accurate cycle life prediction during formation. Two simple Q(V) features designed from our framework, extracted from formation data without any additional diagnostic cycles, achieved a median of 9.20% error for cycle life prediction, outperforming thousands of autoML models using pre-defined features. We attribute the strong performance of our designed features to their physical origins - the voltage ranges identified by our framework capture the effects of formation temperature and microscopic particle resistance heterogeneity. By designing highly interpretable features, our approach can accelerate formation research, leveraging the interplay between data-driven feature design and mechanistic understanding.
翻訳日:2024-10-31 17:06:37 公開日:2024-10-09
# 継続的ソフトウェアエンジニアリングにおけるユーザフィードバック - 実践の状況を明らかにする

User Feedback in Continuous Software Engineering: Revealing the State-of-Practice ( http://arxiv.org/abs/2410.07459v1 )

ライセンス: Link先を確認
Anastasiia Tkalich, Eriks Klotins, Tor Sporsem, Viktoria Stray, Nils Brede Moe, Astri Barbala, (参考訳) コンテキスト: インクリメンタルアップデートの継続的デリバリを選択して,不確実性に対処し,ムダを最小限にする。 しかし、継続的エンジニアリング(CSE)のプラクティスを適用するには、顧客とエンドユーザからのインプットを伴う継続的フィードバックループが必要です。 課題: ソフトウェアデリバリサイクルを縮小する上で,従来の要件適用とバリデーションのテクニックを適用することがますます難しくなっています。 同時に、頻繁な配送は大量の使用データを生成し、テレメトリはエンジニアリングチームにエンドユーザの振る舞いを知らせる。 実践者がCSEでユーザフィードバックをどのように扱うかを説明する文献は限られている。 目的: CSEにおけるユーザフィードバックの利用に関する実践状況を検討することを目的とする。 具体的には、どのようなプラクティスが使用されるのか、どのように、そしてこれらのプラクティスの欠点は何か。 方法: 製品開発企業13社の21社のインタビューから質的な調査と報告を行った。 我々は、データ解釈にテーマ解析とクロスケース解析を適用した。 結果: これまでの研究に基づいて, ユーザフィードバックをCSEでどのように活用するかという概念モデルを提案する。 さらに、ユーザフィードバックの継続的な収集と分析に関する課題を報告し、実践における意味を明らかにする。 結論: 企業は質的な方法と定量的手法を組み合わせてエンドユーザの好みを推測します。 同時に、連続的な収集、分析、解釈、決定におけるデータの活用が問題となる。 課題は、適切なメトリクスと分析テクニックの選択、リソースの割り当て、曖昧に定義されたユーザーグループへのアクセスの難しさである。 CSEの実践者に対する私たちのアドバイスは、フィードバックの解釈に十分なリソースと労力を確保することです。

Context: Organizations opt for continuous delivery of incremental updates to deal with uncertainty and minimize waste. However, applying continuous engineering (CSE) practices requires a continuous feedback loop with input from customers and end-users. Challenges: It becomes increasingly challenging to apply traditional requirements elicitation and validation techniques with ever-shrinking software delivery cycles. At the same time, frequent deliveries generate an abundance of usage data and telemetry informing engineering teams of end-user behavior. The literature describing how practitioners work with user feedback in CSE, is limited. Objectives: We aim to explore the state of practice related to utilization of user feedback in CSE. Specifically, what practices are used, how, and the shortcomings of these practices. Method: We conduct a qualitative survey and report analysis from 21 interviews in 13 product development companies. We apply thematic and cross-case analysis to interpret the data. Results: Based on our earlier work we suggest a conceptual model of how user feedback is utilized in CSE. We further report the identified challenges with the continuous collection and analysis of user feedback and identify implications for practice. Conclusions: Companies use a combination of qualitative and quantitative methods to infer end-user preferences. At the same time, continuous collection, analysis, interpretation, and use of data in decisions are problematic. The challenges pertain to selecting the right metrics and analysis techniques, resource allocation, and difficulties in accessing vaguely defined user groups. Our advice to practitioners in CSE is to ensure sufficient resources and effort for interpretation of the feedback, which can be facilitated by telemetry dashboards.
翻訳日:2024-10-31 16:56:23 公開日:2024-10-09
# X線フルオロスコープにおけるガイドワイヤセグメンテーションのためのSim-to-realドメインシフト下の一般化セグメンテーション基礎モデル

Generalizing Segmentation Foundation Model Under Sim-to-real Domain-shift for Guidewire Segmentation in X-ray Fluoroscopy ( http://arxiv.org/abs/2410.07460v1 )

ライセンス: Link先を確認
Yuxuan Wen, Evgenia Roussinova, Olivier Brina, Paolo Machi, Mohamed Bouri, (参考訳) 血管内介入中のガイドワイヤのセグメンテーションは、手続き的精度を著しく向上させ、可視化を改善し、複雑な血管経路をナビゲートする際に医師とロボットシステムの両方をサポートする重要なフィードバックを提供する可能性がある。 多くの高価な専門家アノテートラベルを必要とする教師付きセグメンテーションネットワークとは異なり、sim-to-realドメイン適応アプローチはシミュレーションから合成データを利用し、コスト効率の良いソリューションを提供する。 Segment-Anything (SAM) のようなモデルの成功は、プロンプトエンジニアリングによる強力なゼロ/フェーショットの一般化を伴うイメージセグメンテーション基盤モデルの進歩を促している。 しかし、X線フルオロスコープやデータの領域シフトといった医療画像に苦しむ。 アノテーションの取得とラベル付きシミュレーションデータのアクセシビリティを考慮し、ターゲットドメインにアノテーションを付加せずにSAMを蛍光X線ガイドワイヤに適応させる粗い戦略を持つsim-to-realドメイン適応フレームワークを提案する。 まず、ガイドワイヤ構造を保存するシンプルなソース画像スタイルの転送技術を用いて、擬似ラベルを生成する。 そこで我々は,教師SAMネットワークから,教師SAMネットワークからの整合性正規化と監督を付与して,粗いラベルでエンド・ツー・エンドのSAMを微調整する,弱教師付き自己学習アーキテクチャを開発した。 提案手法は,すでにトレーニング済みのSAMと多くの最先端ドメイン適応技術の両方を大きなマージンで超越した,公用Cardiacデータセットと社内神経血管データセットに対して有効であることを示す。 私たちのコードは近いうちにGitHubで公開される予定です。

Guidewire segmentation during endovascular interventions holds the potential to significantly enhance procedural accuracy, improving visualization and providing critical feedback that can support both physicians and robotic systems in navigating complex vascular pathways. Unlike supervised segmentation networks, which need many expensive expert-annotated labels, sim-to-real domain adaptation approaches utilize synthetic data from simulations, offering a cost-effective solution. The success of models like Segment-Anything (SAM) has driven advancements in image segmentation foundation models with strong zero/few-shot generalization through prompt engineering. However, they struggle with medical images like X-ray fluoroscopy and the domain-shifts of the data. Given the challenges of acquiring annotation and the accessibility of labeled simulation data, we propose a sim-to-real domain adaption framework with a coarse-to-fine strategy to adapt SAM to X-ray fluoroscopy guidewire segmentation without any annotation on the target domain. We first generate the pseudo-labels by utilizing a simple source image style transfer technique that preserves the guidewire structure. Then, we develop a weakly supervised self-training architecture to fine-tune an end-to-end student SAM with the coarse labels by imposing consistency regularization and supervision from the teacher SAM network. We validate the effectiveness of the proposed method on a publicly available Cardiac dataset and an in-house Neurovascular dataset, where our method surpasses both pre-trained SAM and many state-of-the-art domain adaptation techniques by a large margin. Our code will be made public on GitHub soon.
翻訳日:2024-10-31 16:56:23 公開日:2024-10-09
# C4データセットはプルーニングに最適か? : LLMプルーニングの校正データの検討

Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning ( http://arxiv.org/abs/2410.07461v1 )

ライセンス: Link先を確認
Abhinav Bandari, Lu Yin, Cheng-Yu Hsieh, Ajay Kumar Jaiswal, Tianlong Chen, Li Shen, Ranjay Krishna, Shiwei Liu, (参考訳) LLMのデプロイを安くするための潜在的なソリューションとして、ネットワークプルーニングが登場した。 しかし、既存のLCMプルーニングアプローチは、プルーニングスコアを計算するためのキャリブレーションデータとしてC4データセットを普遍的に頼りにしており、その最適性は未探索のままである。 本研究では,9つのデータセットを含む3つの下流タスクのカテゴリを含む,LLMトレーニングおよび評価において最もよく使用される幅広いデータセットを対象に,LLMプルーニングにおけるキャリブレーションデータの選択を評価した。 各下流データセットは、それぞれICL(In-Context Learning)とCoT(Chain-of-Thought)でトリガーされる。 キャリブレーションデータの選択がプルーニングLLMの性能に著しく影響を及ぼすという、すでに興味深い観察に加えて、我々は、(1)C4はトレーニング前データセットの中でもLLMプルーニングの最適選択ではない、(2)キャリブレーションデータとして使われる場合、プリトレーニング前のデータセットよりも同等かそれ以上の処理を行う、(3)下流データセットによるプルーニングは、事前トレーニングデータと比較して、対応するダウンストリームタスクに役立つとは限らない、(4)ICLは、すべてのデータカテゴリに対して広く有用であるが、CoTは特定のタスクでのみ有用である、という、いくつかの微妙でしばしば予期せぬ結果も明らかにした。 本研究は,LLM刈り込みにおけるキャリブレーションデータの選択を慎重に行うことの重要性に注目し,これらの強力なモデルを現実のアプリケーションにより効率的に展開する方法について検討した。 https://github.com/abx393/llm-pruning-calibration-data。

Network pruning has emerged as a potential solution to make LLMs cheaper to deploy. However, existing LLM pruning approaches universally rely on the C4 dataset as the calibration data for calculating pruning scores, leaving its optimality unexplored. In this study, we evaluate the choice of calibration data on LLM pruning, across a wide range of datasets that are most commonly used in LLM training and evaluation, including four pertaining datasets as well as three categories of downstream tasks encompassing nine datasets. Each downstream dataset is prompted with In-Context Learning (ICL) and Chain-of-Thought (CoT), respectively. Besides the already intriguing observation that the choice of calibration data significantly impacts the performance of pruned LLMs, our results also uncover several subtle and often unexpected findings, summarized as follows: (1) C4 is not the optimal choice for LLM pruning, even among commonly used pre-training datasets; (2) arithmetic datasets, when used as calibration data, performs on par or even better than pre-training datasets; (3) pruning with downstream datasets does not necessarily help the corresponding downstream task, compared to pre-training data; (4) ICL is widely beneficial to all data categories, whereas CoT is only useful on certain tasks. Our findings shed light on the importance of carefully selecting calibration data for LLM pruning and pave the way for more efficient deployment of these powerful models in real-world applications. We release our code at: https://github.com/abx393/llm-pruning-calibration-data.
翻訳日:2024-10-31 16:56:23 公開日:2024-10-09
# ワンショット適応による言語誘導型共同音声画像編集

Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation ( http://arxiv.org/abs/2410.07463v1 )

ライセンス: Link先を確認
Susan Liang, Chao Huang, Yapeng Tian, Anurag Kumar, Chenliang Xu, (参考訳) 本稿では,言語誘導型共同視覚編集という新しい課題を紹介する。 この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。 例えば、発音対象の背景環境を外見を変更せずに変更したり、視覚的内容に文脈化された新しい音を付加したりすることができる。 この課題に対処するために,共同音声視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。 まず,音声・視覚コンテンツ編集のための生成拡散モデルに対する一括適応手法を提案する。 音声と視覚の拡散モデルとを同時に対象領域に転送する。 微調整後、本モデルにより、この音声視覚サンプルを一貫した生成が可能となる。 次に、モーダル間セマンティックエンハンスメント手法を提案する。 我々は、言語をコンテンツ編集指導として使用する場合、ビジョンブランチは編集要求を無視する可能性があることを観察する。 この現象は破滅的な無視と呼ばれ、コンテンツ編集中にオーディオと視覚のアライメントを損なう。 したがって、この問題を軽減するために言語とビジョン間のセマンティックな一貫性を高めます。 言語ベースの音声視覚編集における本手法の有効性を検証し,いくつかのベースラインアプローチよりもその優位性を強調した。 詳細については、読者がプロジェクトページを参照することをお勧めします。

In this paper, we introduce a novel task called language-guided joint audio-visual editing. Given an audio and image pair of a sounding event, this task aims at generating new audio-visual content by editing the given sounding event conditioned on the language guidance. For instance, we can alter the background environment of a sounding object while keeping its appearance unchanged, or we can add new sounds contextualized to the visual content. To address this task, we propose a new diffusion-based framework for joint audio-visual editing and introduce two key ideas. Firstly, we propose a one-shot adaptation approach to tailor generative diffusion models for audio-visual content editing. With as few as one audio-visual sample, we jointly transfer the audio and vision diffusion models to the target domain. After fine-tuning, our model enables consistent generation of this audio-visual sample. Secondly, we introduce a cross-modal semantic enhancement approach. We observe that when using language as content editing guidance, the vision branch may overlook editing requirements. This phenomenon, termed catastrophic neglect, hampers audio-visual alignment during content editing. We therefore enhance semantic consistency between language and vision to mitigate this issue. Extensive experiments validate the effectiveness of our method in language-based audio-visual editing and highlight its superiority over several baseline approaches. We recommend that readers visit our project page for more details: https://liangsusan-git.github.io/project/avedit/.
翻訳日:2024-10-31 16:56:23 公開日:2024-10-09
# 深層学習に基づく天気予報システムの設計空間の探索

Exploring the design space of deep-learning-based weather forecasting systems ( http://arxiv.org/abs/2410.07472v1 )

ライセンス: Link先を確認
Shoaib Ahmed Siddiqui, Jean Kossaifi, Boris Bonev, Christopher Choy, Jan Kautz, David Krueger, Kamyar Azizzadenesheli, (参考訳) 深層学習に基づく天気予報システムの開発において、大きな進歩があったにもかかわらず、そのデザイン空間は、異なる設計選択の影響を含め、まだよく理解されていない。 本稿では、アーキテクチャ、問題定式化、事前学習方式、画像ベース事前学習モデルの使用、損失関数、ノイズ注入、マルチステップ入力、追加の静的マスク、マルチステップ微調整(より大きなストライドモデルを含む)、およびより大きなデータセットのトレーニングを含むこれらの選択を体系的に分析することによって、この知識ギャップを埋めることを目的とする。 グラフベースおよび演算子ベースモデルを含むグリッド不変アーキテクチャとともに、UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。 この結果から, ニューラルネットワークなどのグリッド不変モデルにおいて, グリッド不変アーキテクチャはグリッド不変アーキテクチャよりも優れており, さらなるアーキテクチャ開発の必要性が示唆された。 そこで我々は,固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。 さらに、多くのディープラーニングモデルが実践的にうまく機能するためには、マルチステップの微調整が不可欠であることを示す。 事前学習の目的は、教師付きトレーニングと比較して性能が低下する一方、画像ベースの事前学習モデルは、スクラッチからモデルをトレーニングするよりも、いくつかのケースにおいて有益な帰納的バイアスをもたらす。 興味深いことに、より小さなデータセットでのトレーニングと比較して、より小さなモデルをトレーニングする際に、より大きなデータセットを使用することによる強いポジティブな効果が見られます。 一方、より大きなモデルは、主に計算予算の増加の恩恵を受ける。 これらの結果は、将来の天気予報システムの設計に役立つと信じている。

Despite tremendous progress in developing deep-learning-based weather forecasting systems, their design space, including the impact of different design choices, is yet to be well understood. This paper aims to fill this knowledge gap by systematically analyzing these choices including architecture, problem formulation, pretraining scheme, use of image-based pretrained models, loss functions, noise injection, multi-step inputs, additional static masks, multi-step finetuning (including larger stride models), as well as training on a larger dataset. We study fixed-grid architectures such as UNet, fully convolutional architectures, and transformer-based models, along with grid-invariant architectures, including graph-based and operator-based models. Our results show that fixed-grid architectures outperform grid-invariant architectures, indicating a need for further architectural developments in grid-invariant models such as neural operators. We therefore propose a hybrid system that combines the strong performance of fixed-grid models with the flexibility of grid-invariant architectures. We further show that multi-step fine-tuning is essential for most deep-learning models to work well in practice, which has been a common practice in the past. Pretraining objectives degrade performance in comparison to supervised training, while image-based pretrained models provide useful inductive biases in some cases in comparison to training the model from scratch. Interestingly, we see a strong positive effect of using a larger dataset when training a smaller model as compared to training on a smaller dataset for longer. Larger models, on the other hand, primarily benefit from just an increase in the computational budget. We believe that these results will aid in the design of better weather forecasting systems in the future.
翻訳日:2024-10-31 16:56:23 公開日:2024-10-09
# 帰属的テキスト生成における因果的不整合の局在化

Localizing Factual Inconsistencies in Attributable Text Generation ( http://arxiv.org/abs/2410.07473v1 )

ライセンス: Link先を確認
Arie Cattan, Paul Roit, Shiyue Zhang, David Wan, Roee Aharoni, Idan Szpektor, Mohit Bansal, Ido Dagan, (参考訳) モデル生成テキストの幻覚を、手動でも自動でも、さまざまな粒度で検出することへの関心が高まっている。 しかし、既存のほとんどのメソッドはエラーを正確に特定することができない。 本研究では,帰属可能なテキスト生成における事実の不整合を微粒なレベルでローカライズする新たな形式であるQASemConsistencyを紹介する。 新ダビッドソンの形式的意味論からインスピレーションを得て、生成したテキストを最小の述語レベルの命題に分解し、単純な質問応答(QA)ペアとして表現し、各QAペアが信頼された参照テキストでサポートされているかどうかを評価する。 各QAペアは述語と引数の間の単一の意味関係に対応するので、QASemConsistencyはサポートされていない情報を効果的にローカライズする。 まず, 人的アノテーションに対するQASemConsistency法の有効性を, 粒度の整合性エラーのクラウドソースアノテーションを収集し, 実質的なアノテーション間合意(\kappa > 0.7)$を達成した。 そこで我々は, 教師付きエンターメントモデルとオープンソースLLMの両方を用いて, 局所的な事実不整合を自動的に検出する複数の手法を実装した。

There has been an increasing interest in detecting hallucinations in model-generated texts, both manually and automatically, at varying levels of granularity. However, most existing methods fail to precisely pinpoint the errors. In this work, we introduce QASemConsistency, a new formalism for localizing factual inconsistencies in attributable text generation, at a fine-grained level. Drawing inspiration from Neo-Davidsonian formal semantics, we propose decomposing the generated text into minimal predicate-argument level propositions, expressed as simple question-answer (QA) pairs, and assess whether each individual QA pair is supported by a trusted reference text. As each QA pair corresponds to a single semantic relation between a predicate and an argument, QASemConsistency effectively localizes the unsupported information. We first demonstrate the effectiveness of the QASemConsistency methodology for human annotation, by collecting crowdsourced annotations of granular consistency errors, while achieving a substantial inter-annotator agreement ($\kappa > 0.7)$. Then, we implement several methods for automatically detecting localized factual inconsistencies, with both supervised entailment models and open-source LLMs.
翻訳日:2024-10-31 16:56:23 公開日:2024-10-09
# ロバスト3次元物体検出のためのプログレッシブ・マルチモーダル融合

Progressive Multi-Modal Fusion for Robust 3D Object Detection ( http://arxiv.org/abs/2410.07475v1 )

ライセンス: Link先を確認
Rohit Mohan, Daniele Cattaneo, Florian Drews, Abhinav Valada, (参考訳) マルチセンサー融合は、自律走行において正確な3Dオブジェクト検出に不可欠であり、カメラとLiDARが最も一般的に使用されるセンサーである。 しかし、既存の方法では、Bird's Eye View (BEV) または Perspective View (PV) の両モードから特徴を投影することで、単一ビューでのセンサフュージョンを行うため、高さや幾何比といった相補的な情報を犠牲にすることができる。 この制限に対処するため,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。 我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3Dオブジェクト検出の堅牢性を高める。 さらに,マルチモーダル表現学習とデータ効率を3つの新しい目的を通じて向上させるための,自己教師型マスクモデリング事前学習戦略を導入する。 nuScenesとArgoverse2データセットに関する大規模な実験は、ProFusion3Dの有効性を決定的に実証した。 さらに、ProFusion3Dはセンサーの故障に対して堅牢で、1つのモードしか利用できない場合に強い性能を示す。

Multi-sensor fusion is crucial for accurate 3D object detection in autonomous driving, with cameras and LiDAR being the most commonly used sensors. However, existing methods perform sensor fusion in a single view by projecting features from both modalities either in Bird's Eye View (BEV) or Perspective View (PV), thus sacrificing complementary information such as height or geometric proportions. To address this limitation, we propose ProFusion3D, a progressive fusion framework that combines features in both BEV and PV at both intermediate and object query levels. Our architecture hierarchically fuses local and global features, enhancing the robustness of 3D object detection. Additionally, we introduce a self-supervised mask modeling pre-training strategy to improve multi-modal representation learning and data efficiency through three novel objectives. Extensive experiments on nuScenes and Argoverse2 datasets conclusively demonstrate the efficacy of ProFusion3D. Moreover, ProFusion3D is robust to sensor failure, demonstrating strong performance when only one modality is available.
翻訳日:2024-10-31 16:56:23 公開日:2024-10-09
# スピン量子ビットアレイを用いた貯水池計算における散逸の影響

Effects of dissipation in reservoir computing using a spin qubit array ( http://arxiv.org/abs/2410.07481v1 )

ライセンス: Link先を確認
Shion Mifune, Taro Kanao, Tetsufumi Tanamoto, (参考訳) 貯留層コンピューティング(Reservoir Computing, RC)は、多くの物理デバイスの応用として最も熱い研究トピックの1つである。 量子RCは小数量子ビット系への応用にも有望な候補である。 本稿では,スピン量子ビット系に基づく量子RCを提案する。 スピン量子ビットはハイゼンベルク相互作用を介して結合され、データシーケンスはパルス回転によってスピン量子ビットの1つに入力される。 散逸を導入することにより,量子RCの性能は比較的良好であった。

Reservoir computing (RC) is one of the hottest research topic as an application of many physical devices because the device characteristics can be used directly in computing sequences. Quantum RC is also a promising candidate for application in small-number qubit systems. Here, we propose a quantum RC based on the spin qubit system that reflects the status of the spin qubits in experiments comprising a one-dimensional qubit array. Spin qubits are coupled via the Heisenberg interaction, and data sequences are inputted to one of the spin qubits via pulsed rotations. By introducing dissipation, we obtained a relatively good performance in the quantum RC.
翻訳日:2024-10-31 16:56:23 公開日:2024-10-09
# Gem:数値的特徴分布のためのガウス混合モデル埋め込み

Gem: Gaussian Mixture Model Embeddings for Numerical Feature Distributions ( http://arxiv.org/abs/2410.07485v1 )

ライセンス: Link先を確認
Hafiz Tayyab Rauf, Alex Bogatu, Norman W. Paton, Andre Freitas, (参考訳) 埋め込みは、エンティティ解決、データセット検索、セマンティック型検出など、さまざまなデータ管理タスクの基盤となっている。 このようなアプリケーションは、しばしば数値列を持つデータセットを含むが、数値データの特異な特徴よりも、埋め込みにおける分類データのセマンティクスに重点を置いている。 本稿では,列からの数値分布に基づく埋め込みを生成するGem (Gaussian Mixed Model Embeddings) という手法を提案する。 提案手法はガウス混合モデル(GMM)を用いて,類似した値分布を持つ列の同定とクラスタ化を行う。 本稿では,各列に対して確率行列を生成するシグネチャ機構を導入し,特定のガウス成分に属する確率を示す。 最後に、分布、統計、文脈の3つの数値データ特性に対する埋め込みを生成する。 本手法は,テーブル名や隣接する列を文脈に用いることなく,数値列にのみ焦点をあてる。 しかし,本手法は他の種類のエビデンスと組み合わせることができ,その後ガウス埋め込みと属性名を統合することにより,本手法の全体的な性能向上への寄与を評価することができる。 Gemと、数値のみと数値+コンテキストタスクのベースラインメソッドを比較し、Gemが4つのベンチマークデータセットのベースラインを一貫して上回っていることを示す。

Embeddings are now used to underpin a wide variety of data management tasks, including entity resolution, dataset search and semantic type detection. Such applications often involve datasets with numerical columns, but there has been more emphasis placed on the semantics of categorical data in embeddings than on the distinctive features of numerical data. In this paper, we propose a method called Gem (Gaussian mixture model embeddings) that creates embeddings that build on numerical value distributions from columns. The proposed method specializes a Gaussian Mixture Model (GMM) to identify and cluster columns with similar value distributions. We introduce a signature mechanism that generates a probability matrix for each column, indicating its likelihood of belonging to specific Gaussian components, which can be used for different applications, such as to determine semantic types. Finally, we generate embeddings for three numerical data properties: distributional, statistical, and contextual. Our core method focuses solely on numerical columns without using table names or neighboring columns for context. However, the method can be combined with other types of evidence, and we later integrate attribute names with the Gaussian embeddings to evaluate the method's contribution to improving overall performance. We compare Gem with several baseline methods for numeric only and numeric + context tasks, showing that Gem consistently outperforms the baselines on four benchmark datasets.
翻訳日:2024-10-31 16:56:23 公開日:2024-10-09
# MoDEM: ドメインエキスパートモデルの混合

MoDEM: Mixture of Domain Expert Models ( http://arxiv.org/abs/2410.07490v1 )

ライセンス: Link先を確認
Toby Simonds, Kemal Kurniawan, Jey Han Lau, (参考訳) 本稿では,ドメインプロンプトルーティングとドメイン特化モデルを組み合わせることで,大規模言語モデル(LLM)の性能と効率を向上させる新しい手法を提案する。 本稿では、BERTベースのルータを用いて、最も適切なドメインエキスパートモデルに入力プロンプトを指示するシステムを提案する。 これらの専門家モデルは、健康、数学、科学などの分野に特化している。 我々の研究は、このアプローチが同等の大きさの汎用モデルよりも大幅に優れており、様々なベンチマークで性能とコストの比が優れていることを実証している。 本研究の意義は, LLM の開発と展開におけるパラダイムシフトの可能性を示している。 AIの未来は、ますます大規模で汎用的なモデルを作ることに集中するのではなく、より小型で高度に専門化されたモデルと高度なルーティングシステムを組み合わせたエコシステムの開発にあるかもしれない。 このアプローチは、より効率的な資源利用、計算コストの削減、全体的なパフォーマンスの向上につながる可能性がある。

We propose a novel approach to enhancing the performance and efficiency of large language models (LLMs) by combining domain prompt routing with domain-specialized models. We introduce a system that utilizes a BERT-based router to direct incoming prompts to the most appropriate domain expert model. These expert models are specifically tuned for domains such as health, mathematics and science. Our research demonstrates that this approach can significantly outperform general-purpose models of comparable size, leading to a superior performance-to-cost ratio across various benchmarks. The implications of this study suggest a potential paradigm shift in LLM development and deployment. Rather than focusing solely on creating increasingly large, general-purpose models, the future of AI may lie in developing ecosystems of smaller, highly specialized models coupled with sophisticated routing systems. This approach could lead to more efficient resource utilization, reduced computational costs, and superior overall performance.
翻訳日:2024-10-31 16:46:37 公開日:2024-10-09
# テキストアプリケーションへの音声に対するトランスデューサの整合性正規化

Transducer Consistency Regularization for Speech to Text Applications ( http://arxiv.org/abs/2410.07491v1 )

ライセンス: Link先を確認
Cindy Tseng, Yun Tang, Vijendra Raj Apsingekar, (参考訳) 一貫性の正規化は、モデルを歪んだ入力特徴から一貫した表現を生成し、モデルの一般化を改善するために一般的に用いられるプラクティスである。 クロスエントロピー基準に最適化された様々な音声アプリケーションにおいて、顕著な改善が示される。 しかし、競合性能とストリーミング特性のため、音声アプリケーションに広く採用されているトランスデューサベースのアプローチに対して、一貫性の正則化を適用することは容易ではない。 主な課題は、トランスデューサ最適化基準の広大なアライメント空間からであり、空間内のすべてのアライメントがモデル最適化に等しく寄与するわけではない。 本研究では,トランスデューサモデルの整合正則化手法であるTransducer Consistency Regularization (TCR)を提案する。 仕様拡張やドロップアウトなどの歪みを適用して、異なるデータビューを作成し、分散差を最小限にする。 作業確率を利用してトランスデューサ出力分布に異なる重みを与えるので、オラクルアライメントに近いアライメントのみがモデル学習に寄与する。 実験の結果,提案手法は他の整合正規化実装よりも優れており,textsc{Librispeech}データセットの強いベースラインと比較して,単語誤り率(WER)を4.3 %削減できることがわかった。

Consistency regularization is a commonly used practice to encourage the model to generate consistent representation from distorted input features and improve model generalization. It shows significant improvement on various speech applications that are optimized with cross entropy criterion. However, it is not straightforward to apply consistency regularization for the transducer-based approaches, which are widely adopted for speech applications due to the competitive performance and streaming characteristic. The main challenge is from the vast alignment space of the transducer optimization criterion and not all the alignments within the space contribute to the model optimization equally. In this study, we present Transducer Consistency Regularization (TCR), a consistency regularization method for transducer models. We apply distortions such as spec augmentation and dropout to create different data views and minimize the distribution difference. We utilize occupational probabilities to give different weights on transducer output distributions, thus only alignments close to oracle alignments would contribute to the model learning. Our experiments show the proposed method is superior to other consistency regularization implementations and could effectively reduce word error rate (WER) by 4.3\% relatively comparing with a strong baseline on the \textsc{Librispeech} dataset.
翻訳日:2024-10-31 16:46:37 公開日:2024-10-09
# UAV画像における効率的なバナナプランテーションセグメンテーションのための反復最適化アノテーションパイプラインとALSS-YOLO-Seg

Iterative Optimization Annotation Pipeline and ALSS-YOLO-Seg for Efficient Banana Plantation Segmentation in UAV Imagery ( http://arxiv.org/abs/2410.07955v1 )

ライセンス: Link先を確認
Ang He, Ximei Wu, Xing Xu, Jing Chen, Xiaobin Guo, Sheng Xu, (参考訳) バナナプランテーションにおける収穫量推定や植物健康評価などのタスクにおいて,無人航空機(UAV)の精密セグメンテーションが重要な役割を担っている。 耕作地を特定して分類することにより、正確な収量予測には欠かせない作物面積を計算することができる。 しかし、バナナプランテーションシーンのセグメンテーションには大量の注釈付きデータが必要であり、これらの画像の手動ラベリングには時間と労力がかかり、大規模なデータセットの開発が制限される。 さらに, ターゲットサイズ, 複雑な背景, 限られた計算資源, 作物カテゴリーの正確な識別といった課題により, セグメンテーションがさらに困難になる。 これらの問題に対処するため、我々は包括的な解決策を提案した。 まず、SAM2のゼロショット機能を活用して、高品質なセグメンテーションアノテーションを生成する反復最適化アノテーションパイプラインを設計し、データアノテーションに関連するコストと時間を大幅に削減した。 次に,UAV画像に最適化された効率的な軽量セグメンテーションモデルであるALSS-YOLO-Segを開発した。 モデルのバックボーンには、チャネル間の情報交換を改善し、特徴抽出を最適化し、正確な作物識別を支援するアダプティブ・ライトウェイト・チャネル・スプリッティング・シャッフルング(ALSS)モジュールが含まれている。 さらに、マルチスケールチャネル注意(MSCA)モジュールは、様々なターゲットサイズと複雑な背景の課題に取り組むために、マルチスケールの特徴抽出とチャンネルアテンションを組み合わせる。

Precise segmentation of Unmanned Aerial Vehicle (UAV)-captured images plays a vital role in tasks such as crop yield estimation and plant health assessment in banana plantations. By identifying and classifying planted areas, crop area can be calculated, which is indispensable for accurate yield predictions. However, segmenting banana plantation scenes requires a substantial amount of annotated data, and manual labeling of these images is both time-consuming and labor-intensive, limiting the development of large-scale datasets. Furthermore, challenges such as changing target sizes, complex ground backgrounds, limited computational resources, and correct identification of crop categories make segmentation even more difficult. To address these issues, we proposed a comprehensive solution. Firstly, we designed an iterative optimization annotation pipeline leveraging SAM2's zero-shot capabilities to generate high-quality segmentation annotations, thereby reducing the cost and time associated with data annotation significantly. Secondly, we developed ALSS-YOLO-Seg, an efficient lightweight segmentation model optimized for UAV imagery. The model's backbone includes an Adaptive Lightweight Channel Splitting and Shuffling (ALSS) module to improve information exchange between channels and optimize feature extraction, aiding accurate crop identification. Additionally, a Multi-Scale Channel Attention (MSCA) module combines multi-scale feature extraction with channel attention to tackle challenges of varying target sizes and complex ground backgrounds.
翻訳日:2024-10-31 13:53:52 公開日:2024-10-09
# 複合学習ユニット: LLMを適応共振器に変換するためのパラメータ更新を超えた一般化学習

Composite Learning Units: Generalized Learning Beyond Parameter Updates to Transform LLMs into Adaptive Reasoners ( http://arxiv.org/abs/2410.08037v1 )

ライセンス: Link先を確認
Santosh Kumar Radha, Oktay Goktas, (参考訳) ヒューマンラーニングは、ミスから学び、フィードバックを通じて適応し、静的機械学習モデルに欠落する理解プロセスを洗練する能力に長けている。 本研究では,Large Language Models (LLMs) などの推論器を,従来のパラメータ更新を伴わずに一般化された連続学習が可能な学習者へ変換し,連続的な相互作用やフィードバックを通じて推論能力を向上する複合学習ユニット (CLUs) を提案する。 CLUは、動的知識リポジトリの維持と進化を可能にするアーキテクチャ上に構築されており、広範囲で再利用可能な洞察のための一般的な知識空間と、タスク固有の学習のためのPmpt-Specific Knowledge Spaceである。 目標駆動インタラクションを通じて、CLUはこれらの知識空間を反復的に洗練し、システムが複雑なタスクに動的に適応し、ニュアンスのある洞察を抽出し、過去の経験を自律的に構築することを可能にする。 我々は暗号推論タスクを通じてCLUの有効性を実証し、フィードバックを通じて理解を継続的に進化させ、隠れた変換規則を明らかにする。 従来のモデルは、基礎となる論理を理解するのに苦労するが、CLUは反復的でゴール指向のプロセスに従事することで優れている。 強化フィードバックループ内でのコンポーネント処理知識検索,プロンプト生成,フィードバック分析を併用する。 このアプローチにより、CLUは過去の失敗や成功の記憶を保ち、自律的に適応し、洗練された推論を効果的に適用し、失敗から継続的に学び、ブレークスルーの上に構築することが可能になる。

Human learning thrives on the ability to learn from mistakes, adapt through feedback, and refine understanding-processes often missing in static machine learning models. In this work, we introduce Composite Learning Units (CLUs) designed to transform reasoners, such as Large Language Models (LLMs), into learners capable of generalized, continuous learning without conventional parameter updates while enhancing their reasoning abilities through continual interaction and feedback. CLUs are built on an architecture that allows a reasoning model to maintain and evolve a dynamic knowledge repository: a General Knowledge Space for broad, reusable insights and a Prompt-Specific Knowledge Space for task-specific learning. Through goal-driven interactions, CLUs iteratively refine these knowledge spaces, enabling the system to adapt dynamically to complex tasks, extract nuanced insights, and build upon past experiences autonomously. We demonstrate CLUs' effectiveness through a cryptographic reasoning task, where they continuously evolve their understanding through feedback to uncover hidden transformation rules. While conventional models struggle to grasp underlying logic, CLUs excel by engaging in an iterative, goal-oriented process. Specialized components-handling knowledge retrieval, prompt generation, and feedback analysis-work together within a reinforcing feedback loop. This approach allows CLUs to retain the memory of past failures and successes, adapt autonomously, and apply sophisticated reasoning effectively, continually learning from mistakes while also building on breakthroughs.
翻訳日:2024-10-31 05:45:06 公開日:2024-10-09
# 不完全な時空間データであっても効率的なシアノバクテリアの開花を予測できるLSTMネットワーク

LSTM networks provide efficient cyanobacterial blooms forecasting even with incomplete spatio-temporal data ( http://arxiv.org/abs/2410.08237v1 )

ライセンス: Link先を確認
Claudia Fournier, Raul Fernandez-Fernandez, Samuel Cirés, José A. López-Orozco, Eva Besada-Portas, Antonio Quesada, (参考訳) シアノバクテリウム(Cyanobacteria)は、特に毒素産生株が優占する場合に、生態系の機能と水質を脅かし、内陸海域で最も多く優占する藻類である。 人為的活動と地球温暖化により、シアノバクテリアの花は、頻度と世界的な分布が増加することが期待されている。 シアノバクテリアの早期警戒システム(EWS)は、管理対策のタイムリーな実施を可能にし、これらの発芽に関連するリスクを低減させる。 本稿では, シアノバクテリアの発芽予測に有効なEWSを提案し, フィコシアニン (PC) 蛍光をシアノバクテリアの代用剤として用いた, マルチパラメトリックプローブからの6年間の非完全高周波時空間データを用いた。 このデータを前処理し,シアノバクテリアの開花予測に特有の時系列を生成するために,プローブ非依存かつ複製可能な手法を提案する。 これらの前処理データを用いて、線形回帰(Linear Regression)、ランダムフォレスト(Random Forest)、長期短期ニューラルネットワーク(Long-Term Short-Term)の自己回帰型と多変量型を含む6種類の非サイト/種別予測モデルを比較した。 その結果,PC値の回帰指標 (MSE, R2, MAPE) と10 ug PC/Lのアラームレベルの分類指標 (Accuracy, F1, Kappa) と,変位した信号(スキル)の予測改善を計測する予測特異的指標を組み合わせたハイブリッドシステムを用いて,4日から28日間の予測時間地平線を解析した。 LSTMの多変量版は、全ての予測水平線と測度で最良の、最も一貫した結果を示し、提案したPCアラームレベルの予測において最大90%の精度を達成した。 また,前16日から28日間のシアノバクテリアの開花予測に有意な効果を示した。

Cyanobacteria are the most frequent dominant species of algal blooms in inland waters, threatening ecosystem function and water quality, especially when toxin-producing strains predominate. Enhanced by anthropogenic activities and global warming, cyanobacterial blooms are expected to increase in frequency and global distribution. Early warning systems (EWS) for cyanobacterial blooms development allow timely implementation of management measures, reducing the risks associated to these blooms. In this paper, we propose an effective EWS for cyanobacterial bloom forecasting, which uses 6 years of incomplete high-frequency spatio-temporal data from multiparametric probes, including phycocyanin (PC) fluorescence as a proxy for cyanobacteria. A probe agnostic and replicable method is proposed to pre-process the data and to generate time series specific for cyanobacterial bloom forecasting. Using these pre-processed data, six different non-site/species-specific predictive models were compared including the autoregressive and multivariate versions of Linear Regression, Random Forest, and Long-Term Short-Term (LSTM) neural networks. Results were analyzed for seven forecasting time horizons ranging from 4 to 28 days evaluated with a hybrid system that combined regression metrics (MSE, R2, MAPE) for PC values, classification metrics (Accuracy, F1, Kappa) for a proposed alarm level of 10 ug PC/L, and a forecasting-specific metric to measure prediction improvement over the displaced signal (skill). The multivariate version of LSTM showed the best and most consistent results across all forecasting horizons and metrics, achieving accuracies of up to 90% in predicting the proposed PC alarm level. Additionally, positive skill values indicated its outstanding effectiveness to forecast cyanobacterial blooms from 16 to 28 days in advance.
翻訳日:2024-10-31 04:26:09 公開日:2024-10-09
# NetDiff: アドホックネットワークトポロジ生成のためのディープグラフの拡散

NetDiff: Deep Graph Denoising Diffusion for Ad Hoc Network Topology Generation ( http://arxiv.org/abs/2410.08238v1 )

ライセンス: Link先を確認
Félix Marcoccia, Cédric Adjih, Paul Mühlethaler, (参考訳) この研究は、無線アドホックネットワークリンクトポロジーを生成する拡散確率的アーキテクチャを記述した表現グラフであるNetDiffを紹介する。 指向性アンテナを用いたこのようなネットワークは、通信リンクが優れた幾何学的性質を提供するように設計されている場合、特に様々な物理的制約を尊重しながらこれらのリンク間の干渉を減らすことで、整合性のない性能を達成することができる。 このようなリンク割り当てアルゴリズムの作り方はまだ現実の問題である。 ディープグラフ生成は、従来のアプローチと比較して、有効なリンク探索による通信負荷のネットワークノードを緩和し、優れたリンクトポロジを見つけるために重い組合せ手法に頼らないようにする。 デノイング拡散はまた、時間とともにネットワークを更新するビルトイン方式も提供する。 グラフニューラルネットワークは、時としてグローバルで構造的な特性に苦しむ傾向があるため、予測トポロジのグローバルコントロールを改善するために、クロスアテンティブな変調トークンで人気のあるグラフトランスフォーマーを拡張する。 また、ネットワークトポロジの物理的制約への準拠を容易にするために、単純なノードとエッジの機能と、追加の損失項も組み込んでいます。 部分拡散に基づくネットワーク進化アルゴリズムも提案され、ノードが移動する時間とともに安定したネットワークトポロジーが維持される。 この結果から,生成したリンクは現実的であり,データセットグラフに類似した構造的特性を有しており,操作するには小さな修正と検証ステップのみが必要であることがわかった。

This work introduces NetDiff, an expressive graph denoising diffusion probabilistic architecture that generates wireless ad hoc network link topologies. Such networks, with directional antennas, can achieve unmatched performance when the communication links are designed to provide good geometric properties, notably by reducing interference between these links while respecting diverse physical constraints. How to craft such a link assignment algorithm is yet a real problem. Deep graph generation offers multiple advantages compared to traditional approaches: it allows to relieve the network nodes of the communication burden caused by the search of viable links and to avoid resorting to heavy combinatorial methods to find a good link topology. Denoising diffusion also provides a built-in method to update the network over time. Given that graph neural networks sometimes tend to struggle with global, structural properties, we augment the popular graph transformer with cross-attentive modulation tokens in order to improve global control over the predicted topology. We also incorporate simple node and edge features, as well as additional loss terms, to facilitate the compliance with the network topology physical constraints. A network evolution algorithm based on partial diffusion is also proposed to maintain a stable network topology over time when the nodes move. Our results show that the generated links are realistic, present structural properties similar to the dataset graphs', and require only minor corrections and verification steps to be operational.
翻訳日:2024-10-31 04:26:09 公開日:2024-10-09
# オープン量子力学とメモリの統合フレームワーク」へのコメント

Comment on "Unified framework for open quantum dynamics with memory" ( http://arxiv.org/abs/2410.08239v1 )

ライセンス: Link先を確認
Nancy Makri, Sohang Kundu, Zhenning Cai, Geshuo Wang, (参考訳) Ivander, Lindoy and Lee (Nature Communications 15, 8087 (2024)) による最近の論文は、一般化量子マスター方程式 (GQME) と調和浴に結合した系の経路積分の関係を発見すると主張している。 しかし、この関係はすでに2020年にマクリによって経路積分(SMatPI)の小さな行列分解(J. Chem. Theory and Comput. 16, 4038 (2020)))の文脈で確立された。 本稿では,サプリメント情報(SI)を用いて,代替トロッター順序付けのためのSMatPI分解手順に従う。 還元密度行列(RDM)に対する離散化GQME表現のカーネル行列における終端効果の欠如は粗いGQME離散化の結果であり、SIに示される補助行列のSMatPI分解と一致しない。 この形式はチェリロと曹の転写テンソル法(TTM)と同一である[Phys. Rev. Lett. 112, 110401 (2014)]。 さらに,本論文のDyckパスセクションは,Wang と Cai による最近の論文 (Communications in Computational Physics 36, 389 (2024)] において,正確に図式解析を行った。 このコメントでこれらの3つの批判について詳しく述べる。

A recent article by Ivander, Lindoy and Lee [Nature Communications 15, 8087 (2024)] claims to discover the relationship between the generalized quantum master equation (GQME) and the path integral for a system coupled to a harmonic bath. However, this relationship was already established in 2020 by Makri in the context of the small matrix decomposition of the path integral (SMatPI) [J. Chem. Theory and Comput. 16, 4038 (2020)]. The procedure that this article uses in its Supplementary Information (SI) to obtain the various matrices follows the SMatPI decomposition steps for the alternative Trotter ordering. The absence of endpoint effects in the kernel matrices of the discretized GQME expression for the reduced density matrix (RDM) is the consequence of a crude GQME discretization and is not consistent with the SMatPI decomposition of an auxiliary matrix presented in the SI. This form is identical to the transfer tensor method (TTM) of Cerrillo and Cao [Phys. Rev. Lett. 112, 110401 (2014)]. Further, the Dyck path section of this article follows precisely the diagrammatic analysis developed by Wang and Cai in a recent paper [Communications in Computational Physics 36, 389 (2024)]. We elaborate on these three critiques in this Comment.
翻訳日:2024-10-31 04:26:09 公開日:2024-10-09
# LLMチームにおける最近の進歩:技術・防衛・倫理的考察

Recent advancements in LLM Red-Teaming: Techniques, Defenses, and Ethical Considerations ( http://arxiv.org/abs/2410.09097v1 )

ライセンス: Link先を確認
Tarun Raheja, Nilay Pochhi, (参考訳) 大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な機能を示しているが、Jailbreak攻撃に対する脆弱性は重大なセキュリティリスクをもたらす。 本稿では,Large Language Model (LLM) のレッドチームにおける攻撃戦略と防御機構の最近の進歩を包括的に分析する。 我々は,勾配に基づく最適化,強化学習,迅速な工学的アプローチなど,様々な攻撃手法を解析する。 我々は、これらの攻撃がLLMの安全性に与える影響と防御機構の改善の必要性について論じる。 この研究は、LLMにおける現在のレッドチーム攻撃と防御の状況について、よりセキュアで信頼性の高い言語モデルの開発を可能にすることを目的としている。

Large Language Models (LLMs) have demonstrated remarkable capabilities in natural language processing tasks, but their vulnerability to jailbreak attacks poses significant security risks. This survey paper presents a comprehensive analysis of recent advancements in attack strategies and defense mechanisms within the field of Large Language Model (LLM) red-teaming. We analyze various attack methods, including gradient-based optimization, reinforcement learning, and prompt engineering approaches. We discuss the implications of these attacks on LLM safety and the need for improved defense mechanisms. This work aims to provide a thorough understanding of the current landscape of red-teaming attacks and defenses on LLMs, enabling the development of more secure and reliable language models.
翻訳日:2024-10-30 16:38:28 公開日:2024-10-09
# 不均一・生涯フェデレーション学習のための適応型アクティブ推論エージェント

Adaptive Active Inference Agents for Heterogeneous and Lifelong Federated Learning ( http://arxiv.org/abs/2410.09099v1 )

ライセンス: Link先を確認
Anastasiya Danilenka, Alireza Furutanpey, Victor Casamayor Pujol, Boris Sedlak, Anna Lackinger, Maria Ganzha, Marcin Paprzycki, Schahram Dustdar, (参考訳) 不均一性と予測不可能性を扱うことは、広範コンピューティングにおける2つの主要な問題である。 課題は、動的環境における様々な計算資源を持つデバイスをシームレスに統合し、すべての参加者のニーズを満たすような凝集システムを構築することである。 要求の変化に適応するシステムに関する既存の作業は、通常、特定のリソースの使用を制限するなど、個々の変数や低レベルのサービスレベルオブジェクト(SLO)の最適化に重点を置いています。 低レベル制御機構はシステムのきめ細かい制御を許すが、特に動的環境において相当な複雑さをもたらす。 そこで本研究では,適応エージェントを設計するための神経科学フレームワークであるActive Inference (AIF) の描画を提案する。 具体的には,グローバルシステムの制約を高レベルなSLOとして設定できる異種普及型システムの概念的エージェントを提案する。 低レベルのSLOを手動で設定する代わりに、システムは環境変化に適応できる均衡を見出す。 異種・生涯にわたるフェデレーション学習を応用シナリオとして,AIFエージェントの生存可能性を示す。 私たちは、異なるリソースタイプとベンダー仕様を持つデバイスの物理的テストベッドで実験を行います。 その結果、AIFエージェントが環境変化に適応できるという証拠が得られた。 特に、AIFエージェントは、資源不均一環境における競合するSLOのバランスをとることができ、最大98%の充足率を確保することができる。

Handling heterogeneity and unpredictability are two core problems in pervasive computing. The challenge is to seamlessly integrate devices with varying computational resources in a dynamic environment to form a cohesive system that can fulfill the needs of all participants. Existing work on systems that adapt to changing requirements typically focuses on optimizing individual variables or low-level Service Level Objectives (SLOs), such as constraining the usage of specific resources. While low-level control mechanisms permit fine-grained control over a system, they introduce considerable complexity, particularly in dynamic environments. To this end, we propose drawing from Active Inference (AIF), a neuroscientific framework for designing adaptive agents. Specifically, we introduce a conceptual agent for heterogeneous pervasive systems that permits setting global systems constraints as high-level SLOs. Instead of manually setting low-level SLOs, the system finds an equilibrium that can adapt to environmental changes. We demonstrate the viability of AIF agents with an extensive experiment design, using heterogeneous and lifelong federated learning as an application scenario. We conduct our experiments on a physical testbed of devices with different resource types and vendor specifications. The results provide convincing evidence that an AIF agent can adapt a system to environmental changes. In particular, the AIF agent can balance competing SLOs in resource heterogeneous environments to ensure up to 98% fulfillment rate.
翻訳日:2024-10-30 16:38:28 公開日:2024-10-09
# データタグ: ハームレスターゲティングによるデータセットのオーナシップ検証

Data Taggants: Dataset Ownership Verification via Harmless Targeted Data Poisoning ( http://arxiv.org/abs/2410.09101v1 )

ライセンス: Link先を確認
Wassim Bouaziz, El-Mahdi El-Mhamdi, Nicolas Usunier, (参考訳) データセットのオーナシップ検証(データセットのオーナシップ検証)は、データセットがモデルのトレーニングデータに使用されているかどうかを決定するプロセスであり、不正なデータの使用やデータの汚染を検出するために必要である。 バックドアの透かしのような既存のアプローチは、データ分散の一部でトレーニングされたモデルに検出可能な振る舞いを誘導することに依存している。 しかしながら、これらのアプローチには、モデルの性能に有害である、あるいはモデルの内部への実践的アクセスを必要とする可能性があるため、制限がある。 最も重要なことは、以前のアプローチには偽陽性に対する保証がないことである。 本稿では,非バックドアデータセットのオーナシップ検証技術であるデータタグを新たに導入する。 提案手法では, 秘密鍵として分布外サンプルとランダムラベルのペアを用い, クリーンラベルを標的としたデータ中毒を利用してデータセットを微調整し, 学習したモデルが対応するキーラベルを用いてキーサンプルに応答するようにした。 キーは、ブラックボックスにアクセス可能な統計証明書をモデルにのみアクセスできるように構築されている。 我々は、VTモデルとResNetモデルと最先端のトレーニングレシピを用いて、ImageNet1kの包括的で現実的な実験を通してアプローチを検証する。 以上の結果から,保護されたデータセット上でトレーニングされたモデルに対して,検証精度を損なうことなく,信頼性の高いモデルが確実に作成可能であること,バックドア透かしよりも優れていることが示唆された。 さらに, 本手法は, 各種防御機構に対してステルス性があり, 堅牢であることを示す。

Dataset ownership verification, the process of determining if a dataset is used in a model's training data, is necessary for detecting unauthorized data usage and data contamination. Existing approaches, such as backdoor watermarking, rely on inducing a detectable behavior into the trained model on a part of the data distribution. However, these approaches have limitations, as they can be harmful to the model's performances or require unpractical access to the model's internals. Most importantly, previous approaches lack guarantee against false positives. This paper introduces data taggants, a novel non-backdoor dataset ownership verification technique. Our method uses pairs of out-of-distribution samples and random labels as secret keys, and leverages clean-label targeted data poisoning to subtly alter a dataset, so that models trained on it respond to the key samples with the corresponding key labels. The keys are built as to allow for statistical certificates with black-box access only to the model. We validate our approach through comprehensive and realistic experiments on ImageNet1k using ViT and ResNet models with state-of-the-art training recipes. Our findings demonstrate that data taggants can reliably make models trained on the protected dataset detectable with high confidence, without compromising validation accuracy, and demonstrates superiority over backdoor watermarking. Moreover, our method shows to be stealthy and robust against various defense mechanisms.
翻訳日:2024-10-30 16:38:28 公開日:2024-10-09
# インストラクショナルセグメント埋め込み:インストラクショナル階層によるLLM安全性の向上

Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy ( http://arxiv.org/abs/2410.09102v1 )

ライセンス: Link先を確認
Tong Wu, Shujian Zhang, Kaiqiang Song, Silei Xu, Sanqiang Zhao, Ravi Agrawal, Sathish Reddy Indurthi, Chong Xiang, Prateek Mittal, Wenxuan Zhou, (参考訳) 大規模言語モデル(LLM)は、迅速なインジェクション、迅速な抽出、有害な要求など、セキュリティや安全性の脅威に影響を受けやすい。 これらの脆弱性の大きな原因の1つは、命令階層の欠如である。 現代のLLMアーキテクチャは全ての入力を等しく扱い、システムメッセージ、ユーザープロンプト、データなど、様々な種類の命令を区別して優先順位付けすることができない。 その結果、低優先度のユーザープロンプトは、安全プロトコルを含むより重要なシステム命令をオーバーライドする可能性がある。 デリミタや命令ベーストレーニングのような既存の命令階層の達成アプローチは、アーキテクチャレベルでこの問題に対処しない。 Instructional Segment Embedding (ISE) 技術は,BERT にインスパイアされた現代の大規模言語モデルに導入され,命令優先情報をモデルに直接組み込む。 このアプローチにより、モデルがさまざまな命令タイプを明示的に区別し、優先順位付けすることが可能になり、優先順位付けルールを無効にしようとする悪意のあるプロンプトに対する安全性が大幅に向上する。 Structured Query と Instruction Hierarchy ベンチマークの実験では,それぞれ 15.75% と 18.68% の堅牢な精度向上が示されている。 さらに,AlpacaEvalを用いて最大4.1%の指示追従能力の向上を観察した。 全体として,本手法はLLMアーキテクチャの安全性と有効性を高めるための有望な方向を提供する。

Large Language Models (LLMs) are susceptible to security and safety threats, such as prompt injection, prompt extraction, and harmful requests. One major cause of these vulnerabilities is the lack of an instruction hierarchy. Modern LLM architectures treat all inputs equally, failing to distinguish between and prioritize various types of instructions, such as system messages, user prompts, and data. As a result, lower-priority user prompts may override more critical system instructions, including safety protocols. Existing approaches to achieving instruction hierarchy, such as delimiters and instruction-based training, do not address this issue at the architectural level. We introduce the Instructional Segment Embedding (ISE) technique, inspired by BERT, to modern large language models, which embeds instruction priority information directly into the model. This approach enables models to explicitly differentiate and prioritize various instruction types, significantly improving safety against malicious prompts that attempt to override priority rules. Our experiments on the Structured Query and Instruction Hierarchy benchmarks demonstrate an average robust accuracy increase of up to 15.75% and 18.68%, respectively. Furthermore, we observe an improvement in instruction-following capability of up to 4.1% evaluated on AlpacaEval. Overall, our approach offers a promising direction for enhancing the safety and effectiveness of LLM architectures.
翻訳日:2024-10-30 16:38:28 公開日:2024-10-09
# 離散離散コサイン変換によるパラメータ効率の良いファインチューニング

Parameter-Efficient Fine-Tuning via Selective Discrete Cosine Transform ( http://arxiv.org/abs/2410.09103v1 )

ライセンス: Link先を確認
Yixian Shen, Qi Bi, Jia-Hong Huang, Hongyi Zhu, Anuj Pathania, (参考訳) 大規模言語モデルの時代には,パラメータ効率のよい微調整(PEFT)が広く研究されている。 しかしながら、これらのアプローチは、特に広範囲な適応やより大きなモデルを扱う場合、ストレージ上の問題に直面する空間領域に依存している。 対照的に周波数領域は、表現能力を維持しながらトレーニング可能なパラメータを圧縮するのにより効果的である。 本稿では,このフロンティアを推し進めるために,Selective Discrete Cosine Transformation (sDCTFT) のファインチューニング方式を提案する。 その一般的な考え方は、モデル効率と精度の両方を改善するために、DCTの優れたエネルギー圧縮とデコリレーション特性を活用することである。 具体的には、低ランク適応から離散コサイン空間への重み変化を投影する。 次に、離散コサインスペクトルの異なるレベルに重み変化を分割し、各分割における最も臨界周波数成分を選択する。 4つのベンチマークデータセットに対する大規模な実験は、先行技術よりも精度が優れ、計算コストが低減し、提案手法の保存要求が低かったことを示している。 例えば、LLaMA3.1-8Bモデルでインストラクションチューニングを行う場合、sDCTFTはLoRAの38.2Mと比較してわずか0.05Mのトレーニング可能なパラメータで、FourierFTよりも30%少ないトレーニング可能なパラメータでパフォーマンスを向上する。 ソースコードは公開されます。

In the era of large language models, parameter-efficient fine-tuning (PEFT) has been extensively studied. However, these approaches usually rely on the space domain, which encounters storage challenges especially when handling extensive adaptations or larger models. The frequency domain, in contrast, is more effective in compressing trainable parameters while maintaining the expressive capability. In this paper, we propose a novel Selective Discrete Cosine Transformation (sDCTFT) fine-tuning scheme to push this frontier. Its general idea is to exploit the superior energy compaction and decorrelation properties of DCT to improve both model efficiency and accuracy. Specifically, it projects the weight change from the low-rank adaptation into the discrete cosine space. Then, the weight change is partitioned over different levels of the discrete cosine spectrum, and the most critical frequency components in each partition are selected. Extensive experiments on four benchmark datasets demonstrate the superior accuracy, reduced computational cost, and lower storage requirements of the proposed method over the prior arts. For instance, when performing instruction tuning on the LLaMA3.1-8B model, sDCTFT outperforms LoRA with just 0.05M trainable parameters compared to LoRA's 38.2M, and surpasses FourierFT with 30\% less trainable parameters. The source code will be publicly available.
翻訳日:2024-10-30 16:38:28 公開日:2024-10-09