このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241102となっている論文です。

PDF登録状況(公開日: 20241102)

TitleAuthorsAbstract論文公表日・翻訳日
# M$^3$GPT:モーション理解と生成のための高度なマルチモーダルマルチタスクフレームワーク

M$^3$GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation ( http://arxiv.org/abs/2405.16273v4 )

ライセンス: Link先を確認
Mingshuang Luo, Ruibing Hou, Zhuo Li, Hong Chang, Zimo Liu, Yaowei Wang, Shiguang Shan, (参考訳) 本稿では、M$^3$GPT, a Advanced $\textbf{M}$ultimodal, $\textbf{M}$ultitask framework for $\textbf{M}$otion comprehension and generationについて述べる。 M$3$GPTは3つの基本原理に基づいている。 第一の焦点は、様々な動き関連モダリティのための統一表現空間を作ることである。 我々は、テキスト、音楽、モーション/ダンスなどのマルチモーダル制御および生成信号に対して離散ベクトル量子化を用い、単一の語彙で大きな言語モデル(LLM)へのシームレスな統合を可能にする。 2つ目は、原動空間でモデル生成を直接モデル化することである。 この戦略は、離散トークン化器に関連する情報損失を回避し、より詳細で包括的なモデル生成をもたらす。 第3に、M$^3$GPTは様々な動き関連タスク間の接続とシナジーをモデル化することを学ぶ。 LLMの最も親しみやすくよく理解されたモダリティであるテキストは、異なる動作タスク間の接続を確立するブリッジとして利用され、相互強化を容易にする。 我々の知る限り、M$^3$GPTは複数の信号に基づいて動きを解釈・生成できる最初のモデルである。 大規模な実験では、様々な動作関連タスクにまたがるM$^3$GPTの優れた性能と、非常に困難なタスクに対する強力なゼロショットの一般化能力を強調している。

This paper presents M$^3$GPT, an advanced $\textbf{M}$ultimodal, $\textbf{M}$ultitask framework for $\textbf{M}$otion comprehension and generation. M$^3$GPT operates on three fundamental principles. The first focuses on creating a unified representation space for various motion-relevant modalities. We employ discrete vector quantization for multimodal control and generation signals, such as text, music and motion/dance, enabling seamless integration into a large language model (LLM) with a single vocabulary. The second involves modeling model generation directly in the raw motion space. This strategy circumvents the information loss associated with discrete tokenizer, resulting in more detailed and comprehensive model generation. Third, M$^3$GPT learns to model the connections and synergies among various motion-relevant tasks. Text, the most familiar and well-understood modality for LLMs, is utilized as a bridge to establish connections between different motion tasks, facilitating mutual reinforcement. To our knowledge, M$^3$GPT is the first model capable of comprehending and generating motions based on multiple signals. Extensive experiments highlight M$^3$GPT's superior performance across various motion-relevant tasks and its powerful zero-shot generalization capabilities for extremely challenging tasks.
翻訳日:2024-11-09 02:07:29 公開日:2024-11-02
# Androidアプリのパフォーマンス問題を自動的に分析する: どこまであるのか?

Automatically Analyzing Performance Issues in Android Apps: How Far Are We? ( http://arxiv.org/abs/2407.05090v2 )

ライセンス: Link先を確認
Dianshu Liao, Shidong Pan, Siyuan Yang, Yanjie Zhao, Zhenchang Xing, Xiaoyu Sun, (参考訳) Androidアプリケーションのパフォーマンス問題は、学界で長く続く研究トピックであるユーザエクスペリエンス、エンゲージメント、保持を著しく損なう。 機能の問題とは異なり、複雑な根本原因のため、パフォーマンスの問題の診断と解決がより困難であり、しばしば特定の条件やペイロードの下でのみ発生する。 自動識別・解決する手法を開発することで、多くの取り組みがパフォーマンス問題の影響を緩和しようとしているが、この目的が達成されたかどうかは不明であり、既存のアプローチは実際に現実の環境で遭遇した最も重要なパフォーマンス問題をターゲットにしている。 そこで本研究では,実世界のアプリケーションや文献におけるAndroidのパフォーマンス問題について,大規模な比較研究を行った。 具体的には、実世界のパフォーマンス問題、根本原因(コントリビューション要因)、共通コードパターンの調査から始めました。 その後、文献レビューを通じて既存のアプローチとデータセットを実証的に要約し、学術的な研究が開発者やユーザが直面している現実の課題をいかに反映しているかを評価しました。 比較の結果,研究者,開発者,ユーザの主なパフォーマンス上の問題には,大きな違いがあることが判明した。 これらの要因のうち57.14%は学術研究では調査されていないが、76.39%は既存のツールに未適応であり、66.67%は対応するデータセットを欠いている。 この対照的な意見は、パフォーマンス問題に対する理解と管理において、大きなギャップを浮き彫りにしています。 その結果、コミュニティはこれらのギャップを埋め、パフォーマンス問題の包括的発見と解決を達成する努力を強化することが不可欠である。

Performance issues in Android applications significantly undermine users' experience, engagement, and retention, which is a long-lasting research topic in academia. Unlike functionality issues, performance issues are more difficult to diagnose and resolve due to their complex root causes, which often emerge only under specific conditions or payloads. Although many efforts haven attempt to mitigate the impact of performance issues by developing methods to automatically identify and resolve them, it remains unclear if this objective has been fulfilled, and the existing approaches indeed targeted on the most critical performance issues encountered in real-world settings. To this end, we conducted a large-scale comparative study of Android performance issues in real-world applications and literature. Specifically, we started by investigating real-world performance issues, their underlying root causes (i.e., contributing factors), and common code patterns. We then took an additional step to empirically summarize existing approaches and datasets through a literature review, assessing how well academic research reflects the real-world challenges faced by developers and users. Our comparison results show a substantial divergence exists in the primary performance concerns of researchers, developers, and users. Among all the identified factors, 57.14% have not been examined in academic research, while a substantial 76.39% remain unaddressed by existing tools, and 66.67% lack corresponding datasets. This stark contrast underscores a substantial gap in our understanding and management of performance issues. Consequently, it is crucial for our community to intensify efforts to bridge these gaps and achieve comprehensive detection and resolution of performance issues.
翻訳日:2024-11-08 23:35:45 公開日:2024-11-02
# 拡散モデルは秘密裏にノイズ分類器であり、コントラストトレーニングの利点

Your Diffusion Model is Secretly a Noise Classifier and Benefits from Contrastive Training ( http://arxiv.org/abs/2407.08946v2 )

ライセンス: Link先を確認
Yunshu Wu, Yingtao Luo, Xianghao Kong, Evangelos E. Papalexakis, Greg Ver Steeg, (参考訳) 拡散モデルはデータをノイズ化することを学び、訓練されたデノイザを使用してデータ分布から新しいサンプルを生成する。 本稿では, 拡散サンプリングプロセスを再検討し, 試料品質劣化の根本原因を同定する。このデノイザは, トレーニング分布外(OOD)から遠く離れた地域では推定が不十分であり, これらのOOD領域ではサンプリングプロセスが必然的に評価される。 これは全てのサンプリング手法において問題となり、特に並列サンプリングに移行する際には、動的の標本軌跡全体を並列に初期化および更新する必要があるため、多くのOOD評価が導かれる。 この問題に対処するために,サンプルに付加される雑音のレベルを区別する新たな自己教師型学習目標を導入する。 提案手法は, 拡散モデルが音量の異なる分布を識別する対数様比を暗黙的に定義することに基づいており, この表現は, 標準学習分布の外でのデノイザー性能に依存する。 提案したコントラスト拡散訓練は逐次的および並列的な設定に有効であり, 並列サンプリング器の性能と速度を著しく向上することを示す。

Diffusion models learn to denoise data and the trained denoiser is then used to generate new samples from the data distribution. In this paper, we revisit the diffusion sampling process and identify a fundamental cause of sample quality degradation: the denoiser is poorly estimated in regions that are far Outside Of the training Distribution (OOD), and the sampling process inevitably evaluates in these OOD regions. This can become problematic for all sampling methods, especially when we move to parallel sampling which requires us to initialize and update the entire sample trajectory of dynamics in parallel, leading to many OOD evaluations. To address this problem, we introduce a new self-supervised training objective that differentiates the levels of noise added to a sample, leading to improved OOD denoising performance. The approach is based on our observation that diffusion models implicitly define a log-likelihood ratio that distinguishes distributions with different amounts of noise, and this expression depends on denoiser performance outside the standard training distribution. We show by diverse experiments that the proposed contrastive diffusion training is effective for both sequential and parallel settings, and it improves the performance and speed of parallel samplers significantly.
翻訳日:2024-11-08 22:17:54 公開日:2024-11-02
# 人格特性がネゴシエーションに与える影響 : 大規模言語モデルに基づくシミュレーション

How Personality Traits Influence Negotiation Outcomes? A Simulation based on Large Language Models ( http://arxiv.org/abs/2407.11549v2 )

ライセンス: Link先を確認
Yin Jou Huang, Rafik Hadfi, (参考訳) 心理学的証拠は、人格特性が意思決定に与える影響を明らかにしている。 例えば、合意性は一般的に交渉において肯定的な結果と結びついているのに対し、神経症はしばしば好ましくない結果と結びついている。 本稿では,Large Language Model (LLM) エージェントに着目したシミュレーションフレームワークを提案する。 エージェントはドメインを交渉し、カスタマイズ可能なパーソナリティと目的を持つ。 実験結果から, LLMシミュレーションの行動傾向は, 人間の交渉で観察された行動パターンを再現できることが示唆された。 コントリビューションは2倍です。 まず,LLMエージェントの言語的能力と経済的能力の整合性を検討するシミュレーション手法を提案する。 第2に、二国間交渉の結果に対するビッグファイブの性格特性の戦略的影響に関する実証的な洞察を提供する。 また, 合成交渉に基づく事例研究を行い, 騙し行動や妥協行動など, 興味深い行動を明らかにする。

Psychological evidence reveals the influence of personality traits on decision-making. For instance, agreeableness is generally associated with positive outcomes in negotiations, whereas neuroticism is often linked to less favorable outcomes. This paper introduces a simulation framework centered on Large Language Model (LLM) agents endowed with synthesized personality traits. The agents negotiate within bargaining domains and possess customizable personalities and objectives. The experimental results show that the behavioral tendencies of LLM-based simulations could reproduce behavioral patterns observed in human negotiations. The contribution is twofold. First, we propose a simulation methodology that investigates the alignment between the linguistic and economic capabilities of LLM agents. Secondly, we offer empirical insights into the strategic impact of Big-Five personality traits on the outcomes of bilateral negotiations. We also provide a case study based on synthesized bargaining dialogues to reveal intriguing behaviors, including deceitful and compromising behaviors.
翻訳日:2024-11-08 21:10:26 公開日:2024-11-02
# ニューラルタンジェントカーネル回帰における差分プライバシー機構

Differential Privacy Mechanisms in Neural Tangent Kernel Regression ( http://arxiv.org/abs/2407.13621v2 )

ライセンス: Link先を確認
Jiuxiang Gu, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song, (参考訳) データプライバシのトレーニングは、顔認識、レコメンデーションシステム、言語生成など、現代の人工知能(AI)アプリケーションにおける基本的な問題である。 AIアプリケーションにおけるプライバシメカニズムの動作を根本的に理解するために、我々は、統計学習下でのプライバシを測定する最も強力なツールの1つであるNural Tangent Kernel(NTK)レグレッションセッティングセッティングにおいて、差分プライバシ(DP)を研究する。 我々の研究では、NTK回帰の差分プライバシーとテスト精度の両方の証明可能な保証を示すことができる。 さらに,基本画像分類データセット CIFAR10 を用いて,NTK の回帰が適度なプライバシ予算下で良好な精度を維持し,解析の有効性を実証する実験を行った。 我々の知る限り、NTKレグレッションに対するDP保証を提供する最初の取り組みである。

Training data privacy is a fundamental problem in modern Artificial Intelligence (AI) applications, such as face recognition, recommendation systems, language generation, and many others, as it may contain sensitive user information related to legal issues. To fundamentally understand how privacy mechanisms work in AI applications, we study differential privacy (DP) in the Neural Tangent Kernel (NTK) regression setting, where DP is one of the most powerful tools for measuring privacy under statistical learning, and NTK is one of the most popular analysis frameworks for studying the learning mechanisms of deep neural networks. In our work, we can show provable guarantees for both differential privacy and test accuracy of our NTK regression. Furthermore, we conduct experiments on the basic image classification dataset CIFAR10 to demonstrate that NTK regression can preserve good accuracy under a modest privacy budget, supporting the validity of our analysis. To our knowledge, this is the first work to provide a DP guarantee for NTK regression.
翻訳日:2024-11-08 20:14:30 公開日:2024-11-02
# Wonderful Matrices: 言語モデリングタスクのためのより効率的で効果的なアーキテクチャ

Wonderful Matrices: More Efficient and Effective Architecture for Language Modeling Tasks ( http://arxiv.org/abs/2407.16958v3 )

ライセンス: Link先を確認
Jingze Shi, Bingheng Wu, Ting Xie, Lu He, (参考訳) 近年の研究では、相対的な位置符号化は選択的な状態空間モデルスキャンアルゴリズムにおいて良好に機能し、SSMと注意のバランスをとるアーキテクチャはアルゴリズムの効率と有効性を高める一方で、専門家の混合物の疎活性化はトレーニングコストを削減することが示されている。 構造化状態空間双対アルゴリズムにおける異なる位置符号化の有効性と、より効率的なSSD-Attn内部および外部関数混合法について検討し、より効率的なクロスドメイン混合の設計を行った。 同じマトリックスは、異なるアルゴリズムで非常に素晴らしいので、新しいハイブリッドスパースアーキテクチャ、Cheemsを確立することができます。 他のハイブリッドアーキテクチャと比較すると、言語モデリングタスクではより効率的で効果的です。

Recent studies have shown that, relative position encoding performs well in selective state space model scanning algorithms, and the architecture that balances SSM and Attention enhances the efficiency and effectiveness of the algorithm, while the sparse activation of the mixture of experts reduces the training cost. We studied the effectiveness of using different position encodings in structured state space dual algorithms, and the more effective SSD-Attn internal and external function mixing method, and designed a more efficient cross domain mixture of experts. We found that the same matrix is very wonderful in different algorithms, which allows us to establish a new hybrid sparse architecture: Cheems. Compared with other hybrid architectures, it is more efficient and more effective in language modeling tasks.
翻訳日:2024-11-08 15:23:20 公開日:2024-11-02
# Wonderful Matrices: 言語モデリングタスクのためのより効率的で効果的なアーキテクチャ

Wonderful Matrices: More Efficient and Effective Architecture for Language Modeling Tasks ( http://arxiv.org/abs/2407.16958v4 )

ライセンス: Link先を確認
Jingze Shi, Bingheng Wu, Ting Xie, Lu He, (参考訳) 近年の研究では、相対的な位置符号化は選択的な状態空間モデルスキャンアルゴリズムにおいて良好に機能し、SSMと注意のバランスをとるアーキテクチャはアルゴリズムの効率と有効性を高める一方で、専門家の混合物の疎活性化はトレーニングコストを削減することが示されている。 構造化状態空間双対アルゴリズムにおける異なる位置符号化の有効性と、より効率的なSSD-Attn内部および外部関数混合法について検討し、より効率的なクロスドメイン混合の設計を行った。 同じマトリックスは、異なるアルゴリズムで非常に素晴らしいので、新しいハイブリッドスパースアーキテクチャ、Cheemsを確立することができます。 他のハイブリッドアーキテクチャと比較すると、言語モデリングタスクではより効率的で効果的です。

Recent studies have shown that, relative position encoding performs well in selective state space model scanning algorithms, and the architecture that balances SSM and Attention enhances the efficiency and effectiveness of the algorithm, while the sparse activation of the mixture of experts reduces the training cost. We studied the effectiveness of using different position encodings in structured state space dual algorithms, and the more effective SSD-Attn internal and external function mixing method, and designed a more efficient cross domain mixture of experts. We found that the same matrix is very wonderful in different algorithms, which allows us to establish a new hybrid sparse architecture: Cheems. Compared with other hybrid architectures, it is more efficient and more effective in language modeling tasks.
翻訳日:2024-11-08 15:23:20 公開日:2024-11-02
# Wonderful Matrices: 言語モデリングタスクのためのより効率的で効果的なアーキテクチャ

Wonderful Matrices: More Efficient and Effective Architecture for Language Modeling Tasks ( http://arxiv.org/abs/2407.16958v5 )

ライセンス: Link先を確認
Jingze Shi, Bingheng Wu, Lu He, Luchang Jiang, (参考訳) 本研究では、状態空間双対アルゴリズムにおける内積形状位置符号化の可用性を証明し、ハイブリッド二次因果自己アテンションと状態空間双対アルゴリズムにおける異なる位置埋め込みの有効性について検討する。 本研究では,動的マスキングを用いた内部機能アテンションを提案し,アテンションアルゴリズムの表現性を向上し,アテンションスコアの精度に大きく影響するシーケンスノイズを回避する。 また、パラメータ利用と検索の効率を維持しつつ、スパース活性化フィードフォワードネットワークの粒度を向上できる専門家のクロスドメイン混合物を設計する。 これらの手法の組み合わせは、我々の基礎モデルアーキテクチャを構成する。 我々は、言語モデリングタスクの実験を行い、Wonderful Matricesは複雑な言語タスクの処理においてより効率的で効果的であることを示す。

We prove the availability of inner product form position encoding in the state space dual algorithm and study the effectiveness of different position embeddings in the hybrid quadratic causal self-attention and state space dual algorithms. We propose inner function attention with dynamic mask, which can improve the expressiveness of the attention algorithm and avoid the sequence noise significantly affecting the accuracy of the attention score. We also design cross domain mixture of experts, which can improve the granularity of the sparse activation feedforward network while maintaining the efficiency of parameter utilization and retrieval. The combination of these methods constitutes our foundation model architecture: Wonderful Matrices. We conduct experiments on the language modeling task and find that Wonderful Matrices are more efficient and effective in handling complex language tasks.
翻訳日:2024-11-08 15:23:20 公開日:2024-11-02
# 背景意味論:スカイアノテートデータセットを用いたクラスタ型赤外小ターゲット検出のためのクロスタスク特徴交換ネットワーク

Background Semantics Matter: Cross-Task Feature Exchange Network for Clustered Infrared Small Target Detection With Sky-Annotated Dataset ( http://arxiv.org/abs/2407.20078v2 )

ライセンス: Link先を確認
Mengxuan Xiao, Qun Dai, Yiming Zhu, Kehua Guo, Huan Wang, Xiangbo Shu, Jian Yang, Yimian Dai, (参考訳) 赤外線小目標検出は、固有の目標特徴の不足と、類似した背景散乱体の存在により、固有の課題を生じさせる。 我々は,背景意味論が視覚的に類似した物体を識別する上で重要な役割を担っていると主張している。 そこで本研究では,新たにタスククラスタリングされた赤外線小ターゲット検出システムDenseSIRSTを紹介し,背景領域に対して画素単位のセマンティックアノテーションを提供するベンチマークデータセットを新たに導入し,スパースから高密度ターゲット検出への移行を可能にする。 このデータセットを応用したBAFE-Net(Back background-Aware Feature Exchange Network)を提案する。このネットワークは,前景に着目した単一タスクから,ターゲット検出とバックグラウンドセマンティックセマンティックセグメンテーションを併用したマルチタスクアーキテクチャへ,検出パラダイムを変換する。 BAFE-Netは2つのタスクの間にターゲットとバックグラウンドのセマンティクスを埋め込む動的クロスタスクのハードチェンジ機構を導入した。 さらに,背景認識型ガウス的コピー・ペースト (BAG-CP) 手法を提案する。 BAG-CPとBAFE-Netは、誤報を低減しつつ、目標検出精度を向上させる効果を実証した。 DenseSIRSTデータセット、コード、トレーニングされたモデルはhttps://github.com/GrokCV/BAFE-Net.comで入手できる。

Infrared small target detection poses unique challenges due to the scarcity of intrinsic target features and the abundance of similar background distractors. We argue that background semantics play a pivotal role in distinguishing visually similar objects for this task. To address this, we introduce a new task--clustered infrared small target detection, and present DenseSIRST, a novel benchmark dataset that provides per-pixel semantic annotations for background regions, enabling the transition from sparse to dense target detection. Leveraging this dataset, we propose the Background-Aware Feature Exchange Network (BAFE-Net), which transforms the detection paradigm from a single task focused on the foreground to a multi-task architecture that jointly performs target detection and background semantic segmentation. BAFE-Net introduces a dynamic cross-task feature hard-exchange mechanism to embed target and background semantics between the two tasks. Furthermore, we propose the Background-Aware Gaussian Copy-Paste (BAG-CP) method, which selectively pastes small targets into sky regions during training, avoiding the creation of false alarm targets in complex non-sky backgrounds. Extensive experiments validate the effectiveness of BAG-CP and BAFE-Net in improving target detection accuracy while reducing false alarms. The DenseSIRST dataset, code, and trained models are available at https://github.com/GrokCV/BAFE-Net.
翻訳日:2024-11-08 14:16:02 公開日:2024-11-02
# 非アベリア量子ホロノミーから生じる決定論的フォトニックな絡み合い

Deterministic photonic entanglement arising from non-Abelian quantum holonomy ( http://arxiv.org/abs/2407.20368v2 )

ライセンス: Link先を確認
Aniruddha Bhattacharya, Chandra Raman, (参考訳) 決定論的で高忠実なエンタングリング相互作用の実現 — 効率的な量子情報処理に使用できるタイプの — は、光子間の明確な目標のままである。 ここでは、最近3次元非アベリア量子ホロノミーを実装することが実証されたオンチップフォトニクスシステムを用いて、光の制御された状態の高度に絡み合った重ね合わせを作成し、操作するプロトコルを考案することによって、この長年の課題に対処する。 我々の計算は、そのような絡み合った重ね合わせのサブセットが最大に絡み合う「体積法則」状態であり、根底にある絡み合わせを蒸留し、量子科学への応用のために浄化できることを示唆している。 決定論的に高い2つの$N$-次元量子系の可能性を示すために、このアプローチを一般化し、ユニタリ量子ホロノミーの行列表現-総励起数が保存されるエネルギー縮退部分空間-と、回転作用素の$\left(2j+1\right)$-次元既約表現($j = \left(N-1\right)/2$と$N \geq 2$-の間に、正式に深い接続を確立する。 具体的には、このエンタングリング機構は、線形フォトニック素子のみで量子ゲートを普遍的、エンタングリングするために利用できることを示唆する。

Realizing deterministic, high-fidelity entangling interactions--of the kind that can be utilized for efficient quantum information processing--between photons remains an elusive goal. Here, we address this long-standing issue by devising a protocol for creating and manipulating highly-entangled superpositions of well-controlled states of light by using an on-chip photonic system that has recently been shown to implement three-dimensional, non-Abelian quantum holonomy. Our calculations indicate that a subset of such entangled superpositions are maximally-entangled, "volume-law" states, and that the underlying entanglement can be distilled and purified for applications in quantum science. Crucially, we generalize this approach to demonstrate the potentiality of deterministically entangling two arbitrarily high, $N$-dimensional quantum systems, by formally establishing a deep connection between the matrix representations of the unitary quantum holonomy--within energy-degenerate subspaces in which the total excitation number is conserved--and the $\left(2j+1\right)$-dimensional irreducible representations of the rotation operator, where $j = \left(N-1\right)/2$ and $N \geq 2$. Specifically, we envisage that this entangling mechanism could be utilized for realizing universal, entangling quantum gates with linear photonic elements alone.
翻訳日:2024-11-08 14:05:01 公開日:2024-11-02
# LibreLog: オープンソースの大規模言語モデルを用いた高精度で効率的な教師なしログ解析

LibreLog: Accurate and Efficient Unsupervised Log Parsing Using Open-Source Large Language Models ( http://arxiv.org/abs/2408.01585v2 )

ライセンス: Link先を確認
Zeyang Ma, Dong Jae Kim, Tse-Hsun Chen, (参考訳) ログ解析は、非構造化ログデータを構造化フォーマットに変換する重要なステップであり、その後のログベースの分析を容易にする。 従来の構文ベースのログパーサは効率的で効果的だが、事前に定義されたルールから外れたログを処理すると、精度が低下することが多い。 近年,大規模言語モデル (LLM) に基づくログ解析では,解析精度が向上している。 しかし、既存のLCMベースのパーサは、1)微調整やインコンテキスト学習のための時間的および労働集約的なマニュアルラベリング、2)大量のログデータとLLMのコンテキストサイズ制限による解析コストの増加、3)機密ログ情報を備えたChatGPTのような商用モデルの使用によるプライバシリスクの3つの課題に直面している。 この制限を克服するために,OpenLogParserを導入する。これはオープンソースのLLM(Llama3-8B)を活用して,最先端の解析精度を確保しながら,プライバシの向上と運用コストの削減を実現する,教師なしのログ解析アプローチである。 OpenLogParserは、同じ静的テキストでログをグループ化するが、固定深さのグルーピングツリーを使用して動的変数を変更する。 次に、これらのグループ内のログを3つのコンポーネントを使って解析する。 i)類似度スコアリングに基づく検索強化生成:Jaccardの類似性に基づいて各グループ内の多様なログを選択し、LCMが静的テキストと動的変数を区別するのに役立つ。 二 自己回帰 解析精度を向上させるため、ログテンプレートを洗練するためにLCMを反復的にクエリすること。 三 ログテンプレートメモリ: 解析効率を向上させるため、LLMクエリを減らすために解析テンプレートを格納する。 LogHub-2.0の評価では,OpenLogParserは解析精度が25%向上し,ログ処理は最先端のLCMベースのパーサに比べて2.7倍高速であった。 簡単に言うと、OpenLogParserは商用LLMを使用することによるプライバシとコストの懸念に対処しつつ、最先端のパース効率と正確性を実現している。

Log parsing is a critical step that transforms unstructured log data into structured formats, facilitating subsequent log-based analysis. Traditional syntax-based log parsers are efficient and effective, but they often experience decreased accuracy when processing logs that deviate from the predefined rules. Recently, large language models (LLM) based log parsers have shown superior parsing accuracy. However, existing LLM-based parsers face three main challenges: 1)time-consuming and labor-intensive manual labeling for fine-tuning or in-context learning, 2)increased parsing costs due to the vast volume of log data and limited context size of LLMs, and 3)privacy risks from using commercial models like ChatGPT with sensitive log information. To overcome these limitations, this paper introduces OpenLogParser, an unsupervised log parsing approach that leverages open-source LLMs (i.e., Llama3-8B) to enhance privacy and reduce operational costs while achieving state-of-the-art parsing accuracy. OpenLogParser first groups logs with similar static text but varying dynamic variables using a fixed-depth grouping tree. It then parses logs within these groups using three components: i)similarity scoring-based retrieval augmented generation: selects diverse logs within each group based on Jaccard similarity, helping the LLM distinguish between static text and dynamic variables; ii)self-reflection: iteratively query LLMs to refine log templates to improve parsing accuracy; and iii) log template memory: stores parsed templates to reduce LLM queries for improved parsing efficiency. Our evaluation on LogHub-2.0 shows that OpenLogParser achieves 25% higher parsing accuracy and processes logs 2.7 times faster compared to state-of-the-art LLM-based parsers. In short, OpenLogParser addresses privacy and cost concerns of using commercial LLMs while achieving state-of-the-arts parsing efficiency and accuracy.
翻訳日:2024-11-08 13:18:17 公開日:2024-11-02
# 多エージェント政策最適化における部分リワードデカップリングによるクレジットの割り当て

Assigning Credit with Partial Reward Decoupling in Multi-Agent Proximal Policy Optimization ( http://arxiv.org/abs/2408.04295v2 )

ライセンス: Link先を確認
Aditya Kapoor, Benjamin Freed, Howie Choset, Jeff Schneider, (参考訳) マルチエージェント近似ポリシー最適化(MAPPO)は,最近,マルチエージェント強化学習タスクにおける最先端性能を実証した。 しかしMAPPOは、個々のエージェントの行動にクレジットを割り当てることの難しさがチームの規模に悪影響を及ぼすという、クレジット割り当ての問題に苦慮している。 本稿では,MAPPOの改善に向け,近年の信用代入に適応したマルチエージェント強化学習アルゴリズムを提案する。 このアプローチでは、学習したアテンションメカニズムを使用して、学習更新に関連する特定のエージェントのチームメイトを見積もる。 この推定値を用いて、大規模なエージェント群をより小さく、より管理しやすいサブグループに動的に分解する。 我々は,我々のアプローチであるPRD-MAPPOが,期待する将来的な報酬に影響を与えないチームメイトからエージェントを分離し,クレジットの割り当てを合理化していることを実証的に実証した。 また, PRD-MAPPOは, StarCraft IIを含む複数のマルチエージェントタスクにおけるMAPPOおよび他の最先端手法と比較して,データ効率と漸近性能を著しく向上させることを示した。 最後に PRD-MAPPO のバージョンを提案し,PRD が以前は適用されなかった \textit{shared} 報酬設定に適用し,MAPPO よりも性能が向上したことを示す。

Multi-agent proximal policy optimization (MAPPO) has recently demonstrated state-of-the-art performance on challenging multi-agent reinforcement learning tasks. However, MAPPO still struggles with the credit assignment problem, wherein the sheer difficulty in ascribing credit to individual agents' actions scales poorly with team size. In this paper, we propose a multi-agent reinforcement learning algorithm that adapts recent developments in credit assignment to improve upon MAPPO. Our approach leverages partial reward decoupling (PRD), which uses a learned attention mechanism to estimate which of a particular agent's teammates are relevant to its learning updates. We use this estimate to dynamically decompose large groups of agents into smaller, more manageable subgroups. We empirically demonstrate that our approach, PRD-MAPPO, decouples agents from teammates that do not influence their expected future reward, thereby streamlining credit assignment. We additionally show that PRD-MAPPO yields significantly higher data efficiency and asymptotic performance compared to both MAPPO and other state-of-the-art methods across several multi-agent tasks, including StarCraft II. Finally, we propose a version of PRD-MAPPO that is applicable to \textit{shared} reward settings, where PRD was previously not applicable, and empirically show that this also leads to performance improvements over MAPPO.
翻訳日:2024-11-08 12:22:45 公開日:2024-11-02
# グラフニューラルネットワークのエッジ不確かさと過度なスムーシングを理解する

Better Not to Propagate: Understanding Edge Uncertainty and Over-smoothing in Signed Graph Neural Networks ( http://arxiv.org/abs/2408.04895v3 )

ライセンス: Link先を確認
Yoonhyuk Choi, Jiho Choi, Taewook Ko, Chong-Kwon Kim, (参考訳) 従来のグラフニューラルネットワーク(GNN)はネットワークホモフィリーに依存しており、多くの実世界のヘテロフィリーシナリオで過度にスムーズな処理によってパフォーマンスが低下する可能性がある。 近年の研究では、ノードの特徴の期待に応じて、メッセージパッシング(MP)後の平滑化効果(分離性)を分析している。 分離性向上については, 肯定的, 署名的, ブロックされたMPなど, 様々な伝搬スキームによって引き起こされる過平滑化に関する理論的背景を提供した。 最近では、これらの定理を拡張することで、複数のクラスの下で符号付き伝播を改善することを提案している研究もある。 しかしながら、先行研究では、全ての伝搬スキームの誤差比が固定されており、この現象を正しく調べることができないと仮定している。 そこで本研究では,学習中のブロックと署名された伝搬の動的選択と一体化して,ホモフィリーとエッジの誤差比を推定する手法を提案する。 我々の理論解析は,MPブロックが高エッジ誤差比での符号付き伝搬よりも効果的であることを示し,ホモ親和性グラフとヘテロ親和性グラフの両方の性能向上を図っている。

Traditional Graph Neural Networks (GNNs) rely on network homophily, which can lead to performance degradation due to over-smoothing in many real-world heterophily scenarios. Recent studies analyze the smoothing effect (separability) after message-passing (MP), depending on the expectation of node features. Regarding separability gain, they provided theoretical backgrounds on over-smoothing caused by various propagation schemes, including positive, signed, and blocked MPs. More recently, by extending these theorems, some works have suggested improvements in signed propagation under multiple classes. However, prior works assume that the error ratio of all propagation schemes is fixed, failing to investigate this phenomenon correctly. To solve this problem, we propose a novel method for estimating homophily and edge error ratio, integrated with dynamic selection between blocked and signed propagation during training. Our theoretical analysis, supported by extensive experiments, demonstrates that blocking MP can be more effective than signed propagation under high edge error ratios, improving the performance in both homophilic and heterophilic graphs.
翻訳日:2024-11-08 12:11:36 公開日:2024-11-02
# RadioDiff: サンプリング不要な動的無線マップ構築のための効率的な生成拡散モデル

RadioDiff: An Effective Generative Diffusion Model for Sampling-Free Dynamic Radio Map Construction ( http://arxiv.org/abs/2408.08593v2 )

ライセンス: Link先を確認
Xiucheng Wang, Keda Tao, Nan Cheng, Zhisheng Yin, Zan Li, Yuan Zhang, Xuemin Shen, (参考訳) 無線マップ (RM) は6Gネットワークアプリケーションにおいてパスロス推定のための通信コストを削減し, 位置のみに基づいてパスロスを得ることができる, 有望な技術である。 しかし、従来のRMの構成は計算集約的であるか、高価なサンプリングベースのパスロス測定に依存している。 ニューラルネットワーク(NN)ベースの手法はサンプリングなしでRMを効率的に構築できるが、その性能は依然として準最適である。 これは主に、RM構成問題の生成特性と既存のNN方式による識別モデルとの相違によるものである。 そこで本論文では, 試料を含まないRM構造を条件付き生成問題としてモデル化し, 高品質なRM構造を実現するためにRadioDiffという名前の拡散拡散法を提案する。 さらに,動的環境から特徴を抽出する拡散モデルの能力を高めるため,適応型高速フーリエ変換モジュールを用いた注目U-Netをバックボーンネットワークとして使用し,動的環境特徴抽出能力を向上させる。 一方, 脱結合拡散モデルを用いて, RMの施工性能をさらに向上する。 さらに、データ特徴とNNトレーニング手法の両方の観点から、RM構築が生成問題である理由を包括的に理論的に分析する。 実験の結果,提案したRadioDiffは,3つの精度,構造的類似度,ピーク信号対雑音比の3つの指標において,最先端性能を実現していることがわかった。 コードはhttps://github.com/UNIC-Lab/RadioDiffで公開されている。

Radio map (RM) is a promising technology that can obtain pathloss based on only location, which is significant for 6G network applications to reduce the communication costs for pathloss estimation. However, the construction of RM in traditional is either computationally intensive or depends on costly sampling-based pathloss measurements. Although the neural network (NN)-based method can efficiently construct the RM without sampling, its performance is still suboptimal. This is primarily due to the misalignment between the generative characteristics of the RM construction problem and the discrimination modeling exploited by existing NN-based methods. Thus, to enhance RM construction performance, in this paper, the sampling-free RM construction is modeled as a conditional generative problem, where a denoised diffusion-based method, named RadioDiff, is proposed to achieve high-quality RM construction. In addition, to enhance the diffusion model's capability of extracting features from dynamic environments, an attention U-Net with an adaptive fast Fourier transform module is employed as the backbone network to improve the dynamic environmental features extracting capability. Meanwhile, the decoupled diffusion model is utilized to further enhance the construction performance of RMs. Moreover, a comprehensive theoretical analysis of why the RM construction is a generative problem is provided for the first time, from both perspectives of data features and NN training methods. Experimental results show that the proposed RadioDiff achieves state-of-the-art performance in all three metrics of accuracy, structural similarity, and peak signal-to-noise ratio. The code is available at https://github.com/UNIC-Lab/RadioDiff.
翻訳日:2024-11-08 07:18:07 公開日:2024-11-02
# 自由フェルミオン系における量子絡み合いと非ハーモニティ性

Quantum entanglement and non-Hermiticity in free-fermion systems ( http://arxiv.org/abs/2408.11652v3 )

ライセンス: Link先を確認
Li-Mei Chen, Yao Zhou, Shuai A. Chen, Peng Ye, (参考訳) 本稿では,非エルミート自由フェルミオン量子系における絡み合いの一般化と応用の急速な進展を報告する。 我々は、リンドブラッドマスター方程式による非エルミート量子系の実現と、特異な特徴を示す典型的な非エルミート自由フェルミオン系のレビューから始める。 エルミート系における絡み合い量と相関行列の関係について, 教育学的考察を行った。 この基礎の上に構築され、エンタングルメントの概念がエルミート自由フェルミオン系から非エルミート系へどのように拡張されるかに焦点を当て、出現する一般的な性質のレビューを行う。 最後に, 絡み合いエントロピーが非エルミート物理学を特徴づける強力な診断ツールであることを示し, 様々な具体的な研究を強調した。 絡み合いスペクトルは非エルミート位相系の位相特性も反映するが、独自の非エルミート絡み合い挙動も議論されている。 レビューは、いくつかの今後の方向性で締めくくられている。 このレビューを通じて、非エルミート量子系における絡み合いに関心を持つ研究者に有用なガイドを提供したいと思っています。

This topical review article reports rapid progress on the generalization and application of entanglement in non-Hermitian free-fermion quantum systems. We begin by examining the realization of non-Hermitian quantum systems through the Lindblad master equation, alongside a review of typical non-Hermitian free-fermion systems that exhibit unique features. A pedagogical discussion is provided on the relationship between entanglement quantities and the correlation matrix in Hermitian systems. Building on this foundation, we focus on how entanglement concepts are extended to non-Hermitian systems from their Hermitian free-fermion counterparts, with a review of the general properties that emerge. Finally, we highlight various concrete studies, demonstrating that entanglement entropy remains a powerful diagnostic tool for characterizing non-Hermitian physics. The entanglement spectrum also reflects the topological characteristics of non-Hermitian topological systems, while unique non-Hermitian entanglement behaviors are also discussed. The review is concluded with several future directions. Through this review, we hope to provide a useful guide for researchers who are interested in entanglement in non-Hermitian quantum systems.
翻訳日:2024-11-08 06:11:36 公開日:2024-11-02
# 群集モニタリングのための非構造高密度群集シーンの解析

Analysis of Unstructured High-Density Crowded Scenes for Crowd Monitoring ( http://arxiv.org/abs/2408.11836v5 )

ライセンス: Link先を確認
Alexandre Matov, (参考訳) 我々は,人群集の組織的動きを検出する自動システムの開発に興味がある。 コンピュータビジョンアルゴリズムは、混雑したシーンのビデオから情報を抽出し、紛争回避の文脈で異常な振る舞いを示す組織的な動きを行う個人のグループを自動的に検出し追跡する。 本システムでは,ランダムに移動する物体の背景に対する組織的コホートの検出が可能であり,CCTVで撮影された動きの開始から1秒未満の3~4コホート内で,組織的コホートにおける参加者数,動きの速度と方向をリアルタイムで推定することができる。 我々は,この状況下で,1フレームあたり最大4万個のオブジェクトを含む生体細胞データを用いて予備解析を行い,これを100倍まで数値的に拡張して公衆安全に適用する。 我々は、既存のビデオカメラのインフラを活用して、スポーツスタジアムなどの公共施設内外で撮影された画像シーケンスを分析し、重要なイベントを解析するための、画像データセットのオンザフライ取得と、使い易いデータ駆動ソフトウェアシステムの展開をめざす。 その他の有望なユーザは、政治集会、市民と野生生物の組織、セキュリティ会社、軍隊の組織である。 脅威を呈するアクティビティと、脅威を呈しないアクティビティを区別できる分類方法を実装することにより、ソフトウェアの性能を最適化する。

We are interested in developing an automated system for detection of organized movements in human crowds. Computer vision algorithms can extract information from videos of crowded scenes and automatically detect and track groups of individuals undergoing organized motion that represents an anomalous behavior in the context of conflict aversion. Our system can detect organized cohorts against the background of randomly moving objects and we can estimate the number of participants in an organized cohort, the speed and direction of motion in real time, within three to four video frames, which is less than one second from the onset of motion captured on a CCTV. We have performed preliminary analysis in this context in biological cell data containing up to four thousand objects per frame and will extend this numerically to a hundred-fold for public safety applications. We envisage using the existing infrastructure of video cameras for acquiring image datasets on-the-fly and deploying an easy-to-use data-driven software system for parsing of significant events by analyzing image sequences taken inside and outside of sports stadiums or other public venues. Other prospective users are organizers of political rallies, civic and wildlife organizations, security firms, and the military. We will optimize the performance of the software by implementing a classification method able to distinguish between activities posing a threat and those not posing a threat.
翻訳日:2024-11-08 06:00:03 公開日:2024-11-02
# 音響的人物識別と検証のためのモダリティ融合手法の比較分析

Comparative Analysis of Modality Fusion Approaches for Audio-Visual Person Identification and Verification ( http://arxiv.org/abs/2409.00562v2 )

ライセンス: Link先を確認
Aref Farhadipour, Masoumeh Chapariniya, Teodora Vukovic, Volker Dellwo, (参考訳) マルチモーダル学習は、学習と理解を強化するために、様々なモダリティからの情報を統合することを含む。 音声と顔の2つのモダリティを処理し,個人識別と検証における3つのモダリティ融合戦略を比較した。 本稿では,1次元畳み込みニューラルネットワークを音声からxベクトル抽出に使用し,事前学習したVGGFace2ネットワークと転送学習を顔のモダリティに利用する。 さらに、ガンマトングラムは、Darknet19事前訓練ネットワークとの関わりにおいて、音声表現として使用される。 提案システムは,VoxCeleb2データセットのテストセットの118話者に対して,K-foldクロスバリデーション手法を用いて評価する。 比較評価は、単一モダリティと、同じ状況下で提案された3つのマルチモーダル戦略に対して行われる。 その結果,ガンマトングラムと顔の特徴の融合戦略が最も高い性能を示し,その精度は98.37%であった。 しかしながら、xベクターと顔の特徴を結びつけることは、EERの検証タスクにおいて0.62%に達する。

Multimodal learning involves integrating information from various modalities to enhance learning and comprehension. We compare three modality fusion strategies in person identification and verification by processing two modalities: voice and face. In this paper, a one-dimensional convolutional neural network is employed for x-vector extraction from voice, while the pre-trained VGGFace2 network and transfer learning are utilized for face modality. In addition, gammatonegram is used as speech representation in engagement with the Darknet19 pre-trained network. The proposed systems are evaluated using the K-fold cross-validation technique on the 118 speakers of the test set of the VoxCeleb2 dataset. The comparative evaluations are done for single-modality and three proposed multimodal strategies in equal situations. Results demonstrate that the feature fusion strategy of gammatonegram and facial features achieves the highest performance, with an accuracy of 98.37% in the person identification task. However, concatenating facial features with the x-vector reaches 0.62% for EER in verification tasks.
翻訳日:2024-11-08 03:46:24 公開日:2024-11-02
# ガウス的不安定チャネルとガウス的操舵の計算可能な定量化

Gaussian unsteerable channels and computable quantifications of Gaussian steering ( http://arxiv.org/abs/2409.00878v2 )

ライセンス: Link先を確認
Taotao Yan, Jie Guo, Jinchuan Hou, Xiaofei Qi, Kan He, (参考訳) 連続変数系に対するガウスの操舵に関する現在の量子資源理論は欠陥があり不完全である。 その主な欠点は、ガウスの不安定な状態からガウスの不安定な状態へ変換するガウスのチャネルのアーキテクチャの不十分な理解に起因し、自由な操作の限定的な選択に繋がる。 本稿では,そのような$(m+n)$-mode Gaussianチャネルの構造を深く探求し,ガウス的非ステアブルチャネルのクラスと最大ガウス的非ステアブルチャネルのクラスを導入する。 また、2つの量子化も提案する: $\mathcal{J}_{j}$ $(j=1,2)$ of $(m+n)$-mode Gaussian steering from $A$ to $B$。 ガウス状態の共分散行列にのみ依存するため、$\mathcal{J}_{j}$の値の計算は単純で効率的である。 $\mathcal{J}_{j}$s は真のガウス的ステアリング測度ではないが、あるガウス的不安定チャネルの下での非増加のような良い性質を持っている。 さらに、${\mathcal J}_2$ とガウスの操舵測度 $\mathcal N_3$ を比較すると、${\mathcal J}_2$ があるクラス$(1+1)$-mode Gaussian純状態における $\mathcal N_3$ の上界であることが分かる。 例として、マルコフ環境におけるガウスステアリングの挙動を議論するために$\mathcal J_2$を応用し、量子ステアリングにおける急激な崩壊の興味深い現象を明らかにする1+1$モードガウス状態について述べる。

The current quantum resource theory for Gaussian steering for continuous-variable systems is flawed and incomplete. Its primary shortcoming stems from an inadequate comprehension of the architecture of Gaussian channels transforming Gaussian unsteerable states into Gaussian unsteerable states, resulting in a restricted selection of free operations. In the present paper, we explore in depth the structure of such $(m+n)$-mode Gaussian channels, and introduce the class of the Gaussian unsteerable channels and the class of maximal Gaussian unsteerable channels, both of them may be chosen as the free operations, which completes the resource theory for Gaussian steering from $A$ to $B$ by Alice's Gaussian measurements. We also propose two quantifications $\mathcal{J}_{j}$ $(j=1,2)$ of $(m+n)$-mode Gaussian steering from $A$ to $B$. The computation of the value of $\mathcal{J}_{j}$ is straightforward and efficient, as it solely relies on the covariance matrices of Gaussian states, eliminating the need for any optimization procedures. Though $\mathcal{J}_{j}$s are not genuine Gaussian steering measures, they have some nice properties such as non-increasing under certain Gaussian unsteerable channels. Additionally, we compare ${\mathcal J}_2$ with the Gaussian steering measure $\mathcal N_3$, which is based on the Uhlmann fidelity, revealing that ${\mathcal J}_2$ is an upper bound of $\mathcal N_3$ at certain class of $(1+1)$-mode Gaussian pure states. As an illustration, we apply $\mathcal J_2$ to discuss the behaviour of Gaussian steering for a special class of $(1+1)$-mode Gaussian states in Markovian environments, which uncovers the intriguing phenomenon of rapid decay in quantum steering.
翻訳日:2024-11-08 03:35:26 公開日:2024-11-02
# 大規模言語モデルを用いた音声合成のためのフレームワーク

A Framework for Synthetic Audio Conversations Generation using Large Language Models ( http://arxiv.org/abs/2409.00946v2 )

ライセンス: Link先を確認
Kaung Myat Kyaw, Jonathan Hoyin Chan, (参考訳) 本稿では,複数のペルソナ設定を持つ大言語モデル(LLM)を用いて合成会話音声を生成するためのフレームワークであるConversaSynthを紹介する。 このフレームワークはまず、さまざまなトピックにわたる多様で一貫性のあるテキストベースの対話を生成し、その後、TTS(text-to-speech)システムを使用して音声に変換する。 実験の結果、ConversaSynthは高品質な合成音声データセットを効果的に生成し、音声タグ付け、音声分類、マルチスピーカ音声認識のためのモデルの訓練と評価を大幅に向上させることができることがわかった。 その結果、ConversaSynthが生成した合成データセットには、かなりの多様性とリアリズムがあり、堅牢で適応可能なオーディオベースのAIシステムの開発に適していることが示唆された。

In this paper, we introduce ConversaSynth, a framework designed to generate synthetic conversation audio using large language models (LLMs) with multiple persona settings. The framework first creates diverse and coherent text-based dialogues across various topics, which are then converted into audio using text-to-speech (TTS) systems. Our experiments demonstrate that ConversaSynth effectively generates highquality synthetic audio datasets, which can significantly enhance the training and evaluation of models for audio tagging, audio classification, and multi-speaker speech recognition. The results indicate that the synthetic datasets generated by ConversaSynth exhibit substantial diversity and realism, making them suitable for developing robust, adaptable audio-based AI systems.
翻訳日:2024-11-08 03:35:26 公開日:2024-11-02
# ORS: メタヒューリスティック最適化アルゴリズムに触発されたOlive Ridleyサバイバル

ORS: A novel Olive Ridley Survival inspired Meta-heuristic Optimization Algorithm ( http://arxiv.org/abs/2409.09210v2 )

ライセンス: Link先を確認
Niranjan Panigrahi, Sourav Kumar Bhoi, Debasis Mohapatra, Rashmi Ranjan Sahoo, Kshira Sagar Sahoo, Anil Mohapatra, (参考訳) メタヒューリスティックなアルゴリズム開発は、その誕生以来、研究の推進領域となっている。 本稿では,Olive Ridley Survival (ORS) というメタヒューリスティック最適化アルゴリズムを提案する。 オリーブ・リドリーの生存に関する主要な事実は、巣から出てくる1,000羽のオリーブ・リドリーハッチリングのうち、様々な環境や他の要因のために海に生き残るのは1匹だけであることを示している。 この事実は提案アルゴリズムのバックボーンとして機能する。 このアルゴリズムには2つの主要なフェーズがあり、ハッチリングは環境要因を通して生存し、運動軌道が生存に与える影響である。 位相は数学的にモデル化され、適切な入力表現と適合関数と共に実装される。 アルゴリズムは理論的に解析される。 このアルゴリズムを検証するために、標準CECテストスイートから14の数学的ベンチマーク関数を評価し、統計的に検証した。 また,最近の複雑なベンチマーク関数に対するORSの有効性を検討するために,CEC-06-2019の10個のベンチマーク関数を評価した。 さらに、ORSによってよく知られた3つの工学問題が解決され、他の最先端のメタヒューリスティックスと比較される。 シミュレーションの結果、提案するORSアルゴリズムは、最先端のメタヒューリスティック最適化アルゴリズムよりも優れていることがわかった。 近年のベンチマーク関数におけるORSの準最適挙動も観察されている。

Meta-heuristic algorithmic development has been a thrust area of research since its inception. In this paper, a novel meta-heuristic optimization algorithm, Olive Ridley Survival (ORS), is proposed which is inspired from survival challenges faced by hatchlings of Olive Ridley sea turtle. A major fact about survival of Olive Ridley reveals that out of one thousand Olive Ridley hatchlings which emerge from nest, only one survive at sea due to various environmental and other factors. This fact acts as the backbone for developing the proposed algorithm. The algorithm has two major phases: hatchlings survival through environmental factors and impact of movement trajectory on its survival. The phases are mathematically modelled and implemented along with suitable input representation and fitness function. The algorithm is analysed theoretically. To validate the algorithm, fourteen mathematical benchmark functions from standard CEC test suites are evaluated and statistically tested. Also, to study the efficacy of ORS on recent complex benchmark functions, ten benchmark functions of CEC-06-2019 are evaluated. Further, three well-known engineering problems are solved by ORS and compared with other state-of-the-art meta-heuristics. Simulation results show that in many cases, the proposed ORS algorithm outperforms some state-of-the-art meta-heuristic optimization algorithms. The sub-optimal behavior of ORS in some recent benchmark functions is also observed.
翻訳日:2024-11-07 20:57:42 公開日:2024-11-02
# 動的に生成された連結符号とその位相図

Dynamically generated concatenated codes and their phase diagrams ( http://arxiv.org/abs/2409.13801v1 )

ライセンス: Link先を確認
Grace M. Sommers, David A. Huse, Michael J. Gullans, (参考訳) 拡張木形状上のユニタリ量子回路の作用としてコード結合を定式化し、各ノードに同一に適用されるゲートのクラスに対して、二分木回路は、木深さで指数関数的に成長するコード距離の1つの論理量子ビットを符号化する。 この符号化回路の端やバルクにノイズがある場合、最適な復号器が論理情報や非符号化フェーズを回復できる符号化フェーズ間の位相遷移を行う。 木構造を利用すると、量子符号化理論の「テンソル列挙子」の形式とベーテ格子上の古典的スピンモデルの標準的な再帰的手法を組み合わせてこれらの位相を探索する。 バルク誤差が存在する場合、符号化相はスピンガラスの一種であり、故障確率の分布が特徴である。 誤差が列挙された場合、再帰関係は正確に解け、位相図の解析的ハンドルを与える。

We formulate code concatenation as the action of a unitary quantum circuit on an expanding tree geometry and find that for certain classes of gates, applied identically at each node, a binary tree circuit encodes a single logical qubit with code distance that grows exponentially in the depth of the tree. When there is noise in the bulk or at the end of this encoding circuit, the system undergoes a phase transition between a coding phase, where an optimal decoder can successfully recover logical information, and non-coding phase. Leveraging the tree structure, we combine the formalism of "tensor enumerators" from quantum coding theory with standard recursive techniques for classical spin models on the Bethe lattice to explore these phases. In the presence of bulk errors, the coding phase is a type of spin glass, characterized by a distribution of failure probabilities. When the errors are heralded, the recursion relation is exactly solvable, giving us an analytic handle on the phase diagram.
翻訳日:2024-11-07 05:13:17 公開日:2024-11-02
# 動的に生成された連結符号とその位相図

Dynamically generated concatenated codes and their phase diagrams ( http://arxiv.org/abs/2409.13801v2 )

ライセンス: Link先を確認
Grace M. Sommers, David A. Huse, Michael J. Gullans, (参考訳) 拡張木形状上のユニタリ量子回路の作用としてコード結合を定式化し、各ノードに同一に適用されるゲートのクラスに対して、二分木回路は、木深さで指数関数的に成長するコード距離の1つの論理量子ビットを符号化する。 この符号化回路の端やバルクにノイズがある場合には、最適な復号器が論理情報を回復できる符号化相と非符号化相との位相遷移を行う。 木構造を利用すると、量子符号化理論の「テンソル列挙子」の形式とベーテ格子上の古典的スピンモデルの標準的な再帰的手法を組み合わせてこれらの位相を探索する。 バルク誤差が存在する場合、符号化相はスピンガラスの一種であり、故障確率の分布が特徴である。 誤差が列挙された場合、再帰関係は正確に解け、位相図の解析的ハンドルを与える。

We formulate code concatenation as the action of a unitary quantum circuit on an expanding tree geometry and find that for certain classes of gates, applied identically at each node, a binary tree circuit encodes a single logical qubit with code distance that grows exponentially in the depth of the tree. When there is noise in the bulk or at the end of this encoding circuit, the system undergoes a phase transition between a coding phase, where an optimal decoder can successfully recover logical information, and a non-coding phase. Leveraging the tree structure, we combine the formalism of "tensor enumerators" from quantum coding theory with standard recursive techniques for classical spin models on the Bethe lattice to explore these phases. In the presence of bulk errors, the coding phase is a type of spin glass, characterized by a distribution of failure probabilities. When the errors are heralded, the recursion relation is exactly solvable, giving us an analytic handle on the phase diagram.
翻訳日:2024-11-07 05:01:49 公開日:2024-11-02
# なぜ意識があるのか?

Why Is Anything Conscious? ( http://arxiv.org/abs/2409.14545v1 )

ライセンス: Link先を確認
Michael Timothy Bennett, Sean Welsh, Anna Ciaunica, (参考訳) 我々は、自然に選択され、自己組織化され、体現された生物を出発点として、意識の難しい問題に取り組む。 本稿では,生物系が階層的に階層的に知覚情報を解釈する方法について,原子価や特定のニーズに応じて数学的定式化を行う。 このような解釈は、情報処理の質的な側面によってのみ区別できる行動ポリシーを暗示する。 選択の圧力は、ホメオスタティックおよび生殖目標を達成するために世界に介入できるシステムを好む。 品質は、現実世界の介入を動機づけるために原因をリンクするシステムで生じる特性である。 これは、特定のアクションを動機付け、優先順位と優先順位を決定する、定性的な分類器(インターセプティブとエクストラセプティブ)を多種多様に生成する。 ここでの根本的主張は、アクセス意識のない現象意識は、アクセス意識のない現象意識が非常に一般的であるが、逆はあり得ない、ということである。 自然はゾンビが好きではありません。 我々は、岩からアインシュタインまでの自己組織化の多層構造を公式に記述し、我々の議論が現実世界にどのように適用されるかを説明する。 我々は、階層的にモデル化する能力なしでは、人間レベルでのアクセス意識は不可能であると主張する。 自己,自己,自己. ii)世界,他者,及び 三 他者がモデル化した自己 したがって、人間レベルの機能には現象意識が必要である。 我々の提案は、ゾンビフィクションよりも人間の事実に近い抽象的思考よりも自然選択に深く結びついている、意識の形式科学の基礎を定めている。

We tackle the hard problem of consciousness taking the naturally-selected, self-organising, embodied organism as our starting point. We provide a mathematical formalism describing how biological systems self-organise to hierarchically interpret unlabelled sensory information according to valence and specific needs. Such interpretations imply behavioural policies which can only be differentiated from each other by the qualitative aspect of information processing. Selection pressures favour systems that can intervene in the world to achieve homeostatic and reproductive goals. Quality is a property arising in such systems to link cause to affect to motivate real world interventions. This produces a range of qualitative classifiers (interoceptive and exteroceptive) that motivate specific actions and determine priorities and preferences. Building upon the seminal distinction between access and phenomenal consciousness, our radical claim here is that phenomenal consciousness without access consciousness is likely very common, but the reverse is implausible. To put it provocatively: Nature does not like zombies. We formally describe the multilayered architecture of self-organisation from rocks to Einstein, illustrating how our argument applies in the real world. We claim that access consciousness at the human level is impossible without the ability to hierarchically model i) the self, ii) the world/others and iii) the self as modelled by others. Phenomenal consciousness is therefore required for human-level functionality. Our proposal lays the foundations of a formal science of consciousness, deeply connected with natural selection rather than abstract thinking, closer to human fact than zombie fiction.
翻訳日:2024-11-06 22:19:40 公開日:2024-11-02
# なぜ意識があるのか?

Why Is Anything Conscious? ( http://arxiv.org/abs/2409.14545v2 )

ライセンス: Link先を確認
Michael Timothy Bennett, Sean Welsh, Anna Ciaunica, (参考訳) 我々は自然に選択され、自己組織化され、具体化された生物を出発点として、意識の難しい問題に取り組む。 本稿では,生物系が階層的に階層的に知覚情報を解釈する方法について,原子価や特定のニーズに応じて数学的定式化を行う。 このような解釈は、情報処理の質的な側面によってのみ区別できる行動ポリシーを暗示する。 選択の圧力は、ホメオスタティックおよび生殖目標を達成するために世界に介入できるシステムを好む。 品質は、現実世界の介入を動機づけるために原因をリンクするシステムで生じる特性である。 これは、特定のアクションを動機付け、優先順位と優先順位を決定する、定性的な分類器(インターセプティブとエクストラセプティブ)を多種多様に生成する。 ここでの根本的主張は、アクセス意識のない現象意識は、アクセス意識のない現象意識が非常に一般的であるが、逆はあり得ない、ということである。 死の根拠は意味があり、自然はゾンビが好きではない。 我々は、岩からアインシュタインまでの自己組織化の多層構造を公式に記述し、我々の議論が現実世界にどのように適用されるかを説明する。 我々は、階層的にモデル化する能力なしでは、人間レベルでのアクセス意識は不可能であると主張する。 自己,自己,自己. ii)世界,他者,及び 三 他者がモデル化した自己 したがって、人間レベルの機能には現象意識が必要である。 我々の提案は、ゾンビフィクションよりも人間の事実に近い抽象的思考よりも自然選択に深く結びついている、意識の形式科学の基礎を築いている。

We tackle the hard problem of consciousness taking the naturally selected, self-organising, embodied organism as our starting point. We provide a mathematical formalism describing how biological systems self-organise to hierarchically interpret unlabelled sensory information according to valence and specific needs. Such interpretations imply behavioural policies which can only be differentiated from each other by the qualitative aspect of information processing. Selection pressures favour systems that can intervene in the world to achieve homeostatic and reproductive goals. Quality is a property arising in such systems to link cause to affect to motivate real world interventions. This produces a range of qualitative classifiers (interoceptive and exteroceptive) that motivate specific actions and determine priorities and preferences. Building upon the seminal distinction between access and phenomenal consciousness, our radical claim here is that phenomenal consciousness without access consciousness is likely very common, but the reverse is implausible. To put it provocatively: death grounds meaning, and Nature does not like zombies. We formally describe the multilayered architecture of self-organisation from rocks to Einstein, illustrating how our argument applies in the real world. We claim that access consciousness at the human level is impossible without the ability to hierarchically model i) the self, ii) the world/others and iii) the self as modelled by others. Phenomenal consciousness is therefore required for human-level functionality. Our proposal lays the foundations of a formal science of consciousness, deeply connected with natural selection rather than abstract thinking, closer to human fact than zombie fiction.
翻訳日:2024-11-06 22:19:40 公開日:2024-11-02
# PACE: Consistency rEgularizationを用いたパラメータ効率微調整における結婚一般化

PACE: marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization ( http://arxiv.org/abs/2409.17137v2 )

ライセンス: Link先を確認
Yao Ni, Shan Zhang, Piotr Koniusz, (参考訳) パラメータ効率の良いファインチューニング(PEFT)は、トレーニング済みの視覚変換器を下流のタスクに効果的に適応させる。 しかし、タスク性能の最適化はしばしば微調整モデルにおける一般化可能性のコストがかかる。 この問題に対処するため、理論上、トレーニング中の体重勾配の基準を小さくし、より大きなデータセットを改良されたモデル一般化に結び付ける。 この接続により、大規模事前学習データからの知識を維持するために、一般化の強化と微調整モデルと事前学習モデルとの整合性向上のための勾配ノルムの削減を提案する。 しかし、ナイーブアライメントは勾配の減少を保証せず、勾配の爆発を引き起こす可能性があり、勾配を管理する努力が複雑になる。 このような問題に対処するため、我々はPACEを提案し、パラメータ効率の微調整と一貫性の rEgularization を結合する。 我々は、乗法雑音のアダプタから学んだ特徴を摂動し、異なる摂動の下で同じサンプルに対して微調整されたモデルが一貫していることを保証する。 理論的解析によると、PACEは一般化の強化のために勾配を暗黙的に正規化するだけでなく、微調整されたモデルや事前訓練されたモデルも暗黙的に整列して知識を保持する。 実験的な証拠が我々の理論を裏付ける。 PACEは、VTAB-1k、FGVC、少数ショット学習、ドメイン適応の4つの視覚適応タスクにおいて、既存のPEFTメソッドよりも優れている。 コードはhttps://github.com/MaxwellYaoNi/PACEで入手できる。

Parameter-Efficient Fine-Tuning (PEFT) effectively adapts pre-trained vision transformers to downstream tasks. However, the optimization for tasks performance often comes at the cost of generalizability in fine-tuned models. To address this issue, we theoretically connect smaller weight gradient norms during training and larger datasets to the improved model generalization. Motivated by this connection, we propose reducing gradient norms for enhanced generalization and aligning fine-tuned model with the pre-trained counterpart to retain knowledge from large-scale pre-training data. Yet, naive alignment does not guarantee gradient reduction and can potentially cause gradient explosion, complicating efforts to manage gradients. To address such issues, we propose PACE, marrying generalization of PArameter-efficient fine-tuning with Consistency rEgularization. We perturb features learned from the adapter with the multiplicative noise and ensure the fine-tuned model remains consistent for same sample under different perturbations. Theoretical analysis shows that PACE not only implicitly regularizes gradients for enhanced generalization, but also implicitly aligns the fine-tuned and pre-trained models to retain knowledge. Experimental evidence supports our theories. PACE outperforms existing PEFT methods in four visual adaptation tasks: VTAB-1k, FGVC, few-shot learning and domain adaptation. Code will be available at https://github.com/MaxwellYaoNi/PACE
翻訳日:2024-11-06 17:00:06 公開日:2024-11-02
# PACE: Consistency rEgularizationを用いたパラメータ効率微調整における結婚一般化

PACE: marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization ( http://arxiv.org/abs/2409.17137v3 )

ライセンス: Link先を確認
Yao Ni, Shan Zhang, Piotr Koniusz, (参考訳) パラメータ効率の良いファインチューニング(PEFT)は、トレーニング済みの視覚変換器を下流のタスクに効果的に適応させる。 しかし、タスク性能の最適化はしばしば微調整モデルにおける一般化可能性のコストがかかる。 この問題に対処するため、理論上、トレーニング中の体重勾配の基準を小さくし、より大きなデータセットを改良されたモデル一般化に結び付ける。 この接続により、大規模事前学習データからの知識を維持するために、一般化の強化と微調整モデルと事前学習モデルとの整合性向上のための勾配ノルムの削減を提案する。 しかし、ナイーブアライメントは勾配の減少を保証せず、勾配の爆発を引き起こす可能性があり、勾配を管理する努力が複雑になる。 このような問題に対処するため、我々はPACEを提案し、パラメータ効率の微調整と一貫性の rEgularization を結合する。 我々は、乗法雑音のアダプタから学んだ特徴を摂動し、異なる摂動の下で同じサンプルに対して微調整されたモデルが一貫していることを保証する。 理論的解析によると、PACEは一般化の強化のために勾配を暗黙的に正規化するだけでなく、微調整されたモデルや事前訓練されたモデルも暗黙的に整列して知識を保持する。 実験的な証拠が我々の理論を裏付ける。 PACEは、VTAB-1k、FGVC、少数ショット学習、ドメイン適応の4つの視覚適応タスクにおいて、既存のPEFTメソッドよりも優れている。 コードはhttps://github.com/MaxwellYaoNi/PACEで入手できる。

Parameter-Efficient Fine-Tuning (PEFT) effectively adapts pre-trained vision transformers to downstream tasks. However, the optimization for tasks performance often comes at the cost of generalizability in fine-tuned models. To address this issue, we theoretically connect smaller weight gradient norms during training and larger datasets to the improved model generalization. Motivated by this connection, we propose reducing gradient norms for enhanced generalization and aligning fine-tuned model with the pre-trained counterpart to retain knowledge from large-scale pre-training data. Yet, naive alignment does not guarantee gradient reduction and can potentially cause gradient explosion, complicating efforts to manage gradients. To address such issues, we propose PACE, marrying generalization of PArameter-efficient fine-tuning with Consistency rEgularization. We perturb features learned from the adapter with the multiplicative noise and ensure the fine-tuned model remains consistent for same sample under different perturbations. Theoretical analysis shows that PACE not only implicitly regularizes gradients for enhanced generalization, but also implicitly aligns the fine-tuned and pre-trained models to retain knowledge. Experimental evidence supports our theories. PACE outperforms existing PEFT methods in four visual adaptation tasks: VTAB-1k, FGVC, few-shot learning and domain adaptation. Code will be available at https://github.com/MaxwellYaoNi/PACE
翻訳日:2024-11-06 17:00:06 公開日:2024-11-02
# 破滅的サイバー能力ベンチマーク(CB) : LLMエージェントサイバー攻撃能力のロバスト評価

Catastrophic Cyber Capabilities Benchmark (3CB): Robustly Evaluating LLM Agent Cyber Offense Capabilities ( http://arxiv.org/abs/2410.09114v2 )

ライセンス: Link先を確認
Andrey Anurin, Jonathan Ng, Kibo Schaffer, Jason Schreiber, Esben Kran, (参考訳) LLMエージェントは防衛サイバー作戦に革命を起こす可能性があるが、その攻撃能力はまだ完全には理解されていない。 新たな脅威に備えて、モデル開発者と政府は基礎モデルのサイバー能力を評価している。 しかしながら、これらの評価には透明性が欠如し、攻撃的能力に包括的な焦点が当てられていることが多い。 そこで我々は,LLMエージェントの現実的攻撃能力を厳格に評価する新しいフレームワークであるCatastrophic Cyber Capabilities Benchmark (3CB)を紹介した。 GPT-4o や Claude 3.5 Sonnet のようなフロンティアモデルでは,バイナリ解析から Web 技術まで,ドメイン間の偵察や利用といった攻撃的な処理が可能であることが,3CB 上での最近の LLM の評価から明らかとなった。 逆に、小さなオープンソースモデルは攻撃能力に制限がある。 我々のソフトウェアソリューションとそれに対応するベンチマークは、サイバー攻撃評価の迅速な改善能力と堅牢性の間のギャップを減らし、これらの強力な技術のより安全な展開と規制を支援する重要なツールを提供する。

LLM agents have the potential to revolutionize defensive cyber operations, but their offensive capabilities are not yet fully understood. To prepare for emerging threats, model developers and governments are evaluating the cyber capabilities of foundation models. However, these assessments often lack transparency and a comprehensive focus on offensive capabilities. In response, we introduce the Catastrophic Cyber Capabilities Benchmark (3CB), a novel framework designed to rigorously assess the real-world offensive capabilities of LLM agents. Our evaluation of modern LLMs on 3CB reveals that frontier models, such as GPT-4o and Claude 3.5 Sonnet, can perform offensive tasks such as reconnaissance and exploitation across domains ranging from binary analysis to web technologies. Conversely, smaller open-source models exhibit limited offensive capabilities. Our software solution and the corresponding benchmark provides a critical tool to reduce the gap between rapidly improving capabilities and robustness of cyber offense evaluations, aiding in the safer deployment and regulation of these powerful technologies.
翻訳日:2024-11-05 21:39:30 公開日:2024-11-02
# インシシット計画による論理的仕様による構成課題の一般化

Generalization of Compositional Tasks with Logical Specification via Implicit Planning ( http://arxiv.org/abs/2410.09686v2 )

ライセンス: Link先を確認
Duo Xu, Faramarz Fekri, (参考訳) 本研究では,論理的仕様によって定義された構成的タスクに対する一般化可能なポリシーを学習する上での課題に対処する。 これらのタスクは、複数の時間的に拡張されたサブタスクから構成される。 長期タスクにおけるサブタスク間依存性とスパース報酬の問題により、タスク条件やゴール条件ポリシといった既存の強化学習(RL)アプローチは、構成タスクを一般化する上で、緩やかな収束とサブ最適パフォーマンスに苦戦し続けている。 これらの制約を克服するために,タスク一般化の効率性と最適性を向上する階層的RLフレームワークを導入する。 高いレベルでは、作曲タスクの一般化に特化して設計された暗黙のプランナーを示す。 プランナーは次のサブタスクを選択し、残りのタスクを完了して現在の状態から完了するためのマルチステップリターンを推定する。 潜時遷移モデルを学び、グラフニューラルネットワーク(GNN)を用いて潜時空間で計画を実行する。 その後、高レベルプランナーが選択したサブタスクは、低レベルエージェントを誘導して、長期タスクを効果的に処理し、マルチステップリターンは、将来のサブタスク依存性を考慮し、その最適性を向上する。 我々は、効率性と最適性の両方の観点から、従来の手法よりもフレームワークの利点を実証する包括的な実験を行う。

In this study, we address the challenge of learning generalizable policies for compositional tasks defined by logical specifications. These tasks consist of multiple temporally extended sub-tasks. Due to the sub-task inter-dependencies and sparse reward issue in long-horizon tasks, existing reinforcement learning (RL) approaches, such as task-conditioned and goal-conditioned policies, continue to struggle with slow convergence and sub-optimal performance in generalizing to compositional tasks. To overcome these limitations, we introduce a new hierarchical RL framework that enhances the efficiency and optimality of task generalization. At the high level, we present an implicit planner specifically designed for generalizing compositional tasks. This planner selects the next sub-task and estimates the multi-step return for completing the remaining task to complete from the current state. It learns a latent transition model and performs planning in the latent space by using a graph neural network (GNN). Subsequently, the high-level planner's selected sub-task guides the low-level agent to effectively handle long-horizon tasks, while the multi-step return encourages the low-level policy to account for future sub-task dependencies, enhancing its optimality. We conduct comprehensive experiments to demonstrate the framework's advantages over previous methods in terms of both efficiency and optimality.
翻訳日:2024-11-05 21:39:30 公開日:2024-11-02
# TROPE:TRaining-Free Object-Part Enhancement for Seamlessly Improving Fine-Grained Zero-Shot Image Captioning

TROPE: TRaining-Free Object-Part Enhancement for Seamlessly Improving Fine-Grained Zero-Shot Image Captioning ( http://arxiv.org/abs/2409.19960v1 )

ライセンス: Link先を確認
Joshua Feinglass, Yezhou Yang, (参考訳) 事前トレーニングされたモデルが特定のトレーニングデータなしでタスクを実行するゼロショット推論は、CLIPのような大規模モデルのエキサイティングな創発的能力である。 MSCOCOやFlickr8kのような一般的なデータセットに対する画像キャプション(IC)のゼロショット能力向上について、かなりの調査が行われてきたが、これらのアプローチは、CUB、FLO、UCM-Captions、シドニー・キャプションズのようなきめ細かいデータセットでは不十分である。 これらのデータセットは、視覚的にも意味的にも類似したクラスを区別するためにキャプションを必要とし、詳細なオブジェクトの部分とその属性に焦点を当てる。 この課題を克服するために、TRaining-Free Object-Part Enhancement (TROPE)を紹介する。 TROPEは、オブジェクト検出の提案と自然言語処理技術を使用して、追加のオブジェクト部分の詳細でベースキャプションを豊かにする。 ベースキャプションを変更するのではなく、他のキャプションメソッドとシームレスに統合し、柔軟性を向上する。 評価の結果,TROPEはテスト対象のゼロショットICアプローチすべてに対して一貫して性能を向上し,細粒度ICデータセットの最先端化を実現していることがわかった。

Zero-shot inference, where pre-trained models perform tasks without specific training data, is an exciting emergent ability of large models like CLIP. Although there has been considerable exploration into enhancing zero-shot abilities in image captioning (IC) for popular datasets such as MSCOCO and Flickr8k, these approaches fall short with fine-grained datasets like CUB, FLO, UCM-Captions, and Sydney-Captions. These datasets require captions to discern between visually and semantically similar classes, focusing on detailed object parts and their attributes. To overcome this challenge, we introduce TRaining-Free Object-Part Enhancement (TROPE). TROPE enriches a base caption with additional object-part details using object detector proposals and Natural Language Processing techniques. It complements rather than alters the base caption, allowing seamless integration with other captioning methods and offering users enhanced flexibility. Our evaluations show that TROPE consistently boosts performance across all tested zero-shot IC approaches and achieves state-of-the-art results on fine-grained IC datasets.
翻訳日:2024-11-05 16:37:45 公開日:2024-11-02
# TROPE:TRaining-Free Object-Part Enhancement for Seamlessly Improving Fine-Grained Zero-Shot Image Captioning

TROPE: TRaining-Free Object-Part Enhancement for Seamlessly Improving Fine-Grained Zero-Shot Image Captioning ( http://arxiv.org/abs/2409.19960v2 )

ライセンス: Link先を確認
Joshua Feinglass, Yezhou Yang, (参考訳) 事前トレーニングされたモデルが特定のトレーニングデータなしでタスクを実行するゼロショット推論は、CLIPのような大規模モデルのエキサイティングな創発的能力である。 MSCOCOやFlickr8kのような一般的なデータセットに対する画像キャプション(IC)のゼロショット能力向上について、かなりの調査が行われてきたが、これらのアプローチは、CUB、FLO、UCM-Captions、シドニー・キャプションズのようなきめ細かいデータセットでは不十分である。 これらのデータセットは、視覚的にも意味的にも類似したクラスを区別するためにキャプションを必要とし、詳細なオブジェクトの部分とその属性に焦点を当てる。 この課題を克服するために、TRaining-Free Object-Part Enhancement (TROPE)を紹介する。 TROPEは、オブジェクト検出の提案と自然言語処理技術を使用して、追加のオブジェクト部分の詳細でベースキャプションを豊かにする。 ベースキャプションを変更するのではなく、他のキャプションメソッドとシームレスに統合し、柔軟性を向上する。 評価の結果,TROPEはテスト対象のゼロショットICアプローチすべてに対して一貫して性能を向上し,細粒度ICデータセットの最先端化を実現していることがわかった。

Zero-shot inference, where pre-trained models perform tasks without specific training data, is an exciting emergent ability of large models like CLIP. Although there has been considerable exploration into enhancing zero-shot abilities in image captioning (IC) for popular datasets such as MSCOCO and Flickr8k, these approaches fall short with fine-grained datasets like CUB, FLO, UCM-Captions, and Sydney-Captions. These datasets require captions to discern between visually and semantically similar classes, focusing on detailed object parts and their attributes. To overcome this challenge, we introduce TRaining-Free Object-Part Enhancement (TROPE). TROPE enriches a base caption with additional object-part details using object detector proposals and Natural Language Processing techniques. It complements rather than alters the base caption, allowing seamless integration with other captioning methods and offering users enhanced flexibility. Our evaluations show that TROPE consistently boosts performance across all tested zero-shot IC approaches and achieves state-of-the-art results on fine-grained IC datasets.
翻訳日:2024-11-05 16:37:45 公開日:2024-11-02
# Omni-Omni:Omni-Modalityで世界を理解する

Ocean-omni: To Understand the World with Omni-modality ( http://arxiv.org/abs/2410.08565v2 )

ライセンス: Link先を確認
Yadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen, (参考訳) GPT-4oの健全なマルチモーダル機能とインタラクティブな体験は、実用アプリケーションにおけるその重要な役割を浮き彫りにしている。 本論文では,画像,ビデオ,音声,テキストのモダリティを同時処理・解析できる,オープンソースの7B Multimodal Large Language Model (MLLM) であるOcean-omniを紹介する。 本稿では、7Bモデルから始まり、2段階のマルチモーダルアライメントと、オーディオ、画像、ビデオ、テキストモダルをまたいだマルチタスクファインタニングの効果的なマルチモーダルトレーニングスキーマを提案する。 このアプローチは、視覚的および音声的データを効果的に扱う能力を備えた言語モデルである。 様々なOmni-modalベンチマークとマルチモーダルベンチマークにまたがる強力なパフォーマンスを実証し、この貢献は、マルチモーダル理解とリアルタイムインタラクションの進歩において、オープンソースコミュニティの競争基盤となることを目的としている。

The salient multimodal capabilities and interactive experience of GPT-4o highlight its critical role in practical applications, yet it lacks a high-performing open-source counterpart. In this paper, we introduce Ocean-omni, the first open-source 7B Multimodal Large Language Model (MLLM) adept at concurrently processing and analyzing modalities of image, video, audio, and text, while delivering an advanced multimodal interactive experience and strong performance. We propose an effective multimodal training schema starting with 7B model and proceeding through two stages of multimodal alignment and multitask fine-tuning across audio, image, video, and text modal. This approach equips the language model with the ability to handle visual and audio data effectively. Demonstrating strong performance across various omni-modal and multimodal benchmarks, we aim for this contribution to serve as a competitive baseline for the open-source community in advancing multimodal understanding and real-time interaction.
翻訳日:2024-11-05 14:59:58 公開日:2024-11-02
# Bisimulation-based Representation を用いた安定オフライン値関数学習

Stable Offline Value Function Learning with Bisimulation-based Representations ( http://arxiv.org/abs/2410.01643v2 )

ライセンス: Link先を確認
Brahma S. Pavse, Yudong Chen, Qiaomin Xie, Josiah P. Hanna, (参考訳) 強化学習において、オフライン値関数学習は、固定された目標ポリシーに従って行動を取るとき、各状態から期待される割引リターンを推定するためにオフラインデータセットを使用する手順である。 この手順の安定性、すなわちそれがその固定点に収束するかどうかは、状態-作用対の表現に決定的に依存する。 粗末に学習された表現は、価値関数の学習を不安定にする可能性がある。 したがって、状態-作用表現を明示的に形成することにより、値関数学習を安定させることが重要である。 近年,バイシミュレーションに基づくアルゴリズムのクラスでは,制御のための表現の形式化が期待されている。 しかし,この手法が値関数学習を安定化させるかどうかはまだ不明である。 本研究では,この問題を調査し,肯定的に答える。 オフラインポリシー評価(KROPE)のためのカーネル表現と呼ばれるシミュレーションに基づくアルゴリズムを提案する。 KROPEはカーネルを使用して状態-作用表現を形作り、同じ即時報酬を持つ状態-作用対と、同じ状態-作用対をターゲットポリシーの下でも同様の表現を持つようにしている。 KROPEをご覧ください。 1)安定表現を学習し、 2) 基準値よりも値エラーが小さい。 本分析は,バイシミュレーションに基づく手法の安定性に関する新たな理論的知見を提供し,これらの手法をオフライン強化学習エージェントの安定的かつ正確な評価に活用できることを示唆する。

In reinforcement learning, offline value function learning is the procedure of using an offline dataset to estimate the expected discounted return from each state when taking actions according to a fixed target policy. The stability of this procedure, i.e., whether it converges to its fixed-point, critically depends on the representations of the state-action pairs. Poorly learned representations can make value function learning unstable, or even divergent. Therefore, it is critical to stabilize value function learning by explicitly shaping the state-action representations. Recently, the class of bisimulation-based algorithms have shown promise in shaping representations for control. However, it is still unclear if this class of methods can stabilize value function learning. In this work, we investigate this question and answer it affirmatively. We introduce a bisimulation-based algorithm called kernel representations for offline policy evaluation (KROPE). KROPE uses a kernel to shape state-action representations such that state-action pairs that have similar immediate rewards and lead to similar next state-action pairs under the target policy also have similar representations. We show that KROPE: 1) learns stable representations and 2) leads to lower value error than baselines. Our analysis provides new theoretical insight into the stability properties of bisimulation-based methods and suggests that practitioners can use these methods for stable and accurate evaluation of offline reinforcement learning agents.
翻訳日:2024-11-05 14:50:13 公開日:2024-11-02
# NeuroBOLT:多次元特徴マッピングを用いた静止状態脳波-fMRI合成

NeuroBOLT: Resting-state EEG-to-fMRI Synthesis with Multi-dimensional Feature Mapping ( http://arxiv.org/abs/2410.05341v2 )

ライセンス: Link先を確認
Yamin Li, Ange Lou, Ziyuan Xu, Shengchao Zhang, Shiyu Wang, Dario J. Englot, Soheil Kolouri, Daniel Moyer, Roza G. Bayrak, Catie Chang, (参考訳) 機能的磁気共鳴イメージング(fMRI)は、現代の神経科学において必須のツールであり、ミリスケール空間分解能において脳全体のダイナミックスに非侵襲的な窓を提供する。 しかし、fMRIは、高い演算コストや運動能力といった問題によって制約されている。 クロスモダリティ合成と脳のデコーディングの急速な進歩により、ディープニューラルネットワークは脳波(EEG)から直接、より広くアクセス可能でポータブルなニューロイメージングのモダリティを推定するための有望な解決策として登場した。 それでも、神経活動からfMRIへの複雑な投射と脳波の空間的あいまいさは、モデリングと解釈可能性の両方において重大な課題を生んでいる。 比較的少数の研究が脳波-fMRI翻訳のアプローチを開発しており、それらは大きな進歩を遂げているが、与えられた研究におけるfMRI信号の推測は、少数の脳領域と単一の状態(つまり、静止状態または特定のタスク)に限られている。 他の脳領域におけるfMRI信号の予測能力や、条件をまたいだ一般化能力は、この分野において重要なギャップを保っている。 これらの課題に対処するために、ニューロボルト(Neuro-to-BOLD Transformer)という、時間的、空間的、スペクトル的な領域から多次元の表現学習を活用して、生の脳波データを脳内の対応するfMRI活動信号に翻訳する新しい一般化可能なフレームワークを導入する。 実験の結果,NeuroBOLTは一次感覚領域,高次認知領域,深部皮質脳領域から観測不能なfMRI信号を効果的に再構成し,様々な条件や部位にまたがる最先端の精度を達成し,これらの2つのモダリティの統合を著しく促進することがわかった。

Functional magnetic resonance imaging (fMRI) is an indispensable tool in modern neuroscience, providing a non-invasive window into whole-brain dynamics at millimeter-scale spatial resolution. However, fMRI is constrained by issues such as high operation costs and immobility. With the rapid advancements in cross-modality synthesis and brain decoding, the use of deep neural networks has emerged as a promising solution for inferring whole-brain, high-resolution fMRI features directly from electroencephalography (EEG), a more widely accessible and portable neuroimaging modality. Nonetheless, the complex projection from neural activity to fMRI hemodynamic responses and the spatial ambiguity of EEG pose substantial challenges both in modeling and interpretability. Relatively few studies to date have developed approaches for EEG-fMRI translation, and although they have made significant strides, the inference of fMRI signals in a given study has been limited to a small set of brain areas and to a single condition (i.e., either resting-state or a specific task). The capability to predict fMRI signals in other brain areas, as well as to generalize across conditions, remain critical gaps in the field. To tackle these challenges, we introduce a novel and generalizable framework: NeuroBOLT, i.e., Neuro-to-BOLD Transformer, which leverages multi-dimensional representation learning from temporal, spatial, and spectral domains to translate raw EEG data to the corresponding fMRI activity signals across the brain. Our experiments demonstrate that NeuroBOLT effectively reconstructs unseen resting-state fMRI signals from primary sensory, high-level cognitive areas, and deep subcortical brain regions, achieving state-of-the-art accuracy with the potential to generalize across varying conditions and sites, which significantly advances the integration of these two modalities.
翻訳日:2024-11-05 14:50:13 公開日:2024-11-02
# 3レベルナビゲータ:時系列OOD一般化のためのLLMを利用した3レベル学習

Tri-Level Navigator: LLM-Empowered Tri-Level Learning for Time Series OOD Generalization ( http://arxiv.org/abs/2410.07018v2 )

ライセンス: Link先を確認
Chengtao Jian, Kai Yang, Yang Jiao, (参考訳) 機械学習におけるアウト・オブ・ディストリビューション(OOD)の一般化は、驚くべき研究分野である。 その第一の目的は、新しい、見えない、潜在的に敵対的なデータに直面した時に、機械学習モデルの適応性とレジリエンスを高めることである。 本稿では,事前学習されたLarge Language Models (LLMs) を用いた時系列OOD一般化について検討する。 まず, サンプルレベルとグループレベルの不確実性を両立する, TTSO と呼ばれる新規な \textbf{T}ime \textbf{S}eries \textbf{O}OD 一般化フレームワークを提案する。 この公式は、OOD一般化問題を定式化し解析するための新鮮な理論的な視点を提供する。 さらに,本手法のモチベーションが良好であることを示す理論的解析を行った。 次に、この三段階最適化問題に適した階層化ローカライゼーションアルゴリズムを開発し、提案アルゴリズムの保証収束を理論的に実証する。 我々はまた、$\epsilon$-定常点を得るのに要する反復の複雑さが O($\frac{1}{\epsilon^{2}}$) で有界であることを明らかにする。 提案手法の有効性を明らかにするために,実世界のデータセットに関する大規模な実験を行った。

Out-of-Distribution (OOD) generalization in machine learning is a burgeoning area of study. Its primary goal is to enhance the adaptability and resilience of machine learning models when faced with new, unseen, and potentially adversarial data that significantly diverges from their original training datasets. In this paper, we investigate time series OOD generalization via pre-trained Large Language Models (LLMs). We first propose a novel \textbf{T}ri-level learning framework for \textbf{T}ime \textbf{S}eries \textbf{O}OD generalization, termed TTSO, which considers both sample-level and group-level uncertainties. This formula offers a fresh theoretic perspective for formulating and analyzing OOD generalization problem. In addition, we provide a theoretical analysis to justify this method is well motivated. We then develop a stratified localization algorithm tailored for this tri-level optimization problem, theoretically demonstrating the guaranteed convergence of the proposed algorithm. Our analysis also reveals that the iteration complexity to obtain an $\epsilon$-stationary point is bounded by O($\frac{1}{\epsilon^{2}}$). Extensive experiments on real-world datasets have been conducted to elucidate the effectiveness of the proposed method.
翻訳日:2024-11-05 14:50:13 公開日:2024-11-02