論文の概要: Higher-order interactions of multi-layer prompt
- arxiv url: http://arxiv.org/abs/2510.09394v2
- Date: Thu, 16 Oct 2025 15:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 14:17:28.079227
- Title: Higher-order interactions of multi-layer prompt
- Title(参考訳): 多層プロンプトの高次相互作用
- Authors: Ziyu Zheng, Yaming Yang, Ziyu Guan, Wei Zhao, Xinyan Huang, Weigang Lu,
- Abstract要約: 「プレトレイン・プロンプト」パラダイムは表現学習において成功している。
現在のプロンプトチューニング手法は、プロンプトを異なるネットワーク層にまたがる独立した独立したコンポーネントとして扱う。
本稿では,多層プロンプトの高次相互作用を明示的にモデル化する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.205298192935313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The "pre-train, prompt" paradigm has successfully evolved in representation learning. While current prompt-tuning methods often introduce learnable prompts, they predominantly treat prompts as isolated, independent components across different network layers. This overlooks the complex and synergistic higher-order interactions that exist between prompts at various hierarchical depths, consequently limiting the expressive power and semantic richness of the prompted model. To address this fundamental gap, we propose a novel framework that explicitly models the Higher-order Interactions of Multi-layer Prompt. Our approach conceptualizes prompts from different layers not as separate entities, but as a cohesive system where their inter-relationships are critical. We design an innovative interaction module that captures these sophisticated, non-linear correlations among multi-layer prompts, effectively modeling their cooperative effects. This allows the model to dynamically aggregate and refine prompt information across the network's depth, leading to a more integrated and powerful prompting strategy. Extensive experiments on eight benchmark datasets demonstrate that our method, by leveraging these higher-order interactions, consistently surpasses state-of-the-art prompt-tuning baselines. The performance advantage is particularly pronounced in few-shot scenarios, validating that capturing the intricate interplay between multi-layer prompts is key to unlocking more robust and generalizable representation learning.
- Abstract(参考訳): プレトレイン、プロンプト」パラダイムは表現学習においてうまく進化してきた。
現在のプロンプトチューニング手法は学習可能なプロンプトを導入することが多いが、主に異なるネットワーク層にまたがる独立した独立したコンポーネントとしてプロンプトを扱う。
これは、様々な階層的な深さのプロンプトの間に存在する複雑でシナジスティックな高次相互作用を見落とし、結果として、引き起こされるモデルの表現力と意味的なリッチさを制限する。
この基本的なギャップに対処するため、我々は多層プロンプトの高次相互作用を明示的にモデル化する新しいフレームワークを提案する。
本手法は, 異なる層からのプロンプトを個別の実体ではなく, 相互関係が重要となる凝集系として概念化する。
我々は、これらの高度で非線形な関係を多層プロンプト間で捉え、協調効果を効果的にモデル化する革新的な相互作用モジュールを設計する。
これにより、モデルはネットワークの深さをまたいだプロンプト情報を動的に集約し、洗練し、より統合され強力なプロンプト戦略へと導くことができる。
8つのベンチマークデータセットの大規模な実験により、これらの高次相互作用を活用することで、我々の手法が最先端のプロンプトチューニングベースラインを一貫して超越していることが示される。
パフォーマンス上の優位性は特に、多層プロンプト間の複雑な相互作用をキャプチャすることが、より堅牢で一般化可能な表現学習の鍵であることを証明している。
関連論文リスト
- Agentic Conversational Search with Contextualized Reasoning via Reinforcement Learning [66.52010873968383]
本稿では,RL学習を通じて学習した探索的,適応的な行動を可能にする,交互に探索と推論をインターリーブする対話エージェントを提案する。
広く使われている4つの対話型ベンチマークによる実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-19T14:55:54Z) - Enhancing Visual In-Context Learning by Multi-Faceted Fusion [6.852150407828682]
単発核融合を超越した新しい枠組みを導入し, 共同核融合の実現を目指す。
提案手法は,3つの文脈表現分岐を生成し,それぞれがトップクオリティプロンプトの異なる組み合わせから情報を統合することによって生成する。
前景のセグメンテーション、単一対象の検出、画像のカラー化など様々なタスクの実験は、その強力なクロスタスクの一般化を強調している。
論文 参考訳(メタデータ) (2026-01-15T06:25:09Z) - Guiding Mixture-of-Experts with Temporal Multimodal Interactions [30.728093182390364]
本稿では,時間的相互作用を定量化してMoEルーティングをガイドする新しいフレームワークを提案する。
マルチモーダルなインタラクション対応ルータは、インタラクションの性質に基づいて、トークンを専門家にディスパッチする方法を学ぶ。
論文 参考訳(メタデータ) (2025-09-30T02:26:31Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - HeLoFusion: An Efficient and Scalable Encoder for Modeling Heterogeneous and Multi-Scale Interactions in Trajectory Prediction [11.30785902722196]
HeLoFusionは、異種およびマルチスケールエージェントインタラクションをモデリングするための効率的でスケーラブルなエンコーダである。
本研究は,マルチスケールおよび異種相互作用を明示的にモデル化した局所性グラウンドアーキテクチャが,動き予測を推し進めるための極めて効果的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-09-15T09:19:41Z) - Boosting Neural Language Inference via Cascaded Interactive Reasoning [38.125341836302525]
自然言語推論(NLI)は、与えられた前提と仮説の間の論理的関係の確認に焦点を当てている。
この課題は、多様な言い回し、意味的複雑さ、文脈的ニュアンスといった固有の言語的特徴により、重大な課題を提起する。
NLIにおける深い意味理解のために設計された新しいアーキテクチャであるCascaded Interactive Reasoning Network (CIRN)を紹介する。
論文 参考訳(メタデータ) (2025-05-10T11:37:15Z) - Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision? [62.12375949429938]
本稿では,事前学習したグラフニューラルネットワークを下流タスクやデータに適用するためのマルチモーダル・プロンプト学習パラダイムを提案する。
我々の新しいパラダイムは、グラフプロンプトとテキストプロンプトの両方を同時に学習することで、Large Language Models(LLM)と直接同じ空間にグラフを埋め込む。
私たちは、GNNを極めて弱いテキスト管理で見えないクラスに一般化できるCLIPスタイルのゼロショット分類プロトタイプを構築した。
論文 参考訳(メタデータ) (2024-12-11T08:03:35Z) - Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。
このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。
複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-26T18:38:38Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - ULTRA-DP: Unifying Graph Pre-training with Multi-task Graph Dual Prompt [67.8934749027315]
本稿では,タスク識別と位置識別をGNNに注入する,グラフハイブリッド事前学習のための統合フレームワークを提案する。
また,約$k$-nearest隣人のグループに基づいた,新しい事前学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:11:13Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。