論文の概要: Learning to Look at the Other Side: A Semantic Probing Study of Word Embeddings in LLMs with Enabled Bidirectional Attention
- arxiv url: http://arxiv.org/abs/2510.01652v1
- Date: Thu, 02 Oct 2025 04:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.984205
- Title: Learning to Look at the Other Side: A Semantic Probing Study of Word Embeddings in LLMs with Enabled Bidirectional Attention
- Title(参考訳): LLMにおける単語埋め込みのセマンティックな検証
- Authors: Zhaoxin Feng, Jianfei Ma, Emmanuele Chersoni, Xiaojing Zhao, Xiaoyi Bao,
- Abstract要約: 自己回帰型大規模言語モデル(LLM)は、言語理解と生成において例外的な性能を示す。
本稿は,LLMにおいて双方向の注意を喚起することで,そのような制約を克服できるかどうかを検討することを目的とする。
- 参考スコア(独自算出の注目度): 18.198891539047576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive Large Language Models (LLMs) demonstrate exceptional performance in language understanding and generation. However, their application in text embedding tasks has been relatively slow, along with the analysis of their semantic representation in probing tasks, due to the constraints of the unidirectional attention mechanism. This paper aims to explore whether such constraints can be overcome by enabling bidirectional attention in LLMs. We tested different variants of the Llama architecture through additional training steps, progressively enabling bidirectional attention and unsupervised/supervised contrastive learning.
- Abstract(参考訳): 自己回帰型大規模言語モデル(LLM)は、言語理解と生成において例外的な性能を示す。
しかし、テキスト埋め込みタスクへのそれらの適用は、一方向の注意機構の制約により、探索タスクにおける意味表現の分析とともに、比較的遅くなっている。
本稿は,LLMにおいて双方向の注意を喚起することで,そのような制約を克服できるかどうかを検討することを目的とする。
我々は、Llamaアーキテクチャの異なるバリエーションを追加のトレーニングステップでテストし、双方向の注意と教師なし/教師なしのコントラスト学習を段階的に可能にした。
関連論文リスト
- Synergizing Understanding and Generation with Interleaved Analyzing-Drafting Thinking [154.2388970262703]
Unified Vision-Language Models (UVLM) は、単一のフレームワーク内での理解と生成の両方をサポートすることで、マルチモーダル学習を促進することを目的としている。
本稿では,解析処理と起案処理を交互に行う新たな思考パラダイムである,インターリーブド・アナライジング・ドレイティング問題解決ループ(AD-Loop)を紹介する。
テキスト思考を視覚的思考とインターリーブすることで、AD-Loopはモデルが理解と出力の両方を反復的に洗練し、真のシナジーを育むことができる。
論文 参考訳(メタデータ) (2026-02-24T23:26:09Z) - Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。
RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文 参考訳(メタデータ) (2026-01-07T16:16:10Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Identifying and Manipulating Personality Traits in LLMs Through Activation Engineering [0.0]
本研究は「アクティベーション・エンジニアリング」の新たなアプローチに基づくものである。
我々は,アクティベーションエンジニアリングを活用し,性格特性に関連するアクティベーション方向を識別・調整する手法を開発した。
論文 参考訳(メタデータ) (2024-12-10T23:15:25Z) - SMoLoRA: Exploring and Defying Dual Catastrophic Forgetting in Continual Visual Instruction Tuning [16.873306091966693]
視覚的インストラクションチューニングにより、大規模な言語モデル(MLLM)は、言語ベースのインストラクションとしてフレーミングすることで、幅広い視覚タスクを処理できる。
CVITでは,MLLMが学習した視覚的理解を忘れ,学習能力の低下を経験する。
本稿では,2つの異なるモジュール間の分離可能なルーティングを視覚的理解に利用したSMOLoRA(Separable Mixture of Low-Rank Adaptation)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-11-21T09:00:15Z) - PromptExp: Multi-granularity Prompt Explanation of Large Language Models [16.259208045898415]
PromptExpは,トークンレベルの洞察を集約することで,複数の粒度を自動生成するフレームワークである。
PromptExpは、ホワイトボックスとブラックボックスの説明の両方をサポートし、説明をより高い粒度レベルまで拡張する。
PromptExpを感情分析などのケーススタディで評価し,摂動に基づくアプローチが優れていることを示す。
論文 参考訳(メタデータ) (2024-10-16T22:25:15Z) - Advancing Prompt Learning through an External Layer [24.77977865016954]
本稿では,新しい外部層(EnLa)を備えたEnPromptというパラダイムを提案する。
学習可能な外部レイヤは、トレーニング済みのCLIPの有効な埋め込みに基づいて構築される。
4つの実験により,本手法が既存の即時学習法より優れていることが示された。
論文 参考訳(メタデータ) (2024-07-29T03:30:09Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。