論文の概要: Learning to Look at the Other Side: A Semantic Probing Study of Word Embeddings in LLMs with Enabled Bidirectional Attention
- arxiv url: http://arxiv.org/abs/2510.01652v1
- Date: Thu, 02 Oct 2025 04:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.984205
- Title: Learning to Look at the Other Side: A Semantic Probing Study of Word Embeddings in LLMs with Enabled Bidirectional Attention
- Title(参考訳): LLMにおける単語埋め込みのセマンティックな検証
- Authors: Zhaoxin Feng, Jianfei Ma, Emmanuele Chersoni, Xiaojing Zhao, Xiaoyi Bao,
- Abstract要約: 自己回帰型大規模言語モデル(LLM)は、言語理解と生成において例外的な性能を示す。
本稿は,LLMにおいて双方向の注意を喚起することで,そのような制約を克服できるかどうかを検討することを目的とする。
- 参考スコア(独自算出の注目度): 18.198891539047576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive Large Language Models (LLMs) demonstrate exceptional performance in language understanding and generation. However, their application in text embedding tasks has been relatively slow, along with the analysis of their semantic representation in probing tasks, due to the constraints of the unidirectional attention mechanism. This paper aims to explore whether such constraints can be overcome by enabling bidirectional attention in LLMs. We tested different variants of the Llama architecture through additional training steps, progressively enabling bidirectional attention and unsupervised/supervised contrastive learning.
- Abstract(参考訳): 自己回帰型大規模言語モデル(LLM)は、言語理解と生成において例外的な性能を示す。
しかし、テキスト埋め込みタスクへのそれらの適用は、一方向の注意機構の制約により、探索タスクにおける意味表現の分析とともに、比較的遅くなっている。
本稿は,LLMにおいて双方向の注意を喚起することで,そのような制約を克服できるかどうかを検討することを目的とする。
我々は、Llamaアーキテクチャの異なるバリエーションを追加のトレーニングステップでテストし、双方向の注意と教師なし/教師なしのコントラスト学習を段階的に可能にした。
関連論文リスト
- Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - PromptExp: Multi-granularity Prompt Explanation of Large Language Models [16.259208045898415]
PromptExpは,トークンレベルの洞察を集約することで,複数の粒度を自動生成するフレームワークである。
PromptExpは、ホワイトボックスとブラックボックスの説明の両方をサポートし、説明をより高い粒度レベルまで拡張する。
PromptExpを感情分析などのケーススタディで評価し,摂動に基づくアプローチが優れていることを示す。
論文 参考訳(メタデータ) (2024-10-16T22:25:15Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。