Fugu-MT 論文翻訳(概要): How do Language Models Bind Entities in Context?

論文の概要: How do Language Models Bind Entities in Context?

arxiv url: http://arxiv.org/abs/2310.17191v2
Date: Mon, 6 May 2024 10:09:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-08 00:35:16.005150
Title: How do Language Models Bind Entities in Context?
Title（参考訳）: 言語モデルがコンテキスト内のバインディングエンティティをどのように行うか?
Authors: Jiahai Feng, Jacob Steinhardt,
Abstract要約: 言語モデル(LM)は、エンティティを属性にバインドし、コンテキスト内情報を正しく使用する必要がある。我々はバインディングIDのメカニズムを同定し、バインディング問題を解くための一般的なメカニズムを示す。本研究は,テキスト上での記号的知識を表現するためのLMの解釈可能な戦略を明らかにする。
参考スコア（独自算出の注目度）: 31.529253469951062
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: To correctly use in-context information, language models (LMs) must bind entities to their attributes. For example, given a context describing a "green square" and a "blue circle", LMs must bind the shapes to their respective colors. We analyze LM representations and identify the binding ID mechanism: a general mechanism for solving the binding problem, which we observe in every sufficiently large model from the Pythia and LLaMA families. Using causal interventions, we show that LMs' internal activations represent binding information by attaching binding ID vectors to corresponding entities and attributes. We further show that binding ID vectors form a continuous subspace, in which distances between binding ID vectors reflect their discernability. Overall, our results uncover interpretable strategies in LMs for representing symbolic knowledge in-context, providing a step towards understanding general in-context reasoning in large-scale LMs.
Abstract（参考訳）: コンテキスト内情報を正しく利用するには、言語モデル(LM)が属性にエンティティをバインドしなければならない。例えば、「緑色の四角」と「青い円」を記述する文脈が与えられた場合、LMはそれぞれの色に形を結び付けなければならない。我々はLM表現を解析し、結合ID機構を同定する: 結合問題を解くための一般的なメカニズムであり、ピチアファミリーとLLaMAファミリーから十分に大きなモデルをすべて観察する。因果的介入を用いて, LMの内部アクティベーションは, 結合IDベクトルを対応するエンティティや属性にアタッチすることで, 結合情報を表すことを示す。さらに,結合IDベクトルが連続部分空間を形成し,結合IDベクトル間の距離がその識別可能性を反映していることを示す。全体として,本研究は,大規模LMにおける一般的な文脈内推論の理解に向けてのステップとなる,コンテキスト内の記号的知識を表現するためのLMの解釈可能な戦略を明らかにした。

関連論文リスト

Visual symbolic mechanisms: Emergent symbol processing in vision language models [1.0923877073891446]
視覚言語モデル(VLM)におけるバインディングをサポートする創発的シンボリック機構のセットを同定する。バインディングエラーがこれらのメカニズムの障害に直接トレースできることが分かりました。これらの結果は、VLMにおけるシンボルライクな処理をサポートするメカニズムに光を当て、これらのモデルが示す永続的な結合障害に対処するための道筋を示唆している。
論文参考訳（メタデータ） (2025-06-18T20:35:44Z)
On Entity Identification in Language Models [22.988199295121134]
言語モデル(LM)の内部表現は、名前付きエンティティの言及を識別し、区別する。まず、エンティティの言及の曖昧さと可変性という2つの問題を定式化します。本稿では,クラスタリング品質指標に類似したフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-03T09:55:21Z)
Investigating Mechanisms for In-Context Vision Language Binding [17.440725558041258]
VLM(Vision-Language Model)は、画像を認識し、テキストを理解し、両方のモダリティ内で関連性を構築する必要がある。例えば、「赤いおもちゃの車のイメージ」が与えられたら、このイメージを「車」、「赤いおもちゃ」、「赤い物体」などのフレーズに関連づけるべきである。
論文参考訳（メタデータ） (2025-05-28T10:25:43Z)
Language Models use Lookbacks to Track Beliefs [51.92689607136242]
我々は,Llama-3-70B-Instructが文字の信念を因果媒介と抽象化を用いて推論する能力について分析する。我々の研究は、LMの信念追跡機構に関する洞察を提供し、LMにおけるToM推論のリバースエンジニアリングに向けた一歩を踏み出した。
論文参考訳（メタデータ） (2025-05-20T17:59:45Z)
The Representation and Recall of Interwoven Structured Knowledge in LLMs: A Geometric and Layered Analysis [0.0]
大規模言語モデル(LLM)はトランスフォーマー層にまたがる多関連属性を表現し、リコールする。中間層は、重なり合う空間における関連属性を重畳することによって、事実知識を符号化する。後の層は言語パターンを洗練し属性表現を段階的に分離します
論文参考訳（メタデータ） (2025-02-15T18:08:51Z)
Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文参考訳（メタデータ） (2024-12-24T16:38:04Z)
Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文参考訳（メタデータ） (2024-12-17T01:54:08Z)
Representational Analysis of Binding in Language Models [21.567939573751254]
言語モデル(LM)は、あるエンティティのリコール属性に対してエンティティをその属性にバインドしなければならない。 LMの活性化には低ランク部分空間が存在し、主にエンティティと属性の順序(すなわち OI)を符号化する。また、OIエンコーディング方向に沿って表現を編集する場合、LMは与えられた実体を他の属性に結合する傾向にあるような結合に対するOIの因果効果も発見する。
論文参考訳（メタデータ） (2024-09-09T09:04:56Z)
ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。 ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文参考訳（メタデータ） (2024-06-17T08:39:16Z)
Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文参考訳（メタデータ） (2024-06-06T16:35:36Z)
Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文参考訳（メタデータ） (2024-05-28T09:12:44Z)
RAGE Against the Machine: Retrieval-Augmented LLM Explanations [17.707251978644486]
RAGEはLarge Language Models(LLM)を説明するインタラクティブツールである我々の説明は、入力コンテキストの一部を特定するという意味で、LLMに対する質問に対する回答を変更するという意味では非現実的である。 RAGEには、考えられる説明の広大な空間をナビゲートするプルーニングメソッドが含まれており、ユーザは生成された回答の成果を見ることができる。
論文参考訳（メタデータ） (2024-05-11T19:08:38Z)
Two Heads Are Better Than One: Integrating Knowledge from Knowledge Graphs and Large Language Models for Entity Alignment [31.70064035432789]
LLMEA(Large Language Model-enhanced Entity Alignment Framework)を提案する。 LLMEAは、知識グラフにまたがるエンティティ間の類似性を埋め込んだり、仮想の等価エンティティとの距離を編集することで、特定のエンティティの候補アライメントを識別する。 3つの公開データセットで実施された実験により、LLMEAが主要なベースラインモデルを上回ることが判明した。
論文参考訳（メタデータ） (2024-01-30T12:41:04Z)
Exploiting Contextual Target Attributes for Target Sentiment Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文参考訳（メタデータ） (2023-12-21T11:45:28Z)
Word Embeddings Are Steers for Language Models [57.83026781380927]
このようなステアをLM-Steersと呼び、すべてのサイズのLMに存在するものを見つけます。言語モデルのデトックス化や感情制御といったタスクでは、LM-Steersは同等または優れたパフォーマンスを達成することができる。 LM-Steerは明示的な形式計算により異なる言語モデル間で転送可能である。
論文参考訳（メタデータ） (2023-05-22T07:52:04Z)
Empowering Language Models with Knowledge Graph Reasoning for Question Answering [117.79170629640525]
我々はknOwledge ReasOning empowered Language Model (OREO-LM)を提案する。 OREO-LMは、既存のTransformerベースのLMに柔軟に接続できる新しい知識相互作用層で構成されている。クローズド・ブック・セッティングにおいて,最先端の成果が得られ,性能が著しく向上した。
論文参考訳（メタデータ） (2022-11-15T18:26:26Z)
Open Relation Modeling: Learning to Define Relations between Entities [24.04238065663009]
本稿では,機械にエンティティの定義から学習させることで,定義のような関係記述を生成することを提案する。具体的には、抽出されたエンティティペアに条件付き定義を生成するために、PLM(Pre-Tuneed Language Models)を微調整する。我々は, PLM が信頼度推定によって解釈可能かつ情報的推論経路を選択できることを示し, 選択した経路が PLM を誘導し, より優れた関係記述を生成することを示す。
論文参考訳（メタデータ） (2021-08-20T16:03:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。