論文の概要: How do Language Models Bind Entities in Context?
- arxiv url: http://arxiv.org/abs/2310.17191v2
- Date: Mon, 6 May 2024 10:09:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 00:35:16.005150
- Title: How do Language Models Bind Entities in Context?
- Title(参考訳): 言語モデルがコンテキスト内のバインディングエンティティをどのように行うか?
- Authors: Jiahai Feng, Jacob Steinhardt,
- Abstract要約: 言語モデル(LM)は、エンティティを属性にバインドし、コンテキスト内情報を正しく使用する必要がある。
我々はバインディングIDのメカニズムを同定し、バインディング問題を解くための一般的なメカニズムを示す。
本研究は,テキスト上での記号的知識を表現するためのLMの解釈可能な戦略を明らかにする。
- 参考スコア(独自算出の注目度): 31.529253469951062
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: To correctly use in-context information, language models (LMs) must bind entities to their attributes. For example, given a context describing a "green square" and a "blue circle", LMs must bind the shapes to their respective colors. We analyze LM representations and identify the binding ID mechanism: a general mechanism for solving the binding problem, which we observe in every sufficiently large model from the Pythia and LLaMA families. Using causal interventions, we show that LMs' internal activations represent binding information by attaching binding ID vectors to corresponding entities and attributes. We further show that binding ID vectors form a continuous subspace, in which distances between binding ID vectors reflect their discernability. Overall, our results uncover interpretable strategies in LMs for representing symbolic knowledge in-context, providing a step towards understanding general in-context reasoning in large-scale LMs.
- Abstract(参考訳): コンテキスト内情報を正しく利用するには、言語モデル(LM)が属性にエンティティをバインドしなければならない。
例えば、「緑色の四角」と「青い円」を記述する文脈が与えられた場合、LMはそれぞれの色に形を結び付けなければならない。
我々はLM表現を解析し、結合ID機構を同定する: 結合問題を解くための一般的なメカニズムであり、ピチアファミリーとLLaMAファミリーから十分に大きなモデルをすべて観察する。
因果的介入を用いて, LMの内部アクティベーションは, 結合IDベクトルを対応するエンティティや属性にアタッチすることで, 結合情報を表すことを示す。
さらに,結合IDベクトルが連続部分空間を形成し,結合IDベクトル間の距離がその識別可能性を反映していることを示す。
全体として,本研究は,大規模LMにおける一般的な文脈内推論の理解に向けてのステップとなる,コンテキスト内の記号的知識を表現するためのLMの解釈可能な戦略を明らかにした。
関連論文リスト
- Representational Analysis of Binding in Language Models [21.567939573751254]
言語モデル(LM)は、あるエンティティのリコール属性に対してエンティティをその属性にバインドしなければならない。
LMの活性化には低ランク部分空間が存在し、主にエンティティと属性の順序(すなわち OI)を符号化する。
また、OIエンコーディング方向に沿って表現を編集する場合、LMは与えられた実体を他の属性に結合する傾向にあるような結合に対するOIの因果効果も発見する。
論文 参考訳(メタデータ) (2024-09-09T09:04:56Z) - ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。
この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。
ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。
鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。
モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文 参考訳(メタデータ) (2024-06-06T16:35:36Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z) - RAGE Against the Machine: Retrieval-Augmented LLM Explanations [17.707251978644486]
RAGEはLarge Language Models(LLM)を説明するインタラクティブツールである
我々の説明は、入力コンテキストの一部を特定するという意味で、LLMに対する質問に対する回答を変更するという意味では非現実的である。
RAGEには、考えられる説明の広大な空間をナビゲートするプルーニングメソッドが含まれており、ユーザは生成された回答の成果を見ることができる。
論文 参考訳(メタデータ) (2024-05-11T19:08:38Z) - Two Heads Are Better Than One: Integrating Knowledge from Knowledge
Graphs and Large Language Models for Entity Alignment [31.70064035432789]
LLMEA(Large Language Model-enhanced Entity Alignment Framework)を提案する。
LLMEAは、知識グラフにまたがるエンティティ間の類似性を埋め込んだり、仮想の等価エンティティとの距離を編集することで、特定のエンティティの候補アライメントを識別する。
3つの公開データセットで実施された実験により、LLMEAが主要なベースラインモデルを上回ることが判明した。
論文 参考訳(メタデータ) (2024-01-30T12:41:04Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Word Embeddings Are Steers for Language Models [57.83026781380927]
このようなステアをLM-Steersと呼び、すべてのサイズのLMに存在するものを見つけます。
言語モデルのデトックス化や感情制御といったタスクでは、LM-Steersは同等または優れたパフォーマンスを達成することができる。
LM-Steerは明示的な形式計算により異なる言語モデル間で転送可能である。
論文 参考訳(メタデータ) (2023-05-22T07:52:04Z) - Empowering Language Models with Knowledge Graph Reasoning for Question
Answering [117.79170629640525]
我々はknOwledge ReasOning empowered Language Model (OREO-LM)を提案する。
OREO-LMは、既存のTransformerベースのLMに柔軟に接続できる新しい知識相互作用層で構成されている。
クローズド・ブック・セッティングにおいて,最先端の成果が得られ,性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-15T18:26:26Z) - Open Relation Modeling: Learning to Define Relations between Entities [24.04238065663009]
本稿では,機械にエンティティの定義から学習させることで,定義のような関係記述を生成することを提案する。
具体的には、抽出されたエンティティペアに条件付き定義を生成するために、PLM(Pre-Tuneed Language Models)を微調整する。
我々は, PLM が信頼度推定によって解釈可能かつ情報的推論経路を選択できることを示し, 選択した経路が PLM を誘導し, より優れた関係記述を生成することを示す。
論文 参考訳(メタデータ) (2021-08-20T16:03:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。