論文の概要: Frame Representation Hypothesis: Multi-Token LLM Interpretability and Concept-Guided Text Generation
- arxiv url: http://arxiv.org/abs/2412.07334v1
- Date: Tue, 10 Dec 2024 09:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:37:42.070192
- Title: Frame Representation Hypothesis: Multi-Token LLM Interpretability and Concept-Guided Text Generation
- Title(参考訳): フレーム表現仮説:多言語LPM解釈可能性と概念誘導テキスト生成
- Authors: Pedro H. V. Valois, Lincon S. Souza, Erica K. Shimomoto, Kazuhiro Fukui,
- Abstract要約: 解釈可能性(Interpretability)は、大規模言語モデルの信頼を促進する上で重要な課題である。
複数単語をモデル化してLLMを解釈・制御するためのフレーム表現仮説を提案する。
これらのツールをTop-k Concept-Guided Decodingで紹介する。
- 参考スコア(独自算出の注目度): 6.356639602091336
- License:
- Abstract: Interpretability is a key challenge in fostering trust for Large Language Models (LLMs), which stems from the complexity of extracting reasoning from model's parameters. We present the Frame Representation Hypothesis, a theoretically robust framework grounded in the Linear Representation Hypothesis (LRH) to interpret and control LLMs by modeling multi-token words. Prior research explored LRH to connect LLM representations with linguistic concepts, but was limited to single token analysis. As most words are composed of several tokens, we extend LRH to multi-token words, thereby enabling usage on any textual data with thousands of concepts. To this end, we propose words can be interpreted as frames, ordered sequences of vectors that better capture token-word relationships. Then, concepts can be represented as the average of word frames sharing a common concept. We showcase these tools through Top-k Concept-Guided Decoding, which can intuitively steer text generation using concepts of choice. We verify said ideas on Llama 3.1, Gemma 2, and Phi 3 families, demonstrating gender and language biases, exposing harmful content, but also potential to remediate them, leading to safer and more transparent LLMs. Code is available at https://github.com/phvv-me/frame-representation-hypothesis.git
- Abstract(参考訳): 解釈可能性(英: Interpretability)は、モデルパラメータから推論を抽出する複雑さに起因した、Large Language Models (LLM)の信頼を促進する上で重要な課題である。
本稿では,Linear Representation hypothesis(LRH)を基盤とした理論的に堅牢なフレームワークであるFrame Representation hypothesisを提案する。
以前の研究では、LLM表現と言語概念を結びつけるためにLRHを検討したが、単一のトークン分析に限られていた。
多くの単語がいくつかのトークンで構成されているため、LRHをマルチトークン語に拡張し、数千の概念を持つ任意のテキストデータに使用できるようにする。
そこで本稿では,トークンとワードの関係をよりよく捉えるために,単語をフレーム,順序付けられたベクトル列として解釈する手法を提案する。
すると、概念は共通の概念を共有する単語フレームの平均として表現できる。
これらのツールをTop-k Concept-Guided Decodingで紹介する。
Llama 3.1, Gemma 2, Phi 3 のアイデアを検証し, 性別や言語の偏見を示し, 有害なコンテンツを暴露すると同時に, それらを再検討する可能性を示し, より安全で透明性の高い LLM を実現する。
コードはhttps://github.com/phvv-me/frame-representation-hypothesis.gitで公開されている。
関連論文リスト
- SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - Language Models as Semiotic Machines: Reconceptualizing AI Language Systems through Structuralist and Post-Structuralist Theories of Language [0.0]
本稿では,大規模言語モデル(LLM)を理解するための新しいフレームワークを提案する。
LLMは言語自体のモデルとして理解されるべきであり、ジャックの「書き方」(l'ecriture)の概念と一致している、と私は主張する。
私は、Sausure の Saussure 批判を LLM でモデル化されたオブジェクトとして位置づけ、機械の 'mind' を統計的近似として提供します。
論文 参考訳(メタデータ) (2024-10-16T21:45:54Z) - Towards More Trustworthy and Interpretable LLMs for Code through Syntax-Grounded Explanations [48.07182711678573]
ASTrustは、モデル信頼度とプログラミング言語の構文構造の関係に基づく説明を生成する。
ASTからの構文構造のシーケンス, 熱マップ, グラフに基づく可視化を重畳した, モデル信頼度スコアを自動可視化する。
論文 参考訳(メタデータ) (2024-07-12T04:38:28Z) - A Concept-Based Explainability Framework for Large Multimodal Models [52.37626977572413]
本稿では,トークン表現に適用した辞書学習に基づくアプローチを提案する。
これらの概念は、視覚とテキストの両方に意味論的に根ざしていることを示す。
抽出したマルチモーダル概念は,テストサンプルの表現の解釈に有用であることを示す。
論文 参考訳(メタデータ) (2024-06-12T10:48:53Z) - Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。
本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文 参考訳(メタデータ) (2024-05-26T21:31:59Z) - Deep de Finetti: Recovering Topic Distributions from Large Language
Models [10.151434138893034]
大規模言語モデル(LLM)は長く一貫性のあるテキストを生成できる。
LLMは文書を特徴付ける潜在構造を表現する必要がある。
本稿では,文書のトピック構造を補完する側面について考察する。
論文 参考訳(メタデータ) (2023-12-21T16:44:39Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。