Fugu-MT 論文翻訳(概要): Black-box language model explanation by context length probing

論文の概要: Black-box language model explanation by context length probing

arxiv url: http://arxiv.org/abs/2212.14815v2
Date: Mon, 22 May 2023 10:37:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 04:37:35.664355
Title: Black-box language model explanation by context length probing
Title（参考訳）: 文脈長探索によるブラックボックス言語モデル説明
Authors: Ond\v{r}ej C\'ifka, Antoine Liutkus
Abstract要約: 本稿では、因果言語モデルのための新しい説明手法である文脈長探索について述べる。この技術はモデルに依存しず、トークンレベルの確率の計算以上のモデル内部へのアクセスに依存しない。事前学習された大規模言語モデルに文脈長探索を適用し、初期分析と洞察を提供する。
参考スコア（独自算出の注目度）: 7.526153863886609
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The increasingly widespread adoption of large language models has highlighted the need for improving their explainability. We present context length probing, a novel explanation technique for causal language models, based on tracking the predictions of a model as a function of the length of available context, and allowing to assign differential importance scores to different contexts. The technique is model-agnostic and does not rely on access to model internals beyond computing token-level probabilities. We apply context length probing to large pre-trained language models and offer some initial analyses and insights, including the potential for studying long-range dependencies. The source code and an interactive demo of the method are available.
Abstract（参考訳）: 大規模言語モデルの普及が進み、説明可能性の向上の必要性が浮き彫りになっている。本稿では,文脈長の予測を利用可能な文脈長の関数として追跡し,異なる文脈に差分重要度スコアを割り当てることにより,因果言語モデルの新たな説明手法である文脈長探索を提案する。この技術はモデルに依存しず、トークンレベルの確率の計算以上のモデル内部へのアクセスに依存しない。学習済みの大規模言語モデルに文脈長探索を適用し、長距離依存の研究の可能性を含むいくつかの初期分析と洞察を提供する。このメソッドのソースコードとインタラクティブなデモが提供されている。

関連論文リスト

Personality Prediction from Life Stories using Language Models [12.851871085845499]
本研究では,5要素モデル(FFM)の性格特性を予測するために,2000トークンを超える長話インタビューをモデル化することの課題に対処する。まず,事前学習した言語モデルのスライディング・ウインドウ・ファインタニングを用いてコンテキスト埋め込みを抽出し,長期依存性を統合し,解釈可能性を高めるための注意機構を備えたリカレントニューラルネットワーク(RNN)を適用する。
論文参考訳（メタデータ） (2025-06-24T02:39:06Z)
Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文参考訳（メタデータ） (2023-10-23T03:48:24Z)
RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文参考訳（メタデータ） (2023-08-15T17:59:18Z)
SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-15T08:33:08Z)
Lost in the Middle: How Language Models Use Long Contexts [88.78803442320246]
本研究では,言語モデルの性能を2つのタスクで解析する。関連する情報の位置を変えると,性能が著しく低下することがわかった。我々の分析は、言語モデルが入力コンテキストをどのように使用するかをよりよく理解し、将来の長文言語モデルのための新しい評価プロトコルを提供する。
論文参考訳（メタデータ） (2023-07-06T17:54:11Z)
Constructing Word-Context-Coupled Space Aligned with Associative Knowledge Relations for Interpretable Language Modeling [0.0]
事前訓練された言語モデルにおけるディープニューラルネットワークのブラックボックス構造は、言語モデリングプロセスの解釈可能性を大幅に制限する。解釈不能なニューラル表現と解釈不能な統計論理のアライメント処理を導入することで,ワードコンテキスト結合空間(W2CSpace)を提案する。我々の言語モデルは,関連する最先端手法と比較して,優れた性能と信頼性の高い解釈能力を実現することができる。
論文参考訳（メタデータ） (2023-05-19T09:26:02Z)
Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文参考訳（メタデータ） (2022-02-21T18:32:24Z)
Interactively Generating Explanations for Transformer Language Models [14.306470205426526]
トランスフォーマー言語モデルは、多くのNLPタスクにおいて最先端である。最近の手法はブラックボックスモデルに対する解釈可能性と説明可能性を提供することを目的としている。モデルアーキテクチャに直接組み込まれたプロトタイプネットワークを使うことを強調した。
論文参考訳（メタデータ） (2021-09-02T11:34:29Z)
Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文参考訳（メタデータ） (2020-02-09T19:53:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。