論文の概要: IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations
- arxiv url: http://arxiv.org/abs/2306.13865v1
- Date: Sat, 24 Jun 2023 05:02:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 18:40:46.941114
- Title: IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations
- Title(参考訳): ierl: 解釈可能なアンサンブル表現学習 -- クラウドソース知識と分散意味表現を組み合わせる
- Authors: Yuxin Zi, Kaushik Roy, Vignesh Narayanan, Manas Gaur, Amit Sheth
- Abstract要約: 大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
- 参考スコア(独自算出の注目度): 11.008412414253662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) encode meanings of words in the form of
distributed semantics. Distributed semantics capture common statistical
patterns among language tokens (words, phrases, and sentences) from large
amounts of data. LLMs perform exceedingly well across General Language
Understanding Evaluation (GLUE) tasks designed to test a model's understanding
of the meanings of the input tokens. However, recent studies have shown that
LLMs tend to generate unintended, inconsistent, or wrong texts as outputs when
processing inputs that were seen rarely during training, or inputs that are
associated with diverse contexts (e.g., well-known hallucination phenomenon in
language generation tasks). Crowdsourced and expert-curated knowledge graphs
such as ConceptNet are designed to capture the meaning of words from a compact
set of well-defined contexts. Thus LLMs may benefit from leveraging such
knowledge contexts to reduce inconsistencies in outputs. We propose a novel
ensemble learning method, Interpretable Ensemble Representation Learning
(IERL), that systematically combines LLM and crowdsourced knowledge
representations of input tokens. IERL has the distinct advantage of being
interpretable by design (when was the LLM context used vs. when was the
knowledge context used?) over state-of-the-art (SOTA) methods, allowing
scrutiny of the inputs in conjunction with the parameters of the model,
facilitating the analysis of models' inconsistent or irrelevant outputs.
Although IERL is agnostic to the choice of LLM and crowdsourced knowledge, we
demonstrate our approach using BERT and ConceptNet. We report improved or
competitive results with IERL across GLUE tasks over current SOTA methods and
significantly enhanced model interpretability.
- Abstract(参考訳): 大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
分散意味論は、大量のデータから言語トークン(単語、句、文)間の共通統計パターンをキャプチャする。
LLMは、入力トークンの意味に対するモデルの理解をテストするために設計された言語理解評価(GLUE)タスクに対して、はるかにうまく機能する。
しかし、最近の研究では、LLMはトレーニング中にめったに見られなかった入力や様々な文脈(例えば言語生成タスクにおけるよく知られた幻覚現象)に関連付けられた入力を処理する際に、出力として意図しない、一貫性のない、または間違ったテキストを生成する傾向があることが示されている。
ConceptNetのようなクラウドソーシングおよび専門家による知識グラフは、明確に定義されたコンテキストのコンパクトなセットから単語の意味を捉えるように設計されている。
したがって、LCMはそのような知識コンテキストを活用することで、出力の不整合を減らすことができる。
本稿では,LLMとクラウドソースによる入力トークンの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
IERLは、最先端技術(SOTA)メソッドよりも、設計によって解釈可能な(LLMコンテキストとLLMコンテキストはいつ使用されるのか?)という明確な利点があり、モデルのパラメータと組み合わせて入力の精査を可能にし、モデルの一貫性や無関係な出力の分析を容易にする。
IERL は LLM の選択やクラウドソースの知識に依存しないが,BERT と ConceptNet を用いたアプローチを実証する。
我々は,現在のSOTA法よりもGLUEタスク間でのIERLの改良や競争性を報告し,モデル解釈可能性を大幅に向上させた。
関連論文リスト
- Traffic Light or Light Traffic? Investigating Phrasal Semantics in Large Language Models [41.233879429714925]
本研究は,フレーズ意味論を理解するためのAPIベースの大規模言語モデルの能力について批判的に考察する。
自然言語命令で指示されたフレーズ意味推論タスクの実行におけるLLMの性能を評価する。
句意味論の理解において, LLM が直面する制約を解釈するために, 詳細な誤り解析を行う。
論文 参考訳(メタデータ) (2024-10-03T08:44:17Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - Large Language Models Can Better Understand Knowledge Graphs Than We Thought [13.336418752729987]
知識グラフ(KG) モデルパラメータの埋め込みはますますコストがかかる。
現在のプロンプト方式は、しばしばトライアル・アンド・エラー方式に依存している。
非順序線形化三重項は、流線型NLテキストと比較して、LLMのKG理解に有効であることを示す。
論文 参考訳(メタデータ) (2024-02-18T10:44:03Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Label Words are Anchors: An Information Flow Perspective for
Understanding In-Context Learning [77.7070536959126]
大規模言語モデル(LLM)の有望な能力としてインコンテキスト学習(ICL)が出現する
本稿では,情報フローレンズを用いたICLの動作機構について検討する。
本稿では,ICL性能向上のためのアンカー再重み付け手法,推論の高速化のための実演圧縮手法,GPT2-XLにおけるICLエラーの診断のための解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T15:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。