論文の概要: Understanding Understanding: A Pragmatic Framework Motivated by Large Language Models
- arxiv url: http://arxiv.org/abs/2406.10937v2
- Date: Wed, 19 Jun 2024 08:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 01:07:15.364285
- Title: Understanding Understanding: A Pragmatic Framework Motivated by Large Language Models
- Title(参考訳): 理解を理解する: 大規模言語モデルによって動機付けられた実践的なフレームワーク
- Authors: Kevin Leyton-Brown, Yoav Shoham,
- Abstract要約: チューリングテストの手法では、このフレームワークはエージェントのパフォーマンスのみをベースとしており、特にその答えの正確さに基づいている。
ランダムサンプリングによる高い信頼度と確率的信頼境界の適用性を示す。
- 参考スコア(独自算出の注目度): 13.279760256875127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the rapid ascent of Large Language Models (LLMs) and debates about the extent to which they possess human-level qualities, we propose a framework for testing whether any agent (be it a machine or a human) understands a subject matter. In Turing-test fashion, the framework is based solely on the agent's performance, and specifically on how well it answers questions. Elements of the framework include circumscribing the set of questions (the "scope of understanding"), requiring general competence ("passing grade"), avoiding "ridiculous answers", but still allowing wrong and "I don't know" answers to some questions. Reaching certainty about these conditions requires exhaustive testing of the questions which is impossible for nontrivial scopes, but we show how high confidence can be achieved via random sampling and the application of probabilistic confidence bounds. We also show that accompanying answers with explanations can improve the sample complexity required to achieve acceptable bounds, because an explanation of an answer implies the ability to answer many similar questions. According to our framework, current LLMs cannot be said to understand nontrivial domains, but as the framework provides a practical recipe for testing understanding, it thus also constitutes a tool for building AI agents that do understand.
- Abstract(参考訳): 大規模言語モデル(LLM)の急激な上昇と、それらが人間レベルの品質をどの程度持っているかについての議論により、エージェント(機械か人間か)が対象物を理解するかどうかをテストするための枠組みを提案する。
チューリングテストの手法では、このフレームワークはエージェントのパフォーマンスのみをベースとしており、特にその答えの正確さに基づいている。
フレームワークの要素には、一連の質問(「理解のスコープ」)を取り巻くこと、一般的な能力("passing grade")を必要とすること、"厳格な答え"を避けること、そしてまだ間違った答えを許すこと、いくつかの質問に対する"私は知らない"答えを許容することなどが含まれる。
これらの条件に対する確実性を確保するには、非自明なスコープでは不可能な質問を徹底的に検証する必要があるが、ランダムサンプリングと確率的信頼境界の適用により、いかに高い信頼が得られるかを示す。
また、説明を伴う回答が許容範囲を達成するのに必要なサンプルの複雑さを改善することも示している。
私たちのフレームワークによれば、現在のLLMは非自明なドメインを理解するとは言えませんが、このフレームワークは理解をテストするための実践的なレシピを提供するので、理解するAIエージェントを構築するためのツールを構成します。
関連論文リスト
- Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。
既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。
このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。
理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:19:27Z) - Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering [45.88079503965459]
視覚質問応答(VQA)の簡易化のために,視覚言語モデル(VLM)の拡張手法が提案されている。
本稿では,人間のようなトップダウン推論を模倣する新しいマルチエージェント協調フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-29T03:10:42Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - Reasoning over Hierarchical Question Decomposition Tree for Explainable
Question Answering [83.74210749046551]
ヘテロジニアス知識統合のための質問分解手法を提案する。
階層的質問分解木(RoHT)を用いた新しい2段階XQAフレームワークを提案する。
複雑なQAデータセットKQA ProとMusiqueの実験は、我々のフレームワークがSOTAメソッドを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2023-05-24T11:45:59Z) - Keeping the Questions Conversational: Using Structured Representations
to Resolve Dependency in Conversational Question Answering [26.997542897342164]
本稿では,中間表現を会話の手がかりとして捉え,生成するための新しいフレームワークCONVSR(CONVQA using Structured Representations)を提案する。
我々はQuACとCANARDのデータセット上でモデルをテストし、提案するフレームワークが標準的な質問書き直しモデルよりも優れたF1スコアを達成できることを実験結果により示す。
論文 参考訳(メタデータ) (2023-04-14T13:42:32Z) - WikiWhy: Answering and Explaining Cause-and-Effect Questions [62.60993594814305]
自然言語で答えが正しい理由を説明するために構築されたQAデータセットであるWikiWhyを紹介する。
WikiWhyには、ウィキペディアのさまざまなトピックの事実に基づいて、9000以上の「なぜ」質問回答の3つ組が含まれている。
GPT-3ベースラインは、エンドツーエンドの回答と説明条件において、人間の評価された正しさを38.7%しか達成していない。
論文 参考訳(メタデータ) (2022-10-21T17:59:03Z) - Interrogating the Black Box: Transparency through Information-Seeking
Dialogues [9.281671380673306]
本稿では,倫理政策の遵守を調査するために,学習エージェントに質問する調査エージェントを構築することを提案する。
この形式的対話フレームワークが本論文の主な貢献である。
形式的な対話フレームワークは、コンプライアンスチェックの分野と不透明なシステムの特性の分析の両方において、多くの道を開きます。
論文 参考訳(メタデータ) (2021-02-09T09:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。