論文の概要: Can AI Assistants Know What They Don't Know?
- arxiv url: http://arxiv.org/abs/2401.13275v2
- Date: Sun, 28 Jan 2024 09:07:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 19:59:33.804966
- Title: Can AI Assistants Know What They Don't Know?
- Title(参考訳): AIアシスタントは、自分が知らないことを知っているか?
- Authors: Qinyuan Cheng and Tianxiang Sun and Xiangyang Liu and Wenwei Zhang and
Zhangyue Yin and Shimin Li and Linyang Li and Zhengfu He and Kai Chen and
Xipeng Qiu
- Abstract要約: AIアシスタントが知らない質問に答えることを拒否したことは、幻覚を減らし、アシスタントを真実にする重要な方法である。
モデル固有の"Idk"データセット(Idk)を構築し、その既知の未知の質問を含む。
Idkデータセットに合わせると、アシスタントは未知の質問のほとんどに答えることを拒否した。
- 参考スコア(独自算出の注目度): 79.6178700946602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, AI assistants based on large language models (LLMs) show surprising
performance in many tasks, such as dialogue, solving math problems, writing
code, and using tools. Although LLMs possess intensive world knowledge, they
still make factual errors when facing some knowledge intensive tasks, like
open-domain question answering. These untruthful responses from the AI
assistant may cause significant risks in practical applications. We believe
that an AI assistant's refusal to answer questions it does not know is a
crucial method for reducing hallucinations and making the assistant truthful.
Therefore, in this paper, we ask the question "Can AI assistants know what they
don't know and express them through natural language?" To answer this question,
we construct a model-specific "I don't know" (Idk) dataset for an assistant,
which contains its known and unknown questions, based on existing open-domain
question answering datasets. Then we align the assistant with its corresponding
Idk dataset and observe whether it can refuse to answer its unknown questions
after alignment. Experimental results show that after alignment with Idk
datasets, the assistant can refuse to answer most its unknown questions. For
questions they attempt to answer, the accuracy is significantly higher than
before the alignment.
- Abstract(参考訳): 近年、大規模言語モデル(llm)に基づくaiアシスタントは、対話、数学の問題解決、コード記述、ツールの使用など、多くのタスクで驚くべきパフォーマンスを示している。
LLMは世界の知識を集中的に持っているが、オープンドメインの質問応答のような知識集約的なタスクに直面しているときに、事実的誤りを犯す。
これらのAIアシスタントからの非現実的な反応は、実用的な応用において重大なリスクを引き起こす可能性がある。
我々は、AIアシスタントが知らない質問に答えることを拒否したことは、幻覚を減らし、アシスタントを真実にする重要な方法であると信じている。
そこで,本稿では,「AIアシスタントは,自分が知らないことを知っていて,自然言語で表現しているのか?」という質問を行う。
この質問に答えるために、我々は、既存のオープンドメインの質問応答データセットに基づいて、その既知の未知の質問を含むアシスタントのためのモデル固有の"I't know"(Idk)データセットを構築した。
次に、アシスタントを対応するidkデータセットにアライメントし、アライメント後の未知の質問への回答を拒否できるかどうかを観察する。
実験の結果、Idkデータセットと一致した後、アシスタントは未知の質問の多くに答えることを拒否した。
彼らが答えようとする質問に対して、精度はアライメント前よりもはるかに高い。
関連論文リスト
- Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations [70.6395572287422]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。
我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文 参考訳(メタデータ) (2024-02-23T02:24:36Z) - A Comparative and Experimental Study on Automatic Question Answering
Systems and its Robustness against Word Jumbling [0.49157446832511503]
なぜなら、頻繁に質問される質問(FAQ)リストは、限られた数の質問しか持たないからである。
質問応答生成が可能なモデルは、データの範囲内にある全く新しい質問に答えることができる。
商用アプリケーションでは、顧客満足度と使いやすさを高めるために使用することができる。
しかし、多くのデータは人間によって生成されるため、ヒューマンエラーの影響を受けやすく、モデルの性能に悪影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-11-27T03:17:09Z) - Self-Knowledge Guided Retrieval Augmentation for Large Language Models [59.771098292611846]
大規模言語モデル(LLM)はタスク固有の微調整なしで優れた性能を示す。
検索に基づく手法は、非パラメトリックな世界知識を提供し、質問応答のようなタスクのパフォーマンスを向上させることができる。
SKR(Self-Knowledge guided Retrieval augmentation)は、LLMがこれまで遭遇した質問を参照できるようにする、シンプルで効果的な方法である。
論文 参考訳(メタデータ) (2023-10-08T04:22:33Z) - Collaboration with Conversational AI Assistants for UX Evaluation:
Questions and How to Ask them (Voice vs. Text) [18.884080068561843]
We performed a Wizard-of-Oz design probe study with 20 participants who interacted simulated AI assistants via text or voice。
参加者は、ユーザアクション、ユーザメンタルモデル、AIアシスタントからのヘルプ、製品とタスク情報、ユーザ人口統計の5つのカテゴリについて質問した。
テキストアシスタントの効率は著しく向上したが,満足度と信頼度は同等であった。
論文 参考訳(メタデータ) (2023-03-07T03:59:14Z) - Asking for Knowledge: Training RL Agents to Query External Knowledge
Using Language [121.56329458876655]
グリッドワールドベースのQ-BabyAIとテキストベースのQ-TextWorldの2つの新しい環境を紹介した。
本稿では,意味のある知識を問うための言語コマンドを生成する「知識の探索(AFK)」エージェントを提案する。
論文 参考訳(メタデータ) (2022-05-12T14:20:31Z) - Open-domain clarification question generation without question examples [4.34222556313791]
本稿では,極性(yes-no)を明確化できる問合せモデルを構築するための枠組みを提案する。
本モデルは,市販画像キャプタから情報的質問を導き出すために,期待された情報ゲイン目標を用いている。
我々は,目標志向の20質問ゲームにおいて,人間と合成者によるコミュニケーションの成功を促す質問を提示するモデルの能力を実証する。
論文 参考訳(メタデータ) (2021-10-19T07:51:54Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。