論文の概要: Alexpaca: Learning Factual Clarification Question Generation Without Examples
- arxiv url: http://arxiv.org/abs/2310.11571v3
- Date: Fri, 11 Oct 2024 22:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:04:31.560010
- Title: Alexpaca: Learning Factual Clarification Question Generation Without Examples
- Title(参考訳): Alexpaca: 実例を使わずにFactual Clarification Question 生成を学習する
- Authors: Matthew Toles, Yukun Huang, Zhou Yu, Luis Gravano,
- Abstract要約: 本稿では,マルチホップ推論タスクにおける欠落情報を抽出する機能に着目した新しいタスクを提案する。
Llama 3 8B Instructはいくつかの指標ではダミーベースラインに勝ってもいない。
- 参考スコア(独自算出の注目度): 19.663171923249283
- License:
- Abstract: Real-life tasks such as giving legal or technical advice often lack complete context at the outset and can have disparate answers depending thereon. The ability to derive missing factual information by asking clarifying questions (ACQ) is an important element of real-life collaboration on such reasoning tasks. Existing factual clarification question challenges evaluate generations based on word overlap or human evaluations. Recent work explores generating a response to the clarifying question then evaluating its utility directly. So far, these tasks are limited to disambiguating the user's intent rather than concrete facts about the situation. The factual domain presents unique challenges since responses to clarification questions must be factually true for accurate evaluation. To enable evaluation of factual domain clarification question generation, We present a new task that focuses on the ability to elicit missing information in multi-hop reasoning tasks. The task, HotpotQA-FLM, can be evaluated automatically, making it convenient for benchmarking language models. We observe that humans outperform GPT-4 by a large margin, while Llama 3 8B Instruct does not even beat the dummy baseline in some metrics. Finally, we find by fine-tuning Llama 3 8B Instruct on its own generations, filtered via rejection sampling, we can improve information recovery by 27.6 percent.
- Abstract(参考訳): 法的あるいは技術的なアドバイスのような現実的なタスクは、最初から完全なコンテキストを欠くことが多く、それに応じて異なる回答が得られる。
質問の明確化 (ACQ) を問うことによって, 行方不明の事実情報を導き出す能力は, このような推論タスクにおける現実的なコラボレーションの重要な要素である。
既存の事実解明問題課題は、単語重複や人間の評価に基づいて世代を評価する。
最近の研究は、明確化された質問に対する応答を生成し、その有用性を直接評価する。
これまでのところ、これらのタスクは、状況に関する具体的な事実ではなく、ユーザの意図を曖昧にすることに限定されている。
事実領域は、明確化問題に対する応答は、正確な評価のために現実的に真でなければならないため、固有の課題を提示する。
そこで本研究では,マルチホップ推論タスクにおいて,欠落した情報を抽出する機能に焦点をあてた課題を提示する。
このタスク、HotpotQA-FLMは自動的に評価され、言語モデルのベンチマークに便利である。
Llama 3 8B Instructはいくつかの指標ではダミーベースラインを上回りませんが、人間はGPT-4よりも大きなマージンで優れています。
最後に、Llama 3 8Bインストラクションを自分自身の世代で微調整し、リジェクションサンプリングによってフィルタリングすることで、情報リカバリを27.6%改善できることがわかった。
関連論文リスト
- Accurate and Nuanced Open-QA Evaluation Through Textual Entailment [4.762213968673381]
本稿では,より情報的かつ汎用的な解答を識別するために,解答の包含関係について検討する。
提案するエンテーメントに基づく評価では,回答間の推論ギャップを定量化することにより,ボーナスや部分マークの割り当てが可能である。
論文 参考訳(メタデータ) (2024-05-26T21:33:27Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Answering Subjective Induction Questions on Products by Summarizing
Multi-sources Multi-viewpoints Knowledge [0.04791377777154766]
本稿では,製品に対する主観的誘導質問に対する回答の分野における新しい課題を提案する。
この種の質問に対する答えは普遍的ではないが、多くの観点から解釈できる。
満足した答えは、これらの主観的な意見を複数の情報源から要約し、客観的な知識を提供することができるべきである。
論文 参考訳(メタデータ) (2023-09-12T03:27:08Z) - A Critical Evaluation of Evaluations for Long-form Question Answering [48.51361567469683]
LFQA(Long-form Question answering)は、幅広い質問に答えることができるが、その柔軟性は評価に大きな課題をもたらす。
本研究は,人的・自動的な評価の実践を網羅した,長文回答の評価を初めて対象とした研究である。
論文 参考訳(メタデータ) (2023-05-29T16:54:24Z) - Mastering the ABCDs of Complex Questions: Answer-Based Claim
Decomposition for Fine-grained Self-Evaluation [9.776667356119352]
本稿では,質問を真偽のクレームに分解する手法であるABCDを提案する。
ABCDクレームを分解し, きめ細かい自己評価を行う。
GPT-3.5は、その答えがどの程度入力された質問の基準を満たすかを決定する能力を持っていることがわかった。
論文 参考訳(メタデータ) (2023-05-24T05:53:11Z) - WikiWhy: Answering and Explaining Cause-and-Effect Questions [62.60993594814305]
自然言語で答えが正しい理由を説明するために構築されたQAデータセットであるWikiWhyを紹介する。
WikiWhyには、ウィキペディアのさまざまなトピックの事実に基づいて、9000以上の「なぜ」質問回答の3つ組が含まれている。
GPT-3ベースラインは、エンドツーエンドの回答と説明条件において、人間の評価された正しさを38.7%しか達成していない。
論文 参考訳(メタデータ) (2022-10-21T17:59:03Z) - Measuring and Narrowing the Compositionality Gap in Language Models [116.5228850227024]
モデルがすべてのサブプロブレムに正しく答えられる頻度を計測するが、全体の解は生成しない。
我々は,思考の連鎖をさらに改善する新たな手法である自己認識法を提案する。
論文 参考訳(メタデータ) (2022-10-07T06:50:23Z) - ASQA: Factoid Questions Meet Long-Form Answers [35.11889930792675]
この研究は、解釈によって異なる正しい答えを持つ、あいまいな事実型問題に焦点を当てている。
曖昧な質問に対する回答は、複数の情報源からの事実情報を長文の要約にまとめるべきである。
我々は、この正確性の概念を用いて、ASQAのパフォーマンスの自動測定基準を定義します。
論文 参考訳(メタデータ) (2022-04-12T21:58:44Z) - Review-guided Helpful Answer Identification in E-commerce [38.276241153439955]
製品固有のコミュニティ質問応答プラットフォームは、潜在的な顧客の懸念に対処するのに大いに役立ちます。
このようなプラットフォーム上でユーザが提供する回答は、その品質に大きく違いがあります。
コミュニティからのヘルプフルネスの投票は、回答の全体的な品質を示すことができるが、しばしば欠落している。
論文 参考訳(メタデータ) (2020-03-13T11:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。