Fugu-MT 論文翻訳(概要): What is a good question? Task-oriented asking with fact-level masking

論文の概要: What is a good question? Task-oriented asking with fact-level masking

arxiv url: http://arxiv.org/abs/2310.11571v1
Date: Tue, 17 Oct 2023 20:40:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 18:39:45.611832
Title: What is a good question? Task-oriented asking with fact-level masking
Title（参考訳）: よい質問とは何か? ファクトレベルのマスキングによるタスク指向質問
Authors: Matthew Toles, Yukun Huang, Zhou Yu, Luis Gravano
Abstract要約: 大規模言語モデルは通常、ユーザやサードパーティにフォローアップ質問をすることなく、推論タスクを直接解決するためにデプロイされる。我々はこの問題をタスク指向質問(TOA)と呼ぶ。実験の結果,現在のゼロショットモデルでは,人間のアノテータと比較して,有用な情報を取得するための質問に苦慮していることがわかった。
参考スコア（独自算出の注目度）: 21.480602733510256
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Asking questions is an important element of real-life collaboration on reasoning tasks like question answering. For example, a legal assistant chatbot may be unable to make accurate recommendations without specific information on the user's circumstances. However, large language models are usually deployed to solve reasoning tasks directly without asking follow-up questions to the user or third parties. We term this problem task-oriented asking (TOA). Zero-shot chat models can perform TOA, but their training is primarily based on next-token prediction rather than whether questions contribute to successful collaboration. To enable the training and evaluation of TOA models, we present a definition and framework for natural language task-oriented asking, the problem of generating questions that result in answers useful for a reasoning task. We also present fact-level masking (FLM), a procedure for converting natural language datasets into self-supervised TOA datasets by omitting particular critical facts. Finally, we generate a TOA dataset from the HotpotQA dataset using FLM and evaluate several zero-shot language models on it. Our experiments show that current zero-shot models struggle to ask questions that retrieve useful information, as compared to human annotators. These results demonstrate an opportunity to use FLM datasets and the TOA framework to train and evaluate better TOA models.
Abstract（参考訳）: 質問は、質問応答のような推論タスクにおける実際のコラボレーションの重要な要素である。例えば、法的アシスタントチャットボットは、ユーザーの状況に関する特定の情報なしで正確な推奨を行うことができないかもしれない。しかし、大きな言語モデルは通常、ユーザやサードパーティにフォローアップ質問をすることなく、推論タスクを直接解決するためにデプロイされる。この問題をタスク指向質問(TOA)と呼ぶ。ゼロショットチャットモデルはTOAを実行することができるが、そのトレーニングは主に、質問がコラボレーションの成功に寄与するかどうかではなく、次のトーケン予測に基づいている。 ToAモデルのトレーニングと評価を可能にするために,自然言語タスク指向質問のための定義とフレームワークを提案する。また,特定の批判的事実を省略して自然言語データセットを自己教師付きtoaデータセットに変換する手法であるfact-level masking(flm)を提案する。最後に,flmを用いてhotpotqaデータセットからtoaデータセットを生成し,ゼロショット言語モデルをいくつか評価する。実験の結果,現在のゼロショットモデルでは,人間のアノテータと比較して有用な情報を取得する質問に苦慮していることがわかった。これらの結果は、より良いTOAモデルをトレーニングし評価するために、FLMデータセットとTOAフレームワークを使用する機会を示しています。

関連論文リスト

Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文参考訳（メタデータ） (2025-07-28T23:50:09Z)
MinosEval: Distinguishing Factoid and Non-Factoid for Tailored Open-Ended QA Evaluation with LLMs [15.278241998033822]
大規模言語モデル(LLM)の能力を評価する上で,QA(Open-ended Question answering)が重要な課題である。オープンな質問をまず識別し,候補回答をランク付けする新しい評価手法である textbfMinosEval を提案する。
論文参考訳（メタデータ） (2025-06-18T07:49:13Z)
Accurate and Nuanced Open-QA Evaluation Through Textual Entailment [4.762213968673381]
本稿では,より情報的かつ汎用的な解答を識別するために,解答の包含関係について検討する。提案するエンテーメントに基づく評価では,回答間の推論ギャップを定量化することにより,ボーナスや部分マークの割り当てが可能である。
論文参考訳（メタデータ） (2024-05-26T21:33:27Z)
R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文参考訳（メタデータ） (2023-11-16T08:45:44Z)
Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文参考訳（メタデータ） (2023-11-16T00:18:50Z)
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文参考訳（メタデータ） (2023-10-05T00:04:12Z)
Answering Subjective Induction Questions on Products by Summarizing Multi-sources Multi-viewpoints Knowledge [0.04791377777154766]
本稿では,製品に対する主観的誘導質問に対する回答の分野における新しい課題を提案する。この種の質問に対する答えは普遍的ではないが、多くの観点から解釈できる。満足した答えは、これらの主観的な意見を複数の情報源から要約し、客観的な知識を提供することができるべきである。
論文参考訳（メタデータ） (2023-09-12T03:27:08Z)
A Critical Evaluation of Evaluations for Long-form Question Answering [48.51361567469683]
LFQA(Long-form Question answering)は、幅広い質問に答えることができるが、その柔軟性は評価に大きな課題をもたらす。本研究は,人的・自動的な評価の実践を網羅した,長文回答の評価を初めて対象とした研究である。
論文参考訳（メタデータ） (2023-05-29T16:54:24Z)
Mastering the ABCDs of Complex Questions: Answer-Based Claim Decomposition for Fine-grained Self-Evaluation [9.776667356119352]
本稿では,質問を真偽のクレームに分解する手法であるABCDを提案する。 ABCDクレームを分解し, きめ細かい自己評価を行う。 GPT-3.5は、その答えがどの程度入力された質問の基準を満たすかを決定する能力を持っていることがわかった。
論文参考訳（メタデータ） (2023-05-24T05:53:11Z)
WikiWhy: Answering and Explaining Cause-and-Effect Questions [62.60993594814305]
自然言語で答えが正しい理由を説明するために構築されたQAデータセットであるWikiWhyを紹介する。 WikiWhyには、ウィキペディアのさまざまなトピックの事実に基づいて、9000以上の「なぜ」質問回答の3つ組が含まれている。 GPT-3ベースラインは、エンドツーエンドの回答と説明条件において、人間の評価された正しさを38.7%しか達成していない。
論文参考訳（メタデータ） (2022-10-21T17:59:03Z)
Measuring and Narrowing the Compositionality Gap in Language Models [116.5228850227024]
モデルがすべてのサブプロブレムに正しく答えられる頻度を計測するが、全体の解は生成しない。我々は,思考の連鎖をさらに改善する新たな手法である自己認識法を提案する。
論文参考訳（メタデータ） (2022-10-07T06:50:23Z)
ASQA: Factoid Questions Meet Long-Form Answers [35.11889930792675]
この研究は、解釈によって異なる正しい答えを持つ、あいまいな事実型問題に焦点を当てている。曖昧な質問に対する回答は、複数の情報源からの事実情報を長文の要約にまとめるべきである。我々は、この正確性の概念を用いて、ASQAのパフォーマンスの自動測定基準を定義します。
論文参考訳（メタデータ） (2022-04-12T21:58:44Z)
Review-guided Helpful Answer Identification in E-commerce [38.276241153439955]
製品固有のコミュニティ質問応答プラットフォームは、潜在的な顧客の懸念に対処するのに大いに役立ちます。このようなプラットフォーム上でユーザが提供する回答は、その品質に大きく違いがあります。コミュニティからのヘルプフルネスの投票は、回答の全体的な品質を示すことができるが、しばしば欠落している。
論文参考訳（メタデータ） (2020-03-13T11:34:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。