論文の概要: Two-Turn Debate Doesn't Help Humans Answer Hard Reading Comprehension
Questions
- arxiv url: http://arxiv.org/abs/2210.10860v1
- Date: Wed, 19 Oct 2022 19:48:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 14:23:11.039360
- Title: Two-Turn Debate Doesn't Help Humans Answer Hard Reading Comprehension
Questions
- Title(参考訳): 2ターンの議論は、人間が理解力のある質問に答えるのに役立たない
- Authors: Alicia Parrish, Harsh Trivedi, Nikita Nangia, Vishakh Padmakumar,
Jason Phang, Amanpreet Singh Saimbhi, Samuel R. Bowman
- Abstract要約: 2つの競合する解答オプションの議論を人間に提示することで、人間の判断をより正確に行うことができるかどうかを評価する。
これまでの研究では、この形式の議論は人間には役に立たないことが示されている。
議論にアクセスできるかどうかに関わらず、人間は我々のタスクで同じように行動する。
- 参考スコア(独自算出の注目度): 26.404441861051875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of language-model-based question-answering systems to aid humans in
completing difficult tasks is limited, in part, by the unreliability of the
text these systems generate. Using hard multiple-choice reading comprehension
questions as a testbed, we assess whether presenting humans with arguments for
two competing answer options, where one is correct and the other is incorrect,
allows human judges to perform more accurately, even when one of the arguments
is unreliable and deceptive. If this is helpful, we may be able to increase our
justified trust in language-model-based systems by asking them to produce these
arguments where needed. Previous research has shown that just a single turn of
arguments in this format is not helpful to humans. However, as debate settings
are characterized by a back-and-forth dialogue, we follow up on previous
results to test whether adding a second round of counter-arguments is helpful
to humans. We find that, regardless of whether they have access to arguments or
not, humans perform similarly on our task. These findings suggest that, in the
case of answering reading comprehension questions, debate is not a helpful
format.
- Abstract(参考訳): 難しいタスクを完了するための言語モデルに基づく質問応答システムの使用は、その一部は、それらのシステムが生成するテキストの信頼性の欠如によって制限されている。
2つの競合する解答オプションの議論を人間に提示するのが正しいか、一方が正しくないか、他方が正しくないかを検証し、一方が信頼できない場合にも、人間の判断をより正確に実行できるようにする。
もしこれが役に立つなら、言語モデルベースのシステムに対する正当化された信頼を高めることができるかもしれない。
これまでの研究では、この形式の議論は人間には役に立たないことが示されている。
しかし,議論設定は前後対話によって特徴づけられるため,前回の結果を追従して,第2ラウンドの対論の追加が人間にとって有用かどうかを検証する。
議論にアクセスするかどうかに関わらず、人間は我々のタスクで同じように振る舞うことが分かっています。
これらの結果から,読解質問に答える場合,議論は有用な形式ではないことが示唆された。
関連論文リスト
- Overview of PerpectiveArg2024: The First Shared Task on Perspective Argument Retrieval [56.66761232081188]
本稿では,社会における少数派・多数派を代表する年齢,性別,政治的態度など,人口・社会文化(社会)の多様性を包括する新しいデータセットを提案する。
パースペクティビズムを取り入れる上での重大な課題は、特に社会的なプロファイルを明示的に提供せずに、議論のテキストのみに基づくパーソナライズを目指す場合である。
パーソナライズと分極の低減を図るため, パーソナライズを最適化するためには, パーソナライズされた論証検索をブートストラップするが, さらなる研究が不可欠である。
論文 参考訳(メタデータ) (2024-07-29T03:14:57Z) - On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。
大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文 参考訳(メタデータ) (2024-07-05T16:29:15Z) - Debate Helps Supervise Unreliable Experts [33.03555781137954]
信頼できない2人の専門家の議論は、専門家でない裁判官が真実をより確実に特定する助けになることを示す。
1人の専門家が、半分の時間で正しい答えを1つだけ主張する、基準となる議論と比較すると、議論ははるかに効果が高いことが分かります。
これらの結果は、議論がますます有能で信頼性の低いAIシステムを監視するための有望なアプローチであることを示している。
論文 参考訳(メタデータ) (2023-11-15T05:05:40Z) - Solving NLP Problems through Human-System Collaboration: A
Discussion-based Approach [98.13835740351932]
本研究の目的は,対話を通じて予測を議論・洗練するシステムのための,データセットと計算フレームワークを構築することである。
提案システムでは,自然言語推論タスクにおいて,最大25ポイントの精度向上が期待できることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:24:50Z) - Testing AI on language comprehension tasks reveals insensitivity to underlying meaning [3.335047764053173]
LLM(Large Language Models)は、臨床支援や法的支援から、質問応答や教育まで幅広い分野で採用されている。
しかし、リバースエンジニアリングはモラベックのパラドックスによって拘束されており、簡単なスキルは難しい。
新たなベンチマークで7つの最先端モデルを体系的に評価する。
論文 参考訳(メタデータ) (2023-02-23T20:18:52Z) - Persua: A Visual Interactive System to Enhance the Persuasiveness of
Arguments in Online Discussion [52.49981085431061]
説得力のある議論を書く能力を高めることは、オンラインコミュニケーションの有効性と文明性に寄与する。
オンライン議論における議論の説得力向上を支援するツールの設計目標を4つ導き出した。
Persuaは対話型ビジュアルシステムであり、議論の説得力を高めるための説得戦略の例に基づくガイダンスを提供する。
論文 参考訳(メタデータ) (2022-04-16T08:07:53Z) - Single-Turn Debate Does Not Help Humans Answer Hard
Reading-Comprehension Questions [29.932543276414602]
議論スタイルのセットアップにおいて、正しい答えオプションと間違った回答オプションの両方に対して、単一の引数のデータセットを構築します。
私たちは長いコンテキストを使用します -- コンテキストに精通した人間は、事前に選択された正解と誤解に対する説得力のある説明を書きます。
これらの説明によって、完全な文脈を読まない人間が正しい答えをより正確に決定できるかどうかをテストする。
論文 参考訳(メタデータ) (2022-04-11T15:56:34Z) - Prompting Contrastive Explanations for Commonsense Reasoning Tasks [74.7346558082693]
大規模事前学習言語モデル(PLM)は、常識推論タスクにおいて、ほぼ人間に近い性能を達成することができる。
人間の解釈可能な証拠を生成するために、同じモデルを使う方法を示す。
論文 参考訳(メタデータ) (2021-06-12T17:06:13Z) - Extracting Implicitly Asserted Propositions in Argumentation [8.20413690846954]
本研究では,議論において暗黙的に主張された命題,報告された言論,命令文を抽出する手法について検討した。
本研究は,これらのレトリック装置の論証マイニングとセマンティクスに関する今後の研究について報告する。
論文 参考訳(メタデータ) (2020-10-06T12:03:47Z) - Aspect-Controlled Neural Argument Generation [65.91772010586605]
我々は、与えられたトピック、スタンス、アスペクトの文レベル引数を生成するために、きめ細かいレベルで制御できる引数生成のための言語モデルを訓練する。
評価の結果,我々の生成モデルは高品質なアスペクト特異的な議論を生成できることがわかった。
これらの議論は、データ拡張による姿勢検出モデルの性能向上と、逆問題の生成に使用できる。
論文 参考訳(メタデータ) (2020-04-30T20:17:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。