論文の概要: Reframing Human-AI Collaboration for Generating Free-Text Explanations
- arxiv url: http://arxiv.org/abs/2112.08674v1
- Date: Thu, 16 Dec 2021 07:31:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 15:59:25.551003
- Title: Reframing Human-AI Collaboration for Generating Free-Text Explanations
- Title(参考訳): 自由テキスト記述生成のためのヒューマンAIコラボレーションのフレーミング
- Authors: Sarah Wiegreffe, Jack Hessel, Swabha Swayamdipta, Mark Riedl, Yejin
Choi
- Abstract要約: 少数の人間が記述した例を用いて,自由テキストの説明を生成する作業について考察する。
クラウドソースによる説明よりも,GPT-3による説明の方が好まれる。
我々は、GPT-3と教師付きフィルタを組み合わせたパイプラインを作成し、二項受理性判定を介し、ループ内人間を組み込む。
- 参考スコア(独自算出の注目度): 46.29832336779188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly capable of generating fluent-appearing
text with relatively little task-specific supervision. But can these models
accurately explain classification decisions? We consider the task of generating
free-text explanations using a small number of human-written examples (i.e., in
a few-shot manner). We find that (1) authoring higher-quality examples for
prompting results in higher quality generations; and (2) surprisingly, in a
head-to-head comparison, crowdworkers often prefer explanations generated by
GPT-3 to crowdsourced human-written explanations contained within existing
datasets. Crowdworker ratings also show, however, that while models produce
factual, grammatical, and sufficient explanations, they have room to improve,
e.g., along axes such as providing novel information and supporting the label.
We create a pipeline that combines GPT-3 with a supervised filter that
incorporates humans-in-the-loop via binary acceptability judgments. Despite
significant subjectivity intrinsic to judging acceptability, our approach is
able to consistently filter GPT-3 generated explanations deemed acceptable by
humans.
- Abstract(参考訳): 大きな言語モデルは、タスク固有の監督を比較的少なくして、浮かび上がるテキストを生成する能力が増しています。
しかし、これらのモデルは分類決定を正確に説明できるだろうか?
少数の人間による記述例(例:数ショット)を用いて、自由テキストの説明を生成するタスクについて検討する。
その結果,(1)質の高い世代に結果を促すために質の高いサンプルを作成できること,(2)驚くほど,gpt-3で生成された説明を,既存のデータセットに含まれる説明をクラウドソースすることを好むことが多かった。
しかし、クラウドワーカーの評価は、モデルが現実的で文法的で十分な説明を生成する一方で、例えば、新しい情報の提供やラベルのサポートといった軸に沿って改善する余地があることも示している。
我々は、GPT-3と教師付きフィルタを組み合わせたパイプラインを作成し、二項受理性判定によるループ内人間を含む。
受理性判定に本質的な主観性は高いが,本手法はヒトが許容すると考えられるGPT-3生成説明を一貫してフィルタリングすることができる。
関連論文リスト
- MAPLE: Enhancing Review Generation with Multi-Aspect Prompt LEarning in Explainable Recommendation [12.874105550787514]
我々は、MAPLE(Multi-Aspect Prompt LEarner)と呼ばれるパーソナライズされたアスペクト制御モデルを提案する。
レストランドメインにおける2つの実世界レビューデータセットの実験は、MAPLEがテキストの観点からベースラインレビュー生成モデルより優れていることを示している。
論文 参考訳(メタデータ) (2024-08-19T10:12:52Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - Are Hard Examples also Harder to Explain? A Study with Human and
Model-Generated Explanations [82.12092864529605]
説明可能性とサンプル硬度の関係について検討する。
我々は人による説明と GPT-3 による説明との比較を行った。
また、文脈内例の難易度が GPT-3 の説明の質に影響を及ぼすことも判明した。
論文 参考訳(メタデータ) (2022-11-14T16:46:14Z) - Saliency Map Verbalization: Comparing Feature Importance Representations
from Model-free and Instruction-based Methods [6.018950511093273]
サージェンシマップは、重要な入力特徴を特定することによって、ニューラルネットワークの予測を説明することができる。
我々は,サリエンシマップを自然言語に翻訳する未調査課題を定式化する。
本研究では,従来の特徴強調表現と比較した2つの新手法(検索ベースおよび命令ベース言語化)を比較した。
論文 参考訳(メタデータ) (2022-10-13T17:48:15Z) - Elaboration-Generating Commonsense Question Answering at Scale [77.96137534751445]
一般的な感覚を必要とする質問応答では、言語モデル(例えばGPT-3)が背景知識を表すテキストを生成するために使われてきた。
より小さな言語モデルを微調整して有用な中間コンテキストを生成します。
私たちのフレームワークは、2つの言語モデルの更新 – 開発中のジェネレータと応答予測器 – を交互に行います。
論文 参考訳(メタデータ) (2022-09-02T18:32:09Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。