論文の概要: Are Machine Rationales (Not) Useful to Humans? Measuring and Improving
Human Utility of Free-Text Rationales
- arxiv url: http://arxiv.org/abs/2305.07095v1
- Date: Thu, 11 May 2023 19:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 14:45:06.144587
- Title: Are Machine Rationales (Not) Useful to Humans? Measuring and Improving
Human Utility of Free-Text Rationales
- Title(参考訳): 機械の合理化は人間にとって有用か?
自由テキスト合理化の人的有用性の測定と改善
- Authors: Brihi Joshi, Ziyi Liu, Sahana Ramnath, Aaron Chan, Zhewei Tong,
Shaoliang Nie, Qifan Wang, Yejin Choi, Xiang Ren
- Abstract要約: 既存の合理性の人的効用は十分ではなく、人間の研究で見積もるのに費用がかかることを示す。
我々は、この発見を自動スコア GEN-U に翻訳し、人間の実用性を改善することによって、LM の合理性を生み出す能力を向上させるのに役立つ。
- 参考スコア(独自算出の注目度): 62.02328001381361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Among the remarkable emergent capabilities of large language models (LMs) is
free-text rationalization; beyond a certain scale, large LMs are capable of
generating seemingly useful rationalizations, which in turn, can dramatically
enhance their performances on leaderboards. This phenomenon raises a question:
can machine generated rationales also be useful for humans, especially when lay
humans try to answer questions based on those machine rationales? We observe
that human utility of existing rationales is far from satisfactory, and
expensive to estimate with human studies. Existing metrics like task
performance of the LM generating the rationales, or similarity between
generated and gold rationales are not good indicators of their human utility.
While we observe that certain properties of rationales like conciseness and
novelty are correlated with their human utility, estimating them without human
involvement is challenging. We show that, by estimating a rationale's
helpfulness in answering similar unseen instances, we can measure its human
utility to a better extent. We also translate this finding into an automated
score, GEN-U, that we propose, which can help improve LMs' ability to generate
rationales with better human utility, while maintaining most of its task
performance. Lastly, we release all code and collected data with this project.
- Abstract(参考訳): 大きな言語モデル(LM)の顕著な創発的能力の1つは、自由テキストの合理化であり、あるスケールを超えると、大きなLMは一見有用な合理化を生成することができ、その結果、リーダーボード上でのパフォーマンスを劇的に向上させることができる。
マシン生成の合理性は、特に、在地人間がこれらの機械の合理性に基づいて質問に答えようとするとき、人間にも役に立つのだろうか?
既存の合理性の人的効用は十分ではなく、人間の研究で見積もるのに費用がかかる。
理性を生成するlmのタスクパフォーマンスや、生成と金の合理性の類似性といった既存のメトリクスは、それらのヒューマンユーティリティのよい指標ではありません。
簡潔さや新しさといった理性のある性質は、人間の有用性と相関していると観察するが、人間の関与なしに推定することは困難である。
類似の未確認事例に答える合理性の有用性を推定することにより、人間の実用性をよりよく測定できることを示す。
また,この発見を自動スコア GEN-U に変換することで,作業性能のほとんどを維持しつつ,人的有用性の向上による理性生成能力の向上を図っている。
最後に、このプロジェクトですべてのコードと収集データをリリースします。
関連論文リスト
- Can Language Models Learn to Skip Steps? [59.84848399905409]
我々は推論においてステップをスキップする能力について研究する。
効率を高めたり認知負荷を減らすためのステップをスキップする人間とは異なり、モデルはそのようなモチベーションを持っていない。
私たちの研究は、人間のようなステップスキッピング能力に関する最初の調査である。
論文 参考訳(メタデータ) (2024-11-04T07:10:24Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Tailoring Self-Rationalizers with Multi-Reward Distillation [88.95781098418993]
大規模言語モデル(LM)は、質問応答を支援する自由テキスト論理を生成することができる。
そこで本研究では,下流タスク性能を改善するための理性理論を,小規模のLMで生成する。
提案手法であるMaRioは,マルチリワード条件付き自己有理化アルゴリズムである。
論文 参考訳(メタデータ) (2023-11-06T00:20:11Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Human irrationality: both bad and good for reward inference [3.706222947143855]
この研究は、不合理性が報酬推論に与える影響をよりよく理解することを目的としている。
MDPの言語における不合理性を、ベルマンの最適性方程式を変化させて操作する。
不合理な人間は、正しくモデル化された場合、完全に合理的な人間よりも報酬に関する情報を伝達できることが示される。
論文 参考訳(メタデータ) (2021-11-12T21:44:15Z) - Humanly Certifying Superhuman Classifiers [8.736864280782592]
機械学習システムの性能を推定することは、人工知能研究における長年の課題である。
我々は,参照のための不完全な人間のアノテーションのみを用いて,オラクルと比較して精度を推定する理論を開発した。
この環境での超人的性能の検出と証明のための簡単なレシピを提供する。
論文 参考訳(メタデータ) (2021-09-16T11:00:05Z) - Inductive Biases for Deep Learning of Higher-Level Cognition [108.89281493851358]
興味深い仮説は、人間と動物の知性はいくつかの原則によって説明できるということである。
この研究は、主に高いレベルとシーケンシャルな意識的処理に関心のある人を中心に、より大きなリストを考察する。
これらの特定の原則を明確にする目的は、人間の能力から恩恵を受けるAIシステムを構築するのに役立つ可能性があることである。
論文 参考訳(メタデータ) (2020-11-30T18:29:25Z) - Evaluating and Characterizing Human Rationales [12.678505281794715]
人間の合理性は必ずしも自動メトリクスでうまく機能しない。
モデルに依存したベースライン性能を考慮に入れた改良指標を提案する。
私たちの研究は、合理性を評価し、特徴づけるための実用的な提案につながります。
論文 参考訳(メタデータ) (2020-10-09T18:00:04Z) - Leveraging Rationales to Improve Human Task Performance [15.785125079811902]
計算システムの性能が人間のユーザを上回ることを考えれば、人間のパフォーマンスを改善するために説明可能なAI能力を活用することができるだろうか?
本稿では,ユーティリティベースの計算手法の合理性を自動生成するRationale-Generating Algorithmを紹介する。
以上の結果から,本手法は人事性能の統計的改善につながる有理性を生み出すことが示唆された。
論文 参考訳(メタデータ) (2020-02-11T04:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。