論文の概要: Human-in-the-Loop through Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2306.07932v1
- Date: Sat, 10 Jun 2023 04:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 12:34:55.792678
- Title: Human-in-the-Loop through Chain-of-Thought
- Title(参考訳): チェーン・オブ・マインド(chain-of-thought)を通した人間のループ
- Authors: Zefan Cai, Baobao Chang, Wenjuan Han
- Abstract要約: 本稿では,手動補正システム(Manual Correction System, MCS)について述べる。
一歩前進して、人間をループに乗せたシステムを考えると、人間に性能を向上させるだけでなく、コストも抑えることになる。
そこで我々は,古典経済学理論に基づくCAMLOP(Cost-utility Analysis Model for Human-in-the-Loop Systems)を提出し,実用性と対応するコストを分析し,定量化し,バランスをとる。
- 参考スコア(独自算出の注目度): 24.620676911399112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the emergence of powerful language models along with Chain-of-thought
prompting has made automation more and more omnipresent, it sometimes
demonstrates its weakness in long-term or multi-step logical reasoning. For
example, users don't always get desirable answers for complex mathematical
problems without human involvement. Against this background, we present the
Manual Correction System (MCS) -- a human-in-the-loop system enhanced by
Chain-of-Thought prompting, which explores how manual correction of sub-logics
in rationales can improve LLM's reasoning performance. Moving one step forward,
considering a system with human-in-the-loop involves more than having humans
improve performance but also controlling the cost. Therefore, we post a
Cost-utility Analysis Model for Human-in-the-Loop systems (CAMLOP) based on
classical economics theory to analyze, quantify and balance the utility and the
corresponding cost. We conduct experiments of MCS and CAMLOP with twelve
datasets. A significant advantage w.r.t cost and utility proves its superiority
over strong baselines.
- Abstract(参考訳): 強力な言語モデルの出現とChain-of- Thoughtプロンプトによって、自動化が一様になる一方で、長期的な論理的推論や多段階論理的推論において、その弱点が示されることもある。
例えば、ユーザーは人間の関与なしに複雑な数学的問題に対して望ましい回答を得るとは限らない。
そこで本研究では,理論理論における部分論理の手動補正がllmの推論性能をいかに向上させるかを検討するために,ループ内ヒューマン・イン・ザ・ループシステムである手作業補正システム(mcs)を提案する。
一歩前進して、人間をループに乗せたシステムを考えると、人間に性能を向上させるだけでなく、コストも抑えることになる。
そこで,本稿では,古典経済学理論を基礎として,費用対効果分析モデル(CAMLOP)を提案し,実用性とそれに対応するコストを分析し,定量化し,バランスをとる。
MCSとCAMLOPを12のデータセットで実験する。
w.r.t のコストとユーティリティは、強力なベースラインよりも優れていることを証明している。
関連論文リスト
- Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。
我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文 参考訳(メタデータ) (2024-10-11T19:22:57Z) - Dual Active Learning for Reinforcement Learning from Human Feedback [13.732678966515781]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを合わせるために広く応用されている。
人間のフィードバックは高価で時間を要するため、人間の教師がラベルを付けるための高品質な会話データを集めることが不可欠である。
本稿では、オフライン強化学習(RL)を用いてアライメント問題を定式化する。
論文 参考訳(メタデータ) (2024-10-03T14:09:58Z) - CSCE: Boosting LLM Reasoning by Simultaneous Enhancing of Casual Significance and Consistency [12.961692839965115]
チェーン・オブ・シンキング(CoT)のような連鎖型推論手法は、大規模言語モデル(LLM)の推論タスクの解決において、その役割を担っている。
本稿では、因果的重要性と一貫性を同時に考慮する非チェーン型推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T08:28:23Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.71672086718057]
大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。
コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。
COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - Leveraging Domain Knowledge for Inclusive and Bias-aware Humanitarian
Response Entry Classification [3.824858358548714]
我々は人道的データ分析のための効果的かつ倫理的なシステムの提供を目指している。
人道分析フレームワークに適応した新しいアーキテクチャを導入する。
我々はまた、測定とバイアスの体系的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-26T09:15:05Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Are Machine Rationales (Not) Useful to Humans? Measuring and Improving
Human Utility of Free-Text Rationales [62.02328001381361]
既存の合理性の人的効用は十分ではなく、人間の研究で見積もるのに費用がかかることを示す。
我々は、この発見を自動スコア GEN-U に翻訳し、人間の実用性を改善することによって、LM の合理性を生み出す能力を向上させるのに役立つ。
論文 参考訳(メタデータ) (2023-05-11T19:01:13Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z) - Causal Inference for Chatting Handoff [6.876694158312089]
Causal-Enhance Module (CEM) はマシン・ヒューマン・ハンドオフのためのシンプルだが効果的なモジュールである。
ユーザへの影響については,マルチタスクの因果関係に応じて,ユーザ状態を用いて予測バイアスを補正する。
労働コストについて,実証学習を通じて非バイアス労働コストを計算するための補助費用シミュレータを訓練する。
論文 参考訳(メタデータ) (2022-10-06T12:24:58Z) - From Checking to Inference: Actual Causality Computations as
Optimization Problems [79.87179017975235]
本稿では、最適化問題として二元非巡回モデルよりも、因果推論の異なる概念を定式化するための新しいアプローチを提案する。
8000ドル以上の変数を持つモデルを用いて,MaxSAT が ILP を上回り,数秒単位でチェック処理を行う場合が多い。
論文 参考訳(メタデータ) (2020-06-05T10:56:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。