論文の概要: Human-in-the-Loop through Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2306.07932v2
- Date: Fri, 23 Jun 2023 05:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 14:45:03.039870
- Title: Human-in-the-Loop through Chain-of-Thought
- Title(参考訳): チェーン・オブ・マインド(chain-of-thought)を通した人間のループ
- Authors: Zefan Cai, Baobao Chang, Wenjuan Han
- Abstract要約: 本稿では,手動補正システム(Manual Correction System, MCS)について述べる。
一歩前進して、人間をループに乗せたシステムを考えると、人間に性能を向上させるだけでなく、コストも抑えることになる。
そこで我々は,古典経済学理論に基づくCAMLOP(Cost-utility Analysis Model for Human-in-the-Loop Systems)を提出し,実用性と対応するコストを分析し,定量化し,バランスをとる。
- 参考スコア(独自算出の注目度): 24.620676911399112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the emergence of powerful language models along with Chain-of-thought
prompting has made automation more and more omnipresent, it sometimes
demonstrates its weakness in long-term or multi-step logical reasoning. For
example, users don't always get desirable answers for complex mathematical
problems without human involvement. Against this background, we present the
Manual Correction System (MCS) -- a human-in-the-loop system enhanced by
Chain-of-Thought prompting, which explores how manual correction of sub-logics
in rationales can improve LLM's reasoning performance. Moving one step forward,
considering a system with human-in-the-loop involves more than having humans
improve performance but also controlling the cost. Therefore, we post a
Cost-utility Analysis Model for Human-in-the-Loop systems (CAMLOP) based on
classical economics theory to analyze, quantify and balance the utility and the
corresponding cost. We conduct experiments of MCS and CAMLOP with twelve
datasets. A significant advantage w.r.t cost and utility proves its superiority
over strong baselines.
- Abstract(参考訳): 強力な言語モデルの出現とChain-of- Thoughtプロンプトによって、自動化が一様になる一方で、長期的な論理的推論や多段階論理的推論において、その弱点が示されることもある。
例えば、ユーザーは人間の関与なしに複雑な数学的問題に対して望ましい回答を得るとは限らない。
そこで本研究では,理論理論における部分論理の手動補正がllmの推論性能をいかに向上させるかを検討するために,ループ内ヒューマン・イン・ザ・ループシステムである手作業補正システム(mcs)を提案する。
一歩前進して、人間をループに乗せたシステムを考えると、人間に性能を向上させるだけでなく、コストも抑えることになる。
そこで,本稿では,古典経済学理論を基礎として,費用対効果分析モデル(CAMLOP)を提案し,実用性とそれに対応するコストを分析し,定量化し,バランスをとる。
MCSとCAMLOPを12のデータセットで実験する。
w.r.t のコストとユーティリティは、強力なベースラインよりも優れていることを証明している。
関連論文リスト
- CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Cost-Effective Retraining of Machine Learning Models [2.9461360639852914]
データが時間とともに変化するにつれて、そのパフォーマンスを維持するためには、機械学習(ML)モデルを再トレーニングすることが重要です。
これにより、再トレーニングの頻度が高過ぎると、不要な計算コストが発生し、再トレーニングが不十分になる。
本稿では,MLモデルをいつ再トレーニングするかを自動かつ費用対効果で決定するMLシステムを提案する。
論文 参考訳(メタデータ) (2023-10-06T13:02:29Z) - Concise and Organized Perception Facilitates Large Language Models for
Deductive Reasoning [36.590274024394326]
コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。
COPは与えられたステートメントを慎重に分析し、冗長性を排除しつつ、最も関連する情報を効率的に識別する。
その後、モデルの推論プロセスに適応するより組織化された形式でLLMを誘導する。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Leveraging Domain Knowledge for Inclusive and Bias-aware Humanitarian
Response Entry Classification [3.824858358548714]
我々は人道的データ分析のための効果的かつ倫理的なシステムの提供を目指している。
人道分析フレームワークに適応した新しいアーキテクチャを導入する。
我々はまた、測定とバイアスの体系的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-26T09:15:05Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Are Machine Rationales (Not) Useful to Humans? Measuring and Improving
Human Utility of Free-Text Rationales [62.02328001381361]
既存の合理性の人的効用は十分ではなく、人間の研究で見積もるのに費用がかかることを示す。
我々は、この発見を自動スコア GEN-U に翻訳し、人間の実用性を改善することによって、LM の合理性を生み出す能力を向上させるのに役立つ。
論文 参考訳(メタデータ) (2023-05-11T19:01:13Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z) - Causal Inference for Chatting Handoff [6.876694158312089]
Causal-Enhance Module (CEM) はマシン・ヒューマン・ハンドオフのためのシンプルだが効果的なモジュールである。
ユーザへの影響については,マルチタスクの因果関係に応じて,ユーザ状態を用いて予測バイアスを補正する。
労働コストについて,実証学習を通じて非バイアス労働コストを計算するための補助費用シミュレータを訓練する。
論文 参考訳(メタデータ) (2022-10-06T12:24:58Z) - From Checking to Inference: Actual Causality Computations as
Optimization Problems [79.87179017975235]
本稿では、最適化問題として二元非巡回モデルよりも、因果推論の異なる概念を定式化するための新しいアプローチを提案する。
8000ドル以上の変数を持つモデルを用いて,MaxSAT が ILP を上回り,数秒単位でチェック処理を行う場合が多い。
論文 参考訳(メタデータ) (2020-06-05T10:56:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。