Fugu-MT 論文翻訳(概要): Human-in-the-Loop through Chain-of-Thought

論文の概要: Human-in-the-Loop through Chain-of-Thought

arxiv url: http://arxiv.org/abs/2306.07932v2
Date: Fri, 23 Jun 2023 05:56:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-26 14:45:03.039870
Title: Human-in-the-Loop through Chain-of-Thought
Title（参考訳）: チェーン・オブ・マインド(chain-of-thought)を通した人間のループ
Authors: Zefan Cai, Baobao Chang, Wenjuan Han
Abstract要約: 本稿では,手動補正システム(Manual Correction System, MCS)について述べる。一歩前進して、人間をループに乗せたシステムを考えると、人間に性能を向上させるだけでなく、コストも抑えることになる。そこで我々は,古典経済学理論に基づくCAMLOP(Cost-utility Analysis Model for Human-in-the-Loop Systems)を提出し,実用性と対応するコストを分析し,定量化し,バランスをとる。
参考スコア（独自算出の注目度）: 24.620676911399112
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While the emergence of powerful language models along with Chain-of-thought prompting has made automation more and more omnipresent, it sometimes demonstrates its weakness in long-term or multi-step logical reasoning. For example, users don't always get desirable answers for complex mathematical problems without human involvement. Against this background, we present the Manual Correction System (MCS) -- a human-in-the-loop system enhanced by Chain-of-Thought prompting, which explores how manual correction of sub-logics in rationales can improve LLM's reasoning performance. Moving one step forward, considering a system with human-in-the-loop involves more than having humans improve performance but also controlling the cost. Therefore, we post a Cost-utility Analysis Model for Human-in-the-Loop systems (CAMLOP) based on classical economics theory to analyze, quantify and balance the utility and the corresponding cost. We conduct experiments of MCS and CAMLOP with twelve datasets. A significant advantage w.r.t cost and utility proves its superiority over strong baselines.
Abstract（参考訳）: 強力な言語モデルの出現とChain-of- Thoughtプロンプトによって、自動化が一様になる一方で、長期的な論理的推論や多段階論理的推論において、その弱点が示されることもある。例えば、ユーザーは人間の関与なしに複雑な数学的問題に対して望ましい回答を得るとは限らない。そこで本研究では,理論理論における部分論理の手動補正がllmの推論性能をいかに向上させるかを検討するために,ループ内ヒューマン・イン・ザ・ループシステムである手作業補正システム(mcs)を提案する。一歩前進して、人間をループに乗せたシステムを考えると、人間に性能を向上させるだけでなく、コストも抑えることになる。そこで,本稿では,古典経済学理論を基礎として,費用対効果分析モデル(CAMLOP)を提案し,実用性とそれに対応するコストを分析し,定量化し,バランスをとる。 MCSとCAMLOPを12のデータセットで実験する。 w.r.t のコストとユーティリティは、強力なベースラインよりも優れていることを証明している。

関連論文リスト

Cognitive Load-Aware Inference: A Neuro-Symbolic Framework for Optimizing the Token Economy of Large Language Models [0.9790236766474201]
本稿では,認知的負荷理論(CLT)と大規模言語モデル(LLM)推論のための神経科学から原理を運用する認知的負荷認識(CLAI)フレームワークを紹介する。本研究では,内因性認知負荷,外因性認知負荷,ドイツ認知負荷の概念を定量化 LLM 尺度に定式化する。本稿では,ゼロショット法であるCLAI-Promptと,これらの原理を自己認知経済に内包する微調整モデルであるCLAI-Tuneを提案する。
論文参考訳（メタデータ） (2025-07-01T10:51:18Z)
Reasoning Like an Economist: Post-Training on Economic Problems Induces Strategic Generalization in LLMs [25.067282214293904]
本稿では,特にSFT(Supervised Fine-Tuning)やRLVR(Reinforcement Learning with Verifiable Rewards)といったポストトレーニング手法が,マルチエージェントシナリオに$textit Generalize$を効果的に適用できるかどうかを考察する。我々は、経済的推論をテストベッドとして使用し、数学とゲーム理論の強力な基盤を活用している。経済推論ベンチマークとマルチエージェントゲームに関する総合的な評価は、構造化推論と経済合理性において明らかに改善されていることを示している。
論文参考訳（メタデータ） (2025-05-31T14:22:40Z)
Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models [51.85792055455284]
大規模言語モデル(LLM)の最近の進歩は、複雑な推論タスクを実行する能力を大幅に強化している。システム1推論は計算効率が良いが、最適以下の性能をもたらす。システム2推論(System 2 reasoning)は、思考の遅さや非効率性、不必要な推論の振る舞いにより、かなりの計算コストを発生させることが多い。
論文参考訳（メタデータ） (2025-03-31T17:58:07Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文参考訳（メタデータ） (2024-10-11T19:22:57Z)
Dual Active Learning for Reinforcement Learning from Human Feedback [13.732678966515781]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを合わせるために広く応用されている。人間のフィードバックは高価で時間を要するため、人間の教師がラベルを付けるための高品質な会話データを集めることが不可欠である。本稿では、オフライン強化学習(RL)を用いてアライメント問題を定式化する。
論文参考訳（メタデータ） (2024-10-03T14:09:58Z)
CSCE: Boosting LLM Reasoning by Simultaneous Enhancing of Casual Significance and Consistency [12.961692839965115]
チェーン・オブ・シンキング(CoT)のような連鎖型推論手法は、大規模言語モデル(LLM)の推論タスクの解決において、その役割を担っている。本稿では、因果的重要性と一貫性を同時に考慮する非チェーン型推論フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-20T08:28:23Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.71672086718057]
大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。 COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文参考訳（メタデータ） (2023-10-05T04:47:49Z)
Leveraging Domain Knowledge for Inclusive and Bias-aware Humanitarian Response Entry Classification [3.824858358548714]
我々は人道的データ分析のための効果的かつ倫理的なシステムの提供を目指している。人道分析フレームワークに適応した新しいアーキテクチャを導入する。我々はまた、測定とバイアスの体系的な方法を提案する。
論文参考訳（メタデータ） (2023-05-26T09:15:05Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)
Are Machine Rationales (Not) Useful to Humans? Measuring and Improving Human Utility of Free-Text Rationales [62.02328001381361]
既存の合理性の人的効用は十分ではなく、人間の研究で見積もるのに費用がかかることを示す。我々は、この発見を自動スコア GEN-U に翻訳し、人間の実用性を改善することによって、LM の合理性を生み出す能力を向上させるのに役立つ。
論文参考訳（メタデータ） (2023-05-11T19:01:13Z)
Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文参考訳（メタデータ） (2023-05-03T17:58:29Z)
Causal Inference for Chatting Handoff [6.876694158312089]
Causal-Enhance Module (CEM) はマシン・ヒューマン・ハンドオフのためのシンプルだが効果的なモジュールである。ユーザへの影響については,マルチタスクの因果関係に応じて,ユーザ状態を用いて予測バイアスを補正する。労働コストについて,実証学習を通じて非バイアス労働コストを計算するための補助費用シミュレータを訓練する。
論文参考訳（メタデータ） (2022-10-06T12:24:58Z)
From Checking to Inference: Actual Causality Computations as Optimization Problems [79.87179017975235]
本稿では、最適化問題として二元非巡回モデルよりも、因果推論の異なる概念を定式化するための新しいアプローチを提案する。 8000ドル以上の変数を持つモデルを用いて,MaxSAT が ILP を上回り,数秒単位でチェック処理を行う場合が多い。
論文参考訳（メタデータ） (2020-06-05T10:56:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。