Fugu-MT 論文翻訳(概要): CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing

論文の概要: CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing

arxiv url: http://arxiv.org/abs/2305.11738v2
Date: Sat, 30 Sep 2023 08:35:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-03 14:53:54.213602
Title: CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing
Title（参考訳）: CRITIC: ツール・インタラクティブ・クオリティクスによる大規模言語モデルの自動修正
Authors: Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Nan Duan, Weizhu Chen
Abstract要約: CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
参考スコア（独自算出の注目度）: 139.77117915309023
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent developments in large language models (LLMs) have been impressive. However, these models sometimes show inconsistencies and problematic behavior, such as hallucinating facts, generating flawed code, or creating offensive and toxic content. Unlike these models, humans typically utilize external tools to cross-check and refine their initial content, like using a search engine for fact-checking, or a code interpreter for debugging. Inspired by this observation, we introduce a framework called CRITIC that allows LLMs, which are essentially "black boxes" to validate and progressively amend their own outputs in a manner similar to human interaction with tools. More specifically, starting with an initial output, CRITIC interacts with appropriate tools to evaluate certain aspects of the text, and then revises the output based on the feedback obtained during this validation process. Comprehensive evaluations involving free-form question answering, mathematical program synthesis, and toxicity reduction demonstrate that CRITIC consistently enhances the performance of LLMs. Meanwhile, our research highlights the crucial importance of external feedback in promoting the ongoing self-improvement of LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の発展は印象的だ。しかしながら、これらのモデルは、幻覚的な事実、欠陥コードの生成、攻撃的で有害なコンテンツの作成など、矛盾や問題のある振る舞いを示すこともある。これらのモデルとは異なり、人間は通常、外部ツールを使用して、ファクトチェックの検索エンジンやデバッグのコードインタプリタなど、初期コンテンツをクロスチェックし、洗練する。この観察にインスパイアされたCRITICと呼ばれるフレームワークは、基本的には「ブラックボックス」であり、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と段階的な修正を可能にする。具体的には、初期出力から始めると、CRITICはテキストの特定の側面を評価するための適切なツールと対話し、この検証プロセスで得られたフィードバックに基づいて出力を更新する。自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを示す。一方,本研究は,LLMの自己改善を促進する上で,外部からのフィードバックの重要性を強調している。

関連論文リスト

LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation [1.2576388595811496]
本稿では,モデル性能推定における暗記の影響を低減する言語推論問題を生成するための枠組みを提案する。このフレームワークを言語推論のための挑戦的なベンチマークであるlingOLY-TOOの開発に適用する。
論文参考訳（メタデータ） (2025-03-04T19:57:47Z)
Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。 SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
A linguistic analysis of undesirable outcomes in the era of generative AI [4.841442157674423]
本稿では,LLama2のチャットバージョンを基盤として,生成されたコンテンツの言語的側面に着目した総合シミュレーションフレームワークを提案する。以上の結果から,このモデルでは世代ごとの語彙的リッチコンテンツの生成が減少し,多様性が低下することが示唆された。オートファジーは、最初のモデルをより創造的で疑わしい、混乱したものに変換し、不正確な答えをもたらす可能性がある。
論文参考訳（メタデータ） (2024-10-16T08:02:48Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
N-Critics: Self-Refinement of Large Language Models with Ensemble of Critics [5.516095889257118]
本稿では,大規模言語モデル(LLM)の自己補正機構を提案し,毒性や事実幻覚などの問題を緩和する。この方法は、批評家とモデル自身のフィードバックのアンサンブルを通じてモデル出力を精査する。
論文参考訳（メタデータ） (2023-10-28T11:22:22Z)
Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。生成したコンテンツの正確性と適切性に関する懸念が続いている。現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文参考訳（メタデータ） (2023-10-03T04:56:12Z)
Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。本稿では,この新技術について概観する。
論文参考訳（メタデータ） (2023-08-06T18:38:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。