論文の概要: CLEAR: Contrasting Textual Feedback with Experts and Amateurs for Reasoning
- arxiv url: http://arxiv.org/abs/2504.07116v1
- Date: Mon, 24 Mar 2025 20:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-13 06:52:56.860244
- Title: CLEAR: Contrasting Textual Feedback with Experts and Amateurs for Reasoning
- Title(参考訳): CLEAR: 専門家とアマチュアの推論におけるテキストフィードバックの対比
- Authors: Andrew Rufail, Daniel Kim, Sean O'Brien, Kevin Zhu,
- Abstract要約: CLEAR(Contrasting Textual Feedback with Experts and Amateurs for Reasoning)は、言語モデル推論の新しいアプローチである。
エキスパートモデルとアマチュアモデルはそれぞれ、モデルの初期出力に対するフィードバックを提供し、互いに対比して洗練されたフィードバックを与えます。
CLEARは、いくつかの困難な推論タスクにおいて最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 3.6128469789459015
- License:
- Abstract: We introduce CLEAR (Contrasting Textual Feedback with Experts and Amateurs for Reasoning), a novel approach to language model reasoning that leverages the strengths of a larger (expert) model and smaller (amateur) model. The expert and amateur models each provide feedback on a model's initial output and are contrasted with each other into refined feedback. This feedback is subsequently applied to iteratively improve CLEAR's responses. Our experiments demonstrate that CLEAR outperforms state-of-the-art methods in several challenging reasoning tasks, including story outline improvement (up to 19.6% relative increase in interestingness), constrained generation (up to 18.5% increase in coverage), mathematical reasoning (up to 6.7% improvement in accuracy) and mitigation of toxicity (decrease of up to 22% in toxicity).
- Abstract(参考訳): CLEAR(Contrasting Textual Feedback with Experts and Amateurs for Reasoning)は,大規模(専門)モデルと小型(アマチュア)モデルの強みを活用する言語モデル推論の新しいアプローチである。
エキスパートモデルとアマチュアモデルはそれぞれ、モデルの初期出力に対するフィードバックを提供し、互いに対比して洗練されたフィードバックを与えます。
このフィードバックは、CLEARの応答を反復的に改善するために適用される。
実験の結果、CLEARはストーリーアウトラインの改善(面白さの相対的な増加)、制約付き生成(カバレッジの最大18.5%)、数学的推論(精度6.7%)、毒性の軽減(毒性の最大22%の減少)など、難解な推論タスクにおいて最先端の手法よりも優れていた。
関連論文リスト
- Benchmark on Peer Review Toxic Detection: A Challenging Task with a New Dataset [6.106100820330045]
この研究は、ピアレビューにおける毒性の検出という、重要だが未調査の領域を探求する。
まず、4つの異なるカテゴリにわたるピアレビューの毒性を定義し、OpenReviewプラットフォームからピアレビューのデータセットをキュレートする。
我々は、専用毒性検出モデルや感情分析モデルなど、様々なモデルをベンチマークする。
論文 参考訳(メタデータ) (2025-02-01T23:01:39Z) - Self-Generated Critiques Boost Reward Modeling for Language Models [57.60881438647227]
Critic-RMは、余分な監督なしに自己生成した批評を使って報酬モデルを改善するフレームワークである。
実験の結果、Critic-RMは標準報酬モデルやLLM審査員と比較して報酬モデリングの精度を3.7%-7.3%改善していることがわかった。
論文 参考訳(メタデータ) (2024-11-25T18:28:26Z) - Multi-expert Prompting Improves Reliability, Safety, and Usefulness of Large Language Models [75.44218111729442]
本稿では,大規模言語モデル(LLM)生成を改善するために,Promptingの新たな拡張であるMulti-expert Promptingを提案する。
具体的には、複数の専門家をシミュレートし、応答を集約し、個々のレスポンスと集約されたレスポンスの中で最高のものを選択することで、入力命令を満たすようLLMを誘導する。
評価の結果, マルチエキスパート・プロンプトは, 毒性や傷害を低減しつつ, 真理性, 事実性, 情報性, 応答の有用性を高める上で, エキスパート・プロンプトと同等のベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-01T10:06:52Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。
我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。
以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文 参考訳(メタデータ) (2024-09-20T18:34:38Z) - Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - Abdelhak at SemEval-2024 Task 9 : Decoding Brainteasers, The Efficacy of
Dedicated Models Versus ChatGPT [0.0]
本研究では,BRAINTEASERタスク9を解くための専用モデルを提案する。
文と単語パズルによる側方思考能力の評価を目的とした新しい課題。
本モデルでは, 文パズル解法において, 総合スコア0.98でランク1を確保でき, 顕著な有効性を示した。
論文 参考訳(メタデータ) (2024-02-24T20:00:03Z) - Towards Reliable and Fluent Large Language Models: Incorporating
Feedback Learning Loops in QA Systems [10.58737969057445]
我々は,大規模な言語モデルによって生成された応答の引用,正しさ,および流布性を評価することができる評論家モデルを訓練するためのデータセットを構築した。
本稿では,批判モデルを利用して生成したテキストの異質な側面をリアルタイムにフィードバックする自動フィードバック機構を提案する。
提案手法の有効性を実験的に検証し,4%の精度向上とMAUVE測定値の約8%の精度向上を図った。
論文 参考訳(メタデータ) (2023-09-08T09:39:53Z) - OPT-R: Exploring the Role of Explanations in Finetuning and Prompting
for Reasoning Skills of Large Language Models [48.412284346337344]
我々はLarge Language Models(LLMs)の推論能力について徹底的な調査を行っている。
本研究は,Open Pretrained Transformers (OPT) の3つの異なるサイズを微調整する。
次に、SUPER-NATURALINSTRUCTIONSベンチマークから引き出された57の領域外タスクについて、全てのモデルを評価する。
論文 参考訳(メタデータ) (2023-05-19T20:58:22Z) - BERT-Beta: A Proactive Probabilistic Approach to Text Moderation [10.542906860939478]
テキストが有害なコメントを引き付ける傾向の程度を特徴付けるために,テキスト毒性の妥当性を示す新しい概念を提案する。
また,モデル決定を明確に伝達するための説明手法を提案する。
論文 参考訳(メタデータ) (2021-09-18T02:04:50Z) - Facial Feedback for Reinforcement Learning: A Case Study and Offline
Analysis Using the TAMER Framework [51.237191651923666]
訓練者の表情からエージェント学習の可能性について,評価フィードバックとして解釈することで検討した。
設計したCNN-RNNモデルを用いて,学習者に対して表情とコンペティションの使用を指示することで,肯定的および否定的なフィードバックを推定する精度を向上させることができることを示す。
シミュレーション実験の結果,表情に基づく予測フィードバックのみから学習できることが示唆された。
論文 参考訳(メタデータ) (2020-01-23T17:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。