論文の概要: CARO: Chain-of-Analogy Reasoning Optimization for Robust Content Moderation
- arxiv url: http://arxiv.org/abs/2604.10504v1
- Date: Sun, 12 Apr 2026 07:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.059528
- Title: CARO: Chain-of-Analogy Reasoning Optimization for Robust Content Moderation
- Title(参考訳): CARO:ロバストコンテンツモデレーションのためのパターン・オブ・アナロジー推論最適化
- Authors: Bingzhe Wu, Haotian Lu, Yuchen Mou,
- Abstract要約: カロは、大きな言語モデル(LLM)で堅牢なアナログ推論を誘導する2段階の訓練フレームワークである
カロブートストラップは、モデレーションデータに基づいて、検索増強生成(RAG)を介してアナログ推論チェーンを解析し、教師付き微調整(SFT)を実行する
静的検索法とは異なり、カロは推論中に適切な類似参照を動的に生成し、有害な意思決定のショートカットを効果的に軽減する。
- 参考スコア(独自算出の注目度): 10.836749658568365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current large language models (LLMs), even those explicitly trained for reasoning, often struggle with ambiguous content moderation cases due to misleading "decision shortcuts" embedded in context. Inspired by cognitive psychology insights into expert moderation, we introduce \caro (Chain-of-Analogy Reasoning Optimization), a novel two-stage training framework to induce robust analogical reasoning in LLMs. First, \caro bootstraps analogical reasoning chains via retrieval-augmented generation (RAG) on moderation data and performs supervised fine-tuning (SFT). Second, we propose a customized direct preference optimization (DPO) approach to reinforce analogical reasoning behaviors explicitly. Unlike static retrieval methods, \caro dynamically generates tailored analogical references during inference, effectively mitigating harmful decision shortcuts. Extensive experiments demonstrate that \caro substantially outperforms state-of-the-art reasoning models (DeepSeek R1, QwQ), specialized moderation models (LLaMA Guard), and advanced fine-tuning and retrieval-augmented methods, achieving an average F1 score improvement of 24.9\% on challenging ambiguous moderation benchmarks.
- Abstract(参考訳): 現在の大規模言語モデル(LLM)は、推論のために明示的に訓練されたものでさえ、コンテキストに埋め込まれた「決定のショートカット」を誤解させるため、曖昧なコンテンツモデレーションのケースでしばしば苦労する。
専門家のモデレーションに対する認知心理学的洞察に触発され,LLMにおけるロバストなアナロジー推論を誘発する新たな2段階トレーニングフレームワークである 'caro (Chain-of-Analogy Reasoning Optimization) を導入する。
まず、モデレーションデータに基づいて、検索拡張生成(RAG)を介してアナログ推論チェーンを解析し、教師付き微調整(SFT)を行う。
第2に、アナログ推論の振る舞いを明示的に強化するために、カスタマイズされた直接選好最適化(DPO)アプローチを提案する。
静的検索法とは異なり、 \caro は推論中に適切な類似参照を動的に生成し、有害な意思決定のショートカットを効果的に軽減する。
大規模な実験により、 \caro は最先端の推論モデル (DeepSeek R1, QwQ) 、特殊なモデレーションモデル (LLaMA Guard) 、高度な微調整および検索拡張手法を著しく上回り、挑戦的曖昧なモデレーションベンチマークにおいて平均 F1 スコアが 24.9 % 向上することを示した。
関連論文リスト
- MSA-Thinker: Discrimination-Calibration Reasoning with Hint-Guided Reinforcement Learning for Multimodal Sentiment Analysis [5.1150258716324055]
マルチモーダル感情分析は、テキスト、聴覚、視覚のモダリティを統合することで人間の感情を理解することを目的としている。
CoT(Chain-of-Thought)推論を取り入れた既存の手法は、高いアノテーションコストによって妨げられる。
本研究では,Hintに基づく強化学習と構造化識別校正(DC)推論を統合した新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-10T12:48:41Z) - Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment [97.55382322103986]
Hit-RAGは認知的ボトルネックを解決するために設計された多段階の優先順位調整フレームワークである。
本手法は,3つの異なる段階を通じて外部証拠の利用を体系的に改善する。
論文 参考訳(メタデータ) (2026-03-07T04:05:27Z) - Directional Attractors in LLM Reasoning: How Similarity Retrieval Steers Iterative Summarization Based Reasoning [0.0]
InftyThink with Cross-Chain Memoryは、以前成功した推論パターンの埋め込みベースのセマンティックキャッシュで反復推論を強化する拡張である。
実験により、意味補題検索は、不均一なドメインを含むテストにおいて、障害モードを露呈しながら、構造化ドメインの精度を向上させることが示された。
論文 参考訳(メタデータ) (2025-12-22T00:26:54Z) - Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-10-02T09:55:26Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - How Is LLM Reasoning Distracted by Irrelevant Context? An Analysis Using a Controlled Benchmark [43.7702541309867]
分散文脈をもつ小学校数学は、体系的に制御された文脈 (IC) に対するLarge Language Models (LLM) 推論を評価するためのベンチマークである。
実験の結果,LLMはICに非常に敏感であり,推理経路の選択と算術精度の両方に影響を及ぼすことがわかった。
本稿では,プロセス報酬モデルを用いて,配当条件下でのロバスト性を高めるステップワイズツリー探索を提案する。
論文 参考訳(メタデータ) (2025-05-24T15:56:22Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。