論文の概要: ReFeed: Multi-dimensional Summarization Refinement with Reflective Reasoning on Feedback
- arxiv url: http://arxiv.org/abs/2503.21332v1
- Date: Thu, 27 Mar 2025 10:11:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:54:42.127102
- Title: ReFeed: Multi-dimensional Summarization Refinement with Reflective Reasoning on Feedback
- Title(参考訳): ReFeed: フィードバックに対する反射推論を用いた多次元要約再構成
- Authors: Taewon Yun, Jihwan Oh, Hyangsuk Min, Yuho Lee, Jihwan Bang, Jason Cai, Hwanjun Song,
- Abstract要約: フィードバックに対する反射的推論を通じて複数の次元を拡張可能な,強力な要約処理パイプラインであるReFeedを紹介する。
実験では, 寸法数, フィードバック露出, 推論ポリシが改良性能にどのように影響するかを明らかにした。
我々の発見は、適切なゴールとガイドラインでデータを作成することが効果的な推論の基本的な柱であることを強調している。
- 参考スコア(独自算出の注目度): 14.744755904747922
- License:
- Abstract: Summarization refinement faces challenges when extending to multi-dimension. In this paper, we introduce ReFeed, a powerful summarization refinement pipeline that enhances multiple dimensions through reflective reasoning on feedback. To achieve this, we release SumFeed-CoT, a large-scale Long-CoT-based dataset optimized for training a lightweight model with reflective reasoning. Our experiments reveal how the number of dimensions, feedback exposure, and reasoning policy influence refinement performance, highlighting reflective reasoning and simultaneously addressing multiple feedback is crucial to mitigate trade-off between dimensions. Furthermore, ReFeed is robust to noisy feedback and feedback order. Lastly, our finding emphasizes that creating data with a proper goal and guideline constitutes a fundamental pillar of effective reasoning. The dataset and model will be released.
- Abstract(参考訳): 要約の洗練は、多重次元に拡張する際の課題に直面している。
本稿では,フィードバックの反射的推論によって複数の次元を拡大する強力な要約精錬パイプラインであるReFeedを紹介する。
そこで我々は,Long-CoTベースの大規模データセットであるSumFeed-CoTをリリースした。
提案実験では, 寸法数, フィードバック露出数, 推論ポリシが改良性能にどのように影響し, 反射的推論を強調し, 同時に複数のフィードバックに対処することが, 寸法間のトレードオフを軽減する上で重要であることを明らかにした。
さらにReFeedは、ノイズの多いフィードバックとフィードバックの順序に対して堅牢です。
最後に、適切なゴールとガイドラインでデータを作成することが効果的な推論の基本的な柱であることを強調します。
データセットとモデルがリリースされる。
関連論文リスト
- Meta-Reflection: A Feedback-Free Reflection Learning Framework [57.14485943991588]
外部からのフィードバックを伴わずに単一の推論パスのみを必要とするフィードバックフリーリフレクション機構であるメタリフレクションを提案する。
過去のリフレクションを記憶し、取り出す人間の能力によって、メタリフレクションはコードブックに反射的な洞察を統合する。
実世界のシナリオにおけるメタリフレクションの実践性を徹底的に検討し,評価するために,E-Commerce Customer Intent Detectionという産業eコマースベンチマークを導入する。
論文 参考訳(メタデータ) (2024-12-18T12:20:04Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。
幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。
本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:32:45Z) - Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - Multi-Dimensional Optimization for Text Summarization via Reinforcement Learning [12.083649916114402]
本研究では,4次元にまたがるバランスの取れた要約を生成するために,多目的強化学習を提案する。
従来のROUGEベースの報酬が参照サマリーに依存しているのとは違って、QAベースの報酬モデルが人間の好みに合わせている。
提案手法は, 代表的な要約データセットのベースラインモデルと比較して, かなりの性能向上を達成した。
論文 参考訳(メタデータ) (2024-06-01T05:15:12Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Inverse Reinforcement Learning for Text Summarization [52.765898203824975]
本稿では,抽象的な要約モデルを学習するための効果的なパラダイムとして,逆強化学習(IRL)を導入する。
異なる領域におけるデータセット間の実験結果は、MLEおよびRLベースラインに対する要約のための提案したIRLモデルの優位性を示す。
論文 参考訳(メタデータ) (2022-12-19T23:45:05Z) - Counterfactual Learning with Multioutput Deep Kernels [0.0]
本稿では,観測データを用いた反実的推論の課題に対処する。
本稿では、因果効果を推定し、適切にポリシーを学習する、対実的マルチタスクディープカーネルモデルの一般的なクラスを示す。
論文 参考訳(メタデータ) (2022-11-20T23:28:41Z) - Make The Most of Prior Data: A Solution for Interactive Text
Summarization with Preference Feedback [15.22874706089491]
我々は、好みのフィードバックで要約モデルを対話的に訓練する新しいフレームワークを導入する。
オフラインデータと新しい報酬モデルを適切に活用することにより、ROUGEスコアとサンプル効率に関する性能を向上させる。
論文 参考訳(メタデータ) (2022-04-12T03:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。