論文の概要: The Role of Entropy in Visual Grounding: Analysis and Optimization
- arxiv url: http://arxiv.org/abs/2512.06726v1
- Date: Sun, 07 Dec 2025 08:33:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.491983
- Title: The Role of Entropy in Visual Grounding: Analysis and Optimization
- Title(参考訳): 視覚接地におけるエントロピーの役割:分析と最適化
- Authors: Shuo Li, Jiajun Sun, Zhihao Zhang, Xiaoran Fan, Senjie Jin, Hui Li, Yuming Yang, Junjie Ye, Lixing Shen, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: 本稿では,効率的なエントロピー制御のための解釈可能なアルゴリズムであるECVGPO(Entropy Control Visual Grounding Policy Optimization)を紹介する。
実験によると、ECVGPOは様々なベンチマークやモデルで広範囲に改善されている。
- 参考スコア(独自算出の注目度): 69.51909526456606
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in fine-tuning multimodal large language models (MLLMs) using reinforcement learning have achieved remarkable progress, particularly with the introduction of various entropy control techniques. However, the role and characteristics of entropy in perception-oriented tasks like visual grounding, as well as effective strategies for controlling it, remain largely unexplored. To address this issue, we focus on the visual grounding task and analyze the role and characteristics of entropy in comparison to reasoning tasks. Building on these findings, we introduce ECVGPO (Entropy Control Visual Grounding Policy Optimization), an interpretable algorithm designed for effective entropy regulation. Through entropy control, the trade-off between exploration and exploitation is better balanced. Experiments show that ECVGPO achieves broad improvements across various benchmarks and models.
- Abstract(参考訳): 強化学習を用いた細調整多モーダル大言語モデル(MLLM)の最近の進歩は、特に様々なエントロピー制御技術の導入によって顕著な進歩を遂げている。
しかし、視覚的接地のような知覚指向のタスクにおけるエントロピーの役割と特徴、およびそれを制御する効果的な戦略は、いまだほとんど解明されていない。
この問題に対処するため,視覚的接地タスクに着目し,推論タスクと比較してエントロピーの役割と特徴を分析する。
これらの結果に基づいて,効率的なエントロピー制御のための解釈可能なアルゴリズムであるECVGPO(Entropy Control Visual Grounding Policy Optimization)を導入する。
エントロピー制御により、探検と搾取の間のトレードオフはバランスが良くなる。
実験によると、ECVGPOは様々なベンチマークやモデルで広範囲に改善されている。
関連論文リスト
- Efficient Reinforcement Learning with Semantic and Token Entropy for LLM Reasoning [30.889495810312624]
本稿では,意味レベルとトークンレベルの両方でエントロピー信号を活用して推論を改善する,効率的な強化学習フレームワークを提案する。
データ構造とアルゴリズム設計を協調的に最適化することにより,エントロピー崩壊を効果的に軽減し,推論を強化する。
論文 参考訳(メタデータ) (2025-12-04T01:09:17Z) - Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Evolutionary Multi-Objective Optimization of Large Language Model
Prompts for Balancing Sentiments [0.0]
EMO-Promptsと呼ばれる迅速な最適化に適した進化的多目的(EMO)アプローチを提案する。
EMO-Prompts は,2つの矛盾する感情を同時に表わしたテキストを生成するために LLM を誘導できるプロンプトを効果的に生成することを示した。
論文 参考訳(メタデータ) (2024-01-18T10:21:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。