論文の概要: Perception in Reflection
- arxiv url: http://arxiv.org/abs/2504.07165v1
- Date: Wed, 09 Apr 2025 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:21:01.374797
- Title: Perception in Reflection
- Title(参考訳): 反射の知覚
- Authors: Yana Wei, Liang Zhao, Kangheng Lin, En Yu, Yuang Peng, Runpei Dong, Jianjian Sun, Haoran Wei, Zheng Ge, Xiangyu Zhang, Vishal M. Patel,
- Abstract要約: 本稿では,現在の大規模視覚言語モデルの限界を超越したリフレクションパラダイムを提案する。
本稿では、ポリシーと批判モデルとを体系的に交互に交互に行う二重モデル反射機構である反射知覚(RePer)を提案する。
- 参考スコア(独自算出の注目度): 39.33505560810175
- License:
- Abstract: We present a perception in reflection paradigm designed to transcend the limitations of current large vision-language models (LVLMs), which are expected yet often fail to achieve perfect perception initially. Specifically, we propose Reflective Perception (RePer), a dual-model reflection mechanism that systematically alternates between policy and critic models, enables iterative refinement of visual perception. This framework is powered by Reflective Perceptual Learning (RPL), which reinforces intrinsic reflective capabilities through a methodically constructed visual reflection dataset and reflective unlikelihood training. Comprehensive experimental evaluation demonstrates RePer's quantifiable improvements in image understanding, captioning precision, and hallucination reduction. Notably, RePer achieves strong alignment between model attention patterns and human visual focus, while RPL optimizes fine-grained and free-form preference alignment. These advancements establish perception in reflection as a robust paradigm for future multimodal agents, particularly in tasks requiring complex reasoning and multi-step manipulation.
- Abstract(参考訳): 本稿では,現在の大規模視覚言語モデル (LVLM) の限界を超越したリフレクションパラダイムを提案する。
具体的には、ポリシーと批判モデルとを体系的に交互に交互に行う二重モデル反射機構である反射知覚(RePer)を提案し、視覚知覚の反復的改善を可能にする。
このフレームワークはリフレクティブ・パーセプショナル・ラーニング(Reflective Perceptual Learning, RPL)によって駆動される。
総合的な実験的評価は、RePerによる画像理解、キャプション精度、幻覚減少の定量的改善を示す。
特にRePerは、モデルアテンションパターンと人間の視覚的焦点の強いアライメントを達成する一方、RPLはきめ細かな自由形式の好みのアライメントを最適化する。
これらの進歩は、将来のマルチモーダルエージェント、特に複雑な推論とマルチステップ操作を必要とするタスクにおいて、リフレクションの認識を堅牢なパラダイムとして確立する。
関連論文リスト
- Meta-Reflection: A Feedback-Free Reflection Learning Framework [57.14485943991588]
外部からのフィードバックを伴わずに単一の推論パスのみを必要とするフィードバックフリーリフレクション機構であるメタリフレクションを提案する。
過去のリフレクションを記憶し、取り出す人間の能力によって、メタリフレクションはコードブックに反射的な洞察を統合する。
実世界のシナリオにおけるメタリフレクションの実践性を徹底的に検討し,評価するために,E-Commerce Customer Intent Detectionという産業eコマースベンチマークを導入する。
論文 参考訳(メタデータ) (2024-12-18T12:20:04Z) - Planar Reflection-Aware Neural Radiance Fields [32.709468082010126]
我々は、窓などの平面反射体を共同でモデル化し、反射光を明示的に鋳造して高周波反射源を捉える反射型NeRFを提案する。
一次光線に沿ってレンダリングすると、きれいで反射のないビューとなり、一方、反射光線に沿って明示的にレンダリングすることで、非常に詳細な反射を再構成することができる。
論文 参考訳(メタデータ) (2024-11-07T18:55:08Z) - Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。
幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。
本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:32:45Z) - Revisiting Single Image Reflection Removal In the Wild [83.42368937164473]
本研究は,実環境におけるシングルイメージリフレクション除去(SIRR)の問題に焦点をあてる。
我々は,様々な現実世界のリフレクションシナリオに高度に適用可能な,高度なリフレクション収集パイプラインを考案した。
野生での反射除去(RRW)と呼ばれる大規模で高品質な反射データセットを開発する。
論文 参考訳(メタデータ) (2023-11-29T02:31:10Z) - TraM-NeRF: Tracing Mirror and Near-Perfect Specular Reflections through
Neural Radiance Fields [3.061835990893184]
NeRF(Neural Radiance Fields)のような暗黙の表現は、複雑なシーンを細かな詳細でレンダリングするための印象的な結果を示した。
本研究では,NeRF内部のボリュームレンダリングに適した新しいリフレクショントレーシング手法を提案する。
少数の試料から,光線による重要サンプリングと透過率計算の効率的な手法を導出した。
論文 参考訳(メタデータ) (2023-10-16T17:59:56Z) - Two-Stage Single Image Reflection Removal with Reflection-Aware Guidance [78.34235841168031]
シングルイメージリフレクション除去(SIRR)のためのリフレクション・アウェア・ガイダンス(RAGNet)を用いた新しい2段階ネットワークを提案する。
RAGは、(i)観測からの反射の効果を緩和するために、(ii)線形結合仮説から逸脱する効果を緩和するための部分畳み込みにおいてマスクを生成するために用いられる。
5つの一般的なデータセットの実験は、最先端のSIRR法と比較して、RAGNetの量的および質的な優位性を実証している。
論文 参考訳(メタデータ) (2020-12-02T03:14:57Z) - Polarized Reflection Removal with Perfect Alignment in the Wild [66.48211204364142]
野生の偏光画像からの反射を除去するための新しい定式化法を提案する。
まず、既存のリフレクション除去データセットの不整合問題を同定する。
我々は100種類以上のガラスを用いた新しいデータセットを構築し、得られた透過画像は入力された混合画像と完全に一致している。
論文 参考訳(メタデータ) (2020-03-28T13:29:31Z) - Single image reflection removal via learning with multi-image
constraints [50.54095311597466]
本稿では、上記のアプローチの利点を組み合わせ、その欠点を克服する新しい学習ベースソリューションを提案する。
提案アルゴリズムはディープニューラルネットワークを学習して、複数の入力画像間で強化されたジョイント制約でターゲットを最適化する。
我々のアルゴリズムは実画像上でリアルタイムかつ最先端の反射除去性能で動作する。
論文 参考訳(メタデータ) (2019-12-08T06:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。