論文の概要: Feedback-Enhanced Hallucination-Resistant Vision-Language Model for Real-Time Scene Understanding
- arxiv url: http://arxiv.org/abs/2504.04772v1
- Date: Mon, 07 Apr 2025 06:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:10:21.317162
- Title: Feedback-Enhanced Hallucination-Resistant Vision-Language Model for Real-Time Scene Understanding
- Title(参考訳): 実時間シーン理解のためのフィードバック強化幻覚抵抗型視覚言語モデル
- Authors: Zahir Alsulaimawi,
- Abstract要約: リアルタイムシーン理解は人工知能の重要な進歩である。
幻覚は依然として挑戦です
このアプローチでは、AIに自己認識を組み込むことによって、この問題に対処しています。
ロボットナビゲーションからセキュリティ監視まで、アプリケーションに優れています。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License:
- Abstract: Real-time scene comprehension is a key advance in artificial intelligence, enhancing robotics, surveillance, and assistive tools. However, hallucination remains a challenge. AI systems often misinterpret visual inputs, detecting nonexistent objects or describing events that never happened. These errors, far from minor, threaten reliability in critical areas like security and autonomous navigation where accuracy is essential. Our approach tackles this by embedding self-awareness into the AI. Instead of trusting initial outputs, our framework continuously assesses them in real time, adjusting confidence thresholds dynamically. When certainty falls below a solid benchmark, it suppresses unreliable claims. Combining YOLOv5's object detection strength with VILA1.5-3B's controlled language generation, we tie descriptions to confirmed visual data. Strengths include dynamic threshold tuning for better accuracy, evidence-based text to reduce hallucination, and real-time performance at 18 frames per second. This feedback-driven design cuts hallucination by 37 percent over traditional methods. Fast, flexible, and reliable, it excels in applications from robotic navigation to security monitoring, aligning AI perception with reality.
- Abstract(参考訳): リアルタイムシーン理解は、人工知能の重要な進歩であり、ロボット工学、監視、補助ツールの強化である。
しかし、幻覚は依然として課題である。
AIシステムは、しばしば視覚的な入力を誤解し、存在しないオブジェクトを検出したり、起こらなかった事象を記述する。
これらのエラーは、正確さが不可欠であるセキュリティや自律ナビゲーションといった重要な分野の信頼性を脅かしている。
このアプローチでは、AIに自己認識を組み込むことによって、この問題に対処しています。
最初のアウトプットを信頼する代わりに、我々のフレームワークはそれらをリアルタイムに評価し、信頼性閾値を動的に調整します。
確実性が堅実なベンチマークを下回ると、信頼できないクレームが抑制される。
YOLOv5のオブジェクト検出強度とVILA1.5-3Bの制御言語生成とを組み合わせることで、記述を確認された視覚データに結びつける。
強度には、より精度の高いダイナミックしきい値チューニング、幻覚を減らすエビデンスベースのテキスト、毎秒18フレームのリアルタイムパフォーマンスが含まれる。
このフィードバック駆動型設計は、従来の方法よりも幻覚を37%削減する。
高速で柔軟で信頼性の高い、ロボットナビゲーションからセキュリティ監視まで、AI知覚を現実と整合させるアプリケーションに優れています。
関連論文リスト
- Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。
本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文 参考訳(メタデータ) (2024-10-31T13:13:32Z) - Visual Agents as Fast and Slow Thinkers [88.1404921693082]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。
FaSTは、システム1/2モード間の動的選択にスイッチアダプタを使用する。
モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文 参考訳(メタデータ) (2024-08-16T17:44:02Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - TPatch: A Triggered Physical Adversarial Patch [19.768494127237393]
音響信号によって引き起こされる物理的対向パッチであるTPatchを提案する。
運転者の疑念を避けるため,コンテンツベースカモフラージュ法と攻撃強化法を提案する。
論文 参考訳(メタデータ) (2023-12-30T06:06:01Z) - Resilient Legged Local Navigation: Learning to Traverse with Compromised
Perception End-to-End [16.748853375988013]
我々は認識障害を目に見えない障害と落とし穴としてモデル化する。
我々は、強化学習に基づくローカルナビゲーションポリシーを訓練し、足のついたロボットを案内する。
シミュレーションおよび実四足歩行ロボットANYmalをリアルタイムに動作させることにより,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-10-05T15:01:31Z) - Artificial Intelligence Enables Real-Time and Intuitive Control of
Prostheses via Nerve Interface [25.870454492249863]
本物の手のように動き、感じる次世代の義手は、人間の心と機械の間の堅牢な神経の相互接続を必要とします。
本稿では,人工知能(AI)エージェントを用いて末梢神経インターフェースを介して切断者の運動意図を翻訳することにより,その原理を実証する神経補綴システムを提案する。
論文 参考訳(メタデータ) (2022-03-16T14:33:38Z) - Detecting Invisible People [58.49425715635312]
我々は,追跡ベンチマークを再利用し,目立たない物体を検出するための新しい指標を提案する。
私たちは、現在の検出および追跡システムがこのタスクで劇的に悪化することを実証します。
第2に,最先端の単眼深度推定ネットワークによる観測結果を用いて,3次元で明示的に推論する動的モデルを構築した。
論文 参考訳(メタデータ) (2020-12-15T16:54:45Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。