論文の概要: Navigating Hallucinations for Reasoning of Unintentional Activities
- arxiv url: http://arxiv.org/abs/2402.19405v2
- Date: Sun, 3 Mar 2024 09:19:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-05 19:24:56.158039
- Title: Navigating Hallucinations for Reasoning of Unintentional Activities
- Title(参考訳): 意図しない活動の推論のための幻覚の誘導
- Authors: Shresth Grover, Vibhav Vineet, Yogesh S Rawat
- Abstract要約: ゼロショットシナリオでは、この問題を推論タスクとして形式化し、意図しないアクティビティのビデオが与えられたら、なぜそれが意図しないものから意図しないものへと移行したのかを知りたい。
我々はまず,現在最先端の大規模マルチモーダルモデルがこの推論課題に与える影響を評価し,幻覚に悩まされていることを観察する。
そこで我々は,幻想的思考を通してモデルをナビゲートし,より良い推論を実現するための新しいプロンプト技術(DoT)を提案する。
- 参考スコア(独自算出の注目度): 27.246651067918208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we present a novel task of understanding unintentional human
activities in videos. We formalize this problem as a reasoning task under
zero-shot scenario, where given a video of an unintentional activity we want to
know why it transitioned from intentional to unintentional. We first evaluate
the effectiveness of current state-of-the-art Large Multimodal Models on this
reasoning task and observe that they suffer from hallucination. We further
propose a novel prompting technique,termed as Dream of Thoughts (DoT), which
allows the model to navigate through hallucinated thoughts to achieve better
reasoning. To evaluate the performance on this task, we also introduce three
different specialized metrics designed to quantify the models reasoning
capability. We perform our experiments on two different datasets, OOPs and
UCF-Crimes, and our findings show that DOT prompting technique is able to
outperform standard prompting, while minimizing hallucinations.
- Abstract(参考訳): 本稿では,意図しない人間の行動をビデオで理解する新しいタスクを提案する。
我々はこの問題をゼロショットシナリオの下での推論タスクとして定式化しており、意図しない活動の動画を見て、なぜ意図的から意図的へ移行したのかを知りたい。
まず,この推論課題に対する最先端の大規模マルチモーダルモデルの有効性を評価し,幻覚に苦しむことを観察する。
さらに,より優れた推論を実現するために,モデルが幻覚的思考をナビゲートできる新たなプロンプト手法であるdream of thoughts (dot)を提案する。
このタスクの性能を評価するために,モデル推論能力の定量化を目的とした3つの専門指標を導入する。
我々は、oopsとutf-crimesという2つの異なるデータセットで実験を行い、dotプロンプト技術が標準プロンプトよりも優れ、幻覚を最小化できることを示した。
関連論文リスト
- Purposefully Induced Psychosis (PIP): Embracing Hallucination as Imagination in Large Language Models [0.0]
大規模言語モデル(LLM)における幻覚は、広く誤りとみなされている。
創造的あるいは探索的な文脈では、これらの「間違い」はイノベーションの予期せぬ道を表しているかもしれない。
PIP(Powposefully induced Psychosis)は,LLM幻覚を視覚的タスクに増幅する新しいアプローチである。
論文 参考訳(メタデータ) (2025-04-16T12:13:02Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation [49.885797244626694]
大型マルチモーダルモデル(LMM)の幻覚は、正しいように見えるが実際には正しくない応答を提供する。
本稿では,ビデオモダリティにおけるLMMの幻覚問題について検討することを目的としている。
論文 参考訳(メタデータ) (2025-03-25T13:12:17Z) - Socratic Questioning: Learn to Self-guide Multimodal Reasoning in the Wild [35.91285472401222]
軽量マルチモーダル大言語モデル(MLLM)に適した革新的学習・推論フレームワークを考案する。
我々の自己組織化アプローチはMLLMを組織的にガイドし、ターゲット問題に関連する視覚的手がかりに集中させ、幻覚を減らし、きめ細かい画像の詳細を記述できるモデルの能力を高める。
各種ベンチマーク実験により,SQの自己探索,ゼロショット視覚推論,幻覚緩和における顕著な能力を示す。
論文 参考訳(メタデータ) (2025-01-06T12:16:56Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - Who Brings the Frisbee: Probing Hidden Hallucination Factors in Large Vision-Language Model via Causality Analysis [14.033320167387194]
現実の応用における大きな課題は幻覚であり、LVLMは存在しない視覚要素を生成し、ユーザの信頼を損なう。
我々は、オブジェクト、コンテキスト、セマンティックフォアグラウンド・バックグラウンド構造といった隠れた要因が幻覚を引き起こすという仮説を立てた。
画像・テキスト・プロンプト・ネットワーク・サリエンシの因果関係を解析することにより,これらの要因をブロックするための介入を系統的に検討する。
論文 参考訳(メタデータ) (2024-12-04T01:23:57Z) - Alleviating Hallucinations in Large Language Models with Scepticism Modeling [7.976667090775774]
幻覚は、大きな言語モデル(LLM)にとって大きな課題である。
不確実性推定は幻覚の損傷を軽減するために用いられる。
この観察により、我々は懐疑論モデリング(SM)と呼ばれる新しいアプローチを提案した。
論文 参考訳(メタデータ) (2024-09-10T15:51:15Z) - Interpreting and Mitigating Hallucination in MLLMs through Multi-agent Debate [34.17353224636788]
MLLMにおける幻覚は、部分的には、これらのモデルにおいてゆっくり考え、異なる考えが欠如しているためである、と我々は主張する。
我々のアプローチは幻覚だけでなく、それらがなぜ起こるのかを解釈し、幻覚の特異点を詳述する。
論文 参考訳(メタデータ) (2024-07-30T02:41:32Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - Unfamiliar Finetuning Examples Control How Language Models Hallucinate [75.03210107477157]
大規模な言語モデルは、馴染みのないクエリに直面した時に幻覚化することが知られている。
モデルの微調整データの見慣れない例は、これらのエラーを形作るのに不可欠である。
本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
論文 参考訳(メタデータ) (2024-03-08T18:28:13Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Less is More: Mitigating Multimodal Hallucination from an EOS Decision Perspective [55.41815486466186]
大規模なマルチモーダルモデル(LMM)は、視覚的な入力に存在しないコンテンツを生成するため、しばしば多モーダル幻覚に悩まされる。
本稿では,モデルが生成をタイムリーに終了する能力を阻害する,過度に詳細なトレーニングデータについて検討する。
生成したテキストと画像を比較し,シーケンス全体の完全性を評価する。
論文 参考訳(メタデータ) (2024-02-22T13:33:13Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。