論文の概要: Navigating Hallucinations for Reasoning of Unintentional Activities
- arxiv url: http://arxiv.org/abs/2402.19405v2
- Date: Sun, 3 Mar 2024 09:19:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 19:24:56.158039
- Title: Navigating Hallucinations for Reasoning of Unintentional Activities
- Title(参考訳): 意図しない活動の推論のための幻覚の誘導
- Authors: Shresth Grover, Vibhav Vineet, Yogesh S Rawat
- Abstract要約: ゼロショットシナリオでは、この問題を推論タスクとして形式化し、意図しないアクティビティのビデオが与えられたら、なぜそれが意図しないものから意図しないものへと移行したのかを知りたい。
我々はまず,現在最先端の大規模マルチモーダルモデルがこの推論課題に与える影響を評価し,幻覚に悩まされていることを観察する。
そこで我々は,幻想的思考を通してモデルをナビゲートし,より良い推論を実現するための新しいプロンプト技術(DoT)を提案する。
- 参考スコア(独自算出の注目度): 27.246651067918208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we present a novel task of understanding unintentional human
activities in videos. We formalize this problem as a reasoning task under
zero-shot scenario, where given a video of an unintentional activity we want to
know why it transitioned from intentional to unintentional. We first evaluate
the effectiveness of current state-of-the-art Large Multimodal Models on this
reasoning task and observe that they suffer from hallucination. We further
propose a novel prompting technique,termed as Dream of Thoughts (DoT), which
allows the model to navigate through hallucinated thoughts to achieve better
reasoning. To evaluate the performance on this task, we also introduce three
different specialized metrics designed to quantify the models reasoning
capability. We perform our experiments on two different datasets, OOPs and
UCF-Crimes, and our findings show that DOT prompting technique is able to
outperform standard prompting, while minimizing hallucinations.
- Abstract(参考訳): 本稿では,意図しない人間の行動をビデオで理解する新しいタスクを提案する。
我々はこの問題をゼロショットシナリオの下での推論タスクとして定式化しており、意図しない活動の動画を見て、なぜ意図的から意図的へ移行したのかを知りたい。
まず,この推論課題に対する最先端の大規模マルチモーダルモデルの有効性を評価し,幻覚に苦しむことを観察する。
さらに,より優れた推論を実現するために,モデルが幻覚的思考をナビゲートできる新たなプロンプト手法であるdream of thoughts (dot)を提案する。
このタスクの性能を評価するために,モデル推論能力の定量化を目的とした3つの専門指標を導入する。
我々は、oopsとutf-crimesという2つの異なるデータセットで実験を行い、dotプロンプト技術が標準プロンプトよりも優れ、幻覚を最小化できることを示した。
関連論文リスト
- Alleviating Hallucinations in Large Language Models with Scepticism Modeling [7.976667090775774]
幻覚は、大きな言語モデル(LLM)にとって大きな課題である。
不確実性推定は幻覚の損傷を軽減するために用いられる。
この観察により、我々は懐疑論モデリング(SM)と呼ばれる新しいアプローチを提案した。
論文 参考訳(メタデータ) (2024-09-10T15:51:15Z) - Interpreting and Mitigating Hallucination in MLLMs through Multi-agent Debate [34.17353224636788]
MLLMにおける幻覚は、部分的には、これらのモデルにおいてゆっくり考え、異なる考えが欠如しているためである、と我々は主張する。
我々のアプローチは幻覚だけでなく、それらがなぜ起こるのかを解釈し、幻覚の特異点を詳述する。
論文 参考訳(メタデータ) (2024-07-30T02:41:32Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - Unfamiliar Finetuning Examples Control How Language Models Hallucinate [75.03210107477157]
大規模な言語モデルは、馴染みのないクエリに直面した時に幻覚化することが知られている。
モデルの微調整データの見慣れない例は、これらのエラーを形作るのに不可欠である。
本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
論文 参考訳(メタデータ) (2024-03-08T18:28:13Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Less is More: Mitigating Multimodal Hallucination from an EOS Decision Perspective [55.41815486466186]
大規模なマルチモーダルモデル(LMM)は、視覚的な入力に存在しないコンテンツを生成するため、しばしば多モーダル幻覚に悩まされる。
本稿では,モデルが生成をタイムリーに終了する能力を阻害する,過度に詳細なトレーニングデータについて検討する。
生成したテキストと画像を比較し,シーケンス全体の完全性を評価する。
論文 参考訳(メタデータ) (2024-02-22T13:33:13Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。