Fugu-MT 論文翻訳(概要): Navigating Hallucinations for Reasoning of Unintentional Activities

論文の概要: Navigating Hallucinations for Reasoning of Unintentional Activities

arxiv url: http://arxiv.org/abs/2402.19405v1
Date: Thu, 29 Feb 2024 18:03:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 13:37:44.906762
Title: Navigating Hallucinations for Reasoning of Unintentional Activities
Title（参考訳）: 意図しない活動の推論のための幻覚の誘導
Authors: Shresth Grover, Vibhav Vineet, Yogesh S Rawat
Abstract要約: ゼロショットシナリオでは、この問題を推論タスクとして形式化し、意図しないアクティビティのビデオが与えられたら、なぜそれが意図しないものから意図しないものへと移行したのかを知りたい。我々はまず,現在最先端の大規模マルチモーダルモデルがこの推論課題に与える影響を評価し,幻覚に悩まされていることを観察する。そこで我々は,幻想的思考を通してモデルをナビゲートし,より良い推論を実現するための新しいプロンプト技術(DoT)を提案する。
参考スコア（独自算出の注目度）: 27.246651067918208
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work we present a novel task of understanding unintentional human activities in videos. We formalize this problem as a reasoning task under zero-shot scenario, where given a video of an unintentional activity we want to know why it transitioned from intentional to unintentional. We first evaluate the effectiveness of current state-of-the-art Large Multimodal Models on this reasoning task and observe that they suffer from hallucination. We further propose a novel prompting technique,termed as Dream of Thoughts (DoT), which allows the model to navigate through hallucinated thoughts to achieve better reasoning. To evaluate the performance on this task, we also introduce three different specialized metrics designed to quantify the models reasoning capability. We perform our experiments on two different datasets, OOPs and UCF-Crimes, and our findings show that DOT prompting technique is able to outperform standard prompting, while minimizing hallucinations.
Abstract（参考訳）: 本稿では,意図しない人間の行動をビデオで理解する新しいタスクを提案する。我々はこの問題をゼロショットシナリオの下での推論タスクとして定式化しており、意図しない活動の動画を見て、なぜ意図的から意図的へ移行したのかを知りたい。まず,この推論課題に対する最先端の大規模マルチモーダルモデルの有効性を評価し,幻覚に苦しむことを観察する。さらに,より優れた推論を実現するために,モデルが幻覚的思考をナビゲートできる新たなプロンプト手法であるdream of thoughts (dot)を提案する。このタスクの性能を評価するために,モデル推論能力の定量化を目的とした3つの専門指標を導入する。我々は、oopsとutf-crimesという2つの異なるデータセットで実験を行い、dotプロンプト技術が標準プロンプトよりも優れ、幻覚を最小化できることを示した。

関連論文リスト

Mechanisms of Prompt-Induced Hallucination in Vision-Language Models [58.991412160253276]
制御されたオブジェクトカウント設定において、プロンプトが画像中のオブジェクト数をオーバーステートする障害モードについて検討する。刺激誘発幻覚 (PIH) を, 追加訓練を伴わずに40%以上減少させる小さなアテンションヘッドのセットを同定した。本研究は, 刺激による幻覚を誘発する内的メカニズムについての知見を提示し, モデル特異的な行動の実施方法の違いを明らかにした。
論文参考訳（メタデータ） (2026-01-08T18:23:03Z)
VOPE: Revisiting Hallucination of Vision-Language Models in Voluntary Imagination Task [73.75049937317506]
本稿では,自発的想像課題におけるLVLMの幻覚を評価するために,自発的物体存在評価(VOPE)を導入する。 VOPEはリチェックベースの質問を行い、LVLMが想像対象の存在を自身の反応で解釈する方法を評価する。モデル解釈と画像におけるオブジェクトの存在との間の一貫性は、モデルが応答を生成する際に幻覚を引き起こすかどうかを決定するために使用される。
論文参考訳（メタデータ） (2025-11-17T14:32:06Z)
Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet [93.00109641811788]
テストタイムスケーリングは、モデルが長い推論チェーンを生成することによって、推論時間計算を増加させる。本手法は,知識集約型タスクにおいて,高い事実的精度と低幻覚率が不可欠である場合において,まだ有効ではないことを示す。以上の結果から,テスト時間計算の増大は必ずしも精度の向上には至らず,多くの場合において幻覚の増大につながることが示唆された。
論文参考訳（メタデータ） (2025-09-08T16:28:25Z)
Two Causes, Not One: Rethinking Omission and Fabrication Hallucinations in MLLMs [31.601057368065877]
既存の手法は、省略と製造幻覚が共通の原因を共有するという欠点のある仮定に基づいており、しばしば省略を減らし、より多くの製造を誘発する。本研究は,視覚的特徴を言語表現にマッピングする場合に,排他的幻覚が不十分な自信から生じることを示すことによって,この見解を覆すものである。本研究では,物体の存在や不在を視覚的証拠がどのように推測するかを明らかにする概念的枠組みである視覚意味的注意力場を提案する。
論文参考訳（メタデータ） (2025-08-30T05:47:41Z)
HEAL: An Empirical Study on Hallucinations in Embodied Agents Driven by Large Language Models [30.596530112268848]
本研究では,大規模な言語モデルにおいて,シーン・タスクの不整合下での長時間の作業を行う幻覚に関する最初の体系的研究について述べる。私たちのゴールは、幻覚の発生範囲、どのような不整合が引き起こされるか、現在のモデルがどのように反応するかを理解することです。
論文参考訳（メタデータ） (2025-06-18T02:13:41Z)
Mitigating Behavioral Hallucination in Multimodal Large Language Models for Sequential Images [6.48620624181578]
SHE(Sequence Hallucination Eradication)は,幻覚を検知し緩和する軽量なフレームワークである。また,行動幻覚の重症度を定量化する新しい指標(BEACH)を提案する。
論文参考訳（メタデータ） (2025-06-08T15:08:52Z)
Purposefully Induced Psychosis (PIP): Embracing Hallucination as Imagination in Large Language Models [0.0]
大規模言語モデル(LLM)における幻覚は、広く誤りとみなされている。創造的あるいは探索的な文脈では、これらの「間違い」はイノベーションの予期せぬ道を表しているかもしれない。 PIP(Powposefully induced Psychosis)は,LLM幻覚を視覚的タスクに増幅する新しいアプローチである。
論文参考訳（メタデータ） (2025-04-16T12:13:02Z)
Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文参考訳（メタデータ） (2025-03-26T16:05:01Z)
Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation [49.885797244626694]
大型マルチモーダルモデル(LMM)の幻覚は、正しいように見えるが実際には正しくない応答を提供する。本稿では,ビデオモダリティにおけるLMMの幻覚問題について検討することを目的としている。
論文参考訳（メタデータ） (2025-03-25T13:12:17Z)
Socratic Questioning: Learn to Self-guide Multimodal Reasoning in the Wild [35.91285472401222]
軽量マルチモーダル大言語モデル(MLLM)に適した革新的学習・推論フレームワークを考案する。我々の自己組織化アプローチはMLLMを組織的にガイドし、ターゲット問題に関連する視覚的手がかりに集中させ、幻覚を減らし、きめ細かい画像の詳細を記述できるモデルの能力を高める。各種ベンチマーク実験により,SQの自己探索,ゼロショット視覚推論,幻覚緩和における顕著な能力を示す。
論文参考訳（メタデータ） (2025-01-06T12:16:56Z)
Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-29T23:56:01Z)
Who Brings the Frisbee: Probing Hidden Hallucination Factors in Large Vision-Language Model via Causality Analysis [14.033320167387194]
現実の応用における大きな課題は幻覚であり、LVLMは存在しない視覚要素を生成し、ユーザの信頼を損なう。我々は、オブジェクト、コンテキスト、セマンティックフォアグラウンド・バックグラウンド構造といった隠れた要因が幻覚を引き起こすという仮説を立てた。画像・テキスト・プロンプト・ネットワーク・サリエンシの因果関係を解析することにより,これらの要因をブロックするための介入を系統的に検討する。
論文参考訳（メタデータ） (2024-12-04T01:23:57Z)
Alleviating Hallucinations in Large Language Models with Scepticism Modeling [7.976667090775774]
幻覚は、大きな言語モデル(LLM)にとって大きな課題である。不確実性推定は幻覚の損傷を軽減するために用いられる。この観察により、我々は懐疑論モデリング(SM)と呼ばれる新しいアプローチを提案した。
論文参考訳（メタデータ） (2024-09-10T15:51:15Z)
Interpreting and Mitigating Hallucination in MLLMs through Multi-agent Debate [34.17353224636788]
MLLMにおける幻覚は、部分的には、これらのモデルにおいてゆっくり考え、異なる考えが欠如しているためである、と我々は主張する。我々のアプローチは幻覚だけでなく、それらがなぜ起こるのかを解釈し、幻覚の特異点を詳述する。
論文参考訳（メタデータ） (2024-07-30T02:41:32Z)
Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文参考訳（メタデータ） (2024-04-22T14:46:10Z)
On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。正しい解答知識を持つLLMの現象を推論力学の観点から検討する。我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文参考訳（メタデータ） (2024-03-29T06:48:30Z)
Unfamiliar Finetuning Examples Control How Language Models Hallucinate [75.03210107477157]
大規模な言語モデルは、馴染みのないクエリに直面した時に幻覚化することが知られている。モデルの微調整データの見慣れない例は、これらのエラーを形作るのに不可欠である。本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
論文参考訳（メタデータ） (2024-03-08T18:28:13Z)
Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文参考訳（メタデータ） (2024-03-03T02:31:11Z)
Less is More: Mitigating Multimodal Hallucination from an EOS Decision Perspective [55.41815486466186]
大規模なマルチモーダルモデル(LMM)は、視覚的な入力に存在しないコンテンツを生成するため、しばしば多モーダル幻覚に悩まされる。本稿では,モデルが生成をタイムリーに終了する能力を阻害する,過度に詳細なトレーニングデータについて検討する。生成したテキストと画像を比較し,シーケンス全体の完全性を評価する。
論文参考訳（メタデータ） (2024-02-22T13:33:13Z)
Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文参考訳（メタデータ） (2022-10-14T10:27:22Z)
Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。 MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-09-28T06:15:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。