論文の概要: Low to High Dimensional Modality Hallucination using Aggregated Fields
of View
- arxiv url: http://arxiv.org/abs/2007.06166v1
- Date: Mon, 13 Jul 2020 03:13:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 00:09:03.748827
- Title: Low to High Dimensional Modality Hallucination using Aggregated Fields
of View
- Title(参考訳): Aggregated Fields of View を用いた低次元・高次元モダリティ幻覚
- Authors: Kausic Gunasekar, Qiang Qiu and Yezhou Yang
- Abstract要約: 我々は、モダリティ幻覚を一貫したモダリティ可用性を保証する効果的な方法として論じる。
本稿では,周辺地域の複数の分野から情報を集約する新しい幻覚アーキテクチャを提案する。
また、UWRGBDおよびNYUDデータセットの分類とセグメンテーション実験を行い、幻覚がモダリティ損失の負の影響を和らげることを示した。
- 参考スコア(独自算出の注目度): 48.32515709424962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world robotics systems deal with data from a multitude of modalities,
especially for tasks such as navigation and recognition. The performance of
those systems can drastically degrade when one or more modalities become
inaccessible, due to factors such as sensors' malfunctions or adverse
environments. Here, we argue modality hallucination as one effective way to
ensure consistent modality availability and thereby reduce unfavorable
consequences. While hallucinating data from a modality with richer information,
e.g., RGB to depth, has been researched extensively, we investigate the more
challenging low-to-high modality hallucination with interesting use cases in
robotics and autonomous systems. We present a novel hallucination architecture
that aggregates information from multiple fields of view of the local
neighborhood to recover the lost information from the extant modality. The
process is implemented by capturing a non-linear mapping between the data
modalities and the learned mapping is used to aid the extant modality to
mitigate the risk posed to the system in the adverse scenarios which involve
modality loss. We also conduct extensive classification and segmentation
experiments on UWRGBD and NYUD datasets and demonstrate that hallucination
allays the negative effects of the modality loss. Implementation and models:
https://github.com/kausic94/Hallucination
- Abstract(参考訳): 現実世界のロボットシステムは、多くのモダリティ、特にナビゲーションや認識などのタスクからのデータを扱う。
これらのシステムの性能は、センサーの故障や悪環境などの要因により、1つ以上のモダリティがアクセス不能になったときに劇的に低下する可能性がある。
ここでは、モダリティ幻覚を一貫したモダリティの可利用性を確保するための効果的な方法として論じる。
rgbから奥行きなど、よりリッチな情報を含むモダリティのデータに対する幻覚は広く研究されているが、ロボット工学や自律システムにおける興味深いユースケースを用いて、より困難な低-高モダリティ幻覚について調査する。
本稿では,周辺地域の複数の視点から情報を集約して,現在あるモダリティから失われた情報を復元する,新しい幻覚アーキテクチャを提案する。
このプロセスは、データモダリティ間の非線形マッピングをキャプチャして実装され、学習されたマッピングは、モダリティ損失を伴う悪シナリオにおいてシステムに与えるリスクを軽減するために既存のモダリティを支援するために使用される。
また, uwrgbdおよびnyudデータセットの広範な分類および分割実験を行い, 幻覚がモダリティ損失の悪影響を和らげることを示した。
実装とモデル: https://github.com/kausic94/hallucination
関連論文リスト
- CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs [74.36850397755572]
CATCHは、未解決のシナリオにおいて、きめ細かい特徴知覚と累積幻覚を減少させる視覚的欠陥に関連する問題に対処する。
これは、特定のデータや事前知識を必要とせず、様々な視覚的質問応答タスクに適用でき、追加のトレーニングを必要とせず、新しいタスクにしっかりと一般化する。
論文 参考訳(メタデータ) (2024-11-19T18:27:31Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - HAVE-Net: Hallucinated Audio-Visual Embeddings for Few-Shot
Classification with Unimodal Cues [19.800985243540797]
閉鎖性、クラス内変異、照明等は、一方向RS視覚入力を用いたニューラルネットワークのトレーニング中に生じる可能性がある。
そこで本稿では,Halucinated Audio-Visual Embeddings-Network (HAVE-Net) という,限られた単調データからメタトレインのクロスモーダルな特徴を抽出する手法を提案する。
論文 参考訳(メタデータ) (2023-09-23T20:05:00Z) - Cortex Inspired Learning to Recover Damaged Signal Modality with ReD-SOM
Model [0.0]
AIと認知科学の最近の進歩は、これまで研究ができなかった新しい課題を生み出している。
そのような現代的なタスクの1つは、あるモダリティの失われたデータを別のモダリティから取り出すことである。
本稿では,このような効果をシミュレートし,変分オートエンコーダ,自己組織化マップ,ヘッブ接続を組み合わせることで,損失データモダリティを再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-07-27T09:44:12Z) - DynImp: Dynamic Imputation for Wearable Sensing Data Through Sensory and
Temporal Relatedness [78.98998551326812]
従来の手法では、データの時系列ダイナミクスと、異なるセンサーの特徴の関連性の両方をめったに利用していない、と我々は主張する。
我々はDynImpと呼ばれるモデルを提案し、特徴軸に沿って近接する隣人と異なる時間点の欠如を扱う。
本手法は, 関連センサのマルチモーダル性特性を活かし, 履歴時系列のダイナミックスから学習し, 極端に欠落した状態でデータを再構築することができることを示す。
論文 参考訳(メタデータ) (2022-09-26T21:59:14Z) - LARD: Large-scale Artificial Disfluency Generation [0.0]
複雑で現実的な人工的不一致を少ない労力で生成する手法である LARD を提案する。
提案手法は, 繰り返し, 置換, 再起動の3種類の相反を処理できる。
4つの異なるタスクで使用できる、分散を持つ新しい大規模データセットをリリースする。
論文 参考訳(メタデータ) (2022-01-13T16:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。