論文の概要: See, Say, and Segment: Teaching LMMs to Overcome False Premises
- arxiv url: http://arxiv.org/abs/2312.08366v1
- Date: Wed, 13 Dec 2023 18:58:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 14:25:08.280435
- Title: See, Say, and Segment: Teaching LMMs to Overcome False Premises
- Title(参考訳): See, Say, and Segment: 偽のプリミスを克服するためにLMMを教える
- Authors: Tsung-Han Wu, Giscard Biamby, David Chan, Lisa Dunlap, Ritwik Gupta,
Xudong Wang, Joseph E. Gonzalez, Trevor Darrell
- Abstract要約: この課題を解決するために,LMMのカスケードと共同学習手法を提案する。
得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
- 参考スコア(独自算出の注目度): 67.36381001664635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current open-source Large Multimodal Models (LMMs) excel at tasks such as
open-vocabulary language grounding and segmentation but can suffer under false
premises when queries imply the existence of something that is not actually
present in the image. We observe that existing methods that fine-tune an LMM to
segment images significantly degrade their ability to reliably determine
("see") if an object is present and to interact naturally with humans ("say"),
a form of catastrophic forgetting. In this work, we propose a cascading and
joint training approach for LMMs to solve this task, avoiding catastrophic
forgetting of previous skills. Our resulting model can "see" by detecting
whether objects are present in an image, "say" by telling the user if they are
not, proposing alternative queries or correcting semantic errors in the query,
and finally "segment" by outputting the mask of the desired objects if they
exist. Additionally, we introduce a novel False Premise Correction benchmark
dataset, an extension of existing RefCOCO(+/g) referring segmentation datasets
(which we call FP-RefCOCO(+/g)). The results show that our method not only
detects false premises up to 55% better than existing approaches, but under
false premise conditions produces relative cIOU improvements of more than 31%
over baselines, and produces natural language feedback judged helpful up to 67%
of the time.
- Abstract(参考訳): 現在のオープンソースのLMM(Large Multimodal Models)は、オープンボキャブラリ言語基底やセグメンテーションといったタスクに優れていますが、クエリが実際に画像に存在しないものが存在することを暗示している場合、誤った前提で悩まされます。
画像の分割にLMMを微調整する既存の手法は、物体が存在するかどうかを確実に判断し、人間と自然に対話する能力(例えば、破滅的な忘れ方)を著しく低下させる。
本研究では,この課題を解決するためのlmmsのカスケードと合同トレーニング手法を提案する。
結果として得られたモデルは、画像にオブジェクトが存在するかどうかを検知することで"見る"ことができ、そうではないかどうかをユーザに伝え、クエリ内の代替クエリを提案するか、あるいは意味的エラーを修正することで"測定"できます。
さらに,既存のRefCOCO(+/g)参照セグメンテーションデータセット(FP-RefCO(+/g)と呼ぶ)の拡張であるFalse Premise Correctionベンチマークデータセットを導入する。
その結果,提案手法は,既存の手法よりも最大55%の精度で偽の前提条件を検出するだけでなく,前提条件下では,ベースラインよりも31%以上の相対的なcIOU改善が得られ,その67%が自然言語によるフィードバックが得られた。
関連論文リスト
- Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese [3.724862061593193]
従来の検索時拡張世代(RAG)における事実整合性エラーの大きな問題は、FCE(Factual Consistency Evaluation)の研究を動機づけている
我々は,基礎となるLarge Language Models (LLM) に依存しないRAGのための,最初の総合的なFCEベンチマークemphFace4RAGを提案する。
提案するベンチマークでは,既存のFCE手法が論理的誤りを検出できないことを発見した。
論文 参考訳(メタデータ) (2024-07-01T08:35:04Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。
本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。
PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-01T15:14:58Z) - Efficient Detection of LLM-generated Texts with a Bayesian Surrogate Model [14.98695074168234]
本稿では,特に大規模言語モデル(LLM)から機械生成テキストを検出する新しい手法を提案する。
ベイジアンサロゲートモデルを用いて、ベイジアン不確実性に基づいて典型的なサンプルを選択し、典型的なサンプルから他のサンプルへのスコアを補間し、クエリ効率を向上させる。
実験の結果,提案手法はクエリコストの低い既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-05-26T04:23:10Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文 参考訳(メタデータ) (2023-05-23T00:16:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。