論文の概要: See, Say, and Segment: Teaching LMMs to Overcome False Premises
- arxiv url: http://arxiv.org/abs/2312.08366v1
- Date: Wed, 13 Dec 2023 18:58:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 14:25:08.280435
- Title: See, Say, and Segment: Teaching LMMs to Overcome False Premises
- Title(参考訳): See, Say, and Segment: 偽のプリミスを克服するためにLMMを教える
- Authors: Tsung-Han Wu, Giscard Biamby, David Chan, Lisa Dunlap, Ritwik Gupta,
Xudong Wang, Joseph E. Gonzalez, Trevor Darrell
- Abstract要約: この課題を解決するために,LMMのカスケードと共同学習手法を提案する。
得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
- 参考スコア(独自算出の注目度): 67.36381001664635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current open-source Large Multimodal Models (LMMs) excel at tasks such as
open-vocabulary language grounding and segmentation but can suffer under false
premises when queries imply the existence of something that is not actually
present in the image. We observe that existing methods that fine-tune an LMM to
segment images significantly degrade their ability to reliably determine
("see") if an object is present and to interact naturally with humans ("say"),
a form of catastrophic forgetting. In this work, we propose a cascading and
joint training approach for LMMs to solve this task, avoiding catastrophic
forgetting of previous skills. Our resulting model can "see" by detecting
whether objects are present in an image, "say" by telling the user if they are
not, proposing alternative queries or correcting semantic errors in the query,
and finally "segment" by outputting the mask of the desired objects if they
exist. Additionally, we introduce a novel False Premise Correction benchmark
dataset, an extension of existing RefCOCO(+/g) referring segmentation datasets
(which we call FP-RefCOCO(+/g)). The results show that our method not only
detects false premises up to 55% better than existing approaches, but under
false premise conditions produces relative cIOU improvements of more than 31%
over baselines, and produces natural language feedback judged helpful up to 67%
of the time.
- Abstract(参考訳): 現在のオープンソースのLMM(Large Multimodal Models)は、オープンボキャブラリ言語基底やセグメンテーションといったタスクに優れていますが、クエリが実際に画像に存在しないものが存在することを暗示している場合、誤った前提で悩まされます。
画像の分割にLMMを微調整する既存の手法は、物体が存在するかどうかを確実に判断し、人間と自然に対話する能力(例えば、破滅的な忘れ方)を著しく低下させる。
本研究では,この課題を解決するためのlmmsのカスケードと合同トレーニング手法を提案する。
結果として得られたモデルは、画像にオブジェクトが存在するかどうかを検知することで"見る"ことができ、そうではないかどうかをユーザに伝え、クエリ内の代替クエリを提案するか、あるいは意味的エラーを修正することで"測定"できます。
さらに,既存のRefCOCO(+/g)参照セグメンテーションデータセット(FP-RefCO(+/g)と呼ぶ)の拡張であるFalse Premise Correctionベンチマークデータセットを導入する。
その結果,提案手法は,既存の手法よりも最大55%の精度で偽の前提条件を検出するだけでなく,前提条件下では,ベースラインよりも31%以上の相対的なcIOU改善が得られ,その67%が自然言語によるフィードバックが得られた。
関連論文リスト
- Investigating Data Contamination in Modern Benchmarks for Large Language
Models [29.48101352768151]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [60.70054129188434]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。
本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。
PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-01T15:14:58Z) - Efficient Detection of LLM-generated Texts with a Bayesian Surrogate
Model [9.878882790700786]
ベイジアンサロゲートモデルを導入し、ベイジアン不確実性に基づいて典型的なサンプルを選択し、典型的なサンプルから他のサンプルへのスコアを補間する。
実験結果から,提案手法はクエリコストの低い既存手法よりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T04:23:10Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文 参考訳(メタデータ) (2023-05-23T00:16:48Z) - Retrieving Texts based on Abstract Descriptions [63.89087805237351]
埋め込みベクトル上の類似性検索は、クエリによる検索を可能にするが、埋め込みに反映される類似性は不定義であり、一貫性がない。
我々は,その内容の抽象的記述に基づいて文を検索する,明確に定義された一貫したタスクを同定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。