論文の概要: FLORA: Formal Language Model Enables Robust Training-free Zero-shot Object Referring Analysis
- arxiv url: http://arxiv.org/abs/2501.09887v1
- Date: Fri, 17 Jan 2025 00:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:59:44.533665
- Title: FLORA: Formal Language Model Enables Robust Training-free Zero-shot Object Referring Analysis
- Title(参考訳): FLORA: 形式言語モデルによりロバストなトレーニング不要なゼロショットオブジェクト参照分析が可能に
- Authors: Zhe Chen, Zijing Chen,
- Abstract要約: FLORA(Formal Language for Object Referring and Analysis)と呼ばれるゼロショットORAのためのトレーニングフリーフレームワークを提案する。
FLORAは、大きな言語モデル(LLM)の固有の推論機能を活用し、形式的な言語モデルを統合する。
実際にFLORAは、既存のトレーニング済みの接地検出器のゼロショット性能を最大45%向上させる。
- 参考スコア(独自算出の注目度): 3.8204020974004997
- License:
- Abstract: Object Referring Analysis (ORA), commonly known as referring expression comprehension, requires the identification and localization of specific objects in an image based on natural descriptions. Unlike generic object detection, ORA requires both accurate language understanding and precise visual localization, making it inherently more complex. Although recent pre-trained large visual grounding detectors have achieved significant progress, they heavily rely on extensively labeled data and time-consuming learning. To address these, we introduce a novel, training-free framework for zero-shot ORA, termed FLORA (Formal Language for Object Referring and Analysis). FLORA harnesses the inherent reasoning capabilities of large language models (LLMs) and integrates a formal language model - a logical framework that regulates language within structured, rule-based descriptions - to provide effective zero-shot ORA. More specifically, our formal language model (FLM) enables an effective, logic-driven interpretation of object descriptions without necessitating any training processes. Built upon FLM-regulated LLM outputs, we further devise a Bayesian inference framework and employ appropriate off-the-shelf interpretive models to finalize the reasoning, delivering favorable robustness against LLM hallucinations and compelling ORA performance in a training-free manner. In practice, our FLORA boosts the zero-shot performance of existing pretrained grounding detectors by up to around 45%. Our comprehensive evaluation across different challenging datasets also confirms that FLORA consistently surpasses current state-of-the-art zero-shot methods in both detection and segmentation tasks associated with zero-shot ORA. We believe our probabilistic parsing and reasoning of the LLM outputs elevate the reliability and interpretability of zero-shot ORA. We shall release codes upon publication.
- Abstract(参考訳): オブジェクト参照分析(ORA: Object Referring Analysis)は、画像中の特定のオブジェクトを自然な記述に基づいて識別および局所化する必要がある。
汎用オブジェクト検出とは異なり、ORAは正確な言語理解と正確な視覚的ローカライゼーションの両方を必要とするため、本質的にはより複雑である。
最近の事前訓練された大きな視覚的接地検出器は大きな進歩を遂げているが、広範囲にラベル付けされたデータと時間を要する学習に大きく依存している。
そこで本稿では,FLORA (Formal Language for Object Referring and Analysis) と呼ばれるゼロショットORAのための新しいトレーニングフリーフレームワークを提案する。
FLORAは、大きな言語モデル(LLM)固有の推論機能を活用し、構造化されたルールベースの記述内で言語を規制する論理的フレームワークであるフォーマル言語モデルを統合し、効果的なゼロショットORAを提供する。
より具体的には、私たちのフォーマル言語モデル(FLM)は、いかなる訓練プロセスも必要とせずに、オブジェクト記述の効果的な論理駆動的な解釈を可能にします。
FLM による LLM の出力に基づいて,ベイズ推論の枠組みをさらに発展させ,その理論を確定し,LLM の幻覚に対する好適な頑健さと ORA 性能をトレーニング不要な方法で実現する。
実際にFLORAは、既存のトレーニング済みの接地検出器のゼロショット性能を最大45%向上させる。
FLORAは、ゼロショットORAに関連する検出タスクとセグメンテーションタスクの両方において、最先端のゼロショットメソッドを一貫して上回っていることも確認しています。
我々は LLM 出力の確率論的解析と推論がゼロショット ORA の信頼性と解釈可能性を高めると信じている。
我々は公開時にコードを公表する。
関連論文リスト
- Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - Enhancing LLM's Cognition via Structurization [41.13997892843677]
大規模言語モデル(LLM)は因果的かつシーケンシャルな視点で入力コンテキストを処理する。
本稿では,コンテキスト構造化という新しい概念を提案する。
具体的には、平易で秩序のない文脈文を、適切に順序付けされ階層的に構造化された要素に変換する。
論文 参考訳(メタデータ) (2024-07-23T12:33:58Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z) - Prompt-Learning for Fine-Grained Entity Typing [40.983849729537795]
完全教師付き,少数ショット,ゼロショットシナリオにおける微粒化エンティティタイピングに対するプロンプトラーニングの適用について検討する。
本稿では,エンティティタイプの情報を自動的に要約するために,プロンプトラーニングにおける分布レベルの最適化を行う自己教師型戦略を提案する。
論文 参考訳(メタデータ) (2021-08-24T09:39:35Z) - DEER: A Data Efficient Language Model for Event Temporal Reasoning [44.21992914516526]
本稿では,事象の時間的関係に着目した言語モデルDEERを提案する。
我々の実験結果から, DEER は SOTA の結果を達成でき,低リソース環境では特に有効であることがわかった。
論文 参考訳(メタデータ) (2020-12-30T18:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。