論文の概要: Lenna: Language Enhanced Reasoning Detection Assistant
- arxiv url: http://arxiv.org/abs/2312.02433v1
- Date: Tue, 5 Dec 2023 02:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 17:01:07.578363
- Title: Lenna: Language Enhanced Reasoning Detection Assistant
- Title(参考訳): Lenna: 言語拡張推論検出アシスタント
- Authors: Fei Wei, Xinyu Zhang, Ailing Zhang, Bo Zhang, Xiangxiang Chu
- Abstract要約: 大規模な言語モデルに埋め込まれた推論能力と世界知識は、画像認識タスクにおいて、はるかに少ない研究と活用がなされている。
MLLMの頑健なマルチモーダル特徴表現を利用した言語強化推論検出アシスタントLennaを提案する。
LennaはReasonDetで優れたパフォーマンスを示しており、トレーニングコストはかなり低い。
- 参考スコア(独自算出の注目度): 22.105472753701076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the fast-paced development of multimodal large language models (MLLMs),
we can now converse with AI systems in natural languages to understand images.
However, the reasoning power and world knowledge embedded in the large language
models have been much less investigated and exploited for image perception
tasks. In this paper, we propose Lenna, a language-enhanced reasoning detection
assistant, which utilizes the robust multimodal feature representation of
MLLMs, while preserving location information for detection. This is achieved by
incorporating an additional <DET> token in the MLLM vocabulary that is free of
explicit semantic context but serves as a prompt for the detector to identify
the corresponding position. To evaluate the reasoning capability of Lenna, we
construct a ReasonDet dataset to measure its performance on reasoning-based
detection. Remarkably, Lenna demonstrates outstanding performance on ReasonDet
and comes with significantly low training costs. It also incurs minimal
transferring overhead when extended to other tasks. Our code and model will be
available at https://git.io/Lenna.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)の急速な発展により、自然言語のAIシステムと対話して画像を理解することができるようになった。
しかし、大規模言語モデルに埋め込まれた推論能力と世界知識は、画像認識タスクにおいて、はるかに少なく研究され、活用されている。
本稿では,MLLMの頑健なマルチモーダル特徴表現を利用した言語強化推論検出アシスタントLennaを提案する。
これはMLLM語彙に<DET>トークンを追加することで実現され、明示的な意味的コンテキストを持たないが、検出者が対応する位置を特定するためのプロンプトとして機能する。
Lennaの推論能力を評価するために、推論に基づく検出においてその性能を測定するためにReasonDetデータセットを構築した。
注目すべきは、LennaがReasonDetで優れたパフォーマンスを示し、トレーニングコストが大幅に低いことだ。
他のタスクに拡張した場合のオーバーヘッドの転送も最小限に抑えられる。
私たちのコードとモデルはhttps://git.io/Lenna.orgで公開されます。
関連論文リスト
- Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - Few-Shot Cross-Lingual Transfer for Prompting Large Language Models in
Low-Resource Languages [0.0]
プロンプティング(prompting)とは、ユーザがタスクの説明と完了したタスクのいくつかの例を PLM にコンテキストとして提供し、PLM に新しい例でタスクを実行するように促す方法である。
提案手法は, 数発プロンプト(prompt), 言語適応微調整(LAFT), ニューラルマシン翻訳(Translate)の3種類である。
翻訳とプロンプトの設定は、選択した低リソース言語に対して、数ショットプロンプトの計算効率とコスト効率のよい方法であることがわかった。
論文 参考訳(メタデータ) (2024-03-09T21:36:13Z) - Machine Translation with Large Language Models: Prompt Engineering for
Persian, English, and Russian Directions [0.0]
生成型大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、例外的な習熟性を示している。
我々は,ペルシャ語,英語,ロシア語の言語間組み合わせに着目した2つの普及促進手法とその組み合わせについて調査を行った。
論文 参考訳(メタデータ) (2024-01-16T15:16:34Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Interpretable Unified Language Checking [42.816372695828306]
本稿では,人間と機械生成言語の両方に対して,解釈可能で統一された言語チェック(UniLC)手法を提案する。
ファクトチェック, ステレオタイプ検出, ヘイトスピーチ検出タスクの組み合わせにより, LLM は高い性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-04-07T16:47:49Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。