論文の概要: Entity Embeddings : Perspectives Towards an Omni-Modality Era for Large
Language Models
- arxiv url: http://arxiv.org/abs/2310.18390v1
- Date: Fri, 27 Oct 2023 17:04:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 18:43:49.129825
- Title: Entity Embeddings : Perspectives Towards an Omni-Modality Era for Large
Language Models
- Title(参考訳): エンティティ埋め込み : 大規模言語モデルのための全モダリティ時代の展望
- Authors: Eren Unlu, Unver Ciftci
- Abstract要約: 大規模言語モデル(LLM)は、テキスト、画像、音声などの複数のモダリティを統一された言語空間に統合するために進化している。
我々は、テキストのシーケンスで定義された概念的実体がモダリティとして想像できる未来の方向性を思い描いている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are evolving to integrate multiple modalities,
such as text, image, and audio into a unified linguistic space. We envision a
future direction based on this framework where conceptual entities defined in
sequences of text can also be imagined as modalities. Such a formulation has
the potential to overcome the cognitive and computational limitations of
current models. Several illustrative examples of such potential implicit
modalities are given. Along with vast promises of the hypothesized structure,
expected challenges are discussed as well.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト、画像、音声などの複数のモダリティを統一言語空間に統合するために進化している。
テキストのシーケンスで定義された概念的実体をモダリティとみなすことができる,この枠組みに基づく今後の方向性を想定する。
このような定式化は、現在のモデルの認知的および計算的限界を克服する可能性がある。
そのような潜在的な暗黙的様相のいくつかの例が与えられる。
仮説構造に関する膨大な約束とともに、期待される課題も議論されている。
関連論文リスト
- From Word Vectors to Multimodal Embeddings: Techniques, Applications, and Future Directions For Large Language Models [17.04716417556556]
本稿では,分布仮説や文脈的類似性といった基礎概念を概観する。
本稿では, ELMo, BERT, GPTなどのモデルにおいて, 静的な埋め込みと文脈的埋め込みの両方について検討する。
議論は文章や文書の埋め込みにまで拡張され、集約メソッドや生成トピックモデルをカバーする。
モデル圧縮、解釈可能性、数値エンコーディング、バイアス緩和といった高度なトピックを分析し、技術的な課題と倫理的意味の両方に対処する。
論文 参考訳(メタデータ) (2024-11-06T15:40:02Z) - Predictive Simultaneous Interpretation: Harnessing Large Language Models for Democratizing Real-Time Multilingual Communication [0.0]
本稿では,話者発話を予測し,木のような構造で複数の可能性を拡張することによって,リアルタイム翻訳を生成する新しいアルゴリズムを提案する。
我々の理論的分析は、実証的な例によって支持されており、このアプローチが最小のレイテンシでより自然で流動的な翻訳につながることを示唆している。
論文 参考訳(メタデータ) (2024-07-02T13:18:28Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - Concept Formation and Alignment in Language Models: Bridging Statistical Patterns in Latent Space to Concept Taxonomy [11.232704182001253]
本稿では,言語モデル(LM)の領域における概念形成とアライメントについて考察する。
様々なLMで学習した意味表現において,概念とその階層構造を識別する機構を提案する。
論文 参考訳(メタデータ) (2024-06-08T01:27:19Z) - Explaining Multi-modal Large Language Models by Analyzing their Vision Perception [4.597864989500202]
本研究では,画像埋め込み成分に着目し,MLLMの解釈可能性を高める新しい手法を提案する。
オープンワールドのローカライゼーションモデルとMLLMを組み合わせることで、同じビジョンの埋め込みからテキストとオブジェクトのローカライゼーション出力を同時に生成できる新しいアーキテクチャを構築する。
論文 参考訳(メタデータ) (2024-05-23T14:24:23Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - What are the Goals of Distributional Semantics? [12.640283469603355]
私は、現在のモデルが様々なセマンティックな課題にいかにうまく対処できるかを、幅広い言語学的視点で見ていく。
言語的な洞察はモデルアーキテクチャの設計を導くことができるが、将来の進歩には言語表現性と計算的トラクタビリティの相反する要求のバランスが必要である、と私は結論付けている。
論文 参考訳(メタデータ) (2020-05-06T17:36:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。