Fugu-MT 論文翻訳(概要): Exploring the Alignment Landscape: LLMs and Geometric Deep Models in Protein Representation

論文の概要: Exploring the Alignment Landscape: LLMs and Geometric Deep Models in Protein Representation

arxiv url: http://arxiv.org/abs/2411.05316v1
Date: Fri, 08 Nov 2024 04:15:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.669164
Title: Exploring the Alignment Landscape: LLMs and Geometric Deep Models in Protein Representation
Title（参考訳）: 配位景観の探索:タンパク質表現におけるLLMと幾何学的深部モデル
Authors: Dong Shu, Bingbing Duan, Kai Guo, Kaixiong Zhou, Jiliang Tang, Mengnan Du,
Abstract要約: 遅延表現アライメントは、異なるモダリティからの埋め込みを共有空間にマッピングするために使用され、しばしば大きな言語モデル(LLM)の埋め込み空間と一致している。プリミティブなタンパク質中心の大規模言語モデル (MLLM) が登場したが、それらは表現の至る所で最適なアライメントの実践に関する根本的な理解が欠如しているアプローチに大きく依存している。本研究では,タンパク質領域におけるLLMと幾何学的深部モデル(GDM)のマルチモーダル表現のアライメントについて検討する。本研究は, モデルおよびタンパク質の観点からのアライメント要因について検討し, 現行アライメント手法の課題を特定し, アライメントプロセスを改善するための戦略を提案する。
参考スコア（独自算出の注目度）: 57.59506688299817
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Latent representation alignment has become a foundational technique for constructing multimodal large language models (MLLM) by mapping embeddings from different modalities into a shared space, often aligned with the embedding space of large language models (LLMs) to enable effective cross-modal understanding. While preliminary protein-focused MLLMs have emerged, they have predominantly relied on heuristic approaches, lacking a fundamental understanding of optimal alignment practices across representations. In this study, we explore the alignment of multimodal representations between LLMs and Geometric Deep Models (GDMs) in the protein domain. We comprehensively evaluate three state-of-the-art LLMs (Gemma2-2B, LLaMa3.1-8B, and LLaMa3.1-70B) with four protein-specialized GDMs (GearNet, GVP, ScanNet, GAT). Our work examines alignment factors from both model and protein perspectives, identifying challenges in current alignment methodologies and proposing strategies to improve the alignment process. Our key findings reveal that GDMs incorporating both graph and 3D structural information align better with LLMs, larger LLMs demonstrate improved alignment capabilities, and protein rarity significantly impacts alignment performance. We also find that increasing GDM embedding dimensions, using two-layer projection heads, and fine-tuning LLMs on protein-specific data substantially enhance alignment quality. These strategies offer potential enhancements to the performance of protein-related multimodal models. Our code and data are available at https://github.com/Tizzzzy/LLM-GDM-alignment.
Abstract（参考訳）: 遅延表現アライメントは,多モーダルな大言語モデル (MLLM) を構築するための基礎的手法となり,様々なモダリティからの埋め込みを共有空間にマッピングし,大きな言語モデル (LLM) の埋め込み空間と整合し,効果的なクロスモーダル理解を実現する。予備的なタンパク質に焦点をあてたMLLMが登場したが、それらは主にヒューリスティックなアプローチに依存しており、表現をまたいだ最適なアライメントの実践に関する根本的な理解が欠如している。本研究では,タンパク質領域におけるLLMと幾何学的深部モデル(GDM)のマルチモーダル表現のアライメントについて検討する。タンパク質特異的GDM (GearNet, GVP, ScanNet, GAT) を用いた3つの最先端LCM (Gemma2-2B, LLaMa3.1-8B, LLaMa3.1-70B) を包括的に評価した。本研究は, モデルおよびタンパク質の観点からのアライメント要因について検討し, 現行アライメント手法の課題を特定し, アライメントプロセスを改善するための戦略を提案する。我々の重要な知見は、グラフ情報と3次元構造情報を併用したGDMがLLMと整合し、より大きなLCMがアライメント能力の向上を示し、タンパク質のラリティがアライメント性能に大きく影響していることである。また,GDMの埋め込み次元の増大,2層プロジェクションヘッドの利用,タンパク質特異的なデータによる微調整によりアライメント品質が著しく向上することが確認された。これらの戦略は、タンパク質関連のマルチモーダルモデルの性能を潜在的に向上させる。私たちのコードとデータはhttps://github.com/Tizzzzy/LLM-GDMアライメントで公開されています。

関連論文リスト

Graft: Integrating the Domain Knowledge via Efficient Parameter Synergy for MLLMs [56.76586846269894]
MLLM(Multimodal Large Language Models)は、様々な領域で成功している。その重要性にもかかわらず、ドメイン固有のMLLM間の知識共有の研究はほとんど未調査のままである。専門家機能のモジュール構成を可能にする統一パラメータ統合フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-30T15:07:41Z)
Textual Steering Vectors Can Improve Visual Understanding in Multimodal Large Language Models [42.449334670206824]
テキスト由来のステアリングは多様なMLLMアーキテクチャや視覚タスクのマルチモーダル精度を一貫して向上させる。平均シフトはCV-Bench上の空間関係の精度を+7.3%、精度を+3.3%向上させる。その結果、テキストステアリングベクトルは、最小限のデータ収集と計算オーバーヘッドでMLLMのグラウンド化を強化するための強力で効率的なメカニズムとして強調された。
論文参考訳（メタデータ） (2025-05-20T08:23:08Z)
Aligning Multimodal LLM with Human Preference: A Survey [62.89722942008262]
大規模言語モデル(LLM)は、タスク固有のトレーニングを必要とせずに、単純なプロンプトで幅広い汎用タスクを処理できる。 MLLM(Multimodal Large Language Models)は、視覚的、聴覚的、テキスト的データを含む複雑なタスクに対処する大きな可能性を実証している。しかし、真理性、安全性、o1のような推論、および人間の嗜好との整合性に関する重要な問題は未解決のままである。
論文参考訳（メタデータ） (2025-03-18T17:59:56Z)
Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [19.37373012848517]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文参考訳（メタデータ） (2025-02-18T18:59:57Z)
FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文参考訳（メタデータ） (2024-11-22T04:09:23Z)
Advancing Fine-Grained Visual Understanding with Multi-Scale Alignment in Multi-Modal Models [11.151736352865921]
本稿では,視覚的知識の微粒化手法を提案する。この方法は、テキスト、座標、画像を含むオブジェクトのマルチスケール知識を統合する。また,高次アライメントに最適化された一連のコンパクトモデルであるTinyGroundingGPTを提案する。
論文参考訳（メタデータ） (2024-11-14T18:57:07Z)
Understanding Layer Significance in LLM Alignment [23.582520695083588]
LLMアライメント(ILA)の重要なレイヤを特定するための新しい手法を提案する。 ILAは、さまざまなアライメントデータセットにまたがる重要なレイヤを一貫して識別する。実験結果から,非定常層凍結はモデル全体の性能を向上する一方で,最重要層を選択的に調整することで,性能損失を最小限に抑えて微調整効率を著しく向上することが示された。
論文参考訳（メタデータ） (2024-10-23T13:47:05Z)
Bridging Large Language Models and Graph Structure Learning Models for Robust Representation Learning [22.993015048941444]
グラフ表現学習は現実世界のアプリケーションには不可欠だが、広範にわたるノイズに遭遇することが多い。本稿では,事前学習された言語モデルとグラフ構造学習モデルの相補的な長所を統合するフレームワークであるLangGSLを紹介する。
論文参考訳（メタデータ） (2024-10-15T22:43:32Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。 MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文参考訳（メタデータ） (2024-09-09T17:44:00Z)
Understanding Alignment in Multimodal LLMs: A Comprehensive Study [46.33812471516309]
マルチモーダル大言語モデル(MLLM)における嗜好アライメントのそれぞれの側面を解析する。オフライン手法とオンライン手法を組み合わせることで,特定のシナリオにおけるモデルの性能が向上することを示す。 BDHS(Bias-Driven Hallucination Smpling)と呼ばれる,マルチモーダルな嗜好データ作成手法を提案する。
論文参考訳（メタデータ） (2024-07-02T17:55:03Z)
BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。 BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文参考訳（メタデータ） (2024-03-27T08:57:21Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文参考訳（メタデータ） (2023-11-09T13:18:27Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。