Fugu-MT 論文翻訳(概要): HIPPO: Enhancing the Table Understanding Capability of Large Language Models through Hybrid-Modal Preference Optimization

論文の概要: HIPPO: Enhancing the Table Understanding Capability of Large Language Models through Hybrid-Modal Preference Optimization

arxiv url: http://arxiv.org/abs/2502.17315v1
Date: Mon, 24 Feb 2025 16:50:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.664358
Title: HIPPO: Enhancing the Table Understanding Capability of Large Language Models through Hybrid-Modal Preference Optimization
Title（参考訳）: HIPPO:Hybrid-Modal Preference Optimizationによる大規模言語モデルの表理解能力向上
Authors: Zhenghao Liu, Haolan Wang, Xinze Li, Qiushi Xiong, Xiaocui Yang, Yu Gu, Yukun Yan, Qi Shi, Fangfang Li, Ge Yu, Maosong Sun,
Abstract要約: 本稿では,HybrId-modal Preference oPtimizatiOn(HIPPO)モデルについて述べる。 HIPPOの有効性を示す表質問応答と表事実検証に関する実験結果を得た。
参考スコア（独自算出の注目度）: 48.240146108630704
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Tabular data contains rich structural semantics and plays a crucial role in organizing and manipulating information. To better capture these structural semantics, this paper introduces the HybrId-modal Preference oPtimizatiOn (HIPPO) model, which represents tables using both text and image, and optimizes MLLMs to effectively learn more comprehensive table information from these multiple modalities. Specifically, HIPPO samples model responses from hybrid-modal table representations and designs a modality-consistent sampling strategy to enhance response diversity and mitigate modality bias during DPO training. Experimental results on table question answering and table fact verification tasks demonstrate the effectiveness of HIPPO, achieving a 4% improvement over various table reasoning models. Further analysis reveals that HIPPO not only enhances reasoning abilities based on unimodal table representations but also facilitates the extraction of crucial and distinct semantics from different modal representations. All data and codes are available at https://github.com/NEUIR/HIPPO.
Abstract（参考訳）: タブラルデータには豊富な構造的意味論が含まれており、情報の整理と操作において重要な役割を担っている。本稿では,テキストと画像の両方を用いて表を表すHybrId-modal Preference oPtimizatiOn(HIPPO)モデルを導入し,MLLMを最適化して,これらの複数のモードからより包括的なテーブル情報を効果的に学習する。具体的には、HIPPOサンプルは、ハイブリッドモード表表現からの応答をモデル化し、DPOトレーニング中に応答の多様性を高め、モダリティバイアスを軽減するためのモダリティ一貫性サンプリング戦略を設計する。表質問応答と表事実検証タスクの実験結果から,表推論モデルよりも4%改善したHIPPOの有効性が示された。さらに分析したところ、HIPPOは一助表表現に基づく推論能力を高めるだけでなく、異なるモーダル表現から重要な意味と区別された意味を抽出しやすくする。すべてのデータとコードはhttps://github.com/NEUIR/HIPPOで入手できる。

関連論文リスト

Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。 sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。 sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文参考訳（メタデータ） (2025-06-04T15:46:30Z)
Enhancing Large Vision-Language Models with Layout Modality for Table Question Answering on Japanese Annual Securities Reports [4.2134954427867]
In-table テキストコンテンツとレイアウト機能を組み込んだ LVLM を用いたテーブル理解手法を提案する。実験により,これらの補助モーダルは性能を著しく向上することが示された。
論文参考訳（メタデータ） (2025-05-23T08:36:22Z)
Texts or Images? A Fine-grained Analysis on the Effectiveness of Input Representations and Models for Table Question Answering [16.790216473975146]
2つの視点から表表現とモデルの組み合わせの有効性に関する最初の制御された研究を行う。テーブル表現とモデルの組み合わせはセットアップによって異なります。本稿では,テーブル表現を動的に選択するFRESを提案する。
論文参考訳（メタデータ） (2025-05-20T09:36:17Z)
CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文参考訳（メタデータ） (2025-01-28T02:05:38Z)
Towards Better Understanding Table Instruction Tuning: Decoupling the Effects from Data versus Models [62.47618742274461]
既存の公開トレーニングデータセットに基づいて、Mistral、OLMo、Phiファミリーからベースモデルを微調整します。我々のレプリケーションは、既存のテーブルLLMと同等以上のパフォーマンスを実現しています。トレーニングデータとベースモデルのコントリビューションを分離し、個々の影響に関する洞察を提供する。
論文参考訳（メタデータ） (2025-01-24T18:50:26Z)
Multimodal Preference Data Synthetic Alignment with Reward Model [23.978820500281213]
本稿では,DPOトレーニングによる効果的なマルチモーダルアライメントのための人選好のプロキシとして,報酬モデルを用いて合成データを生成する新しいフレームワークを提案する。実験結果から、生成モデルや報酬モデルのような選択された合成データの統合は、人手による注釈付きデータへの依存を効果的に軽減できることが示された。
論文参考訳（メタデータ） (2024-12-23T09:29:40Z)
ALTER: Augmentation for Large-Table-Based Reasoning [5.164923314261229]
ALTER(Augmentation for Large-Table-Based Reasoning)は、NL (Free-form Natural Language) とNL (Augmentation for Large-Table-Based Reasoning) の双方の質問において、潜在的な拡張可能性を活用するために設計されたフレームワークである。テーブルからの関連データの小さなサブセットのみを利用することで、ALTERはテーブルベースの推論ベンチマークで優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-07-03T12:34:45Z)
TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。 1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文参考訳（メタデータ） (2023-12-14T15:37:04Z)
HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。 FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文参考訳（メタデータ） (2023-11-15T12:02:52Z)
FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。 CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文参考訳（メタデータ） (2023-10-30T11:25:03Z)
GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文参考訳（メタデータ） (2020-09-29T08:17:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。