Fugu-MT 論文翻訳(概要): HySem: A context length optimized LLM pipeline for unstructured tabular extraction

論文の概要: HySem: A context length optimized LLM pipeline for unstructured tabular extraction

arxiv url: http://arxiv.org/abs/2408.09434v2
Date: Sat, 5 Oct 2024 13:32:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 06:55:48.761002
Title: HySem: A context length optimized LLM pipeline for unstructured tabular extraction
Title（参考訳）: HySem:非構造化表抽出のための文脈長最適化LDMパイプライン
Authors: Narayanan PP, Anantharaman Palacode Narayana Iyer,
Abstract要約: 本稿では,HTMLテーブルから正確な意味表現を生成するために,コンテキスト長最適化技術を用いたパイプラインHySemを紹介する。 HySemはコモディティハードウェア上で動作し、オープンソースモデルの精度を上回り、OpenAI GPT-4oとベンチマークした場合に競合するパフォーマンスを提供する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Regulatory compliance reporting in the pharmaceutical industry relies on detailed tables, but these are often under-utilized beyond compliance due to their unstructured format and arbitrary content. Extracting and semantically representing tabular data is challenging due to diverse table presentations. Large Language Models (LLMs) demonstrate substantial potential for semantic representation, yet they encounter challenges related to accuracy and context size limitations, which are crucial considerations for the industry applications. We introduce HySem, a pipeline that employs a novel context length optimization technique to generate accurate semantic JSON representations from HTML tables. This approach utilizes a custom fine-tuned model specifically designed for cost- and privacy-sensitive small and medium pharmaceutical enterprises. Running on commodity hardware and leveraging open-source models, HySem surpasses its peer open-source models in accuracy and provides competitive performance when benchmarked against OpenAI GPT-4o and effectively addresses context length limitations, which is a crucial factor for supporting larger tables.
Abstract（参考訳）: 製薬業界における規制コンプライアンスの報告は詳細な表に依存しているが、その非構造化フォーマットと任意の内容のために、コンプライアンスを超えて利用されていないことが多い。表データの抽出と意味表現は、多種多様な表の提示のために困難である。大規模言語モデル(LLM)は意味表現にかなりの可能性を示すが、業界アプリケーションにとって重要な考慮事項である正確性やコンテキストサイズ制限に関連する課題に直面する。我々は,HTMLテーブルから正確な意味的JSON表現を生成するために,コンテキスト長最適化技術を用いたパイプラインHySemを紹介する。このアプローチでは、コストとプライバシに敏感な中小企業向けに特別に設計された、カスタムな微調整モデルを利用する。 HySemはコモディティハードウェア上で動作し、オープンソースモデルを活用する。HySemはオープンソースモデルの精度を上回り、OpenAI GPT-4oとベンチマークした場合に競合するパフォーマンスを提供する。

関連論文リスト

FMBench: Adaptive Large Language Model Output Formatting [49.52930069696333]
適応型マークダウン出力フォーマットのベンチマークであるFMBenchを提案する。 2つのモデルファミリーの実験は、SFTが一貫してセマンティックアライメントを改善していることを示している。結果はまた、意味的目的と構造的目的の間に固有のトレードオフを明らかにします。
論文参考訳（メタデータ） (2026-02-06T04:42:06Z)
Instruction-Tuning Open-Weight Language Models for BPMN Model Generation [0.0]
命令チューニングによって適応されたオープンウェイトな大規模言語モデルが高品質なBPMNプロセスモデルを生成することができるかどうかを検討する。 InstruBPMは、ペア化されたテキストダイアグラムデータを作成し、オープンソースの大規模言語モデルをチューニングする再現可能なアプローチである。調整済みモデルと未調整のオープンウェイトベースラインと、一貫したプロンプトレジームの下で強力なプロプライエタリモデルを比較した。
論文参考訳（メタデータ） (2025-12-12T22:07:51Z)
FACTS: Table Summarization via Offline Template Generation with Agentic Workflows [11.885086835801523]
FACTSはオフラインのテンプレートを生成し、自然言語の要約にレンダリングでき、複数のテーブルで再利用できる。これにより、再利用可能なオフラインテンプレートによる高速な要約、実行可能sqlクエリによる正確な出力、テーブルスキーマのみをLLMに送信することでプライバシコンプライアンスが可能になる。
論文参考訳（メタデータ） (2025-10-15T10:24:49Z)
Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models [53.03670032402846]
視覚的な入力から,高品質で出版可能なテーブルの再構築を自動化することを目的として,表画像からコード生成への課題に対処する。このタスクの中心的な課題は、大きなサイズ、深くネストされた構造、セマンティックにリッチか不規則かという複雑なテーブルを正確に扱うことである。本稿では,大規模テーブル・トゥ・ラデータセット上で事前学習したMLLMを微調整する,強化型マルチモーダル大規模言語モデル(MLLM)を提案する。
論文参考訳（メタデータ） (2025-09-22T11:13:48Z)
Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。 sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。 sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文参考訳（メタデータ） (2025-06-04T15:46:30Z)
Enhancing Large Vision-Language Models with Layout Modality for Table Question Answering on Japanese Annual Securities Reports [4.2134954427867]
In-table テキストコンテンツとレイアウト機能を組み込んだ LVLM を用いたテーブル理解手法を提案する。実験により,これらの補助モーダルは性能を著しく向上することが示された。
論文参考訳（メタデータ） (2025-05-23T08:36:22Z)
NeedleInATable: Exploring Long-Context Capability of Large Language Models towards Long-Structured Tables [32.9031799179503]
textscNeedleInATable (NIAT)は、各テーブルセルを針として扱い、セルの位置やルックアップ質問に基づいてターゲットセルを抽出するモデルを必要とする。私たちのデータ、コード、モデルは、将来の研究を促進するためにリリースされます。
論文参考訳（メタデータ） (2025-04-09T03:46:56Z)
LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。 LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。 LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文参考訳（メタデータ） (2025-03-04T00:47:52Z)
HIPPO: Enhancing the Table Understanding Capability of Large Language Models through Hybrid-Modal Preference Optimization [48.240146108630704]
本稿では,HybrId-modal Preference oPtimizatiOn(HIPPO)モデルについて述べる。 HIPPOの有効性を示す表質問応答と表事実検証に関する実験結果を得た。
論文参考訳（メタデータ） (2025-02-24T16:50:55Z)
WildLong: Synthesizing Realistic Long-Context Instruction Data at Scale [86.25450054683172]
WildLongは、実際のユーザクエリからメタ情報を取り出して、スケーラブルなデータを生成する。クロスドキュメント比較やアグリゲーションといったマルチドキュメント推論をサポートする。ベンチマーク全体で、既存のオープンソースの長期コンテキスト最適化モデルを上回っている。
論文参考訳（メタデータ） (2025-02-23T18:59:09Z)
GENIE: Generative Note Information Extraction model for structuring EHR data [14.057531175321113]
生成ノート情報抽出システムGENIEを紹介する。 GENIEは1つのパスで全段落を処理し、エンティティ、アサーションステータス、ロケーション、修飾子、値、目的を高精度に抽出する。堅牢なデータ準備パイプラインと微調整された小型LLMを使用して、GENIEは複数の情報抽出タスク間での競合性能を実現する。
論文参考訳（メタデータ） (2025-01-30T15:42:24Z)
Enhancing Table Representations with LLM-powered Synthetic Data Generation [0.565395466029518]
データ駆動型企業におけるデータ変換活動の文脈における表の類似性を明確に定義する。本稿では,大規模言語モデルのコード生成とデータ操作機能を活用した,新しい合成データ生成パイプラインを提案する。パイプラインによって生成された合成データは,提案した表類似性の定義と一致し,表表現を大幅に強化することを示す。
論文参考訳（メタデータ） (2024-11-04T19:54:07Z)
Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。 Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文参考訳（メタデータ） (2024-10-31T16:34:03Z)
Scalable Representation Learning for Multimodal Tabular Transactions [14.18267117657451]
これらの課題に対して、革新的でスケーラブルなソリューションを提示します。トランザクションとテキストのモダリティをインターリーブするパラメータ効率の良いデコーダを提案する。我々は,大規模な合成決済トランザクションデータセット上でのソリューションの有効性を検証した。
論文参考訳（メタデータ） (2024-10-10T12:18:42Z)
TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。 TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-10-07T04:15:02Z)
Knowledge in Triples for LLMs: Enhancing Table QA Accuracy with Semantic Extraction [1.0968343822308813]
本稿では,表型データから直交三重項を抽出し,それを検索拡張生成(RAG)モデルに統合することにより,微調整GPT-3.5-turbo-0125モデルにより生成された応答の精度,コヒーレンス,コンテキスト的リッチ性を向上させる手法を提案する。 FeTaQAデータセットの既存のベースライン、特にSacre-BLEUとROUGEの指標に優れています。
論文参考訳（メタデータ） (2024-09-21T16:46:15Z)
ALTER: Augmentation for Large-Table-Based Reasoning [5.164923314261229]
ALTER(Augmentation for Large-Table-Based Reasoning)は、NL (Free-form Natural Language) とNL (Augmentation for Large-Table-Based Reasoning) の双方の質問において、潜在的な拡張可能性を活用するために設計されたフレームワークである。テーブルからの関連データの小さなサブセットのみを利用することで、ALTERはテーブルベースの推論ベンチマークで優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-07-03T12:34:45Z)
Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文参考訳（メタデータ） (2024-05-07T01:56:22Z)
Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning [35.03338699349037]
本稿では,機能エンジニアとして大規模言語モデルを用いる新しい文脈内学習フレームワークFeatLLMを提案する。 FeatLLMは高品質なルールを生成し、TabLLMやSTUNTなどよりも大幅に(平均で10%)優れている。
論文参考訳（メタデータ） (2024-04-15T06:26:08Z)
TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。 1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文参考訳（メタデータ） (2023-12-14T15:37:04Z)
Interpretable Medical Diagnostics with Structured Data Extraction by Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-08T09:12:28Z)
GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文参考訳（メタデータ） (2020-09-29T08:17:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。