論文の概要: fLSA: Learning Semantic Structures in Document Collections Using Foundation Models
- arxiv url: http://arxiv.org/abs/2410.05481v2
- Date: Tue, 26 Aug 2025 01:05:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.430958
- Title: fLSA: Learning Semantic Structures in Document Collections Using Foundation Models
- Title(参考訳): fLSA:基礎モデルを用いた文書コレクションにおける意味構造学習
- Authors: Weijia Xu, Nebojsa Jojic, Nicolas Le Roux,
- Abstract要約: 基礎モデルに基づく潜在意味分析法である fLSA を導入する。
従来のタグ付け手法よりも,fLSAタグの方が原文の再構築に有益であることを示す。
- 参考スコア(独自算出の注目度): 14.935888855108592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can learn to solve new tasks by inducing high-level strategies from example solutions to similar problems and then adapting these strategies to solve unseen problems. Can we use large language models to induce such high-level structure from example documents or solutions? We introduce fLSA, a foundation-model-based Latent Semantic Analysis method that iteratively clusters and tags document segments based on document-level contexts. These tags can be used to model the latent structure of given documents and for hierarchical sampling of new texts. Our experiments on story writing, math, and multi-step reasoning datasets demonstrate that fLSA tags are more informative in reconstructing the original texts than existing tagging methods. Moreover, when used for hierarchical sampling, fLSA tags help expand the output space in the right directions that lead to correct solutions more often than direct sampling and hierarchical sampling with existing tagging methods. Code: https://github.com/microsoft/fLSA
- Abstract(参考訳): 人間は、サンプルソリューションから同様の問題への高レベルの戦略を誘導し、これらの戦略を適用して、目に見えない問題を解決することで、新しいタスクの解決を学ぶことができる。
大規模な言語モデルを使って、例文書やソリューションからそのような高レベルな構造を導き出せるだろうか?
文書レベルのコンテキストに基づいて文書セグメントを反復的にクラスタリングしタグ付けする,基礎モデルに基づく潜在意味分析手法である fLSA を紹介する。
これらのタグは、与えられた文書の潜在構造をモデル化したり、新しいテキストの階層的なサンプリングに使用することができる。
ストーリーライティング、数学、多段階推論データセットに関する実験は、fLSAタグが既存のタグ付け手法よりもオリジナルテキストの再構築に有用であることを実証している。
さらに、階層的なサンプリングに使われる場合、fLSAタグは、既存のタグ付け手法による直接サンプリングや階層的なサンプリングよりも、正しい解につながる正しい方向の出力空間を拡大するのに役立つ。
コード:https://github.com/microsoft/fLSA
関連論文リスト
- DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.89673002051528]
DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。
本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - Detection and Measurement of Syntactic Templates in Generated Text [58.111650675717414]
モデルにおける一般的な反復を特徴付けるための構文的特徴の解析を行う。
モデルでは、下流のタスクにおいて、人間の参照テキストよりも高いレートでテンプレートテキストを生成する傾向にある。
論文 参考訳(メタデータ) (2024-06-28T19:34:23Z) - SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - LLM Based Multi-Agent Generation of Semi-structured Documents from
Semantic Templates in the Public Administration Domain [2.3999111269325266]
大きな言語モデル(LLM)により、ユーザ要求を満たすカスタマイズされたテキスト出力が作成できるようになった。
所望の構造に適合した新しい文書を生成するために,LLMと迅速なエンジニアリングシステム,マルチエージェントシステムを組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T13:54:53Z) - Probing Representations for Document-level Event Extraction [30.523959637364484]
この研究は、文書レベルの情報抽出で学んだ表現に探索パラダイムを適用した最初のものである。
文書レベルのイベント抽出に関連するサーフェス,セマンティクス,イベント理解機能を分析するために,8つの埋め込みプローブを設計した。
これらのモデルからトレーニングされたエンコーダは、わずかに引数の検出とラベリングを改善することができるが、イベントレベルのタスクをわずかに強化するだけである。
論文 参考訳(メタデータ) (2023-10-23T19:33:04Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文 参考訳(メタデータ) (2021-10-11T08:15:31Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Generating Synthetic Data for Task-Oriented Semantic Parsing with
Hierarchical Representations [0.8203855808943658]
本研究では,ニューラルセマンティック解析のための合成データ生成の可能性を検討する。
具体的には、まず既存のラベル付き発話からマスク付きテンプレートを抽出し、次に微調整BARTを用いて合成発話条件を生成する。
ナビゲーション領域のためのFacebook TOPデータセットを評価する際に、我々のアプローチの可能性を示す。
論文 参考訳(メタデータ) (2020-11-03T22:55:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。