論文の概要: A Unifying Scheme for Extractive Content Selection Tasks
- arxiv url: http://arxiv.org/abs/2507.16922v1
- Date: Tue, 22 Jul 2025 18:02:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.728316
- Title: A Unifying Scheme for Extractive Content Selection Tasks
- Title(参考訳): 抽出コンテンツ選択タスクのための統一スキーム
- Authors: Shmuel Amar, Ori Shapira, Aviv Slobodkin, Ido Dagan,
- Abstract要約: 本研究では,テキストインストラクション誘導型コンテンツ選択(IGCS)を,このような設定に有効な統合フレームワークとして提案する。
このフレームワークを促進するために,様々なコンテンツ選択タスクをカバーする最初の統一ベンチマークであるigcsbenchを紹介する。
また、多様なコンテンツ選択タスクに活用可能な、大規模な総合的な合成データセットも作成します。
- 参考スコア(独自算出の注目度): 18.59681132630319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A broad range of NLP tasks involve selecting relevant text spans from given source texts. Despite this shared objective, such \textit{content selection} tasks have traditionally been studied in isolation, each with its own modeling approaches, datasets, and evaluation metrics. In this work, we propose \textit{instruction-guided content selection (IGCS)} as a beneficial unified framework for such settings, where the task definition and any instance-specific request are encapsulated as instructions to a language model. To promote this framework, we introduce \igcsbench{}, the first unified benchmark covering diverse content selection tasks. Further, we create a large generic synthetic dataset that can be leveraged for diverse content selection tasks, and show that transfer learning with these datasets often boosts performance, whether dedicated training for the targeted task is available or not. Finally, we address generic inference time issues that arise in LLM-based modeling of content selection, assess a generic evaluation metric, and overall propose the utility of our resources and methods for future content selection models. Models and datasets available at https://github.com/shmuelamar/igcs.
- Abstract(参考訳): 幅広いNLPタスクには、与えられたソーステキストから関連するテキストスパンを選択することが含まれる。
このような共有された目的にもかかわらず、このような‘textit{content selection}タスクは伝統的に独立して研究され、それぞれに独自のモデリングアプローチ、データセット、評価メトリクスがある。
本稿では,タスク定義とインスタンス固有の要求が言語モデルへの命令としてカプセル化されるような,このような設定のための有効な統合フレームワークとして,<textit{instruction-guided Content selection (IGCS) を提案する。
このフレームワークを促進するために,多様なコンテンツ選択タスクをカバーする最初の統一ベンチマークである \igcsbench{} を紹介する。
さらに、多様なコンテンツ選択タスクに活用できる大規模な総合的な合成データセットを作成し、これらのデータセットを用いた転送学習が、ターゲットタスク専用のトレーニングが利用可能かどうかに関わらず、しばしばパフォーマンスを高めることを示す。
最後に、LLMに基づくコンテンツ選択のモデリングにおいて生じる一般的な推論時間問題に対処し、一般的な評価基準を評価し、将来的なコンテンツ選択モデルのためのリソースや手法の活用法を総合的に提案する。
モデルとデータセットはhttps://github.com/shmuelamar/igcsで入手できる。
関連論文リスト
- Principled Content Selection to Generate Diverse and Personalized Multi-Document Summaries [23.46979218958048]
大規模言語モデルは「中間の失われた」現象を示す。
これにより、多文書要約において様々な素材をカバーできなくなる。
我々は、このタスクのソースカバレッジを高めるために、原則付きコンテンツ選択が簡単な方法であることを示す。
論文 参考訳(メタデータ) (2025-05-28T01:12:50Z) - Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts [67.67746334493302]
大規模言語モデル(LLM)は、多くのタスクにまたがる顕著な機能を示してきたが、複雑なタスクを扱うために外部のコンテキストに依存していることが多い。
我々は、このプロセスをマルコフ決定プロセス(MDP)としてモデル化するトリエンコーダシーケンシャルレトリバーを提案する。
提案手法は,サンプル間の依存関係を明示的にモデル化することの重要性を強調し,ベースラインを一貫して大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-04-15T17:35:56Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - STORE: Streamlining Semantic Tokenization and Generative Recommendation with A Single LLM [59.08493154172207]
本稿では,意味的トークン化と生成的レコメンデーションプロセスを合理化する統合フレームワークを提案する。
我々は,意味的トークン化をテキスト・ツー・ケントタスクとして定式化し,生成的推薦をトークン・ツー・ケントタスクとして,トークン・ツー・ケント・コンストラクションタスクとテキスト・ツー・ケント補助タスクで補足する。
これらのタスクはすべて生成的な方法でフレーム化され、単一の大規模言語モデル(LLM)バックボーンを使用してトレーニングされる。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models [33.488331159912136]
インストラクションチューニングは、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
自然言語処理(NLP)とディープラーニングの分野において,データアセスメントと選択手法が提案されている。
本稿では,データアセスメントと選択に関する既存の文献を総合的にレビューし,特にLLMの命令チューニングについて述べる。
論文 参考訳(メタデータ) (2024-08-04T16:50:07Z) - The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - Multi-Review Fusion-in-Context [20.681734117825822]
接地テキスト生成には、コンテンツ選択とコンテンツ統合の両方が必要である。
最近の研究で、各ステップごとに別々のコンポーネントを持つモジュラーアプローチが提案されている。
本研究は,マルチドキュメント・セッティングにおけるモジュール・テキスト・ジェネレーションのさらなる探求の基盤となるものである。
論文 参考訳(メタデータ) (2024-03-22T17:06:05Z) - Universal Segmentation at Arbitrary Granularity with Language Instruction [56.39902660380342]
言語命令のガイダンスを用いて任意の意味レベルでセグメンテーションを行うことができるユニバーサルセグメンテーションモデルUniLSegを提案する。
UniLSegをトレーニングするために、元の多様な分布から統一されたデータ形式にタスク群を再構成し、セグメンテーションターゲットを入力として記述したテキストと対応するマスクを出力する。
論文 参考訳(メタデータ) (2023-12-04T04:47:48Z) - Controlled Text Reduction [15.102190738450092]
textitControlled Text Reduction をスタンドアロンタスクとして形式化する。
モデルでは、対象情報すべてと対象情報のみを含む一貫性のあるテキストを生成する必要がある。
論文 参考訳(メタデータ) (2022-10-24T17:59:03Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - Quantifying the Task-Specific Information in Text-Based Classifications [20.148222318025528]
データセットのショートカットは、分類タスクの*task-specific information*(TSI)に寄与しない。
本稿では,データセットの分類にタスク固有の情報がどの程度必要かを検討する。
このフレームワークはデータセット間の比較を可能にし、"一連のショートカット機能"とは別に、Multi-NLIタスクの各サンプルの分類には、Quora Question Pairよりも約0.4ナットのTSIが含まれている、と述べている。
論文 参考訳(メタデータ) (2021-10-17T21:54:38Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。