論文の概要: Query-driven Segment Selection for Ranking Long Documents
- arxiv url: http://arxiv.org/abs/2109.04611v1
- Date: Fri, 10 Sep 2021 01:50:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 00:15:15.840662
- Title: Query-driven Segment Selection for Ranking Long Documents
- Title(参考訳): 長い文書のランク付けのためのクエリ駆動セグメンテーション選択
- Authors: Youngwoo Kim, Razieh Rahimi, Hamed Bonab and James Allan
- Abstract要約: トランスフォーマーベースのローダは、最先端のパフォーマンスを示しているが、ほとんどの場合、長いシーケンスを処理できない。
これらのランク付けをトレーニングする一般的なアプローチの1つは、トレーニングデータとして、第1セグメントなど、各ドキュメントのいくつかのセグメントをtoallyに選択することである。
本稿では,長いドキュメントからクエリ駆動セグメントを選択することで,トレーニングデータを構築することを提案する。
- 参考スコア(独自算出の注目度): 12.291223732629106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based rankers have shown state-of-the-art performance. However,
their self-attention operation is mostly unable to process long sequences. One
of the common approaches to train these rankers is to heuristically select some
segments of each document, such as the first segment, as training data.
However, these segments may not contain the query-related parts of documents.
To address this problem, we propose query-driven segment selection from long
documents to build training data. The segment selector provides relevant
samples with more accurate labels and non-relevant samples which are harder to
be predicted. The experimental results show that the basic BERT-based ranker
trained with the proposed segment selector significantly outperforms that
trained by the heuristically selected segments, and performs equally to the
state-of-the-art model with localized self-attention that can process longer
input sequences. Our findings open up new direction to design efficient
transformer-based rankers.
- Abstract(参考訳): トランスフォーマーベースのローダは最先端のパフォーマンスを示している。
しかし、それらの自己拘束操作はほとんどが長いシーケンスを処理できない。
これらのランク付けをトレーニングする一般的なアプローチの1つは、トレーニングデータとして、第1セグメントのような各ドキュメントのセグメントをヒューリスティックに選択することである。
しかし、これらのセグメントはドキュメントのクエリ関連部分を含まないかもしれない。
この問題に対処するために,長い文書からクエリによるセグメント選択を提案し,トレーニングデータを構築する。
セグメントセレクタは、より正確なラベルと予測が難しい非関連サンプルを関連するサンプルに提供する。
実験の結果,提案したセグメントセレクタでトレーニングしたBERTベースのランカは,ヒューリスティックに選択したセグメントでトレーニングしたセグメントよりも有意に優れており,より長い入力シーケンスを処理できる局所的な自己認識を持つ最先端モデルと同等に動作することがわかった。
提案手法は, トランスフォーマーを用いたロータを設計するための新しい方向を開く。
関連論文リスト
- Improving 3D Few-Shot Segmentation with Inference-Time Pseudo-Labeling [3.4387114292512457]
提案手法は,クエリサンプルの本質的な情報を推論中の最終セグメンテーションに有効活用する手法である。
提案手法は,多様な設定やデータセットにまたがる性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2024-10-13T19:07:07Z) - Efficient Temporal Action Segmentation via Boundary-aware Query Voting [51.92693641176378]
BaFormerは境界対応のTransformerネットワークで、各ビデオセグメントをインスタンストークンとしてトークン化する。
BaFormerは実行時間の6%しか利用せず、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-05-25T00:44:13Z) - Language-aware Multiple Datasets Detection Pretraining for DETRs [4.939595148195813]
本稿では,METR と呼ばれる DETR 型検出器の事前学習に複数のデータセットを利用するためのフレームワークを提案する。
事前訓練された言語モデルを導入することにより、オブジェクト検出の典型的なマルチクラス化をバイナリ分類に変換する。
マルチタスク・ジョイントトレーニングとプレトレイン・ファネチューン・パラダイムのいずれにおいても,METRは異常な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-07T10:34:04Z) - Retrieval as Attention: End-to-end Learning of Retrieval and Reading
within a Single Transformer [80.50327229467993]
学習した1つのモデルが競合検索とQA性能の両方を達成可能であることを示す。
エンドツーエンド適応は、教師なし設定と教師なし設定の両方において、ドメイン外のデータセットのパフォーマンスを大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-12-05T04:51:21Z) - Toward Unifying Text Segmentation and Long Document Summarization [31.084738269628748]
文章・音声文書の抽出要約において,部分分割が果たす役割について検討する。
本手法は,要約とセグメンテーションを同時に行うことによって,頑健な文表現を学習する。
以上の結果から,本モデルは,公開ベンチマーク上での最先端性能を達成できるだけでなく,異種間転送性も向上できることが示唆された。
論文 参考訳(メタデータ) (2022-10-28T22:07:10Z) - TraSeTR: Track-to-Segment Transformer with Contrastive Query for
Instance-level Instrument Segmentation in Robotic Surgery [60.439434751619736]
そこで我々は,TraSeTRを提案する。TraSeTR,TraSeTR,Trace-to-Segment Transformerは,手術器具のセグメンテーションを支援する。
TraSeTRは、機器の種類、位置、アイデンティティとインスタンスレベルの予測を共同で理由付けている。
提案手法の有効性を,3つの公開データセットに対して,最先端の計器型セグメンテーション結果を用いて実証した。
論文 参考訳(メタデータ) (2022-02-17T05:52:18Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - Consensus Synergizes with Memory: A Simple Approach for Anomaly
Segmentation in Urban Scenes [132.16748656557013]
異常セグメンテーション(Anomaly segmentation)は、都市部における自律運転のような安全クリティカルなアプリケーションにとって重要な課題である。
本稿では,この課題に対処するため,Consensus Synergizes with Memory (CosMe) という新しいシンプルなアプローチを提案する。
いくつかの都市景観異常セグメンテーションデータセットの実験結果から、CosMeは従来のアプローチよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-11-24T10:01:20Z) - Recurrent Chunking Mechanisms for Long-Text Machine Reading
Comprehension [59.80926970481975]
機械読解(MRC)を長文で研究する。
モデルは長い文書と質問を入力として取り、回答として文書からテキストを抽出する。
我々は、モデルに強化学習を通じてより柔軟な方法でチャンクを学習させることを提案する。
論文 参考訳(メタデータ) (2020-05-16T18:08:58Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。