論文の概要: Coarse-to-Fine Dual Encoders are Better Frame Identification Learners
- arxiv url: http://arxiv.org/abs/2310.13316v1
- Date: Fri, 20 Oct 2023 07:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 00:07:10.724081
- Title: Coarse-to-Fine Dual Encoders are Better Frame Identification Learners
- Title(参考訳): フレーム識別学習者のための粗対有限デュアルエンコーダ
- Authors: Kaikai An, Ce Zheng, Bofei Gao, Haozhe Zhao, Baobao Chang
- Abstract要約: フレーム識別は、文中のターゲット語に関連する意味的フレームを見つけることを目的としている。
我々は、$underlineCo$arse-to-$underlineF$ine $underlineF$rame and $underlineT$arget $underlineE$ncoders $underlineA$rchitectureを提案する。
- 参考スコア(独自算出の注目度): 28.901323252846417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frame identification aims to find semantic frames associated with target
words in a sentence. Recent researches measure the similarity or matching score
between targets and candidate frames by modeling frame definitions. However,
they either lack sufficient representation learning of the definitions or face
challenges in efficiently selecting the most suitable frame from over 1000
candidate frames. Moreover, commonly used lexicon filtering ($lf$) to obtain
candidate frames for the target may ignore out-of-vocabulary targets and cause
inadequate frame modeling. In this paper, we propose CoFFTEA, a
$\underline{Co}$arse-to-$\underline{F}$ine $\underline{F}$rame and
$\underline{T}$arget $\underline{E}$ncoders $\underline{A}$rchitecture. With
contrastive learning and dual encoders, CoFFTEA efficiently and effectively
models the alignment between frames and targets. By employing a coarse-to-fine
curriculum learning procedure, CoFFTEA gradually learns to differentiate frames
with varying degrees of similarity. Experimental results demonstrate that
CoFFTEA outperforms previous models by 0.93 overall scores and 1.53 R@1 without
$lf$. Further analysis suggests that CoFFTEA can better model the relationships
between frame and frame, as well as target and target. The code for our
approach is available at https://github.com/pkunlp-icler/COFFTEA.
- Abstract(参考訳): フレーム識別は、文中のターゲット語に関連する意味的フレームを見つけることを目的としている。
最近の研究では、フレーム定義のモデル化により、ターゲットと候補フレームの類似度や一致度を測定している。
しかし、1000以上の候補フレームから最適なフレームを効率的に選択する上で、定義の十分な表現学習や課題に直面している。
さらに、ターゲットの候補フレームを取得するために一般的に使用されるレキシコンフィルタ(lf$)は、語彙外ターゲットを無視し、不適切なフレームモデリングを引き起こす可能性がある。
本稿では、CoFFTEA, a $\underline{Co}$arse-to-$\underline{F}$ine $\underline{F}$rame and $\underline{T}$arget $\underline{E}$ncoders $\underline{A}$rchitectureを提案する。
対照的な学習と二重エンコーダにより、CoFFTEAはフレームとターゲットのアライメントを効率的かつ効果的にモデル化する。
粗大なカリキュラム学習手法を用いることで、CoFFTEAは徐々に類似度の異なるフレームを区別するように学習する。
実験の結果、CoFFTEAは0.93のスコアと1.53のR@1を$lf$で上回った。
さらに分析した結果、CoFFTEAはフレームとフレームの関係をより良くモデル化し、ターゲットとターゲットをモデル化できることが示唆された。
私たちのアプローチのコードはhttps://github.com/pkunlp-icler/coffteaで利用可能です。
関連論文リスト
- African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification [53.89380284760555]
textttFOCI (textbfFine-fine textbfObject textbfClasstextbfIfication) は、きめ細かいオブジェクト分類のための難しい多重選択ベンチマークである。
textttFOCIxspaceは、ImageNet-21kから4つのドメイン固有のサブセットで5つの一般的な分類データセットを補完する。
論文 参考訳(メタデータ) (2024-06-20T16:59:39Z) - Transfer Q Star: Principled Decoding for LLM Alignment [105.89114186982972]
Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。
提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
論文 参考訳(メタデータ) (2024-05-30T21:36:12Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - A Double-Graph Based Framework for Frame Semantic Parsing [23.552054033442545]
フレーム意味解析は基本的なNLPタスクであり、フレーム識別、引数識別、ロール分類という3つのサブタスクから構成される。
これまでのほとんどの研究は、異なるサブタスクと議論の関係を無視し、オントロジ的なフレーム知識にはほとんど注意を払わない傾向にある。
本稿では、二重グラフ(KID)を用いた知識誘導型セマンティックPKを提案する。
実験の結果、KIDは2つのFrameNetデータセット上で1.7F1スコアで従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2022-06-18T09:39:38Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - CyCLIP: Cyclic Contrastive Language-Image Pretraining [34.588147979731374]
ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。
我々は、標準のコントラスト目的によって学習された画像とテキストの表現が交換不可能であり、不整合な下流予測につながることを実証した。
画像やテキスト空間で幾何学的に一貫した表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。
論文 参考訳(メタデータ) (2022-05-28T15:31:17Z) - Inconsistent Few-Shot Relation Classification via Cross-Attentional
Prototype Networks with Contrastive Learning [16.128652726698522]
本稿では,Prototype Network-based Cross-attention contrastive Learning (ProtoCACL)を提案する。
実験結果から,我々のProtoCACLは,非一貫性な$K$と非一貫性な$N$設定の両方で,最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2021-10-13T07:47:13Z) - Learning to Recommend Frame for Interactive Video Object Segmentation in
the Wild [38.39582722095913]
本稿では,野生のインタラクティブビデオオブジェクトセグメンテーション(VOS)のためのフレームワークを提案する。
ユーザーアノテーションに基づいて、セグメンテーションアルゴリズムはマスクを洗練します。
本稿では,最悪の評価基準を持つフレームが,必ずしも最も価値の高いフレームではない可能性を示唆する。
論文 参考訳(メタデータ) (2021-03-18T17:19:47Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。