Fugu-MT 論文翻訳(概要): From text saliency to linguistic objects: learning linguistic interpretable markers with a multi-channels convolutional architecture

論文の概要: From text saliency to linguistic objects: learning linguistic interpretable markers with a multi-channels convolutional architecture

arxiv url: http://arxiv.org/abs/2004.03254v1
Date: Tue, 7 Apr 2020 10:46:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-15 23:05:00.335453
Title: From text saliency to linguistic objects: learning linguistic interpretable markers with a multi-channels convolutional architecture
Title（参考訳）: テキストサリエンシーから言語オブジェクトへ:マルチチャンネル畳み込み構造を用いた言語解釈可能なマーカーの学習
Authors: Laurent Vanni, Marco Corneli, Damon Mayaffre, Fr\'ed\'eric Precioso
Abstract要約: 本稿では,分類プロセスを利用したテキストから解釈可能な言語オブジェクトを抽出するために,実装されたCNNの隠れ層を検査する手法を提案する。我々は、英語とフランス語の2つの異なる言語からのコーパスに対するアプローチの効率を実証的に実証した。
参考スコア（独自算出の注目度）: 2.064612766965483
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A lot of effort is currently made to provide methods to analyze and understand deep neural network impressive performances for tasks such as image or text classification. These methods are mainly based on visualizing the important input features taken into account by the network to build a decision. However these techniques, let us cite LIME, SHAP, Grad-CAM, or TDS, require extra effort to interpret the visualization with respect to expert knowledge. In this paper, we propose a novel approach to inspect the hidden layers of a fitted CNN in order to extract interpretable linguistic objects from texts exploiting classification process. In particular, we detail a weighted extension of the Text Deconvolution Saliency (wTDS) measure which can be used to highlight the relevant features used by the CNN to perform the classification task. We empirically demonstrate the efficiency of our approach on corpora from two different languages: English and French. On all datasets, wTDS automatically encodes complex linguistic objects based on co-occurrences and possibly on grammatical and syntax analysis.
Abstract（参考訳）: 画像やテキストの分類などのタスクにおいて、深層ニューラルネットワークが印象的なパフォーマンスを解析し、理解するための方法を提供するために、現在多くの努力が払われている。これらの手法は主に、意思決定のためにネットワークが考慮した重要な入力特徴を可視化することに基づいている。しかし、これらのテクニック、例えば、lime、shap、grad-cam、tdsを引用すると、専門家の知識に関して可視化を解釈するのに余計な労力が必要となる。本稿では,分類過程を利用したテキストから解釈可能な言語オブジェクトを抽出するために,cnnの隠れた層を検査する新しい手法を提案する。特に、cnnが分類タスクを実行するために使用する関連する特徴を強調するために使用できる、wtd(text deconvolution saliency)尺度の重み付き拡張について詳述する。我々は、英語とフランス語の2つの異なる言語からのコーパスに対するアプローチの効率を実証的に実証した。すべてのデータセットにおいて、wTDSは共起や文法や構文解析に基づく複雑な言語オブジェクトを自動的に符号化する。

関連論文リスト

Cognitive Disentanglement for Referring Multi-Object Tracking [28.325814292139686]
本稿では,CDRMT(Cognitive Disentanglement for Referring Multi-Object Tracking)フレームワークを提案する。 CDRMTは人間の視覚処理システムからRMOTタスクへの"What"と"where"の経路を適応させる。異なるベンチマークデータセットの実験では、CDRMTが最先端のメソッドよりも大幅に改善されていることが示されている。
論文参考訳（メタデータ） (2025-03-14T15:21:54Z)
Analysis and Visualization of Linguistic Structures in Large Language Models: Neural Representations of Verb-Particle Constructions in BERT [0.0]
本研究では,大言語モデル(LLM)における動詞-助詞の組み合わせの内部表現について検討する。我々は'agree on'、'come back'、'give up'といった様々な動詞粒子構築のための各層の表現効果を分析する。その結果,BERTの中間層は,各動詞カテゴリの表現精度に有意なばらつきがあり,構文構造を効果的に捉えていることがわかった。
論文参考訳（メタデータ） (2024-12-19T09:21:39Z)
Towards Interpreting Visual Information Processing in Vision-Language Models [24.51408101801313]
VLM(Vision-Language Models)は、テキストや画像の処理と理解のための強力なツールである。著名なVLMであるLLaVAの言語モデルコンポーネントにおける視覚トークンの処理について検討する。
論文参考訳（メタデータ） (2024-10-09T17:55:02Z)
LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文参考訳（メタデータ） (2024-05-29T15:35:09Z)
Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。 BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文参考訳（メタデータ） (2023-11-29T07:33:38Z)
Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文参考訳（メタデータ） (2023-05-29T17:50:33Z)
A Knowledge-Enhanced Adversarial Model for Cross-lingual Structured Sentiment Analysis [31.05169054736711]
言語間構造的感情分析タスクは、ソース言語からターゲット言語へ知識を伝達することを目的としている。本稿では,暗黙的分散と明示的構造的知識を両立させた知識強化逆数モデル(textttKEAM)を提案する。我々は5つのデータセットの実験を行い、textttKEAMと教師なしおよび教師なしの両方の手法を比較した。
論文参考訳（メタデータ） (2022-05-31T03:07:51Z)
Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文参考訳（メタデータ） (2022-04-29T03:53:54Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文参考訳（メタデータ） (2021-07-06T15:41:32Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)
AttViz: Online exploration of self-attention for transparent neural language modeling [7.574392147428978]
本研究では,AttVizを提案する。AttVizは,個々のテキストトークンに関連付けられた自己注意値の探索を行うオンラインツールキットである。既存のディープラーニングパイプラインが、AttVizに適したアウトプットを生成し、最小限の労力で、アテンションヘッドとアグリゲーションの新たな視覚化を提供する方法を示します。
論文参考訳（メタデータ） (2020-05-12T12:21:40Z)
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文参考訳（メタデータ） (2019-10-23T17:37:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。