論文の概要: CoSMo: A constructor specification language for Abstract Wikipedia's
content selection process
- arxiv url: http://arxiv.org/abs/2308.02539v1
- Date: Tue, 1 Aug 2023 13:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 00:59:19.538552
- Title: CoSMo: A constructor specification language for Abstract Wikipedia's
content selection process
- Title(参考訳): CoSMo: 抽象ウィキペディアのコンテンツ選択プロセスのためのコンストラクタ仕様言語
- Authors: Kutz Arrieta and Pablo R. Fillottrani and C. Maria Keet
- Abstract要約: 情報のスニペットを抽象的に表現することは、様々な目的のために実行する必要があるタスクである。
抽象ウィキペディアプロジェクトでは、要求分析により、そのような抽象表現には多言語モデリングが必要であることが明らかになった。
3つの機能のいずれかを満たすモデリング言語はありません。
厳密な言語設計プロセスの後、我々は新しいsk Content sc Selection sc Modeling LanguageであるCoSMoを開発した。
- 参考スコア(独自算出の注目度): 2.298932494750101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representing snippets of information abstractly is a task that needs to be
performed for various purposes, such as database view specification and the
first stage in the natural language generation pipeline for generative AI from
structured input, i.e., the content selection stage to determine what needs to
be verbalised. For the Abstract Wikipedia project, requirements analysis
revealed that such an abstract representation requires multilingual modelling,
content selection covering declarative content and functions, and both classes
and instances. There is no modelling language that meets either of the three
features, let alone a combination. Following a rigorous language design process
inclusive of broad stakeholder consultation, we created CoSMo, a novel {\sc
Co}ntent {\sc S}election {\sc Mo}deling language that meets these and other
requirements so that it may be useful both in Abstract Wikipedia as well as
other contexts. We describe the design process, rationale and choices, the
specification, and preliminary evaluation of the language.
- Abstract(参考訳): 情報スニペットを抽象的に表現することは、データベースビュー仕様や構造化された入力からAIを生成する自然言語生成パイプラインの第1段階、すなわち、言語化すべきものを決定するためのコンテンツ選択段階など、様々な目的で実行する必要があるタスクである。
抽象ウィキペディアプロジェクトの要件分析では、このような抽象表現には多言語モデリング、宣言的コンテンツと関数をカバーするコンテンツ選択、クラスとインスタンスの両方が必要であることが明らかになった。
3つの機能のいずれかを満たすモデリング言語はありません。
幅広い利害関係者の協議を包含する厳密な言語設計プロセスに従って、これらの要件と他の要件を満たし、抽象ウィキペディアでも他の文脈でも有用であるような、新しい"sc co}ntent {\sc s}election {\sc mo}deling language"を開発した。
本稿では,設計プロセス,論理と選択,仕様,言語の予備評価について述べる。
関連論文リスト
- Generating Continuations in Multilingual Idiomatic Contexts [2.0849578298972835]
非合成図形テキストを含むニュアンス言語理解における生成言語モデル(LM)の能力を検証する。
3つの異なるトレーニング設定の下で、2つの異なる言語(英語とポルトガル語)でデータセットを使用して実験を行う。
以上の結果から,本モデルでは慣用的文脈よりも文脈の連続性をわずかに向上し,マージンが極端に小さいことが示唆された。
論文 参考訳(メタデータ) (2023-10-31T05:40:33Z) - To token or not to token: A Comparative Study of Text Representations
for Cross-Lingual Transfer [23.777874316083984]
ゼロショットと少数ショットの両方の評価を重み付けして表現できるスコアリング言語クオシアン計量を提案する。
解析の結果,言語が密接に関連し,視覚的に類似したスクリプトを共有する場合,画像ベースモデルは言語間移動に優れることがわかった。
単語関係が重要な役割を果たす依存性解析タスクでは、キャラクタレベルに焦点を当てたモデルが他よりも優れています。
論文 参考訳(メタデータ) (2023-10-12T06:59:10Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - $\mu$PLAN: Summarizing using a Content Plan as Cross-Lingual Bridge [72.64847925450368]
言語間の要約は、異なる言語で入力文書が与えられた1つの言語で要約を生成することで構成される。
この研究は、中間計画段階を言語横断橋として利用する言語横断要約へのアプローチである$mu$PLANを提示する。
論文 参考訳(メタデータ) (2023-05-23T16:25:21Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Multilingual Generative Language Models for Zero-Shot Cross-Lingual
Event Argument Extraction [80.61458287741131]
ゼロショット言語間イベント引数抽出(EAE)における多言語事前学習型生成言語モデルの活用について検討する。
EAEを言語生成タスクとして定式化することにより、イベント構造を効果的にエンコードし、引数間の依存関係をキャプチャする。
提案するモデルでは,多言語事前学習型生成言語モデルを用いて,入力文から抽出した引数で言語に依存しないテンプレートを補う文を生成する。
論文 参考訳(メタデータ) (2022-03-15T23:00:32Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文 参考訳(メタデータ) (2021-09-10T15:03:11Z) - Language-Agnostic Representation Learning of Source Code from Structure
and Context [43.99281651828355]
ソースコードのコンテキストと構造を共同で学習する新しいモデルを提案する。
複数のプログラミング言語から非並列データを共同トレーニングすることで,個々の言語での結果が向上することを示す。
論文 参考訳(メタデータ) (2021-03-21T06:46:06Z) - Breaking Writer's Block: Low-cost Fine-tuning of Natural Language
Generation Models [62.997667081978825]
ライターのブロックを解くという問題に対して,自然言語生成モデルを微調整するシステムについて述べる。
提案した微調整は, 少数のエポックとUSD150の総コストを伴っても, 優れた結果が得られる。
論文 参考訳(メタデータ) (2020-12-19T11:19:11Z) - Scalable Cross-lingual Document Similarity through Language-specific
Concept Hierarchies [0.0]
本稿では,並列あるいは同等のコーパスを必要としない教師なし文書類似性アルゴリズムを提案する。
このアルゴリズムは、文書から自動的に作成されたトピックを多言語ラベルでアノテートします。
JCR-Acquis corporaの英語、スペイン語、フランス語版で実施された実験は、同様のコンテンツによる文書の分類と分類に関する有望な結果を明らかにします。
論文 参考訳(メタデータ) (2020-12-15T10:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。