論文の概要: Project SHADOW: Symbolic Higher-order Associative Deductive reasoning On Wikidata using LM probing
- arxiv url: http://arxiv.org/abs/2408.14849v1
- Date: Tue, 27 Aug 2024 08:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 14:33:22.620112
- Title: Project SHADOW: Symbolic Higher-order Associative Deductive reasoning On Wikidata using LM probing
- Title(参考訳): Project SHADOW: LMプローブを用いたWikidata上での記号的高次連想帰納的推論
- Authors: Hanna Abi Akl,
- Abstract要約: 本稿では,連想帰納的推論を用いた中間タスクで訓練された微調整言語モデルであるSHADOWを紹介する。
LM-KBC 2024チャレンジでSHADOWを評価し,F1スコア68.72%でベースライン解を20%上回る結果を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SHADOW, a fine-tuned language model trained on an intermediate task using associative deductive reasoning, and measure its performance on a knowledge base construction task using Wikidata triple completion. We evaluate SHADOW on the LM-KBC 2024 challenge and show that it outperforms the baseline solution by 20% with a F1 score of 68.72%.
- Abstract(参考訳): 本稿では,連想的帰納的推論を用いて中間タスクで訓練された微調整言語モデルであるSHADOWを紹介し,Wikidata三重補完を用いた知識ベース構築タスクにおいて,その性能を計測する。
LM-KBC 2024チャレンジでSHADOWを評価し,F1スコア68.72%でベースライン解を20%上回る結果を得た。
関連論文リスト
- ArabicNLU 2024: The First Arabic Natural Language Understanding Shared Task [6.338561815855261]
本稿ではアラビア自然言語理解(アラビア語NLU 2024)の課題の概要を述べる。
単語センスの曖昧さ (WSD) とロケーション・メンションの曖昧さ (LMD) の2つのサブタスクに焦点を当てている。
この課題は、単語のあいまいさを解消し、アラビア語のテキストで言及されている場所を識別する自動化システムの能力を評価することを目的としていた。
論文 参考訳(メタデータ) (2024-07-30T08:57:01Z) - HYBRINFOX at CheckThat! 2024 -- Task 1: Enhancing Language Models with Structured Information for Check-Worthiness Estimation [0.8083061106940517]
本稿では,2024年 - タスク1コンペティションのためのHYBRINFOXチームの実験と結果について要約する。
本稿では,RoBERTaのような言語モデルに三重項による埋め込みを組み込む手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T11:33:54Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - A ML-LLM pairing for better code comment classification [0.0]
コードコメント分類共有タスク課題に対して,2倍の評価を行うことで回答する。
私たちの最高のモデルは、共有タスクで2位となり、提供されたシードデータに対して、マクロF1スコアが88.401%のニューラルネットワークです。
論文 参考訳(メタデータ) (2023-10-13T12:43:13Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - Using Large Language Models for Knowledge Engineering (LLMKE): A Case
Study on Wikidata [3.0199774504647583]
ISWC 2023 LM-KBC Challengeの文脈において,知識工学のタスクにLarge Language Models (LLMs) を用いることを検討する。
本課題では,Wikidata から抽出した対象と関係のペアについて,学習済みの LLM を用いて,関連オブジェクトを文字列形式で生成し,それぞれの Wikidata QID にリンクする。
論文 参考訳(メタデータ) (2023-09-15T15:51:14Z) - VisIT-Bench: A Benchmark for Vision-Language Instruction Following
Inspired by Real-World Use [49.574651930395305]
VisIT-Benchは、命令追従型視覚言語モデルの評価のためのベンチマークである。
提案データセットは592個のテストクエリからなり,それぞれに人手による指示条件付きキャプションを付与した。
人的評価と自動評価の両方を用いて,モデルと参照間の品質ギャップを定量化する。
論文 参考訳(メタデータ) (2023-08-12T15:27:51Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z) - VLSP 2021 Shared Task: Vietnamese Machine Reading Comprehension [2.348805691644086]
本稿では,共有タスクの組織化,共有タスク参加者の実施方法の概要,その結果について述べる。
ベトナム語に対する MRC タスクと質問応答システムを評価するためのベンチマークデータセット UIT-ViQuAD 2.0 を提供する。
UIT-ViQuAD 2.0データセットは、ベトナムの機械読解、質問応答、質問生成を研究するためのより多くの研究者を動機付けている。
論文 参考訳(メタデータ) (2022-03-22T00:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。