Summarization is a challenging problem, and even more challenging is to
manually create, correct, and evaluate the summaries. The severity of the
problem grows when the inputs are multi-party dialogues in a meeting setup. To
facilitate the research in this area, we present ALIGNMEET, a comprehensive
tool for meeting annotation, alignment, and evaluation. The tool aims to
provide an efficient and clear interface for fast annotation while mitigating
the risk of introducing errors. Moreover, we add an evaluation mode that
enables a comprehensive quality evaluation of meeting minutes. To the best of
our knowledge, there is no such tool available. We release the tool as open
source. It is also directly installable from PyPI.
It is a challenging and tedious task, even when meeting summaries are created manually.
要約を手作業で作成しても、これは難しくて面倒な作業です。
0.59
The resulting summaries vary in the goals, style, and they are inevitably very subjective due to the human in the loop.
結果の要約は目的やスタイルによって異なり、ループ内の人間のために必然的に非常に主観的である。
0.68
Also, the awareness of the context of the meeting is essential to create adequate and informative summaries.
また、会議の文脈に対する意識は、適切な情報的な要約を作成するために不可欠である。
0.55
1.1. Motivation First, there is a scarcity of large-scale meeting datasets: There are a few meeting corpora, such as AMI (McCowan et al , 2005) and ICSI (Janin et al , 2003), which are rather small, on the order of a few dozens of hours each as represented in Table 1.
1.1. ami (mccowan et al , 2005) や icsi (janin et al , 2003) など,テーブル 1 に表される数十時間単位の順序で,かなり小さなミーティングコーパスがいくつか存在する。 訳抜け防止モード: 1.1. モチベーション 第一に、大規模なミーティングデータセットは不足している :AMI(McMowan et al, 2005)など,いくつかのミーティングコーパスが存在する。 ICSI (Janin et al, 2003) 表1に示すように、それぞれ数十時間の順序で、かなり小さい。
0.49
Due to this fact, meeting summarization models are usually trained on news (Grusky et al , 2018), stories (Hermann et al , 2015), Wikipedia (Frefel, 2020; Antognini and Faltings, 2020), and other textual corpora, relating poorly to meetings.
この事実から、ミーティングの要約モデルは通常、ニュース(grusky et al , 2018)、ストーリーズ(hermann et al , 2015)、wikipedia(frefel, 2020; antognini and faltings, 2020)、その他、会議に関するテキストコーパスで訓練される。
0.72
Second, when one tries to create such a collection or when a new meeting is to be processed, a reliable transcript is needed, which is often impossible for the current automatic speech recognition systems (ASR).
Even training is difficult for a neural attention summarization model (Zhu et al , 2020b) with such input complexities.
このような複雑な入力を持つ神経注意要約モデル(Zhu et al , 2020b)では,訓練も困難である。
0.77
Finally, evaluation of meeting summarization requires immediate access to the meeting transcript and sometimes even to the original sound recording to assess
AutoMin (English) (Ghosal et al , 2021) AutoMin (Czech) (Ghosal et al , 2021) ICSI (Janin et al , 2003) AMI (McCowan et al , 2005)
AutoMin (英語) (Ghosal et al , 2021) AutoMin (Czech) (Ghosal et al , 2021) ICSI (Janin et al , 2003) AMI (McCowan et al , 2005) 訳抜け防止モード: AutoMin (英語) (Ghosal et al, 2021 ) AutoMin (チェコ語) (Ghosal et al, 2021 ) ICSI (Janin et al, 2021 ) 2003年)AMI(McMowan et al , 2005)
0.85
Dialogue MEDIASum (Zhu et al , 2021) SAMSUM (Gliwa et al , 2019) CRD3 (Rameshkumar and Bailey, 2020) DiDi (Liu et al , 2019) MultiWoz (Budzianowski et al , 2018)
MEDIASum (Zhu et al , 2021) SAMSUM (Gliwa et al , 2019) CRD3 (Rameshkumar and Bailey, 2020) DiDi (Liu et al , 2019) MultiWoz (Budzianowski et al , 2018)
0.41
# Meetings Avg Words (trans) Avg Words (summ) Avg Turns (trans) Avg # of speakers 5.7 3.6 6.2 4.0 6.5 2.2 9.6 2.0 2.0
# Meetings Avg Words (trans) Avg Words (summ) Avg Turns (trans) Avg # of speakers 5.7 3.6 6.2 4.5 2.2 9.6 2.0 2.0
0.39
113 53 61 137 463,596 16,369 159 328,880 10,438
113 53 61 137 463,596 16,369 159 328,880 10,438
0.33
9,537 11,784 9,795 6,970 1,554 84 31,803180
9,537 11,784 9,795 6,970 1,554 84 31,803180
0.24
578 292 638 179 14 20 2,06292
578 292 638 179 14 20 2,06292
0.47
242 579 456 335 30 10 2,50714
242 579 456 335 30 10 2,50714
0.47
Table 1: Dialogue and meeting summarization datasets statistics.
表1: 対話と会議の要約データセット統計。
0.87
The number of words for dialogue, summary, turns, and speakers are averaged across the entire dataset.
対話、要約、ターン、話者の単語の数は、データセット全体にわたって平均化されます。
0.70
The meeting dataset statistics have been calculated and dialogue dataset statistics have been derived from Zhu et al (2021).
会議データセット統計は計算され、対話データセット統計は Zhu et al (2021) から導かれた。
0.76
Tool ALIGNMEET (ours) ELAN (Brugman et al , 2004) EXMARaLDA (Schmidt and W¨orner, 2009) MATILDA (Cucurnia et al , 2021) metaCAT (Liu et al , 2020) LIDA (Collins et al , 2019) INCEpTion (Klie et al , 2018) DOCCANO (Nakayama et al , 2018) BRAT (Stenetorp et al , 2012) NITE (Kilgour and Carletta, 2006) SPAACy (Weisser, 2003) DialogueView (Heeman et al , 2002) ANVIL (Kipp, 2001) NOMOS (Gruenstein et al , 2005) TWIST (Pl¨uss, Brian, 2012)
Tool ALIGNMEET (ours) ELAN (Brugman et al , 2004) EXMARaLDA (Schmidt and W sorner, 2009) MATILDA (Cucurnia et al , 2021) metaCAT (Liu et al , 2020) LIDA (Collins et al , 2019) INCEpTion (Klie et al , 2018) DOCCANO (Nakayama et al , 2018) BRAT (Stenetorp et al , 2012) NITE (Kilgour and Carletta, 2006) SPAACy (Weisser, 2003) DialogueView (Heeman et al , 2002) ANIL (Kipp NOOS, 2001) (Grustein, 2005) TIST (Brians, 2012)
Notation: A – Turn/Dialogue Segmentation, B – Edit Speaker Annotation, C – Data Curation, D – Data Modifications, E – Alignment, F – Evaluation, G – Audio/video playback, H – Programming Language.
a - ターン/ダイアログセグメンテーション、b - 話者アノテーション、c - データキュレーション、d - データ修正、e - アライメント、f - 評価、g - 音声/ビデオ再生、h - プログラミング言語。 訳抜け防止モード: 表記 : A - Turn / Dialogue Segmentation, B - Edit Speaker Annotation C – データキュレーション、D – データ修正、E – アライメント F - 評価、G - オーディオ/ビデオ再生、H - プログラミング言語。
0.76
repairs, speech act tags, and discourse segments.
補修、音声行為のタグ、談話のセグメント。
0.52
It fails to capture inter-annotator reliability.
アノテーション間の信頼性をキャプチャできない。
0.50
TWIST (Pl¨uss, Brian, 2012) is a tool for dialogue annotation consisting of turn segmentation and content feature annotation.
The turn segmentation allows users to create new turn segments.
ターンセグメンテーションにより、ユーザーは新しいターンセグメンテーションを作成できる。
0.63
Further, each segment can be labeled by selecting from a pre-defined feature list.
さらに、事前に定義された特徴リストから各セグメントを選択することでラベル付けすることができる。
0.62
This limits the user to pre-defined values.
これにより、ユーザーは事前定義された値に制限される。
0.47
BRAT (Stenetorp et al , 2012) and DOCCANO (Nakayama et al , 2018) are simple web-based annotation tools where you can only edit the dialogue and turns.
BRAT (Stenetorp et al , 2012) とDOCCANO (Nakayama et al , 2018) は単純なWebベースのアノテーションツールで、対話や回転のみを編集できる。
0.77
BRAT also provides the user with automated recommendations.
BRATはまた、ユーザーに自動レコメンデーションを提供する。
0.61
INCEpTion (Klie et al , 2018) is a platform for annotation of semantic resources such as entity linking.
INCEpTion (Klie et al , 2018) はエンティティリンクのようなセマンティックリソースのアノテーションのためのプラットフォームである。
0.78
It provides automated recommendations to the user for annotation.
アノテーションのための自動レコメンデーションをユーザに提供します。
0.61
NOMOS (Gruenstein et al , 2005) is an annotation tool designed for corpus development and various other annotation tasks.
NOMOS(Gruenstein et al , 2005)は、コーパス開発やその他のアノテーションタスク用に設計されたアノテーションツールである。
0.73
Its main functionality includes multi-channel audio and video playback, compatibility with different corpora, platform independence and presentation of temporal, non-temporal, and related information.
Our tool ALIGNMEET is specifically designed for meeting data creation or modification, alignment of meeting transcript regions with the corresponding summary items, and their evaluation.
We also support dialogue and conversational datasets.
対話や会話データセットもサポートする。
0.65
2.2. Manual Evaluation Several researchers working on summarization have considered qualitative summary evaluation.
2.2. 手動による評価 要約の研究者が定性的な要約評価を検討した。
0.48
The qualitative parameters include accuracy (Zechner, 2001b; Zechner, 2001a; Goo and Chen, 2018; Nihei et al , 2018; Lai et al , 2013) which usually assesses the lexical similarity between produced text samples and the
定性的なパラメータには、精度(zechner, 2001b; zechner, 2001a; goo and chen, 2018; nihei et al , 2018; lai et al , 2013)が含まれ、通常、生成したテキストサンプルとそれらとの辞書の類似性を評価する。
0.70
英語(論文から抽出)
日本語訳
スコア
reference ones utilizing standard metrics such as BLEU (Papineni et al , 2002) or ROUGE (Lin, 2004).
BLEU (Papineni et al , 2002) やROUGE (Lin, 2004) などの標準メトリクスを利用した参照。
0.80
The accuracy is easily computed in some of the applications when reference texts are available.
この精度は、参照テキストが利用可能である場合、いくつかのアプリケーションで容易に計算できる。
0.59
Grammaticality measures the capability of a model to produce grammatically correct texts (Liu and Liu, 2009; Mehdad et al., 2013).
文法性は、モデルが文法的に正しいテキストを生成する能力を測定する(Liu and Liu, 2009; Mehdad et al., 2013)。
0.77
It is mostly assessed by counting the different types of errors.
主に、異なるタイプのエラーをカウントすることで評価される。
0.74
Adequacy (D’Haro et al , 2019; Ma and Sun, 2017; McBurney and McMillan, 2014; Arumae and Liu, 2019; Libovick´y et al , 2018) rates the amount of meaning expressed in the generated sample given a reference sample.
Adequacy (D’Haro et al , 2019; Ma and Sun, 2017; McBurney and McMillan, 2014; Arumae and Liu, 2019; Libovick ́y et al , 2018) は、生成されたサンプルに参照された意味の量を測定する。
0.90
Human participants and categorical scales dominate the assessment process.
人間の参加者とカテゴリースケールが評価プロセスを支配します。
0.59
Topicality expresses how well does the generated sample topic match one of the reference samples (Riedhammer et al , 2008; Arumae and Liu, 2019; Fang et al , 2017).
Topicalityは、生成されたサンプルトピックが基準サンプルの1つ(Riedhammer et al , 2008; Arumae and Liu, 2019; Fang et al , 2017)とどの程度うまく一致しているかを示している。
0.75
Naturalness shows the likelihood of a text being natural or written by a human being rather than automatically generated (C¸ ano and Bojar, 2020).
自然性は、テキストが自然であるか、人間によって書かれたか、自動生成されるかの可能性を示している(C > ano and Bojar, 2020)。
0.67
Relevance represents how closely are the documents related (Bhatia et al., 2014; Erol et al , 2003; Murray et al , 2010; Zhu et al., 2020a; Zhang and Fung, 2012; Zhu et al , 2020b; Lee et al , 2020).
関連づけは、関連文書(bhatia et al., 2014; erol et al , 2003; murray et al , 2010; zhu et al., 2020a; zhang and fung, 2012; zhu et al , 2020b; lee et al , 2020)の関連性を示す。 訳抜け防止モード: 関連性(bhatia et al )は、関連文書がどの程度近いかを表す。 2014 ; Erol et al, 2003 ; Murray et al, 2010 ; Zhu et al ., 2020a ; Zhang and Fung, 2012 ; Zhu et al, 2020b ; Lee et al, 2020a )。
0.89
Consistency represents the degree of agreement with the original content (Kry´sci´nski et al , 2019; Wang et al , 2020; Lee et al , 2020).
一貫性はオリジナルコンテンツ(Kry ́sci ́nski et al , 2019; Wang et al , 2020; Lee et al , 2020)との一致度を表す。
0.85
Fluency represents the quality of expression (Oya, 2014; Wang and Cardie, 2013; Oya et al , 2014; Lee et al , 2020).
fluencyは表現の質を表している(oya, 2014, wang and cardie, 2013, oya et al , 2014; lee et al , 2020)。
0.78
Coverage determines how much of the important content is covered from the source document in the summary (Sonjia and Gina-Anne, 2008; Gillick et al , 2009; Li et al , 2019; Mehdad et al , 2013).
Coverageは、ソースドキュメントからどれだけ重要なコンテンツがカバーされているかを決定する(Sonjia and Gina-Anne, 2008; Gillick et al , 2009; Li et al , 2019; Mehdad et al , 2013)。
0.83
Informativeness represents the importance of the content captured in the summary (Zhang et al , 2021; Liu and Liu, 2009; Oya et al , 2014; Oya, 2014).
インフォーマティヴネスは、要約で捉えた内容の重要性を表している(Zhang et al , 2021; Liu and Liu, 2009; Oya et al , 2014; Oya, 2014)。
0.82
Besides accuracy, the rest of the above quality criteria are assessed manually by human experts or survey participants (Zhu and Penn, 2006; Shirafuji et al , 2020).
その他の品質基準は、精度の他に、人間の専門家や調査参加者(Zhu and Penn, 2006; Shirafuji et al, 2020)によって手作業で評価される。
0.74
2.3. Automatic Evaluation The current automatic evaluation of various text summarization tasks (including minuting) is mostly based on ROUGE or similar metrics that utilize n-gram comparisons (from single words to long patterns).
While automatic and fast, these metrics are often not able to reflect the quality issues of the text samples (See et al., 2017).
自動的で高速だが、これらのメトリクスはテキストサンプルの品質問題を反映できないことが多い(See et al., 2017)。
0.79
Some of the typical problems they miss are grammatical discrepancies, word repetitions, and more.
彼らが見逃す典型的な問題は、文法的な相違、単語の繰り返しなどである。
0.61
Novikova et al (2017; Reiter (2018) also report that automatic metrics do not correlate well with human evaluations.
Novikova et al (2017; Reiter (2018) もまた、自動測定は人間の評価とよく相関しないと報告している。
0.79
To overcome these limitations, it is important to simultaneously run human evaluations (following a systematic protocol) of meeting summaries and augment the automatic metric scores with the manual ones.
and/or evaluation of a corpus of multi-party meetings, i.e., creation and editing of meeting transcripts, annotating speakers, creating a summary, alignment of meeting segments to a summary, and meeting summary evaluation.
The tool is written in Python using PySide3 for GUI which makes the tool available on all major platforms (i.e., Windows, Linux, and macOS).
このツールはpyside3 for guiを使ってpythonで書かれており、すべての主要なプラットフォーム(windows、linux、macosなど)でツールを利用できる。
0.82
3.1. Design Choices We represent a meeting with its transcript and summary in Figure 1.
3.1. 設計の選択 図1の書き起こしと要約でミーティングを表現します。
0.49
The transcripts are long documents consisting of multi-party dialogues (refer to the left side of the tool window).
書き起こしは、多人数の対話からなる長い文書である(ツールウィンドウの左側を参照)。
0.66
The meeting summary is a structured document.
会議の概要は構造化された文書です。
0.69
We decided to break down the meeting summary into separate summary points.
私たちは会議の概要を別の要約ポイントに分割することにしました。
0.51
A summary point roughly represents a line in a summary document (refer to the right part of the tool window).
要約ポイントは概して要約文書の行を表す(ツールウィンドウの右部分を参照)。
0.58
The meeting usually has more versions of transcripts (e g , generated by ASR and a manual one) and more versions of summaries (e g , supplied by meeting participants created during the meeting and others provided by an annotator).
Figure 1: The ALIGNMEET main view in the annotation mode.
図1: アノテーションモードのALIGNMEETメインビュー。
0.61
The left column contains the meeting transcript broken down to dialogue acts.
左カラムには、対話行為に分解されたミーティングの書き起こしが含まれている。
0.46
The right column contains a summary, and the player.
右の列にはサマリーとプレイヤーが含まれている。
0.68
The alignment between dialogue acts and the summary point is shown using colors.
対話行動と要約点のアライメントは色を用いて示される。
0.66
Figure 2: The ALIGNMEET main view in evaluation mode.
図2: 評価モードにおけるALIGNMEETのメインビュー。
0.86
The left column contains the meeting transcript broken down into dialogue acts.
左のコラムには、対話行為に分解された会議の書き起こしが含まれている。
0.45
The right column contains a summary, problem flags, and document-level adequacy.
右列にはサマリ、問題フラグ、ドキュメントレベルの妥当性が含まれている。
0.62
Evaluation, i.e., the assignment of scores to a particular summary point, is enabled only for the summary points where the corresponding DAs are visible in the transcript view.
Except for summary points, we intentionally do not enforce any precise summary structure and provide users with the flexibility to design their summary.
要約ポイントを除いて、意図的に正確な要約構造を強制せず、ユーザが要約を設計する柔軟性を提供する。
0.67
Though, we support indentation as a form of horizontal structuring (with a user-defined indentation symbol).
ALIGNMEET supports only n-to-1 alignments because we believe that aligning multiple summary points to a DA would further increase the difficulty of the alignment task.
なぜなら、複数のサマリポイントをdaにアライメントすることでアライメントタスクの難しさをさらに高めると信じているからです。 訳抜け防止モード: ALIGNMEET は n - to-1 のアライメントのみをサポートする。 複数の要約ポイントをDAにアライメントすることは、アライメントタスクの難しさをさらに高めるだろうと考えています。
0.58
It would also cause a “summary point fragmentation”, as the annotator might address the same information in separate summary points.
The matching background color of a hunk and a summary point represents a single alignment (see Figure 1).
hunkとサマリーポイントのマッチング背景色は、単一のアライメントを表す(図1参照)。
0.68
To make the interface more clean and readable for the annotator, we color only summary points whose hunks are currently visible in the transcript view.
3.3. Evaluation Mode We reviewed several quality criteria for a summary evaluation in Sections 2.2 and 2.3 based on which we formulate a novel manual evaluation scheme.
We integrated the evaluation into the tool (see Figure 2).
評価結果をツールに統合しました(図2参照)。
0.72
For the evaluation, we utilize adequacy, grammaticallity and fluency.
評価には, 妥当性, 文法性, 頻度を利用する。
0.58
We think that evaluating these criteria at the document level is challenging and error-prone.
これらの基準をドキュメントレベルで評価することは困難でエラーやすいと考えています。
0.59
Therefore, we propose the evaluation on two levels: (1) manually assigning the hunk level (based on alignment) and (2) automatically aggregating it on the document level.
At the document level, we automatically aggregate the hunklevel judgments with a simple average.
ドキュメントレベルでは、hunkレベル判断を単純な平均で自動的に集約します。
0.70
Aside from averaging hunk-level adequacy across the document, we
ドキュメント全体で平均的なハンクレベルの妥当性は別として、
0.45
also independently ask annotators to report the overall accuracy of the minutes.
単独でアノテータに 全体の正確さを 報告するよう頼みます
0.57
We call this score ‘Doc-level adequacy’ in the following.
このスコアを“doc-level adequacy”と呼んでいる。
0.64
Finally, we compute coverage, i.e., the number of aligned DAs divided by the total number of DAs.
最後に、各DAの総数で割ったアライメントDAの数を計算します。
0.53
4. Use Case and Pilot Study
4.利用事例とパイロット研究
0.75
In this section, we present a use case and conduct a small-scale pilot study.
本節では,利用事例を提示し,小規模のパイロット実験を行う。
0.74
4.1. Use Cases We organized the First Shared Task on Automatic Minuting (Ghosal et al , 2021) on creating minutes from multi-party meetings.
4.1. ユースケース マルチパーティミーティングの議事録を作成するための、最初の共有タスク(ghosal et al, 2021)を組織しました。
0.53
As a part of the shared task, we made available a minuting corpus, which is now being released publicly (Nedoluzhko et al , 2022).
共有タスクの一部として、minutingコーパスを利用可能にしましたが、現在公開されています(nedoluzhko et al , 2022)。
0.62
ALIGNMEET was created during the annotation process.
ALIGNMEETはアノテーションプロセス中に作成された。
0.75
We have started with a modified NITE (Kilgour and Carletta, 2006) tool, but the annotators faced many issues, including the need to make changes to the transcript and minutes.
私たちは、修正されたnite(kilgour and carletta, 2006)ツールから始めましたが、注釈は、書き起こしと数分の変更を含む多くの問題に直面しました。
0.66
Hence, we decided to create a new tool to meet the annotators’ requirements.
そのため、アノテータの要求を満たす新しいツールを開発することにしました。
0.66
We used agile development, i.e., we constantly improved ALIGNMEET following the annotators’ comments.
私たちはアジャイル開発、すなわちアノテータのコメントに従って常にALIGNMEETを改善しました。
0.60
Before annotation, each meeting consisted of a recording, ASR-generated transcript, and meeting minutes assembled by the meeting participants (often incomplete).
First, we asked the annotators to revise the ASR transcript.
まず、アノテータにASR転写の改訂を依頼した。
0.56
Later, we asked the annotators to provide minutes and alignment.
その後、アノテータに時間と調整を依頼しました。
0.46
We have observed different styles of minuting among the annotators.
我々はアノテータ間で異なる形態のミナリングを観察してきた。
0.41
Therefore, many of the meetings have two or more versions of minutes provided by different annotators.
したがって、会議の多くは、異なる注釈者によって提供される2つ以上のバージョンの分を持っている。
0.52
4.2. Pilot Study To assess ALIGNMEET, we conduct a simple experiment similar to Collins et al (2019) for both modes of tool: (1) annotation and (2) evaluation.
We evaluate all the results across two different meeting corpora, AMI (McCowan et al , 2005) for English and AutoMin for Czech.
我々は、英語のAMI(McCowan et al , 2005)とチェコ語のAutoMinの2つの異なるミーティングコーパスで、すべての結果を評価した。
0.67
We considered one meeting per language from each corpus (the selected English meeting has 205 DAs and the selected Czech meeting has 153 DAs; both are approximately 16 minutes long).
The task was to create an abstractive summary, align the transcript with the corresponding parts of the reference summary, and finally evaluate the reference summary relying on the constructed alignment.
In other words, this particular meeting needed about 2–3 times its original time to summarize, its duration to align, and finally somewhat less than its duration to evaluate.
Annotator Experienced Summarization Alignment Evaluation Total time
アノテータによる要約アライメント評価総時間の検討
0.58
English E1 E2 E3 40 37 20 5 10 10 52 70
英語 e1 e2 e3 は 40 37 20 5 10 10 52 70 である。
0.69
45 23 15 83
45 23 15 83
0.42
Czech C1 C2 C3 31 23 11 18 13 25 66 55
チェコ c1 c2 c3 は31 23 11 18 13 25 66 55
0.74
45 30 15 90
45 30 15 90
0.42
Table 3: Pilot study: annotator experience and time in minutes each annotator spent on each task.
表3: パイロット研究: アノテータの経験と各アノテータが各タスクに費やした分単位の時間。
0.76
more has to be expected when processing meetings by annotators who have not taken part in them.
参加していないアノテータによる 会議の処理には もっと期待しなければなりません
0.65
The evaluation results are in Table 4.
評価結果は表4にある。
0.71
Adequacy is deemed average (3.98±0.62 on average), with the document-level manual judgment being similar (3.83±0.37), while grammaticality and fluency are somewhat higher (4.32±0.39 and 4.63±0.31, resp.).
Additionally, we report the inter-annotator agreement (IAA).
また,アノテータ間協定(IAA)を報告した。
0.67
Our definition of IAA is rather strict, we count the number of DAs that were aligned to the same summary point by all annotators divided by the total number of DAs.
If we consider the recorded pace of our annotators, the AMI meeting corpus consisting of 137 meetings and 45,895 DAs in total (see Table 1), it would take 9,105 minutes to summarize, 3,582 minutes to align, and 2,613 minutes to evaluate using our tool, or 255 hours in total.
We infer from Table 3 that the time spent on the task does not necessarily depend on the annotator’s experience but rather on the personal preferences and thoroughness of the annotator.
5. Conclusion We presented ALIGNMEET, an open-source and intuitive comprehensive tool for meeting annotation.
5.結論 提案するALIGNMEETは,オープンソースかつ直感的なアノテーション統合ツールである。
0.67
Its main goal is to facilitate alignment between parts of a transcript with the corresponding part of the summary.
その主な目的は、要約の対応する部分との書き起こし部分のアライメントを容易にすることである。
0.74
We also integrate the proposed evaluation strategy of meeting summaries in the tool.
また,ツールに要約を提示する評価戦略を取り入れた。
0.46
In the future, we will add the support for automatic transcript generation with timestamps, user-defined problems in the list of explicit problem labels, and a quick onboarding tutorial integrated into the user interface.
Finally, we hope ALIGNMEET will generally improve as annotators will provide their feedback.
最後に、ALIGNMEETが一般的に改善されることを願っています。
0.58
Acknowledgements has support
承認にはサポートがあります
0.47
received “Grant Schemes
受け取りました 『助成計画』
0.50
from the This work no.
この作品から、no。
0.46
project at CU” CZ.02.2.69/0.0/0.0/1 9 073/0016935), European Union’s Horizon 2020 Research and Innovation Programme under Grant Agreement No 825460 (ELITR), and 19-26934X (NEUREM3) of the Czech Science Foundation, and partially supported by SVV project number 260 575.
ence on Empirical Methods in Natural Language Processing, pages 5016–5026, Brussels, Belgium, October-November.
英語) Empirical Methods in Natural Language Processing, page 5016–5026, Brussels, Belgium, October–11 (英語)
0.76
Association for Computational Linguistics. In Proceedings of
計算言語学会会員。 訴訟の手続において
0.46
for C¸ ano, E. and Bojar, O. (2020).
ですから ano, E. and Bojar, O. (2020)。
0.66
Human or machine: Automating human likeliness evaluation of nlg texts.
human or machine: nlgテキストの評価を人間に似せて自動化する。
0.74
arXiv preprint arXiv:2006.03189.
arXiv preprint arXiv:2006.03189。
0.31
Collins, E., Rozanov, N., and Zhang, B. (2019).
Collins, E., Rozanov, N. and Zhang, B. (2019)。
0.41
Lida: Lightweight interactive dialogue annotator.
Lida: 軽量な対話型アノテータ。
0.63
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP): System Demonstrations, pages 121–126.
第9回自然言語処理国際共同会議(emnlp-ijcnlp: system demonstrations, pages 121–126)は、2019年の自然言語処理における経験的手法に関する会議である。
0.79
Cucurnia, D., Rozanov, N., Sucameli, I., Ciuffoletti, A., and Simi, M. (2021).
Cucurnia, D., Rozanov, N., Sucameli, I., Ciuffoletti, A., and Simi, M. (2021)。
0.86
Matilda-multi-annota tor multi-language interactivelight-wei ght dialogue an-
マルチアノテータを用いた多言語対話型軽量対話システム-
0.39
英語(論文から抽出)
日本語訳
スコア
notator. In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations, pages 32–39.
ノーテーター the european chapter of the association for computational linguistics: system demonstrations, pp32-39) 第16回ヨーロッパ計算言語学会大会の議事録。
0.55
D’Haro, L. F., Banchs, R. E., Hori, C., and Li, H. (2019).
D’Haro, L. F., Banchs, R. E., Hori, C., Li, H. (2019)。
0.89
Automatic evaluation of end-to-end dialog systems with adequacy-fluency metrics.
等価周波数メトリクスを用いたエンドツーエンド対話システムの自動評価
0.55
Computer Speech & Language, 55:200–215.
コンピュータ・スピーチ&ランゲージ、55:200-215。
0.58
Erol, B., shyang Lee, D., and Hull, J. (2003).
Erol, B., shyang Lee, D. and Hull, J. (2003)。
0.42
Multimodal summarization of meeting recordings.
会議記録のマルチモーダル要約
0.58
In In Proceedings of the IEEE International Conference on Multimedia & Expo, Baltimore, MD, July.
ボルチモアで開催されたieee international conference on multimedia & expo(ieee international conference on multimedia & expo, baltimore, md, july)で開催。 訳抜け防止モード: IEEE International Conference on Multimedia & Expo に参加して ボルチモア、MD、7月。
0.64
Fang, C., Mu, D., Deng, Z., and Wu, Z.
Fang, C., Mu, D., Deng, Z., Wu, Z
0.35
(2017). Word-sentence co-ranking for automatic extractive text summarization.
(2017). 自動抽出テキスト要約のための単語文協調処理
0.54
Expert Systems with Applications, 72:189–195.
専門家システム、72:189–195。
0.66
(2020). Summarization corpora of wikipedia articles.
(2020). ウィキペディアの記事の要約コーパス。
0.52
In Proceedings of the 12th Language Resources and Evaluation Conference, pages 6651–6655.
第12回言語資源・評価会議では6651-6655頁。
0.68
Frefel, D.
Frefel, D。
0.41
Ghosal, T., Singh, M., Nedoluzhko, A., and Bojar, O. (2021).
Ghosal, T., Singh, M., Nedoluzhko, A., and Bojar, O. (2021)。
0.83
Overview of the first shared task on automatic minuting (automin) at interspeech 2021.
Association for Computational Linguistics. Goo, C. and Chen, Y. (2018).
計算言語学会会員。 Goo, C. and Chen, Y. (2018)。
0.48
Abstractive dialogue summarization with sentence-gated modeling optimized by dialogue acts.
対話行動に最適化された文ゲートモデルによる抽象対話要約
0.63
In 2018 IEEE Spoken Language Technology Workshop (SLT), pages 735–742, Athens, Greece, Dec.
2018年、IEEE Spoken Language Technology Workshop (SLT)、ページ735–742、アテネ、ギリシャ、12月。
0.75
IEEE Xplore.
ieee xplore所属。
0.54
Gruenstein, A., Niekrasz, J., and Purver, M. (2005).
Gruenstein, A., Niekrasz, J., and Purver, M. (2005)。
0.88
Meeting structure annotation: Data and tools.
構造アノテーションのミーティング: データとツール。
0.82
In 6th SIGdial Workshop on Discourse and Dialogue.
第6回SIGdial Workshop on Discourse and Dialogue に参加して
0.72
Grusky, M., Naaman, M., and Artzi, Y. (2018).
Grusky, M., Naaman, M. and Artzi, Y. (2018)。
0.83
Newsroom: A dataset of 1.3 million summaries with diIn Proceedings of the verse extractive strategies.
Newsroom:DiIn Proceedings of the verse extractive Strategyによる13万サマリーのデータセット。
0.68
2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 708–719, New Orleans, Louisiana, June.
2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), page 708–719, New Orleans, Louisiana, June (英語) 訳抜け防止モード: 2018 conference of the north american chapter of the association for computational linguistics: human language technologies (英語) 第1巻(長編)、708-719頁、ニューオーリンズ。 6月、ルイジアナ。
0.75
Association for Computational Linguistics. Heeman, P. A., Yang, F., and Strayer, S. E. (2002).
計算言語学会会員。 Heeman, P. A., Yang, F. and Strayer, S. E. (2002)。
0.74
Dialogueview-an annotation tool for dialogue.
Dialogueview - 対話のためのアノテーションツール。
0.70
In Proceedings of the Third SIGdial Workshop on Discourse and Dialogue, pages 50–59.
The Proceedings of the Third SIGdial Workshop on Discourse and Dialogue, page 50-59。
0.43
Hermann, K. M., Kocisky, T., Grefenstette, E., Espeholt, L., Kay, W., Suleyman, M., and Blunsom, P.
Hermann, K. M., Kocisky, T., Grefenstette, E., Espeholt, L., Kay, W., Suleyman, M., and Blunsom, P。
0.85
(2015). Teaching machines to read and comprehend.
(2015). 機械に読み書きを教える。
0.48
Advances in neural information processing systems, 28.
神経情報処理システムの進歩,28。
0.73
Janin, A., Baron, D., Edwards, J., Ellis, D., Gelbart, D., Morgan, N., Peskin, B., Pfau, T., Shriberg, E., Stolcke, A., et al (2003).
Janin, A., Baron, D., Edwards, J., Ellis, D., Gelbart, D., Morgan, N., Peskin, B., Pfau, T., Shriberg, E., Stolcke, A., et al (2003)。
0.84
The icsi meeting corpus.
icsiミーティングコーパス。
0.38
In 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003.
2003年ieee国際音響・音声・信号処理会議
0.48
Proceedings. (ICASSP’03).
手続きだ (ICASSP'03)。
0.43
, volume 1, pages I–I. IEEE.
第1巻、I-I頁。 IEEE。
0.48
Kilgour, J. and Carletta, J.
Kilgour, J. and Carletta, J.
0.47
(2006). The nite xml toolkit: Demonstration from five corpora.
(2006). nite xmlツールキット: 5つのコーパスからのデモ。
0.58
In Proceedings of the 5th Workshop on NLP and XML (NLPXML-2006): Multi-Dimensional Markup in Natural Language Processing.
Anvil-a generic annotation tool for multimodal dialogue.
anvil-マルチモーダル対話のための汎用アノテーションツール
0.71
In Seventh European Conference on Speech Communication and Technology.
第7回ヨーロッパ音声通信技術会議に参加して
0.80
Klie, J. -C.
Klie, J。 -C。
0.41
, Bugert, M., Boullosa, B., de Castilho, R. E., and Gurevych, I. (2018).
、Bugert, M., Boullosa, B., de Castilho, R. E., and Gurevych, I. (2018)。
0.42
The inception platform: Machine-assisted and knowledge-oriented interactive annotation.
開始プラットフォーム: 機械支援および知識指向のインタラクティブアノテーション。
0.80
In Proceedings of the 27th International Conference on Computational Linguistics: System Demonstrations, pages 5–9.
The 27th International Conference on Computational Linguistics: System Demonstrations, Page 5–9. (英語)
0.43
Kry´sci´nski, W., Keskar, N. S., McCann, B., Xiong, C., and Socher, R. (2019).
Kry ́sci ́nski, W., Keskar, N. S., McCann, B., Xiong, C., Socher, R. (2019)。
0.95
Neural text summarization: A critical evaluation.
neural text summarization: 批判的な評価。
0.73
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 540–551.
The 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), page 540–551。 訳抜け防止モード: 自然言語処理における経験的手法に関する2019年会議のまとめ 第9回国際自然言語処理国際会議(EMNLP - IJCNLP)に参加して 540-551頁。
0.77
Lai, C., Carletta, J., and Renals, S. (2013).
Lai, C., Carletta, J., and Renals, S. (2013)。
0.87
Detecting summarization hot spots in meetings using group level involvement and turn-taking features.
グループレベルの関与とターンテイク機能によるミーティングの要約ホットスポットの検出。
0.66
In INTERSPEECH 2013 14th Annual Conference of the International Speech Communication Association, pages 2723–2727, Lyon, France.
ICSA. Lee, D., Shin, M., Whang, T., Cho, S., Ko, B., Lee, D., Kim, E., and Jo, J. (2020).
ICSA Lee, D., Shin, M., Whang, T., Cho, S., Ko, B., Lee, D., Kim, E., Jo, J. (2020)。
0.53
Reference and document aware semantic evaluation methods for korean language summarization.
韓国語要約のための参照と文書認識による意味評価手法
0.81
arXiv preprint arXiv:2005.03510.
arXiv preprint arXiv:2005.03510。
0.63
Li, M., Zhang, L., Ji, H., and Radke, R. J. (2019).
Li, M., Zhang, L., Ji, H. and Radke, R. J. (2019)。
0.86
Keep meeting summaries on topic: Abstractive In Proceedmulti-modal meeting summarization.
トピックに関する要約をまとめる: マルチモーダルミーティングの要約を要約する。
0.67
ings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 2190–2196.
第57回計算言語学会年次大会、2190-2196頁。
0.45
Libovick´y, J., Palaskar, S., Gella, S., and Metze, F. (2018).
Libovick ́y, J., Palaskar, S., Gella, S., and Metze, F. (2018)。
0.97
Multimodal abstractive summarization of open-domain videos.
オープンドメインビデオのマルチモーダル抽象要約
0.66
In Proceedings of the Workshop on Visually Grounded Interaction and Language (ViGIL).
In Proceedings of the Workshop on Visually Grounded Interaction and Language (ViGIL) に参加して
0.44
NIPS. Likert, R. (1932).
ニップス R. (1932年)。
0.37
A technique for the measurement of attitudes.
測定のための技術 態度だ
0.46
Archives of Psychology, 22:55.
専門は心理学、22:55。
0.52
Lin, C. -Y. (2004).
リン、C。 -y。 (2004).
0.48
Rouge: A package for automatic In Text summarization
Rouge: 自動インテキスト要約のためのパッケージ
0.86
evaluation of summaries. branches out, pages 74–81.
要約の評価。 74-81頁。
0.49
Liu, F. and Liu, Y. (2009).
Liu, F. and Liu, Y. (2009)。
0.44
From extractive to abstractive meeting summaries: Can it be done by sentence
抜粋から抽象的な要約まで:文で行うことができる
0.70
英語(論文から抽出)
日本語訳
スコア
compression? In Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, pages 261–264.
圧縮? acl-ijcnlp 2009コンファレンス小論文261-264頁。
0.64
Liu, C., Wang, P., Xu, J., Li, Z., and Ye, J. (2019).
Liu, C., Wang, P., Xu, J., Li, Z., Ye, J. (2019)。
0.78
Automatic dialogue summary generation for customer service.
顧客サービスのための対話要約自動生成
0.80
In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pages 1957–1965.
The 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining”. 1957–1965年。
0.79
Liu, X., Xue, W., Su, Q., Nie, W., and Peng, W. (2020).
Liu, X., Xue, W., Su, Q., Nie, W., and Peng, W. (2020)。
0.85
metacat: A metadata-based task-oriented chatbot anIn Proceedings of the 1st Confernotation tool.
metacat: メタデータベースのタスク指向チャットボット anIn Proceedings of the 1st Confernotation ツール。
0.77
ence of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing: System Demonstrations, pages 20–25.
計算言語学会アジア太平洋支部と第10回自然言語処理国際共同会議:システムデモ、20-25頁。
0.66
Ma, S. and Sun, X.
Ma, S, and Sun, X。
0.44
(2017). A semantic relevance based neural network for text summarization and text simplification.
(2017). テキスト要約とテキスト単純化のための意味関連性に基づくニューラルネットワーク
0.61
arXiv preprint arXiv:1710.02318.
arXiv preprint arXiv:1710.02318
0.36
McBurney, P. W. and McMillan, C. (2014).
McBurney, P. W. and McMillan, C. (2014)。
0.47
Automatic documentation generation via source code summarization of method context.
メソッドコンテキストのソースコード要約による自動文書生成。
0.76
In Proceedings of the 22nd International Conference on Program Comprehension, pages 279–290.
第22回国際プログラム理解会議の議事録279-290頁。
0.71
McCowan, I., Carletta, J., Kraaij, W., Ashby, S., Bourban, S., Flynn, M., Guillemot, M., Hain, T., Kadlec, J., Karaiskos, V., et al (2005).
McCowan, I., Carletta, J., Kraaij, W., Ashby, S., Bourban, S., Flynn, M., Guillemot, M., Hain, T., Kadlec, J., Karaiskos, V., et al (2005)。
0.42
The ami meeting corpus.
amiミーティングコーパス。
0.40
In Proceedings of the 5th International Conference on Methods and Techniques in Behavioral Research, volume 88, page 100.
for pragmatic research. See, A., Liu, P. J., and Manning, C. D. (2017).
実用的で 研究だ A., Liu, P. J., and Manning, C. D. (2017)を参照。
0.71
Get to the point: Summarization with pointer-generator networks.
ポイントは、ポインタ生成ネットワークの要約です。
0.49
In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1073–1083, Vancouver, Canada, July.
abstract generation for focused meeting summarization.
集中会議要約のための抽象生成。
0.73
In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1395–1405.
第51回計算言語学会年次総会(第1巻:長い論文)で1395-1405頁。
0.50
Wang, A., Cho, K., and Lewis, M. (2020).
Wang, A., Cho, K. and Lewis, M. (2020)。
0.87
Asking and answering questions to evaluate the factual consistency of summaries.
要約の事実整合性を評価するための質問と回答。
0.67
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 5008–5020.
第58回計算言語学会年次総会の議事録では、5008-5020頁が引用されている。
0.53
Weisser, M. (2003).
ヒュッセル、M。 (2003).
0.47
Spaacy–a semi-automated tool for annotating dialogue acts.
Spaacy - 対話行動に注釈をつけるための半自動ツール。
0.52
International journal of corpus linguistics, 8(1):63–74.
国際コーパス言語学誌8(1):63-74。
0.75
Zechner, K. (2001a).
zechner, k. (2001a)。
0.78
Automatic generation of concise summaries of spoken dialogues in unrestricted domains.
非制限領域における音声対話の簡潔要約の自動生成
0.74
In IN PROC.
IN PROC所属。
0.73
ACM SIGIR, pages 199–207, New Orleans, USA.
acm sigir, pages 199–207, new orleans, usa. (英語)
0.56
ACM. Zechner, K.
acm。 ゼクナー、k。
0.58
(2001b). Automatic Summarization of Spoken Dialogues in Unrestricted Domains.
(2001年) 非制限領域における音声対話の自動要約
0.71
Ph.D. thesis, Carnegie Mellon University, Pittsburgh, PA, USA.
Ph.D.thesis, Carnegie Mellon University, Pittsburgh, PA, USA
0.45
Zhang, J. J. and Fung, P. (2012).
Zhang, J. J. and Fung, P. (2012)。
0.93
Automatic parliamentary meeting minute generation using rhetorical structure modeling.
修辞構造モデリングを用いた議事録自動生成
0.60
IEEE transactions on audio, speech, and language processing, 20(9):2492–2504.
IEEEによる音声、音声、言語処理のトランザクション、20(9):2492–2504。
0.76
Zhang, X., Zhang, R., Zaheer, M., and Ahmed, A. (2021).
Zhang, X., Zhang, R., Zaheer, M., Ahmed, A. (2021)。
0.78
Unsupervised abstractive dialogue summarization for tete-a-tetes.
tete-a-teteの教師なし抽象的対話要約
0.41
Proceedings of the AAAI Conference on Artificial Intelligence, 35(16):14489– 14497, May.
aaai conference on artificial intelligence, 35(16):14489–14497, may(英語)
0.35
Zhu, X. and Penn, G. (2006).
Zhu, X. and Penn, G. (2006)。
0.48
Summarization of spontaneous conversations.
自発的な会話の要約。
0.69
In Ninth International Conference on Spoken Language Processing.
第9回音声言語処理国際会議に参加して
0.68
Zhu, C., Xu, R., Zeng, M., and Huang, X. (2020a).
Zhu, C., Xu, R., Zeng, M. and Huang, X. (2020a)。
0.86
End-to-end abstractive summarization for meetings.
会議のエンドツーエンドの要約。
0.49
CoRR, abs/2004.02016.
en:corr, abs/2004.02016。
0.36
Zhu, C., Xu, R., Zeng, M., and Huang, X. (2020b).
Zhu, C., Xu, R., Zeng, M. and Huang, X. (2020b)。
0.86
A hierarchical network for abstractive meeting summarization with cross-domain pretraining.
クロスドメイン事前学習による要約要約を抽象化する階層ネットワーク
0.71
In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 194–203, Online, November.
en:association for computational linguistics: emnlp 2020, pages 194–203, online, novemberを参照。
0.75
Association for Computational Linguistics. Zhu, C., Liu, Y., Mei, J., and Zeng, M. (2021).
計算言語学会会員。 Zhu, C., Liu, Y., Mei, J., Zeng, M. (2021)。
0.66
Mediasum: A large-scale media interview dataset for dialogue summarization.
Mediasum:対話要約のための大規模メディアインタビューデータセット。
0.72
In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 5927–5934.
2021年、アメリカ計算言語学会北アメリカ支部会議(英語版)において、Human Language Technologies, page 5927-5934。