このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210101となっている論文です。

PDF登録状況(公開日: 20210101)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ゲームのための応用機械学習:大学院教育コース [全文訳有]

Applied Machine Learning for Games: A Graduate School Course ( http://arxiv.org/abs/2012.01148v2 )

ライセンス: CC BY 4.0
Yilei Zeng, Aayush Shah, Jameson Thai, Michael Zyda(参考訳) ゲーム産業は、昔ながらのゲームエンジンが、ゲームプレイの操作、分析、理解のための組み込み機械学習技術を備えた再設計システムに置き換えられつつある時代へと向かっている。 本稿では,最近の深層学習や強化学習をゲームに応用することに関心のある大学院生を対象とした機械学習コースについて述べる。 このコースは大学院間の学際的なコラボレーションを促進するための橋となり、ゲームの設計や構築に先行した経験は必要としない。 このコースに入学した大学院生は、コンピュータビジョン、自然言語処理、コンピュータグラフィックス、人間のコンピュータインタラクション、ロボット工学、データ分析など、さまざまな機械学習技術を適用して、ゲームにおけるオープンな課題を解決する。 学生プロジェクトは、ゲームベンチマーク環境や競争におけるAIボットのトレーニング、ゲームにおける人間の決定パターンの理解、ゲームプレイを促進するためのインテリジェントな非プレイ可能なキャラクターや環境の作成など、ユースケースをカバーする。 プロジェクトのデモは、学生が業界キャリアの扉を開くのを助けたり、出版物をターゲットにしたり、将来の製品の基礎を築くのに役立つ。 学生たちは、ゲームにおける現実の問題を解決するために、最先端の機械学習技術を適用した経験を積んだ。

The game industry is moving into an era where old-style game engines are being replaced by re-engineered systems with embedded machine learning technologies for the operation, analysis and understanding of game play. In this paper, we describe our machine learning course designed for graduate students interested in applying recent advances of deep learning and reinforcement learning towards gaming. This course serves as a bridge to foster interdisciplinary collaboration among graduate schools and does not require prior experience designing or building games. Graduate students enrolled in this course apply different fields of machine learning techniques such as computer vision, natural language processing, computer graphics, human computer interaction, robotics and data analysis to solve open challenges in gaming. Student projects cover use-cases such as training AI-bots in gaming benchmark environments and competitions, understanding human decision patterns in gaming, and creating intelligent non-playable characters or environments to foster engaging gameplay. Projects demos can help students open doors for an industry career, aim for publications, or lay the foundations of a future product. Our students gained hands-on experience in applying state of the art machine learning techniques to solve real-life problems in gaming.
翻訳日:2021-06-07 05:56:16 公開日:2021-01-01
# (参考訳) スキルスペースプランニングによるリセットフリー生涯学習 [全文訳有]

Reset-Free Lifelong Learning with Skill-Space Planning ( http://arxiv.org/abs/2012.03548v2 )

ライセンス: CC BY 4.0
Kevin Lu, Aditya Grover, Pieter Abbeel, Igor Mordatch(参考訳) 生涯強化学習(RL)の目的は、変化する環境に継続的に適応し、相互作用できるエージェントを最適化することである。 しかし、現在のRLアプローチは、環境が非定常で相互作用が非エポゾディックである場合、大幅に失敗する。 我々は,高次スキルの抽象空間における計画に基づく非定型生涯rlのためのアルゴリズムフレームワークであるlifelong skill planning (lisp)を提案する。 我々は、本質的な報酬を用いて教師なしの方法でスキルを学び、学習力学モデルを用いて学習スキルを計画する。 さらに,本フレームワークでは,オフラインデータからもスキル発見が可能であり,現実世界の過剰なインタラクションの必要性が軽減される。 我々はLiSPが長期計画に成功し、グリッドワールドやMuJoCoベンチマークから派生した非定常的・非エポゾディック環境においても破滅的な失敗を回避できるエージェントを学習できることを実証的に実証した。

The objective of lifelong reinforcement learning (RL) is to optimize agents which can continuously adapt and interact in changing environments. However, current RL approaches fail drastically when environments are non-stationary and interactions are non-episodic. We propose Lifelong Skill Planning (LiSP), an algorithmic framework for non-episodic lifelong RL based on planning in an abstract space of higher-order skills. We learn the skills in an unsupervised manner using intrinsic rewards and plan over the learned skills using a learned dynamics model. Moreover, our framework permits skill discovery even from offline data, thereby reducing the need for excessive real-world interactions. We demonstrate empirically that LiSP successfully enables long-horizon planning and learns agents that can avoid catastrophic failures even in challenging non-stationary and non-episodic environments derived from gridworld and MuJoCo benchmarks.
翻訳日:2021-05-21 02:24:15 公開日:2021-01-01
# (参考訳) 自己スーパービジョンに基づくタスク特化画像収集要約

Self-Supervision based Task-Specific Image Collection Summarization ( http://arxiv.org/abs/2012.10657v4 )

ライセンス: CC BY 4.0
Anurag Singh, Deepak Kumar Sharma, Sudhir Kumar Sharma(参考訳) ディープラーニング(DL)の有効な応用には、大量の注釈付きデータが必要である。 これはしばしば、データ収集と計算のための大きな予算を持つ企業や個人にDLを採用する利点を制限する。 Summarizationは、ビッグデータのリアルタイムディープラーニングと分析を可能にし、DLの使用を民主化する、はるかに小さな代表データセットを作成することで、可能なソリューションを提供する。 本研究の目的は,意味情報と自己スーパービジョンを用いたタスク固有イメージコーパス要約への新しいアプローチを検討することである。 本手法では,特徴生成ネットワークとして分類ベースwassersteingenerativ e adversarial network(clswgan)を用いる。 このモデルはまた、回転不変性を別のタスクにおける自己スーパービジョンと分類として活用する。 これらすべての目的がresnet34の機能に付加され、差別的で堅牢になる。 モデルは、セマンティック埋め込み空間におけるK平均クラスタリングを用いて、推論時に要約を生成する。 したがって、このモデルの主な利点は、現在のエンドツーエンドモデルの問題である異なる長さの要約を得るために、毎回再訓練する必要がないことである。 また, 質的および定量的に厳密な実験を行い, モデルの有効性を検証した。

Successful applications of deep learning (DL) requires large amount of annotated data. This often restricts the benefits of employing DL to businesses and individuals with large budgets for data-collection and computation. Summarization offers a possible solution by creating much smaller representative datasets that can allow real-time deep learning and analysis of big data and thus democratize use of DL. In the proposed work, our aim is to explore a novel approach to task-specific image corpus summarization using semantic information and self-supervision. Our method uses a classification-based Wasserstein generative adversarial network (CLSWGAN) as a feature generating network. The model also leverages rotational invariance as self-supervision and classification on another task. All these objectives are added on a features from resnet34 to make it discriminative and robust. The model then generates a summary at inference time by using K-means clustering in the semantic embedding space. Thus, another main advantage of this model is that it does not need to be retrained each time to obtain summaries of different lengths which is an issue with current end-to-end models. We also test our model efficacy by means of rigorous experiments both qualitatively and quantitatively.
翻訳日:2021-05-01 15:49:03 公開日:2021-01-01
# 電気グリッドにおける動的グラフベース異常検出

Dynamic Graph-Based Anomaly Detection in the Electrical Grid ( http://arxiv.org/abs/2012.15006v2 )

ライセンス: Link先を確認
Shimiao Li, Amritanshu Pandey, Bryan Hooi, Christos Faloutsos and Larry Pileggi(参考訳) 電力グリッドから時間とともにセンサを読み取ると、異常が発生するタイミングをどうやって正確に検出できるのか? この目標を達成する上で重要な部分は、電力グリッドセンサのネットワークを使用して、自然の障害や悪意のあるイベントが電力グリッド上で発生した場合、リアルタイムに迅速に検出することである。 既存のバッドデータ検出器は、グリッドの単一計測スナップショットを一度に運用するため、幅広い種類の異常、特にサイバー攻撃の発生によって、堅牢に検出する技術に欠けています。 新しいml手法はより広く適用できるが、一般にトポロジー変化がセンサ計測に与える影響を考慮せず、歴史的データに定期的なトポロジー調整を適用できない。 そこで我々は動的グリッド上に設置したセンサを用いて異常検出を行うドメイン知識とトポロジ認識アルゴリズムであるdynwatchを提案する。 我々のアプローチは正確で、実験では既存のアプローチを20%以上(F-measure)上回り、高速で、1センサ当たり平均1.7ms以下で、ラップトップコンピュータを使用した60K以上のブランチケース上で、平均1.7msで実行し、グラフのサイズを線形にスケーリングします。

Given sensor readings over time from a power grid, how can we accurately detect when an anomaly occurs? A key part of achieving this goal is to use the network of power grid sensors to quickly detect, in real-time, when any unusual events, whether natural faults or malicious, occur on the power grid. Existing bad-data detectors in the industry lack the sophistication to robustly detect broad types of anomalies, especially those due to emerging cyber-attacks, since they operate on a single measurement snapshot of the grid at a time. New ML methods are more widely applicable, but generally do not consider the impact of topology change on sensor measurements and thus cannot accommodate regular topology adjustments in historical data. Hence, we propose DYNWATCH, a domain knowledge based and topology-aware algorithm for anomaly detection using sensors placed on a dynamic grid. Our approach is accurate, outperforming existing approaches by 20% or more (F-measure) in experiments; and fast, running in less than 1.7ms on average per time tick per sensor on a 60K+ branch case using a laptop computer, and scaling linearly in the size of the graph.
翻訳日:2021-04-18 05:59:00 公開日:2021-01-01
# 戦略的学習:クローズドブックQAのためのマスク学習

Studying Strategically: Learning to Mask for Closed-book QA ( http://arxiv.org/abs/2012.15856v2 )

ライセンス: Link先を確認
Qinyuan Ye, Belinda Z. Li, Sinong Wang, Benjamin Bolte, Hao Ma, Wen-tau Yih, Xiang Ren, Madian Khabsa(参考訳) クローズドブック質問回答(QA)は、外部の知識にアクセスせずに直接質問に答えるモデルを必要とする課題である。 質問,回答)の例で直接学習した事前学習言語モデルは驚くほどの競争性能を示し、一般の事前学習と微調整の間に中間的な事前学習段階を追加することでさらに改善されることが示されている。 初期の作業はこの中間段階でヒューリスティックを使用しており、名前付きエンティティと日付がマスクされ、これらのトークンを復元するためにモデルが訓練されている。 本稿では,中間訓練段階における最適マスキング戦略を学習することを目的とする。 まず、テストされる可能性のあるスパンを抽出するためにマスキングポリシをトレーニングし、ダウンストリームタスク自体の監督を使用して、中間の事前トレーニング中に学習したポリシをデプロイします。 このように、我々のポリシーはタスク関連知識を言語モデルのパラメータにまとめる。 我々のアプローチは特にTriviaQAに対して有効であり、BARTの事前トレーニングで強いヒューリスティックスを達成している。

Closed-book question-answering (QA) is a challenging task that requires a model to directly answer questions without access to external knowledge. It has been shown that directly fine-tuning pre-trained language models with (question, answer) examples yields surprisingly competitive performance, which is further improved upon through adding an intermediate pre-training stage between general pre-training and fine-tuning. Prior work used a heuristic during this intermediate stage, whereby named entities and dates are masked, and the model is trained to recover these tokens. In this paper, we aim to learn the optimal masking strategy for the intermediate pre-training stage. We first train our masking policy to extract spans that are likely to be tested, using supervision from the downstream task itself, then deploy the learned policy during intermediate pre-training. Thus, our policy packs task-relevant knowledge into the parameters of a language model. Our approach is particularly effective on TriviaQA, outperforming strong heuristics when used to pre-train BART.
翻訳日:2021-04-17 17:26:52 公開日:2021-01-01
# (参考訳) MrGCN:長期依存を考慮した関係抽出のためのミラーグラフ畳み込みネットワーク [全文訳有]

MrGCN: Mirror Graph Convolution Network for Relation Extraction with Long-Term Dependencies ( http://arxiv.org/abs/2101.00124v1 )

ライセンス: CC BY 4.0
Xiao Guo, I-Hung Hsu, Wael AbdAlmageed, Premkumar Natarajan, Nanyun Peng(参考訳) 多くの自然言語理解タスクにおいて、複雑な言語構造と単語間の長期的依存関係を捉える能力は不可欠である。 関係抽出において、リッチな構文的手がかりを含む依存木は、テキストの長期的依存関係を捉えるのに広く利用されている。 依存グラフをエンコードする手段の1つであるグラフニューラルネットワーク(GNN)は、いくつかの先行研究で有効であることが示されている。 しかし、GNNの受容領域には比較的注意が払われておらず、これは単一の文を超えて言論分析を必要とする非常に長いテキストを持つタスクにおいて不可欠である。 本研究では、グラフプーリングの考え方を活用し、関係抽出に適したプール・アンプール構造を持つGNNモデルであるミラーグラフ畳み込みネットワーク(MrGCN)を提案する。 プーリングブランチは、グラフサイズを小さくし、GCNがより少ない層内でより大きな受容フィールドを得ることができるようにし、アンプールブランチは、トークンレベルの関係抽出を行うことができるように、プールされたグラフを元の解像度に復元する。 2つのデータセットを用いた実験により,提案手法の有効性が示された。

The ability to capture complex linguistic structures and long-term dependencies among words in the passage is essential for many natural language understanding tasks. In relation extraction, dependency trees that contain rich syntactic clues have been widely used to help capture long-term dependencies in text. Graph neural networks (GNNs), one of the means to encode dependency graphs, has been shown effective in several prior works. However, relatively little attention has been paid to the receptive fields of GNNs, which can be crucial in tasks with extremely long text that go beyond single sentences and require discourse analysis. In this work, we leverage the idea of graph pooling and propose the Mirror Graph Convolution Network (MrGCN), a GNN model with pooling-unpooling structures tailored to relation extraction. The pooling branch reduces the graph size and enables the GCN to obtain larger receptive fields within less layers; the unpooling branch restores the pooled graph to its original resolution such that token-level relation extraction can be performed. Experiments on two datasets demonstrate the effectiveness of our method, showing significant improvements over previous results.
翻訳日:2021-04-17 14:50:46 公開日:2021-01-01
# (参考訳) sensei: 自己教師付きセンサ名セグメンテーション [全文訳有]

Sensei: Self-Supervised Sensor Name Segmentation ( http://arxiv.org/abs/2101.00130v1 )

ライセンス: CC BY 4.0
Jiaman Wu, Dezhi Hong, Rajesh Gupta, Jingbo Shang(参考訳) センサー名は、一般的にはアルファ数値文字列であり、スマートビルディングアプリケーションのデプロイに必要なセンサーのキーコンテキスト(例えば、機能と位置)をエンコードする。 しかしセンサーの名称は、異なる構造としばしば難解な語彙を用いて、ビルベンダー固有の方法でキュレートされる。 そのため、センサー名を意味のあるチャンクに分割するだけでも、ビルド毎にアノテートするための膨大な手作業が必要になります。 本稿では,人間のアノテーションを使わずにセンサ名をセグメント化できる,完全自動自己管理フレームワークSenseiを提案する。 具体的には,神経言語モデルを用いてセンサの命名構造を捉え,言語モデルからの情報に基づいて自己スーパービジョンを誘導し,セグメンテーションモデルを構築する。 何千ものセンサからなる5つの実世界の建物に関する広範囲な実験は、senseiがベースライン方式よりも優れていることを示している。

A sensor name, typically an alphanumeric string, encodes the key context (e.g., function and location) of a sensor needed for deploying smart building applications. Sensor names, however, are curated in a building vendor-specific manner using different structures and vocabularies that are often esoteric. They thus require tremendous manual effort to annotate on a per-building basis; even to just segment these sensor names into meaningful chunks. In this paper, we propose a fully automated self-supervised framework, Sensei, which can learn to segment sensor names without any human annotation. Specifically, we employ a neural language model to capture the underlying sensor naming structure and then induce self-supervision based on information from the language model to build the segmentation model. Extensive experiments on five real-world buildings comprising thousands of sensors demonstrate the superiority of Sensei over baseline methods.
翻訳日:2021-04-17 14:30:44 公開日:2021-01-01
# (参考訳) NeurIPS 2020 効率的な QA コンペ - システム,分析,教訓 [全文訳有]

NeurIPS 2020 EfficientQA Competition: Systems, Analyses and Lessons Learned ( http://arxiv.org/abs/2101.00133v1 )

ライセンス: CC BY 4.0
Sewon Min, Jordan Boyd-Graber, Chris Alberti, Danqi Chen, Eunsol Choi, Michael Collins, Kelvin Guu, Hannaneh Hajishirzi, Kenton Lee, Jennimaria Palomaki, Colin Raffel, Adam Roberts, Tom Kwiatkowski, Patrick Lewis, Yuxiang Wu, Heinrich K\"uttler, Linqing Liu, Pasquale Minervini, Pontus Stenetorp, Sebastian Riedel, Sohee Yang, Minjoon Seo, Gautier Izacard, Fabio Petroni, Lucas Hosseini, Nicola De Cao, Edouard Grave, Ikuya Yamada, Sonse Shimaoka, Masatoshi Suzuki, Shumpei Miyawaki, Shun Sato, Ryo Takahashi, Jun Suzuki, Martin Fajcik, Martin Docekal, Karel Ondrej, Pavel Smrz, Hao Cheng, Yelong Shen, Xiaodong Liu, Pengcheng He, Weizhu Chen, Jianfeng Gao, Barlas Oguz, Xilun Chen, Vladimir Karpukhin, Stan Peshterliev, Dmytro Okhonko, Michael Schlichtkrull, Sonal Gupta, Yashar Mehdad, Wen-tau Yih(参考訳) 我々はNeurIPS 2020のEfficientQAコンペティションをレビューする。 コンペでは、システムは自然言語質問を入力として受け取り、自然言語応答を返すオープンドメイン質問応答(qa)に焦点を当てた。 競争の目的は、正確な回答を予測し、ディスク上のメモリ予算を厳格に満たすシステムを構築することであった。 これらの記憶予算は、参加者が大規模で冗長な検索コーパスまたは大規模学習モデルのパラメータを格納するトレードオフを探求するよう促すように設計されている。 本報告では,コンペティションの動機と組織について述べ,最善の提案をレビューし,システム予測を分析し,オープンドメインqaの評価に関する議論を述べる。

We review the EfficientQA competition from NeurIPS 2020. The competition focused on open-domain question answering (QA), where systems take natural language questions as input and return natural language answers. The aim of the competition was to build systems that can predict correct answers while also satisfying strict on-disk memory budgets. These memory budgets were designed to encourage contestants to explore the trade-off between storing large, redundant, retrieval corpora or the parameters of large learned models. In this report, we describe the motivation and organization of the competition, review the best submissions, and analyze system predictions to inform a discussion of evaluation for open-domain QA.
翻訳日:2021-04-17 14:18:13 公開日:2021-01-01
# (参考訳) マルチグリッドバックプロジェクションネットワーク [全文訳有]

Multi-Grid Back-Projection Networks ( http://arxiv.org/abs/2101.00150v1 )

ライセンス: CC BY-SA 4.0
Pablo Navarrete Michelini, Wenbin Chen, Hanwen Liu, Dan Zhu, Xingqun Jiang(参考訳) MGBP(Multi-Grid Back-Projection)は、画像やビデオをアップスケールしたアーティファクトで復元することのできる、完全な畳み込みネットワークアーキテクチャである。 マルチグリッド偏微分方程式(PDE)の同じ戦略を用いて、このマルチスケールアーキテクチャは、出力解像度を増大させて計算複雑性を効率的にスケールする。 基本処理ブロックは反復バックプロジェクション(ibp)アルゴリズムにインスパイアされ、低解像度参照からのフィードバックを伴うクロススケール残差ブロックの一種を構成する。 このアーキテクチャは、ダウンスケールの画像しか知られていない高解像度画像やビデオの正確なコピーを復元することを目的とした回帰ターゲットの最先端の代替品と同等の性能を発揮する。 知覚品質のターゲットは、低解像度の入力と整合性がある限り、高解像度のオリジナルコンテンツとは異なる人工的な変化を導入することで、より現実的な出力を作り出すことを目的としている。 そこで本研究では,異なる解像度スケールの雑音入力を用いて,出力に発生する人工的詳細量の制御を行う手法を提案する。 ノイズ入力は、ネットワークが人工的なリアルな詳細を作成するのに使用するイノベーションの量を制御する。 この戦略の有効性はベンチマークで示され、知覚歪平面を横切る特定の戦略として説明される。

Multi-Grid Back-Projection (MGBP) is a fully-convolutional network architecture that can learn to restore images and videos with upscaling artifacts. Using the same strategy of multi-grid partial differential equation (PDE) solvers this multiscale architecture scales computational complexity efficiently with increasing output resolutions. The basic processing block is inspired in the iterative back-projection (IBP) algorithm and constitutes a type of cross-scale residual block with feedback from low resolution references. The architecture performs in par with state-of-the-arts alternatives for regression targets that aim to recover an exact copy of a high resolution image or video from which only a downscale image is known. A perceptual quality target aims to create more realistic outputs by introducing artificial changes that can be different from a high resolution original content as long as they are consistent with the low resolution input. For this target we propose a strategy using noise inputs in different resolution scales to control the amount of artificial details generated in the output. The noise input controls the amount of innovation that the network uses to create artificial realistic details. The effectiveness of this strategy is shown in benchmarks and it is explained as a particular strategy to traverse the perception-distortio n plane.
翻訳日:2021-04-17 13:53:03 公開日:2021-01-01
# (参考訳) Fidel:Federated Learningの軽量アップデートからプライベートトレーニングサンプルを再構築 [全文訳有]

Fidel: Reconstructing Private Training Samples from Weight Updates in Federated Learning ( http://arxiv.org/abs/2101.00159v1 )

ライセンス: CC BY 4.0
David Enthoven and Zaid Al-Ars(参考訳) スマートフォンなどのデータ収集機の増加に伴い、膨大なデータが利用可能になっている。 フェデレーション学習は、各ユーザのプライバシを保護しながら、大規模に分散学習を可能にするために開発された。 このプライバシは、集中型サーバがクライアントのデータにアクセスできず、クライアントのモデルアップデートのみである、という考え方によって主張されている。 本稿では,第1密層攻撃(fidel)と呼ぶ,正規連体学習における新しい攻撃手法について評価する。 この攻撃手法について考察し,その実現可能性の証明として,密結合ネットワークや畳み込みニューラルネットワークに対して,この攻撃手法がいかに大きな効果をもたらすかを示す。 我々は、いくつかの重要な設計判断を評価し、reluとdropoutの使用がクライアントのローカルデータセットのプライバシに有害であることを示す。 計算資源の少ない完全接続型ニューラルネットワークを用いて、クライアントのモデル更新から、30個のプライベートデータサンプルのうち20個を平均して復元する方法を示す。 同様に、20のサンプルのうち13以上が畳み込みニューラルネットワークの更新から回収可能であることを示す。

With the increasing number of data collectors such as smartphones, immense amounts of data are available. Federated learning was developed to allow for distributed learning on a massive scale whilst still protecting each users' privacy. This privacy is claimed by the notion that the centralized server does not have any access to a client's data, solely the client's model update. In this paper, we evaluate a novel attack method within regular federated learning which we name the First Dense Layer Attack (Fidel). The methodology of using this attack is discussed, and as a proof of viability we show how this attack method can be used to great effect for densely connected networks and convolutional neural networks. We evaluate some key design decisions and show that the usage of ReLu and Dropout are detrimental to the privacy of a client's local dataset. We show how to recover on average twenty out of thirty private data samples from a client's model update employing a fully connected neural network with very little computational resources required. Similarly, we show that over thirteen out of twenty samples can be recovered from a convolutional neural network update.
翻訳日:2021-04-17 13:21:19 公開日:2021-01-01
# (参考訳) Virtuosic Classical Musicのための生成的深層学習:レンタル作曲家としての生成的敵対的ネットワーク [全文訳有]

Generative Deep Learning for Virtuosic Classical Music: Generative Adversarial Networks as Renowned Composers ( http://arxiv.org/abs/2101.00169v1 )

ライセンス: CC BY 4.0
Daniel Szelogowski(参考訳) 現在のAI生成音楽は、優れた作曲技法の基本原理を欠いている。 プログラム的にも音楽的にも実装上の問題を絞り込むことで、生成した楽曲に必要となるパラメータをマスター作曲家とほとんど区別できないものに理解することが可能になる。

Current AI-generated music lacks fundamental principles of good compositional techniques. By narrowing down implementation issues both programmatically and musically, we can create a better understanding of what parameters are necessary for a generated composition nearly indistinguishable from that of a master composer.
翻訳日:2021-04-17 13:09:33 公開日:2021-01-01
# (参考訳) 可微分意味マッピングと計画による自律ナビゲーションのための逆強化学習 [全文訳有]

Inverse reinforcement learning for autonomous navigation via differentiable semantic mapping and planning ( http://arxiv.org/abs/2101.00186v1 )

ライセンス: CC BY 4.0
Tianyu Wang, Vikas Dhiman, Nikolay Atanasov(参考訳) 本稿では,距離と意味カテゴリー観測を用いた自律ナビゲーションのための逆強化学習について述べる。 目的は、専門家の観察と状態制御の軌跡にのみ依存しながら、実証行動を説明するコスト関数を推論することである。 本研究では,観測シーケンスから意味カテゴリーの確率を推定するマップエンコーダと,その意味的特徴よりも深いニューラルネットワークとして定義されるコストエンコーダを開発した。 専門家のコストは直接観測できないため、モデルパラメータは、実証された制御とコスト推定から計算された制御ポリシーとの誤差を微分することでのみ最適化できる。 動き計画アルゴリズムを用いて,有望状態のサブセット上のみ計算された閉形式部分次数を用いて,誤差を最小化する新たなモデルを提案する。 提案手法は,学習行動を意味カテゴリーの新しい空間構成で新しい環境に一般化することを可能にする。 モデルの各コンポーネントをミニグリッド環境で分析します。 また,提案手法は,建物,歩道,道路レーンの意味的観測に依拠して,自動運転carlaシミュレータにおける交通ルールに従うことを学習できることを実証する。

This paper focuses on inverse reinforcement learning for autonomous navigation using distance and semantic category observations. The objective is to infer a cost function that explains demonstrated behavior while relying only on the expert's observations and state-control trajectory. We develop a map encoder, that infers semantic category probabilities from the observation sequence, and a cost encoder, defined as a deep neural network over the semantic features. Since the expert cost is not directly observable, the model parameters can only be optimized by differentiating the error between demonstrated controls and a control policy computed from the cost estimate. We propose a new model of expert behavior that enables error minimization using a closed-form subgradient computed only over a subset of promising states via a motion planning algorithm. Our approach allows generalizing the learned behavior to new environments with new spatial configurations of the semantic categories. We analyze the different components of our model in a minigrid environment. We also demonstrate that our approach learns to follow traffic rules in the autonomous driving CARLA simulator by relying on semantic observations of buildings, sidewalks, and road lanes.
翻訳日:2021-04-17 12:31:22 公開日:2021-01-01
# (参考訳) 残留ニューラルネットワークを用いた宇宙事象の残差検出 [全文訳有]

Detecting residues of cosmic events using residual neural network ( http://arxiv.org/abs/2101.00195v1 )

ライセンス: CC BY 4.0
Hrithika Dodia(参考訳) 重力波の検出は、この世紀で最も壮大な発見の1つと考えられている。 マッチングフィルタリングパイプラインの計算コストが高いため、代替の強力なシステムを探すことができる。 今回,1次元残留ニューラルネットワークを用いた重力波の検出を初めて行った。 残像ネットワークは、画像分類、顔認識、オブジェクト検出などの多くの分野を頑健な構造で変換している。 LIGO検出器の感度の向上により、宇宙の重力波の源がさらに多く検出されることを期待している。 しかし、ディープラーニングネットワークは一度だけトレーニングされる。 分類タスクに使用する場合、深いニューラルネットワークは一定の数のクラスだけを予測するように訓練される。 そのため、新しいタイプの重力波が検出されると、これは深層学習の欠点となる。 浅いニューラルネットワークは単純なパターンでデータを学ぶのに使えるが、データの複雑さが増すと良い結果が得られない。 新しいタイプのGWの検出でニューラルネットワークをリモデリングすることは、非常に不可能である。 本稿では,深層学習のための重力波検出における変化に対応するために必要な時間を削減する方法についても論じる。 主に、私は1次元時系列入力のためのカスタム残差ニューラルネットワークを作成し、クラスの数を増やしたり、データの複雑さを増大させることなく、データセットから大量の特徴を学習できるようにすることを目標としています。 LIGOにより検出された2種類の2種類の合体信号(Binary Black Hole MergerおよびBinary Neutron Star Merger信号)を用いて重力波検出における残留構造の性能を確認する。

The detection of gravitational waves is considered to be one of the most magnificent discoveries of the century. Due to the high computational cost of matched filtering pipeline, there is a hunt for an alternative powerful system. I present, for the first time, the use of 1D residual neural network for detection of gravitational waves. Residual networks have transformed many fields like image classification, face recognition and object detection with their robust structure. With increase in sensitivity of LIGO detectors we expect many more sources of gravitational waves in the universe to be detected. However, deep learning networks are trained only once. When used for classification task, deep neural networks are trained to predict only a fixed number of classes. Therefore, when a new type of gravitational wave is to be detected, this turns out to be a drawback of deep learning. Shallow neural networks can be used to learn data with simple patterns but fail to give good results with increase in complexity of data. Remodelling the neural network with detection of each new type of GW is highly infeasible. In this letter, I also discuss ways to reduce the time required to adapt to such changes in detection of gravitational waves for deep learning methods. Primarily, I aim to create a custom residual neural network for 1-dimensional time series inputs, which can learn a ton of features from dataset without giving up on increasing the number of classes or increasing the complexity of data. I use the two class of binary coalescence signals (Binary Black Hole Merger and Binary Neutron Star Merger signals) detected by LIGO to check the performance of residual structure on gravitational waves detection.
翻訳日:2021-04-17 12:06:27 公開日:2021-01-01
# (参考訳) BERTの解説を解説する:シーケンス分類を用いた実証的研究 [全文訳有]

On Explaining Your Explanations of BERT: An Empirical Study with Sequence Classification ( http://arxiv.org/abs/2101.00196v1 )

ライセンス: CC BY 4.0
Zhengxuan Wu, Desmond C. Ong(参考訳) BERTは、先進的な言語モデルの一つであり、微調整によってGLUEタスクにまたがる新しいベンチマークを作成することで、近年最も注目を集めている。 ひとつは、ブラックボックスを開き、BERTの意思決定を説明することだ。 BERTモデルを説明するためにいくつかの属性技術が提案されているが、しばしばシーケンスタスクに制限される。 本稿では,シーケンス分類タスクにおけるBERTの意思決定を説明するために,既存の属性手法を適用する。 感情分析の4つの異なるデータセットに適用することにより,既存の4つの帰属法を広範囲に分析する。 それぞれの手法の信頼性とロバスト性を様々なアブレーション研究により比較する。 さらに,帰属法が意味的に類似したタスクにまたがる一般的な意味論を説明するかどうかを検証した。 我々の研究は、下流分類タスクにおけるBERTの意思決定を説明するために属性手法を使用するための確固たるガイダンスを提供する。

BERT, as one of the pretrianed language models, attracts the most attention in recent years for creating new benchmarks across GLUE tasks via fine-tuning. One pressing issue is to open up the blackbox and explain the decision makings of BERT. A number of attribution techniques have been proposed to explain BERT models, but are often limited to sequence to sequence tasks. In this paper, we adapt existing attribution methods on explaining decision makings of BERT in sequence classification tasks. We conduct extensive analyses of four existing attribution methods by applying them to four different datasets in sentiment analysis. We compare the reliability and robustness of each method via various ablation studies. Furthermore, we test whether attribution methods explain generalized semantics across semantically similar tasks. Our work provides solid guidance for using attribution methods to explain decision makings of BERT for downstream classification tasks.
翻訳日:2021-04-17 12:01:10 公開日:2021-01-01
# (参考訳) 深層学習のための反復的K-FACアルゴリズム [全文訳有]

An iterative K-FAC algorithm for Deep Learning ( http://arxiv.org/abs/2101.00218v1 )

ライセンス: CC0 1.0
Yingshi Chen(参考訳) Kronecker-factored Approximate Curvature (K-FAC) 法は,ディープラーニングのための高効率2次最適化器である。 訓練時間はSGD(または他の一階法)よりも小さく、多くの大規模問題において同じ精度である。 k-fac の鍵はフィッシャー情報行列 (fim) をブロック対角行列として近似することであり、各ブロックは小さなクロネッカー因子の逆行列である。 本稿では,新しい反復K-FACアルゴリズムであるCG-FACを紹介する。 共役勾配法を用いて自然勾配を近似する。 このCG-FAC法は行列フリーであり、つまりFIM行列を生成する必要はなく、またKronecker因子AとGを生成する必要もない。

Kronecker-factored Approximate Curvature (K-FAC) method is a high efficiency second order optimizer for the deep learning. Its training time is less than SGD(or other first-order method) with same accuracy in many large-scale problems. The key of K-FAC is to approximates Fisher information matrix (FIM) as a block-diagonal matrix where each block is an inverse of tiny Kronecker factors. In this short note, we present CG-FAC -- an new iterative K-FAC algorithm. It uses conjugate gradient method to approximate the nature gradient. This CG-FAC method is matrix-free, that is, no need to generate the FIM matrix, also no need to generate the Kronecker factors A and G. We prove that the time and memory complexity of iterative CG-FAC is much less than that of standard K-FAC algorithm.
翻訳日:2021-04-17 11:39:15 公開日:2021-01-01
# (参考訳) キーフレーズ抽出・適用予測 [全文訳有]

Key Phrase Extraction & Applause Prediction ( http://arxiv.org/abs/2101.03235v1 )

ライセンス: CC BY 4.0
Krishna Yadav, Lakshya Choudhary(参考訳) インターネット上のコンテンツの可用性が高まるにつれ、注目されることは極めて困難である。 記事の影響に自信を持つために、作成に関するフィードバックを得るのは、ブログのライターにとって最優先事項となっている。 我々は機械学習モデルを訓練し、人気記事のスタイル、様々な単語埋め込みを用いたベクトル空間表現の形式、およびクラップとタグに基づく人気度を学習している。

With the increase in content availability over the internet it is very difficult to get noticed. It has become an upmost the priority of the blog writers to get some feedback over their creations to be confident about the impact of their article. We are training a machine learning model to learn popular article styles, in the form of vector space representations using various word embeddings, and their popularity based on claps and tags.
翻訳日:2021-04-17 11:34:04 公開日:2021-01-01
# (参考訳) Subformer: 生成変換器のパラメータ効率向上のためのウェイトシェアリング [全文訳有]

Subformer: Exploring Weight Sharing for Parameter Efficiency in Generative Transformers ( http://arxiv.org/abs/2101.00234v1 )

ライセンス: CC BY 4.0
Machel Reid, Edison Marrese-Taylor and Yutaka Matsuo(参考訳) トランスフォーマーの出現は、自然言語処理における最近の多くの進歩の原動力として説明できるだろう。 しかし、最近示されたように、大きな性能改善にもかかわらず、モデルはパラメータ非効率であり、訓練には計算コストがかかる。 事前学習された単語表現エンコーダにおけるパラメータ共有の成功に触発されて,ニューラルマシン翻訳などのシーケンス-シーケンスタスクのためのエンコーダ-デコーダモデルに注目し,トランスフォーマにおけるパラメータ共有手法について検討した。 本研究では,異なるパラメータ共有/還元法の解析を行い,新たに提案するサンドイッチ型パラメータ共有手法と自己着脱型埋め込み因子化(safe)を組み合わせた,パラメータ効率の高いトランスフォーマを開発した。 機械翻訳、抽象要約、言語モデリングの実験により、サブフォームは、非常に少ないパラメータを使用してもトランスフォーマーよりも優れることが示された。

The advent of the Transformer can arguably be described as a driving force behind many of the recent advances in natural language processing. However, despite their sizeable performance improvements, as recently shown, the model is severely over-parameterized, being parameter inefficient and computationally expensive to train. Inspired by the success of parameter-sharing in pretrained deep contextualized word representation encoders, we explore parameter-sharing methods in Transformers, with a specific focus on encoder-decoder models for sequence-to-sequence tasks such as neural machine translation. We perform an analysis of different parameter sharing/reduction methods and develop the Subformer, a parameter efficient Transformer-based model which combines the newly proposed Sandwich-style parameter sharing technique - designed to overcome the deficiencies in naive cross-layer parameter sharing for generative models - and self-attentive embedding factorization (SAFE). Experiments on machine translation, abstractive summarization, and language modeling show that the Subformer can outperform the Transformer even when using significantly fewer parameters.
翻訳日:2021-04-17 11:29:34 公開日:2021-01-01
# (参考訳) 無線ネットワークにおける情報鮮度のための効率的な学習ベーススケジューリング [全文訳有]

Efficient Learning-based Scheduling for Information Freshness in Wireless Networks ( http://arxiv.org/abs/2101.00257v1 )

ライセンス: CC BY 4.0
Bin Li(参考訳) 人工知能をIoT(Internet-of-Thin gs)に統合する最近のトレンドに触発されて、複数のセンサソースから無線ネットワーク上の中央コントローラにパケットをスケジューリングする問題を考える。 ここで、異なるセンシングソースからのパケットは、インテリジェントな意思決定のための中央コントローラの値や重要性が異なる。 このような設定では、中央のコントローラにタイムリーで価値のある情報を提供することが重要です。 本稿では,AoI 測定値とアッパー信頼境界(UCB)推定値をパラメータ $\eta$ と組み合わせたパラメータ化最大重み型スケジューリングポリシーを開発する。 ここでは、UCBの推定は、学習における探索と搾取の間のトレードオフをバランスさせ、最小限の累積的後悔をもたらすために重要である。 提案アルゴリズムは,最大実行平均総年齢が$O(N^2\eta)$であることを示す。 また,提案アルゴリズムは時間的地平線上での累積後悔を$O(NT/\eta+\sqrt{NT\log T})$で証明する。 これは累積的後悔とランニング平均総年齢とのトレードオフを示している: $\eta$ を増加させると累積的後悔は小さくなるが、平均総年齢を増加させるコストになる。 提案アルゴリズムの効率を評価するためのシミュレーション結果を提供する。

Motivated by the recent trend of integrating artificial intelligence into the Internet-of-Things (IoT), we consider the problem of scheduling packets from multiple sensing sources to a central controller over a wireless network. Here, packets from different sensing sources have different values or degrees of importance to the central controller for intelligent decision making. In such a setup, it is critical to provide timely and valuable information for the central controller. In this paper, we develop a parameterized maximum-weight type scheduling policy that combines both the AoI metrics and Upper Confidence Bound (UCB) estimates in its weight measure with parameter $\eta$. Here, UCB estimates balance the tradeoff between exploration and exploitation in learning and are critical for yielding a small cumulative regret. We show that our proposed algorithm yields the running average total age at most by $O(N^2\eta)$. We also prove that our proposed algorithm achieves the cumulative regret over time horizon $T$ at most by $O(NT/\eta+\sqrt{NT\log T})$. This reveals a tradeoff between the cumulative regret and the running average total age: when increasing $\eta$, the cumulative regret becomes smaller, but is at the cost of increasing running average total age. Simulation results are provided to evaluate the efficiency of our proposed algorithm.
翻訳日:2021-04-17 11:12:00 公開日:2021-01-01
# (参考訳) 再発状況を表現するためのオントロジーデザインパターン [全文訳有]

An Ontology Design Pattern for representing Recurrent Situations ( http://arxiv.org/abs/2101.00286v1 )

ライセンス: CC BY 4.0
Valentina Anita Carriero, Aldo Gangemi, Andrea Giovanni Nuzzolese, Valentina Presutti(参考訳) 本稿では,一定の期間に繰り返し発生する状況を表現するためのオントロジーデザインパターンを提案し,不変な要因を共有し,それらを概念的に統一する。 提案したパターンは、不変性に厳密に関連するトップレベルのドメインに依存しない再帰の概念をモデル化するために一般化できるため、基本的なものと思われる。 このパターンは、コレクション、説明、状況、分類、シーケンスといった他の基本的なパターンを再利用する。 実際、リカレント・シチュエーション・シリーズは、時間とともに定期的に発生し、すべてのメンバーに共通する性質に従って統一された状況の集合として形式化され、参照記述を満足するメンバーにリレーショナル・コンテクストを提供する状況そのものを提供する。 このパターンの例を含むとともに、イタリア文化遺産のナレッジグラフであるarcoで繰り返される文化行事や儀式をモデル化するために、どのように実装され、専門化されたかを示す。

In this paper, we present an Ontology Design Pattern for representing situations that recur at regular periods and share some invariant factors, which unify them conceptually: we refer to this set of recurring situations as recurrent situation series. The proposed pattern appears to be foundational, since it can be generalised for modelling the top-level domain-independent concept of recurrence, which is strictly associated with invariance. The pattern reuses other foundational patterns such as Collection, Description and Situation, Classification, Sequence. Indeed, a recurrent situation series is formalised as both a collection of situations occurring regularly over time and unified according to some properties that are common to all the members, and a situation itself, which provides a relational context to its members that satisfy a reference description. Besides including some exemplifying instances of this pattern, we show how it has been implemented and specialised to model recurrent cultural events and ceremonies in ArCo, the Knowledge Graph of Italian cultural heritage.
翻訳日:2021-04-17 10:51:30 公開日:2021-01-01
# (参考訳) イラン:farsiライセンスプレート文字の大規模データセット [全文訳有]

Iranis: A Large-scale Dataset of Farsi License Plate Characters ( http://arxiv.org/abs/2101.00295v1 )

ライセンス: CC BY 4.0
Ali Tourani, Sajjad Soroori, Asadollah Shahbahrami, and Alireza Akoushideh(参考訳) 大量のデータを提供することは、ディープニューラルネットワーク(DNN)を扱う場合の基本的要求である。 コンピュータビジョン問題を解決するためにこれらのアルゴリズムを用いると、畳み込みニューラルネットワーク(cnns)として知られる最も一般的な視覚画像深層構造を供給するための様々な画像データセットが出現した。 この点に関して、ライセンスプレートの検出と光学的文字認識のために、数百から数千の画像を含むデータセットがある。 しかしながら、自動車ナンバープレートで使用されるFarsi文字の認識のために、一般に利用可能な画像データセットは提供されていない。 このギャップを埋めるには、法執行や監視目的で正確なディープラーニングベースのシステムを開発する多くの利点がある。 本稿ではイランの自動車ナンバープレートで使用される数字と文字の画像を含む大規模データセットを提案する。 イラン名のこのデータセットには、Farsiの数字と、さまざまなカメラが捉えた現実世界のナンバープレート画像から集めた文字が83,000枚以上含まれている。 カメラの撮影角度、照明、解像度、コントラストといった点では、データセットはdnnのトレーニングに適した選択となる。 オブジェクト検出と画像分類のためにデータセットイメージを手動で注釈付けする。 最後に,Farsi文字認識のためのベースラインを構築するために,YOLO v.3オブジェクト検出器を用いた性能解析を行った。

Providing huge amounts of data is a fundamental demand when dealing with Deep Neural Networks (DNNs). Employing these algorithms to solve computer vision problems resulted in the advent of various image datasets to feed the most common visual imagery deep structures, known as Convolutional Neural Networks (CNNs). In this regard, some datasets can be found that contain hundreds or even thousands of images for license plate detection and optical character recognition purposes. However, no publicly available image dataset provides such data for the recognition of Farsi characters used in car license plates. The gap has to be filled due to the numerous advantages of developing accurate deep learning-based systems for law enforcement and surveillance purposes. This paper introduces a large-scale dataset that includes images of numbers and characters used in Iranian car license plates. The dataset, named Iranis, contains more than 83,000 images of Farsi numbers and letters collected from real-world license plate images captured by various cameras. The variety of instances in terms of camera shooting angle, illumination, resolution, and contrast make the dataset a proper choice for training DNNs. Dataset images are manually annotated for object detection and image classification. Finally, and to build a baseline for Farsi character recognition, the paper provides a performance analysis using a YOLO v.3 object detector.
翻訳日:2021-04-17 10:35:28 公開日:2021-01-01
# (参考訳) 少数の共通センス知識モデルを理解する [全文訳有]

Understanding Few-Shot Commonsense Knowledge Models ( http://arxiv.org/abs/2101.00297v1 )

ライセンス: CC BY 4.0
Jeff Da, Ronan Le Bras, Ximing Lu, Yejin Choi, Antoine Bosselut(参考訳) 自然言語処理システムと常識知識を提供することは、言語理解を達成するための重要な課題である。 近年,自然言語応用における状況対応型コモンセンス知識をオンデマンドで仮定するための適切なアプローチとして,コモンセンス知識モデルが登場している。 しかしながら、これらのシステムは、トレーニング対象の知識ベースのスキーマによってキャプチャされる一定の関係によって制限される。 この制限に対処するために、グラフ内のコモンセンス関係に限定的なタプルを持つ数ショット設定でコモンセンス知識モデルを訓練する。 我々は,コモンセンス知識学習の異なる次元に関する5つの異なる研究を行い,これらのシステムを効率的に訓練するためのベストプラクティスのロードマップを提供する。 重要となるのは、数発訓練されたシステムから得られた知識に対する人間品質評価が、完全に監督されたシステムから得られた知識の6%以内に性能を達成できることである。 このわずかな性能により、将来のコモンセンスシステムにおける幅広い関係をカバーできる。

Providing natural language processing systems with commonsense knowledge is a critical challenge for achieving language understanding. Recently, commonsense knowledge models have emerged as a suitable approach for hypothesizing situation-relevant commonsense knowledge on-demand in natural language applications. However, these systems are limited by the fixed set of relations captured by schemas of the knowledge bases on which they're trained. To address this limitation, we investigate training commonsense knowledge models in a few-shot setting with limited tuples per commonsense relation in the graph. We perform five separate studies on different dimensions of few-shot commonsense knowledge learning, providing a roadmap on best practices for training these systems efficiently. Importantly, we find that human quality ratings for knowledge produced from a few-shot trained system can achieve performance within 6% of knowledge produced from fully supervised systems. This few-shot performance enables coverage of a wide breadth of relations in future commonsense systems.
翻訳日:2021-04-17 10:27:41 公開日:2021-01-01
# (参考訳) 教師なしドメイン適応のためのエネルギー制約付き自己学習 [全文訳有]

Energy-constrained Self-training for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2101.00316v1 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Bo Hu, Xiongchang Liu, Jun Lu, Jane You, Lingsheng Kong(参考訳) unsupervised domain adaptation(uda)は、ラベル付きソースドメインディストリビューションの知識を、ラベルなしのターゲットドメインでうまく実行するように転送することを目的としている。 近年、深層自己学習は、対象領域を予測し、自信のある予測をトレーニングの硬い擬似ラベルとして取り込む反復的なプロセスを含む。 しかし、擬似ラベルは通常信頼性が低く、伝播エラーを伴う解が容易に導かれる。 本稿では, エネルギーに基づくモデルを用いて, エネルギー関数最小化を目的とし, ラベルなし対象試料の訓練を制約する。 単純な追加正則化として適用することができる。 この枠組みでは,プラグアンドプレイ方式に則って強力な識別性能を維持しつつ,エネルギーベースモデルの利点を得ることができる。 画像分類の最もポピュラーで大規模なUDAベンチマークとセマンティックセグメンテーションに関する広範な実験を行い、その一般化と有効性を示す。

Unsupervised domain adaptation (UDA) aims to transfer the knowledge on a labeled source domain distribution to perform well on an unlabeled target domain. Recently, the deep self-training involves an iterative process of predicting on the target domain and then taking the confident predictions as hard pseudo-labels for retraining. However, the pseudo-labels are usually unreliable, and easily leading to deviated solutions with propagated errors. In this paper, we resort to the energy-based model and constrain the training of the unlabeled target sample with the energy function minimization objective. It can be applied as a simple additional regularization. In this framework, it is possible to gain the benefits of the energy-based model, while retaining strong discriminative performance following a plug-and-play fashion. We deliver extensive experiments on the most popular and large scale UDA benchmarks of image classification as well as semantic segmentation to demonstrate its generality and effectiveness.
翻訳日:2021-04-17 10:12:13 公開日:2021-01-01
# (参考訳) 組合せ多腕バンディットによるニューラルアーキテクチャ探索 [全文訳有]

Neural Architecture Search via Combinatorial Multi-Armed Bandit ( http://arxiv.org/abs/2101.00336v1 )

ライセンス: CC BY 4.0
Hanxun Huang, Xingjun Ma, Sarah M. Erfani, James Bailey(参考訳) ニューラルネットワーク(NAS)は、高性能ディープニューラルネットワーク(DNN)を設計するための効果的なツールとして、大きな人気を集めている。 nasは、ポリシー勾配、進化アルゴリズム、微分可能なアーキテクチャ検索、ツリー検索メソッドを通じて実行することができる。 ポリシグラデーションと微分可能なアーキテクチャ検索の両面で大きな進歩があったが、ツリー検索手法はこれまでのところ、同等の精度や探索効率を達成できなかった。 本稿では、NASをCMAB問題(CMAB-NAS)として定式化する。 これにより、大きな探索空間を小さなブロックに分解し、ツリー探索法をより効果的かつ効率的に適用することができる。 我々はさらにNested Monte-Carlo Searchと呼ばれる木に基づく手法を利用してCMAB-NAS問題に取り組む。 CIFAR-10では,従来の木探索法よりも20倍高速な0.58 GPU日で,最先端技術に匹敵する低エラー率を実現するセル構造を探索する。 さらに、発見された構造はImageNetのような大規模データセットによく転送される。

Neural Architecture Search (NAS) has gained significant popularity as an effective tool for designing high performance deep neural networks (DNNs). NAS can be performed via policy gradient, evolutionary algorithms, differentiable architecture search or tree-search methods. While significant progress has been made for both policy gradient and differentiable architecture search, tree-search methods have so far failed to achieve comparable accuracy or search efficiency. In this paper, we formulate NAS as a Combinatorial Multi-Armed Bandit (CMAB) problem (CMAB-NAS). This allows the decomposition of a large search space into smaller blocks where tree-search methods can be applied more effectively and efficiently. We further leverage a tree-based method called Nested Monte-Carlo Search to tackle the CMAB-NAS problem. On CIFAR-10, our approach discovers a cell structure that achieves a low error rate that is comparable to the state-of-the-art, using only 0.58 GPU days, which is 20 times faster than current tree-search methods. Moreover, the discovered structure transfers well to large-scale datasets such as ImageNet.
翻訳日:2021-04-16 13:22:45 公開日:2021-01-01
# (参考訳) RTKを用いたドローン画像の視点投影を用いた果実検出とジオレファレンスを組み合わせた人工知能システム [全文訳有]

An Artificial Intelligence System for Combined Fruit Detection and Georeferencing, Using RTK-Based Perspective Projection in Drone Imagery ( http://arxiv.org/abs/2101.00339v1 )

ライセンス: CC BY 4.0
Angus Baird and Stefano Giani(参考訳) この研究は、高速領域ベースの畳み込みニューラルネットワーク(Faster R-CNN)フレームワークに基づく人工知能(AI)システムを提示し、巨大な商業用果樹園の斜めのドローン画像からリンゴを検出し、数える。 計算コストを低減するため、ネットワークの新たな前駆的段階は、個々の木の切り抜き画像に生画像を前処理するように設計されている。 ユニークな地理空間識別子は、遠近法投影モデルを用いてこれらに割り当てられる。 これは、リアルタイムキネマティック(rtk)データ、デジタル地形および表面モデル(dtmおよびdsm)、および内部および外部カメラパラメータを使用している。 しかし、多くの実験は検出ネットワーク自体のハイパーパラメータのチューニングに焦点を当てている。 木の上にあるりんごと地面にあるりんごは別個のクラスとして扱われる。 2つのクラスの大きさで校正された平均平均精度(map)メトリックは、散発的な結果を緩和するために考案された。 アンカーボックスのデザインはリンゴの大きさのために重要な関心事である。 したがって、より高速なR-CNNの文献に見ることのないk平均クラスタリングアプローチは、校正されたmAPの最も重要な改善をもたらした。 他の実験では、ボックス提案の最大数は225であり、適応的なRMS Propオプティマイザには0.001の学習率が最も適しており、ResNet 101 は mAP を考慮した場合の理想的な基本特徴抽出器である。 最適なハイパーパラメータのアマルガメーションは、校正されたmAPの0.7627のモデルにつながる。

This work presents an Artificial Intelligence (AI) system, based on the Faster Region-Based Convolution Neural Network (Faster R-CNN) framework, which detects and counts apples from oblique, aerial drone imagery of giant commercial orchards. To reduce computational cost, a novel precursory stage to the network is designed to preprocess raw imagery into cropped images of individual trees. Unique geospatial identifiers are allocated to these using the perspective projection model. This employs Real-Time Kinematic (RTK) data, Digital Terrain and Surface Models (DTM and DSM), as well as internal and external camera parameters. The bulk of experiments however focus on tuning hyperparameters in the detection network itself. Apples which are on trees and apples which are on the ground are treated as separate classes. A mean Average Precision (mAP) metric, calibrated by the size of the two classes, is devised to mitigate spurious results. Anchor box design is of key interest due to the scale of the apples. As such, a k-means clustering approach, never before seen in literature for Faster R-CNN, resulted in the most significant improvements to calibrated mAP. Other experiments showed that the maximum number of box proposals should be 225; the initial learning rate of 0.001 is best applied to the adaptive RMS Prop optimiser; and ResNet 101 is the ideal base feature extractor when considering mAP and, to a lesser extent, inference time. The amalgamation of the optimal hyperparameters leads to a model with a calibrated mAP of 0.7627.
翻訳日:2021-04-16 11:47:46 公開日:2021-01-01
# dvd:ビデオ接地対話における多段階推論のための診断データセット

DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue ( http://arxiv.org/abs/2101.00151v1 )

ライセンス: Link先を確認
Hung Le and Chinnadhurai Sankar and Seungwhan Moon and Ahmad Beirami and Alborz Geramifard and Satwik Kottur(参考訳) ビデオ接地対話システムは、ターンからターンまでの意味的依存関係を含む対話と、空間的および時間的シーンのバリエーションの視覚的な手がかりを含むビデオの両方を理解するために必要である。 このような対話システムの構築は、複雑なマルチモーダルおよび時間入力を伴う困難な問題であり、それらを独立して研究することは、既存のデータセットでは困難である。 既存のベンチマークは、対話システムを分析し、言語的および視覚的推論能力と孤立した制限を理解するのに十分なアノテーションを持っていない。 これらのベンチマークは、モデルが実際の推論なしで活用できるバイアスを最小限にするために設計されたものではない。 本稿では,これらの制約に対処するために,ビデオや対話で様々な推論能力をテストする診断データセットを提案する。 データセットは最小限のバイアスを含むように設計されており、クロスターンビデオインターバルトラッキングや対話オブジェクトトラッキングなど、各質問のさまざまなタイプの推論に関する詳細なアノテーションを備えている。 当社のデータセットを使用して、いくつかの対話システムアプローチを分析し、その能力と限界に関する興味深い洞察を提供します。 合計すると、データセットには$sim11k$の合成ビデオごとに10ドルの円の対話のインスタンスが含まれており、結果として$100k$の対話と$1m$の質問と回答のペアがある。 コードとデータセットは公開されます。

A video-grounded dialogue system is required to understand both dialogue, which contains semantic dependencies from turn to turn, and video, which contains visual cues of spatial and temporal scene variations. Building such dialogue systems is a challenging problem involving complex multimodal and temporal inputs, and studying them independently is hard with existing datasets. Existing benchmarks do not have enough annotations to help analyze dialogue systems and understand their linguistic and visual reasoning capability and limitations in isolation. These benchmarks are also not explicitly designed to minimize biases that models can exploit without actual reasoning. To address these limitations, in this paper, we present a diagnostic dataset that can test a range of reasoning abilities on videos and dialogues. The dataset is designed to contain minimal biases and has detailed annotations for the different types of reasoning each question requires, including cross-turn video interval tracking and dialogue object tracking. We use our dataset to analyze several dialogue system approaches, providing interesting insights into their abilities and limitations. In total, the dataset contains $10$ instances of $10$-round dialogues for each of $\sim11k$ synthetic videos, resulting in more than $100k$ dialogues and $1M$ question-answer pairs. Our code and dataset will be made public.
翻訳日:2021-04-16 11:17:29 公開日:2021-01-01
# VisualSparta: 大規模テキスト画像検索のためのスパーストランスフォーマーフラグメントレベルマッチング

VisualSparta: Sparse Transformer Fragment-level Matching for Large-scale Text-to-Image Search ( http://arxiv.org/abs/2101.00265v1 )

ライセンス: Link先を確認
Xiaopeng Lu, Tiancheng Zhao, Kyusong Lee(参考訳) テキストから画像への検索は,マルチモーダル情報検索において不可欠な課題である。 テキストクエリによって、大きくてラベルのない画像データセットから関連画像を取得する。 本稿では,既存のモデルよりも精度と効率の両面で大幅に改善したテキストから画像への新たな検索モデル visualsparta を提案する。 我々は visualsparta が mscoco と flickr30k で従来のスケーラブルな手法を上回ることができることを示した。 また、速度が大幅に向上している。 100万イメージのインデックスの場合、VisualSpartaは標準的なベクターサーチに比べて391倍高速になる。 実験によれば、visualspartaは逆インデックスとして効率的に実装できるため、大きなデータセットではこのスピードの利点が大きくなる。 私たちの知る限りでは、VisualSpartaはトランスフォーマーベースのテキスト画像検索モデルとしては初めてのもので、非常に大きなデータセットをリアルタイムに検索できる。

Text-to-image retrieval is an essential task in multi-modal information retrieval, i.e. retrieving relevant images from a large and unlabelled image dataset given textual queries. In this paper, we propose VisualSparta, a novel text-to-image retrieval model that shows substantial improvement over existing models on both accuracy and efficiency. We show that VisualSparta is capable of outperforming all previous scalable methods in MSCOCO and Flickr30K. It also shows substantial retrieving speed advantages, i.e. for an index with 1 million images, VisualSparta gets over 391x speed up compared to standard vector search. Experiments show that this speed advantage even gets bigger for larger datasets because VisualSparta can be efficiently implemented as an inverted index. To the best of our knowledge, VisualSparta is the first transformer-based text-to-image retrieval model that can achieve real-time searching for very large dataset, with significant accuracy improvement compared to previous state-of-the-art methods.
翻訳日:2021-04-16 11:17:04 公開日:2021-01-01
# 一般化強化学習はいつ達成可能か?

When Is Generalizable Reinforcement Learning Tractable? ( http://arxiv.org/abs/2101.00300v1 )

ライセンス: Link先を確認
Dhruv Malik, Yuanzhi Li, Pradeep Ravikumar(参考訳) 強化学習(RL)によって訓練されたエージェントは、トレーニング環境と非常によく似た新しいシナリオを提示しても、訓練された環境を超えた一般化に失敗することが多い。 複数の環境に一般化可能なRLエージェントの訓練に必要なクエリ複雑性について検討する。 直感的には、扱いやすい一般化は、ある意味で環境が似ているか近い場合にのみ可能である。 そこで本稿では,環境の相対的近さを正確に特徴付ける構造条件である強近接について述べる。 我々はStrong Proximityを利用して効率よく一般化するアルゴリズムを提案する。 また、Weak Proximity と呼ぶこの条件の自然な弱化の下では、RL は水平線上で指数関数的なクエリ複雑性を必要とする。 我々の理論の重要な結果は、環境が最適軌跡を共有していても(古典的計量によって測られるように)非常に類似した報酬や遷移関数を持つとしても、トラクタブルな一般化は不可能であるということである。

Agents trained by reinforcement learning (RL) often fail to generalize beyond the environment they were trained in, even when presented with new scenarios that seem very similar to the training environment. We study the query complexity required to train RL agents that can generalize to multiple environments. Intuitively, tractable generalization is only possible when the environments are similar or close in some sense. To capture this, we introduce Strong Proximity, a structural condition which precisely characterizes the relative closeness of different environments. We provide an algorithm which exploits Strong Proximity to provably and efficiently generalize. We also show that under a natural weakening of this condition, which we call Weak Proximity, RL can require query complexity that is exponential in the horizon to generalize. A key consequence of our theory is that even when the environments share optimal trajectories, and have highly similar reward and transition functions (as measured by classical metrics), tractable generalization is impossible.
翻訳日:2021-04-16 11:16:50 公開日:2021-01-01
# B-SMALL:Sparse Model-Agnostic Meta-Learningに対するベイズニューラルネットワークアプローチ

B-SMALL: A Bayesian Neural Network approach to Sparse Model-Agnostic Meta-Learning ( http://arxiv.org/abs/2101.00203v1 )

ライセンス: Link先を確認
Anish Madan, Ranjitha Prasad(参考訳) モデルがいくつかのトレーニング例を使って新しいタスクを推論するメタラーニング(meta-learning)としても知られる、学習から学習へのパラダイムへの関心が高まっている。 近年,メタラーニングに基づく手法は,ショット分類,回帰,強化学習,ドメイン適応に広く用いられている。 モデル非依存型メタラーニング(MAML)アルゴリズムは、メタトレーニングフェーズにおけるモデルパラメータの初期化を求めるよく知られたアルゴリズムである。 メタテストフェーズでは、この初期化は勾配降下を用いて新しいタスクに迅速に適応する。 しかし、トレーニングタスクが不十分なため、未熟なタスクの一般化性能が劣る過剰パラメータモデルが発生するため、メタ学習モデルは過度に適合しがちである。 本稿では,b-smallアルゴリズムと呼ぶベイズ型ニューラルネットワークに基づくmamlアルゴリズムを提案する。 提案手法は,スパース化近似kl発散を正規化器として用いるmamlの損失関数と並行して,ばらばらな変動損失項を組み込んだものである。 分類タスクと回帰タスクを用いてB-MAMLの性能を実証し、MAMLを用いたスパーシフィケーションBNNのトレーニングは、MAMLアプローチを同等に、あるいはより優れた性能で実行しながら、モデルのパラメータフットプリントを改善することを強調した。 また、分散センサネットワークにおける我々のアプローチの適用性についても説明します。

There is a growing interest in the learning-to-learn paradigm, also known as meta-learning, where models infer on new tasks using a few training examples. Recently, meta-learning based methods have been widely used in few-shot classification, regression, reinforcement learning, and domain adaptation. The model-agnostic meta-learning (MAML) algorithm is a well-known algorithm that obtains model parameter initialization at meta-training phase. In the meta-test phase, this initialization is rapidly adapted to new tasks by using gradient descent. However, meta-learning models are prone to overfitting since there are insufficient training tasks resulting in over-parameterized models with poor generalization performance for unseen tasks. In this paper, we propose a Bayesian neural network based MAML algorithm, which we refer to as the B-SMALL algorithm. The proposed framework incorporates a sparse variational loss term alongside the loss function of MAML, which uses a sparsifying approximated KL divergence as a regularizer. We demonstrate the performance of B-MAML using classification and regression tasks, and highlight that training a sparsifying BNN using MAML indeed improves the parameter footprint of the model while performing at par or even outperforming the MAML approach. We also illustrate applicability of our approach in distributed sensor networks, where sparsity and meta-learning can be beneficial.
翻訳日:2021-04-16 11:16:32 公開日:2021-01-01
# テンソルネットワークのベイズ法

The Bayesian Method of Tensor Networks ( http://arxiv.org/abs/2101.00245v1 )

ライセンス: Link先を確認
Erdong Guo and David Draper(参考訳) ベイズ学習は、推論と予測において論理的に一貫した方法で、データ(背景情報)の外部情報と内部情報(トレーニングデータ)を結合する強力な学習フレームワークである。 ベイズ則により、外部情報(プライオリ分布)と内部情報(トレーニングデータ確率)とをコヒーレントに結合し、ベイズ規則により得られた後方分布と後方予測(マージ)分布とをそれぞれ推測および予測に必要な総情報を要約する。 本稿では,2つの視点からテンソルネットワークのベイズ枠組みについて考察する。 まず,テンソルネットワーク内の重みに対する事前分布を導入し,後進予測(マージナル分布)により新しい観測値のラベルを予測した。 正規化定数計算におけるパラメータ積分の難解性から,ラプラス近似による後方予測分布を近似し,テンソルネットワークモデルの後方分布のヘッセン行列の積近似を求める。 第2に、定常モードのパラメータを推定するために、テンソルネットワークが定常経路により効率的に収束し、勾配降下法で安定に収束できる推論過程を高速化する安定した初期化手法を提案する。 MNIST, Phishing Website, Breast Cancer データセットの検証を行った。 本研究では,2次元合成データセットのモデルパラメータと決定境界を可視化し,ベイズテンソルネットワークのベイズ的特性について検討する。 アプリケーションの目的は、通常のTensor Networkモデルの過剰適合を低減し、パフォーマンスを向上させることである。

Bayesian learning is a powerful learning framework which combines the external information of the data (background information) with the internal information (training data) in a logically consistent way in inference and prediction. By Bayes rule, the external information (prior distribution) and the internal information (training data likelihood) are combined coherently, and the posterior distribution and the posterior predictive (marginal) distribution obtained by Bayes rule summarize the total information needed in the inference and prediction, respectively. In this paper, we study the Bayesian framework of the Tensor Network from two perspective. First, we introduce the prior distribution to the weights in the Tensor Network and predict the labels of the new observations by the posterior predictive (marginal) distribution. Since the intractability of the parameter integral in the normalization constant computation, we approximate the posterior predictive distribution by Laplace approximation and obtain the out-product approximation of the hessian matrix of the posterior distribution of the Tensor Network model. Second, to estimate the parameters of the stationary mode, we propose a stable initialization trick to accelerate the inference process by which the Tensor Network can converge to the stationary path more efficiently and stably with gradient descent method. We verify our work on the MNIST, Phishing Website and Breast Cancer data set. We study the Bayesian properties of the Bayesian Tensor Network by visualizing the parameters of the model and the decision boundaries in the two dimensional synthetic data set. For a application purpose, our work can reduce the overfitting and improve the performance of normal Tensor Network model.
翻訳日:2021-04-16 11:16:02 公開日:2021-01-01
# UnitedQA: Open Domain Question Answeringのハイブリッドアプローチ

UnitedQA: A Hybrid Approach for Open Domain Question Answering ( http://arxiv.org/abs/2101.00178v1 )

ライセンス: Link先を確認
Hao Cheng, Yelong Shen, Xiaodong Liu, Pengcheng He, Weizhu Chen, Jianfeng Gao(参考訳) 現在までに、オープンドメインQAのための検索-読み取りフレームワークにおける最近の研究のほとんどは、抽出または生成の読者のみに焦点を当てている。 本稿では,両モデルの強みを利用するためのハイブリッドアプローチについて検討する。 最近の訓練済みのニューラル言語モデルに基づく抽出型と生成型の両方の読取力を高めるために,新しい手法を適用し,適切なトレーニング手法が従来の最先端モデルよりも大きな改善をもたらすことを見出した。 両読者の回答を組み合わせた単純なハイブリッドアプローチは,抽出的および生成的回答推論戦略の利点を効果的に活用し,一様アンサンブルだけでなく単一モデルよりも優れていることを示す。 提案手法は,NaturalQuestions と TriviaQA の正確なマッチングにおいて,従来の最先端モデルよりも3.3ポイント,2.7ポイント向上する。

To date, most of recent work under the retrieval-reader framework for open-domain QA focuses on either extractive or generative reader exclusively. In this paper, we study a hybrid approach for leveraging the strengths of both models. We apply novel techniques to enhance both extractive and generative readers built upon recent pretrained neural language models, and find that proper training methods can provide large improvement over previous state-of-the-art models. We demonstrate that a simple hybrid approach by combining answers from both readers can efficiently take advantages of extractive and generative answer inference strategies and outperforms single models as well as homogeneous ensembles. Our approach outperforms previous state-of-the-art models by 3.3 and 2.7 points in exact match on NaturalQuestions and TriviaQA respectively.
翻訳日:2021-04-16 11:15:13 公開日:2021-01-01
# 先行的・単言語データの少ないセマンティックパーシング

Semantic Parsing with Less Prior and More Monolingual Data ( http://arxiv.org/abs/2101.00259v1 )

ライセンス: Link先を確認
Sajad Norouzi, Yanshuai Cao(参考訳) 意味解析は、自然言語の発話を論理形式やプログラミング言語などの機械理解可能な意味表現に変換するタスクである。 意味解析のためのトレーニングデータセットは通常、他のほとんどのNLPタスクよりもアノテーションに必要な高度な専門知識のために小さい。 結果として、このアプリケーションのモデルは通常、アーキテクチャやアルゴリズムに組み込まれる追加の事前知識を必要とします。 人間の専門家への依存が増加すると、自動化が妨げられ、実際に開発とメンテナンスのコストが高まる。 本研究は, 汎用トランスフォーマベースのseq2seqモデルが, 最小限のセマンティクスパース設計で競合性能を達成することができるかを検討するものである。 目的とするプログラミング言語の比較的大きな単言語コーパスを利用すると、並列コーパスとは異なり、djangoでは80.75%、conalaでは32.57 bleuスコアを達成し、どちらも最高の知識に対するsomaである。 この肯定的な証拠は、野生で正確なセマンティックパーサーを構築するための、潜在的に簡単な道のりを示している。

Semantic parsing is the task of converting natural language utterances to machine-understandab le meaning representations, such as logic forms or programming languages. Training datasets for semantic parsing are typically small due to the higher expertise required for annotation than most other NLP tasks. As a result, models for this application usually require additional prior knowledge to be built into the architecture or algorithm. The increased dependency on human experts hinders automation and raises the development and maintenance costs in practice. This work investigates whether a generic transformer-based seq2seq model can achieve competitive performance with minimal semantic-parsing specific inductive bias design. By exploiting a relatively large monolingual corpus of the target programming language, which is cheap to mine from the web, unlike a parallel corpus, we achieved 80.75% exact match accuracy on Django and 32.57 BLEU score on CoNaLa, both are SOTA to the best of our knowledge. This positive evidence highlights a potentially easier path toward building accurate semantic parsers in the wild.
翻訳日:2021-04-16 11:15:00 公開日:2021-01-01
# オープンドメイン質問応答のための読者案内パスリランキング

Reader-Guided Passage Reranking for Open-Domain Question Answering ( http://arxiv.org/abs/2101.00294v1 )

ライセンス: Link先を確認
Yuning Mao, Pengcheng He, Xiaodong Liu, Yelong Shen, Jianfeng Gao, Jiawei Han, Weizhu Chen(参考訳) 現在のオープンドメイン質問応答 (QA) システムはRetriever-Reader (R2) アーキテクチャに従うことが多い。 本稿では,学習を含まず,読み手のトップ予測のみに基づいて検索された文章を再ランク付けする,読み手案内リランクカー(rider)という,簡便で効果的なパスランク付け手法を提案する。 我々は,Riderが単純であるにもかかわらず,トップ1検索精度で10~20の絶対ゲインを達成し,レシーバやリーダを書き換えることなく1~4のエクサクトマッチ(EM)スコアを得られることを示す。 特に、読者入力として1,024個のトークン(平均7.8個のパス)を使用する場合、riderは自然質問データセットで48.3 em、triviaqaデータセットで66.4 emを達成する。

Current open-domain question answering (QA) systems often follow a Retriever-Reader (R2) architecture, where the retriever first retrieves relevant passages and the reader then reads the retrieved passages to form an answer. In this paper, we propose a simple and effective passage reranking method, Reader-guIDEd Reranker (Rider), which does not involve any training and reranks the retrieved passages solely based on the top predictions of the reader before reranking. We show that Rider, despite its simplicity, achieves 10 to 20 absolute gains in top-1 retrieval accuracy and 1 to 4 Exact Match (EM) score gains without refining the retriever or reader. In particular, Rider achieves 48.3 EM on the Natural Questions dataset and 66.4 on the TriviaQA dataset when only 1,024 tokens (7.8 passages on average) are used as the reader input.
翻訳日:2021-04-16 11:14:44 公開日:2021-01-01
# ハイパースペクトル画像の空間スペクトル特徴を用いたハイブリッドMLP-SVMによる分類

A Hybrid MLP-SVM Model for Classification using Spatial-Spectral Features on Hyper-Spectral Images ( http://arxiv.org/abs/2101.00214v1 )

ライセンス: Link先を確認
Ginni Garg, Dheeraj Kumar, ArvinderPal, Yash Sonker, Ritu Garg(参考訳) 超スペクトル画像の分類には、大きな次元性、ラベル付きデータの不足、スペクトルシグネチャの空間的変動など、多くの課題がある。 本研究では,多層パーセプトロン(MLP)とサポートベクターマシン(SVM)を用いたハイブリッド分類器(MLP-SVM)を作成し,精度,精度,リコール,fスコアなどの様々な分類パラメータの改善と,その領域の真偽を予測することを目的とした。 提案手法では,ニューラルネットオークの最後の隠れ層からの出力がSVMの入力となり,最終的に様々なクラスに分類される。 本研究では,NASAジェット推進研究所のAVIRISとROSISセンサーによる16,9,16クラス,200,103,204リフレクタンスバンドを用いたインドパインズ,U.パヴィア,サリナスのデータセットについて検討した。 提案手法は、試験データセットの精度を、それぞれインドパインズ、U. Pavia、Salinasの各データセットのSVMおよびMLPに基づいて、86.97%、88.58%、88.85%、91.61%、96.20%、90.68%に向上させた。

There are many challenges in the classification of hyper spectral images such as large dimensionality, scarcity of labeled data and spatial variability of spectral signatures. In this proposed method, we make a hybrid classifier (MLP-SVM) using multilayer perceptron (MLP) and support vector machine (SVM) which aimed to improve the various classification parameters such as accuracy, precision, recall, f-score and to predict the region without ground truth. In proposed method, outputs from the last hidden layer of the neural net-ork become the input to the SVM, which finally classifies into various desired classes. In the present study, we worked on Indian Pines, U. Pavia and Salinas dataset with 16, 9, 16 classes and 200, 103 and 204 reflectance bands respectively, which is provided by AVIRIS and ROSIS sensor of NASA Jet propulsion laboratory. The proposed method significantly increases the accuracy on testing dataset to 93.22%, 96.87%, 93.81% as compare to 86.97%, 88.58%, 88.85% and 91.61%, 96.20%, 90.68% based on individual classifiers SVM and MLP on Indian Pines, U. Pavia and Salinas datasets respectively.
翻訳日:2021-04-16 11:14:26 公開日:2021-01-01
# 遺伝子発現データ解析のためのインターバルタイプ2強化可能性ファジィC平均クラスタリング

Interval Type-2 Enhanced Possibilistic Fuzzy C-Means Clustering for Gene Expression Data Analysis ( http://arxiv.org/abs/2101.00304v1 )

ライセンス: Link先を確認
Shahabeddin Sotudian and Mohammad Hossein Fazel Zarandi(参考訳) FCMとPCMのクラスタリング手法はパターン認識とデータクラスタリングに広く応用されている。 しかし、FCMはノイズに敏感であり、PCMは時折同期クラスタを生成する。 PFCMはFCMとPCMを組み合わせたPCMモデルの拡張であるが,PCMとFCMの弱点に悩まされている。 本稿では,PFCMアルゴリズムの弱点を修正し,EPFCMクラスタリングアルゴリズムの強化について述べる。 EPFCMは音に敏感である。 そこで本稿では, ファジィメンバシップに$(m_1, m_2)$, 2つのファジィメンバシップに$({\theta}_1, {\theta}_2)$の2つのファジイエータを有効利用して, ファジイリスティックなファジィc平均(IT2EPFCM)クラスタリング手法を提案する。 本研究の計算結果から,提案手法が文献の最先端技術と比較して優れていることを示す。 最後に,マイクロアレイ遺伝子発現データを解析するために提案手法を実装した。

Both FCM and PCM clustering methods have been widely applied to pattern recognition and data clustering. Nevertheless, FCM is sensitive to noise and PCM occasionally generates coincident clusters. PFCM is an extension of the PCM model by combining FCM and PCM, but this method still suffers from the weaknesses of PCM and FCM. In the current paper, the weaknesses of the PFCM algorithm are corrected and the enhanced possibilistic fuzzy c-means (EPFCM) clustering algorithm is presented. EPFCM can still be sensitive to noise. Therefore, we propose an interval type-2 enhanced possibilistic fuzzy c-means (IT2EPFCM) clustering method by utilizing two fuzzifiers $(m_1, m_2)$ for fuzzy memberships and two fuzzifiers $({\theta}_1, {\theta}_2)$ for possibilistic typicalities. Our computational results show the superiority of the proposed approaches compared with several state-of-the-art techniques in the literature. Finally, the proposed methods are implemented for analyzing microarray gene expression data.
翻訳日:2021-04-16 11:13:32 公開日:2021-01-01
# 未来の予測可能性を学ぶ

Learning the Predictability of the Future ( http://arxiv.org/abs/2101.01600v1 )

ライセンス: Link先を確認
D\'idac Sur\'is, Ruoshi Liu, Carl Vondrick(参考訳) 将来予測できることをラベル付けした動画から学習するためのフレームワークを導入する。 予測する機能に前もってコミットするのではなく、私たちのアプローチは、予測可能な機能のデータから学びます。 双曲幾何学が自然かつコンパクトに階層構造を符号化するという観測に基づいて,双曲空間の予測モデルを提案する。 モデルが最も自信がある場合は、階層の具体的なレベルで予測しますが、モデルに自信がない場合は、より高度な抽象化を自動選択することを学びます。 2つの確立されたデータセットに関する実験は、アクション予測のための階層表現の重要な役割を示している。 我々の表現はラベルなしのビデオで訓練されているが、可視化は、その表現にアクション階層が現れることを示している。

We introduce a framework for learning from unlabeled video what is predictable in the future. Instead of committing up front to features to predict, our approach learns from data which features are predictable. Based on the observation that hyperbolic geometry naturally and compactly encodes hierarchical structure, we propose a predictive model in hyperbolic space. When the model is most confident, it will predict at a concrete level of the hierarchy, but when the model is not confident, it learns to automatically select a higher level of abstraction. Experiments on two established datasets show the key role of hierarchical representations for action prediction. Although our representation is trained with unlabeled video, visualizations show that action hierarchies emerge in the representation.
翻訳日:2021-04-16 11:12:54 公開日:2021-01-01
# 知識集約型タスクに対するマルチタスク検索

Multi-task Retrieval for Knowledge-Intensive Tasks ( http://arxiv.org/abs/2101.00117v1 )

ライセンス: Link先を確認
Jean Maillard, Vladimir Karpukhin, Fabio Petroni, Wen-tau Yih, Barlas O\u{g}uz, Veselin Stoyanov, Gargi Ghosh(参考訳) 大きなコーパスから関連するコンテキストを取得することは、オープンドメインの質問応答や事実チェックといったタスクにとって重要なステップです。 ニューラルネットワーク検索はtf-idfやbm25といった従来の手法を上回っているが、ドメイン外データに適用すると、その性能はかなり低下する。 ニューラル検索モデルが普遍的であり,様々な問題に対して堅牢に機能するかどうかという問題から,我々はマルチタスク学習モデルを提案する。 私たちのアプローチは、マイナショット設定で従来の手法を上回っているだけでなく、ドメイン内のトレーニングデータが豊富である場合でも、ニューラルネットワークレトリバーを専門とするライバルも上回っています。 検索者の助けを借りて、ダウンストリームタスクの既存のモデルを改善し、複数のベンチマークでアートの状態を密に一致または改善します。

Retrieving relevant contexts from a large corpus is a crucial step for tasks such as open-domain question answering and fact checking. Although neural retrieval outperforms traditional methods like tf-idf and BM25, its performance degrades considerably when applied to out-of-domain data. Driven by the question of whether a neural retrieval model can be universal and perform robustly on a wide variety of problems, we propose a multi-task trained model. Our approach not only outperforms previous methods in the few-shot setting, but also rivals specialised neural retrievers, even when in-domain training data is abundant. With the help of our retriever, we improve existing models for downstream tasks and closely match or improve the state of the art on multiple benchmarks.
翻訳日:2021-04-16 11:12:45 公開日:2021-01-01
# WARP: ワードレベルの逆変換

WARP: Word-level Adversarial ReProgramming ( http://arxiv.org/abs/2101.00121v1 )

ライセンス: Link先を確認
Karen Hambardzumyan, Hrant Khachatrian, Jonathan May(参考訳) 事前訓練された言語モデルからの伝達学習は、最近、多くのNLPタスクを解決する主要なアプローチとなった。 微調整された大きな言語モデルは通常、最高のパフォーマンスを与えるが、多くのアプリケーションでは、より小さなパラメータセットをチューニングすることが好ましいため、ほとんどのパラメータは複数のタスクで共有できる。 主なアプローチは、言語モデルの上に1つ以上のタスク固有のレイヤをトレーニングすることだ。 本稿では,自動プロンプト生成に関する先行研究を拡張した,逆プログラムに基づく代替手法を提案する。 タスク固有の単語埋め込みを学習し、入力テキストに結合すると、指定されたタスクを解決するために言語モデルに指示する。 提案手法は,SST-2およびMNLIデータセット上で,類似のトレーニング可能なパラメータ数で他の手法よりも優れていることを示す。 SST-2では、我々のモデルの性能は、完全に調整されたベースラインに匹敵するが、MNLIでは、言語モデルの本体のパラメータを変更しないメソッドの中で最高のものである。

Transfer learning from pretrained language models recently became the dominant approach for solving many NLP tasks. While fine-tuning large language models usually gives the best performance, in many applications it is preferable to tune much smaller sets of parameters, so that the majority of parameters can be shared across multiple tasks. The main approach is to train one or more task-specific layers on top of the language model. In this paper we present an alternative approach based on adversarial reprogramming, which extends earlier work on automatic prompt generation. It attempts to learn task-specific word embeddings that, when concatenated to the input text, instruct the language model to solve the specified task. We show that this approach outperforms other methods with a similar number of trainable parameters on SST-2 and MNLI datasets. On SST-2, the performance of our model is comparable to the fully fine-tuned baseline, while on MNLI it is the best among the methods that do not modify the parameters of the body of the language model.
翻訳日:2021-04-16 11:12:31 公開日:2021-01-01
# プライバシーポリシーのインテント分類とスロットフィリング

Intent Classification and Slot Filling for Privacy Policies ( http://arxiv.org/abs/2101.00123v1 )

ライセンス: Link先を確認
Wasi Uddin Ahmad, Jianfeng Chi, Tu Le, Thomas Norton, Yuan Tian, Kai-Wei Chang(参考訳) プライバシーポリシーを理解することは、ユーザーに重要な情報を学ぶ権限を与えるため、ユーザーにとって重要である。 プライバシポリシー文書に書かれた文は、プライバシプラクティスを説明し、構成テキストは、そのプラクティスに関するさらに具体的な情報を伝える。 文中のプライバシの実践を意図分類として予測し,特定の情報をスロットフィリングとして共有するテキストを識別する。 本稿では,webサイトおよびモバイルアプリケーションの31のプライバシーポリシーにまたがる5,250インテントと11,788スロットアノテーションからなるコーパスであるpolicyieを提案する。 PolicyIE Corpusは、大規模なアノテーション収集のコストを反映したラベル付き例の限定的なベンチマークである。 本稿では,(1)結合配列タグ付けとして意図分類とスロットフィリングを定式化し,(2)シークエンス・ツー・シークエンス(Seq2Seq)学習タスクとしてモデル化する。 実験の結果,両手法は意図的分類において比較可能であり,Seq2Seq法はスロット充填におけるシーケンスタギング手法を大きなマージンで上回っていることがわかった。 エラー分析はベースラインアプローチの欠如を明らかにし、今後の作業の改善の余地を示唆している。 この分野での今後の研究を促進することを願っている。

Understanding privacy policies is crucial for users as it empowers them to learn about the information that matters to them. Sentences written in a privacy policy document explain privacy practices, and the constituent text spans convey further specific information about that practice. We refer to predicting the privacy practice explained in a sentence as intent classification and identifying the text spans sharing specific information as slot filling. In this work, we propose PolicyIE, a corpus consisting of 5,250 intent and 11,788 slot annotations spanning 31 privacy policies of websites and mobile applications. PolicyIE corpus is a challenging benchmark with limited labeled examples reflecting the cost of collecting large-scale annotations. We present two alternative neural approaches as baselines: (1) formulating intent classification and slot filling as a joint sequence tagging and (2) modeling them as a sequence-to-sequence (Seq2Seq) learning task. Experiment results show that both approaches perform comparably in intent classification, while the Seq2Seq method outperforms the sequence tagging approach in slot filling by a large margin. Error analysis reveals the deficiency of the baseline approaches, suggesting room for improvement in future works. We hope the PolicyIE corpus will stimulate future research in this domain.
翻訳日:2021-04-16 11:12:15 公開日:2021-01-01
# 教師なしバイテキスト構築と単語アライメントによるバイリンガル語彙誘導

Bilingual Lexicon Induction via Unsupervised Bitext Construction and Word Alignment ( http://arxiv.org/abs/2101.00148v1 )

ライセンス: Link先を確認
Haoyue Shi, Luke Zettlemoyer, Sida I. Wang(参考訳) 二言語レキシコンは、ある言語の単語を別の言語の翻訳にマッピングし、典型的には単言語単語埋め込み空間を整列するために線形射影を学習することによって引き起こされる。 本稿では,(1)教師なしビットクストマイニングと(2)教師なし単語アライメントを組み合わせた手法により,はるかに高品質な語彙を生成可能であることを示す。 最近のアルゴリズムを両方の部分問題に適用するパイプラインを直接適用することで、誘導レキシコンの品質が大幅に向上し、結果として得られた語彙エントリを教師なしと半教師なしの両方のスキームでフィルターすることでさらなるゲインが可能になる。 最後のモデルは、bucc 2020の共有タスクの最先端を12の言語ペアの平均14ドルのf_1$ポイントで上回り、文脈における単語の意味の豊富な推論を可能にする、より解釈可能なアプローチも提供しています。

Bilingual lexicons map words in one language to their translations in another, and are typically induced by learning linear projections to align monolingual word embedding spaces. In this paper, we show it is possible to produce much higher quality lexicons with methods that combine (1) unsupervised bitext mining and (2) unsupervised word alignment. Directly applying a pipeline that uses recent algorithms for both subproblems significantly improves induced lexicon quality and further gains are possible by learning to filter the resulting lexical entries, with both unsupervised and semi-supervised schemes. Our final model outperforms the state of the art on the BUCC 2020 shared task by 14 $F_1$ points averaged over 12 language pairs, while also providing a more interpretable approach that allows for rich reasoning of word meaning in context.
翻訳日:2021-04-16 11:11:52 公開日:2021-01-01
# テキスト生成のためのグラフ全変分正規化ソフトマックス

A Graph Total Variation Regularized Softmax for Text Generation ( http://arxiv.org/abs/2101.00153v1 )

ライセンス: Link先を確認
Liu Bin, Wang Liang, Yin Guosheng(参考訳) softmaxオペレータは、マシンラーニングモデルで最も重要な機能のひとつだ。 ニューラルネットワークを多カテゴリ分類に適用する場合、異なるカテゴリ間の相関は無視されることが多い。 例えば、テキスト生成では、言語モデルは、そのコンテキストの前の選択のみに基づいて、それぞれの新しい単語を選択する。 このシナリオでは、コーパス(表現の自然な方法のアナロジー)に基づく同時単語のリンク統計情報も次の単語を選択する際に有用であり、文の流速と滑らかさを向上させるのに役立つ。 そこで本研究では,テキスト生成のためのグラフソフトマックス関数を提案する。 最終分類結果は言語モデルと単語間のグラフィカルテキスト関係の両方に支配されることが期待される。 グラフの総変動項を用いてsoftmaxを正規化し,並行関係を言語モデルに組み込む。 生成した単語の総変化は局所的に小さくなければならない。 提案するグラフソフトマックスをgpt2にテキスト生成タスクに適用する。 実験の結果,提案するグラフソフトマックスはソフトマックスよりもブレウとパープレキシーが良好であることが判明した。 人間のテスタは、グラフsoftmaxやsoftmaxによって生成されたテキストを簡単に区別することができる。

The softmax operator is one of the most important functions in machine learning models. When applying neural networks to multi-category classification, the correlations among different categories are often ignored. For example, in text generation, a language model makes a choice of each new word based only on the former selection of its context. In this scenario, the link statistics information of concurrent words based on a corpus (an analogy of the natural way of expression) is also valuable in choosing the next word, which can help to improve the sentence's fluency and smoothness. To fully explore such important information, we propose a graph softmax function for text generation. It is expected that the final classification result would be dominated by both the language model and graphical text relationships among words. We use a graph total variation term to regularize softmax so as to incorporate the concurrent relationship into the language model. The total variation of the generated words should be small locally. We apply the proposed graph softmax to GPT2 for the text generation task. Experimental results demonstrate that the proposed graph softmax achieves better BLEU and perplexity than softmax. Human testers can also easily distinguish the text generated by the graph softmax or softmax.
翻訳日:2021-04-16 11:11:35 公開日:2021-01-01
# バイオメディカル名のエンティティモデルはどのようにして新しいエンティティに一般化するのか?

How Do Your Biomedical Named Entity Models Generalize to Novel Entities? ( http://arxiv.org/abs/2101.00160v1 )

ライセンス: Link先を確認
Hyunjae Kim, Jaewoo Kang(参考訳) 新たなバイオメディカル概念に関するバイオメディカル文献の数は急速に増加しており、新しい生物医学的実体認識(BioNER)モデルが必要である。 しかし、既存のBioNERモデルで効果的に扱えるかどうかは疑問である。 本研究では,BioNERモデルの3種類の認識能力,記憶,同義語一般化,概念一般化を体系的に解析する。 その結果,(1)BioNERモデルは一般化能力の面で過大評価され,(2)データセットバイアスを利用する傾向にあり,モデルが一般化する能力を妨げていることがわかった。 一般化性を高めるため,データ統計に基づく簡易なデバイアス法を提案する。 提案手法は,5つのベンチマークデータセット上での最先端(SOTA)モデルの一般化性を常に改善し,未確認のエンティティ参照に対してより優れたパフォーマンスを実現する。

The number of biomedical literature on new biomedical concepts is rapidly increasing, which necessitates a reliable biomedical named entity recognition (BioNER) model for identifying new and unseen entity mentions. However, it is questionable whether existing BioNER models can effectively handle them. In this work, we systematically analyze the three types of recognition abilities of BioNER models: memorization, synonym generalization, and concept generalization. We find that (1) BioNER models are overestimated in terms of their generalization ability, and (2) they tend to exploit dataset biases, which hinders the models' abilities to generalize. To enhance the generalizability, we present a simple debiasing method based on the data statistics. Our method consistently improves the generalizability of the state-of-the-art (SOTA) models on five benchmark datasets, allowing them to better perform on unseen entity mentions.
翻訳日:2021-04-16 11:11:18 公開日:2021-01-01
# プレフィックスチューニング: 生成のための継続的プロンプトの最適化

Prefix-Tuning: Optimizing Continuous Prompts for Generation ( http://arxiv.org/abs/2101.00190v1 )

ライセンス: Link先を確認
Xiang Lisa Li and Percy Liang(参考訳) 微調整は、ダウンストリームタスクを実行するために、大きな事前学習された言語モデルを活用するためのデファクトな方法である。 しかし、全ての言語モデルパラメータを変更するため、各タスクに完全なコピーを格納する必要がある。 本稿では,自然言語生成タスクの微調整の軽量な代替として,言語モデルパラメータの凍結を保ちながら,連続的なタスク固有ベクトル(プレフィックスと呼ばれる)を最適化するプレフィックスチューニングを提案する。 Prefix-tuningはプロンプトからインスピレーションを得て、後続のトークンが"仮想トークン"のようにこの接頭辞に出席できるようにする。 表-テキスト生成にはGPT-2、要約にはBARTにプレフィックスチューニングを適用する。 パラメータの0.1\%しか学習しないことで、プレフィックスチューニングは完全なデータ設定で同等のパフォーマンスを獲得し、低データ設定で微調整性能を上回り、トレーニング中に見つからないトピックを例に外挿する。

Fine-tuning is the de facto way to leverage large pretrained language models to perform downstream tasks. However, it modifies all the language model parameters and therefore necessitates storing a full copy for each task. In this paper, we propose prefix-tuning, a lightweight alternative to fine-tuning for natural language generation tasks, which keeps language model parameters frozen, but optimizes a small continuous task-specific vector (called the prefix). Prefix-tuning draws inspiration from prompting, allowing subsequent tokens to attend to this prefix as if it were "virtual tokens". We apply prefix-tuning to GPT-2 for table-to-text generation and to BART for summarization. We find that by learning only 0.1\% of the parameters, prefix-tuning obtains comparable performance in the full data setting, outperforms fine-tuning in low-data settings, and extrapolates better to examples with topics unseen during training.
翻訳日:2021-04-16 11:10:54 公開日:2021-01-01
# BanglaBERT: 低リソース言語理解のための埋め込みバリア

BanglaBERT: Combating Embedding Barrier for Low-Resource Language Understanding ( http://arxiv.org/abs/2101.00204v1 )

ライセンス: Link先を確認
Abhik Bhattacharjee, Tahmid Hasan, Kazi Samin, M. Sohel Rahman, Anindya Iqbal, Rifat Shahriyar(参考訳) 自己教師対象を持つ大量のデータに対する事前学習言語モデルは、自然言語処理における標準的実践となっている。 しかし、そのような最先端のモデルのほとんどは英語や他のリソース豊富な言語でのみ利用可能である。 何百もの言語でトレーニングされている多言語モデルにおいても、低リソースモデルはいまだに不足している。 バングラ語は世界で7番目に広く話されている言語であり、資源の面ではまだ低い。 バングラの言語理解のためのダウンストリームタスクデータセットは公開されておらず、事前トレーニングのための品質データは明らかに不足している。 本研究では,インターネット上のトップサイトから収集した18.6GBのデータに基づいて,Banglaの自然言語理解モデルを構築した。 文分類,文書分類,自然言語理解,シーケンスタグ付けの4つのタスクについて,新たなダウンストリームタスクデータセットとベンチマークを導入する。 本モデルは,多言語ベースラインを上回り,前回の結果を1~6%上回った。 このプロセスでは、高いリソースを持つ言語とスクリプトを共有しない低リソース言語のパフォーマンスを損なう多言語モデルの大きな欠点を特定します。 我々はこの障壁を研究するために広範な実験を行う。 すべてのデータセットと事前トレーニングされたモデルをリリースし、Banglaや他の低リソース言語に関する今後のNLP研究を支援します。 私たちのコードとデータはhttps://github.com/c sebuetnlp/banglabert で入手できます。

Pre-training language models on large volume of data with self-supervised objectives has become a standard practice in natural language processing. However, most such state-of-the-art models are available in only English and other resource-rich languages. Even in multilingual models, which are trained on hundreds of languages, low-resource ones still remain underrepresented. Bangla, the seventh most widely spoken language in the world, is still low in terms of resources. Few downstream task datasets for language understanding in Bangla are publicly available, and there is a clear shortage of good quality data for pre-training. In this work, we build a Bangla natural language understanding model pre-trained on 18.6 GB data we crawled from top Bangla sites on the internet. We introduce a new downstream task dataset and benchmark on four tasks on sentence classification, document classification, natural language understanding, and sequence tagging. Our model outperforms multilingual baselines and previous state-of-the-art results by 1-6%. In the process, we identify a major shortcoming of multilingual models that hurt performance for low-resource languages that don't share writing scripts with any high resource one, which we name the `Embedding Barrier'. We perform extensive experiments to study this barrier. We release all our datasets and pre-trained models to aid future NLP research on Bangla and other low-resource languages. Our code and data are available at https://github.com/c sebuetnlp/banglabert .
翻訳日:2021-04-16 11:10:40 公開日:2021-01-01
# polyjuice: 自動化された汎用の反事実生成

Polyjuice: Automated, General-purpose Counterfactual Generation ( http://arxiv.org/abs/2101.00288v1 )

ライセンス: Link先を確認
Tongshuang Wu, Marco Tulio Ribeiro, Jeffrey Heer, Daniel S. Weld(参考訳) モデル決定境界の校正、評価、説明など、多くのアプリケーションでカウンターファクト例が有用であることが示されている。 しかし、そのような反実例を生成するための従来の方法は、特定のアプリケーションに密に調整され、限られた言語パターンを使用したり、スケールするのが困難であった。 そこで本研究では,まず汎用のファクトファクトファクトを収集し,それらを特定の用途に選択することを提案する。 我々は, 自動逆ファクト生成をテキスト生成とし, GPT-2を生成器Polyjuiceにファインチューンし, 流動的で多様な反ファクト生成を行う。 提案手法では,摂動の発生場所と行動の制御も可能である。 我々は、Polyjuiceが複数のユースケースをサポートすることを示した: 人間がラベルを付けるための多様なカウンターファクトを生成することにより、Polyjuiceはモデルトレーニングと評価のための高品質なデータセットの作成を支援し、人間の労力を40%削減する。 説明を生成するために使用されると、polyjuiceはモデルの誤った振る舞いを明らかにするために機能帰属法を強化するのに役立つ。

Counterfactual examples have been shown to be useful for many applications, including calibrating, evaluating, and explaining model decision boundaries. However, previous methods for generating such counterfactual examples have been tightly tailored to a specific application, used a limited range of linguistic patterns, or are hard to scale. We propose to disentangle counterfactual generation from its use cases, i.e., gather general-purpose counterfactuals first, and then select them for specific applications. We frame the automated counterfactual generation as text generation, and finetune GPT-2 into a generator, Polyjuice, which produces fluent and diverse counterfactuals. Our method also allows control over where perturbations happen and what they do. We show Polyjuice supports multiple use cases: by generating diverse counterfactuals for humans to label, Polyjuice helps produce high-quality datasets for model training and evaluation, requiring 40% less human effort. When used to generate explanations, Polyjuice helps augment feature attribution methods to reveal models' erroneous behaviors.
翻訳日:2021-04-16 11:10:21 公開日:2021-01-01
# 決定理論といくつかの反応に対する一般的な反例

A General Counterexample to Any Decision Theory and Some Responses ( http://arxiv.org/abs/2101.00280v1 )

ライセンス: Link先を確認
Joar Skalse(参考訳) 本稿では,他の決定理論に勝ることのない決定理論を定式化できないことを示す方法として,任意の決定理論に対する問題ケース構築に使用できる議論と一般的なスキーマを提案する。 また、この議論に対する多くの可能な回答を提示し、議論します。 これらの回答の1つは、2つの決定問題が関連する意味で「等価」であることを意味するかという疑問を提起し、最初の議論を無効にするこの質問に対する答えを与える。 しかし、この立場は、文献で既に議論されている決定問題(例を含む)において、異なる決定理論を比較する方法にさらに影響するであろう。 ニューコームの問題)。

In this paper I present an argument and a general schema which can be used to construct a problem case for any decision theory, in a way that could be taken to show that one cannot formulate a decision theory that is never outperformed by any other decision theory. I also present and discuss a number of possible responses to this argument. One of these responses raises the question of what it means for two decision problems to be "equivalent" in the relevant sense, and gives an answer to this question which would invalidate the first argument. However, this position would have further consequences for how we compare different decision theories in decision problems already discussed in the literature (including e.g. Newcomb's problem).
翻訳日:2021-04-16 11:10:02 公開日:2021-01-01
# 改良型ニューラルネットワークによる植物病の同定

Improved Neural Network based Plant Diseases Identification ( http://arxiv.org/abs/2101.00215v1 )

ライセンス: Link先を確認
Ginni Garg and Mantosh Biswas(参考訳) 農業部門は、多くの人々や食料に基本的な収入を提供するため、すべての国にとって必須であり、この惑星で生き残るための基本的な要件である。 時間が経つにつれて、グリーン革命から始まる、現在の時代には大きな変化が訪れる。 植物病の知識が不十分なため、農家は肥料を過剰に使用し、最終的に食物の品質を低下させる。 初期の農家は、植物病の種類を決定するのに専門家を使っていた。 現在、画像処理は植物の葉の病変領域を用いて植物病の認識とカタログ化に用いられており、ニューラルネットワーク(NN)、サポートベクトルマシン(SVM)などを用いて葉から植物病の匂いを嗅ぐためのモダスオペランディが異なる。 本稿では,10種類の学習アルゴリズムと隠れた層におけるニューロンの適切な選択に取り組み,ニューラルネットワークのアーキテクチャを改善する。 提案手法は, 一般的な植物葉病の98.30%, 特定の植物葉病の100%の精度をベイズ正規化, クラスターの自動化, および他の様々な実施方法よりも植物病に過剰フィットすることなく与えるものである。

The agriculture sector is essential for every country because it provides a basic income to a large number of people and food as well, which is a fundamental requirement to survive on this planet. We see as time passes, significant changes come in the present era, which begins with Green Revolution. Due to improper knowledge of plant diseases, farmers use fertilizers in excess, which ultimately degrade the quality of food. Earlier farmers use experts to determine the type of plant disease, which was expensive and time-consuming. In today time, Image processing is used to recognize and catalog plant diseases using the lesion region of plant leaf, and there are different modus-operandi for plant disease scent from leaf using Neural Networks (NN), Support Vector Machine (SVM), and others. In this paper, we improving the architecture of the Neural Networking by working on ten different types of training algorithms and the proper choice of neurons in the concealed layer. Our proposed approach gives 98.30% accuracy on general plant leaf disease and 100% accuracy on specific plant leaf disease based on Bayesian regularization, automation of cluster and without over-fitting on considered plant diseases over various other implemented methods.
翻訳日:2021-04-16 11:09:51 公開日:2021-01-01
# ハイブリッドアンサンブル分類器による脳腫瘍の検出と分類

Brain Tumor Detection and Classification based on Hybrid Ensemble Classifier ( http://arxiv.org/abs/2101.00216v1 )

ライセンス: Link先を確認
Ginni Garg, Ritu Garg(参考訳) 患者の生存率と治療成績を改善するためには,脳腫瘍の早期診断が不可欠である。 磁気共鳴画像(MRI)を手動で評価することは難しい課題である。 したがって、より精度の高い腫瘍診断のためのデジタル手法が必要となる。 しかし, 形状, 体積, 境界, 腫瘍検出, サイズ, セグメンテーション, 分類を評価する上で, 依然として非常に困難な課題である。 本研究では,ランダムフォレスト (rf) とk-ネアレスト近傍 (k-nearest neighbor) と決定木 (dt) (knn-rf-dt) を用いた多数決方式によるハイブリッドアンサンブル手法を提案する。 腫瘍領域の面積を計算し、脳腫瘍を良性および悪性に分類することを目的としている。 初めは大津のしきい値法を用いてセグメンテーションを行う。 特徴抽出は、定常ウェーブレット変換(SWT)、原理成分分析(PCA)、グレーレベル共起行列(GLCM)を用いて行われる。 この分類は、Majority Voting法に基づくハイブリッドアンサンブル分類器(KNN-RF-DT)によって行われる。 全体としては、ディープラーニングではなく、従来の分類器によるパフォーマンス向上を目指している。 従来の分類器は、トレーニングに小さなデータセットが必要で、計算時間の複雑さが低く、ユーザにとってコストが低く、熟練度の低い人でも容易に採用できるため、ディープラーニングアルゴリズムよりも優れている。 総じて,提案手法は,85:15のトレーニングとテストにそれぞれ用いられ,97.305%の精度を有する2556画像のデータセット上でテストを行う。

To improve patient survival and treatment outcomes, early diagnosis of brain tumors is an essential task. It is a difficult task to evaluate the magnetic resonance imaging (MRI) images manually. Thus, there is a need for digital methods for tumor diagnosis with better accuracy. However, it is still a very challenging task in assessing their shape, volume, boundaries, tumor detection, size, segmentation, and classification. In this proposed work, we propose a hybrid ensemble method using Random Forest (RF), K-Nearest Neighbour, and Decision Tree (DT) (KNN-RF-DT) based on Majority Voting Method. It aims to calculate the area of the tumor region and classify brain tumors as benign and malignant. In the beginning, segmentation is done by using Otsu's Threshold method. Feature Extraction is done by using Stationary Wavelet Transform (SWT), Principle Component Analysis (PCA), and Gray Level Co-occurrence Matrix (GLCM), which gives thirteen features for classification. The classification is done by hybrid ensemble classifier (KNN-RF-DT) based on the Majority Voting method. Overall it aimed at improving the performance by traditional classifiers instead of going to deep learning. Traditional classifiers have an advantage over deep learning algorithms because they require small datasets for training and have low computational time complexity, low cost to the users, and can be easily adopted by less skilled people. Overall, our proposed method is tested upon dataset of 2556 images, which are used in 85:15 for training and testing respectively and gives good accuracy of 97.305%.
翻訳日:2021-04-16 11:09:26 公開日:2021-01-01
# 局所ステレオマッチングのための適応デコンボリューションに基づくステレオマッチングネット

Adaptive Deconvolution-based stereo matching Net for Local Stereo Matching ( http://arxiv.org/abs/2101.00221v1 )

ライセンス: Link先を確認
Xin Ma and Zhicheng Zhang and Danfeng Wang and Yu Luo and Hui Yuan(参考訳) ディープラーニングベースのローカルステレオマッチング手法では、大きなイメージパッチはステレオマッチング精度が向上する。 しかし、制限なく画像パッチのサイズを拡大することは現実的ではない。 パッチサイズを任意に拡大すると、局所ステレオマッチング法はグローバルステレオマッチング法に変更され、マッチング精度は飽和する。 我々は,ネットワークパラメータ数を削減し,既存のシームズ畳み込みネットワークを単純化し,以下の畳み込み層に対して入力特徴マップのサイズを拡大する方法を学ぶために,畳み込み層を追加して適応デコンボリューションに基づく分散マッチングネット(ADSMネット)を提案する。 KITTI 2012 と 2015 のデータセットの実験結果から,提案手法は精度と複雑性のトレードオフを良好に達成できることが示された。

In deep learning-based local stereo matching methods, larger image patches usually bring better stereo matching accuracy. However, it is unrealistic to increase the size of the image patch size without restriction. Arbitrarily extending the patch size will change the local stereo matching method into the global stereo matching method, and the matching accuracy will be saturated. We simplified the existing Siamese convolutional network by reducing the number of network parameters and propose an efficient CNN based structure, namely Adaptive Deconvolution-based disparity matching Net (ADSM net) by adding deconvolution layers to learn how to enlarge the size of input feature map for the following convolution layers. Experimental results on the KITTI 2012 and 2015 datasets demonstrate that the proposed method can achieve a good trade-off between accuracy and complexity.
翻訳日:2021-04-16 11:08:59 公開日:2021-01-01
# de-identifying hospital discharge summary: anend-to-end framework using ensemble of de-identifiers

De-identifying Hospital Discharge Summaries: An End-to-End Framework using Ensemble of De-Identifiers ( http://arxiv.org/abs/2101.00146v1 )

ライセンス: Link先を確認
Leibo Liu, Oscar Perez-Concha, Anthony Nguyen, Vicki Bennett, Louisa Jorm(参考訳) 目的:EMR(Electronic Medical Records)には医療研究者にとって大きな価値を持つ臨床物語テキストが含まれている。 しかし、この情報は患者や臨床医の機密性にリスクをもたらす保護医療情報(phi)と混ざり合っている。 本稿では,病院の退院サマリーから自動的にphiを除去するためのエンド・ツー・エンドの非識別フレームワークを提案する。 対象と方法:オーストラリア・シドニーの2つの主要な紹介病院のEMRから抽出した600の病院退院サマリーを含む。 Our end-to-end de-identification framework consists of three components: 1) Annotation: labelling of PHI in the 600 hospital discharge summaries using five pre-defined categories: person, address, date of birth, individual identification number, phone/fax number; 2) Modelling: training and evaluating ensembles of named entity recognition (NER) models through the use of three natural language processing (NLP) toolkits (Stanza, FLAIR and spaCy) and both balanced and imbalanced datasets; and 3) De-identification: removing PHI from the hospital discharge summaries. 結果:我々のフレームワークの最終モデルはアンサンブルで、6つの単一モデルをバランスの取れたデータセットと不均衡なデータセットで組み合わせ、多数決のトレーニングを行った。 これは 0.9866 精度、 0.9862 リコール、 0.9864 f1 スコアを達成した。 偽陽性と偽陰性の大多数は人格に関連していた。 考察:我々の研究は、バランスのとれたデータセットで3つの異なるnlpツールキットを使って訓練された異なるモデルのアンサンブルが、比較的小さなコーパスでも良い結果が得られることを示した。 結論:我々のエンドツーエンドフレームワークは、臨床物語コーパスを安全に識別するための堅牢なソリューションを提供する。 それはどんな臨床物語の文書にも容易に適用できる。

Objective:Electronic Medical Records (EMRs) contain clinical narrative text that is of great potential value to medical researchers. However, this information is mixed with Protected Health Information (PHI) that presents risks to patient and clinician confidentiality. This paper presents an end-to-end de-identification framework to automatically remove PHI from hospital discharge summaries. Materials and Methods:Our corpus included 600 hospital discharge summaries which were extracted from the EMRs of two principal referral hospitals in Sydney, Australia. Our end-to-end de-identification framework consists of three components: 1) Annotation: labelling of PHI in the 600 hospital discharge summaries using five pre-defined categories: person, address, date of birth, individual identification number, phone/fax number; 2) Modelling: training and evaluating ensembles of named entity recognition (NER) models through the use of three natural language processing (NLP) toolkits (Stanza, FLAIR and spaCy) and both balanced and imbalanced datasets; and 3) De-identification: removing PHI from the hospital discharge summaries. Results:The final model in our framework was an ensemble which combined six single models using both balanced and imbalanced datasets for training majority voting. It achieved 0.9866 precision, 0.9862 recall and 0.9864 F1 scores. The majority of false positives and false negatives were related to the person category. Discussion:Our study showed that the ensemble of different models which were trained using three different NLP toolkits upon balanced and imbalanced datasets can achieve good results even with a relatively small corpus. Conclusion:Our end-to-end framework provides a robust solution to de-identifying clinical narrative corpuses safely. It can be easily applied to any kind of clinical narrative documents.
翻訳日:2021-04-16 11:08:25 公開日:2021-01-01
# PCAとハイブリッド遺伝的アルゴリズムを用いた心疾患の早期予測

Early Prediction of Heart Disease Using PCA and Hybrid Genetic Algorithm with k-Means ( http://arxiv.org/abs/2101.00183v1 )

ライセンス: Link先を確認
Md. Touhidul Islam, Sanjida Reza Rafa, Md. Golam Kibria(参考訳) 世界中での研究によると、心臓病で毎年数百万人の命が失われている。 医療部門は、心疾患に関する大量のデータを生成し、残念ながら、意思決定を成功させるために秘密の知識を見つけるのに使われていない。 この時点で最も重要な側面の1つは、早期に心臓病を検出することである。 UCI Machine Learningの心臓疾患データセットに異なるテクニックを適用した。 多くの研究者がこのデータセットにいくつかの複雑なテクニックを適用しようとしたが、詳細な研究はまだ欠けている。 本稿では,主成分分析(PCA)を用いて属性の低減を行った。 最終的なクラスタリングに使われるk平均を持つハイブリッド遺伝的アルゴリズム(HGA)とは別に。 通常、k-meansメソッドはデータのクラスタリングに使われる。 この種のクラスタリングは、ヒューリスティックであるため、ローカルオプティマで立ち往生する可能性がある。 データクラスタリングにはHybrid Genetic Algorithm (HGA) を用いてこの問題を回避する。 提案手法は,早期心疾患を94.06%の精度で予測できる。

Worldwide research shows that millions of lives lost per year because of heart disease. The healthcare sector produces massive volumes of data on heart disease that are sadly not used to locate secret knowledge for successful decision making. One of the most important aspects at this moment is detecting heart disease at an early stage. Researchers have applied distinct techniques to the UCI Machine Learning heart disease dataset. Many researchers have tried to apply some complex techniques to this dataset, where detailed studies are still missing. In this paper, Principal Component Analysis (PCA) has been used to reduce attributes. Apart from a Hybrid genetic algorithm (HGA) with k-means used for final clustering. Typically, the k-means method is using for clustering the data. This type of clustering can get stuck in the local optima because this method is heuristic. We used the Hybrid Genetic Algorithm (HGA) for data clustering to avoid this problem. Our proposed method can predict early heart disease with an accuracy of 94.06%.
翻訳日:2021-04-16 11:07:58 公開日:2021-01-01
# 2020年の医療用3D画像の切り抜き方法:幸せな家族はみんな似ているか?

Cutting-edge 3D Medical Image Segmentation Methods in 2020: Are Happy Families All Alike? ( http://arxiv.org/abs/2101.00232v1 )

ライセンス: Link先を確認
Jun Ma(参考訳) セグメンテーションは医療画像解析において最も重要かつ一般的な課題の1つであり、疾患診断、手術計画、予後評価において重要な役割を果たしている。 過去5年間、異なる医療画像における様々な臓器や病変に対して、何千もの医療画像分割法が提案されてきた。 一方で、国際的なセグメンテーションの課題は、異なる手法を公平に評価し比較するための透明なプラットフォームを提供することができる。 本稿では,2020年における10の医療画像セグメンテーション課題におけるトップメソッドの総合的なレビューを行い,様々な課題とデータセットについて紹介する。 また,最先端セグメンテーション手法における「幸福な家族」の実践も確認し,強力なセグメンテーション手法の開発に有用である。 最後に,今後解決すべきオープンリサーチの課題について論じる。 また、私たちは \url{https://github.com/J unMa11/SOTA-MedSeg} の最先端セグメンテーションメソッドのリストも維持しています。

Segmentation is one of the most important and popular tasks in medical image analysis, which plays a critical role in disease diagnosis, surgical planning, and prognosis evaluation. During the past five years, on the one hand, thousands of medical image segmentation methods have been proposed for various organs and lesions in different medical images, which become more and more challenging to fairly compare different methods. On the other hand, international segmentation challenges can provide a transparent platform to fairly evaluate and compare different methods. In this paper, we present a comprehensive review of the top methods in ten 3D medical image segmentation challenges during 2020, covering a variety of tasks and datasets. We also identify the "happy-families" practices in the cutting-edge segmentation methods, which are useful for developing powerful segmentation approaches. Finally, we discuss open research problems that should be addressed in the future. We also maintain a list of cutting-edge segmentation methods at \url{https://github.com/J unMa11/SOTA-MedSeg}.
翻訳日:2021-04-16 11:07:47 公開日:2021-01-01
# 半定値最適化のための確率分散低減勾配法について

On Stochastic Variance Reduced Gradient Method for Semidefinite Optimization ( http://arxiv.org/abs/2101.00236v1 )

ライセンス: Link先を確認
Jinshan Zeng and Yixuan Zha and Ke Ma and Yuan Yao(参考訳) 低ランク確率半定最適化は幅広い応用のために注目を集めている。 低ランク因子化に基づく非凸改質は計算効率を大幅に改善するが、解析に新たな課題をもたらす。 The stochastic variance reduced gradient (SVRG) method is been considered one of the most effective method。 一般に、SVRGは2つのループから構成されており、そこでは、まず外側のループで基準フル勾配を評価し、その後、内側のループで電流勾配のばらつきを低減した推定値を得る。 内部ループの出力は2つの選択肢が提案されており、オプションIは出力を最後の繰り返しとして設定し、オプションIIは内部ループの全ての繰り返しからランダムサンプリングによって出力を得る。 しかし、確率半定プログラミング(SDP)に適応する場合、SVRGの理論と実践の間には大きなギャップがある。 SVRGは実際にOption Iでうまく機能し、既存の理論結果はOption IIにフォーカスしている。 本稿では,このギャップを,半定値最適化に適応したオプションIを用いて,元のSVRGの半確率的変種を利用して埋める。 これと合わせて、提案したSVRG法の大域線型部分多様体収束(すなわち、直交群作用の下で大域的極小の部分多様体に指数関数的に高速に収束する)を確立し、証明可能な初期化スキームと一定の滑らかさと強い凸仮定を与えられた。 本分析は, 内ループにおけるミニバッチサイズと更新周波数の影響に加えて, 固定および安定化されたバルジライ・ボルワインステップサイズという2つの実用的なステップサイズ戦略を含む。 行列センシングにおける数値的な結果は,提案したSVRG法がOption II法よりも優れていることを示すものである。

The low-rank stochastic semidefinite optimization has attracted rising attention due to its wide range of applications. The nonconvex reformulation based on the low-rank factorization, significantly improves the computational efficiency but brings some new challenge to the analysis. The stochastic variance reduced gradient (SVRG) method has been regarded as one of the most effective methods. SVRG in general consists of two loops, where a reference full gradient is first evaluated in the outer loop and then used to yield a variance reduced estimate of the current gradient in the inner loop. Two options have been suggested to yield the output of the inner loop, where Option I sets the output as its last iterate, and Option II yields the output via random sampling from all the iterates in the inner loop. However, there is a significant gap between the theory and practice of SVRG when adapted to the stochastic semidefinite programming (SDP). SVRG practically works better with Option I, while most of existing theoretical results focus on Option II. In this paper, we fill this gap via exploiting a new semi-stochastic variant of the original SVRG with Option I adapted to the semidefinite optimization. Equipped with this, we establish the global linear submanifold convergence (i.e., converging exponentially fast to a submanifold of a global minimum under the orthogonal group action) of the proposed SVRG method, given a provable initialization scheme and under certain smoothness and restricted strongly convex assumptions. Our analysis includes the effects of the mini-batch size and update frequency in the inner loop as well as two practical step size strategies, the fixed and stabilized Barzilai-Borwein step sizes. Some numerical results in matrix sensing demonstrate the efficiency of proposed SVRG method outperforming Option II counterpart as well as others.
翻訳日:2021-04-16 11:06:46 公開日:2021-01-01
# Adam氏再訪: 過去の勾配の重み付け

Adam revisited: a weighted past gradients perspective ( http://arxiv.org/abs/2101.00238v1 )

ライセンス: Link先を確認
Hui Zhong, Zaiyi Chen, Chuan Qin, Zai Huang, Vincent W. Zheng, Tong Xu, Enhong Chen(参考訳) 適応学習率法は多くの分野、特にディープニューラルネットワークのトレーニングにおいてうまく応用されている。 近年,2乗過去の勾配(ADAM, RMSPROP)の指数的増加重み付き適応法は最適解に収束しない可能性が示唆されている。 AMSGRAD や ADAMNC など多くのアルゴリズムが非収束問題を修正するために提案されているが、ADAGRAD と同様かそれ以上のデータ依存的後悔を実現することは、これらの手法の課題である。 本稿では,非収束問題に対処するために,新しい適応法重み付き適応アルゴリズム(WADA)を提案する。 AMSGRADやADAMNCとは異なり、重みが直線的に成長する2乗過去の勾配に対して、より緩やかに成長する重み付け戦略を検討する。 そこで本研究では, 重み付き適応勾配法フレームワーク (wagmf) を提案し, 和田アルゴリズムを実装した。 また,勾配が急速に低下すると,アダグラードの当初の後悔値よりも優れた重み付けデータ依存の後悔値が得られることを証明した。 この境界は、実際にADAMのパフォーマンスを部分的に説明できるかもしれない。 最後に、WADとその変種を、ADAMのいくつかの変種と比較して、凸問題やディープニューラルネットワークのトレーニングにおける有効性を示す。

Adaptive learning rate methods have been successfully applied in many fields, especially in training deep neural networks. Recent results have shown that adaptive methods with exponential increasing weights on squared past gradients (i.e., ADAM, RMSPROP) may fail to converge to the optimal solution. Though many algorithms, such as AMSGRAD and ADAMNC, have been proposed to fix the non-convergence issues, achieving a data-dependent regret bound similar to or better than ADAGRAD is still a challenge to these methods. In this paper, we propose a novel adaptive method weighted adaptive algorithm (WADA) to tackle the non-convergence issues. Unlike AMSGRAD and ADAMNC, we consider using a milder growing weighting strategy on squared past gradient, in which weights grow linearly. Based on this idea, we propose weighted adaptive gradient method framework (WAGMF) and implement WADA algorithm on this framework. Moreover, we prove that WADA can achieve a weighted data-dependent regret bound, which could be better than the original regret bound of ADAGRAD when the gradients decrease rapidly. This bound may partially explain the good performance of ADAM in practice. Finally, extensive experiments demonstrate the effectiveness of WADA and its variants in comparison with several variants of ADAM on training convex problems and deep neural networks.
翻訳日:2021-04-16 11:06:14 公開日:2021-01-01
# 異種データセットのクラスタリングのための多分野アンサンブルアルゴリズム

A Multi-disciplinary Ensemble Algorithm for Clustering Heterogeneous Datasets ( http://arxiv.org/abs/2102.08361v1 )

ライセンス: Link先を確認
Bryar A. Hassan, Tarik A. Rashid(参考訳) クラスタリングは、観測を類似のクラスタに分類することが主な目的であるデータを探索し分析するための一般的な方法である。 近年,クラスタ化データを解析するためのアルゴリズムや手法が開発されている。 これらの手法のほとんどは、同種および単一機能データセットの属性、距離、密度の値に基づいて、決定論的にクラスタを定義する。 しかし、これらの定義は生成されたクラスタに明確な意味的意味を加えることに成功していない。 進化的演算子と統計学および多分野技術は有意義なクラスターを生成するのに役立つ。 この前提に基づいて,異種・多機能データセットを統計的に分析するための社会階級ランキングとメタヒューリスティックアルゴリズムに基づく進化的クラスタリングアルゴリズム(ECAStar)を提案する。 ecastarは、再共生進化演算子、レヴィ飛行の最適化、四量体やパーセンタイルなどの統計技術、およびk-meansアルゴリズムのユークリッド距離と統合されている。 k-means (km), k-meansplusplus (kmplusplus), expectation maximization (em), learning vector quantization (lvq), and the genetic algorithm for clusteringplusplus (genclustplus)の5つのアプローチに対してecastarを評価する実験を行った。

Clustering is a commonly used method for exploring and analysing data where the primary objective is to categorise observations into similar clusters. In recent decades, several algorithms and methods have been developed for analysing clustered data. We notice that most of these techniques deterministically define a cluster based on the value of the attributes, distance, and density of homogenous and single-featured datasets. However, these definitions are not successful in adding clear semantic meaning to the clusters produced. Evolutionary operators and statistical and multi-disciplinary techniques may help in generating meaningful clusters. Based on this premise, we propose a new evolutionary clustering algorithm (ECAStar) based on social class ranking and meta-heuristic algorithms for stochastically analysing heterogeneous and multiple-featured datasets. The ECAStar is integrated with recombinational evolutionary operators, Levy flight optimisation, and some statistical techniques, such as quartiles and percentiles, as well as the Euclidean distance of the K-means algorithm. Experiments are conducted to evaluate the ECAStar against five conventional approaches: K-means (KM), K-meansPlusPlus (KMPlusPlus), expectation maximisation (EM), learning vector quantisation (LVQ), and the genetic algorithm for clusteringPlusPlus (GENCLUSTPlusPlus).
翻訳日:2021-04-16 11:05:51 公開日:2021-01-01
# ハイパーパラメータ最適化を用いたecgに基づくドライバーストレスレベル検出システム

ECG-Based Driver Stress Levels Detection System Using Hyperparameter Optimization ( http://arxiv.org/abs/2101.00165v1 )

ライセンス: Link先を確認
Mohammad Naim Rastgoo, Bahareh Nakisa, Andry Rakotonirainy, Frederic Maire, Vinod Chandran(参考訳) ストレスと運転は危険な組み合わせであり、ストレスを伴う大量の道路交通の衝突によって証明されるように、クラッシュにつながる可能性がある。 運転ストレスの大きなコストに対処する必要性に動機づけられ、運転ストレスレベルを高精度に分類できる実用的なシステムを構築することが不可欠である。 しかし、正確な運転ストレスレベル分類システムの性能は、データセグメンテーション(ウィンドウングハイパーパラメータ)のようなハイパーパラメータ最適化の選択に依存する。 システム性能に大きな影響を与えるハイパーパラメータの設定設定は通常、アルゴリズムを評価する際に手動で調整される。 このチューニングプロセスは時間がかかり、個人的な経験に依存します。 ハイパーパラメータ値に対する汎用的な最適値も存在しない。 本研究では,自動ハイパーパラメータ最適化を支援するメタヒューリスティック手法を提案し,リアルタイムドライバストレス検出システムを提案する。 これは運転安全領域における心電図(ecg)信号に基づくウィンドウニングハイパーパラメータの最適化に関する最初の体系的研究である。 提案手法は,パラメータ最適化アルゴリズム (PSO) をベースとして,最適・近距離ウィンドウ化ハイパーパラメータ値を選択するフレームワークを提案する。 提案するフレームワークの性能は,公開データセット(DRIVEDBデータセット)と,高度なシミュレータを用いて収集したデータセットの2つのデータセットで評価する。 DRIVEDBデータセットを実時間駆動シナリオで収集し,制御環境における先進運転シミュレータを用いてデータセットを収集した。 ウィンドウ化ハイパーパラメータを最適化すると精度が大幅に向上することを示す。 公開データセットと当社のデータセットに適用した最も正確な構築モデルは、選択したウィンドウハイパーパラメータに基づいて、それぞれ92.12%と77.78%の精度を達成しました。

Stress and driving are a dangerous combination which can lead to crashes, as evidenced by the large number of road traffic crashes that involve stress. Motivated by the need to address the significant costs of driver stress, it is essential to build a practical system that can classify driver stress level with high accuracy. However, the performance of an accurate driving stress levels classification system depends on hyperparameter optimization choices such as data segmentation (windowing hyperparameters). The configuration setting of hyperparameters, which has an enormous impact on the system performance, are typically hand-tuned while evaluating the algorithm. This tuning process is time consuming and often depends on personal experience. There are also no generic optimal values for hyperparameters values. In this work, we propose a meta-heuristic approach to support automated hyperparameter optimization and provide a real-time driver stress detection system. This is the first systematic study of optimizing windowing hyperparameters based on Electrocardiogram (ECG) signal in the domain of driving safety. Our approach is to propose a framework based on Particle Swarm Optimization algorithm (PSO) to select an optimal/near optimal windowing hyperparameters values. The performance of the proposed framework is evaluated on two datasets: a public dataset (DRIVEDB dataset) and our collected dataset using an advanced simulator. DRIVEDB dataset was collected in a real time driving scenario, and our dataset was collected using an advanced driving simulator in the control environment. We demonstrate that optimising the windowing hyperparameters yields significant improvement in terms of accuracy. The most accurate built model applied to the public dataset and our dataset, based on the selected windowing hyperparameters, achieved 92.12% and 77.78% accuracy, respectively.
翻訳日:2021-04-16 11:05:30 公開日:2021-01-01
# オーディオ応用のための深層強化学習に関する調査研究

A Survey on Deep Reinforcement Learning for Audio-Based Applications ( http://arxiv.org/abs/2101.00240v1 )

ライセンス: Link先を確認
Siddique Latif, Heriberto Cuay\'ahuitl, Farrukh Pervez, Fahad Shamshad, Hafiz Shehbaz Ali, and Erik Cambria(参考訳) 深層強化学習(deep reinforcement learning:drl)は、現実世界の理解度が高い自律型システムを内在させることによって、人工知能(ai)の分野に革命をもたらす。 現在、深層学習(DL)により、DRLは様々な分野の難解な問題を効果的に解決することができる。 最も重要なことに、drlアルゴリズムは音声信号処理にも使われており、音声、音楽、その他の音声信号から直接学習することで、現実世界で多くの有望なアプリケーションを持つ音声ベースの自律システムを構築する。 本稿では,音声領域におけるDRLの進展に関する包括的調査を行い,様々な音声・音楽関連分野の研究成果をまとめて紹介する。 まず、DLと強化学習(RL)の一般分野について紹介し、次に主要なDRL法とそのオーディオ分野への応用について述べる。 我々は、音声ベースのDRLエージェントが直面する課題を提示し、今後の研究・調査のオープンな領域を強調して結論付ける。

Deep reinforcement learning (DRL) is poised to revolutionise the field of artificial intelligence (AI) by endowing autonomous systems with high levels of understanding of the real world. Currently, deep learning (DL) is enabling DRL to effectively solve various intractable problems in various fields. Most importantly, DRL algorithms are also being employed in audio signal processing to learn directly from speech, music and other sound signals in order to create audio-based autonomous systems that have many promising application in the real world. In this article, we conduct a comprehensive survey on the progress of DRL in the audio domain by bringing together the research studies across different speech and music-related areas. We begin with an introduction to the general field of DL and reinforcement learning (RL), then progress to the main DRL methods and their applications in the audio domain. We conclude by presenting challenges faced by audio-based DRL agents and highlighting open areas for future research and investigation.
翻訳日:2021-04-16 11:05:05 公開日:2021-01-01
# グラフニューラルネットワークによる都市道路網の空間的均質性の定量化

Quantifying spatial homogeneity of urban road networks via graph neural networks ( http://arxiv.org/abs/2101.00307v1 )

ライセンス: Link先を確認
Jiawei Xue, Nan Jiang, Senwei Liang, Qiyuan Pang, Satish V. Ukkusuri, Jianzhu Ma(参考訳) 都市道路網(urn)の空間的均質性は、それぞれの異なる構成要素がネットワーク全体と類似しているかどうかを測定し、ネットワーク構造とダイナミクスを定量的に橋渡しする役割を果たすことができる。 しかし、都市の複雑さを考えると、従来のネットワーク統計に基づく空間的均一性を定量化することは困難である。 本研究では, グラフニューラルネットワークを用いて, 世界30都市にまたがる11,790個のurnサンプルをモデル化し, その予測可能性を用いて空間的均質性を定義する。 提案手法は, 程度, 間隙性, 道路網タイプ, GDPや人口増加といった混在する社会経済現象の強い指標など, 複数種類の幾何学的特性の非線形統合とみなすことができる。 空間的均質性から導かれた都市クラスターは、大陸都市化史によってよく解釈できる。 この新しい指標は、交通、都市計画、地理におけるその後の様々なタスクをサポートすることを期待する。

The spatial homogeneity of an urban road network (URN) measures whether each distinct component is analogous to the whole network and can serve as a quantitative manner bridging network structure and dynamics. However, given the complexity of cities, it is challenging to quantify spatial homogeneity simply based on conventional network statistics. In this work, we use Graph Neural Networks to model the 11,790 URN samples across 30 cities worldwide and use its predictability to define the spatial homogeneity. The proposed measurement can be viewed as a non-linear integration of multiple geometric properties, such as degree, betweenness, road network type, and a strong indicator of mixed socio-economic events, such as GDP and population growth. City clusters derived from transferring spatial homogeneity can be interpreted well by continental urbanization histories. We expect this novel metric supports various subsequent tasks in transportation, urban planning, and geography.
翻訳日:2021-04-16 11:04:48 公開日:2021-01-01