このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200627となっている論文です。

PDF登録状況(公開日: 20200627)

TitleAuthorsAbstract論文公表日・翻訳日
# 集団避難者獲得のためのマルチエージェント協調追跡のための新しいアプローチ

A novel approach for multi-agent cooperative pursuit to capture grouped evaders ( http://arxiv.org/abs/2006.01022v2 )

ライセンス: Link先を確認
Muhammad Zuhair Qadir, Songhao Piao, Haiyang Jiang and Mohammed El Habib Souidi(参考訳) 自己組織的特徴マップ(sofm)の応用とエージェント・グループ・ロール・メンバシップ・関数(agrmf)モデルに基づく強化学習に基づく移動型マルチエージェント追跡手法を提案する。 本手法は, 追従者のグループの動的組織化を促進するとともに, SOFM および AGRMF 技術に基づく追従者のグループ回避を実現する。 これにより、AGRMFモデル運用のプロセスにおいて、目標が独立的すぎる場合に完全に再編成できないというトラッカーの欠点を克服するのに役立つ。 また,新たな報酬関数についても論じる。 グループ形成後、各エージェントに最適な解を得るために強化学習を適用する。 キャプチャプロセスの各ステップの結果は、最終的にAGRメンバシップ機能に影響を与え、競合するニューラルネットワークの収束をスピードアップする。 実験結果から, 移動体エージェントがより効果的にエバダを捕獲できることが示唆された。

An approach of mobile multi-agent pursuit based on application of self-organizing feature map (SOFM) and along with that reinforcement learning based on agent group role membership function (AGRMF) model is proposed. This method promotes dynamic organization of the pursuers' groups and also makes pursuers' group evader according to their desire based on SOFM and AGRMF techniques. This helps to overcome the shortcomings of the pursuers that they cannot fully reorganize when the goal is too independent in process of AGRMF models operation. Besides, we also discuss a new reward function. After the formation of the group, reinforcement learning is applied to get the optimal solution for each agent. The results of each step in capturing process will finally affect the AGR membership function to speed up the convergence of the competitive neural network. The experiments result shows that this approach is more effective for the mobile agents to capture evaders.
翻訳日:2022-11-26 06:58:03 公開日:2020-06-27
# 畳み込みニューラルネットワークの線形領域数について

On the Number of Linear Regions of Convolutional Neural Networks ( http://arxiv.org/abs/2006.00978v2 )

ライセンス: Link先を確認
H. Xiong, L. Huang, M. Yu, L. Liu, F. Zhu, and L. Shao(参考訳) ディープラーニングの根本的な問題は、ディープニューラルネットワーク(NN)の実際的なパフォーマンスを理解することだ。 NNの優位性の1つの説明は、それらが複雑な関数の大規模なクラス、すなわち強力な表現性を実現することができることである。 ReLU NNの表現性は、入力空間を分離できる線形領域の最大数によって定量化することができる。 本稿では,CNNの線形領域の研究に必要な数理的な結果を提供し,それを1層ReLU CNNの線形領域の最大値と平均値の導出に用いる。 さらに,多層ReLU CNNの線形領域数について,上下境界を求める。 以上の結果から,より深いCNNは浅いCNNよりも強力な表現性を持つことが明らかとなった。

One fundamental problem in deep learning is understanding the outstanding performance of deep Neural Networks (NNs) in practice. One explanation for the superiority of NNs is that they can realize a large class of complicated functions, i.e., they have powerful expressivity. The expressivity of a ReLU NN can be quantified by the maximal number of linear regions it can separate its input space into. In this paper, we provide several mathematical results needed for studying the linear regions of CNNs, and use them to derive the maximal and average numbers of linear regions for one-layer ReLU CNNs. Furthermore, we obtain upper and lower bounds for the number of linear regions of multi-layer ReLU CNNs. Our results suggest that deeper CNNs have more powerful expressivity than their shallow counterparts, while CNNs have more expressivity than fully-connected NNs per parameter.
翻訳日:2022-11-26 06:12:17 公開日:2020-06-27
# stance in replies and quotes (srq): twitter会話におけるスタンス学習のための新しいデータセット

Stance in Replies and Quotes (SRQ): A New Dataset For Learning Stance in Twitter Conversations ( http://arxiv.org/abs/2006.00691v2 )

ライセンス: Link先を確認
Ramon Villa-Cox, Sumeet Kumar, Matthew Babcock, Kathleen M. Carley(参考訳) ソーシャルメディア上での会話からスタンス(否定対支持意見)を自動的に抽出する方法は、意見マイニング研究を進める上で不可欠である。 近年,最先端技術の改善を目指す新しいモデルが登場し,この分野に新たな興奮が高まっている。 しかし、モデルのトレーニングと評価には、使用されるデータセットが小さいことが多い。 さらに、これらの小さなデータセットは、不均一なクラス分布を持ち、すなわち、データセットの少数の例だけがスタンスを好んだり否定したりしており、他のほとんどの例は明確なスタンスを持っていない。 さらに、既存のデータセットは、ソーシャルメディア上のさまざまなタイプの会話(例えば、Twitterでの返信と引用)を区別しない。 このため、あるイベントでトレーニングされたモデルは、他のイベントに一般化されない。 提案する研究では,議論の多い問題に対するtwitter投稿(回答と引用の両方)に対する反応にスタンスをラベル付けすることで,新たなデータセットを作成する。 私たちの知る限り、これは現在5200以上のスタンスラベルを持つTwitter会話のための人間ラベル付きスタンスデータセットで最大のものだ。 さらに重要なことは、否定型応答の選択を好むツイート収集手法を設計したことである。 このクラスは、噂の特定やユーザー間の敵対関係の決定においてより有用であると期待されている。 さらに,会話の姿勢を学習し,様々なモデルの性能を比較するためのベースラインモデルも多数含んでいる。 姿勢学習に関して,回答と引用のデータを組み合わせることで,2つのモダリティが異なる振舞いを示すモデルの精度が低下することを示す。

Automated ways to extract stance (denying vs. supporting opinions) from conversations on social media are essential to advance opinion mining research. Recently, there is a renewed excitement in the field as we see new models attempting to improve the state-of-the-art. However, for training and evaluating the models, the datasets used are often small. Additionally, these small datasets have uneven class distributions, i.e., only a tiny fraction of the examples in the dataset have favoring or denying stances, and most other examples have no clear stance. Moreover, the existing datasets do not distinguish between the different types of conversations on social media (e.g., replying vs. quoting on Twitter). Because of this, models trained on one event do not generalize to other events. In the presented work, we create a new dataset by labeling stance in responses to posts on Twitter (both replies and quotes) on controversial issues. To the best of our knowledge, this is currently the largest human-labeled stance dataset for Twitter conversations with over 5200 stance labels. More importantly, we designed a tweet collection methodology that favors the selection of denial-type responses. This class is expected to be more useful in the identification of rumors and determining antagonistic relationships between users. Moreover, we include many baseline models for learning the stance in conversations and compare the performance of various models. We show that combining data from replies and quotes decreases the accuracy of models indicating that the two modalities behave differently when it comes to stance learning.
翻訳日:2022-11-26 05:55:00 公開日:2020-06-27
# DoubleU-Net: 医用画像分割のための深層畳み込みニューラルネットワーク

DoubleU-Net: A Deep Convolutional Neural Network for Medical Image Segmentation ( http://arxiv.org/abs/2006.04868v2 )

ライセンス: Link先を確認
Debesh Jha, Michael A. Riegler, Dag Johansen, P{\aa}l Halvorsen, H{\aa}vard D. Johansen(参考訳) 意味的イメージセグメンテーションは、画像の各ピクセルを対応するクラスにラベル付けするプロセスである。 U-Netのようなエンコーダ-デコーダベースのアプローチは、医療画像セグメンテーションタスクを解決するための一般的な戦略である。 様々なセグメンテーションタスクにおけるU-Netの性能向上を目的として,2つのU-Netアーキテクチャを組み合わせたDoubleU-Netアーキテクチャを提案する。 最初のU-Netは、訓練済みのVGG-19をエンコーダとして使用し、ImageNetから既に機能を学習しており、他のタスクに簡単に転送できる。 より効率的にセマンティックな情報をキャプチャするために、下部に別のU-Netを追加しました。 また、ネットワーク内のコンテキスト情報をキャプチャするために、ASPP(Atrous Spatial Pyramid Pooling)を採用している。 われわれはDoubleU-Netを4つの医用セグメンテーションデータセットを用いて評価し,大腸内視鏡,皮膚鏡,顕微鏡などの画像モダリティを網羅した。 miccai 2015 segmentation challenge, cvc-clinicdb, 2018 data science bowl challenge, and the lesion boundary segmentation datasetsの実験は、doubleu-netがu-netとベースラインモデルを上回ることを示している。 さらに、DoubleU-Netはより正確なセグメンテーションマスクを生成する。特にCVC-ClinicDBとMICCAI 2015セグメンテーションチャレンジデータセットでは、小さくフラットなポリープのような挑戦的なイメージを持つ。 これらの結果は既存のU-Netモデルよりも改善されたことを示している。 この結果から,DoubleU-Netは深層学習(DL)モデルの一般化性を評価するために,医用画像セグメンテーションとクロスデータセット評価テストの両方の強力なベースラインとして利用できることが示された。

Semantic image segmentation is the process of labeling each pixel of an image with its corresponding class. An encoder-decoder based approach, like U-Net and its variants, is a popular strategy for solving medical image segmentation tasks. To improve the performance of U-Net on various segmentation tasks, we propose a novel architecture called DoubleU-Net, which is a combination of two U-Net architectures stacked on top of each other. The first U-Net uses a pre-trained VGG-19 as the encoder, which has already learned features from ImageNet and can be transferred to another task easily. To capture more semantic information efficiently, we added another U-Net at the bottom. We also adopt Atrous Spatial Pyramid Pooling (ASPP) to capture contextual information within the network. We have evaluated DoubleU-Net using four medical segmentation datasets, covering various imaging modalities such as colonoscopy, dermoscopy, and microscopy. Experiments on the MICCAI 2015 segmentation challenge, the CVC-ClinicDB, the 2018 Data Science Bowl challenge, and the Lesion boundary segmentation datasets demonstrate that the DoubleU-Net outperforms U-Net and the baseline models. Moreover, DoubleU-Net produces more accurate segmentation masks, especially in the case of the CVC-ClinicDB and MICCAI 2015 segmentation challenge datasets, which have challenging images such as smaller and flat polyps. These results show the improvement over the existing U-Net model. The encouraging results, produced on various medical image segmentation datasets, show that DoubleU-Net can be used as a strong baseline for both medical image segmentation and cross-dataset evaluation testing to measure the generalizability of Deep Learning (DL) models.
翻訳日:2022-11-24 02:28:03 公開日:2020-06-27
# 海馬活動を用いたマウス精神分析のための深層学習に基づくストレス決定装置

Deep Learning-based Stress Determinator for Mouse Psychiatric Analysis using Hippocampus Activity ( http://arxiv.org/abs/2006.06862v2 )

ライセンス: Link先を確認
Donghan Liu, Benjamin C. M. Fung, Tak Pan Wong(参考訳) 伝達から情報を抽出して他の用途に利用するために神経細胞をデコードすることが神経科学者の研究の目的である。 神経科学の分野は現在、伝統的な手法を活用しているため、最先端のディープラーニング技術と、その達成の可能性について議論するニューロンデコード理論を組み合わせる。 また,海馬のニューロン活動に関連するストレスレベルについても統計的に検討した。 実験の結果, 最先端の深層学習に基づくストレス決定器は, モデル予測精度に優れた性能を示し, 各種環境下ではマウスのストレスレベルが等価であることを示す強い証拠が得られた。

Decoding neurons to extract information from transmission and employ them into other use is the goal of neuroscientists' study. Due to that the field of neuroscience is utilizing the traditional methods presently, we hence combine the state-of-the-art deep learning techniques with the theory of neuron decoding to discuss its potential of accomplishment. Besides, the stress level that is related to neuron activity in hippocampus is statistically examined as well. The experiments suggest that our state-of-the-art deep learning-based stress determinator provides good performance with respect to its model prediction accuracy and additionally, there is strong evidence against equivalence of mouse stress level under diverse environments.
翻訳日:2022-11-22 13:23:28 公開日:2020-06-27
# 学習行動オントロジー構築のためのAI-FMLロボットエージェントに関する研究

A Study on AI-FML Robotic Agent for Student Learning Behavior Ontology Construction ( http://arxiv.org/abs/2006.10228v2 )

ライセンス: Link先を確認
Chang-Shing Lee, Mei-Hui Wang, Wen-Kai Kuan, Zong-Han Ciou, Yi-Lin Tsai, Wei-Shan Chang, Lian-Chao Li, Naoyuki Kubota, Tzong-Xiang Huang, Eri Sato-Shimokawara, and Toru Yamaguchi(参考訳) 本稿では,学生の学習行動オントロジー構築のためのai-fmlロボットエージェントを提案する。 オントロジーを備えたAI-FMLロボットエージェントは、生徒の学習行動を分析するための知覚知能、計算知能、認知知能を含む。 さらに、AI-FMLロボットエージェントには、知覚エージェント、計算エージェント、認知エージェントを含む3つのインテリジェントエージェントがある。 知覚エージェントと認知エージェントをロボットkebbi airに配置する。 さらに、クラウド上でDeep Neural Network(DNN)モデルを用いた計算エージェントが実行され、インターネットを介して認識エージェントや認知エージェントと通信することができる。 提案するAI-FMLロボットエージェントは台湾で適用され,日本で試験されている。 実験の結果, エージェントは人間と機械の協調学習モデルに利用でき, 今後の教育に活用できることが示唆された。

In this paper, we propose an AI-FML robotic agent for student learning behavior ontology construction which can be applied in English speaking and listening domain. The AI-FML robotic agent with the ontology contains the perception intelligence, computational intelligence, and cognition intelligence for analyzing student learning behavior. In addition, there are three intelligent agents, including a perception agent, a computational agent, and a cognition agent in the AI-FML robotic agent. We deploy the perception agent and the cognition agent on the robot Kebbi Air. Moreover, the computational agent with the Deep Neural Network (DNN) model is performed in the cloud and can communicate with the perception agent and cognition agent via the Internet. The proposed AI-FML robotic agent is applied in Taiwan and tested in Japan. The experimental results show that the agents can be utilized in the human and machine co-learning model for the future education.
翻訳日:2022-11-19 14:17:17 公開日:2020-06-27
# G2D: 異常を検出するジェネレーション

G2D: Generate to Detect Anomaly ( http://arxiv.org/abs/2006.11629v2 )

ライセンス: Link先を確認
Masoud Pourreza, Bahram Mohammadi, Mostafa Khaki, Samir Bouindour, Hichem Snoussi, Mohammad Sabokrou(参考訳) 本稿では,不規則検出のための新しい手法を提案する。 これまでの研究では、利用可能なすべてのサンプルで参照モデルをトレーニングするワンクラス分類(occ)タスクとしてこの問題を解決している。 すると、テストサンプルが参照モデルからの逆転を持つ場合、異常であるとみなす。 generative adversarial networks (gans) は occ にとって最も有望な成果を上げた一方で,そのようなネットワーク,特に occ タスクの実装とトレーニングは,面倒で計算コストの高い手順である。 上記の課題に対処するため,2進分類タスクとして不規則検出を簡易かつ効果的に解決し,検出性能の向上とともに実装の容易化を図る。 我々は、通常のサンプルだけでGANスタイルの設定で2つのディープニューラルネットワーク(ジェネレータと判別器)を学習する。 訓練中、ジェネレータは徐々に専門家となり、通常のものと似たサンプルを生成する。 トレーニングフェーズでは、ジェネレータが正規データの生成に失敗した場合(学習の初期段階と完全収束前の段階で)、不規則生成器と見なすことができる。 このようにして不規則なサンプルを同時に生成します。 その後、異常を検出するために、生成した異常サンプルのバイナリ分類器を通常の例と共に訓練する。 提案手法は,画像と映像における異常検出と異常検出の異なる関連アプリケーションに適用できる。 その結果,提案手法はベースラインや最先端のソリューションよりも優れていることがわかった。

In this paper, we propose a novel method for irregularity detection. Previous researches solve this problem as a One-Class Classification (OCC) task where they train a reference model on all of the available samples. Then, they consider a test sample as an anomaly if it has a diversion from the reference model. Generative Adversarial Networks (GANs) have achieved the most promising results for OCC while implementing and training such networks, especially for the OCC task, is a cumbersome and computationally expensive procedure. To cope with the mentioned challenges, we present a simple but effective method to solve the irregularity detection as a binary classification task in order to make the implementation easier along with improving the detection performance. We learn two deep neural networks (generator and discriminator) in a GAN-style setting on merely the normal samples. During training, the generator gradually becomes an expert to generate samples which are similar to the normal ones. In the training phase, when the generator fails to produce normal data (in the early stages of learning and also prior to the complete convergence), it can be considered as an irregularity generator. In this way, we simultaneously generate the irregular samples. Afterward, we train a binary classifier on the generated anomalous samples along with the normal instances in order to be capable of detecting irregularities. The proposed framework applies to different related applications of outlier and anomaly detection in images and videos, respectively. The results confirm that our proposed method is superior to the baseline and state-of-the-art solutions.
翻訳日:2022-11-18 22:29:33 公開日:2020-06-27
# ブロックワイド影響関数によるリカレントニューラルネットワークの周波数不確かさ

Frequentist Uncertainty in Recurrent Neural Networks via Blockwise Influence Functions ( http://arxiv.org/abs/2006.13707v2 )

ライセンス: Link先を確認
Ahmed M. Alaa, Mihaela van der Schaar(参考訳) リカレントニューラルネットワーク(RNN)は、シーケンシャルおよび時系列データのモデリングに有効である。 しかし, 意思決定にRNNを使う場合, 予測だけでは不十分であり, 予測の不確実性も予測する必要がある。 RNNにおける既存の不確実性定量化のアプローチは、主にベイズ的手法に基づいており、これらは計算的に禁止されており、RNNアーキテクチャとトレーニングに大きな変更を必要とする。 古典的なジャックニフェの再サンプリングのアイデアに乗じて、我々は頻繁な代替案を開発する。 (a)モデルの訓練に干渉したり、精度を損なわない。 (b)任意のRNNアーキテクチャに適用し、 (c)推定不確実区間に関する理論的カバレッジ保証を提供する。 本手法は,RNN出力の(時空間関連)トレーニングデータのブロックを繰り返し削除し,残りのデータに基づいて再学習したRNNの予測を収集することにより,(ジャッキニフェ)サンプリング分布のばらつきから予測の不確かさを導出する。 本研究では,学習したRNNパラメータに対する学習データブロックの除去効果を推定するために,影響関数を利用する。 批判的ケア環境からのデータを用いて, 逐次意思決定における不確実性定量化の有用性を示す。

Recurrent neural networks (RNNs) are instrumental in modelling sequential and time-series data. Yet, when using RNNs to inform decision-making, predictions by themselves are not sufficient; we also need estimates of predictive uncertainty. Existing approaches for uncertainty quantification in RNNs are based predominantly on Bayesian methods; these are computationally prohibitive, and require major alterations to the RNN architecture and training. Capitalizing on ideas from classical jackknife resampling, we develop a frequentist alternative that: (a) does not interfere with model training or compromise its accuracy, (b) applies to any RNN architecture, and (c) provides theoretical coverage guarantees on the estimated uncertainty intervals. Our method derives predictive uncertainty from the variability of the (jackknife) sampling distribution of the RNN outputs, which is estimated by repeatedly deleting blocks of (temporally-correlated) training data, and collecting the predictions of the RNN re-trained on the remaining data. To avoid exhaustive re-training, we utilize influence functions to estimate the effect of removing training data blocks on the learned RNN parameters. Using data from a critical care setting, we demonstrate the utility of uncertainty quantification in sequential decision-making.
翻訳日:2022-11-18 22:19:42 公開日:2020-06-27
# 患者ゼロを見つける: グラフニューラルネットワークによる伝染源の学習

Finding Patient Zero: Learning Contagion Source with Graph Neural Networks ( http://arxiv.org/abs/2006.11913v2 )

ライセンス: Link先を確認
Chintan Shah, Nima Dehmamy, Nicola Perra, Matteo Chinazzi, Albert-L\'aszl\'o Barab\'asi, Alessandro Vespignani, Rose Yu(参考訳) 感染源の特定、すなわち患者ゼロ(P0)は、感染の感染経路に対する重要な洞察を与え、効率的な資源配分を可能にする。 既存の方法はグラフ理論の集中度測定と高価なメッセージパスアルゴリズムを使い、基礎となる力学とそのパラメータの知識を必要とする。 本稿では,グラフニューラルネットワーク(GNN)を用いてこの問題を再検討し,P0を学習する。 疫病モデルにおけるp0の同定に関する理論的限界を定式化する。 新型ウイルスの病歴と特徴を考慮した総合的および実世界の接触ネットワーク上での異なる流行モデルに対する手法を評価した。 % GNNは, 動的パラメータやパラメータを明示的に入力することなく, 精度の理論的境界に近いP0を同定できる。 さらに、GNNは任意のグラフトポロジを推論する従来の手法よりも100倍以上高速である。 理論上は、流行は時計のようなもので、初期の接触追跡の重要性を強調している。 使用するアルゴリズムによらず,ソースの正確な回復が不可能になるまでの最大時間を求める。

Locating the source of an epidemic, or patient zero (P0), can provide critical insights into the infection's transmission course and allow efficient resource allocation. Existing methods use graph-theoretic centrality measures and expensive message-passing algorithms, requiring knowledge of the underlying dynamics and its parameters. In this paper, we revisit this problem using graph neural networks (GNNs) to learn P0. We establish a theoretical limit for the identification of P0 in a class of epidemic models. We evaluate our method against different epidemic models on both synthetic and a real-world contact network considering a disease with history and characteristics of COVID-19. % We observe that GNNs can identify P0 close to the theoretical bound on accuracy, without explicit input of dynamics or its parameters. In addition, GNN is over 100 times faster than classic methods for inference on arbitrary graph topologies. Our theoretical bound also shows that the epidemic is like a ticking clock, emphasizing the importance of early contact-tracing. We find a maximum time after which accurate recovery of the source becomes impossible, regardless of the algorithm used.
翻訳日:2022-11-18 12:42:32 公開日:2020-06-27
# 時間的テキスト・アソシエーション学習のための弱視と参照注意

Weak Supervision and Referring Attention for Temporal-Textual Association Learning ( http://arxiv.org/abs/2006.11747v2 )

ライセンス: Link先を確認
Zhiyuan Fang, Shu Kong, Zhe Wang, Charless Fowlkes, Yezhou Yang(参考訳) ビデオフレームとテキストクエリの関係をキャプチャするシステムは、より良いビデオ分析に大きな可能性を秘めている。 しかし、このようなシステムを完全に教師された方法でトレーニングするには、時間-テクスチュアルなアノテーションで慎重にキュレートされたビデオデータセットが必要である。 そこで本稿では,時間的テクスト関連性(WSRA)を学習するための参照注意機構を提案する。 弱い監督は、単にビデオレベルでのテキスト表現(例えば、短いフレーズや文)であり、このビデオが関連するフレームを含んでいることを示す。 参照注意は,与えられた問合せをフレーム上で時間的に接地するためのスコアリング機能として機能する機構である。 複数の新しい損失とより良い訓練のためのサンプリング戦略で構成されている。 私たちの設計したメカニズムの原理は 1)テキストクエリをアンカーとしたビデオ内セグメントからの情報的および判別的手がかりを考慮した弱い監督 2)単一のビデオと比較して複数のクエリ、そして 3)クロスビデオ視覚類似性。 言語による時間的接地のための広範囲な実験を通じて、WSRAを検証し、最先端の弱い教師付き手法よりも優れていることを示す。

A system capturing the association between video frames and textual queries offer great potential for better video analysis. However, training such a system in a fully supervised way inevitably demands a meticulously curated video dataset with temporal-textual annotations. Therefore we provide a Weak-Supervised alternative with our proposed Referring Attention mechanism to learn temporal-textual association (dubbed WSRA). The weak supervision is simply a textual expression (e.g., short phrases or sentences) at video level, indicating this video contains relevant frames. The referring attention is our designed mechanism acting as a scoring function for grounding the given queries over frames temporally. It consists of multiple novel losses and sampling strategies for better training. The principle in our designed mechanism is to fully exploit 1) the weak supervision by considering informative and discriminative cues from intra-video segments anchored with the textual query, 2) multiple queries compared to the single video, and 3) cross-video visual similarities. We validate our WSRA through extensive experiments for temporally grounding by languages, demonstrating that it outperforms the state-of-the-art weakly-supervised methods notably.
翻訳日:2022-11-18 12:25:32 公開日:2020-06-27
# ディープニューラルネットワークによる文脈情報の爆発

Exploiting Contextual Information with Deep Neural Networks ( http://arxiv.org/abs/2006.11706v2 )

ライセンス: Link先を確認
Ismail Elezi(参考訳) コンテキストが重要だ! それにもかかわらず、深層ニューラルネットワークにおける文脈情報の利用に関する多くの研究は行われていない。 ほとんどの部分において、コンテキスト情報の利用はリカレントニューラルネットワークに限られている。 注意モデルとカプセルネットワークは、非リカレントモデルに文脈情報を導入する2つの最近の方法であるが、これらのアルゴリズムは、この研究が始まってから開発されている。 本論文では,コンテキスト情報を,暗黙的および明示的に,根本的に異なる2つの方法で活用できることを示す。 deepscoreプロジェクトでは、多くの小さなオブジェクトの認識にコンテキストの使用が非常に重要であるが、畳み込みアーキテクチャを慎重に作ることで、最先端の成果を実現できると同時に、事実上同一だがその周囲に基づいて異なる意味を持つオブジェクトを暗黙的に正確に区別できることを示す。 並行して、データセットの全体構造を考慮したアルゴリズム(グラフ理論とゲーム理論の動機)を明示的に設計することで、半教師付き学習や類似性学習のような異なるトピックで最先端の結果が得られることを示す。 我々の知る限りでは、我々はグラフ理論のモジュールを最初に統合し、類似性学習の問題に慎重に設計し、他のモデルよりも優れているだけでなく、より少ないパラメータを用いて、より高速な改善を実現するように設計されている。

Context matters! Nevertheless, there has not been much research in exploiting contextual information in deep neural networks. For most part, the entire usage of contextual information has been limited to recurrent neural networks. Attention models and capsule networks are two recent ways of introducing contextual information in non-recurrent models, however both of these algorithms have been developed after this work has started. In this thesis, we show that contextual information can be exploited in 2 fundamentally different ways: implicitly and explicitly. In the DeepScore project, where the usage of context is very important for the recognition of many tiny objects, we show that by carefully crafting convolutional architectures, we can achieve state-of-the-art results, while also being able to implicitly correctly distinguish between objects which are virtually identical, but have different meanings based on their surrounding. In parallel, we show that by explicitly designing algorithms (motivated from graph theory and game theory) that take into considerations the entire structure of the dataset, we can achieve state-of-the-art results in different topics like semi-supervised learning and similarity learning. To the best of our knowledge, we are the first to integrate graph-theoretical modules, carefully crafted for the problem of similarity learning and that are designed to consider contextual information, not only outperforming the other models, but also gaining a speed improvement while using a smaller number of parameters.
翻訳日:2022-11-18 12:14:40 公開日:2020-06-27
# B\'ezier生成逆数ネットワークを用いた翼設計パラメータ化と最適化

Airfoil Design Parameterization and Optimization using B\'ezier Generative Adversarial Networks ( http://arxiv.org/abs/2006.12496v2 )

ライセンス: Link先を確認
Wei Chen, Kevin Chiu, Mark Fuge(参考訳) 空力形状のグローバルな最適化は通常、設計空間の高次元性のため、多くの高価な計算流体力学シミュレーションを必要とする。 この問題を解決する一つのアプローチは、新しい表現を得ることで設計空間の次元を減らすことである。 これは、形状の有用な変化をコンパクトかつ十分に記述するパラメトリック関数を必要とする。 本稿では,既存のデータベースの形状変化から空気力学設計をパラメータ化するための深層生成モデルB\'ezier-GANを提案する。 結果として得られた新しいパラメータ化は、十分な表現容量を維持しつつ表現コンパクト性を向上させることによって設計最適化の収束を加速することができる。 エアフォイルの設計を例に挙げ、b\'ezier-ganの表現能力とコンパクト性を分析した。 その結果、B\'ezier-GANは、(1)幅広い翼の滑らかで現実的な形状表現を学習し、(2)最先端パラメータ化法と比較して、少なくとも2倍の最適化収束を経験的に加速することがわかった。

Global optimization of aerodynamic shapes usually requires a large number of expensive computational fluid dynamics simulations because of the high dimensionality of the design space. One approach to combat this problem is to reduce the design space dimension by obtaining a new representation. This requires a parametric function that compactly and sufficiently describes useful variation in shapes. We propose a deep generative model, B\'ezier-GAN, to parameterize aerodynamic designs by learning from shape variations in an existing database. The resulted new parameterization can accelerate design optimization convergence by improving the representation compactness while maintaining sufficient representation capacity. We use the airfoil design as an example to demonstrate the idea and analyze B\'ezier-GAN's representation capacity and compactness. Results show that B\'ezier-GAN both (1) learns smooth and realistic shape representations for a wide range of airfoils and (2) empirically accelerates optimization convergence by at least two times compared to state-of-the-art parameterization methods.
翻訳日:2022-11-18 12:06:31 公開日:2020-06-27
# 自己回帰モデルのための局所マスク畳み込み

Locally Masked Convolution for Autoregressive Models ( http://arxiv.org/abs/2006.12486v3 )

ライセンス: Link先を確認
Ajay Jain and Pieter Abbeel and Deepak Pathak(参考訳) 高次元生成モデルは画像圧縮、マルチメディア生成、異常検出、データ補完など多くの応用がある。 自然画像の最先端推定器は自己回帰的であり、ピクセル間の結合分布を深層ニューラルネットワーク、例えばPixelCNNのような畳み込みニューラルネットワークによってパラメータ化された条件の積に分解する。 しかし、pixelcnnsはジョイントの単一の分解のみをモデル化し、単一の生成順序のみが効率的である。 画像補完のようなタスクでは、これらのモデルは観測された文脈の多くを利用できない。 任意の順序でデータを生成するために、画像の各位置の重みに任意のマスクを適用することができる標準の2d畳み込みの簡単な修正であるlmconvを導入する。 lmconvを用いて、パラメータを共有しながら生成順序が異なる分布推定器のアンサンブルを学習し、全画像密度推定(無条件cifar10における2.89bpd)およびグローバルコヒーレント画像補完の性能向上を実現する。 私たちのコードはhttps://ajayjain.github.io/lmconvで利用可能です。

High-dimensional generative models have many applications including image compression, multimedia generation, anomaly detection and data completion. State-of-the-art estimators for natural images are autoregressive, decomposing the joint distribution over pixels into a product of conditionals parameterized by a deep neural network, e.g. a convolutional neural network such as the PixelCNN. However, PixelCNNs only model a single decomposition of the joint, and only a single generation order is efficient. For tasks such as image completion, these models are unable to use much of the observed context. To generate data in arbitrary orders, we introduce LMConv: a simple modification to the standard 2D convolution that allows arbitrary masks to be applied to the weights at each location in the image. Using LMConv, we learn an ensemble of distribution estimators that share parameters but differ in generation order, achieving improved performance on whole-image density estimation (2.89 bpd on unconditional CIFAR10), as well as globally coherent image completions. Our code is available at https://ajayjain.github.io/lmconv.
翻訳日:2022-11-18 04:20:26 公開日:2020-06-27
# アンカーに基づくスペクトルクラスタリングの一貫性

Consistency of Anchor-based Spectral Clustering ( http://arxiv.org/abs/2006.13984v2 )

ライセンス: Link先を確認
Henry-Louis de Kergorlay, Desmond John Higham(参考訳) アンカーベースの手法はスペクトルクラスタリングアルゴリズムの計算複雑性を低減する。 実証実験では有望な結果が得られたが、現在アンカーアプローチに対する理論的サポートが不足している。 我々は、特定のアンカーベースのアルゴリズムを定義し、厳密な分析が可能であり、実際は有効であることを示す。 本研究では, 連続確率分布からデータをサンプリングする漸近的条件下での手法の理論的整合性を確立する。 特に,アルゴリズムパラメータに対して鋭い漸近条件を提供し,正距離で互いに分離された高確率不整合クラスタでアンカーベースの手法が回復できることを保証する。 本稿では,合成データに対するアルゴリズムの性能を説明し,理論収束解析がパラメータスケーリングの実用的選択にどのように役立つかを説明する。 また,2つの大規模実データ集合上でアルゴリズムの精度と効率をテストした。 このアルゴリズムは標準スペクトルクラスタリングよりも明確な利点がある。 また,Chen と Cai の最先端の LSC 手法 (第25回AIAAI 会議 2011) と競合する一方で,一貫性保証の付加的なメリットがあることが判明した。

Anchor-based techniques reduce the computational complexity of spectral clustering algorithms. Although empirical tests have shown promising results, there is currently a lack of theoretical support for the anchoring approach. We define a specific anchor-based algorithm and show that it is amenable to rigorous analysis, as well as being effective in practice. We establish the theoretical consistency of the method in an asymptotic setting where data is sampled from an underlying continuous probability distribution. In particular, we provide sharp asymptotic conditions for the algorithm parameters which ensure that the anchor-based method can recover with high probability disjoint clusters that are mutually separated by a positive distance. We illustrate the performance of the algorithm on synthetic data and explain how the theoretical convergence analysis can be used to inform the practical choice of parameter scalings. We also test the accuracy and efficiency of the algorithm on two large scale real data sets. We find that the algorithm offers clear advantages over standard spectral clustering. We also find that it is competitive with the state-of-the-art LSC method of Chen and Cai (Twenty-Fifth AAAI Conference on Artificial Intelligence, 2011), while having the added benefit of a consistency guarantee.
翻訳日:2022-11-17 10:08:41 公開日:2020-06-27
# 部分モジュラー関数の凹面

Concave Aspects of Submodular Functions ( http://arxiv.org/abs/2006.16784v1 )

ライセンス: Link先を確認
Rishabh Iyer and Jeff Bilmes(参考訳) 部分モジュラ函数は集合関数の特別なクラスであり、エントロピーや相互情報 [1] のような情報理論の量を一般化する。 部分モジュラ函数は次数と次数 [2] を持ち、最小化のための多項式時間アルゴリズムを許容するが、どちらも凸函数の基本的特性である。 部分モジュラ函数も凹凸と同様の符号を示す。 部分モジュラー関数の最大化はnpハードであるが、定数近似の保証を認め、モジュラー関数からなる凹関数は部分モジュラーである。 本稿では, 部分モジュラリティと凹凸の関係について, より完全な図式化を試みる。 上界に付随する超微分と多面体を特徴付け、超微分を用いた部分モジュラー最大化の最適条件を提供する。 この論文は、我々のより長いプレプリント [3] の簡潔で短いバージョンである。

Submodular Functions are a special class of set functions, which generalize several information-theoretic quantities such as entropy and mutual information [1]. Submodular functions have subgradients and subdifferentials [2] and admit polynomial-time algorithms for minimization, both of which are fundamental characteristics of convex functions. Submodular functions also show signs similar to concavity. Submodular function maximization, though NP-hard, admits constant-factor approximation guarantees, and concave functions composed with modular functions are submodular. In this paper, we try to provide a more complete picture of the relationship between submodularity with concavity. We characterize the super-differentials and polyhedra associated with upper bounds and provide optimality conditions for submodular maximization using the-super differentials. This paper is a concise and shorter version of our longer preprint [3].
翻訳日:2022-11-16 08:20:01 公開日:2020-06-27
# SimGANs: 深部ECG分類を改善するためのECG合成のためのシミュレータベースの生成逆ネットワーク

SimGANs: Simulator-Based Generative Adversarial Networks for ECG Synthesis to Improve Deep ECG Classification ( http://arxiv.org/abs/2006.15353v1 )

ライセンス: Link先を確認
Tomer Golany, Daniel Freedman and Kira Radinsky(参考訳) 教師付きタスクのトレーニング例を生成することは、AIの長年の目標である。 心拍分類における心信号心電図(ecg)合成の問題点について検討した。 このような生物学的・生理的システムの訓練例の生成は、システムの様々な部分が複雑な方法で相互作用する動的性質のため、単純ではない。 しかし、これらの力学の理解は数理プロセスシミュレーターの形で長年発展してきた。 生物シミュレータをECG分類のタスクに活用することにより,この知識を生成プロセスに組み込む方法について検討する。 具体的には、心臓動態を表す常微分方程式の系を用いて、このODE系を生成逆数ネットワークの最適化プロセスに組み込んで、生物学的に妥当なECGトレーニング例を作成する。 心電図の分類において,心電図作成過程における心臓シミュレーションの知識が向上することを示す。

Generating training examples for supervised tasks is a long sought after goal in AI. We study the problem of heart signal electrocardiogram (ECG) synthesis for improved heartbeat classification. ECG synthesis is challenging: the generation of training examples for such biological-physiological systems is not straightforward, due to their dynamic nature in which the various parts of the system interact in complex ways. However, an understanding of these dynamics has been developed for years in the form of mathematical process simulators. We study how to incorporate this knowledge into the generative process by leveraging a biological simulator for the task of ECG classification. Specifically, we use a system of ordinary differential equations representing heart dynamics, and incorporate this ODE system into the optimization process of a generative adversarial network to create biologically plausible ECG training examples. We perform empirical evaluation and show that heart simulation knowledge during the generation process improves ECG classification.
翻訳日:2022-11-16 08:18:03 公開日:2020-06-27
# 完全適応フィードバックによる影響最大化の適応ギャップに関するより良い境界

Better Bounds on the Adaptivity Gap of Influence Maximization under Full-adoption Feedback ( http://arxiv.org/abs/2006.15374v1 )

ライセンス: Link先を確認
Gianlorenzo D'Angelo, Debashmita Poddar, Cosimo Vinci(参考訳) 影響最大化(im)問題では、ソーシャルネットワークと予算$k$が与えられ、影響拡散の確率モデルによれば、その影響カスケードによって生じる影響カスケードによって達成される期待ノード数を最大化する、seedと呼ばれるネットワーク内の一連の$k$ノードを探します。 本稿では,ノードを順次1つずつ選択する適応型imについて検討し,最初の$i-1$シードが生成する観察したカスケードに基づいて,$i$thシードの決定を行う。 我々は,事前に選択した各種子のカスケード全体を観察できるフルオプションフィードバックと,各エッジが拡散する影響の独立確率に関連付けられる独立カスケードモデルに注目した。 私たちの主な結果は、任意のグラフに対する最初の部分線型上界です。 具体的には、適応性ギャップが$\lceil n^{1/3}\rceil $によって上界であることを示し、$n$はグラフ内のノードの数である。 さらに, in-arborescenceの既知の上限を$\frac{2e}{e-1}\approx 3.16$から$\frac{2e^2}{e^2-1}\approx 2.31$に改善する。 最後に、次数 2 以上のノードの和が少なくとも$\alpha$であるような非方向グラフのクラスである $\alpha$-bounded graphs を研究し、適応性ギャップが $\sqrt{\alpha}+O(1)$ で上界であることを示す。 さらに、0-有界グラフ、すなわち各連結成分が経路あるいはサイクルである無向グラフにおいて、適応性ギャップは最大$\frac{3e^3}{e^3-1}\approx 3.16$であることを示す。 我々の限界を証明するために、適応政策と、彼ら自身の関心を持つ可能性のある非適応政策を関連付ける新しい手法を導入する。

In the influence maximization (IM) problem, we are given a social network and a budget $k$, and we look for a set of $k$ nodes in the network, called seeds, that maximize the expected number of nodes that are reached by an influence cascade generated by the seeds, according to some stochastic model for influence diffusion. In this paper, we study the adaptive IM, where the nodes are selected sequentially one by one, and the decision on the $i$th seed can be based on the observed cascade produced by the first $i-1$ seeds. We focus on the full-adoption feedback in which we can observe the entire cascade of each previously selected seed and on the independent cascade model where each edge is associated with an independent probability of diffusing influence. Our main result is the first sub-linear upper bound that holds for any graph. Specifically, we show that the adaptivity gap is upper-bounded by $\lceil n^{1/3}\rceil $, where $n$ is the number of nodes in the graph. Moreover, we improve over the known upper bound for in-arborescences from $\frac{2e}{e-1}\approx 3.16$ to $\frac{2e^2}{e^2-1}\approx 2.31$. Finally, we study $\alpha$-bounded graphs, a class of undirected graphs in which the sum of node degrees higher than two is at most $\alpha$, and show that the adaptivity gap is upper-bounded by $\sqrt{\alpha}+O(1)$. Moreover, we show that in 0-bounded graphs, i.e. undirected graphs in which each connected component is a path or a cycle, the adaptivity gap is at most $\frac{3e^3}{e^3-1}\approx 3.16$. To prove our bounds, we introduce new techniques to relate adaptive policies with non-adaptive ones that might be of their own interest.
翻訳日:2022-11-16 08:17:48 公開日:2020-06-27
# 脊椎CTデータにおける患者位置の自動推定ツール

A Tool for Automatic Estimation of Patient Position in Spinal CT Data ( http://arxiv.org/abs/2006.15330v1 )

ライセンス: Link先を確認
Roman Jakubicek and Tomas Vicar and Jiri Chmelik(参考訳) 最近利用可能な研究や課題データの多くは、患者の位置に関する情報を含むメタデータを欠いている。 本稿では,CTデータを標準化(HFS)患者位置に自動回転させるツールを提案する。 提案手法はcnnによる回転角の予測に基づくもので,99.55 %の精度でほぼ完璧な結果を得た。 我々は,例えば VerSe2020 チャレンジデータの自動回転補正に使用可能な,Matlab と Python (PyTorch) のサンプルを,容易に使用可能な実装を提供する。

Much of the recently available research and challenge data lack the meta-data containing any information about the patient position. This paper presents a tool for automatic rotation of CT data into a standardized (HFS) patient position. The proposed method is based on the prediction of rotation angle with CNN, and it achieved nearly perfect results with an accuracy of 99.55 %. We provide implementations with easy to use an example for both Matlab and Python (PyTorch), which can be used, for example, for automatic rotation correction of VerSe2020 challenge data.
翻訳日:2022-11-16 08:17:10 公開日:2020-06-27
# 教師なし・半教師付きオートエンコーダとガンマトン音響表現を用いた異常音検出

Anomalous Sound Detection using unsupervised and semi-supervised autoencoders and gammatone audio representation ( http://arxiv.org/abs/2006.15321v1 )

ライセンス: Link先を確認
Sergi Perez-Castanos, Javier Naranjo-Alcazar, Pedro Zuccarello and Maximo Cobos(参考訳) 異常音検出(ASD)は近年,機械聴取分野における話題の一つとなっている。 教師なし検出は、多くの分野ですぐに適用できるため、多くの関心を集めている。 例えば、産業プロセスに関連して、機械の故障や損傷を早期に検出することは、大きな節約と産業プロセスの効率の向上を意味する。 この問題は、このオーディオデータをトレーニング段階で持つだけでは産業機械が損傷を受けないため、教師なしのSDソリューションで解決できる。 本稿では,畳み込み型オートエンコーダ(教師なしと半教師付きの両方)とガンマトンに基づく音声表現に基づく新しいフレームワークを提案する。 これらのアーキテクチャによって得られた結果は、ベースラインとして提示された結果を大幅に上回る。

Anomalous sound detection (ASD) is, nowadays, one of the topical subjects in machine listening discipline. Unsupervised detection is attracting a lot of interest due to its immediate applicability in many fields. For example, related to industrial processes, the early detection of malfunctions or damage in machines can mean great savings and an improvement in the efficiency of industrial processes. This problem can be solved with an unsupervised ASD solution since industrial machines will not be damaged simply by having this audio data in the training stage. This paper proposes a novel framework based on convolutional autoencoders (both unsupervised and semi-supervised) and a Gammatone-based representation of the audio. The results obtained by these architectures substantially exceed the results presented as a baseline.
翻訳日:2022-11-16 08:17:01 公開日:2020-06-27
# 自動運転テストの事故から学んだ教訓--エッジ学習支援オフロードフレームワーク

Lessons Learned from Accident of Autonomous Vehicle Testing: An Edge Learning-aided Offloading Framework ( http://arxiv.org/abs/2006.15382v1 )

ライセンス: Link先を確認
Bo Yang, Xuelin Cao, Xiangfang Li, Chau Yuen, and Lijun Qian(参考訳) 本稿では、エッジサーバにディープラーニングタスクをオフロードして、遅延制約を満たしながら推論精度を向上させる、自動運転のためのエッジ学習ベースのオフロードフレームワークを提案する。 遅延と推論精度は無線通信と計算によって引き起こされるので、オフロード確率、プリブレーキ確率、データ品質の推論精度を最大化するために最適化問題を定式化する。 シミュレーションは、提案されたオフロードフレームワークの優位性を示す。

This letter proposes an edge learning-based offloading framework for autonomous driving, where the deep learning tasks can be offloaded to the edge server to improve the inference accuracy while meeting the latency constraint. Since the delay and the inference accuracy are incurred by wireless communications and computing, an optimization problem is formulated to maximize the inference accuracy subject to the offloading probability, the pre-braking probability, and data quality. Simulations demonstrate the superiority of the proposed offloading framework.
翻訳日:2022-11-16 08:16:49 公開日:2020-06-27
# 複合物理層を有する学習センシングネットワークによる多素子顕微鏡最適化

Multi-element microscope optimization by a learned sensing network with composite physical layers ( http://arxiv.org/abs/2006.15404v1 )

ライセンス: Link先を確認
Kanghyun Kim, Pavan Chandra Konda, Colin L. Cooke, Ron Appel, Roarke Horstmeyer(参考訳) 標準顕微鏡は、内視鏡使用者に異なる標本の視認性を改善するための様々な設定を提供する。 しかし、デジタル顕微鏡はコンピュータアルゴリズム(特徴分類、検出、セグメンテーションなど)による自動解釈のために画像を取り込むために使われるようになり、しばしば人間の関与を伴わない。 本研究では,複数の顕微鏡設定を分類ネットワークとともに協調的に最適化し,自動作業による性能向上を図る。 プログラム可能な照明の最適化と瞳孔透過の相互関係について検討し,実験的に画像化された血液スミアを用いてマラリア原虫検出を行い,複数要素の「学習センシング」が単一要素よりも優れていることを示す。 人間の解釈には必ずしも理想的ではないが、結果として生じる低解像度顕微鏡画像(20X-comparable)は、対応する高解像度画像(100X-comparable)の分類性能に匹敵する十分なコントラストを持つ機械学習ネットワークを提供する。

Standard microscopes offer a variety of settings to help improve the visibility of different specimens to the end microscope user. Increasingly, however, digital microscopes are used to capture images for automated interpretation by computer algorithms (e.g., for feature classification, detection or segmentation), often without any human involvement. In this work, we investigate an approach to jointly optimize multiple microscope settings, together with a classification network, for improved performance with such automated tasks. We explore the interplay between optimization of programmable illumination and pupil transmission, using experimentally imaged blood smears for automated malaria parasite detection, to show that multi-element "learned sensing" outperforms its single-element counterpart. While not necessarily ideal for human interpretation, the network's resulting low-resolution microscope images (20X-comparable) offer a machine learning network sufficient contrast to match the classification performance of corresponding high-resolution imagery (100X-comparable), pointing a path towards accurate automation over large fields-of-view.
翻訳日:2022-11-16 08:16:41 公開日:2020-06-27
# 仮想環境における不快感最小化戦略の自動推奨

Automatic Recommendation of Strategies for Minimizing Discomfort in Virtual Environments ( http://arxiv.org/abs/2006.15432v1 )

ライセンス: Link先を確認
Thiago Porcino, Esteban Clua, Daniela Trevisan, \'Erick Rodrigues, Alexandre Silva(参考訳) バーチャルリアリティ(VR)は、ゲーム、教育、エンターテイメント、軍事、健康アプリケーションにおいて差し迫ったトレンドであり、ヘッドマウントディスプレイの使用が大衆市場に浸透しつつある。 仮想現実は没入的な体験を提供するが、サイバーシックネス(cybersickness, cs)の問題から完全に完璧な状況を提供していない。 本稿では,まずcsの原因に関する詳細なレビューを行った。 次に,新しいCS予測手法を提案する。 当社のシステムでは,ユーザがアプリケーションの次の瞬間に病気状態に陥っているかどうかを示唆することができる。 作成したデータセットに基づいてランダムフォレスト分類器を使用します。 CSPQ (Cybersickness Profile Questionnaire) も提案され、CSとデータセット構築に対するプレイヤーの感受性を特定するために使用される。 さらに,2つの没入型環境をデザインし,参加者にアンケートを完了させ,ゲーム体験における不快感の程度を(口頭で)説明した。 私たちのデータは、vrデバイスを使用して、異なる日に84人の個人で達成されました。 提案ではまた,観察された不快な状況において最も頻繁な属性(原因)を特定できる。

Virtual reality (VR) is an imminent trend in games, education, entertainment, military, and health applications, as the use of head-mounted displays is becoming accessible to the mass market. Virtual reality provides immersive experiences but still does not offer an entirely perfect situation, mainly due to Cybersickness (CS) issues. In this work, we first present a detailed review about possible causes of CS. Following, we propose a novel CS prediction solution. Our system is able to suggest if the user may be entering in the next moments of the application into an illness situation. We use Random Forest classifiers, based on a dataset we have produced. The CSPQ (Cybersickness Profile Questionnaire) is also proposed, which is used to identify the player's susceptibility to CS and the dataset construction. In addition, we designed two immersive environments for empirical studies where participants are asked to complete the questionnaire and describe (orally) the degree of discomfort during their gaming experience. Our data was achieved through 84 individuals on different days, using VR devices. Our proposal also allows us to identify which are the most frequent attributes (causes) in the observed discomfort situations.
翻訳日:2022-11-16 08:16:09 公開日:2020-06-27
# 小さなアドバイスによるキュー

Queues with Small Advice ( http://arxiv.org/abs/2006.15463v1 )

ライセンス: Link先を確認
Michael Mitzenmacher(参考訳) 予測されたジョブサイズでのスケジューリングに関する最近の研究により、最小限のアドバイスでスケジューリングアルゴリズムの性能を考える。 非常に限られたアドバイスの力を示すことに加えて、そのようなスキームは極めて自然なものである。 予測設定では、あるジョブが「大きい」か「小さい」かという単純な予測、つまりあるジョブが与えられたしきい値以上か以下かをモデル化するために、1つのアドバイスを使うことができる。 さらに、1ビットのアドバイススキームは、キューの前面または背面にジョブを置くかどうかを指示するメカニズムに対応できる。 最後に、1ビットのアドバイスを持つキューは、2つの選択のパワーのために制限平均場分析フレームワークで解析できるだけの単純な状態を持っている。 我々の研究は最近の研究の道を辿り、たとえ少ない量の不正確な情報であってもスケジューリング性能を大幅に改善できることを示した。

Motivated by recent work on scheduling with predicted job sizes, we consider the performance of scheduling algorithms with minimal advice, namely a single bit. Besides demonstrating the power of very limited advice, such schemes are quite natural. In the prediction setting, one bit of advice can be used to model a simple prediction as to whether a job is "large" or "small"; that is, whether a job is above or below a given threshold. Further, one-bit advice schemes can correspond to mechanisms that tell whether to put a job at the front or the back for the queue, a limitation which may be useful in many implementation settings. Finally, queues with a single bit of advice have a simple enough state that they can be analyzed in the limiting mean-field analysis framework for the power of two choices. Our work follows in the path of recent work by showing that even small amounts of even possibly inaccurate information can greatly improve scheduling performance.
翻訳日:2022-11-16 08:15:48 公開日:2020-06-27
# 連続進化ネットワークにおける永続的なマイニング活動

Mining Persistent Activity in Continually Evolving Networks ( http://arxiv.org/abs/2006.15410v1 )

ライセンス: Link先を確認
Caleb Belth, Xinyi Zheng, Danai Koutra(参考訳) 頻繁なパターンマイニングは、社会や道路網などの進化するネットワークの構造とダイナミクスに関する洞察を与える重要な研究分野である。 しかし、ネットワークが進化するだけでなく、その進化の仕方自体が進化することが多い。 したがって、パターンの頻度に加えて、それらがどのくらい長く、どれくらい頻繁に発生したか、すなわち、その持続性が、進化するネットワークに対する我々の理解を足すことができます。 本研究では, 連続的かつ連続的に発生する, 連続的に進行するネットワークにおいて, 継続するマイニング活動の問題を提案する。 時間的モチーフの概念を拡張して、特定のノード間のアクティビティをキャプチャし、アクティビティスニペット(アクティビティスニペット)と呼んでいます。 持続性尺度が満足すべき公理と性質を提案し,そのような持続性尺度を開発する。 また,進化するネットワークにおけるアクティビティスニペットの永続性をマイニングするための効率的なフレームワークであるpenminerを提案し,オフラインとストリーミングの両方のアルゴリズムを設計する。 我々はpenminerを,多数の実規模で進化するネットワークとエッジストリームに適用し,長期間にわたって驚くほど規則的であるが,集約数だけでは発見できないアクティビティや,永続性の欠如によって露呈するアクティビティのバーストを見つけ出す。 penminerの調査結果には、ハリケーン・サンディを通じてタクシーの交通が続いたニューヨークの地区、新しい自転車駅の開設、ソーシャルネットワーク利用者の特徴などが含まれています。 さらに,penminerを用いて複数のネットワークの異常を同定し,aucの微妙な異常を9.8~48%上回った。

Frequent pattern mining is a key area of study that gives insights into the structure and dynamics of evolving networks, such as social or road networks. However, not only does a network evolve, but often the way that it evolves, itself evolves. Thus, knowing, in addition to patterns' frequencies, for how long and how regularly they have occurred---i.e., their persistence---can add to our understanding of evolving networks. In this work, we propose the problem of mining activity that persists through time in continually evolving networks---i.e., activity that repeatedly and consistently occurs. We extend the notion of temporal motifs to capture activity among specific nodes, in what we call activity snippets, which are small sequences of edge-updates that reoccur. We propose axioms and properties that a measure of persistence should satisfy, and develop such a persistence measure. We also propose PENminer, an efficient framework for mining activity snippets' Persistence in Evolving Networks, and design both offline and streaming algorithms. We apply PENminer to numerous real, large-scale evolving networks and edge streams, and find activity that is surprisingly regular over a long period of time, but too infrequent to be discovered by aggregate count alone, and bursts of activity exposed by their lack of persistence. Our findings with PENminer include neighborhoods in NYC where taxi traffic persisted through Hurricane Sandy, the opening of new bike-stations, characteristics of social network users, and more. Moreover, we use PENminer towards identifying anomalies in multiple networks, outperforming baselines at identifying subtle anomalies by 9.8-48% in AUC.
翻訳日:2022-11-16 08:09:58 公開日:2020-06-27
# JAMPI:バリア実行モードを用いたSparkの効率的な行列乗算

JAMPI: efficient matrix multiplication in Spark using Barrier Execution Mode ( http://arxiv.org/abs/2007.01811v1 )

ライセンス: Link先を確認
Tamas Foldi, Chris von Csefalvay and Nicolas A. Perez(参考訳) Apache Sparkの新しいバリアモードでは、分散ディープラーニングトレーニングをSparkステージとして組み込んで、分散トレーニングワークフローを簡素化することができる。 sparkでは、ステージ内のタスクは同じステージ内の他のタスクに依存しないので、独立してスケジュールすることができる。 しかし、いくつかのアルゴリズムはmpiパラダイムと同様により洗練されたタスク間通信を必要とする。 分散メッセージパッシング(非同期ネットワークIOを使用する)、OpenJDKの新しいオートベクタ化とSparkのバリア実行モードを組み合わせることで、Cannonの分散マトリックス乗算のような非マップ/リデュースベースのアルゴリズムをSparkに追加できる。 既存のMLlib実装の性能を大幅に向上させるCannonのアルゴリズムを用いて,効率的な分散行列乗算を文書化する。 バリアータスク内で使用されるアルゴリズムは、メモリフットプリントが大幅に低い10,000×10,000平方マトリクスに対して、最大24%のパフォーマンス向上をもたらす。 効率的な行列乗算の応用には、特に、深層畳み込みニューラルネットワークベースのワークロードのトレーニングと実装の促進が含まれているため、このような効率的なアルゴリズムは、最も複雑な機械学習タスクでもより高速で効率的な実行において、画期的な役割を果たすことができる。

The new barrier mode in Apache Spark allows embedding distributed deep learning training as a Spark stage to simplify the distributed training workflow. In Spark, a task in a stage does not depend on any other tasks in the same stage, and hence it can be scheduled independently. However, several algorithms require more sophisticated inter-task communications, similar to the MPI paradigm. By combining distributed message passing (using asynchronous network IO), OpenJDK's new auto-vectorization and Spark's barrier execution mode, we can add non-map/reduce based algorithms, such as Cannon's distributed matrix multiplication to Spark. We document an efficient distributed matrix multiplication using Cannon's algorithm, which improves significantly on the performance of the existing MLlib implementation. Used within a barrier task, the algorithm described herein results in an up to 24 percent performance increase on a 10,000x10,000 square matrix with a significantly lower memory footprint. Applications of efficient matrix multiplication include, among others, accelerating the training and implementation of deep convolutional neural network based workloads, and thus such efficient algorithms can play a ground-breaking role in faster, more efficient execution of even the most complicated machine learning tasks.
翻訳日:2022-11-16 08:07:42 公開日:2020-06-27
# 視覚分類のための誘発電位誘導型深層学習脳表現法

An Evoked Potential-Guided Deep Learning Brain Representation For Visual Classification ( http://arxiv.org/abs/2006.15357v1 )

ライセンス: Link先を確認
Xianglin Zheng, Zehong Cao, Quan Bai(参考訳) 視覚分類の新しい視点は、人間の脳活動から視覚オブジェクトの特徴表現をデコードすることを目的としている。 脳皮質から脳波(eeg)を記録することは、画像分類タスクの認知過程を理解するための一般的なアプローチと見なされている。 本研究では,脳波信号によって抽出された視覚誘発電位(ERP)-Long短期記憶(LSTM)フレームワークという,視覚誘発電位によって誘導される深層学習フレームワークを提案する。 具体的には,複数の脳波チャネルからerp配列を抽出し,応答画像刺激関連情報を得た。 そこで我々は,視覚オブジェクトの特徴表現空間を学習するためにLSTMネットワークを訓練した。 実験では、6つのカテゴリからなる画像データセットから、5万以上の脳波試験で10人の被験者が記録された。 提案するerp-lstmフレームワークは,それぞれ66.81%のクロスサブジェクトと27.08%のカテゴリ(6クラス)と例(72クラス)のクロスサブジェクトを分類できることを示した。 その結果,12.62%から53.99%の範囲での分類精度が向上し,既存の視覚分類フレームワークを用いた場合よりも優れていた。 脳波信号からの視覚誘発電位の復号化は視覚分類のための識別的脳表現の学習に有効な方法であると考えられた。

The new perspective in visual classification aims to decode the feature representation of visual objects from human brain activities. Recording electroencephalogram (EEG) from the brain cortex has been seen as a prevalent approach to understand the cognition process of an image classification task. In this study, we proposed a deep learning framework guided by the visual evoked potentials, called the Event-Related Potential (ERP)-Long short-term memory (LSTM) framework, extracted by EEG signals for visual classification. In specific, we first extracted the ERP sequences from multiple EEG channels to response image stimuli-related information. Then, we trained an LSTM network to learn the feature representation space of visual objects for classification. In the experiment, 10 subjects were recorded by over 50,000 EEG trials from an image dataset with 6 categories, including a total of 72 exemplars. Our results showed that our proposed ERP-LSTM framework could achieve classification accuracies of cross-subject of 66.81% and 27.08% for categories (6 classes) and exemplars (72 classes), respectively. Our results outperformed that of using the existing visual classification frameworks, by improving classification accuracies in the range of 12.62% - 53.99%. Our findings suggested that decoding visual evoked potentials from EEG signals is an effective strategy to learn discriminative brain representations for visual classification.
翻訳日:2022-11-16 08:00:43 公開日:2020-06-27
# ReMarNet:小型画像分類のためのコンジョイント関係とマージン学習

ReMarNet: Conjoint Relation and Margin Learning for Small-Sample Image Classification ( http://arxiv.org/abs/2006.15366v1 )

ライセンス: Link先を確認
Xiaoxu Li, Liyun Yu, Xiaochen Yang, Zhanyu Ma, Jing-Hao Xue, Jie Cao, Jun Guo(参考訳) 最先端のパフォーマンスを達成するにも拘わらず、ディープラーニング手法は訓練中に大量のラベル付きデータを必要とし、サンプルサイズが小さい場合には過度に適合する可能性がある。 サンプルサイズの小さいディープネットワークの良好な一般化性を確保するためには,識別的特徴の学習が不可欠である。 この目的のために、クラス内コンパクト性とクラス間分離性を高めるためにいくつかの損失関数が提案されている。 本稿では,新しいニューラルネットワークであるremarnet(relation-and-margin learning network)を導入することで,特徴の識別能力を高めることを提案する。 提案手法は,上記の2つの分類機構の両方において優れた性能を示す特徴を学習するために,異なるバックボーンの2つのネットワークを組み立てる。 具体的には、関係ネットワークを用いて、サンプルとクラスプロトタイプの類似性に基づいて分類を支援する特徴を学習し、一方、クロスエントロピー損失を伴う完全連結ネットワークは、決定境界による分類に使用される。 4つの画像データセットを用いた実験により,本手法はラベル付きサンプルの小さな集合から識別的特徴を学習し,最先端の手法と競合する性能が得られることを示した。 コードはhttps://github.com/liyunyu08/ReMarNetで入手できる。

Despite achieving state-of-the-art performance, deep learning methods generally require a large amount of labeled data during training and may suffer from overfitting when the sample size is small. To ensure good generalizability of deep networks under small sample sizes, learning discriminative features is crucial. To this end, several loss functions have been proposed to encourage large intra-class compactness and inter-class separability. In this paper, we propose to enhance the discriminative power of features from a new perspective by introducing a novel neural network termed Relation-and-Margin learning Network (ReMarNet). Our method assembles two networks of different backbones so as to learn the features that can perform excellently in both of the aforementioned two classification mechanisms. Specifically, a relation network is used to learn the features that can support classification based on the similarity between a sample and a class prototype; at the meantime, a fully connected network with the cross entropy loss is used for classification via the decision boundary. Experiments on four image datasets demonstrate that our approach is effective in learning discriminative features from a small set of labeled samples and achieves competitive performance against state-of-the-art methods. Codes are available at https://github.com/liyunyu08/ReMarNet.
翻訳日:2022-11-16 08:00:18 公開日:2020-06-27
# MTStereo 2.0:Max-treesを用いたステレオ深度推定精度の向上

MTStereo 2.0: improved accuracy of stereo depth estimation withMax-trees ( http://arxiv.org/abs/2006.15373v1 )

ライセンス: Link先を確認
Rafael Brandt, Nicola Strisciuglio, Nicolai Petkov(参考訳) ロボット工学や組込みシステムといった低消費電力のシステムでは、ステレオ画像対からの深度を効率よく正確に抽出する必要がある。 畳み込みニューラルネットワークに基づく最先端のステレオマッチング手法は、GPU上での集約的な計算を必要とし、組み込みシステムへのデプロイが困難である。 本稿では,効率的な深度推定を必要とする限られた資源システムを対象としたステレオマッチング手法 MTStereo 2.0 を提案する。 これは画像対のマックスツリー階層的表現に基づいており、画像スキャン線に沿ったマッチング領域を特定するために使用される。 この方法は、マックスツリーに基づく領域文脈情報の類似性を考慮したコスト関数と、コスト集約アプローチの相違点を含む。 mtstereo 2.0、以前のmtstereo 1.0で改善 a) より堅牢なコスト関数をデプロイする。 b) 不正マッチをより徹底的に検出する。 c) ノードレベルの精度よりもピクセルレベルの差分マップを計算する。 MTStereoは正確なスパースと半深度推定を提供し、CNNに基づいたメソッドのような集中的なGPU計算を必要としない。 そのため、低消費電力で組み込みやロボティクスのデバイスで動かせる。 我々は,提案手法を,KITTI 2015,Driving, FlyingThings3D, Middlebury 2014, Monkaa と TrimBot2020 のガーデニングデータセットで検証し,競争精度と効率性を達成した。 コードはhttps://github.com/rbrandt1/MaxTreeSで入手できる。

Efficient yet accurate extraction of depth from stereo image pairs is required by systems with low power resources, such as robotics and embedded systems. State-of-the-art stereo matching methods based on convolutional neural networks require intensive computations on GPUs and are difficult to deploy on embedded systems. In this paper, we propose a stereo matching method, called MTStereo 2.0, for limited-resource systems that require efficient and accurate depth estimation. It is based on a Max-tree hierarchical representation of image pairs, which we use to identify matching regions along image scan-lines. The method includes a cost function that considers similarity of region contextual information based on the Max-trees and a disparity border preserving cost aggregation approach. MTStereo 2.0 improves on its predecessor MTStereo 1.0 as it a) deploys a more robust cost function, b) performs more thorough detection of incorrect matches, c) computes disparity maps with pixel-level rather than node-level precision. MTStereo provides accurate sparse and semi-dense depth estimation and does not require intensive GPU computations like methods based on CNNs. Thus it can run on embedded and robotics devices with low-power requirements. We tested the proposed approach on several benchmark data sets, namely KITTI 2015, Driving, FlyingThings3D, Middlebury 2014, Monkaa and the TrimBot2020 garden data sets, and achieved competitive accuracy and efficiency. The code is available at https://github.com/rbrandt1/MaxTreeS.
翻訳日:2022-11-16 07:59:56 公開日:2020-06-27
# カメラ・ライトビジョンシステムのための光ポーズ校正

Light Pose Calibration for Camera-light Vision Systems ( http://arxiv.org/abs/2006.15389v1 )

ライセンス: Link先を確認
Yifan Song, Furkan Elibol, Mengkun She, David Nakath and Kevin K\"oser(参考訳) 人工光でシーンを照らすことは、暗い環境で見るための前提条件である。 しかし、例えば暗闇の中でヘッドライトでロボットを操作する場合、不均一でダイナミックな照明はコンピュータビジョンのアプローチを損なうことがある。 本稿では,コンピュータビジョンシステムに採用した光源のポーズ情報を提供するために,参照面の多視点・距離画像を用いて新しい光キャリブレーション手法を提案する。 物理的光伝搬アプローチに従い、エネルギー保存を考慮した光ポーズの推定は、実数とレンダリングされた画素強度の差を最小化することにより解決される。 評価中、異なる設定で光ポーズ推定結果を統計的に解析することにより、この手法の堅牢性と一貫性を示す。 結果は回転対称非等方性光を用いて実証されるが、非対称光にも適している。

Illuminating a scene with artificial light is a prerequisite for seeing in dark environments. However, nonuniform and dynamic illumination can deteriorate or even break computer vision approaches, for instance when operating a robot with headlights in the darkness. This paper presents a novel light calibration approach by taking multi-view and -distance images of a reference plane in order to provide pose information of the employed light sources to the computer vision system. By following a physical light propagation approach, under consideration of energy preservation, the estimation of light poses is solved by minimizing of the differences between real and rendered pixel intensities. During the evaluation we show the robustness and consistency of this method by statistically analyzing the light pose estimation results with different setups. Although the results are demonstrated using a rotationally-symmetric non-isotropic light, the method is suited also for non-symmetric lights.
翻訳日:2022-11-16 07:59:33 公開日:2020-06-27
# count out time: クラスに依存しないビデオの繰り返し数

Counting Out Time: Class Agnostic Video Repetition Counting in the Wild ( http://arxiv.org/abs/2006.15418v1 )

ライセンス: Link先を確認
Debidatta Dwibedi, Yusuf Aytar, Jonathan Tompson, Pierre Sermanet, Andrew Zisserman(参考訳) 本稿では,アクションがビデオで繰り返される期間を推定するためのアプローチを提案する。 このアプローチの要点は、時間的自己相似性を中間的な表現ボトルネックとして使用するように周期予測モジュールを制約することにある。 我々はRepnetと呼ばれるこのモデルを、様々な長さの短いクリップをサンプリングし、異なる期間と回数で繰り返して、大規模なラベル付きビデオコレクションから生成された合成データセットで訓練する。 この合成データと強力な制約のあるモデルの組み合わせにより、クラスに依存しない方法で周期を予測できる。 我々のモデルは,既存の周期性 (PERTUBE) と反復数 (QUVA) ベンチマークのアートパフォーマンスの状況を大幅に上回る。 countix(既存のデータセットの約90倍の大きさ)と呼ばれる新しい挑戦的なデータセットも収集しています。 プロジェクトWebページ: https://sites.google.com/view/repnet

We present an approach for estimating the period with which an action is repeated in a video. The crux of the approach lies in constraining the period prediction module to use temporal self-similarity as an intermediate representation bottleneck that allows generalization to unseen repetitions in videos in the wild. We train this model, called Repnet, with a synthetic dataset that is generated from a large unlabeled video collection by sampling short clips of varying lengths and repeating them with different periods and counts. This combination of synthetic data and a powerful yet constrained model, allows us to predict periods in a class-agnostic fashion. Our model substantially exceeds the state of the art performance on existing periodicity (PERTUBE) and repetition counting (QUVA) benchmarks. We also collect a new challenging dataset called Countix (~90 times larger than existing datasets) which captures the challenges of repetition counting in real-world videos. Project webpage: https://sites.google.com/view/repnet .
翻訳日:2022-11-16 07:59:18 公開日:2020-06-27
# 学習に基づく3次元再構築の一般化について

On the generalization of learning-based 3D reconstruction ( http://arxiv.org/abs/2006.15427v1 )

ライセンス: Link先を確認
Miguel Angel Bautista, Walter Talbott, Shuangfei Zhai, Nitish Srivastava, Joshua M Susskind(参考訳) 最先端学習に基づく単眼的3次元再構成手法は,トレーニングセット上の対象カテゴリを優先して学習し,訓練中に認識できない対象カテゴリへの合理的な一般化を達成するのに苦戦する。 本稿では,学習に基づく3次元再構成手法の一般化に影響を及ぼすモデルアーキテクチャにおける帰納バイアスについて検討する。 3つの帰納バイアスは,エンコーダの空間的範囲,シーンの基本的な形状を用いて点特徴を記述し,複数のビューから情報を集約する機構,といった性能に影響を及ぼす。 さらに,カメラの位置を意識したポイント表現と,ビュー間で情報を集約するための分散コストという,これらの帰納的バイアスを強制するメカニズムを提案する。 本モデルは,shapenet 3dリコンストラクションベンチマークにおいて,様々な設定で最新の結果を得る。

State-of-the-art learning-based monocular 3D reconstruction methods learn priors over object categories on the training set, and as a result struggle to achieve reasonable generalization to object categories unseen during training. In this paper we study the inductive biases encoded in the model architecture that impact the generalization of learning-based 3D reconstruction methods. We find that 3 inductive biases impact performance: the spatial extent of the encoder, the use of the underlying geometry of the scene to describe point features, and the mechanism to aggregate information from multiple views. Additionally, we propose mechanisms to enforce those inductive biases: a point representation that is aware of camera position, and a variance cost to aggregate information across views. Our model achieves state-of-the-art results on the standard ShapeNet 3D reconstruction benchmark in various settings.
翻訳日:2022-11-16 07:59:01 公開日:2020-06-27
# AerialMPTNet:時間的特徴と図形的特徴を用いた航空画像の多歩行者追跡

AerialMPTNet: Multi-Pedestrian Tracking in Aerial Imagery Using Temporal and Graphical Features ( http://arxiv.org/abs/2006.15457v1 )

ライセンス: Link先を確認
Maximilian Kraus, Seyed Majid Azimi, Emec Ercelik, Reza Bahmanyar, Peter Reinartz, Alois Knoll(参考訳) 航空画像における複数歩行者追跡には、大規模イベント監視、災害管理、捜索救助任務、および予測的群衆動態モデルへの入力など、いくつかの応用がある。 非常に低いフレームレート(例えば2fps)で画像の異なるスケールや大気条件の外観を持つ歩行者(例えば4 x 4ピクセル)の膨大な数や小さなサイズといった課題のため、ディープラーニングベースのものを含む現在の最先端アルゴリズムは、うまく機能しない。 本稿では,シアームニューラルネットワークからの出現特徴,長期記憶からの移動予測,およびgraphcnnからの歩行者の相互接続を融合して,地理参照空中画像におけるマルチペデストリアン追跡のための新しいアプローチであるaerialmptnetを提案する。 さらに, 多様な歩行者追跡データセットの欠如に対処するため, 307フレームと44,740人の歩行者が注釈を付けたAerial Multi-Pedestrian Tracking (AerialMPT)データセットを導入する。 AerialMPTは,これまでで最大かつ最も多様なデータセットであり,一般公開される予定です。 我々はAerialMPTとKIT AISでAerialMPTNetを評価し、いくつかの最先端追跡手法を用いてベンチマークを行った。 AerialMPTNetは精度と時間効率で他の手法よりも優れていた。

Multi-pedestrian tracking in aerial imagery has several applications such as large-scale event monitoring, disaster management, search-and-rescue missions, and as input into predictive crowd dynamic models. Due to the challenges such as the large number and the tiny size of the pedestrians (e.g., 4 x 4 pixels) with their similar appearances as well as different scales and atmospheric conditions of the images with their extremely low frame rates (e.g., 2 fps), current state-of-the-art algorithms including the deep learning-based ones are unable to perform well. In this paper, we propose AerialMPTNet, a novel approach for multi-pedestrian tracking in geo-referenced aerial imagery by fusing appearance features from a Siamese Neural Network, movement predictions from a Long Short-Term Memory, and pedestrian interconnections from a GraphCNN. In addition, to address the lack of diverse aerial pedestrian tracking datasets, we introduce the Aerial Multi-Pedestrian Tracking (AerialMPT) dataset consisting of 307 frames and 44,740 pedestrians annotated. We believe that AerialMPT is the largest and most diverse dataset to this date and will be released publicly. We evaluate AerialMPTNet on AerialMPT and KIT AIS, and benchmark with several state-of-the-art tracking methods. Results indicate that AerialMPTNet significantly outperforms other methods on accuracy and time-efficiency.
翻訳日:2022-11-16 07:58:45 公開日:2020-06-27
# 音調調和のための弦法:ハイドン弦楽四重奏曲のコーパス研究

String-based methods for tonal harmony: A corpus study of Haydn's string quartets ( http://arxiv.org/abs/2006.15411v1 )

ライセンス: Link先を確認
David R. W. Sears(参考訳) 本章では,音楽組織の発見に関する音楽分析的疑問に対して,特に調律調和の分析に注目するために,弦に基づく方法を適用する方法について考察する。 まず、マンドラー(1979)が提唱した精神組織分類学を音楽組織の概念に適用することから始める。 この分類法をガイドとして使用し、Haydn文字列四重奏のコーパスを用いて、音節調和の3つの原則(再発、構文、再帰)の証拠を示す。

This chapter considers how string-based methods might be adapted to address music-analytic questions related to the discovery of musical organization, with particular attention devoted to the analysis of tonal harmony. I begin by applying the taxonomy of mental organization proposed by Mandler (1979) to the concept of musical organization. Using this taxonomy as a guide, I then present evidence for three principles of tonal harmony -- recurrence, syntax, and recursion -- using a corpus of Haydn string quartets.
翻訳日:2022-11-16 07:58:20 公開日:2020-06-27
# プログラミング言語の進化について

On the Evolution of Programming Languages ( http://arxiv.org/abs/2007.02699v1 )

ライセンス: Link先を確認
K. R. Chowdhary(参考訳) 本稿では, コンピュータ言語の進化と生命の進化を結びつけることを目的としており, 後者は「進化の進化論」によって定式化され, 新言語が以前の言語よりも頑健であること, 古い言語の混在する特徴を継承し, 強い特徴が付加され, 古い言語の弱い特徴が取り除かれるという支持的な証拠を与える。 さらに、既存の言語の特徴が新しいプログラミング言語の開発にどのように影響したかを強調し、最も顕著なプログラミング言語の分析を行う。 最終的には、新しいマルチコアアーキテクチャの時代にプログラミング言語の世界を支配しうる実験的な言語のセットを提案する。 インデックス用語-プログラミング言語の進化、言語の分類、将来の言語、スクリプト言語。

This paper attempts to connects the evolution of computer languages with the evolution of life, where the later has been dictated by \emph{theory of evolution of species}, and tries to give supportive evidence that the new languages are more robust than the previous, carry-over the mixed features of older languages, such that strong features gets added into them and weak features of older languages gets removed. In addition, an analysis of most prominent programming languages is presented, emphasizing on how the features of existing languages have influenced the development of new programming languages. At the end, it suggests a set of experimental languages, which may rule the world of programming languages in the time of new multi-core architectures. Index terms- Programming languages' evolution, classifications of languages, future languages, scripting-languages.
翻訳日:2022-11-16 07:58:11 公開日:2020-06-27
# 注意に基づくCNNアーキテクチャを用いたクロマ内予測

Chroma Intra Prediction with attention-based CNN architectures ( http://arxiv.org/abs/2006.15349v1 )

ライセンス: Link先を確認
Marc G\'orriz, Saverio Blasi, Alan F. Smeaton, Noel E. O'Connor, Marta Mrak(参考訳) ニューラルネットワークは、クロマイントラプレディションを改善するためにビデオ符号化に使用できる。 特に、完全接続ネットワークの使用は、従来の線形モデルに対してより良いクロスコンポーネント予測を可能にした。 それでも、最先端アーキテクチャは予測プロセスにおける個々の参照サンプルの位置を無視する傾向がある。 本稿では,クロスコンポーネント・イントラプレディションのためのニューラルネットワークアーキテクチャを提案する。 このネットワークは、参照と予測されたサンプルの間の空間関係をモデル化するために、新しいアテンションモジュールを使用する。 提案手法はVersatile Video Coding(VVC)予測パイプラインに統合される。 実験結果は,最新のvvcアンカーに対して,ニューラルネットワークに基づく最先端のchromaイントラ予測法と比較して圧縮効果を示した。

Neural networks can be used in video coding to improve chroma intra-prediction. In particular, usage of fully-connected networks has enabled better cross-component prediction with respect to traditional linear models. Nonetheless, state-of-the-art architectures tend to disregard the location of individual reference samples in the prediction process. This paper proposes a new neural network architecture for cross-component intra-prediction. The network uses a novel attention module to model spatial relations between reference and predicted samples. The proposed approach is integrated into the Versatile Video Coding (VVC) prediction pipeline. Experimental results demonstrate compression gains over the latest VVC anchor compared with state-of-the-art chroma intra-prediction methods based on neural networks.
翻訳日:2022-11-16 07:52:07 公開日:2020-06-27
# マインド・ザ・ファクト:知識に富んだコヒーレントな抽象テキスト要約

Mind The Facts: Knowledge-Boosted Coherent Abstractive Text Summarization ( http://arxiv.org/abs/2006.15435v1 )

ライセンス: Link先を確認
Beliz Gunel, Chenguang Zhu, Michael Zeng, Xuedong Huang(参考訳) ニューラルモデルは、人間に読みやすく、流動的な抽象的な要約を生成することに成功している。 しかしながら、これらのモデルには2つの重要な欠点がある。彼らはしばしばソース記事に含まれる事実を尊重せず、また、人間には常識知識として知られておらず、ソース記事が長いときに一貫性のある要約を生成しない。 本研究では,トランスフォーマーエンコーダデコーダアーキテクチャを拡張し,これらの欠点を改善するためのアーキテクチャを提案する。 まず,Wikidataナレッジグラフからエンティティレベルの知識をエンコーダ・デコーダアーキテクチャに組み込む。 Wikidataから構造世界知識を注入することで、抽象的な要約モデルがより事実に認識できるようになる。 次に,Transformer-XL言語モデルで使用されるアイデアを,提案したエンコーダ・デコーダアーキテクチャで活用する。 これは、ソース記事が長い場合でもコヒーレントな要約を生成するのに役立ちます。 CNN/Daily Mailの要約データセット上で本モデルを検証し,ベースライントランスフォーマーモデルによるROUGEスコアの改善を示す。 また,モデルが事実を正確に伝達するモデル予測も含んでいるが,ベースライントランスフォーマーモデルではそうではない。

Neural models have become successful at producing abstractive summaries that are human-readable and fluent. However, these models have two critical shortcomings: they often don't respect the facts that are either included in the source article or are known to humans as commonsense knowledge, and they don't produce coherent summaries when the source article is long. In this work, we propose a novel architecture that extends Transformer encoder-decoder architecture in order to improve on these shortcomings. First, we incorporate entity-level knowledge from the Wikidata knowledge graph into the encoder-decoder architecture. Injecting structural world knowledge from Wikidata helps our abstractive summarization model to be more fact-aware. Second, we utilize the ideas used in Transformer-XL language model in our proposed encoder-decoder architecture. This helps our model with producing coherent summaries even when the source article is long. We test our model on CNN/Daily Mail summarization dataset and show improvements on ROUGE scores over the baseline Transformer model. We also include model predictions for which our model accurately conveys the facts, while the baseline Transformer model doesn't.
翻訳日:2022-11-16 07:51:29 公開日:2020-06-27
# バイリンガル・セマンティック・リワードを用いたゼロショット・クロスリンガル要約の深部強化モデル

A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with Bilingual Semantic Similarity Rewards ( http://arxiv.org/abs/2006.15454v1 )

ライセンス: Link先を確認
Zi-Yi Dou, Sachin Kumar, Yulia Tsvetkov(参考訳) 言語間テキスト要約は、ある言語で与えられた入力の文書要約を生成することを目的としている。 これは実質的には重要ではあるが未熟な作業であり、主に利用可能なデータの不足のためである。 既存の方法は、トレーニングデータを合成するために機械翻訳に頼るが、このようなパイプラインアプローチはエラー伝播に苦しむ。 本稿では,エンドツーエンドの言語間テキスト要約モデルを提案する。 このモデルは強化学習を用いて、ターゲット言語で生成された要約とソース言語で生成された金の要約のバイリンガル意味類似度メトリックを直接最適化する。 また,単言語要約と機械翻訳の目的を利用した事前学習手法も導入する。 英語・中国語・英語・ドイツ語の言語間要約設定における実験結果から,提案手法の有効性が示された。 さらに,二言語的意味的類似性を持つ強化学習モデルでは,強固なベースラインよりも,より流麗な文を生成することが判明した。

Cross-lingual text summarization aims at generating a document summary in one language given input in another language. It is a practically important but under-explored task, primarily due to the dearth of available data. Existing methods resort to machine translation to synthesize training data, but such pipeline approaches suffer from error propagation. In this work, we propose an end-to-end cross-lingual text summarization model. The model uses reinforcement learning to directly optimize a bilingual semantic similarity metric between the summaries generated in a target language and gold summaries in a source language. We also introduce techniques to pre-train the model leveraging monolingual summarization and machine translation objectives. Experimental results in both English--Chinese and English--German cross-lingual summarization settings demonstrate the effectiveness of our methods. In addition, we find that reinforcement learning models with bilingual semantic similarity as rewards generate more fluent sentences than strong baselines.
翻訳日:2022-11-16 07:51:08 公開日:2020-06-27
# qpso-cd:コーシー分布を用いた量子型粒子群最適化アルゴリズム

QPSO-CD: Quantum-behaved Particle Swarm Optimization Algorithm with Cauchy Distribution ( http://arxiv.org/abs/2006.16989v1 )

ライセンス: Link先を確認
Amandeep Singh Bhatia, Mandeep Kaur Saggi, Shenggen Zheng, Soumya Ranjan Nayak(参考訳) 我々は、粒子群最適化(PSO)と量子計算理論により、コーシー作用素と進化計算から自然選択機構(QPSO-CD)に変異したPSO(QPSO)の量子変種を提示した。 コーシー分布(QPSO-CD)を用いたハイブリッド量子バイアス粒子群最適化の性能について,一連のベンチマーク問題に基づいて比較検討を行った。 さらに、QPSO-CDはその適用性を調べるために、よく研究された制約付きエンジニアリング問題に採用されている。 さらに、QPSO-CDの正確性と時間的複雑さを解析し、古典的なPSOと比較する。 QPSO-CDはそのような現実の問題を効率的に処理し、ほとんどの問題において優れた解が得られることが証明されている。 実験の結果, コーシー分布と自然選択戦略に関連するQPSOは, 安定性と収束の文脈で他の変種よりも優れていた。

Motivated by particle swarm optimization (PSO) and quantum computing theory, we have presented a quantum variant of PSO (QPSO) mutated with Cauchy operator and natural selection mechanism (QPSO-CD) from evolutionary computations. The performance of proposed hybrid quantum-behaved particle swarm optimization with Cauchy distribution (QPSO-CD) is investigated and compared with its counterparts based on a set of benchmark problems. Moreover, QPSO-CD is employed in well-studied constrained engineering problems to investigate its applicability. Further, the correctness and time complexity of QPSO-CD are analysed and compared with the classical PSO. It has been proven that QPSO-CD handles such real-life problems efficiently and can attain superior solutions in most of the problems. The experimental results showed that QPSO associated with Cauchy distribution and natural selection strategy outperforms other variants in the context of stability and convergence.
翻訳日:2022-11-16 07:50:21 公開日:2020-06-27
# 医用画像分割のためのインタラクティブディープリファインメントネットワーク

Interactive Deep Refinement Network for Medical Image Segmentation ( http://arxiv.org/abs/2006.15320v1 )

ライセンス: Link先を確認
Titinunt Kitrungrotsakul, Iwamoto Yutaro, Lanfen Lin, Ruofeng Tong, Jingsong Li, Yen-Wei Chen(参考訳) 深層学習技術は、画像セグメンテーションを含む多くのコンピュータビジョンタスクに成功している。 この技術は、コンピュータ支援診断において最も重要な課題の一つである医療画像分割にも応用されている。 自然画像と比較すると、医療画像はグレースケールの画像であり、低コントラスト(目に見えない部分もある)である。 一部の器官は隣の臓器と類似の強度とテクスチャを持っているため、通常は自動セグメンテーションの結果を洗練する必要がある。 本稿では,U-Netや完全畳み込みネットワークといった従来のセマンティックセグメンテーションネットワークを改善するための,インタラクティブなディープリファインメントフレームワークを提案する。 提案手法では,従来のセグメンテーションネットワークに改良ネットワークを追加してセグメンテーション結果を洗練させた。

Deep learning techniques have successfully been employed in numerous computer vision tasks including image segmentation. The techniques have also been applied to medical image segmentation, one of the most critical tasks in computer-aided diagnosis. Compared with natural images, the medical image is a gray-scale image with low-contrast (even with some invisible parts). Because some organs have similar intensity and texture with neighboring organs, there is usually a need to refine automatic segmentation results. In this paper, we propose an interactive deep refinement framework to improve the traditional semantic segmentation networks such as U-Net and fully convolutional network. In the proposed framework, we added a refinement network to traditional segmentation network to refine the segmentation results.Experimental results with public dataset revealed that the proposed method could achieve higher accuracy than other state-of-the-art methods.
翻訳日:2022-11-16 07:50:03 公開日:2020-06-27
# mininet: リアルタイム教師なし単眼深度推定のための超軽量畳み込みニューラルネットワーク

MiniNet: An extremely lightweight convolutional neural network for real-time unsupervised monocular depth estimation ( http://arxiv.org/abs/2006.15350v1 )

ライセンス: Link先を確認
Jun Liu, Qing Li, Rui Cao, Wenming Tang, Guoping Qiu(参考訳) ひとつの画像から深度を予測することは、機械が世界をよりよく知覚できるように、さらに1次元の情報を提供するので、魅力的な研究トピックである。 近年,単眼深度推定への効果的なアプローチとしてディープラーニングが登場している。 ラベル付きデータの取得はコストがかかるため、教師なし学習から教師なし学習へ移行し、単眼深度を得る傾向にある。 しかし、高深度予測精度を達成するための教師なし学習手法のほとんどは、ストレージやメモリスペースが限られた組み込みデバイスで実行するには重く複雑すぎるディープネットワークアーキテクチャを必要とする。 この問題に対処するため,ビデオシーケンスからリアルタイムに非教師なし単眼深度予測を行うために,非常に軽量なサイズを維持しながら,ディープネットワークの能力を実現するために,リカレントモジュールを備えた新しい強力なネットワークを提案する。 さらに,関連エンコーダ層から特徴を融合させ,少数のモデルパラメータで特徴の空間的サイズを復元するために,新しい効率的なアップサンプルブロックを提案する。 KITTIデータセットの広範な実験により,提案手法の有効性を検証する。 私たちの新しいモデルは、1つのGPUで約110フレーム/秒(fps)、単一のCPUで37fps、Raspberry Pi 3で2fpsで実行できます。 さらに、最先端モデルよりも33倍近いモデルパラメータで高い深度精度を実現する。 我々の知る限り、この研究は、リアルタイムに教師なしの単眼深度推定のためのモノクロビデオシーケンスに基づいて訓練された初めての超軽量ニューラルネットワークであり、低コストの組み込みデバイスにディープラーニングベースのリアルタイムの非教師なし単眼深度予測を実装する可能性を開く。

Predicting depth from a single image is an attractive research topic since it provides one more dimension of information to enable machines to better perceive the world. Recently, deep learning has emerged as an effective approach to monocular depth estimation. As obtaining labeled data is costly, there is a recent trend to move from supervised learning to unsupervised learning to obtain monocular depth. However, most unsupervised learning methods capable of achieving high depth prediction accuracy will require a deep network architecture which will be too heavy and complex to run on embedded devices with limited storage and memory spaces. To address this issue, we propose a new powerful network with a recurrent module to achieve the capability of a deep network while at the same time maintaining an extremely lightweight size for real-time high performance unsupervised monocular depth prediction from video sequences. Besides, a novel efficient upsample block is proposed to fuse the features from the associated encoder layer and recover the spatial size of features with the small number of model parameters. We validate the effectiveness of our approach via extensive experiments on the KITTI dataset. Our new model can run at a speed of about 110 frames per second (fps) on a single GPU, 37 fps on a single CPU, and 2 fps on a Raspberry Pi 3. Moreover, it achieves higher depth accuracy with nearly 33 times fewer model parameters than state-of-the-art models. To the best of our knowledge, this work is the first extremely lightweight neural network trained on monocular video sequences for real-time unsupervised monocular depth estimation, which opens up the possibility of implementing deep learning-based real-time unsupervised monocular depth prediction on low-cost embedded devices.
翻訳日:2022-11-16 07:49:50 公開日:2020-06-27
# rにおける高次元線形回帰と精度行列推定のためのフレアパッケージ

The flare Package for High Dimensional Linear Regression and Precision Matrix Estimation in R ( http://arxiv.org/abs/2006.15419v1 )

ライセンス: Link先を確認
Xingguo Li, Tuo Zhao, Xiaoming Yuan, Han Liu(参考訳) 本稿では,新しい高次元回帰手法(LAD Lasso, SQRT Lasso, $\ell_q$ Lasso, Dantzig selector)と,スパース精度行列推定(TIGER, CLIME)の拡張を実装したフレアというRパッケージについて述べる。 これらの手法は、モデリングの柔軟性、推定ロバスト性、チューニングの不感性を得るために異なる非スムース損失関数を利用する。 開発した解法は乗算器の交互方向法(ADMM)に基づいている。 パッケージフレアはダブル精度cでコーディングされ、ユーザーフレンドリーなインターフェースによってrから呼び出される。 スパースマトリックス出力を用いてメモリ使用量を最適化する。 実験の結果、フレアは効率的であり、大きな問題にスケールできることがわかった。

This paper describes an R package named flare, which implements a family of new high dimensional regression methods (LAD Lasso, SQRT Lasso, $\ell_q$ Lasso, and Dantzig selector) and their extensions to sparse precision matrix estimation (TIGER and CLIME). These methods exploit different nonsmooth loss functions to gain modeling flexibility, estimation robustness, and tuning insensitiveness. The developed solver is based on the alternating direction method of multipliers (ADMM). The package flare is coded in double precision C, and called from R by a user-friendly interface. The memory usage is optimized by using the sparse matrix output. The experiments show that flare is efficient and can scale up to large problems.
翻訳日:2022-11-16 07:42:19 公開日:2020-06-27
# GPT-GNN: グラフニューラルネットワークの生成前トレーニング

GPT-GNN: Generative Pre-Training of Graph Neural Networks ( http://arxiv.org/abs/2006.15437v1 )

ライセンス: Link先を確認
Ziniu Hu and Yuxiao Dong and Kuansan Wang and Kai-Wei Chang and Yizhou Sun(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データのモデリングにおいて強力であることが示されている。 しかしながら、GNNのトレーニングは通常、豊富なタスク固有のラベル付きデータを必要とする。 ラベル付けの労力を減らす効果的な方法の1つは、ラベルなしデータの表現型GNNモデルを自己スーパービジョンで事前訓練し、学習したモデルを少数のラベルで下流タスクに転送することである。 本稿では,生成前学習によるGNNの初期化のためのGPT-GNNフレームワークを提案する。 GPT-GNNは、グラフの構造的および意味的特性をキャプチャするために、GNNを事前トレーニングするために、自己教師付き属性付きグラフ生成タスクを導入する。 グラフ生成の可能性を2つのコンポーネントに分解します。 1)属性生成及び 2)エッジ生成。 両方のコンポーネントをモデル化することにより、GPT-GNNは生成プロセス中にノード属性とグラフ構造の間の固有の依存関係をキャプチャする。 数十億ドル規模のOpen Academic GraphとAmazonのレコメンデーションデータに関する包括的な実験は、GPT-GNNが、さまざまな下流タスクで最大9.1%の事前トレーニングをすることなく、最先端のGNNモデルを大幅に上回っていることを示している。

Graph neural networks (GNNs) have been demonstrated to be powerful in modeling graph-structured data. However, training GNNs usually requires abundant task-specific labeled data, which is often arduously expensive to obtain. One effective way to reduce the labeling effort is to pre-train an expressive GNN model on unlabeled data with self-supervision and then transfer the learned model to downstream tasks with only a few labels. In this paper, we present the GPT-GNN framework to initialize GNNs by generative pre-training. GPT-GNN introduces a self-supervised attributed graph generation task to pre-train a GNN so that it can capture the structural and semantic properties of the graph. We factorize the likelihood of the graph generation into two components: 1) Attribute Generation and 2) Edge Generation. By modeling both components, GPT-GNN captures the inherent dependency between node attributes and graph structure during the generative process. Comprehensive experiments on the billion-scale Open Academic Graph and Amazon recommendation data demonstrate that GPT-GNN significantly outperforms state-of-the-art GNN models without pre-training by up to 9.1% across various downstream tasks.
翻訳日:2022-11-16 07:41:21 公開日:2020-06-27
# 局所因果構造学習と2型糖尿病と骨密度との関連

Local Causal Structure Learning and its Discovery Between Type 2 Diabetes and Bone Mineral Density ( http://arxiv.org/abs/2006.16791v1 )

ライセンス: Link先を確認
Wei Wang, Gangqiang Hu, Bo Yuan, Shandong Ye, Chao Chen, YaYun Cui, Xi Zhang, Liting Qian(参考訳) 最も一般的な慢性疾患の一つである2型糖尿病(t2dm)は、人体のグルコース代謝に影響を与え、生命の量を減らし、社会医療に重荷を負う。 T2DM患者は、糖尿病が骨ミネラル密度(BMD)に影響を与えるため、骨脆弱性骨折を患う傾向にある。 しかし、医学的な方法でのBMDの決定要因の発見は高価で時間を要する。 本稿では,臨床データからBMDとその要因間の因果関係を明らかにするために,PKCL(Preside-Knowledge-driven Local Causal Structure Learning)という新しいアルゴリズムを提案する。 限られたデータが存在するが、医学の予備知識は冗長であるため、pkclは事前知識を十分に活用し、対象関係の局所因果構造をマイニングする。 医学的事前知識と発見因果関係を組み合わせることで、pkclは長期にわたる医学的統計実験なしでより信頼性の高い結果が得られる。 新たに提供された臨床データセットに対して、広範囲な実験を行う。 データに対するPKCLの実験的研究は、既存の医療知識と高い対応性を示し、PKCLの優位性と有効性を示す。 先行知識の重要性を説明するために,事前知識のないアルゴリズムの結果についても検討した。

Type 2 diabetes (T2DM), one of the most prevalent chronic diseases, affects the glucose metabolism of the human body, which decreases the quantity of life and brings a heavy burden on social medical care. Patients with T2DM are more likely to suffer bone fragility fracture as diabetes affects bone mineral density (BMD). However, the discovery of the determinant factors of BMD in a medical way is expensive and time-consuming. In this paper, we propose a novel algorithm, Prior-Knowledge-driven local Causal structure Learning (PKCL), to discover the underlying causal mechanism between BMD and its factors from the clinical data. Since there exist limited data but redundant prior knowledge for medicine, PKCL adequately utilize the prior knowledge to mine the local causal structure for the target relationship. Combining the medical prior knowledge with the discovered causal relationships, PKCL can achieve more reliable results without long-standing medical statistical experiments. Extensive experiments are conducted on a newly provided clinical data set. The experimental study of PKCL on the data is proved to highly corresponding with existing medical knowledge, which demonstrates the superiority and effectiveness of PKCL. To illustrate the importance of prior knowledge, the result of the algorithm without prior knowledge is also investigated.
翻訳日:2022-11-16 07:40:37 公開日:2020-06-27
# 教師のいない反復型機械教示

Iterative Machine Teaching without Teachers ( http://arxiv.org/abs/2006.15339v1 )

ライセンス: Link先を確認
Mingzhe Yang and Yukino Baba(参考訳) 反復機械教育は、学生が各イテレーションで目標概念を効率的に学習できる最適な指導例を選択する方法である。 既存の反復型機械教育の研究は教師付き機械学習に基づいており、すべての指導例の真の答えを知っている教師がいると仮定している。 本研究では,教師が存在しない教師の場合,すなわち,教師の真の答えにアクセスできない場合について考察する。 学生は各イテレーションで指導例を与えられるが、対応するラベルが正しいかどうかの保証はない。 クラウドソーシングに関する最近の研究は、クラウドソーシング応答から真の回答を推定する方法を開発した。 本研究では,これらを反復型機械教育に適用し,教材の真のラベルと授業に使用する学生モデルの推定を行う。 本手法は教師のいない学生の協調学習を支援する。 実験の結果,本手法の授業成績は,特に低学年の生徒に特に有効であることが示唆された。

Iterative machine teaching is a method for selecting an optimal teaching example that enables a student to efficiently learn a target concept at each iteration. Existing studies on iterative machine teaching are based on supervised machine learning and assume that there are teachers who know the true answers of all teaching examples. In this study, we consider an unsupervised case where such teachers do not exist; that is, we cannot access the true answer of any teaching example. Students are given a teaching example at each iteration, but there is no guarantee if the corresponding label is correct. Recent studies on crowdsourcing have developed methods for estimating the true answers from crowdsourcing responses. In this study, we apply these to iterative machine teaching for estimating the true labels of teaching examples along with student models that are used for teaching. Our method supports the collaborative learning of students without teachers. The experimental results show that the teaching performance of our method is particularly effective for low-level students in particular.
翻訳日:2022-11-16 07:34:19 公開日:2020-06-27
# 近似推論のための$\alpha$信条伝播

$\alpha$ Belief Propagation for Approximate Inference ( http://arxiv.org/abs/2006.15363v1 )

ライセンス: Link先を確認
Dong Liu, Minh Th\`anh Vu, Zuxing Li, and Lars K. Rasmussen(参考訳) belief propagation (bp) アルゴリズムは、グラフィカルモデルにおける推論に広く使われているメッセージパッシング手法である。 ループフリーグラフ上のBPは線形時間で収束する。 しかしループのあるグラフの場合、bpのパフォーマンスは不確かであり、その解の理解は限られている。 一般グラフにおけるBPの理解を深めるために、局所化$\alpha$-divergenceの最小化によって動機付けられる解釈可能な信念伝播アルゴリズムを導出する。 このアルゴリズムを$\alpha$ belief propagation($\alpha$-bp)と呼ぶ。 その結果、$\alpha$-BPは標準BPを一般化する。 さらに、この研究は$\alpha$-bp の収束特性を研究する。 我々は$\alpha$-BP の収束条件を証明し提示する。 ランダムグラフ上の実験シミュレーションは、我々の理論結果を検証する。 実用的な問題への$\alpha$-BPの適用も示されている。

Belief propagation (BP) algorithm is a widely used message-passing method for inference in graphical models. BP on loop-free graphs converges in linear time. But for graphs with loops, BP's performance is uncertain, and the understanding of its solution is limited. To gain a better understanding of BP in general graphs, we derive an interpretable belief propagation algorithm that is motivated by minimization of a localized $\alpha$-divergence. We term this algorithm as $\alpha$ belief propagation ($\alpha$-BP). It turns out that $\alpha$-BP generalizes standard BP. In addition, this work studies the convergence properties of $\alpha$-BP. We prove and offer the convergence conditions for $\alpha$-BP. Experimental simulations on random graphs validate our theoretical results. The application of $\alpha$-BP to practical problems is also demonstrated.
翻訳日:2022-11-16 07:34:04 公開日:2020-06-27
# ビーム探索による最適木モデル学習

Learning Optimal Tree Models Under Beam Search ( http://arxiv.org/abs/2006.15408v1 )

ライセンス: Link先を確認
Jingwei Zhuo, Ziru Xu, Wei Dai, Han Zhu, Han Li, Jian Xu, Kun Gai(参考訳) 情報検索とレコメンデーションシステムにおいて,計算限界下での極めて大きなターゲットセットから関連するターゲットを取得することが共通の課題である。 学習可能なノードワイズスコアラーを持つ木の葉としてターゲットを定式化するツリーモデルは、トレーニングとテストの両方において対数計算の複雑さのために、この課題に取り組むことに多くの関心を集めている。 木に基づく深層モデル (TDM) と確率ラベルツリー (PLT) は代表的な2種類である。 多くの実践的な成功をおさめたが、既存のツリーモデルは訓練においてビームサーチによる検索性能劣化が考慮されない訓練試験の相違に悩まされている。 これにより、最も関連するターゲットとビームサーチによって検索されたターゲットの間に、最適に訓練されたノード毎のスコアラーさえも本質的なギャップが生じる。 この問題を理論的に理解し解析する第一歩を踏み出し、ビームサーチおよびビームサーチによるキャリブレーションに基づくベイズ最適性の概念を汎用解析ツールとして開発する。 さらに,この不一致を解消するために,ビーム探索による最適木モデル学習のための新しいアルゴリズムを提案する。 合成データと実データの両方に関する実験は,理論解析の合理性を検証し,最先端手法と比較してアルゴリズムの優越性を示す。

Retrieving relevant targets from an extremely large target set under computational limits is a common challenge for information retrieval and recommendation systems. Tree models, which formulate targets as leaves of a tree with trainable node-wise scorers, have attracted a lot of interests in tackling this challenge due to their logarithmic computational complexity in both training and testing. Tree-based deep models (TDMs) and probabilistic label trees (PLTs) are two representative kinds of them. Though achieving many practical successes, existing tree models suffer from the training-testing discrepancy, where the retrieval performance deterioration caused by beam search in testing is not considered in training. This leads to an intrinsic gap between the most relevant targets and those retrieved by beam search with even the optimally trained node-wise scorers. We take a first step towards understanding and analyzing this problem theoretically, and develop the concept of Bayes optimality under beam search and calibration under beam search as general analyzing tools for this purpose. Moreover, to eliminate the discrepancy, we propose a novel algorithm for learning optimal tree models under beam search. Experiments on both synthetic and real data verify the rationality of our theoretical analysis and demonstrate the superiority of our algorithm compared to state-of-the-art methods.
翻訳日:2022-11-16 07:33:37 公開日:2020-06-27
# Alpha-Net: アーキテクチャ、モデル、アプリケーション

Alpha-Net: Architecture, Models, and Applications ( http://arxiv.org/abs/2007.07221v1 )

ライセンス: Link先を確認
Jishan Shaikh, Adya Sharma, Ankit Chouhan, Avinash Mahawar(参考訳) ディープラーニングネットワークトレーニングは通常、計算コストが高く、直感的に複雑である。 カスタムトレーニングと重み評価のための新しいネットワークアーキテクチャを提案する。 我々は、レイヤをResNet類似ブロックとして、特定の入力と出力で再構成し、接続構成上のブロック(Alphaブロックと呼ばれる)を独自のネットワークとして、新しい損失関数と正規化関数を組み合わせて完全なAlpha-Netアーキテクチャを構築する。 精度推定とさらなる最適化をより理解するために,ネットワーク損失関数の経験的数学的定式化を行った。 アーキテクチャの動作を包括的に表現するために、4つの異なるレイヤ構成でalpha-netを実装した。 ImageNetベンチマークに基づくカスタムデータセットで、画像認識のためのAlpha-Net v1、v2、v3、v4を評価し、それぞれ78.2%、79.1%、79.5%、78.3%の精度を与える。 alpha-net v3は精度がほぼ向上した。 前回のImageNetベンチマークでは、ResNet 50が3%だった。 また,256層,512層,1024層,および損失関数の異なるバージョンを用いたデータセットの解析を行った。 初期前処理は、トレーニングを必要以上に複雑にするために、わずかな機能しか必要としないため、入力表現もトレーニングに不可欠である。 また、Alpha-Netの定量的モデリングのために、異なる層構造、異なる損失関数、異なる正規化関数とネットワーク挙動を比較した。

Deep learning network training is usually computationally expensive and intuitively complex. We present a novel network architecture for custom training and weight evaluations. We reformulate the layers as ResNet-similar blocks with certain inputs and outputs of their own, the blocks (called Alpha blocks) on their connection configuration form their own network, combined with our novel loss function and normalization function form the complete Alpha-Net architecture. We provided the empirical mathematical formulation of network loss function for more understanding of accuracy estimation and further optimizations. We implemented Alpha-Net with 4 different layer configurations to express the architecture behavior comprehensively. On a custom dataset based on ImageNet benchmark, we evaluate Alpha-Net v1, v2, v3, and v4 for image recognition to give the accuracy of 78.2%, 79.1%, 79.5%, and 78.3% respectively. The Alpha-Net v3 gives improved accuracy of approx. 3% over the last state-of-the-art network ResNet 50 on ImageNet benchmark. We also present an analysis of our dataset with 256, 512, and 1024 layers and different versions of the loss function. Input representation is also crucial for training as initial preprocessing will take only a handful of features to make training less complex than it needs to be. We also compared network behavior with different layer structures, different loss functions, and different normalization functions for better quantitative modeling of Alpha-Net.
翻訳日:2022-11-16 07:32:40 公開日:2020-06-27
# Smile-GANs: 医用画像から脳疾患の均一性を識別するためのGANによる半教師付きクラスタリング

Smile-GANs: Semi-supervised clustering via GANs for dissecting brain disease heterogeneity from medical images ( http://arxiv.org/abs/2006.15255v1 )

ライセンス: Link先を確認
Zhijian Yang, Junhao Wen, Christos Davatzikos(参考訳) 複雑な生体医学データに適用する機械学習手法は、診断・予後の値の疾患のシグネチャの構築を可能にした。 しかし、疾患の多様性を理解することにはあまり注意が払われていない。 半教師付きクラスタリング法は、(例えば、健康な)制御(cn)グループから患者(pt)グループへの多重変換を推定し、基礎となる病理プロセスの多様性を捉えることで、この問題に対処できる。 本稿では、半教師付きクラスタリングのための新しい手法であるSmile-GAN(SeMi-supervIsed cLustEring via GANs)を提案し、脳MRIスキャンに適用する。 Smile-GANはまずCNからPTを生成することで複数の異なるマッピングを学習し、それぞれのマッピングは比較的異なる1つの病理パターンを特徴付ける。 さらに、クラスタリングモデルをマッピング関数と対話的にトレーニングし、PTを対応するサブタイプメンバシップに割り当てる。 Smile-GANは、PT/CNデータ分布の緩和された仮定と非直線性を示すマッピングを用いて、CNとPTドメイン間の分布の不均一な差異を捉えている。 まず,アルツハイマー病(ad)とその前頭葉相における多様性を特徴付ける可能性を示すことで,実データに基づくシミュレーションデータを用いてスマイルガンを検証した。 モデルは最初にADNI2データベースのベースラインMRIを用いて訓練され、ADNI1とBLSAの縦データに適用された。 異なる神経解剖学的パターンを持つ4種類のロバスト亜型が発見された。 1)正常脳 2) ad の非定型であるびまん性萎縮 3)局所性側頭葉萎縮症 4) 典型的なAD。 縦断的解析により、前ドロマルから完全ADまでの2つの異なる進行経路が発見される。 i) サブタイプ 1 - 2 - 4 及び 二 サブタイプ 1 - 3 - 4 Smile-GANは、重要なバイオメディカルな問題で実証されているが、一般的なものであり、多くのバイオメディカルおよび他の領域で応用できる。

Machine learning methods applied to complex biomedical data has enabled the construction of disease signatures of diagnostic/prognostic value. However, less attention has been given to understanding disease heterogeneity. Semi-supervised clustering methods can address this problem by estimating multiple transformations from a (e.g. healthy) control (CN) group to a patient (PT) group, seeking to capture the heterogeneity of underlying pathlogic processes. Herein, we propose a novel method, Smile-GANs (SeMi-supervIsed cLustEring via GANs), for semi-supervised clustering, and apply it to brain MRI scans. Smile-GANs first learns multiple distinct mappings by generating PT from CN, with each mapping characterizing one relatively distinct pathological pattern. Moreover, a clustering model is trained interactively with mapping functions to assign PT into corresponding subtype memberships. Using relaxed assumptions on PT/CN data distribution and imposing mapping non-linearity, Smile-GANs captures heterogeneous differences in distribution between the CN and PT domains. We first validate Smile-GANs using simulated data, subsequently on real data, by demonstrating its potential in characterizing heterogeneity in Alzheimer's Disease (AD) and its prodromal phases. The model was first trained using baseline MRIs from the ADNI2 database and then applied to longitudinal data from ADNI1 and BLSA. Four robust subtypes with distinct neuroanatomical patterns were discovered: 1) normal brain, 2) diffuse atrophy atypical of AD, 3) focal medial temporal lobe atrophy, 4) typical-AD. Further longitudinal analyses discover two distinct progressive pathways from prodromal to full AD: i) subtypes 1 - 2 - 4, and ii) subtypes 1 - 3 - 4. Although demonstrated on an important biomedical problem, Smile-GANs is general and can find application in many biomedical and other domains.
翻訳日:2022-11-16 07:31:55 公開日:2020-06-27
# Picasso: RとPythonの高次元データ分析のためのスパース学習ライブラリ

Picasso: A Sparse Learning Library for High Dimensional Data Analysis in R and Python ( http://arxiv.org/abs/2006.15261v1 )

ライセンス: Link先を確認
Jason Ge, Xingguo Li, Haoming Jiang, Han Liu, Tong Zhang, Mengdi Wang, Tuo Zhao(参考訳) 本稿では,様々なスパース学習問題(スパース線形回帰,スパースロジスティック回帰,スパース・ポアソン回帰,スケールド・スパース線形回帰など)に対して,効率的な能動集合選択戦略を組み合わせた経路座標の統一的なフレームワークを実装したpicassoというライブラリについて述べる。 さらにライブラリでは,convex $\ell_1$, nonconvex MCP, SCAD regularizersなど,さまざまなスペーサ誘導正規化子を選択することができる。 ライブラリはC++でコード化されており、ユーザフレンドリーなRとPythonラッパーを備えている。 数値実験により、ピカソは大きな問題に効率的にスケールアップできることが示された。

We describe a new library named picasso, which implements a unified framework of pathwise coordinate optimization for a variety of sparse learning problems (e.g., sparse linear regression, sparse logistic regression, sparse Poisson regression and scaled sparse linear regression) combined with efficient active set selection strategies. Besides, the library allows users to choose different sparsity-inducing regularizers, including the convex $\ell_1$, nonconvex MCP and SCAD regularizers. The library is coded in C++ and has user-friendly R and Python wrappers. Numerical experiments demonstrate that picasso can scale up to large problems efficiently.
翻訳日:2022-11-16 07:31:22 公開日:2020-06-27
# 機械学習を用いた空調システムのシミュレーションと最適化

Simulation and Optimisation of Air Conditioning Systems using Machine Learning ( http://arxiv.org/abs/2006.15296v1 )

ライセンス: Link先を確認
Rakshitha Godahewa, Chang Deng, Arnaud Prouzeau, Christoph Bergmeir(参考訳) 建物の管理において、通常、静的な温度設定は、その占有の有無にかかわらず、建物の内部温度を快適に維持するために用いられる。 この戦略は大量のエネルギーを発生させ、エネルギー関連費用を増加させる。 本稿では,ある部屋の空き時間に使用するセットポイントを機械学習を用いて最適化する方法について検討する。 本稿では,Recurrent Neural Networks(RNN)に基づく深層学習モデルを提案する。これは,特定の部屋が占有されていない未来の温度を直接予測し,これらの予測温度を用いて,非占有期間中に室内で使用する最適な温度設定点を定義する。 rnnは,空調システム(ac)の特定の動作モードに焦点をあてる必要のある,比較的短いシリーズの学習を可能にするため,この学習タスクに特に適していることを示す。 我々は,RNNモデルの予測精度を一連の最先端モデルに対して評価し,その精度を大きなマージンで向上させることができる。 さらに,大学講座の温度データを用いて,実環境シナリオにおける交流システムのエネルギー消費を最適化する上でのRNNモデルの利用状況を分析する。 シミュレーションの結果,rnnモデルでは,最適化技術を使用しない従来の温度制御モデルと比較して,約20%の節約が期待できることがわかった。

In building management, usually static thermal setpoints are used to maintain the inside temperature of a building at a comfortable level irrespective of its occupancy. This strategy can cause a massive amount of energy wastage and therewith increase energy related expenses. This paper explores how to optimise the setpoints used in a particular room during its unoccupied periods using machine learning approaches. We introduce a deep-learning model based on Recurrent Neural Networks (RNN) that can predict the temperatures of a future period directly where a particular room is unoccupied and by using these predicted temperatures, we define the optimal thermal setpoints to be used inside the room during the unoccupied period. We show that RNNs are particularly suitable for this learning task as they enable us to learn across many relatively short series, which is necessary to focus on particular operation modes of the air conditioning (AC) system. We evaluate the prediction accuracy of our RNN model against a set of state-of-the-art models and are able to outperform those by a large margin. We furthermore analyse the usage of our RNN model in optimising the energy consumption of an AC system in a real-world scenario using the temperature data from a university lecture theatre. Based on the simulations, we show that our RNN model can lead to savings around 20% compared with the traditional temperature controlling model that does not use optimisation techniques.
翻訳日:2022-11-16 07:25:46 公開日:2020-06-27
# 季節平均1依存性推定器:高次元ストリーム分類における季節概念ドリフトに対応する新しいアルゴリズム

Seasonal Averaged One-Dependence Estimators: A Novel Algorithm to Address Seasonal Concept Drift in High-Dimensional Stream Classification ( http://arxiv.org/abs/2006.15311v1 )

ライセンス: Link先を確認
Rakshitha Godahewa, Trevor Yann, Christoph Bergmeir, Francois Petitjean(参考訳) ストリーム分類手法は、新しいラベル付きサンプルが到着すると、データの連続的なストリームを分類する。 また、しばしばコンセプトドリフトに対処する必要がある。 本稿では,多くの実世界のアプリケーションデータソースで見られるストリーム分類における季節的ドリフトに着目した。 ストリーム分類の伝統的なアプローチは、季節的なダミー/インジケータ変数を含むか、季節ごとに別々のモデルを構築することで季節的なドリフトを考える。 しかし、これらのアプローチは高次元の分類問題や複雑な季節パターンに強い制限がある。 本稿では, 季節的ドリフトがデータに含まれる主な種類のドリフトであり, データが高次元である, ニュース記事分類(分類・タグ付け)の特定の文脈において, 季節的ドリフトを効果的に扱う方法について検討する。 季節平均1-依存推定器 (SAODE) と呼ばれる新しい分類器を導入し, AODE分類器を拡張して, 時刻をスーパー親として扱えるようにした。 我々は,2つの大規模実世界のテキストマイニング関連データセットを用いて,9つの最先端ストリームと概念ドリフト分類モデルに対して約100万レコードからなるSAODEモデルを評価した。 5つの異なる評価手法で比較した結果,結果が統計的に有意な場合,モデルが他の手法を一貫して上回っていることがわかった。

Stream classification methods classify a continuous stream of data as new labelled samples arrive. They often also have to deal with concept drift. This paper focuses on seasonal drift in stream classification, which can be found in many real-world application data sources. Traditional approaches of stream classification consider seasonal drift by including seasonal dummy/indicator variables or building separate models for each season. But these approaches have strong limitations in high-dimensional classification problems, or with complex seasonal patterns. This paper explores how to best handle seasonal drift in the specific context of news article categorization (or classification/tagging), where seasonal drift is overwhelmingly the main type of drift present in the data, and for which the data are high-dimensional. We introduce a novel classifier named Seasonal Averaged One-Dependence Estimators (SAODE), which extends the AODE classifier to handle seasonal drift by including time as a super parent. We assess our SAODE model using two large real-world text mining related datasets each comprising approximately a million records, against nine state-of-the-art stream and concept drift classification models, with and without seasonal indicators and with separate models built for each season. Across five different evaluation techniques, we show that our model consistently outperforms other methods by a large margin where the results are statistically significant.
翻訳日:2022-11-16 07:25:27 公開日:2020-06-27
# 事前訓練された世代言語モデルを用いたビデオグラウンド対話

Video-Grounded Dialogues with Pretrained Generation Language Models ( http://arxiv.org/abs/2006.15319v1 )

ライセンス: Link先を確認
Hung Le, Steven C.H. Hoi(参考訳) 事前訓練された言語モデルは、テキストデータの依存関係をキャプチャし、自然な応答を生成する能力により、様々な下流のNLPタスクの改善に顕著な成功を収めている。 本稿では,(1)空間的および時間的次元にまたがる映像的特徴と,(2)複数の対話にまたがる意味的依存関係を伴う対話的特徴という,異なるダイナミクスの複雑な特徴を包含するビデオ・グラウンド・対話の改善のために,事前学習された言語モデルのパワーを活用する。 本稿では,gpt-2モデルを拡張して,映像接地対話タスクをシーケンスツーシーケンスタスクとして定式化し,視覚表現とテキスト表現を結合し,事前学習した大規模gpt-2ネットワークを微調整する枠組みを提案する。 当社のフレームワークでは、微調整された言語モデルによって、さまざまなレベルの情報に対する複数のモダリティ間の依存関係をキャプチャすることができます。 本研究では,dstc7からavsd(audio-visual scene-aware dialogues)ベンチマークの性能向上を期待する。

Pre-trained language models have shown remarkable success in improving various downstream NLP tasks due to their ability to capture dependencies in textual data and generate natural responses. In this paper, we leverage the power of pre-trained language models for improving video-grounded dialogue, which is very challenging and involves complex features of different dynamics: (1) Video features which can extend across both spatial and temporal dimensions; and (2) Dialogue features which involve semantic dependencies over multiple dialogue turns. We propose a framework by extending GPT-2 models to tackle these challenges by formulating video-grounded dialogue tasks as a sequence-to-sequence task, combining both visual and textual representation into a structured sequence, and fine-tuning a large pre-trained GPT-2 network. Our framework allows fine-tuning language models to capture dependencies across multiple modalities over different levels of information: spatio-temporal level in video and token-sentence level in dialogue context. We achieve promising improvement on the Audio-Visual Scene-Aware Dialogues (AVSD) benchmark from DSTC7, which supports a potential direction in this line of research.
翻訳日:2022-11-16 07:24:50 公開日:2020-06-27
# 信頼性施設配置問題に対するハイブリッド進化アルゴリズム

A Hybrid Evolutionary Algorithm for Reliable Facility Location Problem ( http://arxiv.org/abs/2007.04769v1 )

ライセンス: Link先を確認
Han Zhang, Jialin Liu, and Xin Yao(参考訳) 信頼性施設立地問題(RFLP)は、運用研究の重要な研究課題であり、現代のサプライチェーンとロジスティクスの意思決定と管理において重要な役割を担っている。 RFLPの解決により、意思決定者は、施設の故障や故障のリスクの下で、信頼できる位置決定を得ることができる。 本稿では,RFLPの新しいモデルを提案する。 既存の作業のように、各顧客に対して一定数の施設を割り当てる代わりに、提案するモデルでは、割り当てられた施設の数を独立した変数として設定します。 そこで本研究では,記憶可能な局所探索法(mls)と進化アルゴリズム(ea)を組み合わせたハイブリッド進化アルゴリズムであるeamlsを提案する。 さらに,アルゴリズムの収束速度の解析と進化過程の検証を支援するために,l3値と呼ばれる新しい指標が提案されている。 実験結果は,大規模問題に対する cplex solver と genetic algorithm (ga) と比較して,eamlsの有効性と優れた性能を示す。

The reliable facility location problem (RFLP) is an important research topic of operational research and plays a vital role in the decision-making and management of modern supply chain and logistics. Through solving RFLP, the decision-maker can obtain reliable location decisions under the risk of facilities' disruptions or failures. In this paper, we propose a novel model for the RFLP. Instead of assuming allocating a fixed number of facilities to each customer as in the existing works, we set the number of allocated facilities as an independent variable in our proposed model, which makes our model closer to the scenarios in real life but more difficult to be solved by traditional methods. To handle it, we propose EAMLS, a hybrid evolutionary algorithm, which combines a memorable local search (MLS) method and an evolutionary algorithm (EA). Additionally, a novel metric called l3-value is proposed to assist the analysis of the algorithm's convergence speed and exam the process of evolution. The experimental results show the effectiveness and superior performance of our EAMLS, compared to a CPLEX solver and a Genetic Algorithm (GA), on large-scale problems.
翻訳日:2022-11-16 07:24:03 公開日:2020-06-27
# ラベルの少ないテキスト分類のための不確実性を考慮した自己学習

Uncertainty-aware Self-training for Text Classification with Few Labels ( http://arxiv.org/abs/2006.15315v1 )

ライセンス: Link先を確認
Subhabrata Mukherjee, Ahmed Hassan Awadallah(参考訳) 大規模な事前学習された言語モデルの成功は、下流タスクのために大量のラベル付きデータを微調整することに大きく依存しています。 本研究では,初期半教師付き学習手法の1つとして自己学習について検討し,対象タスクに対する大規模未ラベルデータの利用によりアノテーションボトルネックを低減する。 標準的な自己学習メカニズムは、未ラベルのプールから疑似ラベルと拡張ラベルのデータにランダムにインスタンスをサンプリングする。 本研究では,ベイズ深層学習の最近の進歩を活かし,基盤となるニューラルネットワークの不確実性推定を取り入れ,自己学習を改善する手法を提案する。 具体的には i)モンテカルロ(MC)ドロップアウトを利用したラベルなしプールからインスタンスを選択するための取得機能、及び 二 自己学習のためのモデル信頼を活用した学習機構 アプリケーションとして,5つのベンチマークデータセットのテキスト分類に注目する。 本手法では,各タスク毎に20~30個のラベル付きサンプルのみを活用し,全教師付き事前学習済み言語モデルの3%以内を精度91%で微調整し,ベースラインを最大12%改善できることを示す。

Recent success of large-scale pre-trained language models crucially hinge on fine-tuning them on large amounts of labeled data for the downstream task, that are typically expensive to acquire. In this work, we study self-training as one of the earliest semi-supervised learning approaches to reduce the annotation bottleneck by making use of large-scale unlabeled data for the target task. Standard self-training mechanism randomly samples instances from the unlabeled pool to pseudo-label and augment labeled data. In this work, we propose an approach to improve self-training by incorporating uncertainty estimates of the underlying neural network leveraging recent advances in Bayesian deep learning. Specifically, we propose (i) acquisition functions to select instances from the unlabeled pool leveraging Monte Carlo (MC) Dropout, and (ii) learning mechanism leveraging model confidence for self-training. As an application, we focus on text classification on five benchmark datasets. We show our methods leveraging only 20-30 labeled samples per class for each task for training and for validation can perform within 3% of fully supervised pre-trained language models fine-tuned on thousands of labeled instances with an aggregate accuracy of 91% and improving by upto 12% over baselines.
翻訳日:2022-11-16 07:23:45 公開日:2020-06-27
# 有効蒸留ソフトラベル正規化器による確率的バッチ増大

Stochastic Batch Augmentation with An Effective Distilled Dynamic Soft Label Regularizer ( http://arxiv.org/abs/2006.15284v1 )

ライセンス: Link先を確認
Qian Li, Qingyuan Hu, Yong Qi, Saiyu Qi, Jie Ma, and Jian Zhang(参考訳) データ拡張は、オリジナルの空間(画像空間など)や表現空間など、一般化を改善するためにディープニューラルネットワークをトレーニングするために集中的に使用されてきた。 得られたデータと原データとの接続は, 得られたサンプルが元のサンプルを取り巻く分布情報を考慮せずに, トレーニングにおいてほとんど無視される。 したがって、ネットワークの動作は最適化されていない。 しかし, その行動は, 敵対的環境においても, 深層学習システムの安全性のために, 一般化に極めて重要である。 本研究では,これらの問題に対処するためのSBA(Stochastic Batch Augmentation)というフレームワークを提案する。 SBAは、バッチスケジューラによって制御されたイテレーションで拡張するか否かを確率的に決定し、原サンプルに関する近傍分布に類似性を組み込んだ「蒸留」動的ソフトラベル正規化を導入する。 提案する正規化は、オリジナルデータと仮想データの出力ソフトマックス分布のkl分割による直接的監督を提供する。 CIFAR-10, CIFAR-100, ImageNetによる実験により, SBAはニューラルネットワークの一般化を改善し, ネットワークトレーニングの収束を高速化できることが示された。

Data augmentation have been intensively used in training deep neural network to improve the generalization, whether in original space (e.g., image space) or representation space. Although being successful, the connection between the synthesized data and the original data is largely ignored in training, without considering the distribution information that the synthesized samples are surrounding the original sample in training. Hence, the behavior of the network is not optimized for this. However, that behavior is crucially important for generalization, even in the adversarial setting, for the safety of the deep learning system. In this work, we propose a framework called Stochastic Batch Augmentation (SBA) to address these problems. SBA stochastically decides whether to augment at iterations controlled by the batch scheduler and in which a ''distilled'' dynamic soft label regularization is introduced by incorporating the similarity in the vicinity distribution respect to raw samples. The proposed regularization provides direct supervision by the KL-Divergence between the output soft-max distributions of original and virtual data. Our experiments on CIFAR-10, CIFAR-100, and ImageNet show that SBA can improve the generalization of the neural networks and speed up the convergence of network training.
翻訳日:2022-11-16 07:23:24 公開日:2020-06-27