このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200402となっている論文です。

PDF登録状況(公開日: 20200402)

TitleAuthorsAbstract論文公表日・翻訳日
# 非注釈的病理組織像を有する癌サブタイプ分類のための多スケールドメイン・adversarial multi-instance cnn

Multi-scale Domain-adversarial Multiple-instance CNN for Cancer Subtype Classification with Unannotated Histopathological Images ( http://arxiv.org/abs/2001.01599v2 )

ライセンス: Link先を確認
Noriaki Hashimoto, Daisuke Fukushima, Ryoichi Koga, Yusuke Takagi, Kaho Ko, Kei Kohno, Masato Nakaguro, Shigeo Nakamura, Hidekata Hontani and Ichiro Takeuchi(参考訳) そこで本研究では,各スライド画像中の腫瘍特異な特徴を自動的に検出する,病理組織像からの癌サブタイプ分類法を提案する。 がんのサブタイプは、がんと非がん部分からなる、病理組織スライド全体の大きな画像(典型的には40,000×40,000ピクセル)を参照して分類すべきである。 WSIsの腫瘍領域のアノテートに伴う高コストから1つの困難が生じる。 さらに、画像の倍率を変更することにより、グローバル画像とローカル画像の両方の特徴をwsiから抽出する必要がある。 また, 病院における染色条件の違いに対して, 画像の特徴を安定的に検出する必要がある。 本稿では,これらの課題を克服するために,マルチインスタンス,ドメイン逆数,マルチスケール学習フレームワークを効果的に組み合わせたCNNベースの癌サブタイプ分類法を提案する。 提案法を複数の病院から採取した196例の悪性リンパ腫亜型分類に応用した場合, 分類性能は標準cnnや他の従来の方法よりも有意に良好であり, 病理組織学的に比較した精度は良好であった。

We propose a new method for cancer subtype classification from histopathological images, which can automatically detect tumor-specific features in a given whole slide image (WSI). The cancer subtype should be classified by referring to a WSI, i.e., a large-sized image (typically 40,000x40,000 pixels) of an entire pathological tissue slide, which consists of cancer and non-cancer portions. One difficulty arises from the high cost associated with annotating tumor regions in WSIs. Furthermore, both global and local image features must be extracted from the WSI by changing the magnifications of the image. In addition, the image features should be stably detected against the differences of staining conditions among the hospitals/specimens. In this paper, we develop a new CNN-based cancer subtype classification method by effectively combining multiple-instance, domain adversarial, and multi-scale learning frameworks in order to overcome these practical difficulties. When the proposed method was applied to malignant lymphoma subtype classifications of 196 cases collected from multiple hospitals, the classification performance was significantly better than the standard CNN or other conventional methods, and the accuracy compared favorably with that of standard pathologists.
翻訳日:2023-01-14 02:29:01 公開日:2020-04-02
# 量子場理論における情報幾何:簡単な例からの教訓

Information geometry in quantum field theory: lessons from simple examples ( http://arxiv.org/abs/2001.02683v2 )

ライセンス: Link先を確認
Johanna Erdmenger, Kevin T. Grosvenor, and Ro Jefferson(参考訳) 情報理論と高エネルギー物理学の結びつきの増大、特にAdS/CFT対応の文脈において、我々は様々な単純なシステムに関連する情報幾何学を探求する。 漁師のメトリクスを研究することによって、ホログラフィにおける情報幾何の応用に重要な意味を持ついくつかの一般的な教訓を導出する。 まず、研究対象の物理理論の対称性が結果として得られる幾何学に強い役割を果たし、AdS計量の出現は比較的一般的な特徴であることを示すことから始める。 その後、古典的2dイジングモデルとそれに対応する1d自由フェルミオン理論の両方の幾何学を研究することによって、フィッシャー計量が基礎理論の物理についてどんな情報を保持するかを調べ、曲率が両辺の相転移で正確に分岐するかを確かめる。 我々は、コヒーレント自由フェルミオン状態の例を用いて、理論と状態の空間に計量を置くことによって生じる違いについて議論する。 後者をコヒーレント自由ボーソン状態の空間上の計量と比較し、両方の場合において計量は対応する密度行列の対称性によって決定されることを示す。 また、計量や非計量接続に関連する平坦性の異なる概念に関する文献における誤解を明らかにし、幾何の曲率をどのように解釈するかを示唆する。 以上の結果から,ads/cft対応と特定のモデルから発生するads幾何を接続する場合は,一般的に注意が必要であることを示し,このエキサイティングな分野における今後の進歩のための有用なガイドラインの収集を目指す。

Motivated by the increasing connections between information theory and high-energy physics, particularly in the context of the AdS/CFT correspondence, we explore the information geometry associated to a variety of simple systems. By studying their Fisher metrics, we derive some general lessons that may have important implications for the application of information geometry in holography. We begin by demonstrating that the symmetries of the physical theory under study play a strong role in the resulting geometry, and that the appearance of an AdS metric is a relatively general feature. We then investigate what information the Fisher metric retains about the physics of the underlying theory by studying the geometry for both the classical 2d Ising model and the corresponding 1d free fermion theory, and find that the curvature diverges precisely at the phase transition on both sides. We discuss the differences that result from placing a metric on the space of theories vs. states, using the example of coherent free fermion states. We compare the latter to the metric on the space of coherent free boson states and show that in both cases the metric is determined by the symmetries of the corresponding density matrix. We also clarify some misconceptions in the literature pertaining to different notions of flatness associated to metric and non-metric connections, with implications for how one interprets the curvature of the geometry. Our results indicate that in general, caution is needed when connecting the AdS geometry arising from certain models with the AdS/CFT correspondence, and seek to provide a useful collection of guidelines for future progress in this exciting area.
翻訳日:2023-01-13 13:06:21 公開日:2020-04-02
# 視覚的質問応答のためのグリッド特徴の防衛

In Defense of Grid Features for Visual Question Answering ( http://arxiv.org/abs/2001.03615v2 )

ライセンス: Link先を確認
Huaizu Jiang, Ishan Misra, Marcus Rohrbach, Erik Learned-Miller, Xinlei Chen(参考訳) ボトムアップ”として普及したバウンディングボックス(あるいはリージョン)ベースのビジュアル機能は,視覚や言語タスクのデファクトスタンダードであるvqa(visual question answering)として,バニラグリッドベースの畳み込み機能を上回っている。 しかし、地域(例えば、より良いローカライゼーション)の利点がボトムアップ・アテンションの成功の鍵となる理由であるかどうかは不明である。 本稿では,vqaのグリッド機能を再検討し,同じ精度で1桁以上の速度で(例えば,同じ方法で事前トレーニングされた場合など)動作させることで,驚くほどうまく機能することを確認した。 広範な実験を通じて、この観測が様々なVQAモデル(VQA 2.0 test-std, 72.71)で真であることを確認し、画像キャプションのような他のタスクによく当てはまる。 グリッド機能はモデル設計とトレーニングプロセスをずっとシンプルにするので、エンドツーエンドでトレーニングできるだけでなく、より柔軟なネットワーク設計も利用できます。 VQAモデルは、ピクセルから直接回答までエンドツーエンドで学習し、事前トレーニングでリージョンアノテーションを使わずに、強いパフォーマンスが達成可能であることを示す。 VQAの科学的理解と実用性をさらに向上させることを願っている。 コードと機能は利用可能になる。

Popularized as 'bottom-up' attention, bounding box (or region) based visual features have recently surpassed vanilla grid-based convolutional features as the de facto standard for vision and language tasks like visual question answering (VQA). However, it is not clear whether the advantages of regions (e.g. better localization) are the key reasons for the success of bottom-up attention. In this paper, we revisit grid features for VQA, and find they can work surprisingly well - running more than an order of magnitude faster with the same accuracy (e.g. if pre-trained in a similar fashion). Through extensive experiments, we verify that this observation holds true across different VQA models (reporting a state-of-the-art accuracy on VQA 2.0 test-std, 72.71), datasets, and generalizes well to other tasks like image captioning. As grid features make the model design and training process much simpler, this enables us to train them end-to-end and also use a more flexible network design. We learn VQA models end-to-end, from pixels directly to answers, and show that strong performance is achievable without using any region annotations in pre-training. We hope our findings help further improve the scientific understanding and the practical application of VQA. Code and features will be made available.
翻訳日:2023-01-12 23:13:10 公開日:2020-04-02
# トレンドユーティリティ推定による人型時系列要約

Human-like Time Series Summaries via Trend Utility Estimation ( http://arxiv.org/abs/2001.05665v2 )

ライセンス: Link先を確認
Pegah Jandaghi, Jay Pujara(参考訳) 多くのシナリオにおいて、人間は数値、表、グラフィカル表現よりも量的データのテキストに基づく表現を好む。 複雑なデータに対するテキスト要約の魅力は、データ-テキストシステムの研究に影響を与えた。 時系列のためのデータ・ツー・テキストツールはいくつか存在するが、人間が時系列を要約する方法を模倣しようとするものは少ない。 本稿では,時系列の人間ライクなテキスト記述を作成するためのモデルを提案する。 本システムでは,時系列データからパターンを抽出し,実用度推定による人間の行動の実証的観察に基づいてこれらのパターンを分類する。 提案手法は,異なるパターン間の相互依存性を捉えるベイズネットワークである。 このネットワークの学習ステップを説明し、各ステップのパフォーマンスとともにベースラインを導入します。 本システムの出力は,人間による同じデータの要約に一致させようとする時系列の自然言語記述である。

In many scenarios, humans prefer a text-based representation of quantitative data over numerical, tabular, or graphical representations. The attractiveness of textual summaries for complex data has inspired research on data-to-text systems. While there are several data-to-text tools for time series, few of them try to mimic how humans summarize for time series. In this paper, we propose a model to create human-like text descriptions for time series. Our system finds patterns in time series data and ranks these patterns based on empirical observations of human behavior using utility estimation. Our proposed utility estimation model is a Bayesian network capturing interdependencies between different patterns. We describe the learning steps for this network and introduce baselines along with their performance for each step. The output of our system is a natural language description of time series that attempts to match a human's summary of the same data.
翻訳日:2023-01-10 23:46:35 公開日:2020-04-02
# 音声特徴量と確率分布の発散を用いた音声要約

Audio Summarization with Audio Features and Probability Distribution Divergence ( http://arxiv.org/abs/2001.07098v2 )

ライセンス: Link先を確認
Carlos-Emiliano Gonz\'alez-Gallardo, Romain Deveaud, Eric SanJuan, and Juan-Manuel Torres-Moreno(参考訳) マルチメディアソースの自動要約は、関連情報を維持しながらソースを凝縮することで個人の理解を促進する重要なタスクである。 本稿では,音声特徴量と分布のばらつきの確率に基づく音声要約に着目した。 本手法は,抽出要約手法に基づき,時間しきい値に達するまで最も関連するセグメントを選択することを目的としている。 セグメントの長さ、位置、情報度を考慮に入れます。 メル周波数ケプストラム係数とその対応するジェンセン・シャノン分岐スコアから発行される音声特徴のセットをマッピングして各セグメントの情報性を得る。 マルチ評価手法による結果から,本手法が理解可能かつ情報的要約を提供することを示す。

The automatic summarization of multimedia sources is an important task that facilitates the understanding of an individual by condensing the source while maintaining relevant information. In this paper we focus on audio summarization based on audio features and the probability of distribution divergence. Our method, based on an extractive summarization approach, aims to select the most relevant segments until a time threshold is reached. It takes into account the segment's length, position and informativeness value. Informativeness of each segment is obtained by mapping a set of audio features issued from its Mel-frequency Cepstral Coefficients and their corresponding Jensen-Shannon divergence score. Results over a multi-evaluator scheme shows that our approach provides understandable and informative summaries.
翻訳日:2023-01-08 05:30:39 公開日:2020-04-02
# 不確実性重み付き因果グラフによる偽ニュースの検出

Fake News Detection by means of Uncertainty Weighted Causal Graphs ( http://arxiv.org/abs/2002.01065v2 )

ライセンス: Link先を確認
Eduardo C. Garrido-Merch\'an, Cristina Puente, Rafael Palacios(参考訳) 社会は情報消費の変化を実験しており、ソーシャルネットワークのような新しい情報チャネルによって、必ずしも信頼に値するニュースを共有することができる。 これらの情報ソースは疑わしい目的で意図的にフェイクニュースを生成し、その情報のコンシューマは、その情報が正確であると考える他のユーザと共有することがある。 この情報の伝達は社会における問題であり、特定の人物、グループ、あるいはアイデアに対する人々の意見に悪影響を及ぼす可能性がある。 したがって、情報を偽物として検出・分類し、情報源を信頼に値するか否かの分類が可能なシステムを設計することが望ましい。 現在のシステムでは、コンテキストに依存しない情報を分類できる自動プロシージャの設計が難しいため、このタスクを実行するのが難しい。 本研究では,重み付き因果グラフに基づく分類器を用いて偽ニュースを検出するメカニズムを提案する。 これらのグラフは、テキストから得られた因果関係を通して構築され、因果関係の不確実性を考慮する特定のハイブリッドモデルである。 この表現を利用して、このグラフの確率分布を利用し、学習情報と新しい情報のエントロピーとkl発散に基づく偽ニュース分類器を構築した。 擬似ニュースの問題は、象徴的手法と定量的手法のハイブリッド性により、このモデルによって正確に取り組まれていると信じている。 本稿では,この分類器の方法論を解説し,提案手法の有効性に関する実証的証拠を合成実験および肺癌に関する実実験の形で追加する。

Society is experimenting changes in information consumption, as new information channels such as social networks let people share news that do not necessarily be trust worthy. Sometimes, these sources of information produce fake news deliberately with doubtful purposes and the consumers of that information share it to other users thinking that the information is accurate. This transmission of information represents an issue in our society, as can influence negatively the opinion of people about certain figures, groups or ideas. Hence, it is desirable to design a system that is able to detect and classify information as fake and categorize a source of information as trust worthy or not. Current systems experiment difficulties performing this task, as it is complicated to design an automatic procedure that can classify this information independent on the context. In this work, we propose a mechanism to detect fake news through a classifier based on weighted causal graphs. These graphs are specific hybrid models that are built through causal relations retrieved from texts and consider the uncertainty of causal relations. We take advantage of this representation to use the probability distributions of this graph and built a fake news classifier based on the entropy and KL divergence of learned and new information. We believe that the problem of fake news is accurately tackled by this model due to its hybrid nature between a symbolic and quantitative methodology. We describe the methodology of this classifier and add empirical evidence of the usefulness of our proposed approach in the form of synthetic experiments and a real experiment involving lung cancer.
翻訳日:2023-01-04 02:22:40 公開日:2020-04-02
# パラメータフリー機械学習による薬物特性予測 : Pareto-Optimal Embedded Modeling (POEM)

Predicting drug properties with parameter-free machine learning: Pareto-Optimal Embedded Modeling (POEM) ( http://arxiv.org/abs/2002.04555v2 )

ライセンス: Link先を確認
Andrew E. Brereton, Stephen MacKinnon, Zhaleh Safikhani, Shawn Reeves, Sana Alwash, Vijay Shahani, Andreas Windemuth(参考訳) 分子構造からの微量分子の吸収、分布、代謝、排出、毒性(ADMET)の予測は、薬物発見において非常に重要な薬理化学における中心的な問題である。 従来の予測モデルの作成には、分子表現の選択、機械学習(ML)アルゴリズム、ハイパーパラメータチューニングなど、かなりの試行錯誤が必要となる。 チューニングなしですべてのデータセットでうまく機能する一般的な適用方法は、非常に価値はあるが、現在不足している。 本稿では,分子特性を予測する類似性に基づくPOEM(Pareto-Optimal Embedded Modeling)について述べる。 POEMは、最適化を必要とせずに信頼できる予測モデルを生成するために開発された、非パラメトリックで教師付きMLアルゴリズムである。 POEMの予測強度は、低次元性を維持しながら、コンテキスト特異的に複数の異なる分子構造の表現を組み合わせることで得られる。 業界標準のMLアルゴリズムと比較してPOEMをベンチマークし、17の分類タスクにまたがって結果を公表した。 すべてのケースにおいてPOEMは良好に機能し、オーバーフィッティングのリスクを低減する。

The prediction of absorption, distribution, metabolism, excretion, and toxicity (ADMET) of small molecules from their molecular structure is a central problem in medicinal chemistry with great practical importance in drug discovery. Creating predictive models conventionally requires substantial trial-and-error for the selection of molecular representations, machine learning (ML) algorithms, and hyperparameter tuning. A generally applicable method that performs well on all datasets without tuning would be of great value but is currently lacking. Here, we describe Pareto-Optimal Embedded Modeling (POEM), a similarity-based method for predicting molecular properties. POEM is a non-parametric, supervised ML algorithm developed to generate reliable predictive models without need for optimization. POEMs predictive strength is obtained by combining multiple different representations of molecular structures in a context-specific manner, while maintaining low dimensionality. We benchmark POEM relative to industry-standard ML algorithms and published results across 17 classifications tasks. POEM performs well in all cases and reduces the risk of overfitting.
翻訳日:2023-01-02 01:38:02 公開日:2020-04-02
# 手描きのスケッチを影にする方法

Learning to Shadow Hand-drawn Sketches ( http://arxiv.org/abs/2002.11812v2 )

ライセンス: Link先を確認
Qingyuan Zheng, Zhuoru Li and Adam Bargteil(参考訳) 本研究では,線画スケッチと照明方向のペアから,詳細な芸術的影を自動生成する手法を提案する。 また,照明方向でタグ付けされた線画と影のペアの1000例のデータセットも新たに提供した。 驚くべきことに、生成された影はスケッチされたシーンの基盤となる3d構造を素早く伝達する。 したがって、このアプローチによって生成される影は、直接的に、またはアーティストにとって優れた出発点として使用できる。 提案する深層学習ネットワークは,手描きのスケッチを取り,潜在空間に3dモデルを構築し,その結果の影を描画する。 生成された影は手描きの線と下層の3D空間を尊重し、自己シャドウ効果のような洗練された正確な詳細を含んでいる。 さらに、生成された影には、裏の照明から現れるリム照明やハロなどの芸術効果が含まれており、従来の3Dレンダリング手法で実現可能である。

We present a fully automatic method to generate detailed and accurate artistic shadows from pairs of line drawing sketches and lighting directions. We also contribute a new dataset of one thousand examples of pairs of line drawings and shadows that are tagged with lighting directions. Remarkably, the generated shadows quickly communicate the underlying 3D structure of the sketched scene. Consequently, the shadows generated by our approach can be used directly or as an excellent starting point for artists. We demonstrate that the deep learning network we propose takes a hand-drawn sketch, builds a 3D model in latent space, and renders the resulting shadows. The generated shadows respect the hand-drawn lines and underlying 3D space and contain sophisticated and accurate details, such as self-shadowing effects. Moreover, the generated shadows contain artistic effects, such as rim lighting or halos appearing from back lighting, that would be achievable with traditional 3D rendering methods.
翻訳日:2022-12-28 15:52:49 公開日:2020-04-02
# 高次情報--被集積者再同定のための学習関係とトポロジー-

High-Order Information Matters: Learning Relation and Topology for Occluded Person Re-Identification ( http://arxiv.org/abs/2003.08177v4 )

ライセンス: Link先を確認
Guan'an Wang, Shuo Yang, Huanyu Liu, Zhicheng Wang, Yang Yang, Shuliang Wang, Gang Yu, Erjin Zhou and Jian Sun(参考訳) occluded person re-identification (reid) は、被写体画像と非協力カメラの全体像とをマッチングすることを目的としている。 本稿では,判別的特徴とロバストなアライメントのための高次関係とトポロジー情報を学習する新しい枠組みを提案する。 まずCNNのバックボーンとキーポイント推定モデルを用いて意味的局所的特徴を抽出する。 それでも、オクルード画像は依然として閉塞や異常感に苦しんでいる。 次に,画像の局所的な特徴をグラフのノードとして捉え,ノード間の関係情報を伝達するための適応方向グラフ畳み込み(adgc)層を提案する。 提案したADGC層は,ディレクションとリンク度を動的に学習することにより,意味のない特徴のメッセージパッシングを自動的に抑制することができる。 2つの画像から局所特徴の2つのグループをアライメントする際、グラフマッチング問題とみなし、局所特徴に位相情報を共同で学習し、埋め込みし、類似度スコアを直線的に予測するクロスグラフ組込みアライメント(CGEA)層を提案する。 提案したCGEA層は、グラフマッチングによって学習されたアライメントをフル活用するだけでなく、敏感な1対1マッチングを堅牢なソフトに置き換える。 最後にoccluded, partial, and holistic reidタスクに関する広範な実験を行い,提案手法の有効性を示した。 具体的には、Occluded-Dukeデータセットにおける最先端の6.5%mAPスコアを著しく上回る。

Occluded person re-identification (ReID) aims to match occluded person images to holistic ones across dis-joint cameras. In this paper, we propose a novel framework by learning high-order relation and topology information for discriminative features and robust alignment. At first, we use a CNN backbone and a key-points estimation model to extract semantic local features. Even so, occluded images still suffer from occlusion and outliers. Then, we view the local features of an image as nodes of a graph and propose an adaptive direction graph convolutional (ADGC)layer to pass relation information between nodes. The proposed ADGC layer can automatically suppress the message-passing of meaningless features by dynamically learning di-rection and degree of linkage. When aligning two groups of local features from two images, we view it as a graph matching problem and propose a cross-graph embedded-alignment (CGEA) layer to jointly learn and embed topology information to local features, and straightly predict similarity score. The proposed CGEA layer not only take full use of alignment learned by graph matching but also re-place sensitive one-to-one matching with a robust soft one. Finally, extensive experiments on occluded, partial, and holistic ReID tasks show the effectiveness of our proposed method. Specifically, our framework significantly outperforms state-of-the-art by6.5%mAP scores on Occluded-Duke dataset.
翻訳日:2022-12-22 12:42:01 公開日:2020-04-02
# 自己解釈剤の神経進化

Neuroevolution of Self-Interpretable Agents ( http://arxiv.org/abs/2003.08165v2 )

ライセンス: Link先を確認
Yujin Tang, Duong Nguyen, David Ha(参考訳) 不注意の盲目は、普通の視界で物事を見逃す心理的現象である。 これは、無関係な詳細に気を散らすことなく、世界の重要な部分に集中できるという認識における選択的な注意の結果である。 選択的注意に動機づけられ,自己着床ボトルネックのレンズを通して世界を知覚する人工エージェントの特性について検討した。 視覚入力のごく一部にのみアクセスを制限することにより、それらのポリシーがピクセル空間で直接解釈可能であることを示す。 視覚ベースの強化学習(rl)タスクのための自己定着アーキテクチャをトレーニングするために、神経進化は理想的であり、エージェントに有用な離散的で非微分可能操作を含むモジュールを組み込むことを可能にする。 自己アテンションは、少数のキークエリパラメータから大きな暗黙の重み行列が生成されるという意味で、間接符号化と同様の性質を持つため、エージェントは、少なくとも既存のメソッドよりも1000倍少ないパラメータで、挑戦的な視覚ベースのタスクを解決できると主張している。 我々のエージェントはタスククリティカルな視覚的ヒントにのみ出席するため、従来の手法が失敗しながらタスク非関連要素が修正される環境に一般化することができる。 結果のビデオとソースコードはhttps://attentionagent.github.io/で閲覧できます。

Inattentional blindness is the psychological phenomenon that causes one to miss things in plain sight. It is a consequence of the selective attention in perception that lets us remain focused on important parts of our world without distraction from irrelevant details. Motivated by selective attention, we study the properties of artificial agents that perceive the world through the lens of a self-attention bottleneck. By constraining access to only a small fraction of the visual input, we show that their policies are directly interpretable in pixel space. We find neuroevolution ideal for training self-attention architectures for vision-based reinforcement learning (RL) tasks, allowing us to incorporate modules that can include discrete, non-differentiable operations which are useful for our agent. We argue that self-attention has similar properties as indirect encoding, in the sense that large implicit weight matrices are generated from a small number of key-query parameters, thus enabling our agent to solve challenging vision based tasks with at least 1000x fewer parameters than existing methods. Since our agent attends to only task critical visual hints, they are able to generalize to environments where task irrelevant elements are modified while conventional methods fail. Videos of our results and source code available at https://attentionagent.github.io/
翻訳日:2022-12-22 09:24:39 公開日:2020-04-02
# RN-VID:ビデオオブジェクト検出のための機能融合アーキテクチャ

RN-VID: A Feature Fusion Architecture for Video Object Detection ( http://arxiv.org/abs/2003.10898v2 )

ライセンス: Link先を確認
Hughes Perreault, Maguelonne H\'eritier, Pierre Gravel, Guillaume-Alexandre Bilodeau and Nicolas Saunier(参考訳) ビデオの連続フレームは非常に冗長である。 したがって、ビデオオブジェクト検出のタスクを実行するために、情報を再利用することなく、各フレーム上で単一のフレーム検出器を実行することは、非常に無駄である。 ビデオオブジェクト検出の新しいアプローチであるRN-VID(RetinaNet-VIDeoの略)を提案することは,この考え方を念頭に置いている。 私たちの貢献は2倍です。 まず,近傍のフレームからの情報を利用して特徴マップを拡張できる新しいアーキテクチャを提案する。 第2に,チャネルの再順序付けと1×1畳み込みを用いて同一次元の特徴写像をマージする新規モジュールを提案する。 次に, RN-VIDは, 単フレーム検出器よりも平均精度(mAP)が良く, 推論にはほとんどコストがかからないことを示した。

Consecutive frames in a video are highly redundant. Therefore, to perform the task of video object detection, executing single frame detectors on every frame without reusing any information is quite wasteful. It is with this idea in mind that we propose RN-VID (standing for RetinaNet-VIDeo), a novel approach to video object detection. Our contributions are twofold. First, we propose a new architecture that allows the usage of information from nearby frames to enhance feature maps. Second, we propose a novel module to merge feature maps of same dimensions using re-ordering of channels and 1 x 1 convolutions. We then demonstrate that RN-VID achieves better mean average precision (mAP) than corresponding single frame detectors with little additional cost during inference.
翻訳日:2022-12-20 09:17:27 公開日:2020-04-02
# 厳密な部分順序の集合に基づく選択関数:公理的特徴付け

Choice functions based on sets of strict partial orders: an axiomatic characterisation ( http://arxiv.org/abs/2003.11631v2 )

ライセンス: Link先を確認
Jasper De Bock(参考訳) オプションの集合から選択する方法は、しばしばこれらのオプションの厳密な部分順序、またはそのような部分順序の集合に基づいている。 ここでは、この形式の選択関数に対して、非常に一般的な公理的特徴付けを提供する。 特別な場合として、全順序(集合)、弱順序(集合)、(集合)コヒーレントな下述語(集合)、(集合)確率測度に基づく選択関数の公理的特徴付けを含む。

Methods for choosing from a set of options are often based on a strict partial order on these options, or on a set of such partial orders. I here provide a very general axiomatic characterisation for choice functions of this form. It includes as special cases axiomatic characterisations for choice functions based on (sets of) total orders, (sets of) weak orders, (sets of) coherent lower previsions and (sets of) probability measures.
翻訳日:2022-12-20 03:42:34 公開日:2020-04-02
# ツイートからワークライフイベントを分類するためのクラウドソーシングとアクティブラーニングの統合

Integrating Crowdsourcing and Active Learning for Classification of Work-Life Events from Tweets ( http://arxiv.org/abs/2003.12139v2 )

ライセンス: Link先を確認
Yunpeng Zhao, Mattia Prosperi, Tianchen Lyu, Yi Guo, Jiang Bian(参考訳) ソーシャルメディア、特にTwitterは、予測分析の研究にますます利用されている。 ソーシャルメディア研究において、自然言語処理(NLP)技術は専門家に基づく、手動、定性的な分析と共に用いられる。 しかし、ソーシャルメディアデータは構造化されておらず、研究のために複雑な操作をしなければならない。 手動アノテーションは、複数の専門家が各項目のコンセンサスに到達しなければならない、最もリソースと時間を要するプロセスであるが、nlpベースの機械学習分類器をトレーニングするためのゴールド標準データセットを作成するために必須である。 マニュアルアノテーションの負担を軽減し,信頼性を維持しつつ,アクティブな学習戦略を組み合わせたクラウドソーシングパイプラインを考案した。 個々のツイートからジョブ損失イベントを識別するケーススタディを通じて,その効果を実証した。 私たちはAmazon Mechanical Turkプラットフォームを使用して、インターネットからアノテータを募集し、アノテータの精度を保証するために多くの品質管理対策を設計しました。 4種類のアクティブラーニング戦略(すなわち、最小自信、エントロピー、投票エントロピー、kullback-leibler divergence)を評価した。 アクティブな学習戦略は、自動分類の望ましいパフォーマンスに到達するために必要なツイート数を減らすことを目的としている。 その結果、クラウドソーシングは高品質なアノテーションを作成するのに有用であり、アクティブな学習は必要なツイート数を減らすのに役立つことがわかった。

Social media, especially Twitter, is being increasingly used for research with predictive analytics. In social media studies, natural language processing (NLP) techniques are used in conjunction with expert-based, manual and qualitative analyses. However, social media data are unstructured and must undergo complex manipulation for research use. The manual annotation is the most resource and time-consuming process that multiple expert raters have to reach consensus on every item, but is essential to create gold-standard datasets for training NLP-based machine learning classifiers. To reduce the burden of the manual annotation, yet maintaining its reliability, we devised a crowdsourcing pipeline combined with active learning strategies. We demonstrated its effectiveness through a case study that identifies job loss events from individual tweets. We used Amazon Mechanical Turk platform to recruit annotators from the Internet and designed a number of quality control measures to assure annotation accuracy. We evaluated 4 different active learning strategies (i.e., least confident, entropy, vote entropy, and Kullback-Leibler divergence). The active learning strategies aim at reducing the number of tweets needed to reach a desired performance of automated classification. Results show that crowdsourcing is useful to create high-quality annotations and active learning helps in reducing the number of required tweets, although there was no substantial difference among the strategies tested.
翻訳日:2022-12-19 20:56:23 公開日:2020-04-02
# 小型無人航空機システム検出のための機械学習による可視・赤外スペクトル画像の合成

Combining Visible and Infrared Spectrum Imagery using Machine Learning for Small Unmanned Aerial System Detection ( http://arxiv.org/abs/2003.12638v2 )

ライセンス: Link先を確認
Vinicius G. Goecks, Grayson Woods, John Valasek(参考訳) オブジェクト検出のための機械学習とディープニューラルネットワークの進歩と、カメラの低コストと電力要件が相まって、suas検出のためのビジョンベースのソリューションが期待できる。 しかし、これまでは可視光スペクトルのみに頼っていたため、SUASはツリーラインの下を飛んでおり、明るい光源に対して低いコントラストのシナリオで信頼性の問題を引き起こした。 または、飛行中にsUASから放出される比較的高い熱信号のために、LWIRセンサーは、SUASを背景と明確に対比した画像を生成することができる。 しかし、広く利用可能な可視スペクトルセンサーに比べ、lwirセンサーは解像度が低く、鳥や他の熱源に曝されると偽陽性になる可能性がある。 本研究は,suasの検出に機械学習を用いたlwirと可視スペクトルセンサの利点を組み合わせることを提案する。 可視光スペクトルセンサの解像度が比較的向上したlwirセンサとの背景コントラストの高まりを利用して,これまで困難だった環境下でのsuas検出を深層学習モデルで訓練した。 より具体的には、このアプローチは、ツリーラインの上と下を飛んでいる複数のsUASを、熱源の存在や太陽からの輝きの存在下で効果的に検出することを示した。 提案手法は,LWIRと比較して71.2+-8.3%,可視スペクトル単独で30.4%,誤警報率2.7+-2.6%,LWIRと可視スペクトル単独で平均74.1%,可視スペクトル単独で平均47.1%,単発および複数発のドローンシナリオで平均50%以上の精度で制御された。 ソリューションのパフォーマンスのビデオはhttps://sites.google.com/view/tamudrone-spie2020/で見ることができる。

Advances in machine learning and deep neural networks for object detection, coupled with lower cost and power requirements of cameras, led to promising vision-based solutions for sUAS detection. However, solely relying on the visible spectrum has previously led to reliability issues in low contrast scenarios such as sUAS flying below the treeline and against bright sources of light. Alternatively, due to the relatively high heat signatures emitted from sUAS during flight, a long-wave infrared (LWIR) sensor is able to produce images that clearly contrast the sUAS from its background. However, compared to widely available visible spectrum sensors, LWIR sensors have lower resolution and may produce more false positives when exposed to birds or other heat sources. This research work proposes combining the advantages of the LWIR and visible spectrum sensors using machine learning for vision-based detection of sUAS. Utilizing the heightened background contrast from the LWIR sensor combined and synchronized with the relatively increased resolution of the visible spectrum sensor, a deep learning model was trained to detect the sUAS through previously difficult environments. More specifically, the approach demonstrated effective detection of multiple sUAS flying above and below the treeline, in the presence of heat sources, and glare from the sun. Our approach achieved a detection rate of 71.2 +- 8.3%, improving by 69% when compared to LWIR and by 30.4% when visible spectrum alone, and achieved false alarm rate of 2.7 +- 2.6%, decreasing by 74.1% and by 47.1% when compared to LWIR and visible spectrum alone, respectively, on average, for single and multiple drone scenarios, controlled for the same confidence metric of the machine learning object detector of at least 50%. Videos of the solution's performance can be seen at https://sites.google.com/view/tamudrone-spie2020/.
翻訳日:2022-12-19 04:53:19 公開日:2020-04-02
# 意味的マルチモーダル画像合成

Semantically Multi-modal Image Synthesis ( http://arxiv.org/abs/2003.12697v3 )

ライセンス: Link先を確認
Zhen Zhu, Zhiliang Xu, Ansheng You, Xiang Bai(参考訳) 本稿では,セマンティックなマルチモーダル画像合成(SMIS)タスク,すなわち意味レベルでのマルチモーダル画像の生成に焦点を当てる。 以前の作業では、複数のクラス固有のジェネレータを使用しており、少数のクラスでデータセットでの使用を制限している。 代わりに、ジェネレータ内のグループ畳み込みを活用し、デコーダ内のグループ畳み込みの数を徐々に減少させる新しいグループ除きネットワーク(GroupDNet)を提案する。 その結果、groupdnetは、セマンティックラベルを自然画像に変換する際の制御性が大幅に向上し、多くのクラスを持つデータセットの高品質な利得が実現可能である。 いくつかの挑戦的なデータセットの実験は、SMISタスクの実行におけるGroupDNetの優位性を示している。 また、GroupDNetは様々な興味深い合成アプリケーションを実行可能であることを示す。 コードとモデルは、https://github.com/Seanseattle/SMIS.comで入手できる。

In this paper, we focus on semantically multi-modal image synthesis (SMIS) task, namely, generating multi-modal images at the semantic level. Previous work seeks to use multiple class-specific generators, constraining its usage in datasets with a small number of classes. We instead propose a novel Group Decreasing Network (GroupDNet) that leverages group convolutions in the generator and progressively decreases the group numbers of the convolutions in the decoder. Consequently, GroupDNet is armed with much more controllability on translating semantic labels to natural images and has plausible high-quality yields for datasets with many classes. Experiments on several challenging datasets demonstrate the superiority of GroupDNet on performing the SMIS task. We also show that GroupDNet is capable of performing a wide range of interesting synthesis applications. Codes and models are available at: https://github.com/Seanseattle/SMIS.
翻訳日:2022-12-18 23:46:34 公開日:2020-04-02
# 半教師付き学習のための勾配に基づくデータ拡張

Gradient-based Data Augmentation for Semi-Supervised Learning ( http://arxiv.org/abs/2003.12824v2 )

ライセンス: Link先を確認
Hiroshi Kaizuka(参考訳) 半教師付き学習(SSL)では、整合正則化(CR)と呼ばれる手法が高い性能を達成する。 CRで使用するデータの多様性はCRによる高い識別性能を持つモデルを得る上で極めて重要であることが証明されている。 モデル出力である後確率分布の画像画素値勾配から決定論的に計算される新しいデータ拡張法(gradient-based data augmentation, gda)を提案する。 3種類のgdaを活用し,crの効率的なデータ多様性の確保を目指す。 一方,ラベル付きデータとラベルなしデータの混合方式はSSLにおいても有効であることが示された。 様々な混合手法とGDAを組み合わせたSSL方式MixGDAを提案する。 SSL研究において標準として使用される13層CNNに対して,MixGDAによる識別性能を評価する。 その結果、CIFAR-10 (4000レーベル) では、MixGDAは史上最高のパフォーマンスを達成している。 SVHN(250レーベル、500レーベル、1000レーベル)とCIFAR-100(10000レーベル)では、MixGDAは最先端のパフォーマンスを達成する。

In semi-supervised learning (SSL), a technique called consistency regularization (CR) achieves high performance. It has been proved that the diversity of data used in CR is extremely important to obtain a model with high discrimination performance by CR. We propose a new data augmentation (Gradient-based Data Augmentation (GDA)) that is deterministically calculated from the image pixel value gradient of the posterior probability distribution that is the model output. We aim to secure effective data diversity for CR by utilizing three types of GDA. On the other hand, it has been demonstrated that the mixup method for labeled data and unlabeled data is also effective in SSL. We propose an SSL method named MixGDA by combining various mixup methods and GDA. The discrimination performance achieved by MixGDA is evaluated against the 13-layer CNN that is used as standard in SSL research. As a result, for CIFAR-10 (4000 labels), MixGDA achieves the same level of performance as the best performance ever achieved. For SVHN (250 labels, 500 labels and 1000 labels) and CIFAR-100 (10000 labels), MixGDA achieves state-of-the-art performance.
翻訳日:2022-12-18 23:19:36 公開日:2020-04-02
# 癌関連ツイートにおける誤情報の程度分析

Analysing the Extent of Misinformation in Cancer Related Tweets ( http://arxiv.org/abs/2003.13657v3 )

ライセンス: Link先を確認
Rakesh Bal, Sayan Sinha, Swastika Dutta, Rishabh Joshi, Sayan Ghosh, and Ritam Dutt(参考訳) Twitterは、がんなどの医療関連問題など、さまざまな話題を議論する場所として最も求められている場所の1つになっている。 これは、がんの様々な原因、治療法、予防方法に対する認識を広げるのに役立つ。 しかし、そのような主張の有効性を論じる適切な分析は行われていない。 本研究では,このようなプラットフォームに広がる誤報に対処することを目的とする。 本研究では,がんに関するツイートに関するデータセットを収集し,その拡散に伴う誤情報の自動検出のための注意に基づくディープラーニングモデルを提案する。 次に、誤情報と真理に対応するテキストの言語的変化の比較分析を行う。 この分析は、不正なツイートに関連する様々な社会的側面に関する関連する洞察を集めるのに役立つ。

Twitter has become one of the most sought after places to discuss a wide variety of topics, including medically relevant issues such as cancer. This helps spread awareness regarding the various causes, cures and prevention methods of cancer. However, no proper analysis has been performed, which discusses the validity of such claims. In this work, we aim to tackle the misinformation spread in such platforms. We collect and present a dataset regarding tweets which talk specifically about cancer and propose an attention-based deep learning model for automated detection of misinformation along with its spread. We then do a comparative analysis of the linguistic variation in the text corresponding to misinformation and truth. This analysis helps us gather relevant insights on various social aspects related to misinformed tweets.
翻訳日:2022-12-18 08:22:08 公開日:2020-04-02
# 半教師付き学習による少数画像から画像への翻訳

Semi-supervised Learning for Few-shot Image-to-Image Translation ( http://arxiv.org/abs/2003.13853v2 )

ライセンス: Link先を確認
Yaxing Wang, Salman Khan, Abel Gonzalez-Garcia, Joost van de Weijer, Fahad Shahbaz Khan(参考訳) ここ数年、画像から画像への翻訳は目覚ましい進歩を遂げてきた。 最新の手法は現実的な画像を生成することができるが、それらは非常に多くのラベル付き画像に依存している。 近年,画像から画像への変換の難しさに対処する手法がいくつかあり,推論時に対象領域のラベル付きデータ要求を低減している。 この作業では、さらに一歩進んで、トレーニング中のソースドメインからも必要なラベル付きデータの量を削減します。 そこで本研究では,ノイズ耐性の擬似ラベル処理による半教師あり学習を提案する。 また、同じデータセットまたは外部からのラベルのない画像からの情報を更に活用するために、サイクル一貫性の制約を適用します。 また,このような状況下での画像翻訳作業を容易にするため,いくつかの構造変更を提案する。 提案手法はSEMITと呼ばれ,ソースラベルの10%以下を用いて4つのデータセットに対して優れた結果を得るとともに,20%のラベル付きデータを用いて,主要な完全教師付きコンペティタのパフォーマンスを一致させる。 私たちのコードとモデルは、https://github.com/yaxingwang/SEMIT.comで公開されています。

In the last few years, unpaired image-to-image translation has witnessed remarkable progress. Although the latest methods are able to generate realistic images, they crucially rely on a large number of labeled images. Recently, some methods have tackled the challenging setting of few-shot image-to-image translation, reducing the labeled data requirements for the target domain during inference. In this work, we go one step further and reduce the amount of required labeled data also from the source domain during training. To do so, we propose applying semi-supervised learning via a noise-tolerant pseudo-labeling procedure. We also apply a cycle consistency constraint to further exploit the information from unlabeled images, either from the same dataset or external. Additionally, we propose several structural modifications to facilitate the image translation task under these circumstances. Our semi-supervised method for few-shot image translation, called SEMIT, achieves excellent results on four different datasets using as little as 10% of the source labels, and matches the performance of the main fully-supervised competitor using only 20% labeled data. Our code and models are made public at: https://github.com/yaxingwang/SEMIT.
翻訳日:2022-12-18 08:12:10 公開日:2020-04-02
# テキスト表現モデルに愛を与える:バスクを例に

Give your Text Representation Models some Love: the Case for Basque ( http://arxiv.org/abs/2004.00033v2 )

ライセンス: Link先を確認
Rodrigo Agerri, I\~naki San Vicente, Jon Ander Campos, Ander Barrena, Xabier Saralegi, Aitor Soroa, Eneko Agirre(参考訳) 単語埋め込みと事前訓練された言語モデルにより、テキストのリッチな表現が構築でき、ほとんどのNLPタスクで改善が可能になった。 残念なことに、トレーニングは非常に高価であり、多くの小さな企業や研究グループは、自分たちで作るのではなく、事前にトレーニングされ、第三者が利用できるモデルを使う傾向がある。 多くの言語では、モデルがより小さい(または低い品質)コーパスでトレーニングされているため、これは最適ではない。 加えて、英語以外の言語に対する単言語で事前訓練されたモデルは、必ずしも利用できない。 せいぜい、これらの言語のモデルは多言語バージョンに含まれており、各言語はサブストリングとパラメータのクォータを他の言語と共有している。 これは特にバスク語のような小さな言語に当てはまる。 本稿では,大規模なバスク語コーパスを用いて学習したモノリンガルモデル(FastText語埋め込み,FLAIR,BERT言語モデル)が,トピック分類,感情分類,PoSタグ付け,NERなど,下流NLPタスクの公開バージョンよりもはるかに優れた結果をもたらすことを示す。 この作業はバスク語のこれらのタスクに新しい最先端を設定する。 この作業で使用されるすべてのベンチマークとモデルが公開されている。

Word embeddings and pre-trained language models allow to build rich representations of text and have enabled improvements across most NLP tasks. Unfortunately they are very expensive to train, and many small companies and research groups tend to use models that have been pre-trained and made available by third parties, rather than building their own. This is suboptimal as, for many languages, the models have been trained on smaller (or lower quality) corpora. In addition, monolingual pre-trained models for non-English languages are not always available. At best, models for those languages are included in multilingual versions, where each language shares the quota of substrings and parameters with the rest of the languages. This is particularly true for smaller languages such as Basque. In this paper we show that a number of monolingual models (FastText word embeddings, FLAIR and BERT language models) trained with larger Basque corpora produce much better results than publicly available versions in downstream NLP tasks, including topic classification, sentiment classification, PoS tagging and NER. This work sets a new state-of-the-art in those tasks for Basque. All benchmarks and models used in this work are publicly available.
翻訳日:2022-12-18 00:56:48 公開日:2020-04-02
# LiDARオブジェクト検出のための物理的に実現可能な逆例

Physically Realizable Adversarial Examples for LiDAR Object Detection ( http://arxiv.org/abs/2004.00543v2 )

ライセンス: Link先を確認
James Tu, Mengye Ren, Siva Manivasagam, Ming Liang, Bin Yang, Richard Du, Frank Cheng, Raquel Urtasun(参考訳) 現代の自動運転システムは、クラウドセンシングデータを処理するためにディープラーニングモデルに重きを置き、一方、深いモデルは視覚的に知覚できない摂動を伴う敵対的攻撃に影響を受けやすいことが示されている。 これは自動運転業界にとってセキュリティ上の懸念であるにもかかわらず、3d認識に関する調査はほとんど行われておらず、ほとんどの敵の攻撃は2dフラット画像にのみ適用されている。 本稿では,この問題に対処し,LiDAR検出器を騙すために汎用な3次元対向物体を生成する方法を提案する。 特に,LiDAR検出器から車両を完全に隠蔽するために,車両の屋根上に対向物体を配置し,その成功率は80%であることを示した。 点雲の様々な入力表現を用いた検出器群に対する攻撃結果を報告する。 また,データ拡張を用いた敵防御に関するパイロット研究も実施する。 これは、限られたトレーニングデータから見えない条件下での安全な自動運転に向けての一歩だ。

Modern autonomous driving systems rely heavily on deep learning models to process point cloud sensory data; meanwhile, deep models have been shown to be susceptible to adversarial attacks with visually imperceptible perturbations. Despite the fact that this poses a security concern for the self-driving industry, there has been very little exploration in terms of 3D perception, as most adversarial attacks have only been applied to 2D flat images. In this paper, we address this issue and present a method to generate universal 3D adversarial objects to fool LiDAR detectors. In particular, we demonstrate that placing an adversarial object on the rooftop of any target vehicle to hide the vehicle entirely from LiDAR detectors with a success rate of 80%. We report attack results on a suite of detectors using various input representation of point clouds. We also conduct a pilot study on adversarial defense using data augmentation. This is one step closer towards safer self-driving under unseen conditions from limited training data.
翻訳日:2022-12-17 18:36:15 公開日:2020-04-02
# ディープラーニングモデルに基づくソフトウェア欠陥予測:性能研究

Software Defect Prediction Based On Deep Learning Models: Performance Study ( http://arxiv.org/abs/2004.02589v1 )

ライセンス: Link先を確認
Ahmad Hasanpour, Pourya Farzi, Ali Tehrani, Reza Akbari(参考訳) 近年では、ソフトウェアエラーや欠陥モジュールを推定する上で重要な役割を担っているため、ソフトウェアエンジニアリングの大きな問題のひとつである欠陥予測が研究者の焦点となっている。 予測精度の向上を目指す研究者は、ソフトウェア欠陥予測のための多くのモデルを開発した。 しかし、より良い結果を得るためには、多くの臨界条件と理論的問題が存在する。 本稿では,2つのディープラーニングモデルであるStack Sparse Auto-Encoder (SSAE) とDeep Belief Network (DBN) を配置し,NASAのデータセットを分類する。 実験によると、十分なサンプルを持つデータセットの精度が向上し、このssaeモデルに加えて、評価メトリクスの大部分において、dbnモデルよりも優れた結果が得られる。

In recent years, defect prediction, one of the major software engineering problems, has been in the focus of researchers since it has a pivotal role in estimating software errors and faulty modules. Researchers with the goal of improving prediction accuracy have developed many models for software defect prediction. However, there are a number of critical conditions and theoretical problems in order to achieve better results. In this paper, two deep learning models, Stack Sparse Auto-Encoder (SSAE) and Deep Belief Network (DBN), are deployed to classify NASA datasets, which are unbalanced and have insufficient samples. According to the conducted experiment, the accuracy for the datasets with sufficient samples is enhanced and beside this SSAE model gains better results in comparison to DBN model in the majority of evaluation metrics.
翻訳日:2022-12-17 13:23:38 公開日:2020-04-02
# インフラカメラとレーダセンサを用いた自然主義的人間運転軌跡の抽出と評価

Extraction and Assessment of Naturalistic Human Driving Trajectories from Infrastructure Camera and Radar Sensors ( http://arxiv.org/abs/2004.01288v1 )

ライセンス: Link先を確認
Dominik Notz, Felix Becker, Thomas K\"uhbeck, Daniel Watzenig(参考訳) リアルな運転軌跡を集めることは、人間の運転行動を模倣する機械学習モデルの訓練に不可欠である。 今日の自動運転データセットのほとんどが、場所ごとのわずかな軌道しか含んでおらず、訓練されたドライバーによって慎重に運転される試験車両で記録されている。 特に高速道路のマージのようなインタラクティブなシナリオでは、テストドライバーの振る舞いは他の車両に大きな影響を与えます。 この影響は、人間の運転行動の交通空間全体を記録することを妨げる。 本研究では,インフラセンサを用いた交通物体の軌跡抽出手法を提案する。 インフラストラクチャーセンサーは、1つの場所で大量のデータを記録し、テストドライバをループから外すことができます。 我々は、カメラと交通監視レーダーと軌跡抽出アルゴリズムを組み合わせたハードウェア構成を開発する。 私たちのビジョンパイプラインは、オブジェクトを正確に検出し、カメラとレーダーを融合させ、時間とともに追跡します。 画像座標のトラッキングと道路座標のカルマンフィルタを組み合わせることにより,最先端のオブジェクトトラッカを改善する。 センサフュージョンアプローチは,カメラとレーダ検出の利点をうまく組み合わせ,いずれのセンサよりも優れています。 また,軌道抽出パイプラインの精度も評価した。 そのために、テスト車両に差分GPSセンサーを装着し、地上の真実の軌跡を収集する。 このデータを用いて測定誤差を計算する。 平均誤差を用いて軌道を逸脱するが、誤差標準偏差は基底真理データの不正確さの大きさである。 したがって、抽出された軌道は自然主義的なだけでなく、精度も高く、実世界の軌道を抽出するためにインフラセンサを使用する可能性も証明できる。

Collecting realistic driving trajectories is crucial for training machine learning models that imitate human driving behavior. Most of today's autonomous driving datasets contain only a few trajectories per location and are recorded with test vehicles that are cautiously driven by trained drivers. In particular in interactive scenarios such as highway merges, the test driver's behavior significantly influences other vehicles. This influence prevents recording the whole traffic space of human driving behavior. In this work, we present a novel methodology to extract trajectories of traffic objects using infrastructure sensors. Infrastructure sensors allow us to record a lot of data for one location and take the test drivers out of the loop. We develop both a hardware setup consisting of a camera and a traffic surveillance radar and a trajectory extraction algorithm. Our vision pipeline accurately detects objects, fuses camera and radar detections and tracks them over time. We improve a state-of-the-art object tracker by combining the tracking in image coordinates with a Kalman filter in road coordinates. We show that our sensor fusion approach successfully combines the advantages of camera and radar detections and outperforms either single sensor. Finally, we also evaluate the accuracy of our trajectory extraction pipeline. For that, we equip our test vehicle with a differential GPS sensor and use it to collect ground truth trajectories. With this data we compute the measurement errors. While we use the mean error to de-bias the trajectories, the error standard deviation is in the magnitude of the ground truth data inaccuracy. Hence, the extracted trajectories are not only naturalistic but also highly accurate and prove the potential of using infrastructure sensors to extract real-world trajectories.
翻訳日:2022-12-17 13:23:24 公開日:2020-04-02
# テロ後攻撃シナリオ調査のためのマルチモーダルビデオ鑑識プラットフォーム

Multi-Modal Video Forensic Platform for Investigating Post-Terrorist Attack Scenarios ( http://arxiv.org/abs/2004.01023v1 )

ライセンス: Link先を確認
Alexander Schindler, Andrew Lindley, Anahid Jalali, Martin Boyer, Sergiu Gordea, Ross King(参考訳) テロ攻撃に関する法医学的な調査は、数千時間の映像を見る必要があるため、捜査当局にとって重大な課題となっている。 大規模ビデオ分析プラットフォーム(VAP)は、容疑者を特定し証拠を確保するために法執行機関(LEA)を支援する。 現在のプラットフォームは、主に異なるコンピュータビジョンメソッドの統合にフォーカスしており、単一のモダリティに制限されている。 本稿では,視覚・音声分析モジュールを統合し,監視カメラからの情報と目撃者の映像アップロードを融合するビデオ分析プラットフォームを提案する。 映像は、その音響的および視覚的内容に基づいて分析される。 具体的には、攻撃固有の音響概念に従ってコンテンツをインデックスするためにオーディオイベント検出を適用する。 音声類似度探索は、異なる視点から記録された類似のビデオシーケンスを特定するために利用される。 ビジュアルオブジェクト検出とトラッキングは、関連する概念に従ってコンテンツをインデックスするために使用される。 分析モジュールの不均一な結果の可能性をフル活用するために、革新的なユーザインタフェースの概念が導入され、調査員はより迅速にリードと目撃レポートをフォローアップすることができる。

The forensic investigation of a terrorist attack poses a significant challenge to the investigative authorities, as often several thousand hours of video footage must be viewed. Large scale Video Analytic Platforms (VAP) assist law enforcement agencies (LEA) in identifying suspects and securing evidence. Current platforms focus primarily on the integration of different computer vision methods and thus are restricted to a single modality. We present a video analytic platform that integrates visual and audio analytic modules and fuses information from surveillance cameras and video uploads from eyewitnesses. Videos are analyzed according their acoustic and visual content. Specifically, Audio Event Detection is applied to index the content according to attack-specific acoustic concepts. Audio similarity search is utilized to identify similar video sequences recorded from different perspectives. Visual object detection and tracking are used to index the content according to relevant concepts. Innovative user-interface concepts are introduced to harness the full potential of the heterogeneous results of the analytical modules, allowing investigators to more quickly follow-up on leads and eyewitness reports.
翻訳日:2022-12-17 13:23:02 公開日:2020-04-02
# 状態空間モデルを用いた線形および非線形法の聴覚注意復号性能の向上

Improving auditory attention decoding performance of linear and non-linear methods using state-space model ( http://arxiv.org/abs/2004.00910v1 )

ライセンス: Link先を確認
Ali Aroudi, Tobias de Taillez, and Simon Doclo(参考訳) 補聴器応用における対象話者の同定は,音声理解の向上に不可欠である。 脳波検査(EEG)の最近の進歩は、聴覚注意復号法(AAD)を用いて単心室脳波記録からターゲット話者を特定することが可能であることを示している。 AAD法は, 線形最小二乗法あるいは非線形ニューラルネットワークに基づいて, 脳波記録から参加者音声エンベロープを再構成し, パーソン相関係数を用いて参加者話者の音声エンベロープと直接比較することにより, 参加者話者を識別する。 これらの相関係数は非常に変動するため、信頼性の高い復号には大きな相関ウィンドウが用いられ、処理遅延が大きい。 本稿では,相関窓の小さい相関係数を用いた状態空間モデルについて検討し,線形AAD法と非線形AAD法の復号性能を向上させる。 実験の結果, 状態空間モデルにより復号性能が大幅に向上した。

Identifying the target speaker in hearing aid applications is crucial to improve speech understanding. Recent advances in electroencephalography (EEG) have shown that it is possible to identify the target speaker from single-trial EEG recordings using auditory attention decoding (AAD) methods. AAD methods reconstruct the attended speech envelope from EEG recordings, based on a linear least-squares cost function or non-linear neural networks, and then directly compare the reconstructed envelope with the speech envelopes of speakers to identify the attended speaker using Pearson correlation coefficients. Since these correlation coefficients are highly fluctuating, for a reliable decoding a large correlation window is used, which causes a large processing delay. In this paper, we investigate a state-space model using correlation coefficients obtained with a small correlation window to improve the decoding performance of the linear and the non-linear AAD methods. The experimental results show that the state-space model significantly improves the decoding performance.
翻訳日:2022-12-17 13:22:46 公開日:2020-04-02
# 微分可能な量子プログラミング言語の原理について

On the Principles of Differentiable Quantum Programming Languages ( http://arxiv.org/abs/2004.01122v1 )

ライセンス: Link先を確認
Shaopeng Zhu, Shih-Han Hung, Shouvanik Chakrabarti, and Xiaodi Wu(参考訳) 変分量子回路(VQCs)またはいわゆる量子ニューラルネットは、古典的なニューラルネットのように約束されるだけでなく、短期ノイズの多い中間量子(NISQ)マシンで実現可能であるため、最も重要な短期量子アプリケーションの一つであると予測されている。 VQCアプリケーションのトレーニング手順における勾配情報の必要性は、量子回路の自動微分技術の発展を刺激している。 古典的機械学習における微分可能プログラミング言語の成功に触発されて,量子回路の文脈だけでなく,命令型量子プログラム(例えば制御付き)に対しても,この手法の最初の形式化を提案する。 特に、エキゾチックな量子的特徴(量子非閉化など)によって引き起こされるいくつかの難しさを克服し、有界ループ命令量子プログラムに適用される微分の厳密な定式化、コード変換規則、およびそれらの正しさを推論するための音響論理を提供する。 さらに,我々はocamlにコード変換を実装し,分析的および実証的手法の資源効率を実証した。 また、VQCインスタンスを制御でトレーニングするケーススタディも実施し、制御なしの量子回路における既存の自己微分に対する我々のスキームの利点を示す。

Variational Quantum Circuits (VQCs), or the so-called quantum neural-networks, are predicted to be one of the most important near-term quantum applications, not only because of their similar promises as classical neural-networks, but also because of their feasibility on near-term noisy intermediate-size quantum (NISQ) machines. The need for gradient information in the training procedure of VQC applications has stimulated the development of auto-differentiation techniques for quantum circuits. We propose the first formalization of this technique, not only in the context of quantum circuits but also for imperative quantum programs (e.g., with controls), inspired by the success of differentiable programming languages in classical machine learning. In particular, we overcome a few unique difficulties caused by exotic quantum features (such as quantum no-cloning) and provide a rigorous formulation of differentiation applied to bounded-loop imperative quantum programs, its code-transformation rules, as well as a sound logic to reason about their correctness. Moreover, we have implemented our code transformation in OCaml and demonstrated the resource-efficiency of our scheme both analytically and empirically. We also conduct a case study of training a VQC instance with controls, which shows the advantage of our scheme over existing auto-differentiation for quantum circuits without controls.
翻訳日:2022-12-17 13:22:16 公開日:2020-04-02
# 有限なコミュニケーション量を持つ有限時間における分散仮説テストと社会学習

Distributed Hypothesis Testing and Social Learning in Finite Time with a Finite Amount of Communication ( http://arxiv.org/abs/2004.01306v1 )

ライセンス: Link先を確認
Shreyas Sundaram and Aritra Mitra(参考訳) エージェントのネットワークが、各エージェントが受信する一連の確率的信号に基づいて、有限個の仮説から世界の真の状態を識別しようとする分散仮説テスト(または社会学習)の問題を考える。 この問題に対する以前の取り組みは、真の状態の漸近的な学習を保証する分散アルゴリズムを提供し、それに対応することで学習率を向上させる。 本稿では,既存の漸近学習アルゴリズムを簡単に修正して有限時間で学習可能とし,任意に大きい(漸近学習)レートを効果的に得ることを最初に論じる。 次に、有限時間学習のための単純なアルゴリズムを提案し、エージェントはそれぞれの時間ステップで隣人と二進ベクトル(可能な仮説の数に等しい長さ)を交換することを要求する。 最後に、エージェントがネットワークの直径を知っていれば、すべてのエージェントが真の状態を学習し、有限の時間ステップの後に隣人への送信を停止できるようにアルゴリズムをさらに修正できることを示す。

We consider the problem of distributed hypothesis testing (or social learning) where a network of agents seeks to identify the true state of the world from a finite set of hypotheses, based on a series of stochastic signals that each agent receives. Prior work on this problem has provided distributed algorithms that guarantee asymptotic learning of the true state, with corresponding efforts to improve the rate of learning. In this paper, we first argue that one can readily modify existing asymptotic learning algorithms to enable learning in finite time, effectively yielding arbitrarily large (asymptotic) rates. We then provide a simple algorithm for finite-time learning which only requires the agents to exchange a binary vector (of length equal to the number of possible hypotheses) with their neighbors at each time-step. Finally, we show that if the agents know the diameter of the network, our algorithm can be further modified to allow all agents to learn the true state and stop transmitting to their neighbors after a finite number of time-steps.
翻訳日:2022-12-17 13:21:42 公開日:2020-04-02
# スペーシング変換学習と重み付き特異値最小化による画像認識

Image Denoising Using Sparsifying Transform Learning and Weighted Singular Values Minimization ( http://arxiv.org/abs/2004.00753v1 )

ライセンス: Link先を確認
Yanwei Zhao, Ping Yang, Qiu Guan, Jianwei Zheng, Wanliang Wang(参考訳) 画像デノイジング (idn) 処理では、低ランク特性は通常、重要な画像に先立って考慮される。 低ランクの凸緩和近似として、核ノルムに基づくアルゴリズムとその変種が注目されている。 これらのアルゴリズムは集合的にイメージ・ドメイン・ベース・メソッド(英語版)と呼ばれ、共通の欠点は許容できる解に対して大量の反復を必要とすることである。 一方、ある変換領域における画像の空間性は、画像認知問題にも利用されてきた。 sparsity変換学習アルゴリズムは、非常に高速な計算と望ましい性能を達成することができる。 一般フレームワークにおける画像領域と変換領域の利点を両立させることで,IDN問題に対する空間変換学習と重み付き特異値最小化法(STLWSM)を提案する。 提案手法は両領域の優先順位をフル活用することができる。 非凸コスト関数を解くために、加速度の効率的な代替ソリューションも提示する。 実験の結果,提案するstlwsmは,単一領域に基づく最先端アプローチに比べて,視覚的にも定量的にも改善できることがわかった。 また、すべての画像ドメインアルゴリズムよりもずっと少ないイテレーションが必要です。

In image denoising (IDN) processing, the low-rank property is usually considered as an important image prior. As a convex relaxation approximation of low rank, nuclear norm based algorithms and their variants have attracted significant attention. These algorithms can be collectively called image domain based methods, whose common drawback is the requirement of great number of iterations for some acceptable solution. Meanwhile, the sparsity of images in a certain transform domain has also been exploited in image denoising problems. Sparsity transform learning algorithms can achieve extremely fast computations as well as desirable performance. By taking both advantages of image domain and transform domain in a general framework, we propose a sparsity transform learning and weighted singular values minimization method (STLWSM) for IDN problems. The proposed method can make full use of the preponderance of both domains. For solving the non-convex cost function, we also present an efficient alternative solution for acceleration. Experimental results show that the proposed STLWSM achieves improvement both visually and quantitatively with a large margin over state-of-the-art approaches based on an alternatively single domain. It also needs much less iteration than all the image domain algorithms.
翻訳日:2022-12-17 13:15:49 公開日:2020-04-02
# go fetch: 非構造化環境でのモバイル操作

Go Fetch: Mobile Manipulation in Unstructured Environments ( http://arxiv.org/abs/2004.00899v1 )

ライセンス: Link先を確認
Kenneth Blomqvist, Michel Breyer, Andrei Cramariuc, Julian F\"orster, Margarita Grinvald, Florian Tschopp, Jen Jen Chung, Lionel Ott, Juan Nieto, Roland Siegwart(参考訳) 医療分野や国内分野における新たな大規模課題に直面している人類にとって、サービス分野の自動化は、効率性、品質、運用の安全性を向上する大きな可能性を秘めている。 モバイルロボティクスは、高度なモビリティとディクスタリティを備えたソリューションを提供することができるが、これらの複雑なシステムは、一貫したフレームワークに慎重に組み込むために、多種多様なコンポーネントを必要とする。 本研究は, 知覚, 位置, ナビゲーション, 動作計画, 把握スキルをひとつの共通ワークフローに統合した, 非構造化屋内環境におけるアプリケーションをフェッチ・アンド・搬送するモバイル操作システムを提案する。 様々なモジュール間の密接な統合は、オフィス環境で広く利用可能なオブジェクトを見つけ、それを把握し、望ましいドロップオフ場所に届けるというタスクで実験的に実証される。 ビデオはhttps://youtu.be/e89_Xg1sLnY.comで公開されている。

With humankind facing new and increasingly large-scale challenges in the medical and domestic spheres, automation of the service sector carries a tremendous potential for improved efficiency, quality, and safety of operations. Mobile robotics can offer solutions with a high degree of mobility and dexterity, however these complex systems require a multitude of heterogeneous components to be carefully integrated into one consistent framework. This work presents a mobile manipulation system that combines perception, localization, navigation, motion planning and grasping skills into one common workflow for fetch and carry applications in unstructured indoor environments. The tight integration across the various modules is experimentally demonstrated on the task of finding a commonly available object in an office environment, grasping it, and delivering it to a desired drop-off location. The accompanying video is available at https://youtu.be/e89_Xg1sLnY.
翻訳日:2022-12-17 13:15:10 公開日:2020-04-02
# カメラパイプライン反転学習による単一画像hdr再構成

Single-Image HDR Reconstruction by Learning to Reverse the Camera Pipeline ( http://arxiv.org/abs/2004.01179v1 )

ライセンス: Link先を確認
Yu-Lun Liu, Wei-Sheng Lai, Yu-Sheng Chen, Yi-Lung Kao, Ming-Hsuan Yang, Yung-Yu Chuang, and Jia-Bin Huang(参考訳) 単一低ダイナミックレンジ(ldr)入力画像からのハイダイナミックレンジ(hdr)画像の復元は、カメラセンサの量子化と飽和による露出不足領域の詳細の欠如により困難である。 既存の学習ベースの手法とは対照的に、LDR画像形成パイプラインのドメイン知識をモデルに組み込むことが中心的な考え方です。 我々は,HDRto-LDR画像形成パイプラインを(1)ダイナミックレンジクリッピング,(2)カメラ応答関数からの非線形マッピング,(3)量子化としてモデル化する。 次に、これらのステップを逆転する3つの専門CNNを学ぶことを提案する。 問題を特定のサブタスクに分解することで、個々のサブネットワークのトレーニングを容易にする効果的な物理的制約を課す。 最後に、モデル全体をエンドツーエンドで微調整し、エラーの蓄積を減らす。 多様な画像データセットの定量的および定性的な実験により,提案手法が最先端の単一画像HDR再構成アルゴリズムに対して良好に動作することを示す。

Recovering a high dynamic range (HDR) image from a single low dynamic range (LDR) input image is challenging due to missing details in under-/over-exposed regions caused by quantization and saturation of camera sensors. In contrast to existing learning-based methods, our core idea is to incorporate the domain knowledge of the LDR image formation pipeline into our model. We model the HDRto-LDR image formation pipeline as the (1) dynamic range clipping, (2) non-linear mapping from a camera response function, and (3) quantization. We then propose to learn three specialized CNNs to reverse these steps. By decomposing the problem into specific sub-tasks, we impose effective physical constraints to facilitate the training of individual sub-networks. Finally, we jointly fine-tune the entire model end-to-end to reduce error accumulation. With extensive quantitative and qualitative experiments on diverse image datasets, we demonstrate that the proposed method performs favorably against state-of-the-art single-image HDR reconstruction algorithms.
翻訳日:2022-12-17 13:14:53 公開日:2020-04-02
# rss-net:fmcw radarを用いたマルチクラスセマンティクスセグメンテーション

RSS-Net: Weakly-Supervised Multi-Class Semantic Segmentation with FMCW Radar ( http://arxiv.org/abs/2004.03451v1 )

ライセンス: Link先を確認
Prannay Kaul, Daniele De Martini, Matthew Gadd, Paul Newman(参考訳) 本稿では,FMCWスキャニングレーダを用いた知覚環境のエンドツーエンド・リッチなセマンティックセマンティックセグメンテーションへの効率的なアノテーション手法とその応用について述べる。 我々は、より長い範囲で動作し、悪天候や照明条件に対して大幅に堅牢な従来のセンサーに対してレーダーを推奨する。 rgbカメラとlidarセンサーでレーダースキャンを関連付け、セマンティクスセグメンテーションをすでに統合した手順にすることで、これまで収集された最大のレーダー中心都市自治データセットを活用することで、手作業によるラベリングを回避する。 トレーニング手順では、最先端の自然画像セグメンテーションシステムを活用しており、従来のアプローチとは対照的に、4つのカメラと2つのlidarストリームを組み込むことで、レーダーストリーム用の高度なラベルを作成できる。 さらに、現在の車両位置の前後のポーズチェーンに沿ってライダーリターンを蓄積することにより、レーダセンサ地平線へのラベルを考慮した損失を算出する。 最後に,エフェメラル・ダイナミック・シーン・オブジェクトを扱うために,マルチチャネル・レーダ・スキャン入力をネットワークに導入する。

This paper presents an efficient annotation procedure and an application thereof to end-to-end, rich semantic segmentation of the sensed environment using FMCW scanning radar. We advocate radar over the traditional sensors used for this task as it operates at longer ranges and is substantially more robust to adverse weather and illumination conditions. We avoid laborious manual labelling by exploiting the largest radar-focused urban autonomy dataset collected to date, correlating radar scans with RGB cameras and LiDAR sensors, for which semantic segmentation is an already consolidated procedure. The training procedure leverages a state-of-the-art natural image segmentation system which is publicly available and as such, in contrast to previous approaches, allows for the production of copious labels for the radar stream by incorporating four camera and two LiDAR streams. Additionally, the losses are computed taking into account labels to the radar sensor horizon by accumulating LiDAR returns along a pose-chain ahead and behind of the current vehicle position. Finally, we present the network with multi-channel radar scan inputs in order to deal with ephemeral and dynamic scene objects.
翻訳日:2022-12-17 13:13:40 公開日:2020-04-02
# 委員会合意によるブロックチェーンベースの分散フェデレーション学習フレームワーク

A Blockchain-based Decentralized Federated Learning Framework with Committee Consensus ( http://arxiv.org/abs/2004.00773v1 )

ライセンス: Link先を確認
Yuzheng Li, Chuan Chen, Nan Liu, Huawei Huang, Zibin Zheng and Qiang Yan(参考訳) フェデレートラーニングは様々なシナリオに広く研究され応用されている。 モバイルコンピューティングのシナリオでは、フェデレートされた学習は、ユーザがプライベートデータを公開することを防ぐと同時に、さまざまな現実世界のアプリケーションのためにグローバルモデルを協調的にトレーニングする。 しかし、悪意のあるクライアントや、グローバルモデルやユーザプライバシデータに対する中央サーバの攻撃により、フェデレートされた学習のセキュリティはますます疑問視されている。 これらのセキュリティ問題に対処するため、ブロックチェーンに基づいた分散フェデレーション学習フレームワーク、すなわち、委員会合意(BFLC)を備えたブロックチェーンベースのフェデレーション学習フレームワークを提案しました。 このフレームワークは、グローバルモデルストレージとローカルモデル更新交換にブロックチェーンを使用する。 提案するbflcを実現するために,コンセンサスコンピューティングの量を効果的に削減し,悪意のある攻撃を低減できる,革新的な委員会コンセンサス機構を考案した。 次に,理論セキュリティ,ストレージ最適化,インセンティブなどを含むbflcのスケーラビリティについて論じた。 最後に,実世界のデータセットを用いてBFLCフレームワークの有効性を検証する実験を行った。

Federated learning has been widely studied and applied to various scenarios. In mobile computing scenarios, federated learning protects users from exposing their private data, while cooperatively training the global model for a variety of real-world applications. However, the security of federated learning is increasingly being questioned, due to the malicious clients or central servers' constant attack to the global model or user privacy data. To address these security issues, we proposed a decentralized federated learning framework based on blockchain, i.e., a Blockchain-based Federated Learning framework with Committee consensus (BFLC). The framework uses blockchain for the global model storage and the local model update exchange. To enable the proposed BFLC, we also devised an innovative committee consensus mechanism, which can effectively reduce the amount of consensus computing and reduce malicious attacks. We then discussed the scalability of BFLC, including theoretical security, storage optimization, and incentives. Finally, we performed experiments using real-world datasets to verify the effectiveness of the BFLC framework.
翻訳日:2022-12-17 13:13:17 公開日:2020-04-02
# ナビゲーションの性能を高める:2段階の機械学習アプローチ

Enhance the performance of navigation: A two-stage machine learning approach ( http://arxiv.org/abs/2004.00879v1 )

ライセンス: Link先を確認
Yimin Fan, Zhiyuan Wang, Yuanpeng Lin, Haisheng Tan(参考訳) リアルタイム交通ナビゲーションは,近年広く研究されているスマートトランスポート技術において重要な機能である。 エッジデバイスが大規模に開発されているため、リアルタイムトラフィックデータの収集はもはや問題ではない。 しかし,交通流の時間変化と予測不可能な事故・混雑が原因で,実際の交通ナビゲーションは特に困難な問題であると考えられている。 高精度で信頼性の高いナビゲーション結果を与えるためには、将来的なトラフィックフロー(スピード、渋滞、ボリューム、etc)を高速かつ正確な方法で予測することが重要である。 本稿では,アンサンブル学習の考え方を採用し,正確なナビゲーション結果を与える2段階機械学習モデルを開発した。 トラヒックフローを時系列としてモデル化し,将来の交通状況を正確に予測するためにxgboostアルゴリズムを適用する(第1段階)。 次に、Top K Dijkstraアルゴリズムを適用し、出力最適経路の候補として、提供開始点から目的地までの最短経路の集合を求める。 第1段階の予測結果から,ナビゲーションアルゴリズムの出力として候補からの最適経路が1つ見つかる。 本研究では,ニューラルネットワークに基づくeopf(enhanced optimal path finding)により,ナビゲーションアルゴリズムを大幅に改善できることを示す(2nd stage)。 提案手法は,多くの状況においてEOPFを含まない手法よりも7%以上優れていることが示され,本モデルの有効性が示唆された。

Real time traffic navigation is an important capability in smart transportation technologies, which has been extensively studied these years. Due to the vast development of edge devices, collecting real time traffic data is no longer a problem. However, real traffic navigation is still considered to be a particularly challenging problem because of the time-varying patterns of the traffic flow and unpredictable accidents/congestion. To give accurate and reliable navigation results, predicting the future traffic flow(speed,congestion,volume,etc) in a fast and accurate way is of great importance. In this paper, we adopt the ideas of ensemble learning and develop a two-stage machine learning model to give accurate navigation results. We model the traffic flow as a time series and apply XGBoost algorithm to get accurate predictions on future traffic conditions(1st stage). We then apply the Top K Dijkstra algorithm to find a set of shortest paths from the give start point to the destination as the candidates of the output optimal path. With the prediction results in the 1st stage, we find one optimal path from the candidates as the output of the navigation algorithm. We show that our navigation algorithm can be greatly improved via EOPF(Enhanced Optimal Path Finding), which is based on neural network(2nd stage). We show that our method can be over 7% better than the method without EOPF in many situations, which indicates the effectiveness of our model.
翻訳日:2022-12-17 13:12:38 公開日:2020-04-02
# 手話認識のための時間的蓄積特徴

Temporal Accumulative Features for Sign Language Recognition ( http://arxiv.org/abs/2004.01225v1 )

ライセンス: Link先を確認
Ahmet Alp K{\i}nd{\i}ro\u{g}lu, O\u{g}ulcan \"Ozdemir and Lale Akarun(参考訳) 本稿では,孤立した手話のジェスチャーを表現・認識するための時間的累積特徴(TAF)という特徴セットを提案する。 我々は手話ビデオの言語特性をよりよく表現するために手話固有の構造を組み込むことにより、手話のジェスチャーを認識するための効率的かつ高速なSLR法を考案した。 提案手法は,言語的移動ホールドモデルに基づくキーフレームを異なる色で表現する,HSVに基づく累積ビデオ表現である。 また,手形情報を取り込んで,小規模畳み込みニューラルネットワークを用いて,言語サブユニットの累積特徴の逐次モデリングがベースライン分類の結果により改善することを示す。

In this paper, we propose a set of features called temporal accumulative features (TAF) for representing and recognizing isolated sign language gestures. By incorporating sign language specific constructs to better represent the unique linguistic characteristic of sign language videos, we have devised an efficient and fast SLR method for recognizing isolated sign language gestures. The proposed method is an HSV based accumulative video representation where keyframes based on the linguistic movement-hold model are represented by different colors. We also incorporate hand shape information and using a small scale convolutional neural network, demonstrate that sequential modeling of accumulative features for linguistic subunits improves upon baseline classification results.
翻訳日:2022-12-17 13:06:38 公開日:2020-04-02
# 何、どこで、いつ見るかを知る:注意を向けた効率的なビデオアクションモデリング

Knowing What, Where and When to Look: Efficient Video Action Modeling with Attention ( http://arxiv.org/abs/2004.01278v1 )

ライセンス: Link先を確認
Juan-Manuel Perez-Rua and Brais Martinez and Xiatian Zhu and Antoine Toisoul and Victor Escorcia and Tao Xiang(参考訳) 注意ビデオモデリングは、空間と時間に関する豊富な冗長な情報のため、制約のないビデオにおけるアクション認識に不可欠である。 しかし、アクション認識のためのディープニューラルネットワークに注意を払うことは、2つの理由から難しい。 まず、効果的な注意モジュールは、何を(物体とその局所的な動きパターン)、どこで(空間的に)、いつ(時間的に)フォーカスするかを学ぶ必要がある。 第二に、既存のアクション認識モデルは計算コストが高いため、ビデオアテンションモジュールは効率的でなければならない。 どちらの課題にも対処すべく,what-where-when (w3) ビデオアテンションモジュールを提案する。 既存の代替製品から離れて、w3モジュールはビデオの3つの面を共同でモデル化します。 重要となるのは、高次元映像特徴データを低次元有意味空間(1dチャンネルベクトルは「what」、2d空間テンソルは「where」)に分解し、さらに軽量な時間的注意推論を行うことである。 大規模な実験により、我々の注意モデルは既存の行動認識モデルに大幅な改善をもたらし、多くのベンチマークで新しい最先端性能を実現した。

Attentive video modeling is essential for action recognition in unconstrained videos due to their rich yet redundant information over space and time. However, introducing attention in a deep neural network for action recognition is challenging for two reasons. First, an effective attention module needs to learn what (objects and their local motion patterns), where (spatially), and when (temporally) to focus on. Second, a video attention module must be efficient because existing action recognition models already suffer from high computational cost. To address both challenges, a novel What-Where-When (W3) video attention module is proposed. Departing from existing alternatives, our W3 module models all three facets of video attention jointly. Crucially, it is extremely efficient by factorizing the high-dimensional video feature data into low-dimensional meaningful spaces (1D channel vector for `what' and 2D spatial tensors for `where'), followed by lightweight temporal attention reasoning. Extensive experiments show that our attention model brings significant improvements to existing action recognition models, achieving new state-of-the-art performance on a number of benchmarks.
翻訳日:2022-12-17 13:06:26 公開日:2020-04-02
# モノクラーカメラからのグローバルコヒーレント深度を用いた動的シーンの新しい視点合成

Novel View Synthesis of Dynamic Scenes with Globally Coherent Depths from a Monocular Camera ( http://arxiv.org/abs/2004.01294v1 )

ライセンス: Link先を確認
Jae Shin Yoon, Kihwan Kim, Orazio Gallo, Hyun Soo Park, Jan Kautz(参考訳) 本稿では,動的シーンの画像のコレクションを与えられた任意のビューや時間から画像を合成する新しい手法を提案する。 新しいビュー合成の鍵となる課題は、エピポーラ幾何学が動的コンテンツの局所的な動きに適用できない動的なシーン再構成から生じる。 この課題に対処するために,dmvはビュー不変であるのに対し,dmvはビュー不変であるのに対し,dsvはすべてのピクセルに深さが割り当てられている,しかしそのスケールではビュー不変である,マルチビューステレオ(dmv)からの深さと深さを組み合わせることを提案する。 我々の洞察では、そのスケールと品質は他のビューと矛盾するが、単一のビューからの深さ推定は、動的コンテンツのグローバルなコヒーレントな幾何学の推論に利用できる。 我々は,この問題をDSVのスケールを補正し,各深度を局所的に一貫した動きで洗練し,コヒーレントな深度推定を行う学習として捉えた。 我々は,これらのタスクを自己監視方式で深層融合ネットワークに統合する。 融合した深度マップから特定の場所と時間におけるフォトリアリスティックな仮想ビューを、シーンを完了して仮想ビューをレンダリングするディープブレンディングネットワークで合成する。 実世界の動的シーンにおける深度推定とビュー合成の手法を評価し,既存の手法よりも優れた性能を示す。

This paper presents a new method to synthesize an image from arbitrary views and times given a collection of images of a dynamic scene. A key challenge for the novel view synthesis arises from dynamic scene reconstruction where epipolar geometry does not apply to the local motion of dynamic contents. To address this challenge, we propose to combine the depth from single view (DSV) and the depth from multi-view stereo (DMV), where DSV is complete, i.e., a depth is assigned to every pixel, yet view-variant in its scale, while DMV is view-invariant yet incomplete. Our insight is that although its scale and quality are inconsistent with other views, the depth estimation from a single view can be used to reason about the globally coherent geometry of dynamic contents. We cast this problem as learning to correct the scale of DSV, and to refine each depth with locally consistent motions between views to form a coherent depth estimation. We integrate these tasks into a depth fusion network in a self-supervised fashion. Given the fused depth maps, we synthesize a photorealistic virtual view in a specific location and time with our deep blending network that completes the scene and renders the virtual view. We evaluate our method of depth estimation and view synthesis on diverse real-world dynamic scenes and show the outstanding performance over existing methods.
翻訳日:2022-12-17 13:05:51 公開日:2020-04-02
# 価値と規範の推定に対する信頼度の向上

Improving Confidence in the Estimation of Values and Norms ( http://arxiv.org/abs/2004.01056v1 )

ライセンス: Link先を確認
Luciano Cavalcante Siebert, Rijk Mercuur, Virginia Dignum, Jeroen van den Hoven, Catholijn Jonker(参考訳) 自律エージェント(AA)は、日々の生活の中でますます私たちと対話していくでしょう。 aasに付随するメリットは必要ですが、彼らの行動が私たちの価値観や規範と一致していることは不可欠です。 したがって、aaは、相互作用する人間の値と規範を見積もる必要があるが、これはエージェントの振る舞いのみを観察する場合の単純なタスクではない。 本稿では,AAがシミュレーションされた人間エージェント(SHA)の価値と規範を,終末ゲームにおける行動に基づいて推定できる範囲について分析する。 本稿では,SHAの探索におけるあいまいさを軽減する方法として,探索空間探索に基づく手法と,逆解析に基づく手法を提案する。 両手法は人的価値と規範を推定する信頼性を高めることができるが,その適用性には違いがあり,エージェントとの相互作用の回数を最小限に抑える場合,後者の方が効率的であることがわかった。 これらの知見は、AAと人間の価値観と規範の整合性を改善するのに有用である。

Autonomous agents (AA) will increasingly be interacting with us in our daily lives. While we want the benefits attached to AAs, it is essential that their behavior is aligned with our values and norms. Hence, an AA will need to estimate the values and norms of the humans it interacts with, which is not a straightforward task when solely observing an agent's behavior. This paper analyses to what extent an AA is able to estimate the values and norms of a simulated human agent (SHA) based on its actions in the ultimatum game. We present two methods to reduce ambiguity in profiling the SHAs: one based on search space exploration and another based on counterfactual analysis. We found that both methods are able to increase the confidence in estimating human values and norms, but differ in their applicability, the latter being more efficient when the number of interactions with the agent is to be minimized. These insights are useful to improve the alignment of AAs with human values and norms.
翻訳日:2022-12-17 13:04:32 公開日:2020-04-02
# 効率的な分散アルゴリズム探索のための信頼できない並列局所探索

Trustless parallel local search for effective distributed algorithm discovery ( http://arxiv.org/abs/2004.01521v1 )

ライセンス: Link先を確認
Zvezdin Besarabov, Todor Kolev(参考訳) メタヒューリスティックな検索戦略は、様々な文脈における人工解に対する効果を証明している。 それらは一般的に局所探索領域の搾取において有効であり、その全体的な性能は探索と搾取のバランスに大きく影響される。 近年の並列局所探索法は,探索の効率的な局所的利用を生かし,目覚しい結果を得た。 しかしこれは、プライベートで信頼できるコンピュータクラスタ内のノードへのスケーリングの可能性を制限する。 本研究では,信頼できない,匿名の計算ノードへの並列局所探索を実現する新しいブロックチェーンプロトコルを提案する。 このプロトコルは、各ノードが報告したローカルオプティマのパフォーマンス評価を公に検証し、ローカル検索間の競合環境を作成する。 これは、各ノードが競争に勝つために検索スペースの異なるセクションを探索しようとするため、ノード間の協調を提供する良いソリューションを生み出すための経済的刺激によって強化される。

Metaheuristic search strategies have proven their effectiveness against man-made solutions in various contexts. They are generally effective in local search area exploitation, and their overall performance is largely impacted by the balance between exploration and exploitation. Recent developments in parallel local search explore methods to take advantage of the efficient local exploitation of searches and reach impressive results. This however restricts the scaling potential to nodes within a private, trusted computer cluster. In this research we propose a novel blockchain protocol that allows parallel local search to scale to untrusted and anonymous computational nodes. The protocol introduces publicly verifiable performance evaluation of the local optima reported by each node, creating a competitive environment between the local searches. That is strengthened with economical stimuli for producing good solutions, that provide coordination between the nodes, as every node tries to explore different sections of the search space to beat their competition.
翻訳日:2022-12-17 13:04:16 公開日:2020-04-02
# 無線信号を用いた人物再同定のための長期表現の学習

Learning Longterm Representations for Person Re-Identification Using Radio Signals ( http://arxiv.org/abs/2004.01091v1 )

ライセンス: Link先を確認
Lijie Fan, Tianhong Li, Rongyao Fang, Rumen Hristov, Yuan Yuan, Dina Katabi(参考訳) 人物再同定(reid)は、異なる場所や時間にまたがる興味のある人物を認識することを目的としている。 既存のReIDメソッドは、RGBカメラを使用して収集された画像やビデオに依存している。 衣服、靴、髪などの外観の特徴を抽出する。 しかし、こうした特徴は、ある日から次の日へと劇的に変化し、長い期間にわたって人々を識別できない。 本稿では,無線周波数(RF)信号を長期人物ReIDに適用する新しいアプローチであるRF-ReIDを紹介する。 RF信号は衣服を横切り、人間の体を反射するので、体の大きさや形といったより永続的な人間の識別特徴を抽出することができる。 RF-ReIDは, 日数, 日数, 日数, 日数, 日数, 日数, 日数によって異なる衣服を着ることができる。 実験の結果,RF-ReIDは長期人物のRGBベースのReIDアプローチよりも優れていた。 RF信号がオクルージョンと照明不足の存在下で機能するため、RF-ReIDはそのようなシナリオで人物のReIDを可能にする。 第二に、個人や個人に関する情報を公開している写真やビデオとは異なり、RF信号はプライバシーを保護しているため、医療などのプライバシーに配慮した領域にReIDを拡張できる。

Person Re-Identification (ReID) aims to recognize a person-of-interest across different places and times. Existing ReID methods rely on images or videos collected using RGB cameras. They extract appearance features like clothes, shoes, hair, etc. Such features, however, can change drastically from one day to the next, leading to inability to identify people over extended time periods. In this paper, we introduce RF-ReID, a novel approach that harnesses radio frequency (RF) signals for longterm person ReID. RF signals traverse clothes and reflect off the human body; thus they can be used to extract more persistent human-identifying features like body size and shape. We evaluate the performance of RF-ReID on longitudinal datasets that span days and weeks, where the person may wear different clothes across days. Our experiments demonstrate that RF-ReID outperforms state-of-the-art RGB-based ReID approaches for long term person ReID. Our results also reveal two interesting features: First since RF signals work in the presence of occlusions and poor lighting, RF-ReID allows for person ReID in such scenarios. Second, unlike photos and videos which reveal personal and private information, RF signals are more privacy-preserving, and hence can help extend person ReID to privacy-concerned domains, like healthcare.
翻訳日:2022-12-17 12:58:01 公開日:2020-04-02
# 人体の静止状態 : 合成データを用いた3次元人物ポーズと圧力画像からの形状推定

Bodies at Rest: 3D Human Pose and Shape Estimation from a Pressure Image using Synthetic Data ( http://arxiv.org/abs/2004.01166v1 )

ライセンス: Link先を確認
Henry M. Clever, Zackory Erickson, Ariel Kapusta, Greg Turk, C. Karen Liu, and Charles C. Kemp(参考訳) 人々は人生の大部分をベッドで休んでいます。 この活動に対する3次元の人間のポーズと形状の推定には多くの有益な応用があるだろうが、直視の知覚はベディングからの隠蔽によって複雑である。 圧力感知マットは有望な代替手段だが、トレーニングデータは大規模に収集することが難しい。 本研究では, 圧力感知マットを用いたベッド内での安静時の人体シミュレーションと, 3次元の人体ポーズと形状を持つ206Kの圧力画像を用いた合成データセットであるSciencePoseについて述べる。 また,圧力画像と性別から人間のポーズと形状を推定する深層学習モデルである pressurenet も紹介する。 PressureNetは、圧力画像生成をモデル化し、推定された3Dボディモデルと圧力画像入力の整合性を促進する圧力マップ再構成(PMR)ネットワークを組み込んでいる。 評価では,合成データのみを用いてトレーニングした場合でも,様々なポーズで参加者の実際のデータとよく一致した。 PMRネットワークが廃止されると、性能は大幅に低下した。

People spend a substantial part of their lives at rest in bed. 3D human pose and shape estimation for this activity would have numerous beneficial applications, yet line-of-sight perception is complicated by occlusion from bedding. Pressure sensing mats are a promising alternative, but training data is challenging to collect at scale. We describe a physics-based method that simulates human bodies at rest in a bed with a pressure sensing mat, and present PressurePose, a synthetic dataset with 206K pressure images with 3D human poses and shapes. We also present PressureNet, a deep learning model that estimates human pose and shape given a pressure image and gender. PressureNet incorporates a pressure map reconstruction (PMR) network that models pressure image generation to promote consistency between estimated 3D body models and pressure image input. In our evaluations, PressureNet performed well with real data from participants in diverse poses, even though it had only been trained with synthetic data. When we ablated the PMR network, performance dropped substantially.
翻訳日:2022-12-17 12:56:33 公開日:2020-04-02
# 教師なし階層的部分の学習 単一RGB画像からの3次元物体の分解

Learning Unsupervised Hierarchical Part Decomposition of 3D Objects from a Single RGB Image ( http://arxiv.org/abs/2004.01176v1 )

ライセンス: Link先を確認
Despoina Paschalidou, Luc van Gool, and Andreas Geiger(参考訳) 人間は3Dの世界を、様々な低レベル(幾何学、反射)と高レベル(接続性、隣接性、対称性)の性質によって特徴づけられる異なる物体の集合として捉えている。 畳み込みニューラルネットワーク(CNN)に基づく最近の手法は、単一の2次元画像を入力として使用しても、3次元再構成において顕著な進歩を示した。 しかし、これらの手法の大部分は、部分的分解や部分間の関係を考慮せずに、物体の局所的な3次元形状を復元することに焦点を当てている。 本稿では,3dオブジェクトの形状をプリミティブの集合として,また,その潜在階層構造を部分的な監督なしに協調的に復元できる新しい定式化を提案することで,この課題に対処する。 我々のモデルは、プリミティブのバイナリツリーという形で、様々なオブジェクトの高レベルな構造的分解を復元し、単純な部分はより少ないプリミティブで表現され、より複雑な部分はより多くのコンポーネントでモデル化される。 ShapeNet と D-FAUST のデータセットを用いた実験により,部品の組織化を考えることで3次元形状の推論が容易になることが示された。

Humans perceive the 3D world as a set of distinct objects that are characterized by various low-level (geometry, reflectance) and high-level (connectivity, adjacency, symmetry) properties. Recent methods based on convolutional neural networks (CNNs) demonstrated impressive progress in 3D reconstruction, even when using a single 2D image as input. However, the majority of these methods focuses on recovering the local 3D geometry of an object without considering its part-based decomposition or relations between parts. We address this challenging problem by proposing a novel formulation that allows to jointly recover the geometry of a 3D object as a set of primitives as well as their latent hierarchical structure without part-level supervision. Our model recovers the higher level structural decomposition of various objects in the form of a binary tree of primitives, where simple parts are represented with fewer primitives and more complex parts are modeled with more components. Our experiments on the ShapeNet and D-FAUST datasets demonstrate that considering the organization of parts indeed facilitates reasoning about 3D geometry.
翻訳日:2022-12-17 12:55:54 公開日:2020-04-02
# ドメイン距離認識トレーニングによる非教師なし実世界画像スーパーレゾリューション

Unsupervised Real-world Image Super Resolution via Domain-distance Aware Training ( http://arxiv.org/abs/2004.01178v1 )

ライセンス: Link先を確認
Yunxuan Wei, Shuhang Gu, Yawei Li, Longcun Jin(参考訳) 近年,非教師なしスーパーレゾリューション(sr)が現実のシナリオにおいて実用的で有望な可能性を秘めている。 オフ・ザ・シェルフアプローチの哲学は、まず、実世界の高分解能(HR)画像に対応する合成低分解能(LR)画像 $\mathcal{Y}^g$ と、実世界のLRドメイン $\mathcal{Y}^r$ と、擬似ペア $\mathcal{Y}^g, \mathcal{X}^r\} を、教師付き方法でトレーニングするために利用することである。 残念なことに、画像翻訳自体が極めて困難な作業であるため、これらの手法のSR性能は生成した合成LR画像と実LR画像との領域ギャップによって著しく制限されている。 本稿では、教師なし実世界の画像SRのための新しいドメイン距離対応超解像(DASR)手法を提案する。 トレーニングデータ(例: $\mathcal{Y}^g$)とテストデータ(例: $\mathcal{Y}^r$)のドメインギャップは、我々の \textbf{ domain-gap aware training} と \textbf{ domain-distance weighted supervision} 戦略で対処される。 ドメインギャップを意識したトレーニングは、ターゲットドメイン内の実際のデータからさらなる利益を得る一方、ドメイン距離の重み付けされた監視は、ラベル付きソースドメインデータのより合理的な利用を促進する。 提案手法は合成データと実データで検証され,dasrはよりリアルで自然なテクスチャを持つsr出力を生成する際に,最先端のsrアプローチを一貫して上回っていることを示す。

These days, unsupervised super-resolution (SR) has been soaring due to its practical and promising potential in real scenarios. The philosophy of off-the-shelf approaches lies in the augmentation of unpaired data, i.e. first generating synthetic low-resolution (LR) images $\mathcal{Y}^g$ corresponding to real-world high-resolution (HR) images $\mathcal{X}^r$ in the real-world LR domain $\mathcal{Y}^r$, and then utilizing the pseudo pairs $\{\mathcal{Y}^g, \mathcal{X}^r\}$ for training in a supervised manner. Unfortunately, since image translation itself is an extremely challenging task, the SR performance of these approaches are severely limited by the domain gap between generated synthetic LR images and real LR images. In this paper, we propose a novel domain-distance aware super-resolution (DASR) approach for unsupervised real-world image SR. The domain gap between training data (e.g. $\mathcal{Y}^g$) and testing data (e.g. $\mathcal{Y}^r$) is addressed with our \textbf{domain-gap aware training} and \textbf{domain-distance weighted supervision} strategies. Domain-gap aware training takes additional benefit from real data in the target domain while domain-distance weighted supervision brings forward the more rational use of labeled source domain data. The proposed method is validated on synthetic and real datasets and the experimental results show that DASR consistently outperforms state-of-the-art unsupervised SR approaches in generating SR outputs with more realistic and natural textures.
翻訳日:2022-12-17 12:55:14 公開日:2020-04-02
# 障害を通して見ることを学ぶ

Learning to See Through Obstructions ( http://arxiv.org/abs/2004.01180v1 )

ライセンス: Link先を確認
Yu-Lun Liu, Wei-Sheng Lai, Ming-Hsuan Yang, Yung-Yu Chuang, Jia-Bin Huang(参考訳) 移動カメラで撮影した短い画像列から,窓の反射やフェンスの閉塞,雨滴などの不要な障害を取り除くための学習に基づくアプローチを提案する。 本手法は背景と障害物要素の運動差を利用して両方の層を復元する。 具体的には, 深い畳み込みニューラルネットワークを用いて, 2層の密集した光学的流れ場を推定し, 画像から各層を再構成する手法を交互に提案する。 学習に基づく層再構成は, フロー推定における潜在的な誤差と, 輝度整合性などの不安定な仮定を許容する。 合成データ転送のトレーニングは実画像に対して良好であることを示す。 反射とフェンス除去の難解なシナリオについて,提案手法の有効性を実証した。

We present a learning-based approach for removing unwanted obstructions, such as window reflections, fence occlusions or raindrops, from a short sequence of images captured by a moving camera. Our method leverages the motion differences between the background and the obstructing elements to recover both layers. Specifically, we alternate between estimating dense optical flow fields of the two layers and reconstructing each layer from the flow-warped images via a deep convolutional neural network. The learning-based layer reconstruction allows us to accommodate potential errors in the flow estimation and brittle assumptions such as brightness consistency. We show that training on synthetically generated data transfers well to real images. Our results on numerous challenging scenarios of reflection and fence removal demonstrate the effectiveness of the proposed method.
翻訳日:2022-12-17 12:54:36 公開日:2020-04-02
# メタラーニングによるシーン適応型ビデオフレーム補間

Scene-Adaptive Video Frame Interpolation via Meta-Learning ( http://arxiv.org/abs/2004.00779v1 )

ライセンス: Link先を確認
Myungsub Choi, Janghoon Choi, Sungyong Baik, Tae Hyun Kim, Kyoung Mu Lee(参考訳) ビデオフレームの補間は、前景や背景の動き、フレームレート、オクルージョンなどによって、各ビデオのシナリオが異なるため、難しい問題である。 したがって、固定パラメータを持つ単一のネットワークでは、異なるビデオ間で一般化することは困難である。 理想的には、シナリオごとに異なるネットワークを持つことができるが、これは実用的なアプリケーションでは計算不可能である。 本研究では,テスト時に手軽に利用できるが,以前の研究では利用されていない追加情報を利用することで,各ビデオにモデルを適用することを提案する。 まず,ネットワークの微調整による‘テスト時間適応’の利点を示し,メタラーニングを取り入れることでその効率を大幅に向上させる。 追加パラメータを使わずに1つの勾配更新しか行わず、大幅な性能向上が得られる。 最後に、我々のメタラーニングフレームワークは、任意のビデオフレーム補間ネットワークに容易に適用でき、複数のベンチマークデータセットの性能を一貫して改善できることを示す。

Video frame interpolation is a challenging problem because there are different scenarios for each video depending on the variety of foreground and background motion, frame rate, and occlusion. It is therefore difficult for a single network with fixed parameters to generalize across different videos. Ideally, one could have a different network for each scenario, but this is computationally infeasible for practical applications. In this work, we propose to adapt the model to each video by making use of additional information that is readily available at test time and yet has not been exploited in previous works. We first show the benefits of `test-time adaptation' through simple fine-tuning of a network, then we greatly improve its efficiency by incorporating meta-learning. We obtain significant performance gains with only a single gradient update without any additional parameters. Finally, we show that our meta-learning framework can be easily employed to any video frame interpolation network and can consistently improve its performance on multiple benchmark datasets.
翻訳日:2022-12-17 12:48:35 公開日:2020-04-02
# 多スペクトル画像における変化検出のためのグラフベース融合

Graph-based fusion for change detection in multi-spectral images ( http://arxiv.org/abs/2004.00786v1 )

ライセンス: Link先を確認
David Alejandro Jimenez Sierra, Hern\'an Dar\'io Ben\'itez Restrepo, Hern\'an Dar\'io Vargas Cardonay, Jocelyn Chanussot(参考訳) 本稿では,マルチスペクトル画像における変化検出の問題点を,グラフベースのデータ融合のためのデータ駆動フレームワークを提案する。 提案手法の主なステップは次のとおりである。 (i)各時間データのグラフ内融合による多時間画素グラフの生成 (ii) 融合グラフの固有値と固有ベクトルを得るためのnystr\"om拡張の使用と、最終的な変更写像の選択。 我々は,定性的,定量的な分析により,リモートセンシングの2つの実例でアプローチを検証した。 その結果,提案するグラフに基づく変化検出アルゴリズムが最先端手法よりも優れている可能性が検証された。

In this paper we address the problem of change detection in multi-spectral images by proposing a data-driven framework of graph-based data fusion. The main steps of the proposed approach are: (i) The generation of a multi-temporal pixel based graph, by the fusion of intra-graphs of each temporal data; (ii) the use of Nystr\"om extension to obtain the eigenvalues and eigenvectors of the fused graph, and the selection of the final change map. We validated our approach in two real cases of remote sensing according to both qualitative and quantitative analyses. The results confirm the potential of the proposed graph-based change detection algorithm outperforming state-of-the-art methods.
翻訳日:2022-12-17 12:48:18 公開日:2020-04-02
# インスタンス検出による追跡:メタラーニングアプローチ

Tracking by Instance Detection: A Meta-Learning Approach ( http://arxiv.org/abs/2004.00830v1 )

ライセンス: Link先を確認
Guangting Wang, Chong Luo, Xiaoyan Sun, Zhiwei Xiong and Wenjun Zeng(参考訳) 我々は,このトラッキング問題を,インスタンス検出と呼ばれる特別な種類のオブジェクト検出問題とみなす。 適切な初期化により、検出器は1つの画像から新しいインスタンスを学習することによって、すぐにトラッカーに変換できる。 モデルに依存しないメタラーニング(MAML)は、我々のニーズを満たす検出器を初期化する戦略を提供する。 高性能トラッカ構築のための原則3段階アプローチを提案する。 まず、勾配降下訓練された現代の物体検出器を選択する。 第2に、MAMLでオフライントレーニング(あるいは初期化)を行う。 第3に、初期フレームを使用してドメイン適応を実行する。 そこで我々は,2つの現代的な検出器であるRetinaNetとFCOSをベースとした,Retina-MAMLとFCOS-MAMLという2つのトラッカーを構築した。 4つのベンチマークによる評価は、両方のトラッカーが最先端トラッカーと競合していることを示している。 OTB-100では、Retina-MAMLが0.712のAUCを達成している。 TrackingNetでは、FCOS-MAMLがAUC 0.757、正規化精度0.822でトップボードにランクインしている。 両方のトラッカーは40FPSでリアルタイムに走る。

We consider the tracking problem as a special type of object detection problem, which we call instance detection. With proper initialization, a detector can be quickly converted into a tracker by learning the new instance from a single image. We find that model-agnostic meta-learning (MAML) offers a strategy to initialize the detector that satisfies our needs. We propose a principled three-step approach to build a high-performance tracker. First, pick any modern object detector trained with gradient descent. Second, conduct offline training (or initialization) with MAML. Third, perform domain adaptation using the initial frame. We follow this procedure to build two trackers, named Retina-MAML and FCOS-MAML, based on two modern detectors RetinaNet and FCOS. Evaluations on four benchmarks show that both trackers are competitive against state-of-the-art trackers. On OTB-100, Retina-MAML achieves the highest ever AUC of 0.712. On TrackingNet, FCOS-MAML ranks the first on the leader board with an AUC of 0.757 and the normalized precision of 0.822. Both trackers run in real-time at 40 FPS.
翻訳日:2022-12-17 12:47:45 公開日:2020-04-02
# DualConvMesh-Net:3Dメッシュ上の測地線とユークリッドの合同畳み込み

DualConvMesh-Net: Joint Geodesic and Euclidean Convolutions on 3D Meshes ( http://arxiv.org/abs/2004.01002v1 )

ライセンス: Link先を確認
Jonas Schult, Francis Engelmann, Theodora Kontogianni, Bastian Leibe(参考訳) 本論文では,2種類の畳み込みを結合した3次元幾何データ上の階層型畳み込みネットワークの一群である dualconvmesh-nets (dcm-net) を提案する。 最初のタイプの測地的畳み込みは、メッシュ表面またはグラフ上のカーネルウェイトを定義する。 すなわち、畳み込みカーネルの重みは、与えられたメッシュの局所曲面にマッピングされる。 第2のタイプであるユークリッドの畳み込みは、基盤となるメッシュ構造とは独立である。 畳み込みカーネルは、3D点間のユークリッド距離に基づいて局所親和性表現から得られた近傍に適用される。 直観的には、測地線畳み込みは、空間的に近いが断線面を持つ物体を容易に分離することができるが、ユークリッド畳み込みは、物体表面に従属するため、近傍の物体間の相互作用をより良く表現することができる。 マルチレゾリューションアーキテクチャを実現するために,幾何処理領域から確立されたメッシュ単純化手法を借用し,メッシュ保存プールとアンプール操作の定義に適用した。 両タイプの畳み込みをアーキテクチャに組み込むことで,3次元セマンティックセマンティックセマンティクスの性能向上が期待できることを示すとともに,3つのシーンセマンティクスベンチマークで競合する結果を報告する。 私たちのモデルとコードは公開されています。

We propose DualConvMesh-Nets (DCM-Net) a family of deep hierarchical convolutional networks over 3D geometric data that combines two types of convolutions. The first type, geodesic convolutions, defines the kernel weights over mesh surfaces or graphs. That is, the convolutional kernel weights are mapped to the local surface of a given mesh. The second type, Euclidean convolutions, is independent of any underlying mesh structure. The convolutional kernel is applied on a neighborhood obtained from a local affinity representation based on the Euclidean distance between 3D points. Intuitively, geodesic convolutions can easily separate objects that are spatially close but have disconnected surfaces, while Euclidean convolutions can represent interactions between nearby objects better, as they are oblivious to object surfaces. To realize a multi-resolution architecture, we borrow well-established mesh simplification methods from the geometry processing domain and adapt them to define mesh-preserving pooling and unpooling operations. We experimentally show that combining both types of convolutions in our architecture leads to significant performance gains for 3D semantic segmentation, and we report competitive results on three scene segmentation benchmarks. Our models and code are publicly available.
翻訳日:2022-12-17 12:46:22 公開日:2020-04-02
# スクリプト知識の因果推論

Causal Inference of Script Knowledge ( http://arxiv.org/abs/2004.01174v1 )

ライセンス: Link先を確認
Noah Weber, Rachel Rudinger, Benjamin Van Durme(参考訳) イベントのシーケンスが毎日のシナリオを定義して、この知識がテキストからどのように引き起こされるのか? このようなスクリプトを誘導する以前の作業は、何らかの形で、コーパス内のイベントのインスタンス間の相関測定に頼っていた。 我々は、純粋に相関に基づくアプローチが不十分であるという概念的および実践的両面から論じ、代わりに、介入によって正式に定義されたイベント間の因果効果に基づくスクリプト誘導アプローチを提案する。 人的評価と自動評価の両方を通して, 因果効果に基づく手法の出力が, スクリプトの直観と合致することを示す。

When does a sequence of events define an everyday scenario and how can this knowledge be induced from text? Prior works in inducing such scripts have relied on, in one form or another, measures of correlation between instances of events in a corpus. We argue from both a conceptual and practical sense that a purely correlation-based approach is insufficient, and instead propose an approach to script induction based on the causal effect between events, formally defined via interventions. Through both human and automatic evaluations, we show that the output of our method based on causal effects better matches the intuition of what a script represents
翻訳日:2022-12-17 12:39:24 公開日:2020-04-02
# 4chan と 8chan の埋め込み

4chan & 8chan embeddings ( http://arxiv.org/abs/2005.06946v1 )

ライセンス: Link先を確認
Pierre Vou\'e, Tom De Smedt, Guy De Pauw(参考訳) 4chanと8chanで公開されている/pol/メッセージボードから、3000万以上のメッセージを収集し、有毒な言語使用のモデルにコンパイルしました。 トレーニングされたワード埋め込み (0.4GB) は無償でリリースされており、有害な談話のさらなる研究やヘイトスピーチ検出システムの強化に役立つ可能性がある。

We have collected over 30M messages from the publicly available /pol/ message boards on 4chan and 8chan, and compiled them into a model of toxic language use. The trained word embeddings (0.4GB) are released for free and may be useful for further study on toxic discourse or to boost hate speech detection systems: https://textgain.com/8chan.
翻訳日:2022-12-17 12:38:55 公開日:2020-04-02
# 2018 roadef/euroチャレンジガラス切断問題に対するanytime tree searchアルゴリズム

An anytime tree search algorithm for the 2018 ROADEF/EURO challenge glass cutting problem ( http://arxiv.org/abs/2004.00963v1 )

ライセンス: Link先を確認
Luc Libralesso, Florian Fontan(参考訳) 本稿では、フランス企業サン=ゴバインが提唱した2018 ROADEF/EUROチャレンジガラス切断問題のために設計した木探索アルゴリズムについて述べる。 このプログラムは64人中1位にランクインした。 主な構成要素は、ガイド関数、対称性破壊戦略、擬似支配ルールを備えたメモリバウンドA* (MBA*) と呼ばれる新しい検索アルゴリズムである。 それぞれのコンポーネントがアルゴリズム全体のパフォーマンスに寄与することを示す,これらのコンポーネントの包括的研究を行う。 さらに,擬似支配ルールをベースとした第2木探索アルゴリズムを設計し,高い優先順位制約を持つ課題のいくつかに焦点をあてた。 これらの例では、最もよく知られたソリューションがすぐに見つかる。

In this article, we present the anytime tree search algorithm we designed for the 2018 ROADEF/EURO challenge glass cutting problem proposed by the French company Saint-Gobain. The resulting program was ranked first among 64 participants. Its key components are: a new search algorithm called Memory Bounded A* (MBA*) with guide functions, a symmetry breaking strategy, and a pseudo-dominance rule. We perform a comprehensive study of these components showing that each of them contributes to the algorithm global performances. In addition, we designed a second tree search algorithm fully based on the pseudo-dominance rule and dedicated to some of the challenge instances with strong precedence constraints. On these instances, it finds the best-known solutions very quickly.
翻訳日:2022-12-17 12:38:31 公開日:2020-04-02
# 対人強化学習のための価値駆動表現

Value Driven Representation for Human-in-the-Loop Reinforcement Learning ( http://arxiv.org/abs/2004.01223v1 )

ライセンス: Link先を確認
Ramtin Keramati, Emma Brunskill(参考訳) 強化学習 (Reinforcement Learning, RL) を利用した対話型適応システムには,知的チューリングシステムなど多くの潜在的な応用がある。 そのようなシステムでは、通常、対話型適応システムを作成し、監視し、修正し、目標とする結果に対するパフォーマンスを向上させる外部の人間系設計者がいます。 本稿では,強化学習エージェントが使用する観測空間を定義するためのセンサや特徴のセットをシステム設計者が選択するためのアルゴリズム的基礎について述べる。 本稿では,拡張学習エージェントの観測空間を反復的かつ適応的に拡張し,(近く)最適ポリシーを捉えるのに十分なアルゴリズムである値駆動表現(VDR)を提案する。 そこで我々は,オフラインシミュレーションモンテカルロロールアウトを用いて,ポリシーの価値を楽観的に推定する新しい手法を提案する。 シミュレーション人間を用いた標準rlベンチマークにおける本手法の性能評価を行い,従来の基準よりも有意な改善を示した。

Interactive adaptive systems powered by Reinforcement Learning (RL) have many potential applications, such as intelligent tutoring systems. In such systems there is typically an external human system designer that is creating, monitoring and modifying the interactive adaptive system, trying to improve its performance on the target outcomes. In this paper we focus on algorithmic foundation of how to help the system designer choose the set of sensors or features to define the observation space used by reinforcement learning agent. We present an algorithm, value driven representation (VDR), that can iteratively and adaptively augment the observation space of a reinforcement learning agent so that is sufficient to capture a (near) optimal policy. To do so we introduce a new method to optimistically estimate the value of a policy using offline simulated Monte Carlo rollouts. We evaluate the performance of our approach on standard RL benchmarks with simulated humans and demonstrate significant improvement over prior baselines.
翻訳日:2022-12-17 12:37:49 公開日:2020-04-02
# ファジィ認知地図を用いた冠動脈疾患診断のための非侵襲的モデリング手法

Non-invasive modelling methodology for the diagnosis of Coronary Artery Disease using Fuzzy Cognitive Maps ( http://arxiv.org/abs/2004.02600v1 )

ライセンス: Link先を確認
Ioannis Apostolopoulos, Peter Groumpos(参考訳) 心臓血管疾患(CVD)と脳卒中は世界中で大きな健康と経済的負担をもたらす。 冠動脈疾患 (CAD) は心臓血管疾患の最も一般的な種類である。 冠動脈造影は侵襲的治療であり,CAD診断の標準的な方法でもある。 本稿では,ファジィ認知マップ(FCM)を用いた冠動脈疾患(CAD)の予測のための医療意思決定支援システムについて述べる。 FCMは、人間の知識に基づく有望なモデリング手法であり、曖昧さと不確実性に対処し、未知または変化する環境に適応する方法を学ぶことができる。 新たに提案されたMDSSは、ファジィ論理とファジィ認知マップの基本概念を用いて開発され、結果を改善するためにいくつかの調整がなされている。 提案モデルは,303人のCADデータセットを用いて評価され,最先端の分類アルゴリズムに適合する78.2%の精度が得られる。

Cardiovascular Diseases (CVD) and strokes produce immense health and economic burdens globally. Coronary Artery Disease (CAD) is the most common type of cardiovascular disease. Coronary Angiography, which is an invasive treatment, is also the standard procedure for diagnosing CAD. In this work, we illustrate a Medical Decision Support System for the prediction of Coronary Artery Disease (CAD) utilizing Fuzzy Cognitive Maps (FCMs). FCMs are a promising modeling methodology, based on human knowledge, capable of dealing with ambiguity and uncertainty, and learning how to adapt to the unknown or changing environment. The newly proposed MDSS is developed using the basic notions of Fuzzy Logic and Fuzzy Cognitive Maps, with some adjustments to improve the results. The proposed model, tested on a labelled CAD dataset of 303 patients, obtains an accuracy of 78.2% outmatching several state-of-the-art classification algorithms.
翻訳日:2022-12-17 12:37:32 公開日:2020-04-02
# 医用画像における局所構造解析のための異方性ミンコフスキー機能導入と定量的異方性測定

Introducing Anisotropic Minkowski Functionals and Quantitative Anisotropy Measures for Local Structure Analysis in Biomedical Imaging ( http://arxiv.org/abs/2004.01185v1 )

ライセンス: Link先を確認
Axel Wismueller, Titas De, Eva Lochmueller, Felix Eckstein, Mahesh B. Nagarajan(参考訳) 様々な生体組織タイプの局所構造を特徴づけるMinkowski Functionalsの能力は、様々な医療画像処理タスクで実証されている。 我々は, 基礎となる灰色準位構造の固有異方性を捉える新しい変種として, 異方性ミンコフスキー汎関数 (amfs) を導入する。 そこで本研究では,MR拡散テンソルイメージング,すなわち分数異方性( fractional anisotropy)に応用した定量的な測定手法を提案する。 胸骨近位部における骨微細構造の局所的特徴を多検出器CTで可視化する研究における本法の適用性について紹介する。 この結果から, 頭部, 頸部, 転子領域から抽出したROIの画素ごとにAMFを局所的に算出した。 分裂異方性は、これらのROIに見られる気管構造の局所異方性を定量化し、その分布を解剖学的に異なる領域で比較するために用いられる。 以上の結果から,トロチャンター領域 (p < 10-4) と比較して頭頸部領域の異方性トラベクラー構造が有意に高いことが示唆された。 また,50名のドナーから得られた大腿骨近位部標本の大腿骨頭骨強度の予測能力についても検討した。 これらのamfは,マルチレグレッションモデルと併用することで,bmdなどの従来型機能よりも障害負荷予測に優れることが示唆された。 このような異方性ミンコフスキー関数は局所構造の方向特性に関する貴重な情報を捉えることができ、バイオメディカルイメージングの幅広い分野で有用かもしれない。

The ability of Minkowski Functionals to characterize local structure in different biological tissue types has been demonstrated in a variety of medical image processing tasks. We introduce anisotropic Minkowski Functionals (AMFs) as a novel variant that captures the inherent anisotropy of the underlying gray-level structures. To quantify the anisotropy characterized by our approach, we further introduce a method to compute a quantitative measure motivated by a technique utilized in MR diffusion tensor imaging, namely fractional anisotropy. We showcase the applicability of our method in the research context of characterizing the local structure properties of trabecular bone micro-architecture in the proximal femur as visualized on multi-detector CT. To this end, AMFs were computed locally for each pixel of ROIs extracted from the head, neck and trochanter regions. Fractional anisotropy was then used to quantify the local anisotropy of the trabecular structures found in these ROIs and to compare its distribution in different anatomical regions. Our results suggest a significantly greater concentration of anisotropic trabecular structures in the head and neck regions when compared to the trochanter region (p < 10-4). We also evaluated the ability of such AMFs to predict bone strength in the femoral head of proximal femur specimens obtained from 50 donors. Our results suggest that such AMFs, when used in conjunction with multi-regression models, can outperform more conventional features such as BMD in predicting failure load. We conclude that such anisotropic Minkowski Functionals can capture valuable information regarding directional attributes of local structure, which may be useful in a wide scope of biomedical imaging applications.
翻訳日:2022-12-17 10:14:34 公開日:2020-04-02
# STAN-CT:ジェネレーティブ・ディバイサル・ネットワークを用いたCT画像の標準化

STAN-CT: Standardizing CT Image using Generative Adversarial Network ( http://arxiv.org/abs/2004.01307v1 )

ライセンス: Link先を確認
Md Selim, Jie Zhang, Baowei Fei, Guo-Qiang Zhang and Jin Chen(参考訳) CTは肺悪性度診断と治療評価において重要な役割を担い、正確な医療提供を促進する。 しかし、パーソナライズされた画像プロトコルの使用は、大規模なCT画像研究において課題となっている。 我々は,CT画像の標準化と標準化のためにSTAN-CTと呼ばれるエンドツーエンドのソリューションを提案し,異なる画像プロトコルを用いたり,同じ画像プロトコルで異なるCTスキャナを使用したりすることで,画像特徴の相違を効果的に低減する。 STAN-CTは2つのコンポーネントから構成される。 1) 数ラウンドのジェネレータトレーニングで標準画像プロトコルのデータ配信を効果的に学習できる新しいGANモデル 2) 高品質な標準DICOM画像の生成を確実にする画像品質制御を備えたDICOM自動再構築パイプライン。 その結果、stan-ctのトレーニング効率とモデル性能は、最先端のct画像標準化と正規化アルゴリズムと比較して大幅に向上した。

Computed tomography (CT) plays an important role in lung malignancy diagnostics and therapy assessment and facilitating precision medicine delivery. However, the use of personalized imaging protocols poses a challenge in large-scale cross-center CT image radiomic studies. We present an end-to-end solution called STAN-CT for CT image standardization and normalization, which effectively reduces discrepancies in image features caused by using different imaging protocols or using different CT scanners with the same imaging protocol. STAN-CT consists of two components: 1) a novel Generative Adversarial Networks (GAN) model that is capable of effectively learning the data distribution of a standard imaging protocol with only a few rounds of generator training, and 2) an automatic DICOM reconstruction pipeline with systematic image quality control that ensure the generation of high-quality standard DICOM images. Experimental results indicate that the training efficiency and model performance of STAN-CT have been significantly improved compared to the state-of-the-art CT image standardization and normalization algorithms.
翻訳日:2022-12-17 10:13:47 公開日:2020-04-02
# 双方向LSTMを用いた心音分離

Heart Sound Segmentation using Bidirectional LSTMs with Attention ( http://arxiv.org/abs/2004.03712v1 )

ライセンス: Link先を確認
Tharindu Fernando, Houman Ghaemmaghami, Simon Denman, Sridha Sridharan, Nayyar Hussain, Clinton Fookes(参考訳) 本報告では,PCGの経時的変化を生かした心電図信号の心臓状態へのセグメンテーションのための新しい枠組みを提案する。 本稿では,リカレントニューラルネットワークの利用を提案し,近年の注意に基づく学習の進歩を活かし,pcg信号のセグメント化を行う。 これにより、ネットワークは信号の最も有意義な側面を識別し、意図しない情報を無視することができる。 提案手法は,ヒトおよび動物の心記録を含む複数のベンチマークにおいて最先端のパフォーマンスを実現する。 さらに,包み込み特徴,ウェーブレット,メル周波数ケプストラル係数 (MFCC) などの異なる特徴の組み合わせを実験的に分析し,提案手法における特徴の重要性を定量的に検討する。 注意機構を結合したリカレントニューラルネットワークが,不規則記録やノイズ記録から効果的に学習できることを実証する。 異なる特徴の組み合わせを解析したところ、MFCCの特徴とその派生品は、古典的なウェーブレットや包み込み機能と比較して最高の性能を提供することがわかった。 心臓音のセグメンテーションは多くの診断アプリケーションにとって重要な前処理ステップである。 提案手法は, 省力的な手作業セグメント化に代わるコスト効率の高い代替手法であり, 従来の手法よりも高精度なセグメント化を提供する。 これにより、大腿骨の検知や射出クリックなどのさらなる解析性能を向上させることができる。 提案手法は,他の1次元バイオメディカル信号の検出とセグメンテーションにも応用できる。

This paper proposes a novel framework for the segmentation of phonocardiogram (PCG) signals into heart states, exploiting the temporal evolution of the PCG as well as considering the salient information that it provides for the detection of the heart state. We propose the use of recurrent neural networks and exploit recent advancements in attention based learning to segment the PCG signal. This allows the network to identify the most salient aspects of the signal and disregard uninformative information. The proposed method attains state-of-the-art performance on multiple benchmarks including both human and animal heart recordings. Furthermore, we empirically analyse different feature combinations including envelop features, wavelet and Mel Frequency Cepstral Coefficients (MFCC), and provide quantitative measurements that explore the importance of different features in the proposed approach. We demonstrate that a recurrent neural network coupled with attention mechanisms can effectively learn from irregular and noisy PCG recordings. Our analysis of different feature combinations shows that MFCC features and their derivatives offer the best performance compared to classical wavelet and envelop features. Heart sound segmentation is a crucial pre-processing step for many diagnostic applications. The proposed method provides a cost effective alternative to labour extensive manual segmentation, and provides a more accurate segmentation than existing methods. As such, it can improve the performance of further analysis including the detection of murmurs and ejection clicks. The proposed method is also applicable for detection and segmentation of other one dimensional biomedical signals.
翻訳日:2022-12-17 10:13:07 公開日:2020-04-02
# 言語マッピング:グローバル言語利用のコーパス

Mapping Languages: The Corpus of Global Language Use ( http://arxiv.org/abs/2004.00798v1 )

ライセンス: Link先を確認
Jonathan Dunn(参考訳) 本稿では,このコーパスがデータ駆動型言語マッピングにどのように使用できるかに着目し,グローバル言語を用いたWebベースのコーパスについて述べる。 まず、コーパスは、主要な言語(例えば、英語、アラビア語、ロシア語)の国別品種の表現と、各品種について一貫して収集されたデータを提供する。 第二に,本研究では,サンプルサイズの小さいローカル言語をサポートする言語識別モデルについて,他の市販モデルよりも評価する。 言語識別の改善は、多数言語を超えるために不可欠である。 言語マッピングに焦点をあてて、このデジタル言語データが実際の人口をどれだけよく表すかを分析する。 (i)人口統計データとコーパスを体系的に比較し、 (ii) コーパスを別のTwitterベースのデータセットでトライアングルする。 コーパスには148の言語(各言語から100万語以上)と158の国(それぞれ100万語以上)の計423億語が含まれており、すべてCommon CrawlのWebデータから抽出されている。 本論文の主な貢献は、この公用コーパスを説明することに加えて、2つのデジタルデータソース(WebとTwitter)の関係と、その基盤となる人口との関係を包括的に分析することである。

This paper describes a web-based corpus of global language use with a focus on how this corpus can be used for data-driven language mapping. First, the corpus provides a representation of where national varieties of major languages are used (e.g., English, Arabic, Russian) together with consistently collected data for each variety. Second, the paper evaluates a language identification model that supports more local languages with smaller sample sizes than alternative off-the-shelf models. Improved language identification is essential for moving beyond majority languages. Given the focus on language mapping, the paper analyzes how well this digital language data represents actual populations by (i) systematically comparing the corpus with demographic ground-truth data and (ii) triangulating the corpus with an alternate Twitter-based dataset. In total, the corpus contains 423 billion words representing 148 languages (with over 1 million words from each language) and 158 countries (again with over 1 million words from each country), all distilled from Common Crawl web data. The main contribution of this paper, in addition to describing this publicly-available corpus, is to provide a comprehensive analysis of the relationship between two sources of digital data (the web and Twitter) as well as their connection to underlying populations.
翻訳日:2022-12-17 10:12:43 公開日:2020-04-02
# 地理参照コーパスを用いた言語と人口動態のマッピング

Mapping Languages and Demographics with Georeferenced Corpora ( http://arxiv.org/abs/2004.00809v1 )

ライセンス: Link先を確認
Jonathan Dunn and Ben Adams(参考訳) 本稿では,Webcrawledおよびソーシャルメディアソースから抽出した大規模ジオレファレンスコーパスを,地中人口と言語センサスデータセットに対して評価する。 ゴールは決めることです (i)最も人口人口を表わすデータセット (二)世界のどの地域では、データセットが実際の人口の最も代表的であるか、及び (iii)基盤となる人口をより正確に表現するためのデータセットの重み付け方法。 この論文は、2つのデータセットが非常に異なる人口を表しており、r=0.60(社会メディア)とr=0.49(ウェブクローリング)の値で実際の人口と相関していることを示した。 さらに、Twitterのデータは各国で使われている言語の在庫についてより良い予測をする。

This paper evaluates large georeferenced corpora, taken from both web-crawled and social media sources, against ground-truth population and language-census datasets. The goal is to determine (i) which dataset best represents population demographics; (ii) in what parts of the world the datasets are most representative of actual populations; and (iii) how to weight the datasets to provide more accurate representations of underlying populations. The paper finds that the two datasets represent very different populations and that they correlate with actual populations with values of r=0.60 (social media) and r=0.49 (web-crawled). Further, Twitter data makes better predictions about the inventory of languages used in each country.
翻訳日:2022-12-17 10:12:22 公開日:2020-04-02
# グリーンのアイデアはどんなに眠れるのか? 文脈における文受容性

How Furiously Can Colourless Green Ideas Sleep? Sentence Acceptability in Context ( http://arxiv.org/abs/2004.00881v1 )

ライセンス: Link先を確認
Jey Han Lau, Carlos S. Armendariz, Shalom Lappin, Matthew Purver, Chang Shu(参考訳) 文脈が文受容性に及ぼす影響について検討する。 まず,個別に判断された文の受容性評価と関連する文脈,無関係な文脈を比較した。 その結果,コンテクストは人間の認知負荷を誘発し,評価の分布を圧縮することが示された。 さらに、関連する文脈では、アクセシビリティを均一に高める談話コヒーレンス効果を観察する。 次に,アクセシビリティ評価を予測できる一方向および双方向言語モデルをテストする。 双方向モデルは非常に有望な結果を示し、最高のモデルは教師なしアクセプタビリティ予測のための新しい最先端技術を達成する。 2つの実験セットは、文処理の認知的側面と、テキストと談話の計算モデリングにおける中心的な問題に関する洞察を提供する。

We study the influence of context on sentence acceptability. First we compare the acceptability ratings of sentences judged in isolation, with a relevant context, and with an irrelevant context. Our results show that context induces a cognitive load for humans, which compresses the distribution of ratings. Moreover, in relevant contexts we observe a discourse coherence effect which uniformly raises acceptability. Next, we test unidirectional and bidirectional language models in their ability to predict acceptability ratings. The bidirectional models show very promising results, with the best model achieving a new state-of-the-art for unsupervised acceptability prediction. The two sets of experiments provide insights into the cognitive aspects of sentence processing and central issues in the computational modelling of text and discourse.
翻訳日:2022-12-17 10:12:11 公開日:2020-04-02
# nubes: スペイン語臨床文献における否定と不確実性のコーパス

NUBES: A Corpus of Negation and Uncertainty in Spanish Clinical Texts ( http://arxiv.org/abs/2004.01092v1 )

ライセンス: Link先を確認
Salvador Lima, Naiara Perez, Montse Cuadros, and German Rigau(参考訳) 本稿では,NUBes corpusの最初のバージョン(スペイン語のバイオメディカルテキストにおける否定的アノテーションと不確実性アノテーション)を紹介する。 コーパスは現在進行中の研究の一部であり、否定と不確実性を示す匿名化された健康記録から得られた29,682の文で構成されている。 この記事では、スペイン語の類似のコーパスと徹底的に比較し、主要なアノテーションと設計上の決定を示す。 さらに,アノテーション付きデータセットを検証するために,ディープラーニングアルゴリズムを用いた予備実験を行う。 われわれが知る限り、NUBesはスペイン語の否定のための最大公用コーパスであり、憶測の手がかり、スコープ、イベントのアノテーションも組み込んだ最初の企業である。

This paper introduces the first version of the NUBes corpus (Negation and Uncertainty annotations in Biomedical texts in Spanish). The corpus is part of an on-going research and currently consists of 29,682 sentences obtained from anonymised health records annotated with negation and uncertainty. The article includes an exhaustive comparison with similar corpora in Spanish, and presents the main annotation and design decisions. Additionally, we perform preliminary experiments using deep learning algorithms to validate the annotated dataset. As far as we know, NUBes is the largest publicly available corpus for negation in Spanish and the first that also incorporates the annotation of speculation cues, scopes, and events.
翻訳日:2022-12-17 10:11:41 公開日:2020-04-02
# 音声活動検出のためのジェネレーティブ・ディバーショナル・ネットワークを用いた時間的コンテキストモデリング

Temporarily-Aware Context Modelling using Generative Adversarial Networks for Speech Activity Detection ( http://arxiv.org/abs/2004.01546v1 )

ライセンス: Link先を確認
Tharindu Fernando, Sridha Sridharan, Mitchell McLaren, Darshana Priyasad, Simon Denman, Clinton Fookes(参考訳) 本稿では,音声活動検出(SAD)のための新しいフレームワークを提案する。 音声処理領域におけるマルチタスク学習手法の成功に触発されて,SADのための新しい共同学習フレームワークを提案する。 本稿では,生成型adversarial networkを用いて,フレーム毎の音声/非音声分類と次の音声セグメントの同時予測のための損失関数を自動学習する。 入力信号内の時間的関係を利用するために,予測信号の時間的一貫性を確保することを目的とした時間的判別器を提案する。 NIST OpenSAT' 17 や AMI Meeting や HAVIC など,複数の公開ベンチマーク上で提案するフレームワークを評価し,最先端の SAD アプローチより優れていることを示す。 さらに,提案手法が様々な言語,アクセント,音響環境にまたがって頑健であることを示す。

This paper presents a novel framework for Speech Activity Detection (SAD). Inspired by the recent success of multi-task learning approaches in the speech processing domain, we propose a novel joint learning framework for SAD. We utilise generative adversarial networks to automatically learn a loss function for joint prediction of the frame-wise speech/ non-speech classifications together with the next audio segment. In order to exploit the temporal relationships within the input signal, we propose a temporal discriminator which aims to ensure that the predicted signal is temporally consistent. We evaluate the proposed framework on multiple public benchmarks, including NIST OpenSAT' 17, AMI Meeting and HAVIC, where we demonstrate its capability to outperform state-of-the-art SAD approaches. Furthermore, our cross-database evaluations demonstrate the robustness of the proposed approach across different languages, accents, and acoustic environments.
翻訳日:2022-12-17 10:05:26 公開日:2020-04-02
# ロボット応用のためのセマンティック画像検索

Semantic Image Search for Robotic Applications ( http://arxiv.org/abs/2004.02607v1 )

ライセンス: Link先を確認
Tomas Kulvicius, Irene Markelic, Minija Tamosiunaite and Florentin W\"org\"otter(参考訳) ロボット工学における一般化は最も重要な問題の1つである。 新しい一般化アプローチは、新しいタスクを解決するためにインターネットデータベースを使用する。 現代の検索エンジンは、ミリ秒以内のクエリに従って大量の情報を返すことができる。 しかし、ポリセムの問題もあって、返却された全ての情報がタスクに関連しているわけではない。 本稿では,画像検索による対象一般化の問題に対処する。 視覚情報とテキスト情報を組み合わせたバイモーダルな解法を提案する。 人間のラベル付きデータと比較することで,提案手法の質を評価した結果, 平均して, 提案手法は検索結果の改善につながり, ポリセムの問題に対処できることがわかった。

Generalization in robotics is one of the most important problems. New generalization approaches use internet databases in order to solve new tasks. Modern search engines can return a large amount of information according to a query within milliseconds. However, not all of the returned information is task relevant, partly due to the problem of polysemes. Here we specifically address the problem of object generalization by using image search. We suggest a bi-modal solution, combining visual and textual information, based on the observation that humans use additional linguistic cues to demarcate intended word meaning. We evaluate the quality of our approach by comparing it to human labelled data and find that, on average, our approach leads to improved results in comparison to Google searches, and that it can treat the problem of polysemes.
翻訳日:2022-12-17 10:05:12 公開日:2020-04-02
# てんかん検出のためのマルチペアスペクトル特徴に基づくバイナリ・マルチクラス分類器

Binary and Multiclass Classifiers based on Multitaper Spectral Features for Epilepsy Detection ( http://arxiv.org/abs/2004.03456v1 )

ライセンス: Link先を確認
Jefferson Tales Oliva and Jo\~ao Lu\'is Garcia Rosa(参考訳) てんかんは、脳波(eeg)によって診断できる最も一般的な神経疾患の1つであり、以下のてんかん事象が観察される(前ictal、ictal、後ictal、interictal)。 本稿では,2値分類と多値分類の2つの区別文脈にてんかん検出の新しい手法を提案する。 特徴抽出には、パワースペクトル、スペクトログラム、バイスペクトログラムから合計105個の測定値が抽出された。 分類器の構築には8種類の機械学習アルゴリズムが用いられた。 本手法は広く利用されている脳波データベースに適用した。 その結果、ランダムフォレストと多層パーセプトロンアルゴリズムに基づくバックプロパゲーションは、それぞれバイナリ(98.75%)とマルチクラス(96.25%)の分類問題において最高精度に達した。 その後、統計検査では、他の分類器よりも優れた性能が得られるモデルが見つからなかった。 また,混乱行列に基づく評価では,脳波分類において他のモデルと関連して際立った分類器を特定することもできなかった。 それでも、結果は文献の調査結果と有望で競争力があります。

Epilepsy is one of the most common neurological disorders that can be diagnosed through electroencephalogram (EEG), in which the following epileptic events can be observed: pre-ictal, ictal, post-ictal, and interictal. In this paper, we present a novel method for epilepsy detection into two differentiation contexts: binary and multiclass classification. For feature extraction, a total of 105 measures were extracted from power spectrum, spectrogram, and bispectrogram. For classifier building, eight different machine learning algorithms were used. Our method was applied in a widely used EEG database. As a result, random forest and backpropagation based on multilayer perceptron algorithms reached the highest accuracy for binary (98.75%) and multiclass (96.25%) classification problems, respectively. Subsequently, the statistical tests did not find a model that would achieve a better performance than the other classifiers. In the evaluation based on confusion matrices, it was also not possible to identify a classifier that stands out in relation to other models for EEG classification. Even so, our results are promising and competitive with the findings in the literature.
翻訳日:2022-12-17 10:04:41 公開日:2020-04-02
# CNNとTV-TVによるロバスト単一画像超解像

Robust Single-Image Super-Resolution via CNNs and TV-TV Minimization ( http://arxiv.org/abs/2004.00843v1 )

ライセンス: Link先を確認
Marija Vella and Jo\~ao F. C. Mota(参考訳) シングルイメージ超解像は、低解像度(LR)画像から高解像度(HR)画像を得る、画像の解像度を高める過程である。 大規模なトレーニングデータセットを活用することで、現在のCNN(Convolutional Neural Network)はこのタスクで最先端のパフォーマンスを実現している。 しかし、テスト/デプロイ中は、HRイメージとLRイメージの一貫性を強制することができない。 そこで本研究では,CNNの出力をTV-TV最小化と呼ぶ最適化問題で後処理することを提案する。 広範な実験が示すように、これらの後処理は、psnrとssimの観点から画像の品質を向上させるだけでなく、真のダウンサンプリング演算子がトレーニングデータセットの作成に使用されるものと異なる場合、オペレータミスマッチに頑健な超解像タスクとなる。

Single-image super-resolution is the process of increasing the resolution of an image, obtaining a high-resolution (HR) image from a low-resolution (LR) one. By leveraging large training datasets, convolutional neural networks (CNNs) currently achieve the state-of-the-art performance in this task. Yet, during testing/deployment, they fail to enforce consistency between the HR and LR images: if we downsample the output HR image, it never matches its LR input. Based on this observation, we propose to post-process the CNN outputs with an optimization problem that we call TV-TV minimization, which enforces consistency. As our extensive experiments show, such post-processing not only improves the quality of the images, in terms of PSNR and SSIM, but also makes the super-resolution task robust to operator mismatch, i.e., when the true downsampling operator is different from the one used to create the training dataset.
翻訳日:2022-12-17 10:04:22 公開日:2020-04-02
# 異方性minkowski関数の導入による大腿骨近位部の局所構造解析と生体力学的強度の予測

Introducing Anisotropic Minkowski Functionals for Local Structure Analysis and Prediction of Biomechanical Strength of Proximal Femur Specimens ( http://arxiv.org/abs/2004.01029v1 )

ライセンス: Link先を確認
Titas De(参考訳) 骨粗しょう症や外傷による骨の脆さや骨折は、50歳以上の成人に多く見られ、生活の質を低下させる。 したがって,非侵襲的画像診断法により大腿骨近位部の生体力学的骨強度を予測することは,骨粗しょう症の診断と骨折リスクの推定に重要な目的である。 dual x-ray absorptiometry (dxa) は骨ミネラル密度 (bmd) 測定による骨強度と骨ポロシスの評価と診断のための標準的臨床検査法である。 しかし、従来の研究では、定量的コンピュータ断層撮影(QCT)は、周囲の軟部組織や皮質の殻からのオーバーラップ効果と干渉を減少させるため、骨特性に対してより敏感で特異であることが示されている。 本研究では, 定量的多検出器コンピュータ断層撮影(mdct)画像から大腿骨近位部標本の骨強度を予測する新しい方法を提案する。 従来の統計モーメント (BMD) や等方的ミンコフスキー関数 (IMF) や非等方的ミンコフスキー関数 (AMF) といったテクスチャ解析手法を用いて, 骨微細構造のBMD特性を定量化する。 これらの特徴を組み合わせることで、マルチ回帰(MultiReg)のような高度な機械学習技術を用いて大腿骨標本の生体力学的強度を予測し、線形カーネル(SVRlin)によるベクトル回帰をサポートする。 これらの特徴セットで達成された予測性能は、標本の平均bmdとルート平均二乗誤差(rmse)を用いたマルチレグレッションモデルを用いた標準手法と比較される。

Bone fragility and fracture caused by osteoporosis or injury are prevalent in adults over the age of 50 and can reduce their quality of life. Hence, predicting the biomechanical bone strength, specifically of the proximal femur, through non-invasive imaging-based methods is an important goal for the diagnosis of Osteoporosis as well as estimating fracture risk. Dual X-ray absorptiometry (DXA) has been used as a standard clinical procedure for assessment and diagnosis of bone strength and osteoporosis through bone mineral density (BMD) measurements. However, previous studies have shown that quantitative computer tomography (QCT) can be more sensitive and specific to trabecular bone characterization because it reduces the overlap effects and interferences from the surrounding soft tissue and cortical shell. This study proposes a new method to predict the bone strength of proximal femur specimens from quantitative multi-detector computer tomography (MDCT) images. Texture analysis methods such as conventional statistical moments (BMD mean), Isotropic Minkowski Functionals (IMF) and Anisotropic Minkowski Functionals (AMF) are used to quantify BMD properties of the trabecular bone micro-architecture. Combinations of these extracted features are then used to predict the biomechanical strength of the femur specimens using sophisticated machine learning techniques such as multiregression (MultiReg) and support vector regression with linear kernel (SVRlin). The prediction performance achieved with these feature sets is compared to the standard approach that uses the mean BMD of the specimens and multiregression models using root mean square error (RMSE).
翻訳日:2022-12-17 10:04:02 公開日:2020-04-02
# 胸部x線データを用いた生成型逆境ネットワークと微調整型深層学習モデルによるcovid-19関連肺炎の検出

Detection of Coronavirus (COVID-19) Associated Pneumonia based on Generative Adversarial Networks and a Fine-Tuned Deep Transfer Learning Model using Chest X-ray Dataset ( http://arxiv.org/abs/2004.01184v1 )

ライセンス: Link先を確認
Nour Eldeen M. Khalifa, Mohamed Hamed N. Taha, Aboul Ella Hassanien, Sally Elghamrawy(参考訳) 世界保健機関(WHO)によると、新型コロナウイルスは壊滅的なウイルスの1つ。 このウイルスは、ヒトの肺の気嚢を炎症させる感染症である肺炎を引き起こす。 これらの炎症を検出する方法の1つは、胸にX線を用いることである。 本稿では, 限られたデータセットに対して, 微調整された深層伝達学習を伴うgan(generative adversarial networks)に基づく肺炎胸部x線検出法を提案する。 GANの使用は、提案されたモデルの堅牢性に肯定的な影響を与え、オーバーフィッティング問題に免疫を与え、データセットからより多くの画像を生成するのに役立つ。 この研究で使用されるデータセットは、正常と肺炎の2つのカテゴリを持つ5863のX線画像で構成されている。 本研究は、データトレーニングにデータセットの10%しか使用せず、GANを用いて90%の画像を生成し、提案モデルの効率性を証明する。 胸部X線から肺炎を検出するための深層移行学習モデルとして,AlexNet,GoogLeNet,Squeeznet,Resnet18が選択された。 これらのモデルはそのアーキテクチャ上の少数のレイヤに基づいて選択され、モデルの複雑さと消費されるメモリと時間の削減を反映する。 GANと深部移動モデルの組み合わせにより, 精度測定による効率性が確認された。 この研究は、Resnet18が精度測定による最も適切な深度転送モデルであり、GANを画像増幅器として使用しながら、精度、リコール、F1スコアなどの他のパフォーマンス指標で99%を達成したと結論付けている。 最後に、研究の最後に同じデータセットを使用した関連研究との比較結果を行ったが、この研究はオリジナルのデータセットの10%しか使用していなかった。 提案した作業は,テスト精度において,関連する作業よりも優れた結果を得た。

The COVID-19 coronavirus is one of the devastating viruses according to the world health organization. This novel virus leads to pneumonia, which is an infection that inflames the lungs' air sacs of a human. One of the methods to detect those inflames is by using x-rays for the chest. In this paper, a pneumonia chest x-ray detection based on generative adversarial networks (GAN) with a fine-tuned deep transfer learning for a limited dataset will be presented. The use of GAN positively affects the proposed model robustness and made it immune to the overfitting problem and helps in generating more images from the dataset. The dataset used in this research consists of 5863 X-ray images with two categories: Normal and Pneumonia. This research uses only 10% of the dataset for training data and generates 90% of images using GAN to prove the efficiency of the proposed model. Through the paper, AlexNet, GoogLeNet, Squeeznet, and Resnet18 are selected as deep transfer learning models to detect the pneumonia from chest x-rays. Those models are selected based on their small number of layers on their architectures, which will reflect in reducing the complexity of the models and the consumed memory and time. Using a combination of GAN and deep transfer models proved it is efficiency according to testing accuracy measurement. The research concludes that the Resnet18 is the most appropriate deep transfer model according to testing accuracy measurement and achieved 99% with the other performance metrics such as precision, recall, and F1 score while using GAN as an image augmenter. Finally, a comparison result was carried out at the end of the research with related work which used the same dataset except that this research used only 10% of original dataset. The presented work achieved a superior result than the related work in terms of testing accuracy.
翻訳日:2022-12-17 10:03:17 公開日:2020-04-02
# 車載ロボットを用いたイベントカメラの強化学習の探索

Exploration of Reinforcement Learning for Event Camera using Car-like Robots ( http://arxiv.org/abs/2004.00801v1 )

ライセンス: Link先を確認
Riku Arakawa and Shintaro Shiba(参考訳) イベントカメラを備えたロボットのための最初の強化学習アプリケーションを実演する。 イベントカメラのレイテンシがかなり低いため、標準的なカメラを用いた既存の視覚ベースの強化学習アプリケーションと比較して、ロボットの制御をはるかに高速に行うことができる。 強化学習のためのイベントストリームを処理するために,イメージライクな特徴を導入し,高速衝突回避と障害物追跡という2つのタスクでシミュレーターでエージェントを訓練する可能性を示した。 最後に,実世界でイベントカメラを備えたロボットをセットアップし,シミュレータで訓練したエージェントを転送し,ランダムに投げられた物体を素早く回避することに成功した。 イベントカメラを強化学習に組み込むことで、エンドツーエンドの学習アプローチを通じて、自動運転車やドローンなど、swiftコントロールを必要とするさまざまなロボットアプリケーションへの新たな可能性を開く。

We demonstrate the first reinforcement-learning application for robots equipped with an event camera. Because of the considerably lower latency of the event camera, it is possible to achieve much faster control of robots compared with the existing vision-based reinforcement-learning applications using standard cameras. To handle a stream of events for reinforcement learning, we introduced an image-like feature and demonstrated the feasibility of training an agent in a simulator for two tasks: fast collision avoidance and obstacle tracking. Finally, we set up a robot with an event camera in the real world and then transferred the agent trained in the simulator, resulting in successful fast avoidance of randomly thrown objects. Incorporating event camera into reinforcement learning opens new possibilities for various robotics applications that require swift control, such as autonomous vehicles and drones, through end-to-end learning approaches.
翻訳日:2022-12-17 09:56:36 公開日:2020-04-02
# 機械倫理危機への対処 : 教育的アプローチ

Combating The Machine Ethics Crisis: An Educational Approach ( http://arxiv.org/abs/2004.00817v1 )

ライセンス: Link先を確認
Tai Vu(参考訳) 近年、膨大なデータセットが利用可能になり、計算能力が向上し、最先端の機械学習アルゴリズムが誕生した。 しかし、この傾向は倫理的な問題に関連する懸念の高まりを引き起こしている。 このような現象に応えて,人工知能教室における倫理と計算機科学教材を組み合わせた実現可能なソリューションを提案する。 さらに,この統合アプローチの必要性と有効性について,いくつかの議論と証拠を提示した。

In recent years, the availability of massive data sets and improved computing power have driven the advent of cutting-edge machine learning algorithms. However, this trend has triggered growing concerns associated with its ethical issues. In response to such a phenomenon, this study proposes a feasible solution that combines ethics and computer science materials in artificial intelligent classrooms. In addition, the paper presents several arguments and evidence in favor of the necessity and effectiveness of this integrated approach.
翻訳日:2022-12-17 09:56:18 公開日:2020-04-02
# 安全なセットへの投影による安全な強化学習:最適性を達成するには?

Safe Reinforcement Learning via Projection on a Safe Set: How to Achieve Optimality? ( http://arxiv.org/abs/2004.00915v1 )

ライセンス: Link先を確認
Sebastien Gros, Mario Zanon, Alberto Bemporad(参考訳) すべての成功に対して、強化学習(RL)は、学習方針のクローズループ動作に関する正式な保証の提供に苦慮している。 とりわけ、安全クリティカルシステムに対するRLの安全性を保証することは、非常に活発な研究課題である。 最近のコントリビューションでは、学習ポリシーによって提供される入力を安全なセットに投影し、システムの安全性が損なわれないようにすることを提案している。 残念ながら、この操作が学習プロセスを混乱させることなく実行できるかどうかは不明だ。 この論文はこの問題に対処する。 この問題は、$q$-learningとポリシーグラデーションのテクニックの文脈で分析される。 提案手法は概して$Q$-learningの文脈で破壊的であるが、単純な代替手段ではこの問題を解決し、一方、ポリシー勾配が不偏であることを確実にするために、ポリシー勾配法の文脈では単純な修正が使用できる。 提案手法はロバストなmpc技術に基づく安全投射に拡張される。

For all its successes, Reinforcement Learning (RL) still struggles to deliver formal guarantees on the closed-loop behavior of the learned policy. Among other things, guaranteeing the safety of RL with respect to safety-critical systems is a very active research topic. Some recent contributions propose to rely on projections of the inputs delivered by the learned policy into a safe set, ensuring that the system safety is never jeopardized. Unfortunately, it is unclear whether this operation can be performed without disrupting the learning process. This paper addresses this issue. The problem is analysed in the context of $Q$-learning and policy gradient techniques. We show that the projection approach is generally disruptive in the context of $Q$-learning though a simple alternative solves the issue, while simple corrections can be used in the context of policy gradient methods in order to ensure that the policy gradients are unbiased. The proposed results extend to safe projections based on robust MPC techniques.
翻訳日:2022-12-17 09:56:07 公開日:2020-04-02
# 干渉下における動的治療規則の一般同定

General Identification of Dynamic Treatment Regimes Under Interference ( http://arxiv.org/abs/2004.01218v1 )

ライセンス: Link先を確認
Eli Sherman, David Arbour, Ilya Shpitser(参考訳) 多くの応用分野において、研究者は関心の結果を最適化するために、単位レベルの特性に対する治療の調整に関心がある。 治療方針の特定と推定の方法は、動的治療体制の文献の主題である。 別々に、多くの設定において、データが独立であり、同一に分散されているという仮定は、オブジェクト間の依存のために保持されない。 被験者の結果が隣人の露出に依存する現象は干渉として知られている。 これらの領域は、無数の現実世界の設定で交わる。 本稿では,干渉が存在する場合に最適な治療方針を特定することの問題点について考察する。 干渉の一般的な表現(Lauritzen-Wermuth-Freydenburg chain graphs (Lauritzen and Richardson, 2002))を用いて、干渉下での様々な政策介入を形式化し、既存の識別理論を拡張する(Tian, 2008; Sherman and Shpitser, 2018)。 最後に,シミュレーション研究において,介入下での政策最大化の有効性を示す。

In many applied fields, researchers are often interested in tailoring treatments to unit-level characteristics in order to optimize an outcome of interest. Methods for identifying and estimating treatment policies are the subject of the dynamic treatment regime literature. Separately, in many settings the assumption that data are independent and identically distributed does not hold due to inter-subject dependence. The phenomenon where a subject's outcome is dependent on his neighbor's exposure is known as interference. These areas intersect in myriad real-world settings. In this paper we consider the problem of identifying optimal treatment policies in the presence of interference. Using a general representation of interference, via Lauritzen-Wermuth-Freydenburg chain graphs (Lauritzen and Richardson, 2002), we formalize a variety of policy interventions under interference and extend existing identification theory (Tian, 2008; Sherman and Shpitser, 2018). Finally, we illustrate the efficacy of policy maximization under interference in a simulation study.
翻訳日:2022-12-17 09:55:29 公開日:2020-04-02
# 自動化で信頼する: アクティブラーニングシステムにおける不確実性の役割の調査

In Automation We Trust: Investigating the Role of Uncertainty in Active Learning Systems ( http://arxiv.org/abs/2004.00762v1 )

ライセンス: Link先を確認
Michael L. Iuzzolino, Tetsumichi Umada, Nisar R. Ahmed, and Danielle A. Szafir(参考訳) 分類の不確実性可視化と異なるアクティブラーニング(AL)クエリポリシーが自動分類システムにおけるアナリスト信頼にどのように影響するかを検討する。 ALの現在の標準方針は、分類器が最も不確実性が高いデータポイントのラベルを精査するために、オラクル(例えばアナリスト)に問い合わせることである。 これは、最大情報ゲインをもたらす自動化システムにとって最適なポリシーである。 しかしながら、モデル中心のポリシーは、この不確実性がシステムのヒューマンコンポーネントに与える影響や、人間がトレーニング後のシステムと相互作用する一連の方法を無視している。 本稿では、ALクエリポリシーと可視化が、画像データの自動分類における信頼度にどのように影響するかを実証的に評価する。 我々は、クエリポリシーが、画像分類システムに対するアナリストの信頼に大きな影響を与えることを見出し、これらの結果を用いて、alトレーニングフェーズで使われるoracleのクエリポリシーと視覚化のセットを提案し、分析者の分類の信頼に影響を与える可能性がある。

We investigate how different active learning (AL) query policies coupled with classification uncertainty visualizations affect analyst trust in automated classification systems. A current standard policy for AL is to query the oracle (e.g., the analyst) to refine labels for datapoints where the classifier has the highest uncertainty. This is an optimal policy for the automation system as it yields maximal information gain. However, model-centric policies neglect the effects of this uncertainty on the human component of the system and the consequent manner in which the human will interact with the system post-training. In this paper, we present an empirical study evaluating how AL query policies and visualizations lending transparency to classification influence trust in automated classification of image data. We found that query policy significantly influences an analyst's trust in an image classification system, and we use these results to propose a set of oracle query policies and visualizations for use during AL training phases that can influence analyst trust in classification.
翻訳日:2022-12-17 09:54:48 公開日:2020-04-02
# ランダム化カーネルマルチビュー判別分析

Randomized Kernel Multi-view Discriminant Analysis ( http://arxiv.org/abs/2004.01143v1 )

ライセンス: Link先を確認
Xiaoyun Li, Jie Gui, Ping Li(参考訳) 多くの人工知能やコンピュータビジョンシステムでは、異なる視点や多様なセンサーで同じ物体を観察することができ、異なる、あるいは異質な視点から物体を認識することが困難になる。 MvDA(Multi-view discriminant analysis)は、複数のビューからオブジェクト認識のための複数のビュー固有の線形射影を非ペアワイズに学習することにより、識別可能な共通部分空間を求める、効果的なマルチビューサブスペース学習法である。 本稿では,マルチビュー判別分析のカーネルバージョンであるkernel multi-view discriminant analysis(kmvda)を提案する。 また,カーネル法でよく知られた計算ボトルネックを克服するために,ランダムフーリエ特徴(rff)を用いてkcvdaのガウス核を近似し,大規模学習を行う性能について検討した。 この近似の安定性に関する理論的解析を開発した。 また,提案手法の有効性を示すために,複数の一般的なマルチビューデータセットの実験を行った。

In many artificial intelligence and computer vision systems, the same object can be observed at distinct viewpoints or by diverse sensors, which raises the challenges for recognizing objects from different, even heterogeneous views. Multi-view discriminant analysis (MvDA) is an effective multi-view subspace learning method, which finds a discriminant common subspace by jointly learning multiple view-specific linear projections for object recognition from multiple views, in a non-pairwise way. In this paper, we propose the kernel version of multi-view discriminant analysis, called kernel multi-view discriminant analysis (KMvDA). To overcome the well-known computational bottleneck of kernel methods, we also study the performance of using random Fourier features (RFF) to approximate Gaussian kernels in KMvDA, for large scale learning. Theoretical analysis on stability of this approximation is developed. We also conduct experiments on several popular multi-view datasets to illustrate the effectiveness of our proposed strategy.
翻訳日:2022-12-17 09:48:01 公開日:2020-04-02
# スマートシャープスビンと機械学習による注射性薬剤付着の予測

Predicting Injectable Medication Adherence via a Smart Sharps Bin and Machine Learning ( http://arxiv.org/abs/2004.01144v1 )

ライセンス: Link先を確認
Yingqi Gu, Akshay Zalkikar, Lara Kelly, Kieran Daly, Tomas E. Ward(参考訳) 慢性疾患を患っており、慢性治療を必要とする人の50%以上に影響を及ぼす。 非一貫性は健康リスクを悪化させ、治療コストを大幅に増加させる。 これらの課題に対処するために,患者の定着度を予測することの重要性が認識されている。 言い換えれば、非アドヒレントである可能性が最も高い患者にリソースを優先することで、現在の医療システムの介入の効率を向上させることが重要である。 本研究の目的は, 患者個人の行動を予測することであり, 次の治療機会の時間帯に薬剤を服用することである。 私たちは多くの機械学習モデルを活用してこれを行っています。 特に、HealthBeacon Ltd.によって発明されたスマートシャープスビン(Smart Sharps Bin)というコネクテッドIoTデバイスの使用を実演する。 家庭環境における患者の注射処理を監視し,追跡すること。 これらの装置から収集した膨大なデータを用いて,5つの機械学習モデル,すなわち,5,915個のHealthBeaconユニットから3年間に収集した165,223個の歴史的な注入処理記録からなる大規模データセットを用いて,ランダムフォレスト,XGBoost,グラディエントブースティング,マルチレイヤパーセプションのトレーニングと評価を行った。 テスト作業は、モデルトレーニングが完了した後、スマートデバイスが生成したリアルタイムデータ、すなわち真の将来のデータで実施された。 提案した機械学習手法は、受信器動作特性曲線(ROC AUC)0.86の領域を示す非常に優れた予測性能を示した。

Medication non-adherence is a widespread problem affecting over 50% of people who have chronic illness and need chronic treatment. Non-adherence exacerbates health risks and drives significant increases in treatment costs. In order to address these challenges, the importance of predicting patients' adherence has been recognised. In other words, it is important to improve the efficiency of interventions of the current healthcare system by prioritizing resources to the patients who are most likely to be non-adherent. Our objective in this work is to make predictions regarding individual patients' behaviour in terms of taking their medication on time during their next scheduled medication opportunity. We do this by leveraging a number of machine learning models. In particular, we demonstrate the use of a connected IoT device; a "Smart Sharps Bin", invented by HealthBeacon Ltd.; to monitor and track injection disposal of patients in their home environment. Using extensive data collected from these devices, five machine learning models, namely Extra Trees Classifier, Random Forest, XGBoost, Gradient Boosting and Multilayer Perception were trained and evaluated on a large dataset comprising 165,223 historic injection disposal records collected from 5,915 HealthBeacon units over the course of 3 years. The testing work was conducted on real-time data generated by the smart device over a time period after the model training was complete, i.e. true future data. The proposed machine learning approach demonstrated very good predictive performance exhibiting an Area Under the Receiver Operating Characteristic Curve (ROC AUC) of 0.86.
翻訳日:2022-12-17 09:47:44 公開日:2020-04-02
# IVFS:高次元トポロジー保存のための簡易かつ効率的な特徴選択

IVFS: Simple and Efficient Feature Selection for High Dimensional Topology Preservation ( http://arxiv.org/abs/2004.01299v1 )

ライセンス: Link先を確認
Xiaoyun Li, Chengxi Wu, Ping Li(参考訳) 特徴選択は高次元データを扱う重要なツールである。 教師なしの場合、多くの一般的なアルゴリズムは元のデータの構造を維持することを目的としている。 本稿では,新しい視点, トポロジ保存という, 計算トポロジの文脈から, 永続的な図式で表される, サンプル類似性保存を強化するための, 単純かつ効果的な特徴選択アルゴリズムを提案する。 この手法は、ランダムサブセット法にインスパイアされたIVFSと呼ばれる統合された特徴選択フレームワークに基づいて設計されている。 このスキームは柔軟であり、問題が解析的に難解な場合に対処できる。 提案手法は,全データの位相パターンと同様に対距離を良好に保存することができる。 本研究では,提案手法の大規模データセットへの効率的な実装を支援する,鋭いサブサンプリング率で十分な性能を提供できることを示す。 広範な実験により,提案手法の有効性が検証された。

Feature selection is an important tool to deal with high dimensional data. In unsupervised case, many popular algorithms aim at maintaining the structure of the original data. In this paper, we propose a simple and effective feature selection algorithm to enhance sample similarity preservation through a new perspective, topology preservation, which is represented by persistent diagrams from the context of computational topology. This method is designed upon a unified feature selection framework called IVFS, which is inspired by random subset method. The scheme is flexible and can handle cases where the problem is analytically intractable. The proposed algorithm is able to well preserve the pairwise distances, as well as topological patterns, of the full data. We demonstrate that our algorithm can provide satisfactory performance under a sharp sub-sampling rate, which supports efficient implementation of our proposed method to large scale datasets. Extensive experiments validate the effectiveness of the proposed feature selection scheme.
翻訳日:2022-12-17 09:47:02 公開日:2020-04-02
# オンラインマルチタスク学習のための分散Primal-Dual Optimization

Distributed Primal-Dual Optimization for Online Multi-Task Learning ( http://arxiv.org/abs/2004.01305v1 )

ライセンス: Link先を確認
Peng Yang and Ping Li(参考訳) 従来のオンラインマルチタスク学習アルゴリズムには2つの限界がある。 1) センタマシンにシーケンシャルデータの高速配信によって生じる重厚な通信 2) タスク関連性を構築するための高価なランタイム複雑さ。 そこで本稿では,複数のタスクが地理的に異なる場所に配置され,あるタスクが他のタスクと同期して関連するタスクの知識を活用できるような環境について検討する。 具体的には、対数学習におけるタスク固有のノイズをキャプチャするだけでなく、実行時効率でプロジェクションフリーな更新を行う適応原始双対アルゴリズムを提案する。 さらに,省エネタスクや帯域幅制約タスクが更新を延期できるため,分散周期接続タスクにも適している。 理論的な結果は,分散アルゴリズムの収束保証を最適後悔で示している。 実験結果から,提案モデルが実世界の様々なデータセットに対して極めて有効であることが確認された。

Conventional online multi-task learning algorithms suffer from two critical limitations: 1) Heavy communication caused by delivering high velocity of sequential data to a central machine; 2) Expensive runtime complexity for building task relatedness. To address these issues, in this paper we consider a setting where multiple tasks are geographically located in different places, where one task can synchronize data with others to leverage knowledge of related tasks. Specifically, we propose an adaptive primal-dual algorithm, which not only captures task-specific noise in adversarial learning but also carries out a projection-free update with runtime efficiency. Moreover, our model is well-suited to decentralized periodic-connected tasks as it allows the energy-starved or bandwidth-constraint tasks to postpone the update. Theoretical results demonstrate the convergence guarantee of our distributed algorithm with an optimal regret. Empirical results confirm that the proposed model is highly effective on various real-world datasets.
翻訳日:2022-12-17 09:46:47 公開日:2020-04-02
# 訓練用DNNにおける制御可能な直交化

Controllable Orthogonalization in Training DNNs ( http://arxiv.org/abs/2004.00917v1 )

ライセンス: Link先を確認
Lei Huang, Li Liu, Fan Zhu, Diwen Wan, Zehuan Yuan, Bo Li, Ling Shao(参考訳) 直交性は、ジャコビアンの1に近い特異値をすべて維持でき、表現の冗長性を低減できるため、ディープニューラルネットワーク(dnn)のトレーニングに広く使われている。 本稿では,ニュートンの反復(ONI)を用いた計算効率が高く,数値的に安定な直交化法を提案し,DNNの層次直交重み行列を学習する。 ONI は、重み行列の特異値を 1 へ反復的に拡張することによって作用する。 この性質により、重み行列の直交性はその反復数によって制御できる。 本手法は,最適化効果と表現容量削減の最適なトレードオフを提供するために,直交性を効果的に制御することにより,画像分類ネットワークの性能を向上させる。 また,oniは,スペクトル正規化 (sn) と同様のネットワークのリプシッツ連続性を維持し,制御可能な直交性を提供することで,snよりも優れることを示す。

Orthogonality is widely used for training deep neural networks (DNNs) due to its ability to maintain all singular values of the Jacobian close to 1 and reduce redundancy in representation. This paper proposes a computationally efficient and numerically stable orthogonalization method using Newton's iteration (ONI), to learn a layer-wise orthogonal weight matrix in DNNs. ONI works by iteratively stretching the singular values of a weight matrix towards 1. This property enables it to control the orthogonality of a weight matrix by its number of iterations. We show that our method improves the performance of image classification networks by effectively controlling the orthogonality to provide an optimal tradeoff between optimization benefits and representational capacity reduction. We also show that ONI stabilizes the training of generative adversarial networks (GANs) by maintaining the Lipschitz continuity of a network, similar to spectral normalization (SN), and further outperforms SN by providing controllable orthogonality.
翻訳日:2022-12-17 09:45:58 公開日:2020-04-02
# 複数の歩行者属性認識のための注意に基づくディープラーニングモデル

An Attention-Based Deep Learning Model for Multiple Pedestrian Attributes Recognition ( http://arxiv.org/abs/2004.01110v1 )

ライセンス: Link先を確認
Ehsan Yaghoubi, Diana Borza, Jo\~ao Neves, Aruna Kumar, Hugo Proen\c{c}a(参考訳) 監視映像における歩行者の自動キャラクタリゼーションは難しい課題であり、特にデータがバラバラな背景で非常に多様であり、被験者は複数のポーズで、部分的な閉塞を伴う様々な距離から撮影される。 現状の成果がまだ不十分であることに気付き、本論文は、この問題に対する新しい解決策を2倍のコントリビューションで提供する。 1) 異なる全体属性間の強い意味的相関を考慮し, より包括的特徴表現を抽出するために, 要素ワイド乗算層を用いたマルチタスクディープモデルを提案する。 実際には、このレイヤは無関係なバックグラウンド特徴を取り除くフィルタとして機能し、複雑で散らばったデータを扱うことが特に重要である。 2) 各タスク(属性の種類)の寄与を相対化するだけでなく,複数属性の推論設定における性能向上にも重要である損失関数に重み付きサム項を導入する。 実験は,2つのよく知られたデータセット (RAP と PETA) を用いて実施し,提案手法の最先端性に着目した。 コードはhttps://github.com/Ehsan-Yaghoubi/MAN-PAR-で公開されている。

The automatic characterization of pedestrians in surveillance footage is a tough challenge, particularly when the data is extremely diverse with cluttered backgrounds, and subjects are captured from varying distances, under multiple poses, with partial occlusion. Having observed that the state-of-the-art performance is still unsatisfactory, this paper provides a novel solution to the problem, with two-fold contributions: 1) considering the strong semantic correlation between the different full-body attributes, we propose a multi-task deep model that uses an element-wise multiplication layer to extract more comprehensive feature representations. In practice, this layer serves as a filter to remove irrelevant background features, and is particularly important to handle complex, cluttered data; and 2) we introduce a weighted-sum term to the loss function that not only relativizes the contribution of each task (kind of attributed) but also is crucial for performance improvement in multiple-attribute inference settings. Our experiments were performed on two well-known datasets (RAP and PETA) and point for the superiority of the proposed method with respect to the state-of-the-art. The code is available at https://github.com/Ehsan-Yaghoubi/MAN-PAR-.
翻訳日:2022-12-17 09:45:40 公開日:2020-04-02
# 乱れ学習のための変分オートエンコーダ

Guided Variational Autoencoder for Disentanglement Learning ( http://arxiv.org/abs/2004.01255v1 )

ライセンス: Link先を確認
Zheng Ding, Yifan Xu, Weijian Xu, Gaurav Parmar, Yang Yang, Max Welling, Zhuowen Tu(参考訳) 本稿では,潜在表現非絡み合い学習を行うことで,制御可能な生成モデルを学習できるアルゴリズム,Guided-VAEを提案する。 学習目的は、メインのバックボーンアーキテクチャを変更することなく、VAEの潜伏エンコーディング/埋め込みに信号を提供することにより達成され、VAEの望ましい特性を保持する。 我々は,誘導型vaeにおける教師なし戦略と教師なし戦略を設計し,バニラvae上でのモデリングと制御能力の強化を観測する。 教師なし戦略では,潜時幾何学変換と主成分を学習する軽量デコーダを導入することでVAE学習を指導する。 Guided-VAEは、汎用的な表現学習タスクの透明性とシンプルさ、および非絡み合い学習を享受している。 表現学習, 合成・サンプリングの改善, 分類の歪みの改善, メタラーニングにおける分類誤差の低減など, 数多くの実験が報告されている。

We propose an algorithm, guided variational autoencoder (Guided-VAE), that is able to learn a controllable generative model by performing latent representation disentanglement learning. The learning objective is achieved by providing signals to the latent encoding/embedding in VAE without changing its main backbone architecture, hence retaining the desirable properties of the VAE. We design an unsupervised strategy and a supervised strategy in Guided-VAE and observe enhanced modeling and controlling capability over the vanilla VAE. In the unsupervised strategy, we guide the VAE learning by introducing a lightweight decoder that learns latent geometric transformation and principal components; in the supervised strategy, we use an adversarial excitation and inhibition mechanism to encourage the disentanglement of the latent variables. Guided-VAE enjoys its transparency and simplicity for the general representation learning task, as well as disentanglement learning. On a number of experiments for representation learning, improved synthesis/sampling, better disentanglement for classification, and reduced classification errors in meta-learning have been observed.
翻訳日:2022-12-17 09:45:20 公開日:2020-04-02
# sonos不揮発性メモリアレイにおけるデバイスアウェア推論演算

Device-aware inference operations in SONOS nonvolatile memory arrays ( http://arxiv.org/abs/2004.00802v1 )

ライセンス: Link先を確認
Christopher H. Bennett, T. Patrick Xiao, Ryan Dellana, Vineet Agrawal, Ben Feinberg, Venkatraman Prabhakar, Krishnaswamy Ramkumar, Long Hinh, Swatilekha Saha, Vijay Raghavan, Ramesh Chettuvetty, Sapan Agarwal, and Matthew J. Marinella(参考訳) 非揮発性メモリアレイは、エッジ推論のためのトレーニング済みニューラルネットワークモデルをデプロイすることができる。 しかし、これらのシステムはデバイスレベルのノイズと保持の問題によって影響を受ける。 本稿では、これらの影響による損傷を調査し、緩和戦略を導入し、SONOS(Silicon-Oxide-Nitride-Oxide-Silicon)デバイスの製造配列での使用を実証する。 MNIST, ファッション-MNIST, CIFAR-10タスクにおいて, 本手法はシナプス雑音やドリフトに対するレジリエンスを高める。 また,5~8ビットのADCで高い性能が得られることを示す。

Non-volatile memory arrays can deploy pre-trained neural network models for edge inference. However, these systems are affected by device-level noise and retention issues. Here, we examine damage caused by these effects, introduce a mitigation strategy, and demonstrate its use in fabricated array of SONOS (Silicon-Oxide-Nitride-Oxide-Silicon) devices. On MNIST, fashion-MNIST, and CIFAR-10 tasks, our approach increases resilience to synaptic noise and drift. We also show strong performance can be realized with ADCs of 5-8 bits precision.
翻訳日:2022-12-17 09:45:01 公開日:2020-04-02
# R3: 推論プロセスを必要とする要約ベンチマーク

R3: A Reading Comprehension Benchmark Requiring Reasoning Processes ( http://arxiv.org/abs/2004.01251v1 )

ライセンス: Link先を確認
Ran Wang, Kun Tao, Dingjie Song, Zhilong Zhang, Xiao Ma, Xi'ao Su, Xinyu Dai(参考訳) 既存の質問応答システムは、明示的な推論プロセスなしでしか答えを予測できないため、その説明可能性が損なわれ、自然言語に対する理解と推論の能力が過大評価される。 そこで本研究では,最終的な解答と推論過程を提供するためにモデルを必要とする,新しい読解課題を提案する。 この目的のために,非構造化テキスト,すなわちテキスト推論意味表現(TRMR)を論じる形式論を導入する。 TRMRは3つのフレーズから構成されており、読みやすい質問に答える推論過程を特徴付けるのに十分である。 我々はTRMRのアノテーションを促進するためのアノテーションプラットフォームを開発し、R3データセット、 \textbf{R}eading comprehension benchmark \textbf{R}equiring \textbf{R}easoning processをリリースする。 R3には60K以上の質問応答対とそのTRMRが含まれている。 私たちのデータセットは、下記のとおりです。

Existing question answering systems can only predict answers without explicit reasoning processes, which hinder their explainability and make us overestimate their ability of understanding and reasoning over natural language. In this work, we propose a novel task of reading comprehension, in which a model is required to provide final answers and reasoning processes. To this end, we introduce a formalism for reasoning over unstructured text, namely Text Reasoning Meaning Representation (TRMR). TRMR consists of three phrases, which is expressive enough to characterize the reasoning process to answer reading comprehension questions. We develop an annotation platform to facilitate TRMR's annotation, and release the R3 dataset, a \textbf{R}eading comprehension benchmark \textbf{R}equiring \textbf{R}easoning processes. R3 contains over 60K pairs of question-answer pairs and their TRMRs. Our dataset is available at: \url{http://anonymous}.
翻訳日:2022-12-17 09:38:41 公開日:2020-04-02
# ベイズオンライン推論のためのニューロン配列モデル

Neuronal Sequence Models for Bayesian Online Inference ( http://arxiv.org/abs/2004.00930v1 )

ライセンス: Link先を確認
Sascha Fr\"olich, Dimitrije Markovi\'c, and Stefan J. Kiebel(参考訳) 逐次的なニューロン活動は、脳の幅広いプロセスの基礎となる。 ニューロン配列の神経科学的証拠は、知覚、運動制御、スピーチ、空間ナビゲーション、記憶といった領域で報告されている。 その結果、異なる力学原理がシーケンス生成機構として提案されている。 ベイジアン脳仮説のような計算的概念と予測的コーディングを組み合わせることで、脳内の予測過程と推論過程がシーケンシャルな構造を維持する生成過程に基づいているという興味深い可能性が得られる。 進行中のシーケンスに関する確率論的推論は、神経科学データの解析と、認識と運動制御における幅広い問題の両方に有用な計算モデルであるが、その研究は比較的少なく、神経科学の様々な分野に分散している。 本稿では,ニューロンの配列に関する重要な知見を概観し,感覚運動の処理と認識のモデルとしての配列上のオンライン推論の概念と関連づける。 シーケンス上の確率的推論の表現として逐次的ニューロン活動を記述することは、脳機能の新たな展望につながる可能性がある。 重要なのは、音声と人間の動作のリアルタイム認識における課題に対処するために、シーケンスの確率的推論の重要概念を機械学習に変換することだ。

Sequential neuronal activity underlies a wide range of processes in the brain. Neuroscientific evidence for neuronal sequences has been reported in domains as diverse as perception, motor control, speech, spatial navigation and memory. Consequently, different dynamical principles have been proposed as possible sequence-generating mechanisms. Combining experimental findings with computational concepts like the Bayesian brain hypothesis and predictive coding leads to the interesting possibility that predictive and inferential processes in the brain are grounded on generative processes which maintain a sequential structure. While probabilistic inference about ongoing sequences is a useful computational model for both the analysis of neuroscientific data and a wide range of problems in artificial recognition and motor control, research on the subject is relatively scarce and distributed over different fields in the neurosciences. Here we review key findings about neuronal sequences and relate these to the concept of online inference on sequences as a model of sensory-motor processing and recognition. We propose that describing sequential neuronal activity as an expression of probabilistic inference over sequences may lead to novel perspectives on brain function. Importantly, it is promising to translate the key idea of probabilistic inference on sequences to machine learning, in order to address challenges in the real-time recognition of speech and human motion.
翻訳日:2022-12-17 09:38:23 公開日:2020-04-02
# 風力タービン出力予測のためのハイブリッドニューロ進化法

Hybrid Neuro-Evolutionary Method for Predicting Wind Turbine Power Output ( http://arxiv.org/abs/2004.12794v1 )

ライセンス: Link先を確認
Mehdi Neshat, Meysam Majidi Nezhad, Ehsan Abbasnejad, Daniele Groppi, Azim Heydari, Lina Bertling Tjernberg, Davide Astiaso Garcia, Bradley Alexander and Markus Wagner(参考訳) 安定発電のための風力発電所の計画, 計画, 制御には, 信頼性の高い風力発電所の発電予測が不可欠である。 近年,再生可能エネルギーを含む幅広い分野において機械学習(ml)手法が適用されている。 しかし、風力発電所における電力予測の困難さから、現在のモデルは産業が必要とする精度をはるかに下回っている。 本稿では,ハイブリッド型ニューロ進化アルゴリズムを用いて,風力発電所における発電量の正確な予測を行う複合ML手法をデプロイする。 我々は,スウェーデンのオンショア風力発電所から出力される電力を推定するために,SCADAシステムにおける履歴データを入力として利用する。 初期段階では、k-meansクラスタリング法とオートエンコーダを用いて、scada測定におけるノイズの検出とフィルタリングを行う。 次に,風向パターンが高度に非線形かつ多様であるという事前の知識から,超パラメータオプティマイザとしての自己適応微分進化(sade)アルゴリズムと,農場における風力タービンの電力曲線をモデル化するlong short-term memory(lstm)と呼ばれるリカレントニューラルネットワーク(rnn)を組み合わせる。 10分前と1時間前を含む2つの短時間予測地平線が実験で検討されている。 私たちは我々のアプローチが相手よりも優れていることを示す。

Reliable wind turbine power prediction is imperative to the planning, scheduling and control of wind energy farms for stable power production. In recent years Machine Learning (ML) methods have been successfully applied in a wide range of domains, including renewable energy. However, due to the challenging nature of power prediction in wind farms, current models are far short of the accuracy required by industry. In this paper, we deploy a composite ML approach--namely a hybrid neuro-evolutionary algorithm--for accurate forecasting of the power output in wind-turbine farms. We use historical data in the supervisory control and data acquisition (SCADA) systems as input to estimate the power output from an onshore wind farm in Sweden. At the beginning stage, the k-means clustering method and an Autoencoder are employed, respectively, to detect and filter noise in the SCADA measurements. Next, with the prior knowledge that the underlying wind patterns are highly non-linear and diverse, we combine a self-adaptive differential evolution (SaDE) algorithm as a hyper-parameter optimizer, and a recurrent neural network (RNN) called Long Short-term memory (LSTM) to model the power curve of a wind turbine in a farm. Two short time forecasting horizons, including ten-minutes ahead and one-hour ahead, are considered in our experiments. We show that our approach outperforms its counterparts.
翻訳日:2022-12-17 09:37:49 公開日:2020-04-02
# MCEN:料理レシピとディッシュイメージの相互ギャップを潜在変数モデルで埋める

MCEN: Bridging Cross-Modal Gap between Cooking Recipes and Dish Images with Latent Variable Model ( http://arxiv.org/abs/2004.01095v1 )

ライセンス: Link先を確認
Han Fu, Rui Wu, Chenghao Liu, Jianling Sun(参考訳) 近年、食生活と健康への懸念が高まり、食品コンピューティングは産業と研究コミュニティの両方から大きな注目を集めている。 この領域で最も人気のある研究トピックの1つは、健康指向の応用に大きな影響があるため、食品検索である。 本稿では,食品画像と調理レシピのクロスモーダル検索の課題に注目した。 画像とテキストを同じ埋め込み空間に投影することで、モダリティ不変表現を学ぶモダリティ整合埋め込みネットワーク(mcen)を提案する。 モーダリティ間の潜在的なアライメントを捉えるために、確率的潜在変数を組み込んで、テキスト的特徴と視覚的特徴の相互作用を明示的に活用する。 重要なこととして,本手法はトレーニング中のモード間のアライメントを学習するが,効率的な推論時間において異なるモーダルの埋め込みを独立に計算する。 MCENはベンチマークのRecipe1Mデータセットにおいて既存のアプローチよりも優れており、計算コストの低減を図っている。

Nowadays, driven by the increasing concern on diet and health, food computing has attracted enormous attention from both industry and research community. One of the most popular research topics in this domain is Food Retrieval, due to its profound influence on health-oriented applications. In this paper, we focus on the task of cross-modal retrieval between food images and cooking recipes. We present Modality-Consistent Embedding Network (MCEN) that learns modality-invariant representations by projecting images and texts to the same embedding space. To capture the latent alignments between modalities, we incorporate stochastic latent variables to explicitly exploit the interactions between textual and visual features. Importantly, our method learns the cross-modal alignments during training but computes embeddings of different modalities independently at inference time for the sake of efficiency. Extensive experimental results clearly demonstrate that the proposed MCEN outperforms all existing approaches on the benchmark Recipe1M dataset and requires less computational cost.
翻訳日:2022-12-17 09:37:28 公開日:2020-04-02
# sum-product networks: 調査

Sum-product networks: A survey ( http://arxiv.org/abs/2004.01167v1 )

ライセンス: Link先を確認
Iago Par\'is, Raquel S\'anchez-Cauce, Francisco Javier D\'iez(参考訳) sum-product network (spn) は根付き非循環有向グラフに基づく確率モデルであり、終端ノードは不定確率分布を表し、非終端ノードは凸結合(重み付き和)と確率関数の積を表す。 確率的グラフィカルモデル、特に複数のコンテキスト固有の非依存性を持つベイズネットワークと密接に関連している。 その主な利点は、データから抽出可能なモデルを構築する可能性、すなわちグラフ内のリンク数に比例した時間で複数の推論タスクを実行できるモデルである。 これらはニューラルネットワークにやや似ていて、画像処理や自然言語理解など、同様の問題に対処できる。 本稿では,その定義,データからの推論と学習のための主アルゴリズム,主なアプリケーション,ソフトウェアライブラリの簡単なレビュー,関連するモデルとの比較など,spnに関する調査を行う。

A sum-product network (SPN) is a probabilistic model, based on a rooted acyclic directed graph, in which terminal nodes represent univariate probability distributions and non-terminal nodes represent convex combinations (weighted sums) and products of probability functions. They are closely related to probabilistic graphical models, in particular to Bayesian networks with multiple context-specific independencies. Their main advantage is the possibility of building tractable models from data, i.e., models that can perform several inference tasks in time proportional to the number of links in the graph. They are somewhat similar to neural networks and can address the same kinds of problems, such as image processing and natural language understanding. This paper offers a survey of SPNs, including their definition, the main algorithms for inference and learning from data, the main applications, a brief review of software libraries, and a comparison with related models
翻訳日:2022-12-17 09:37:08 公開日:2020-04-02
# 平均報酬調整割引強化学習--実世界応用のためのほぼブラックウェル最適政策

Average Reward Adjusted Discounted Reinforcement Learning: Near-Blackwell-Optimal Policies for Real-World Applications ( http://arxiv.org/abs/2004.00857v1 )

ライセンス: Link先を確認
Manuel Schneckenreither(参考訳) 近年は強化学習が盛んになっているが、様々な運用研究問題への応用例が少なからず少ない。 強化学習はよく研究された動的プログラミング手法に基づいており、与えられたマルコフ決定プロセスのための最良の定常ポリシーを見つけることを目的としているが、対照的にモデル知識は必要ない。 このポリシーは、エージェントが解空間を探索している間に観察される連続状態(または状態-作用対)にのみ評価される。 本論文の貢献は多様体である。 まず、広く適用されている標準割引強化学習フレームワークに深い理論的洞察を与え、コストや利益などの非ゼロ報酬を永久に提供した場合に、これらのアルゴリズムが不適切である理由を理解する。 次に,近黒ウェル最適強化学習アルゴリズムを提案する。 従来の手法とは対照的に、ステップ毎の平均報酬を別々に評価し、異なるタイプの状態値の不正な組み合わせを防止する。 これにより、ディスカウントされた状態値のローラン級数展開は、この発展の基礎を形成し、2つのアプローチ間の接続を提供する。 最後に,M/M/1入力制御待ち行列システムを含む問題集合上で,本アルゴリズムの有効性を実証する。 標準割引強化学習とは対照的に、アルゴリズムはテストされたすべての問題に対する最適なポリシーを推測する。 この知見は、オペレーション研究領域では、これらの手法を我々の設定にうまく適用するために、機械学習テクニックを適応し、高度化する必要があるということである。

Although in recent years reinforcement learning has become very popular the number of successful applications to different kinds of operations research problems is rather scarce. Reinforcement learning is based on the well-studied dynamic programming technique and thus also aims at finding the best stationary policy for a given Markov Decision Process, but in contrast does not require any model knowledge. The policy is assessed solely on consecutive states (or state-action pairs), which are observed while an agent explores the solution space. The contributions of this paper are manifold. First we provide deep theoretical insights to the widely applied standard discounted reinforcement learning framework, which give rise to the understanding of why these algorithms are inappropriate when permanently provided with non-zero rewards, such as costs or profit. Second, we establish a novel near-Blackwell-optimal reinforcement learning algorithm. In contrary to former method it assesses the average reward per step separately and thus prevents the incautious combination of different types of state values. Thereby, the Laurent Series expansion of the discounted state values forms the foundation for this development and also provides the connection between the two approaches. Finally, we prove the viability of our algorithm on a challenging problem set, which includes a well-studied M/M/1 admission control queuing system. In contrast to standard discounted reinforcement learning our algorithm infers the optimal policy on all tested problems. The insights are that in the operations research domain machine learning techniques have to be adapted and advanced to successfully apply these methods in our settings.
翻訳日:2022-12-17 09:36:52 公開日:2020-04-02
# 予測帯域

Predictive Bandits ( http://arxiv.org/abs/2004.01141v1 )

ライセンス: Link先を確認
Simon Lindst{\aa}hl, Alexandre Proutiere, Andreas Johnsson(参考訳) 我々は,予測的バンディットと呼ばれる確率的バンディット問題の新たなクラスを紹介し,研究する。 各ラウンドで、意思決定者はまず、特定の武器の報酬に関する情報を集めるかどうか(このラウンドでの報酬を予測することができる)を決定する。 これらの測定は高価であり、ノイズによって破損する可能性がある。 次に意思決定者は、実際にラウンドでプレイされる腕を選択する。 予測バンディットは、無線通信システムにおけるチャネル選択問題に適用できるなど、多くの領域で応用できる。 本稿では,予測帯域に関する最初の理論的結果を提供し,意思決定者が1ラウンドあたりの最大1アームで測定できるシナリオに焦点を当てる。 これらの問題に対する漸近的なインスタンス固有の後悔の限界を導出し、後悔がこれらの基本的な限界に合致するアルゴリズムを開発する。 本稿では,数値実験によるアルゴリズムの性能について述べる。 特に,報奨予測を用いて得られるゲインに着目し,対応する測定結果における騒音の影響について検討する。

We introduce and study a new class of stochastic bandit problems, referred to as predictive bandits. In each round, the decision maker first decides whether to gather information about the rewards of particular arms (so that their rewards in this round can be predicted). These measurements are costly, and may be corrupted by noise. The decision maker then selects an arm to be actually played in the round. Predictive bandits find applications in many areas; e.g. they can be applied to channel selection problems in radio communication systems. In this paper, we provide the first theoretical results about predictive bandits, and focus on scenarios where the decision maker is allowed to measure at most one arm per round. We derive asymptotic instance-specific regret lower bounds for these problems, and develop algorithms whose regret match these fundamental limits. We illustrate the performance of our algorithms through numerical experiments. In particular, we highlight the gains that can be achieved by using reward predictions, and investigate the impact of the noise in the corresponding measurements.
翻訳日:2022-12-17 09:35:45 公開日:2020-04-02
# Gestalt: SQuAD2.0のスタック化アンサンブル

Gestalt: a Stacking Ensemble for SQuAD2.0 ( http://arxiv.org/abs/2004.07067v1 )

ライセンス: Link先を確認
Mohamed El-Geish(参考訳) 我々は,文脈段落の質問に対する正しい回答を見つけ出す,あるいは示さないことを示す深層学習システムを提案する。 我々の目標は、不均質なdistribute2.0モデルのアンサンブルを学習することであり、適切にブレンドすると、そのアンサンブルの最良のモデルよりも優れています。 albertとrobertaに基づく2つのモデルによるトップn予測を、予測から最適な回答を選択するためのマルチクラス分類タスクに組み合わせた、積み重ねアンサンブルを作成しました。 我々は様々なアンサンブル構成、入力表現、モデルアーキテクチャについて検討した。 評価のために,テストセットEMとF1のスコアについて検討した。我々のベストパフォーマンスアンサンブルではCNNベースのメタモデルが87.117と90.306であり,EMは0.55%,F1スコアは0.61%,ALBERTベースのモデルでは86.644,F1は89.760であった。

We propose a deep-learning system -- for the SQuAD2.0 task -- that finds, or indicates the lack of, a correct answer to a question in a context paragraph. Our goal is to learn an ensemble of heterogeneous SQuAD2.0 models that, when blended properly, outperforms the best model in the ensemble per se. We created a stacking ensemble that combines top-N predictions from two models, based on ALBERT and RoBERTa, into a multiclass classification task to pick the best answer out of their predictions. We explored various ensemble configurations, input representations, and model architectures. For evaluation, we examined test-set EM and F1 scores; our best-performing ensemble incorporated a CNN-based meta-model and scored 87.117 and 90.306, respectively -- a relative improvement of 0.55% for EM and 0.61% for F1 scores, compared to the baseline performance of the best model in the ensemble, an ALBERT-based model, at 86.644 for EM and 89.760 for F1.
翻訳日:2022-12-17 09:29:22 公開日:2020-04-02
# 言語認識における関連性とシーケンスモデリング

Towards Relevance and Sequence Modeling in Language Recognition ( http://arxiv.org/abs/2004.01221v1 )

ライセンス: Link先を確認
Bharat Padi, Anand Mohan and Sriram Ganapathy(参考訳) 雑音の存在下で同じ言語族に属する複数の方言を包含する自動言語識別(LID)の課題は難しい問題である。 これらのシナリオでは、言語/方言の同一性は、音声信号の時間的シーケンスの一部にのみ確実に存在する。 LID(および話者認識)に対する従来の手法は、特徴フレームの独立性を想定した記録の長期統計的要約を抽出することにより、シーケンス情報を無視する。 本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。 特に,音声データの重み付けが言語認識課題の重み付けに重み付けされる言語認識における関係性を考慮した新しいモデルを提案する。 この関係重み付けは、注目モデリング付き双方向長短期メモリ(BLSTM)ネットワークを用いて達成される。 第1のアプローチではセグメントレベルのi-vector/x-vector表現をニューラルネットワークに集約し,第2のアプローチでは音響的特徴をエンドツーエンドのニューラルモデルで直接モデル化する。 nist lre 2017チャレンジの言語認識タスクを用いて、クリーンでノイズの多いマルチスピーカーの音声データとラットの言語認識コーパスを用いて実験を行った。 これらのノイズの多いLREタスクとRATSデータセットの実験では、従来のi-vector/x-vectorベースの言語認識手法や、シーケンス情報を含む他のモデルよりも大幅に改善されている。

The task of automatic language identification (LID) involving multiple dialects of the same language family in the presence of noise is a challenging problem. In these scenarios, the identity of the language/dialect may be reliably present only in parts of the temporal sequence of the speech signal. The conventional approaches to LID (and for speaker recognition) ignore the sequence information by extracting long-term statistical summary of the recording assuming an independence of the feature frames. In this paper, we propose a neural network framework utilizing short-sequence information in language recognition. In particular, a new model is proposed for incorporating relevance in language recognition, where parts of speech data are weighted more based on their relevance for the language recognition task. This relevance weighting is achieved using the bidirectional long short-term memory (BLSTM) network with attention modeling. We explore two approaches, the first approach uses segment level i-vector/x-vector representations that are aggregated in the neural model and the second approach where the acoustic features are directly modeled in an end-to-end neural model. Experiments are performed using the language recognition task in NIST LRE 2017 Challenge using clean, noisy and multi-speaker speech data as well as in the RATS language recognition corpus. In these experiments on noisy LRE tasks as well as the RATS dataset, the proposed approach yields significant improvements over the conventional i-vector/x-vector based language recognition approaches as well as with other previous models incorporating sequence information.
翻訳日:2022-12-17 09:27:27 公開日:2020-04-02