このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211213となっている論文です。

PDF登録状況(公開日: 20211213)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 自然言語モデルの圧縮について [全文訳有]

On the Compression of Natural Language Models ( http://arxiv.org/abs/2112.11480v1 )

ライセンス: CC BY 4.0
Saeed Damadi(参考訳) ディープニューラルネットワークは効果的な機能抽出器だが、デプロイシナリオでは極めて大きい。 パラメータが多すぎるため、異なる層におけるパラメータの解釈性はストレートフォワードではない。 そのため、ニューラルネットワークは時にブラックボックスと見なされる。 単純なモデルは説明しやすいが、それを見つけるのは容易ではない。 もし見つかったら、スクラッチからデータに適合するスパースネットワークは、ニューラルネットワークのパラメータを解釈するのに役立ちます。 この目的のために、宝くじの仮説は、典型的な高密度ニューラルネットワークは、同じ数のステップで同様のテスト精度に達するように訓練できる小さなスパースサブネットワークを含むことを述べている。 この研究の目的は、自然言語モデル(NLM)にそのような訓練可能なサブネットワークが存在するかどうかを評価することである。 この目的を達成するために、量子化、知識蒸留、プルーニングといった最先端の圧縮技術についてレビューする。

Deep neural networks are effective feature extractors but they are prohibitively large for deployment scenarios. Due to the huge number of parameters, interpretability of parameters in different layers is not straight-forward. This is why neural networks are sometimes considered black boxes. Although simpler models are easier to explain, finding them is not easy. If found, a sparse network that can fit to a data from scratch would help to interpret parameters of a neural network. To this end, lottery ticket hypothesis states that typical dense neural networks contain a small sparse sub-network that can be trained to a reach similar test accuracy in an equal number of steps. The goal of this work is to assess whether such a trainable subnetwork exists for natural language models (NLM)s. To achieve this goal we will review state-of-the-art compression techniques such as quantization, knowledge distillation, and pruning.
翻訳日:2021-12-26 14:56:51 公開日:2021-12-13
# (参考訳) English2Gbe:Fon/Ewe}Gbeの多言語機械翻訳モデル [全文訳有]

English2Gbe: A multilingual machine translation model for {Fon/Ewe}Gbe ( http://arxiv.org/abs/2112.11482v1 )

ライセンス: CC BY-SA 4.0
Gilles Hacheme(参考訳) 言語は解放の重要な要素である。 残念ながら、2000以上のアフリカの言語のほとんどは低リソースである。 コミュニティは最近、いくつかのアフリカの言語を復活させ強化するために機械翻訳を使用している。 しかし、訓練されたモデルは、しばしばバイリンガルであり、潜在的に指数関数的な数のモデルが、可能な全ての翻訳方向を訓練し維持する。 さらに、バイリンガルモデルはいくつかの言語間の類似性を利用しない。 その結果,低リソース言語では多言語ニューラルネットワーク翻訳(NMT)が注目されている。 それでもコミュニティによる採用は限られている。 本稿では,英語からEwe or Fonへの翻訳が可能な多言語NMTモデルである English2Gbe を紹介する。 BLEU, CHRF, TERスコアを再現性のためにSacrebleu (Post, 2018) パッケージで計算した結果, English2Gbe はバイリンガルモデル (Ewe と English to Fon ) より優れており,Nekoto et al. (2020) によって確立された Fon の JW300 ベンチマーク(英語版) で最先端の結果が得られた。 この取り組みがコミュニティ内での多言語モデルの採用に大きく貢献することを期待しています。 私たちのコードはgithubからアクセスできます。

Language is an essential factor of emancipation. Unfortunately, most of the more than 2,000 African languages are low-resourced. The community has recently used machine translation to revive and strengthen several African languages. However, the trained models are often bilingual, resulting in a potentially exponential number of models to train and maintain to cover all possible translation directions. Additionally, bilingual models do not leverage the similarity between some of the languages. Consequently, multilingual neural machine translation (NMT) is gaining considerable interest, especially for low-resourced languages. Nevertheless, its adoption by the community is still limited. This paper introduces English2Gbe, a multilingual NMT model capable of translating from English to Ewe or Fon. Using the BLEU, CHRF, and TER scores computed with the Sacrebleu (Post, 2018) package for reproducibility, we show that English2Gbe outperforms bilingual models (English to Ewe and English to Fon) and gives state-of-the-art results on the JW300 benchmark for Fon established by Nekoto et al. (2020). We hope this work will contribute to the massive adoption of Multilingual models inside the community. Our code is made accessible from Github.
翻訳日:2021-12-26 14:49:14 公開日:2021-12-13
# 管状反応器の格子構造モデル

A Grid-Structured Model of Tubular Reactors ( http://arxiv.org/abs/2112.10765v1 )

ライセンス: Link先を確認
Katsiaryna Haitsiukevich, Samuli Bergman, Cesar de Araujo Filho, Francesco Corona, Alexander Ilin(参考訳) 管状反応器の格子状計算モデルを提案する。 このアーキテクチャは、管状反応器内の化学過程のダイナミクスを記述する偏微分方程式の解法によって行われる計算に触発されている。 提案モデルは完全に偏微分方程式の既知の形式に基づくものや,多層パーセプトロンなどの汎用機械学習コンポーネントを含むものもある。 本研究では, 固定層反応器の状態を記述するために, 限られた量のデータを用いて, 提案モデルを訓練可能であることを示す。 トレーニングされたモデルでは, 反応器の入口濃度と温度を測定して, 触媒活性などの未測定状態を再構築することができる。

We propose a grid-like computational model of tubular reactors. The architecture is inspired by the computations performed by solvers of partial differential equations which describe the dynamics of the chemical process inside a tubular reactor. The proposed model may be entirely based on the known form of the partial differential equations or it may contain generic machine learning components such as multi-layer perceptrons. We show that the proposed model can be trained using limited amounts of data to describe the state of a fixed-bed catalytic reactor. The trained model can reconstruct unmeasured states such as the catalyst activity using the measurements of inlet concentrations and temperatures along the reactor.
翻訳日:2021-12-26 13:22:16 公開日:2021-12-13
# 自然言語生成によるヒューマンモビリティ予測の翻訳

Translating Human Mobility Forecasting through Natural Language Generation ( http://arxiv.org/abs/2112.11481v1 )

ライセンス: Link先を確認
Hao Xue, Flora D. Salim, Yongli Ren, Charles L. A. Clarke(参考訳) 既存のヒューマンモビリティ予測モデルは、一連の数値値を入力として、予測として数値を生成する時系列予測モデルの標準設計に従っている。 これを回帰問題として扱うことは簡単だが、効果的な移動予測モデルの設計において、各場所(POI)の意味圏情報などの様々な文脈情報を組み込むことが不可欠であり、しばしばボトルネックとなる。 典型的なアプローチとは対照的に,予測を翻訳問題として扱い,言語生成パイプラインによる新しい予測手法を提案する。 本稿は,人間移動予測問題を逐次翻訳タスクとして扱うことを目的としている。 数値モビリティデータを自然言語文として記述するために、最初にモビリティから言語へのテンプレートが導入された。 人間の移動予測翻訳タスクの中核的な直感は、入力された移動度記述文を予測対象が得られる将来の移動度記述に変換することである。 このパイプラインでは、2分岐ネットワーク ShiFT (Translating Human Mobility Forecasting) が設計されている。 具体的には、言語生成のための1つのメインブランチと、モビリティパターンを直接学習する1つの補助ブランチで構成される。 トレーニング中、私たちは2つのブランチの接続とトレーニングを改善するモーメントモードを開発しました。 3つの実世界のデータセットに関する広範な実験は、提案されたシフトが効果的であることを示し、人間の移動を予測する新しい革命的アプローチを示す。

Existing human mobility forecasting models follow the standard design of the time-series prediction model which takes a series of numerical values as input to generate a numerical value as a prediction. Although treating this as a regression problem seems straightforward, incorporating various contextual information such as the semantic category information of each Place-of-Interest (POI) is a necessary step, and often the bottleneck, in designing an effective mobility prediction model. As opposed to the typical approach, we treat forecasting as a translation problem and propose a novel forecasting through a language generation pipeline. The paper aims to address the human mobility forecasting problem as a language translation task in a sequence-to-sequence manner. A mobility-to-language template is first introduced to describe the numerical mobility data as natural language sentences. The core intuition of the human mobility forecasting translation task is to convert the input mobility description sentences into a future mobility description from which the prediction target can be obtained. Under this pipeline, a two-branch network, SHIFT (Translating Human Mobility Forecasting), is designed. Specifically, it consists of one main branch for language generation and one auxiliary branch to directly learn mobility patterns. During the training, we develop a momentum mode for better connecting and training the two branches. Extensive experiments on three real-world datasets demonstrate that the proposed SHIFT is effective and presents a new revolutionary approach to forecasting human mobility.
翻訳日:2021-12-26 12:27:01 公開日:2021-12-13
# 企業システムパフォーマンスの異常を識別するデータパイプライン構築の課題と解決策

Challenges and Solutions to Build a Data Pipeline to Identify Anomalies in Enterprise System Performance ( http://arxiv.org/abs/2112.08940v1 )

ライセンス: Link先を確認
Xiaobo Huang, Amitabha Banerjee, Chien-Chia Chen, Chengzhi Huang, Tzu Yi Chuang, Abhishek Srivastava, Razvan Cheveresan(参考訳) VMwareは、MLベースの異常検出システムを運用し、Software Defined Data Center(SDDC)エンタープライズデプロイメントのパフォーマンス問題を検出するために、以下の課題を解決しようとしている。 (i)不適合な人間の注釈装置への重依存によるラベル不足とラベルバイアス、 (II) ワークロードパターンの変化,ソフトウェアスタック,基盤となるハードウェアなどによるデータドリフト。 当社の異常検出システムは,長年にわたって本番環境に展開され,多数の主要な性能問題の検出に成功している。 これらのデータ課題に対処することで,性能異常検出モデルの精度を30%向上させるだけでなく,モデル性能が経時的に低下しないことを示す。

We discuss how VMware is solving the following challenges to harness data to operate our ML-based anomaly detection system to detect performance issues in our Software Defined Data Center (SDDC) enterprise deployments: (i) label scarcity and label bias due to heavy dependency on unscalable human annotators, and (ii) data drifts due to ever-changing workload patterns, software stack and underlying hardware. Our anomaly detection system has been deployed in production for many years and has successfully detected numerous major performance issues. We demonstrate that by addressing these data challenges, we not only improve the accuracy of our performance anomaly detection model by 30%, but also ensure that the model performance to never degrade over time.
翻訳日:2021-12-17 16:34:07 公開日:2021-12-13
# 深層学習に基づく呼吸速度推定のためのマルチタスクネットワーク -- 実践的視点

A Deep Learning Based Multitask Network for Respiration Rate Estimation -- A Practical Perspective ( http://arxiv.org/abs/2112.09071v1 )

ライセンス: Link先を確認
Kapil Singh Rathore, Sricharan Vijayarangan, Preejith SP, Mohanasankar Sivaprakasam(参考訳) ウェアラブルセンサーの指数的な増加は、日々の活動における生理的パラメータの評価に大きな関心を寄せている。 呼吸速度は生活習慣活動の性能評価において重要な指標の一つである。 しかし、計測、運動アーティファクト、その他のノイズに対する強迫的なセットアップはプロセスを複雑にする。 本稿では,心電図や加速度計の信号から瞬時および平均呼吸率を推定するための,ディープラーニング(DL)に基づくマルチタスクアーキテクチャを提案する。 マルチタスクネットワークは、平均呼吸率と呼吸信号を取得するために、Encoder-DecoderとEncoder-IncResNetの組み合わせで構成される。 呼吸信号を利用して呼吸ピーク及び即時呼吸サイクルを得ることができる。 平均絶対誤差(mae)、ルート平均二乗誤差(rmse)、推論時間、パラメータカウント分析は、以前の研究で開発されたアート機械学習(ml)モデルや他のdlモデルとネットワークを比較している。 様々な入力に基づく他のDL構成も作業の一部として開発されている。 提案モデルでは, 動作の異なる個々のモダリティよりも, 全体的な精度が向上し, 良好な結果が得られた。

The exponential rise in wearable sensors has garnered significant interest in assessing the physiological parameters during day-to-day activities. Respiration rate is one of the vital parameters used in the performance assessment of lifestyle activities. However, obtrusive setup for measurement, motion artifacts, and other noises complicate the process. This paper presents a multitasking architecture based on Deep Learning (DL) for estimating instantaneous and average respiration rate from ECG and accelerometer signals, such that it performs efficiently under daily living activities like cycling, walking, etc. The multitasking network consists of a combination of Encoder-Decoder and Encoder-IncResNet, to fetch the average respiration rate and the respiration signal. The respiration signal can be leveraged to obtain the breathing peaks and instantaneous breathing cycles. Mean absolute error(MAE), Root mean square error (RMSE), inference time, and parameter count analysis has been used to compare the network with the current state of art Machine Learning (ML) model and other DL models developed in previous studies. Other DL configurations based on a variety of inputs are also developed as a part of the work. The proposed model showed better overall accuracy and gave better results than individual modalities during different activities.
翻訳日:2021-12-17 16:21:47 公開日:2021-12-13
# (参考訳) AMSER:エネルギー効率・レジリエンスeヘルスシステムのための適応型マルチモーダルセンシング [全文訳有]

AMSER: Adaptive Multi-modal Sensing for Energy Efficient and Resilient eHealth Systems ( http://arxiv.org/abs/2112.08176v1 )

ライセンス: CC BY-SA 4.0
Emad Kasaeyan Naeini, Sina Shahhosseini, Anil Kanduri, Pasi Liljeberg, Amir M. Rahmani, Nikil Dutt(参考訳) ehealthシステムは、生理的および文脈的なデータを継続的に監視することにより、ユーザに重要なデジタルヘルスケアとウェルネスサービスを提供する。 ehealthアプリケーションはマルチモーダル機械学習カーネルを使用して、さまざまなセンサモダリティのデータを分析し、意思決定を自動化する。 知覚データ取得時のノイズ入力と動きアーチファクトが影響する i)eヘルスサービスの正確性とレジリエンスの予測 二 ゴミデータの処理におけるエネルギー効率 生の感覚入力を監視してデータや特徴をノイズのあるモダリティから識別・ドロップすることで、予測精度とエネルギー効率を向上させることができる。 ガベージインガベージアウトを軽減できるマルチモーダルeヘルスアプリケーション AMSER のためのクローズドループモニタリングおよび制御フレームワークを提案する。 一 入力モダリティの監視 二 生入力を分析して、ノイズデータ及び特徴を選択的にドロップすること。 三 予測精度及びエネルギー効率を向上させるため、設定されたデータと特徴ベクトルに適合する適切な機械学習モデルを選択すること。 痛み評価とストレスモニタリングのマルチモーダルehealth応用によるamserアプローチの評価を行った。 本手法は,最先端のマルチモーダルモニタリングアプリケーションに対して,最大22\%の予測精度向上と5.6$\times$エネルギー消費削減を実現する。

eHealth systems deliver critical digital healthcare and wellness services for users by continuously monitoring physiological and contextual data. eHealth applications use multi-modal machine learning kernels to analyze data from different sensor modalities and automate decision-making. Noisy inputs and motion artifacts during sensory data acquisition affect the i) prediction accuracy and resilience of eHealth services and ii) energy efficiency in processing garbage data. Monitoring raw sensory inputs to identify and drop data and features from noisy modalities can improve prediction accuracy and energy efficiency. We propose a closed-loop monitoring and control framework for multi-modal eHealth applications, AMSER, that can mitigate garbage-in garbage-out by i) monitoring input modalities, ii) analyzing raw input to selectively drop noisy data and features, and iii) choosing appropriate machine learning models that fit the configured data and feature vector - to improve prediction accuracy and energy efficiency. We evaluate our AMSER approach using multi-modal eHealth applications of pain assessment and stress monitoring over different levels and types of noisy components incurred via different sensor modalities. Our approach achieves up to 22\% improvement in prediction accuracy and 5.6$\times$ energy consumption reduction in the sensing phase against the state-of-the-art multi-modal monitoring application.
翻訳日:2021-12-17 08:03:00 公開日:2021-12-13
# (参考訳) Stroke-Aware Scene Text Image Super-Resolution [全文訳有]

Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution ( http://arxiv.org/abs/2112.08171v1 )

ライセンス: CC BY 4.0
Jingye Chen, Haiyang Yu, Jianqi Ma, Bin Li, Xiangyang Xue(参考訳) 過去10年間で、深層学習の花は、シーンテキスト認識の急速な発展を目撃してきた。 しかし,低解像度テキスト画像の認識は依然として課題である。 この問題に対処するためにいくつかの超解像法が提案されているが、通常はテキスト画像は一般的な画像として扱うが、ストロークの視覚的品質(テキストの原子単位)がテキスト認識に不可欠な役割を果たすという事実を無視している。 Gestalt Psychologyによると、人間は詳細の一部を以前の知識によって導かれる最も類似した物体に組み立てることができる。 同様に、人間が低解像度のテキスト画像を見るとき、それらは本質的に部分的なストロークレベルの詳細を使って、全体的な文字の出現を回復する。 ゲシュタルト心理学に触発され,テキスト画像中の文字のストロークレベル内部構造に集中するストローク中心モジュール(sfm)を含むストローク対応テキスト画像超解像法を提唱した。 具体的には、ストロークレベルで英語文字と数字を分解するルールを設計し、その後テキスト認識器を事前学習して、生成された超高解像度画像と高分解能地上真理との一貫性を制御すべく、ストロークレベルの注意マップを位置手がかりとして提供する。 提案手法は,TextZoomと手作業で構築した漢字データセットDegraded-IC13上で,より識別可能な画像を生成することができることを確認した。 さらに、提案したSFMは、トレーニング時にストロークレベルのガイダンスを提供するのにのみ使用されるため、テストフェーズのオーバーヘッドは発生しない。 コードはhttps://github.com/F udanVI/FudanOCR/tree /main/text-gestaltで入手できる。

In the last decade, the blossom of deep learning has witnessed the rapid development of scene text recognition. However, the recognition of low-resolution scene text images remains a challenge. Even though some super-resolution methods have been proposed to tackle this problem, they usually treat text images as general images while ignoring the fact that the visual quality of strokes (the atomic unit of text) plays an essential role for text recognition. According to Gestalt Psychology, humans are capable of composing parts of details into the most similar objects guided by prior knowledge. Likewise, when humans observe a low-resolution text image, they will inherently use partial stroke-level details to recover the appearance of holistic characters. Inspired by Gestalt Psychology, we put forward a Stroke-Aware Scene Text Image Super-Resolution method containing a Stroke-Focused Module (SFM) to concentrate on stroke-level internal structures of characters in text images. Specifically, we attempt to design rules for decomposing English characters and digits at stroke-level, then pre-train a text recognizer to provide stroke-level attention maps as positional clues with the purpose of controlling the consistency between the generated super-resolution image and high-resolution ground truth. The extensive experimental results validate that the proposed method can indeed generate more distinguishable images on TextZoom and manually constructed Chinese character dataset Degraded-IC13. Furthermore, since the proposed SFM is only used to provide stroke-level guidance when training, it will not bring any time overhead during the test phase. Code is available at https://github.com/F udanVI/FudanOCR/tree /main/text-gestalt.
翻訳日:2021-12-17 07:51:20 公開日:2021-12-13
# aiとエクストリーム・スケール・コンピューティングによる準円形、スピン、非摂動二値ブラックホールの高次重力波モードの物理の学習と推論

AI and extreme scale computing to learn and infer the physics of higher order gravitational wave modes of quasi-circular, spinning, non-precessing binary black hole mergers ( http://arxiv.org/abs/2112.07669v1 )

ライセンス: Link先を確認
Asad Khan, E.A. Huerta(参考訳) 我々は人工知能(AI)を用いて、準円、回転、不要な二元ブラックホール融合の高次重力波モードの物理学を学習し、推論する。 私たちは、サロゲートモデルnrhybsur3dq8で生成された1400万の波形を使ってaiモデルを訓練しました。これは$(4,0)$と$(4,1)$を除いて$\ell \leq 4$と$(5,5)$のモードを含み、質量比$q\leq8$と個々のスピン$s^z_{\{1,2\}}\in[-0.8, 0.8]$のバイナリを記述する。 我々はaiモデルを用いて,そのような信号多様体を記述する数値相対性波形の質量比,個々のスピン,有効スピン,傾斜角の決定的・確率的推定を行う。 我々の研究は、AIがこれらの物理パラメータに情報的推定を提供することを示している。 この研究は、AIがこの高次元信号多様体を特徴付けることができる最初の例である。 私たちのAIモデルは、サミットスーパーコンピュータの256ノード(1,536 NVIDIA V100 GPU)で分散トレーニングを使用して3.4時間以内にトレーニングされました。

We use artificial intelligence (AI) to learn and infer the physics of higher order gravitational wave modes of quasi-circular, spinning, non precessing binary black hole mergers. We trained AI models using 14 million waveforms, produced with the surrogate model NRHybSur3dq8, that include modes up to $\ell \leq 4$ and $(5,5)$, except for $(4,0)$ and $(4,1)$, that describe binaries with mass-ratios $q\leq8$ and individual spins $s^z_{\{1,2\}}\in[-0.8, 0.8]$. We use our AI models to obtain deterministic and probabilistic estimates of the mass-ratio, individual spins, effective spin, and inclination angle of numerical relativity waveforms that describe such signal manifold. Our studies indicate that AI provides informative estimates for these physical parameters. This work marks the first time AI is capable of characterizing this high-dimensional signal manifold. Our AI models were trained within 3.4 hours using distributed training on 256 nodes (1,536 NVIDIA V100 GPUs) in the Summit supercomputer.
翻訳日:2021-12-16 17:28:37 公開日:2021-12-13
# モータ画像分類のための因子化手法

A Factorization Approach for Motor Imagery Classification ( http://arxiv.org/abs/2112.08175v1 )

ライセンス: Link先を確認
Byeong-Hoo Lee, Jeong-Hyun Cho, Byung-Hee Kwon(参考訳) 脳コンピュータインタフェースは、脳信号を使って外部デバイスと実際の制御なしに通信する。 機械学習に基づいて運動画像を分類する研究が数多く行われている。 しかし,片腕運動画像などの空間的特徴の少ない画像データを分類することは課題である。 本稿では,脳波信号を2つのグループに分解し,空間的特徴がばらばらであっても運動像を分類する方法を提案する。 敵対学習に基づき,雑音に強い脳波信号の特徴を抽出し,信号の特徴のみを抽出することに焦点を当てた。 さらに,クラス分類に特化したクラス特化特徴を抽出した。 最後に,提案手法は2つの群の特徴を1つの埋め込み空間として表現することでクラスを分類する。 実験により,2つのグループに特徴を抽出することは,空間的特徴の少ないデータセットに有利であることが確認された。

Brain-computer interface uses brain signals to communicate with external devices without actual control. Many studies have been conducted to classify motor imagery based on machine learning. However, classifying imagery data with sparse spatial characteristics, such as single-arm motor imagery, remains a challenge. In this paper, we proposed a method to factorize EEG signals into two groups to classify motor imagery even if spatial features are sparse. Based on adversarial learning, we focused on extracting common features of EEG signals which are robust to noise and extracting only signal features. In addition, class-specific features were extracted which are specialized for class classification. Finally, the proposed method classifies the classes by representing the features of the two groups as one embedding space. Through experiments, we confirmed the feasibility that extracting features into two groups is advantageous for datasets that contain sparse spatial features.
翻訳日:2021-12-16 14:36:11 公開日:2021-12-13
# (参考訳) 副セメント材料を含むコンクリートのポロシティの機械学習による予測

Machine Learning-based Prediction of Porosity for Concrete Containing Supplementary Cementitious Materials ( http://arxiv.org/abs/2112.07353v1 )

ライセンス: CC BY 4.0
Chong Cao(参考訳) ポーロシティは, アグレッシブ環境に曝露したコンクリートの耐久性の指標となっている。 補充セメント材料を含む高性能コンクリートの気孔性予測にアンサンブル学習を適用した。 本研究で使用したコンクリート試料は, w/b比, バインダー含量, フライアッシュ, ggbs, 超可塑性剤, 粗粒度, 硬化条件, 硬化日という8つの組成特徴を有する。 データベースは240のデータ記録で構成され、74種類のコンクリートの混合設計が特徴である。 提案する機械学習アルゴリズムは、データセットからランダムに選択した180の観測(75%)に基づいてトレーニングされ、残りの60の観測(25%)でテストされる。 数値実験により,レグレッションツリーアンサンブルは混合組成からコンクリートの気孔率を正確に予測できることが示唆された。 緩やかな隆起木は予測精度で概して無作為な森林を上回っている。 ランダム森林の場合、バグエラーに基づくハイパーパラメータチューニング戦略はk-Foldクロスバリデーションよりもはるかに効率的である。

Porosity has been identified as the key indicator of the durability properties of concrete exposed to aggressive environments. This paper applies ensemble learning to predict porosity of high-performance concrete containing supplementary cementitious materials. The concrete samples utilized in this study are characterized by eight composition features including w/b ratio, binder content, fly ash, GGBS, superplasticizer, coarse/fine aggregate ratio, curing condition and curing days. The assembled database consists of 240 data records, featuring 74 unique concrete mixture designs. The proposed machine learning algorithms are trained on 180 observations (75%) chosen randomly from the data set and then tested on the remaining 60 observations (25%). The numerical experiments suggest that the regression tree ensembles can accurately predict the porosity of concrete from its mixture compositions. Gradient boosting trees generally outperforms random forests in terms of prediction accuracy. For random forests, the out-of-bag error based hyperparameter tuning strategy is found to be much more efficient than k-Fold Cross-Validation.
翻訳日:2021-12-16 08:19:59 公開日:2021-12-13
# (参考訳) 量子ストリーム学習 [全文訳有]

Quantum Stream Learning ( http://arxiv.org/abs/2112.06628v1 )

ライセンス: CC BY 4.0
Yongcheng Ding, Xi Chen, Rafael Magdalena-Benedicto, Jos\'e D. Mart\'in-Guerrero(参考訳) 量子力学のエキゾチックな性質により、機械学習(ml)は古典的応用と比較して量子領域で異なる。 MLは、幅広いタスクにおいて量子システムから継続的に抽出された情報を用いて知識発見に使用できる。 モデルは学習と意思決定のためにストリーミング量子情報を受信し、量子システムに即座にフィードバックする。 ストリーム学習の手法として,デチューニング,デ強調,緩和の有無で連続的に測定したキュービットからストリーミングデータに対する深い強化学習を提案する。 また、転送学習により、エージェントが別の量子ノイズパターンにどのように適応するかについても検討する。 ストリーム学習はクローズドループ量子制御のより良い理解を提供する。

The exotic nature of quantum mechanics makes machine learning (ML) be different in the quantum realm compared to classical applications. ML can be used for knowledge discovery using information continuously extracted from a quantum system in a broad range of tasks. The model receives streaming quantum information for learning and decision-making, resulting in instant feedback on the quantum system. As a stream learning approach, we present a deep reinforcement learning on streaming data from a continuously measured qubit at the presence of detuning, dephasing, and relaxation. We also investigate how the agent adapts to another quantum noise pattern by transfer learning. Stream learning provides a better understanding of closed-loop quantum control, which may pave the way for advanced quantum technologies.
翻訳日:2021-12-16 08:18:14 公開日:2021-12-13
# (参考訳) 奥行き不確実性ネットワークを用いたアクティブラーニングにおけるバイアス対策 [全文訳有]

Addressing Bias in Active Learning with Depth Uncertainty Networks... or Not ( http://arxiv.org/abs/2112.06926v1 )

ライセンス: CC BY 4.0
Chelsea Murray, James U. Allingham, Javier Antor\'an, Jos\'e Miguel Hern\'andez-Lobato(参考訳) Farquharら。 2021]は,低パラメータモデルによるアクティブ学習バイアスの修正が下流性能の向上につながることを示した。 しかし、nnsのような過パラメータモデルの場合、補正は性能を低下させるか変化させる。 これは、アクティブな学習バイアスを相殺する"過剰なバイアス"によるものだ、と彼らは示唆している。 深度不確実性ネットワークは、過度パラメータ化モデルのように、低過適合状態で動作することを示す。 したがって、バイアス補正によるパフォーマンスの向上が期待できる。 驚くことに、そうではない。 我々は、この否定的な結果と、Farquharらによる結果を提案する。 一般化誤差の偏差分解のレンズを通して[2021]を説明することができる。

Farquhar et al. [2021] show that correcting for active learning bias with underparameterised models leads to improved downstream performance. For overparameterised models such as NNs, however, correction leads either to decreased or unchanged performance. They suggest that this is due to an "overfitting bias" which offsets the active learning bias. We show that depth uncertainty networks operate in a low overfitting regime, much like underparameterised models. They should therefore see an increase in performance with bias correction. Surprisingly, they do not. We propose that this negative result, as well as the results Farquhar et al. [2021], can be explained via the lens of the bias-variance decomposition of generalisation error.
翻訳日:2021-12-16 08:02:16 公開日:2021-12-13
# (参考訳) 脳腫瘍シークエンス登録チャレンジ : びまん性グリオーマ患者の術前MRI像と術後MRI像との対応性を確立する [全文訳有]

The Brain Tumor Sequence Registration Challenge: Establishing Correspondence between Pre-Operative and Follow-up MRI scans of diffuse glioma patients ( http://arxiv.org/abs/2112.06979v1 )

ライセンス: CC BY 4.0
Bhakti Baheti, Diana Waldmannstetter, Satrajit Chakrabarty, Hamed Akbari, Michel Bilello, Benedikt Wiestler, Julian Schwarting, Evan Calabrese, Jeffrey Rudie, Syed Abidi, Mina Mousa, Javier Villanueva-Meyer, Daniel S. Marcus, Christos Davatzikos, Aristeidis Sotiras, Bjoern Menze, Spyridon Bakas(参考訳) 病理を含む縦型脳磁気共鳴画像(mri)スキャンの登録は,組織形態の変化により困難であり,未解決の問題である。 本稿では,脳びまん性グリオーマと診断された同一症例の術前・経過観察画像の対応度を推定し,第1回脳腫瘍配列登録(brats-reg)チャレンジについて述べる。 BraTS-Regチャレンジは、変形可能な登録アルゴリズムのための公開ベンチマーク環境を確立することを目的としている。 一般的な解剖学的テンプレートによると、関連するデータセットは、スキャンのサイズと解像度に応じてキュレートされた、非特定多施設マルチパラメトリックMRI(mpMRI)データを含む。 臨床専門家は、時間領域の異なる解剖学的位置を記述した、スキャン内のランドマークポイントの広範なアノテーションを作成した。 トレーニングデータとこれらの基礎的な真実のアノテーションは、参加者が登録アルゴリズムの設計と開発を行うためにリリースされ、検証とテストデータのアノテーションは、主催者が保持し、参加者のコンテナ化されたアルゴリズムを評価するために使用される。 各アルゴリズムは、メディア絶対誤差(MAE)、ロバストネス、ジャコビアン行列式など、いくつかの指標を用いて定量的に評価される。

Registration of longitudinal brain Magnetic Resonance Imaging (MRI) scans containing pathologies is challenging due to tissue appearance changes, and still an unsolved problem. This paper describes the first Brain Tumor Sequence Registration (BraTS-Reg) challenge, focusing on estimating correspondences between pre-operative and follow-up scans of the same patient diagnosed with a brain diffuse glioma. The BraTS-Reg challenge intends to establish a public benchmark environment for deformable registration algorithms. The associated dataset comprises de-identified multi-institutional multi-parametric MRI (mpMRI) data, curated for each scan's size and resolution, according to a common anatomical template. Clinical experts have generated extensive annotations of landmarks points within the scans, descriptive of distinct anatomical locations across the temporal domain. The training data along with these ground truth annotations will be released to participants to design and develop their registration algorithms, whereas the annotations for the validation and the testing data will be withheld by the organizers and used to evaluate the containerized algorithms of the participants. Each submitted algorithm will be quantitatively evaluated using several metrics, such as the Median Absolute Error (MAE), Robustness, and the Jacobian determinant.
翻訳日:2021-12-16 07:48:02 公開日:2021-12-13
# (参考訳) イベント誘導による未知の露光時間ビデオの劣化 [全文訳有]

Event-guided Deblurring of Unknown Exposure Time Videos ( http://arxiv.org/abs/2112.06988v1 )

ライセンス: CC BY 4.0
Taewoo Kim, Jungmin Lee, Lin Wang and Kuk-Jin Yoon(参考訳) 映像の劣化は, ぼやけた劣化過程における動き情報の喪失により, 極めて不良な問題である。 イベントカメラは高時間分解能で見かけの動きを捉えることができるため、ビデオの劣化を導くためのイベントの可能性を探る試みがいくつかある。 これらの方法は一般に、露光時間がビデオフレームレートの逆数と同じであると仮定する。 しかし、これは実際の状況では正しくないため、露光時間は未知であり、撮影環境(例えば照明条件)によって動的に変化する可能性がある。 本稿では,フレームベースカメラのダイナミックな未知露光時間を想定したイベント誘導映像の劣化に対処する。 この目的のために、まず、ビデオフレーム取得プロセスにおける露出と読み出し時間を考慮して、イベント誘導型ビデオデブリの新しい定式化を導出する。 次に,イベント誘導ビデオデブリのための新しいエンドツーエンド学習フレームワークを提案する。 特に,新しい露光時間に基づくイベント選択(etes)モジュールを設計し,ぼやけたフレームとイベントとのクロスモーダル相関を推定することにより,イベント特徴を選択的に利用する。 さらに,イベントやぼかしフレームから選択した特徴を効果的に融合する機能融合モジュールを提案する。 各種データセットについて広範な実験を行い,本手法が最先端の性能を実現することを示す。 プロジェクトコードと事前訓練されたモデルが利用可能になります。

Video deblurring is a highly ill-posed problem due to the loss of motion information in the blur degradation process. Since event cameras can capture apparent motion with a high temporal resolution, several attempts have explored the potential of events for guiding video deblurring. These methods generally assume that the exposure time is the same as the reciprocal of the video frame rate. However,this is not true in real situations, and the exposure time might be unknown and dynamically varies depending on the video shooting environment(e.g., illumination condition). In this paper, we address the event-guided video deblurring assuming dynamically variable unknown exposure time of the frame-based camera. To this end, we first derive a new formulation for event-guided video deblurring by considering the exposure and readout time in the video frame acquisition process. We then propose a novel end-toend learning framework for event-guided video deblurring. In particular, we design a novel Exposure Time-based Event Selection(ETES) module to selectively use event features by estimating the cross-modal correlation between the features from blurred frames and the events. Moreover, we propose a feature fusion module to effectively fuse the selected features from events and blur frames. We conduct extensive experiments on various datasets and demonstrate that our method achieves state-of-the-art performance. Our project code and pretrained models will be available.
翻訳日:2021-12-16 07:30:41 公開日:2021-12-13
# (参考訳) twitterにおける深層学習のための重み付きマルチプレックスネットワークの設計 [全文訳有]

Designing weighted and multiplex networks for deep learning user geolocation in Twitter ( http://arxiv.org/abs/2112.06999v1 )

ライセンス: CC BY 4.0
Federico M. Funes, Jos\'e Ignacio Alvarez-Hamelin, Mariano G. Beir\'o(参考訳) Twitterのようなソーシャルメディアのユーザーの地理的位置を予測することで、健康監視、緊急監視、コンテンツパーソナライゼーション、社会研究全般にいくつかの応用が見つかった。 本研究では,重み付き多グラフの文献と最先端のディープラーニング技術を組み合わせた新しい手法を設計・評価することで,この分野の研究に貢献する。 探索された手法は、類似の構造(拡張参照とフォロワネットワーク)から逸脱しているが、トランスダクティブアルゴリズムとインダクティブアルゴリズム(それぞれrscnsとgraphsage)による情報拡散や、node2vec+によるノード埋め込みなど、異なる情報処理戦略を使用している。 これらのグラフは、ユーザのテキストビューをモデルに組み込むための注意メカニズムと組み合わせられる。 我々は,これらの手法の性能を評価し,公開可能なtwitter-usデータセットのベースラインモデルと比較する。 最後に、異なるラベル定義とメトリクスの文脈におけるメソッド間の比較の限界と妥当性について論じる。

Predicting the geographical location of users of social media like Twitter has found several applications in health surveillance, emergency monitoring, content personalization, and social studies in general. In this work we contribute to the research in this area by designing and evaluating new methods based on the literature of weighted multigraphs combined with state-of-the-art deep learning techniques. The explored methods depart from a similar underlying structure (that of an extended mention and/or follower network) but use different information processing strategies, e.g., information diffusion through transductive and inductive algorithms -- RGCNs and GraphSAGE, respectively -- and node embeddings with Node2vec+. These graphs are then combined with attention mechanisms to incorporate the users' text view into the models. We assess the performance of each of these methods and compare them to baseline models in the publicly available Twitter-US dataset; we also make a new dataset available based on a large Twitter capture in Latin America. Finally, our work discusses the limitations and validity of the comparisons among methods in the context of different label definitions and metrics.
翻訳日:2021-12-16 07:14:02 公開日:2021-12-13
# (参考訳) イベント型畳み込みニューラルネットワーク加速器のシナプス圧縮 [全文訳有]

Synapse Compression for Event-Based Convolutional-Neural -Network Accelerators ( http://arxiv.org/abs/2112.07019v1 )

ライセンス: CC BY-SA 4.0
Lennart Bamberg, Arash Pourtaherian, Luc Waeijen, Anupam Chahar, Orlando Moreira(参考訳) 製造可能なニューロモルフィックチップは、脳が極めて並列で効率的な情報処理を実現するために、新しいコンピュータアーキテクチャを必要とする。 新しいイベントベースのアーキテクチャは、この夢を現実にしている。 しかし、シナプス接続のための大きなメモリ要件は、超並列なイベントベース(スパイク)アーキテクチャ上で現代の畳み込みニューラルネットワーク(cnns)を実行するための見本市である。 この作業は、シンプティックメモリ要求を数千回圧縮する軽量なハードウェアスキームを提供することで、この障害を克服し、小さなフォームファクタの単一チップ上で複雑なCNNの実行を可能にした。 12nm技術におけるシリコン実装は、メモリフットプリントの総コストを最大374倍に削減したにもかかわらず、この技術がシステムの実装コストをわずか2%増加させることを示した。

Manufacturing-viable neuromorphic chips require novel computer architectures to achieve the massively parallel and efficient information processing the brain supports so effortlessly. Emerging event-based architectures are making this dream a reality. However, the large memory requirements for synaptic connectivity are a showstopper for the execution of modern convolutional neural networks (CNNs) on massively parallel, event-based (spiking) architectures. This work overcomes this roadblock by contributing a lightweight hardware scheme to compress the synaptic memory requirements by several thousand times, enabling the execution of complex CNNs on a single chip of small form factor. A silicon implementation in a 12-nm technology shows that the technique increases the system's implementation cost by only 2%, despite achieving a total memory-footprint reduction of up to 374x compared to the best previously published technique.
翻訳日:2021-12-16 07:00:19 公開日:2021-12-13
# (参考訳) 体型3次元形状生成モデルの学習 [全文訳有]

Learning Body-Aware 3D Shape Generative Models ( http://arxiv.org/abs/2112.07022v1 )

ライセンス: CC BY 4.0
Bryce Blinn, Alexander Ding, Daniel Ritchie, R. Kenny Jones, Srinath Sridhar, Manolis Savva(参考訳) 構築された環境における多くの物体の形状は、人体との関係によって決定される。 既存の3d形状のデータ駆動生成モデルは、妥当なオブジェクトを生成するが、それらのオブジェクトと人体の関係を推論しない。 本稿では,3次元形状の身体認識生成モデルについて述べる。 具体的には,所定の体型や座位で条件づけ可能なユビキタスな形状カテゴリである椅子の生成モデルを訓練する。 体型条件付きモデルは、所定の体型を持つ人に快適な椅子を作り、ポーズ条件付きモデルは、所定の着座ポーズに対応する椅子を作る。 これらのモデルのトレーニングには、"シッティングポーズマッチング"メトリックと、新しい"シッティング快適"メトリックを定義する。 これらの測定値を計算するには、体を椅子に座らせるための高価な最適化が必要で、生成モデルを訓練するための損失関数として使うには遅すぎる。 したがって、これらのメトリクスを効率的に近似するためにニューラルネットワークを訓練する。 我々は3つの身体認識型生成モデル(構造化部分ベース生成器、ポイントクラウド生成器、暗黙的表面生成器)を訓練する。 いずれの場合も,本手法は人体仕様入力に出力チェア形状を適応させるモデルを生成する。

The shape of many objects in the built environment is dictated by their relationships to the human body: how will a person interact with this object? Existing data-driven generative models of 3D shapes produce plausible objects but do not reason about the relationship of those objects to the human body. In this paper, we learn body-aware generative models of 3D shapes. Specifically, we train generative models of chairs, an ubiquitous shape category, which can be conditioned on a given body shape or sitting pose. The body-shape-condition ed models produce chairs which will be comfortable for a person with the given body shape; the pose-conditioned models produce chairs which accommodate the given sitting pose. To train these models, we define a "sitting pose matching" metric and a novel "sitting comfort" metric. Calculating these metrics requires an expensive optimization to sit the body into the chair, which is too slow to be used as a loss function for training a generative model. Thus, we train neural networks to efficiently approximate these metrics. We use our approach to train three body-aware generative shape models: a structured part-based generator, a point cloud generator, and an implicit surface generator. In all cases, our approach produces models which adapt their output chair shapes to input human body specifications.
翻訳日:2021-12-16 06:32:42 公開日:2021-12-13
# (参考訳) 強化学習を用いたロボットの歩行指導 [全文訳有]

Teaching a Robot to Walk Using Reinforcement Learning ( http://arxiv.org/abs/2112.07031v1 )

ライセンス: CC BY 4.0
Jack Dibachi and Jacob Azoulay(参考訳) PIDやLQRのような古典的な制御技術はシステム状態の維持に効果的に利用されてきたが、モデルダイナミクスが複雑性と感度を増大させると実装が困難になる。 数自由度を持つ適応型ロボット移動タスクの場合、このタスクは古典的な制御技術では不可能になる。 強化学習は、簡単に最適な歩行ポリシーを訓練することができる。 我々は,OpenAI Gym BipedalWalker-v3環境を用いて,深層Q-ラーニングとARSを用いて,シミュレーションされた2次元2足歩行ロボットの歩行方法を教える。 深部Q-ラーニングは高い報奨方針を示さず、しばしば粗い離散化された行動空間のために、適度な局所的最大値に早急に収束した。 しかし、ARSはより良い訓練を受けたロボットとなり、BipedalWalker-v3問題を公式に「解決」する最適なポリシーを生み出した。 学習アルゴリズムの結果の習熟度を評価するためのベンチマークとして,ランダムポリシ,手作業で符号化したinchフォワードポリシ,スティルスティルポリシなど,さまざまなナイーブなポリシが用いられた。

Classical control techniques such as PID and LQR have been used effectively in maintaining a system state, but these techniques become more difficult to implement when the model dynamics increase in complexity and sensitivity. For adaptive robotic locomotion tasks with several degrees of freedom, this task becomes infeasible with classical control techniques. Instead, reinforcement learning can train optimal walking policies with ease. We apply deep Q-learning and augmented random search (ARS) to teach a simulated two-dimensional bipedal robot how to walk using the OpenAI Gym BipedalWalker-v3 environment. Deep Q-learning did not yield a high reward policy, often prematurely converging to suboptimal local maxima likely due to the coarsely discretized action space. ARS, however, resulted in a better trained robot, and produced an optimal policy which officially "solves" the BipedalWalker-v3 problem. Various naive policies, including a random policy, a manually encoded inch forward policy, and a stay still policy, were used as benchmarks to evaluate the proficiency of the learning algorithm results.
翻訳日:2021-12-16 06:18:09 公開日:2021-12-13
# (参考訳) ソーシャルメディア分析における生成手法の検討

Survey of Generative Methods for Social Media Analysis ( http://arxiv.org/abs/2112.07041v1 )

ライセンス: CC BY 4.0
Stan Matwin, Aristides Milios, Pawe{\l} Pra{\l}at, Amilcar Soares, Fran\c{c}ois Th\'eberge(参考訳) 本調査は,ソーシャルメディアデータ解析のための生成手法の研究における,最先端技術(SoTA)の広視野パノラマ図を描いている。 既存の調査記事はスコープが狭くなっているか、日付が付けられているため、空白を埋める。 ソーシャルメディアのマイニングとモデリングにおいて現在重要になっている2つの重要な側面:ダイナミクスとネットワーク。 社会的ダイナミクスは、影響や病気の拡散、友情の形成、チームの生産性などを理解するために重要です。 一方、ネットワークは様々な複雑な関係を捉え、追加の洞察を与え、それ以外は気づかない重要なパターンを特定する。

This survey draws a broad-stroke, panoramic picture of the State of the Art (SoTA) of the research in generative methods for the analysis of social media data. It fills a void, as the existing survey articles are either much narrower in their scope or are dated. We included two important aspects that currently gain importance in mining and modeling social media: dynamics and networks. Social dynamics are important for understanding the spreading of influence or diseases, formation of friendships, the productivity of teams, etc. Networks, on the other hand, may capture various complex relationships providing additional insight and identifying important patterns that would otherwise go unnoticed.
翻訳日:2021-12-16 06:09:18 公開日:2021-12-13
# (参考訳) 多項式混合時間環境における連続学習 [全文訳有]

Continual Learning In Environments With Polynomial Mixing Times ( http://arxiv.org/abs/2112.07066v1 )

ライセンス: CC BY 4.0
Matthew Riemer, Sharath Chandra Raparthy, Ignacio Cases, Gopeshh Subbaraj, Maximilian Puelma Touzel and Irina Rish(参考訳) ポリシーによって引き起こされるマルコフ連鎖の混合時間は、実世界の連続学習シナリオのパフォーマンスを制限する。 しかし,連続強化学習(rl)における混合時間の影響は未検討のままである。 本稿では、混合時間のレンズを通して、スケーラブルなMDPと呼ばれる連続RLの開発に長期的な関心を持つ問題を特徴づける。 特に,拡張性のあるmdpは,問題の大きさに応じて多項式的にスケールする混合時間を持つ。 さらに,既存の手法では多項式混合時間が大きな困難をもたらすことを実証し,新しいブートストラップ法によって平均報酬に対して直接最適化することで学習を高速化するモデルベースアルゴリズムのファミリを提案する。 最後に,提案手法の試行錯誤分析を行い,ベースラインよりも明確な改善と,RLアルゴリズムを混合時間スケールとしていかに拡張可能なMDPを利用できるかを示した。

The mixing time of the Markov chain induced by a policy limits performance in real-world continual learning scenarios. Yet, the effect of mixing times on learning in continual reinforcement learning (RL) remains underexplored. In this paper, we characterize problems that are of long-term interest to the development of continual RL, which we call scalable MDPs, through the lens of mixing times. In particular, we establish that scalable MDPs have mixing times that scale polynomially with the size of the problem. We go on to demonstrate that polynomial mixing times present significant difficulties for existing approaches and propose a family of model-based algorithms that speed up learning by directly optimizing for the average reward through a novel bootstrapping procedure. Finally, we perform empirical regret analysis of our proposed approaches, demonstrating clear improvements over baselines and also how scalable MDPs can be used for analysis of RL algorithms as mixing times scale.
翻訳日:2021-12-16 06:08:21 公開日:2021-12-13
# CGAN-EB:条件付き生成逆数ネットワークを用いたクラッシュホットスポット同定のための非パラメトリック実証ベイズ法:シミュレーションクラッシュデータスタディ

CGAN-EB: A Non-parametric Empirical Bayes Method for Crash Hotspot Identification Using Conditional Generative Adversarial Networks: A Simulated Crash Data Study ( http://arxiv.org/abs/2112.06925v1 )

ライセンス: Link先を確認
Mohammad Zarei, Bruce Hellinga, Pedram Izadpanah(参考訳) 本稿では,ディープニューラルネットワークのモデリングの利点を生かした交通情報(道路セグメントなど)における経験的ベイズ推定(EB)を近似するために,CGAN-EBと呼ばれる新しい非パラメータ的ベイズ手法を提案し,その性能を負二項モデル(NB-EB)に基づく従来の手法と比較した。 NB-EBは、クラッシュデータをモデル化するために負二項モデルを使用し、実際は最も一般的なアプローチである。 提案したCGAN-EBのクラッシュデータをモデル化するために、任意の種類の分布をモデル化できる強力なディープニューラルネットワークに基づく条件付き生成逆数ネットワークを用いる。 CGAN-EBの性能を異なる条件で評価し,NB-EBと比較するために,多数のシミュレーション実験を設計・実施した。 その結果、CGAN-EBは、NB-EBモデル(すなわち、NB-EBモデルの仮定に従属するデータ)を条件が好む場合、NB-EBと同様に動作し、実験においてNB-EBより優れており、特にサンプル平均が低い場合や、衝突頻度が共変量との対数線形関係に従わない場合において、その性能が向上することが示された。

In this paper, a new non-parametric empirical Bayes approach called CGAN-EB is proposed for approximating empirical Bayes (EB) estimates in traffic locations (e.g., road segments) which benefits from the modeling advantages of deep neural networks, and its performance is compared in a simulation study with the traditional approach based on negative binomial model (NB-EB). The NB-EB uses negative binomial model in order to model the crash data and is the most common approach in practice. To model the crash data in the proposed CGAN-EB, conditional generative adversarial network is used, which is a powerful deep neural network based method that can model any types of distributions. A number of simulation experiments are designed and conducted to evaluate the CGAN-EB performance in different conditions and compare it with the NB-EB. The results show that CGAN-EB performs as well as NB-EB when conditions favor the NB-EB model (i.e. data conform to the assumptions of the NB model) and outperforms NB-EB in experiments reflecting conditions frequently encountered in practice, specifically low sample means, and when crash frequency does not follow a log-linear relationship with covariates.
翻訳日:2021-12-15 17:06:37 公開日:2021-12-13
# 製造環境における機械学習アプリケーションの信頼性について

On The Reliability Of Machine Learning Applications In Manufacturing Environments ( http://arxiv.org/abs/2112.06986v1 )

ライセンス: Link先を確認
Nicolas Jourdan, Sagar Sen, Erik Johannes Husom, Enrique Garcia-Ceja, Tobias Biegel and Joachim Metternich(参考訳) IoT(Internet of Things)デバイスやCPS(Cyber-Physical Systems)といった先進的なデジタル技術の産業環境への展開の増加は、製造業領域における機械学習(ML)アルゴリズムの生産的利用を可能にしている。 MLの応用が研究から実世界の産業環境における生産的利用へと移行するにつれ、信頼性の問題が生じる。 MLモデルの大部分が静的データセットでトレーニングされ、評価されているため、信頼性の高いシステムを構築するには、パフォーマンスの継続的なオンラインモニタリングが必要である。 さらに、概念とセンサドリフトは、時間とともにアルゴリズムの精度を低下させ、検出されていない場合の安全性、受容、経済学を損なう可能性がある。 本研究では,36ヶ月にわたって記録された公開産業データセットにおける問題の重大さを例示的に強調し,ドリフトの発生源について説明する。 また, 機械学習アルゴリズムのロバスト性を評価し, 全試験アルゴリズムのドリフトの増加に伴い, 精度が著しく低下することを示した。 さらに,オンラインパフォーマンス推定やドリフト検出に不確実性推定をどのように活用するかを,継続的に学習するアプリケーションへの第一歩として検討する。 その結果、ランダムフォレストのようなアンサンブルアルゴリズムは、ドリフト下での信頼度校正が最小となることが示された。

The increasing deployment of advanced digital technologies such as Internet of Things (IoT) devices and Cyber-Physical Systems (CPS) in industrial environments is enabling the productive use of machine learning (ML) algorithms in the manufacturing domain. As ML applications transcend from research to productive use in real-world industrial environments, the question of reliability arises. Since the majority of ML models are trained and evaluated on static datasets, continuous online monitoring of their performance is required to build reliable systems. Furthermore, concept and sensor drift can lead to degrading accuracy of the algorithm over time, thus compromising safety, acceptance and economics if undetected and not properly addressed. In this work, we exemplarily highlight the severity of the issue on a publicly available industrial dataset which was recorded over the course of 36 months and explain possible sources of drift. We assess the robustness of ML algorithms commonly used in manufacturing and show, that the accuracy strongly declines with increasing drift for all tested algorithms. We further investigate how uncertainty estimation may be leveraged for online performance estimation as well as drift detection as a first step towards continually learning applications. The results indicate, that ensemble algorithms like random forests show the least decay of confidence calibration under drift.
翻訳日:2021-12-15 17:06:07 公開日:2021-12-13
# キャッシングモデルの解析

Analyzing a Caching Model ( http://arxiv.org/abs/2112.06989v1 )

ライセンス: Link先を確認
Leon Sixt, Evan Zheran Liu, Marie Pellat, James Wexler, Milad Hashemi Been Kim, Martin Maas(参考訳) 機械学習は、メモリプリフェッチやキャッシュのようなシステムアプリケーションにうまく適用され、学習されたモデルはヒューリスティックスより優れていることが示されている。 しかし、これらのモデルの内部動作—解釈可能性—を理解することの欠如は、現実のデプロイメントで採用するための大きな障害である。 モデルの振る舞いを理解することは、システム管理者や開発者がモデルに自信を持ち、リスクを理解し、本番環境で予期せぬ振る舞いをデバッグするのに役立ちます。 画像やテキストで訓練されたMLモデルとは異なり、入力ドメイン(例えば、メモリアクセスパターン、プログラムカウンタ)はすぐに解釈できない。 したがって、大きな課題は、人間の実践者にアプローチ可能な概念の観点からモデルを説明することである。 現状のキャッシュモデルを分析することで、モデルが単純な統計以上の概念を学習し、説明に活用できることを示す。 私たちの研究は、システムMLモデルの説明可能性への第一歩を提供し、この新興研究領域の約束と課題の両方を強調します。

Machine Learning has been successfully applied in systems applications such as memory prefetching and caching, where learned models have been shown to outperform heuristics. However, the lack of understanding the inner workings of these models -- interpretability -- remains a major obstacle for adoption in real-world deployments. Understanding a model's behavior can help system administrators and developers gain confidence in the model, understand risks, and debug unexpected behavior in production. Interpretability for models used in computer systems poses a particular challenge: Unlike ML models trained on images or text, the input domain (e.g., memory access patterns, program counters) is not immediately interpretable. A major challenge is therefore to explain the model in terms of concepts that are approachable to a human practitioner. By analyzing a state-of-the-art caching model, we provide evidence that the model has learned concepts beyond simple statistics that can be leveraged for explanations. Our work provides a first step towards explanability of system ML models and highlights both promises and challenges of this emerging research area.
翻訳日:2021-12-15 17:05:43 公開日:2021-12-13
# 前・逆物理の同時学習のためのグラフネットワーク

Graph network for simultaneous learning of forward and inverse physics ( http://arxiv.org/abs/2112.07054v1 )

ライセンス: Link先を確認
Sakthi Kumar Arul Prakash, Conrad Tucker(参考訳) 本研究では,解釈可能な帰納的バイアスを用いて粒子物理の前方および逆モデルを学ぶエンドツーエンドグラフネットワークを提案する。 物理インフォームドニューラルネットワークは、問題固有の正規化と損失関数によって、特定の問題を解決するためにしばしば設計される。 このような明示的な学習は、ネットワークがデータ固有のパターンを学ぶために偏りを生じさせ、損失関数やニューラルネットワークアーキテクチャを変更する必要があるかもしれない。 最近の研究では、フォワードダイナミクスを研究するグラフネットワークが提案されているが、それらは系の力学を近似するために質量などの粒子特異的パラメータに依存している。 グラフネットワークは,いくつかの課題を学習することで暗黙的に偏り,従ってタスク間の表現を共有して前方ダイナミクスを学習し,未知の粒子特性の確率分布を推測する。 粒子間相互作用を特徴とする多種多様なデータセットを対象とした一段階の次状態予測タスクに対するアプローチを評価する。 関連するデータ駆動物理学習手法との比較により,我々のモデルは,少なくとも1桁高い精度でフォワードダイナミクスを予測できることが判明した。 また,本手法により,未知の物理パラメータのマルチモーダル確率分布を,桁違いに少ないサンプルで再現できることを示す。

In this work, we propose an end-to-end graph network that learns forward and inverse models of particle-based physics using interpretable inductive biases. Physics-informed neural networks are often engineered to solve specific problems through problem-specific regularization and loss functions. Such explicit learning biases the network to learn data specific patterns and may require a change in the loss function or neural network architecture hereby limiting their generalizabiliy. While recent studies have proposed graph networks to study forward dynamics, they rely on particle specific parameters such as mass, etc. to approximate the dynamics of the system. Our graph network is implicitly biased by learning to solve several tasks, thereby sharing representations between tasks in order to learn the forward dynamics as well as infer the probability distribution of unknown particle specific properties. We evaluate our approach on one-step next state prediction tasks across diverse datasets that feature different particle interactions. Our comparison against related data-driven physics learning approaches reveals that our model is able to predict the forward dynamics with at least an order of magnitude higher accuracy. We also show that our approach is able to recover multi-modal probability distributions of unknown physical parameters using orders of magnitude fewer samples.
翻訳日:2021-12-15 17:05:26 公開日:2021-12-13
# 聴覚特徴抽出のためのイベントベース時間ベクトル--低電力音声認識のためのニューロモルフィックアプローチ

Event Based Time-Vectors for auditory features extraction: a neuromorphic approach for low power audio recognition ( http://arxiv.org/abs/2112.07011v1 )

ライセンス: Link先を確認
Marco Rasetto, Juan P. Dominguez-Morales, Angel Jimenez-Fernandez and Ryad Benosman(参考訳) 近年,自然言語処理技術(nlp)と音声認識技術の発展に向けて,多大な努力がなされている。 しかし、これらの取り組みは、より大きな複雑なモデルに対する電力消費とメモリ要求の増加にしばしば変換された。 これらのソリューションは、低消費電力でメモリ効率の低い計算を必要とするIoTデバイスの制約を欠いているため、効率的なエッジコンピューティングの需要が増大するのに失敗する。 ニューロモルフィックシステムは、様々な応用において低消費電力低レイテンシ計算の優れた候補であることが証明されている。 そこで我々は,教師なし聴覚特徴認識が可能なニューロモルフィック・アーキテクチャを提案する。 次に、GoogleのSpeech Commandsデータセットのサブセットでネットワークを検証する。

In recent years tremendous efforts have been done to advance the state of the art for Natural Language Processing (NLP) and audio recognition. However, these efforts often translated in increased power consumption and memory requirements for bigger and more complex models. These solutions falls short of the constraints of IoT devices which need low power, low memory efficient computation, and therefore they fail to meet the growing demand of efficient edge computing. Neuromorphic systems have proved to be excellent candidates for low-power low-latency computation in a multitude of applications. For this reason we present a neuromorphic architecture, capable of unsupervised auditory feature recognition. We then validate the network on a subset of Google's Speech Commands dataset.
翻訳日:2021-12-15 16:58:44 公開日:2021-12-13
# 階層型スーパークラス学習による人間行動認識

Multi-Expert Human Action Recognition with Hierarchical Super-Class Learning ( http://arxiv.org/abs/2112.07015v1 )

ライセンス: Link先を確認
Hojat Asgarian Dehkordi, Ali Soltani Nezhad, Hossein Kashiani, Shahriar Baradaran Shokouhi, Ahmad Ayatollahi(参考訳) 静止画像のヒューマンアクション認識では、既存の研究は主に余分なバウンディングボックス情報とクラスラベルを利用して、静止画像における時間的情報の欠如を軽減するが、手動アノテーションによる追加データの準備は時間がかかり、ヒューマンエラーの原因となる。 さらに,本研究は長期分布を伴う行動認識に対処していない。 本稿では,スーパークラス学習によるロングテール分布に対処し,余分な情報を持たず,人間行動認識のための二相多能性分類法を提案する。 各スーパークラスの最適な構成を選択し、異なるアクションクラス間のクラス間の依存関係を特徴付けるために、新しいグラフベースクラス選択(gcs)アルゴリズムを提案する。 提案手法では,粗粒度が最も適切な細粒度の専門家を選択する。 そして、粒度の細かい専門家が各スーパークラスの複雑な詳細をエンコードし、クラス間の変動が増加する。 Stanford40、Pascal VOC 2012 Action、BU101+、IHARデータセットなど、さまざまな公開人の行動認識データセットに対して、大規模な実験的評価が行われた。 実験の結果,提案手法は有望な改善をもたらすことがわかった。 より具体的に言うと、IHAR、Sanford40、Pascal VOC 2012 Action、BU101+ベンチマークでは、提案されたアプローチは最先端の研究を8.92%、0.41%、0.66%、および2.11%で上回り、計算コストが大幅に低減され、補助的なアノテーション情報がない。 さらに,長い尾の分布を持つ動作認識において,提案手法は,その性能を著しく向上させることが証明された。

In still image human action recognition, existing studies have mainly leveraged extra bounding box information along with class labels to mitigate the lack of temporal information in still images; however, preparing extra data with manual annotation is time-consuming and also prone to human errors. Moreover, the existing studies have not addressed action recognition with long-tailed distribution. In this paper, we propose a two-phase multi-expert classification method for human action recognition to cope with long-tailed distribution by means of super-class learning and without any extra information. To choose the best configuration for each super-class and characterize inter-class dependency between different action classes, we propose a novel Graph-Based Class Selection (GCS) algorithm. In the proposed approach, a coarse-grained phase selects the most relevant fine-grained experts. Then, the fine-grained experts encode the intricate details within each super-class so that the inter-class variation increases. Extensive experimental evaluations are conducted on various public human action recognition datasets, including Stanford40, Pascal VOC 2012 Action, BU101+, and IHAR datasets. The experimental results demonstrate that the proposed method yields promising improvements. To be more specific, in IHAR, Sanford40, Pascal VOC 2012 Action, and BU101+ benchmarks, the proposed approach outperforms the state-of-the-art studies by 8.92%, 0.41%, 0.66%, and 2.11 % with much less computational cost and without any auxiliary annotation information. Besides, it is proven that in addressing action recognition with long-tailed distribution, the proposed method outperforms its counterparts by a significant margin.
翻訳日:2021-12-15 16:58:09 公開日:2021-12-13
# ニューラルネットワークアンサンブルの最適化のための高速化技術

Acceleration techniques for optimization over trained neural network ensembles ( http://arxiv.org/abs/2112.07007v1 )

ライセンス: Link先を確認
Keliang Wang, Leonardo Lozano, Carlos Cardonha, David Bergman(参考訳) 本稿では,リニアユニット(ReLU)を活性化したフィードフォワードニューラルネットワークを用いて目的関数をモデル化する最適化問題について検討する。 最近の文献では、目的関数内の不確実または複雑な要素をモデル化する単一のニューラルネットワークの使用を探求している。 しかしながら、ニューラルネットワークのアンサンブルは、単一のニューラルネットワークを持つモデルよりも、より安定した予測とより一般化性をもたらすことが知られており、意思決定パイプラインにおけるニューラルネットワークのアンサンブルの適用が示唆されている。 最適化モデルの目的関数としてニューラルネットワークアンサンブルを組み込む方法について検討し,次の問題に対する計算的アプローチを検討する。 本稿では,ニューラルネットワークの最適化のために,既存の大容量モデルに基づく混合整数線形プログラムを提案する。 本稿では,ニューラルネットワークにおける臨界ニューロンの境界を厳格化するための前処理手法と,Benders分解に基づく有効不等式セットの2つの高速化手法を提案する。 本手法の実験的な評価は,1つの大域的最適化問題と2つの実世界のデータセットを用いて行われ,計算時間と最適性ギャップの点で,最先端のアプローチの適応性を上回ることを示唆する。

We study optimization problems where the objective function is modeled through feedforward neural networks with rectified linear unit (ReLU) activation. Recent literature has explored the use of a single neural network to model either uncertain or complex elements within an objective function. However, it is well known that ensembles of neural networks produce more stable predictions and have better generalizability than models with single neural networks, which suggests the application of ensembles of neural networks in a decision-making pipeline. We study how to incorporate a neural network ensemble as the objective function of an optimization model and explore computational approaches for the ensuing problem. We present a mixed-integer linear program based on existing popular big-$M$ formulations for optimizing over a single neural network. We develop two acceleration techniques for our model, the first one is a preprocessing procedure to tighten bounds for critical neurons in the neural network while the second one is a set of valid inequalities based on Benders decomposition. Experimental evaluations of our solution methods are conducted on one global optimization problem and two real-world data sets; the results suggest that our optimization algorithm outperforms the adaption of an state-of-the-art approach in terms of computational time and optimality gaps.
翻訳日:2021-12-15 16:48:48 公開日:2021-12-13
# 一定の目標関数に対するReLUアクティベーションを用いた深部ニューラルネットワークのトレーニングにおける確率勾配降下の収束証明

Convergence proof for stochastic gradient descent in the training of deep neural networks with ReLU activation for constant target functions ( http://arxiv.org/abs/2112.07369v1 )

ライセンス: Link先を確認
Martin Hutzenthaler, Arnulf Jentzen, Katharina Pohl, Adrian Riekert, Luca Scarpa(参考訳) 多くの数値シミュレーションにおいて、確率的勾配降下(sgd)型最適化手法は深層ニューラルネットワーク(dnn)の訓練において非常に効果的であるが、今日までdnnの訓練におけるsgd型最適化手法の成功を厳密に説明する数学的収束解析を提供するための研究のオープンな課題である。 本研究では,修正線形単位(ReLU)アクティベーションを備えた完全連結フィードフォワードDNNのトレーニングにおけるSGD型最適化手法について検討する。 まず,これらのDNNのトレーニングに現れるリスク関数とその一般化された勾配関数の一般正規性特性を確立し,その後,対象関数が一定関数であることを前提として,これらのDNNのトレーニングにおけるプレーンバニラSGD最適化法を検討する。 具体的には、学習率(sgd最適化方法のステップサイズ)が十分に小さいが、$l^1$-summableでないことを仮定し、sgdプロセスのリスクの期待が、sgdステップの数が無限に増加するにつれて、そのようなdnnのトレーニングにおいて収束する一定の関数であると仮定して証明する。

In many numerical simulations stochastic gradient descent (SGD) type optimization methods perform very effectively in the training of deep neural networks (DNNs) but till this day it remains an open problem of research to provide a mathematical convergence analysis which rigorously explains the success of SGD type optimization methods in the training of DNNs. In this work we study SGD type optimization methods in the training of fully-connected feedforward DNNs with rectified linear unit (ReLU) activation. We first establish general regularity properties for the risk functions and their generalized gradient functions appearing in the training of such DNNs and, thereafter, we investigate the plain vanilla SGD optimization method in the training of such DNNs under the assumption that the target function under consideration is a constant function. Specifically, we prove under the assumption that the learning rates (the step sizes of the SGD optimization method) are sufficiently small but not $L^1$-summable and under the assumption that the target function is a constant function that the expectation of the riskof the considered SGD process converges in the training of such DNNs to zero as the number of SGD steps increases to infinity.
翻訳日:2021-12-15 16:47:18 公開日:2021-12-13
# Fuzzy Win-Win: ファジィ論理を用いたWin-Winの定量化

Fuzzy Win-Win: A Novel Approach to Quantify Win-Win Using Fuzzy Logic ( http://arxiv.org/abs/2112.07045v1 )

ライセンス: Link先を確認
Ahmad B. Hassanat, Ghada A. Altarawneh, and Ahmad S. Tarawneh(参考訳) 古典的な勝敗は、各党が勝者であると信じているため、当事者に正しい金額の勝利を与えることができないという重大な欠陥がある。 実際には、一方の党が他方より勝てるかもしれない。 この戦略は単一の製品や交渉に限ったものではなく、人生の様々な状況に適用することができる。 本論文では,勝利の状況を測定する新しい方法を提案する。 提案手法はファジィ論理を用いて交渉者による勝利率の定量化を支援する数学的モデルを作成する。 このモデルは、イランのウラン濃縮交渉、イラクとヨルダンの石油協定、鉄鉱石の交渉(2005-2009)のような実生活の交渉シナリオで試験される。 提示されたモデルは実用上有用なツールであることが示されており、他の領域でも容易に利用することができる。

The classic win-win has a key flaw in that it cannot offer the parties the right amounts of winning because each party believes they are winners. In reality, one party may win more than the other. This strategy is not limited to a single product or negotiation; it may be applied to a variety of situations in life. We present a novel way to measure the win-win situation in this paper. The proposed method employs Fuzzy logic to create a mathematical model that aids negotiators in quantifying their winning percentages. The model is put to the test on real-life negotiations scenarios such as the Iranian uranium enrichment negotiations, the Iraqi-Jordanian oil deal, and the iron ore negotiation (2005-2009). The presented model has shown to be a useful tool in practice and can be easily generalized to be utilized in other domains as well.
翻訳日:2021-12-15 16:08:40 公開日:2021-12-13
# ファウンデーション・パラ・カラクテリザール 偽ニュースのターミノス・デ・エモシオーネにおける枠組み

Framework para Caracterizar Fake News en Terminos de Emociones ( http://arxiv.org/abs/2112.07035v1 )

ライセンス: Link先を確認
Luis Rojas Rubio and Claudio Meneses Villegas(参考訳) ソーシャルネットワークは、人々が直接的かつ社会的相互作用を提供するため、人間にとって主要な情報チャネルの1つとなり、ある場合には、各ユーザーが関連すると考えるものを公開することができる。 これは偽ニュースや偽ニュースを生み出し、不確実性、誤った情報、読者の意見を歪めようとする出版物を生み出した。 このことから、人間は、ある記事が事実なのか偽ニュースなのかを完全に特定できないことが示されており、データマイニングと機械学習に基づいて、記事の性格付けと識別を求めるモデルが生まれている。 本稿は,フェイクニュースに現れる感情を特徴付けることを目的とした3層フレームワークを提案する。

Social networks have become one of the main information channels for human beings due to the immediate and social interactivity they offer, allowing in some cases to publish what each user considers relevant. This has brought with it the generation of false news or Fake News, publications that only seek to generate uncertainty, misinformation or skew the opinion of readers. It has been shown that the human being is not capable of fully identifying whether an article is really a fact or a Fake News, due to this it is that models arise that seek to characterize and identify articles based on data mining and machine learning. This article proposes a three-layer framework, the main objective of which is to characterize the emotions present in Fake News and to be a tool for future work that identifies the emotional state and intentional state of the public.
翻訳日:2021-12-15 15:57:41 公開日:2021-12-13
# elf: 完全リプシッツ型普遍密度近似流れ

ELF: Exact-Lipschitz Based Universal Density Approximator Flow ( http://arxiv.org/abs/2112.06997v1 )

ライセンス: Link先を確認
Achintya Gopal(参考訳) 正規化フローはここ数年で人気が高まっているが、計算コストは引き続き高く、より広範な機械学習コミュニティに受け入れられるのは難しい。 本稿では,リプシッツ定数を閉じた単純な一次元一層ネットワークを提案する。これを用いて,残留流からのサンプリングの容易さと自己回帰流の強力な性能を組み合わせた新しい完全リプシッツ流れ(elf)を提案する。 さらに,ALFは,複数の大規模データセット上での最先端性能を実現し,より計算的かつパラメータ効率の高い普遍密度近似器であることを示す。

Normalizing flows have grown more popular over the last few years; however, they continue to be computationally expensive, making them difficult to be accepted into the broader machine learning community. In this paper, we introduce a simple one-dimensional one-layer network that has closed form Lipschitz constants; using this, we introduce a new Exact-Lipschitz Flow (ELF) that combines the ease of sampling from residual flows with the strong performance of autoregressive flows. Further, we show that ELF is provably a universal density approximator, more computationally and parameter efficient compared to a multitude of other flows, and achieves state-of-the-art performance on multiple large-scale datasets.
翻訳日:2021-12-15 15:26:26 公開日:2021-12-13
# データがモデルに徐々に反応するときの学習方法

How to Learn when Data Gradually Reacts to Your Model ( http://arxiv.org/abs/2112.07042v1 )

ライセンス: Link先を確認
Zachary Izzo, James Zou, Lexing Ying(参考訳) 最近の研究は、マシンラーニング(ml)モデルを、データ分散がデプロイされたモデルに反応するパフォーマンス設定でトレーニングすることに焦点を当てている。 この設定の目標は、良好なデータ分布を誘導し、誘導分布を良好に実行し、テスト損失を最小化するモデルを学ぶことである。 最適なモデルを見つけるための以前の作業は、データ分散が即座にデプロイされたモデルに適応すると仮定する。 しかし実際には、人口がモデルに適応するのに時間がかかる可能性があるため、これは当てはまらないかもしれない。 多くのアプリケーションでは、データ分散は、現在デプロイされているmlモデルと、モデルがデプロイされる前に人口が投入した"状態"の両方に依存する。 本研究では,これらの効果が存在する場合でも性能損失を最小限に抑えるための新しいアルゴリズム Stateful Performative Gradient Descent (Stateful PerfGD) を提案する。 ステートフルPerfGDの収束に関する理論的保証を提供する。 実験の結果, Stateful PerfGD は従来の最先端手法よりもかなり優れていたことが確認された。

A recent line of work has focused on training machine learning (ML) models in the performative setting, i.e. when the data distribution reacts to the deployed model. The goal in this setting is to learn a model which both induces a favorable data distribution and performs well on the induced distribution, thereby minimizing the test loss. Previous work on finding an optimal model assumes that the data distribution immediately adapts to the deployed model. In practice, however, this may not be the case, as the population may take time to adapt to the model. In many applications, the data distribution depends on both the currently deployed ML model and on the "state" that the population was in before the model was deployed. In this work, we propose a new algorithm, Stateful Performative Gradient Descent (Stateful PerfGD), for minimizing the performative loss even in the presence of these effects. We provide theoretical guarantees for the convergence of Stateful PerfGD. Our experiments confirm that Stateful PerfGD substantially outperforms previous state-of-the-art methods.
翻訳日:2021-12-15 15:26:13 公開日:2021-12-13
# クラウドソースクリエイティビティの潜在次元を探る

Exploring Latent Dimensions of Crowd-sourced Creativity ( http://arxiv.org/abs/2112.06978v1 )

ライセンス: Link先を確認
Umut Kocasari, Alperen Bag, Efehan Atici and Pinar Yanardag(参考訳) 近年,事前学習したGANの潜在空間における解釈可能な方向の発見が話題となっている。 既存の作品は、主にセマンティックな画像操作の方向を考慮しているが、私たちは抽象的な特性、すなわち創造性に焦点を当てている。 イメージを多かれ少なかれ創造的に操作できるだろうか? 私たちは、最大のaiベースのクリエイティビティプラットフォームであるartbreederで、トレーニング済みのganモデルを使って画像を生成することができます。 我々は,このプラットフォーム上で生成される画像の潜在次元を探索し,より創造的になるように画像を操作するための新しい枠組みを提案する。 私たちのコードとデータセットはhttp://github.com/ca tlab-team/latentcrea tiveで利用可能です。

Recently, the discovery of interpretable directions in the latent spaces of pre-trained GANs has become a popular topic. While existing works mostly consider directions for semantic image manipulations, we focus on an abstract property: creativity. Can we manipulate an image to be more or less creative? We build our work on the largest AI-based creativity platform, Artbreeder, where users can generate images using pre-trained GAN models. We explore the latent dimensions of images generated on this platform and present a novel framework for manipulating images to make them more creative. Our code and dataset are available at http://github.com/ca tlab-team/latentcrea tive.
翻訳日:2021-12-15 15:25:25 公開日:2021-12-13
# PantheonRL:動的トレーニングインタラクションのためのMARLライブラリ

PantheonRL: A MARL Library for Dynamic Training Interactions ( http://arxiv.org/abs/2112.07013v1 )

ライセンス: Link先を確認
Bidipta Sarkar, Aditi Talati, Andy Shih, Dorsa Sadigh(参考訳) ラウンドロビン,適応,アドホックトレーニングなどの動的トレーニングインタラクションのためのマルチエージェント強化学習ソフトウェアであるPantheonRLを提案する。 我々のパッケージは、異なるトレーニングインタラクションをサポートするように簡単に構成できるフレキシブルエージェントオブジェクトを中心に設計されており、報酬とnエージェントを混合した完全な汎用マルチエージェント環境を処理する。 StableBaselines3の上に構築された当社のパッケージは、既存の強力なディープRLアルゴリズムと直接連携します。 最後に、pantheonrlには直感的で機能的なwebユーザインターフェースが付属しており、実験の設定と複数の非同期ジョブの起動が可能だ。 私たちのパッケージはhttps://github.com/S tanford-ILIAD/Panthe onRL.comで確認できます。

We present PantheonRL, a multiagent reinforcement learning software package for dynamic training interactions such as round-robin, adaptive, and ad-hoc training. Our package is designed around flexible agent objects that can be easily configured to support different training interactions, and handles fully general multiagent environments with mixed rewards and n agents. Built on top of StableBaselines3, our package works directly with existing powerful deep RL algorithms. Finally, PantheonRL comes with an intuitive yet functional web user interface for configuring experiments and launching multiple asynchronous jobs. Our package can be found at https://github.com/S tanford-ILIAD/Panthe onRL.
翻訳日:2021-12-15 15:20:07 公開日:2021-12-13
# 王は裸である:自然言語処理におけるロバスト性について

The King is Naked: on the Notion of Robustness for Natural Language Processing ( http://arxiv.org/abs/2112.07605v1 )

ライセンス: Link先を確認
Emanuele La Malfa and Marta Kwiatkowska(参考訳) NLP研究コミュニティの大部分が、画像に最初に導入した古典的対向ロバスト性の概念をデファクトスタンダードとして採用している証拠が増えている。 言語現象の狭いスペクトルを考えると,この概念はNLPの文脈で問題となる。 本稿では,言語的忠実性という人間の概念に適合した意味的堅牢性について論じる。 モデルで誘発されるであろうバイアスの観点から意味的堅牢性を特徴づける。 テンプレートベースの生成テストベッドを用いて,バニラおよび頑健なアーキテクチャのセマンティックロバスト性について検討した。 この分析を,実装が困難であるにもかかわらず,意味的ロバスト性は,古典的意味でロバストなモデルが失敗する複雑な言語現象に対して,パフォーマンス %gives の保証を向上できることを示す実証的証拠で補完する。

There is growing evidence that the classical notion of adversarial robustness originally introduced for images has been adopted as a de facto standard by a large part of the NLP research community. We show that this notion is problematic in the context of NLP as it considers a narrow spectrum of linguistic phenomena. In this paper, we argue for semantic robustness, which is better aligned with the human concept of linguistic fidelity. We characterize semantic robustness in terms of biases that it is expected to induce in a model. We study semantic robustness of a range of vanilla and robustly trained architectures using a template-based generative test bed. We complement the analysis with empirical evidence that, despite being harder to implement, semantic robustness can improve performance %gives guarantees for on complex linguistic phenomena where models robust in the classical sense fail.
翻訳日:2021-12-15 14:42:54 公開日:2021-12-13
# unsupervised post-editing によるfluent factcheck 説明の生成

Generating Fluent Fact Checking Explanations with Unsupervised Post-Editing ( http://arxiv.org/abs/2112.06924v1 )

ライセンス: Link先を確認
Shailza Jolly, Pepa Atanasova, Isabelle Augenstein(参考訳) フェイクチェックシステムは、偽ニュースや誤報を検証するための重要なツールとなっている。 これらのシステムは、人間が読める説明がveracityラベルに付随すると、より信頼できるものになる。 しかし、手作業による説明の収集は高価で時間がかかります。 近年の作業フレーム説明生成を抽出要約として,専門家ジャーナリストのコメント(RC)から重要な事実の十分なサブセットを自動的に選択し,事実確認説明を得る方法を提案する。 しかし、これらの説明は流血性や文の一貫性に欠ける。 本研究では,句レベルの編集のみを用いた反復的な編集に基づくアルゴリズムを提案する。 編集アルゴリズムの調整には,フラレンシや意味保存などの要素を用いたスコアリング機能を用いる。 さらに、完全に教師なしの環境で、我々のアプローチの適用性を示す。 LIAR-PLUSとPubHealthの2つのベンチマークデータセットを実験した。 本モデルでは, 流動性, 可読性, 非冗長性, 事実チェックのための重要な情報をカバーする説明文を生成する。

Fact-checking systems have become important tools to verify fake and misguiding news. These systems become more trustworthy when human-readable explanations accompany the veracity labels. However, manual collection of such explanations is expensive and time-consuming. Recent works frame explanation generation as extractive summarization, and propose to automatically select a sufficient subset of the most important facts from the ruling comments (RCs) of a professional journalist to obtain fact-checking explanations. However, these explanations lack fluency and sentence coherence. In this work, we present an iterative edit-based algorithm that uses only phrase-level edits to perform unsupervised post-editing of disconnected RCs. To regulate our editing algorithm, we use a scoring function with components including fluency and semantic preservation. In addition, we show the applicability of our approach in a completely unsupervised setting. We experiment with two benchmark datasets, LIAR-PLUS and PubHealth. We show that our model generates explanations that are fluent, readable, non-redundant, and cover important information for the fact check.
翻訳日:2021-12-15 14:39:25 公開日:2021-12-13
# 言語モデルは言語のモデルではない

Language Models are not Models of Language ( http://arxiv.org/abs/2112.07055v1 )

ライセンス: Link先を確認
Csaba Veres(参考訳) 自然言語処理(NLP)は、現在の人工知能ブームにおける主要な応用分野の一つとなっている。 トランスファー学習は、言語モデリングタスクでトレーニングされた大規模なディープラーニングニューラルネットワークを可能にし、ほぼすべての言語タスクのパフォーマンスを大幅に向上させた。 興味深いことに、モデルをソフトウェアコードを含むデータでトレーニングすると、自然言語仕様から関数型コンピュータコードを生成する際、顕著な能力を示す。 このことは、言語がどのように機能するかを説明するために、ニューラルモデルが生成的フレーズ構造文法に代わる理論を提供するという主張に矛盾をもたらす。 プログラミング言語の構文は句構造文法によって決定されるため、成功したニューラルモデルはプログラミング言語の理論的基礎や拡張によって、明らかに非形式的である。 深層学習モデルは言語の理論モデルではないため、言語モデルという用語は誤解を招くと論じ、代わりにコーパスモデルを採用することを提案する。

Natural Language Processing (NLP) has become one of the leading application areas in the current Artificial Intelligence boom. Transfer learning has enabled large deep learning neural networks trained on the language modeling task to vastly improve performance in almost all language tasks. Interestingly, when the models are trained with data that includes software code, they demonstrate remarkable abilities in generating functioning computer code from natural language specifications. We argue that this creates a conundrum for claims that neural models provide an alternative theory to generative phrase structure grammars in explaining how language works. Since the syntax of programming languages is determined by phrase structure grammars, successful neural models are apparently uninformative about the theoretical foundations of programming languages, and by extension, natural languages. We argue that the term language model is misleading because deep learning models are not theoretical models of language and propose the adoption of corpus model instead, which better reflects the genesis and contents of the model.
翻訳日:2021-12-15 14:39:10 公開日:2021-12-13
# ISEEQ:動的メタ情報検索と知識グラフを用いた情報検索質問生成

ISEEQ: Information Seeking Question Generation using Dynamic Meta-Information Retrieval and Knowledge Graphs ( http://arxiv.org/abs/2112.07622v1 )

ライセンス: Link先を確認
Manas Gaur, Kalpa Gunaratna, Vijay Srinivasan, Hongxia Jin(参考訳) conversational information seeking(cis)は、会話型aiにおける比較的新しい研究領域であり、ユーザのニーズを理解し満足させるために、エンドユーザから情報を求める。 実現すれば、そのようなシステムは現実世界で広範囲にわたる利益を享受できる。例えば、cisシステムは、医療におけるプレスクリーニングやトリアージの患者を助けることができる。 CISにおける重要なサブプロブレムは、エンドユーザーからの短い初期クエリに基づいてISQ(Information Seeking Questions)を生成することである。 この問題に対処するため,我々は,ユーザクエリに関連する大きなテキストコーパスに対して,短いユーザクエリからisqを生成するための新しい手法である information seeking question generator (iseeq) を提案する。 まず、ISEEQは知識グラフを使ってユーザクエリを強化します。 第二に、ISEEQは知識に富んだクエリを使用して関連するコンテキストパスを検索し、概念フローに忠実なISQを問う。 第3に、iseeqはisqを生成するための新しいディープジェネレーティブ-アドバーサリー強化学習アプローチを導入している。 CISエージェントの開発を促進するために,ISEEQは高品質なISQを生成することができることを示す。 ISEEQは、さまざまなドメインからのユーザクエリを持つ4つのデータセットにわたる5つのISQ評価指標において、同等のベースラインを著しく上回る。 さらに、ISEEQはISQを生成するドメイン間で転送可能であり、異なるドメインに対してトレーニングおよびテストを行う際に許容される性能を示す。 定性的な人間の評価は、ISEEQの生成したISQは、人間の生成した質問に匹敵する品質であり、最も優れたベースラインを上回っていることを確認した。

Conversational Information Seeking (CIS) is a relatively new research area within conversational AI that attempts to seek information from end-users in order to understand and satisfy users' needs. If realized, such a system has far-reaching benefits in the real world; for example, a CIS system can assist clinicians in pre-screening or triaging patients in healthcare. A key open sub-problem in CIS that remains unaddressed in the literature is generating Information Seeking Questions (ISQs) based on a short initial query from the end-user. To address this open problem, we propose Information SEEking Question generator (ISEEQ), a novel approach for generating ISQs from just a short user query, given a large text corpus relevant to the user query. Firstly, ISEEQ uses a knowledge graph to enrich the user query. Secondly, ISEEQ uses the knowledge-enriched query to retrieve relevant context passages to ask coherent ISQs adhering to a conceptual flow. Thirdly, ISEEQ introduces a new deep generative-adversari al reinforcement learning-based approach for generating ISQs. We show that ISEEQ can generate high-quality ISQs to promote the development of CIS agents. ISEEQ significantly outperforms comparable baselines on five ISQ evaluation metrics across four datasets having user queries from diverse domains. Further, we argue that ISEEQ is transferable across domains for generating ISQs, as it shows the acceptable performance when trained and tested on different pairs of domains. The qualitative human evaluation confirms ISEEQ-generated ISQs are comparable in quality to human-generated questions and outperform the best comparable baseline.
翻訳日:2021-12-15 14:38:39 公開日:2021-12-13
# プレイスクリプトのための制御キュー生成

Controlled Cue Generation for Play Scripts ( http://arxiv.org/abs/2112.06953v1 )

ライセンス: Link先を確認
Alara Dirik, Hilal Donmez, Pinar Yanardag(参考訳) 本稿では,大規模脚本データセットを用いて対話から演劇キューを生成する新しい課題を提案する。 100万行以上の対話と手がかりを用いて,cue生成の問題を制御されたテキスト生成タスクとしてアプローチし,対話/キュー識別器に条件付き言語モデルを用いて対話の効果を高める方法を示す。 さらに,テキスト生成における話題キーワードと感情の利用について検討する。 大規模な量的および定性的な実験により、言語モデルは、プレイスクリプトのような高度に専門化された領域において、可塑性および属性制御されたテキストを生成するのに成功できることが示されている。 サポート資料はhttps://catlab-team. github.io/cuegen。

In this paper, we use a large-scale play scripts dataset to propose the novel task of theatrical cue generation from dialogues. Using over one million lines of dialogue and cues, we approach the problem of cue generation as a controlled text generation task, and show how cues can be used to enhance the impact of dialogue using a language model conditioned on a dialogue/cue discriminator. In addition, we explore the use of topic keywords and emotions for controlled text generation. Extensive quantitative and qualitative experiments show that language models can be successfully used to generate plausible and attribute-controlled texts in highly specialised domains such as play scripts. Supporting materials can be found at: https://catlab-team. github.io/cuegen.
翻訳日:2021-12-15 14:21:50 公開日:2021-12-13
# ラベル欠落マルチラベル学習のための簡易かつロバストな損失設計

Simple and Robust Loss Design for Multi-Label Learning with Missing Labels ( http://arxiv.org/abs/2112.07368v1 )

ライセンス: Link先を確認
Youcai Zhang, Yuhao Cheng, Xinyu Huang, Fei Wen, Rui Feng, Yaqian Li and Yandong Guo(参考訳) 欠落ラベル(MLML)の存在下でのマルチラベル学習は難しい問題である。 既存の手法は主に、実装の複雑さを増大させるネットワーク構造やトレーニングスキームの設計に焦点を当てている。 本研究は,MLMLにおける損失関数の可能性を,手順や複雑性を増大させることなく実現しようとするものである。 そこで本研究では,学習中に欠落ラベルを高精度に識別できるという観測に基づいて,ロバスト損失設計による簡易かつ効果的な2つの手法を提案する。 1つ目は、ヒルの損失(ヒルの損失)であり、これは、偽陰性の影響を軽減するために丘の形状の負を再び重み付けするものである。 2つめは自己ペースド損失補正(splc)法であり、欠落ラベルの近似分布の下で最大確率基準から導出される損失を用いる。 幅広い多ラベル画像分類データセットに関する総合的な実験により、我々の手法はMLMLの性能を大幅に向上させ、MLMLにおける新しい最先端の損失関数を実現することができることを示した。

Multi-label learning in the presence of missing labels (MLML) is a challenging problem. Existing methods mainly focus on the design of network structures or training schemes, which increase the complexity of implementation. This work seeks to fulfill the potential of loss function in MLML without increasing the procedure and complexity. Toward this end, we propose two simple yet effective methods via robust loss design based on an observation that a model can identify missing labels during training with a high precision. The first is a novel robust loss for negatives, namely the Hill loss, which re-weights negatives in the shape of a hill to alleviate the effect of false negatives. The second is a self-paced loss correction (SPLC) method, which uses a loss derived from the maximum likelihood criterion under an approximate distribution of missing labels. Comprehensive experiments on a vast range of multi-label image classification datasets demonstrate that our methods can remarkably boost the performance of MLML and achieve new state-of-the-art loss functions in MLML.
翻訳日:2021-12-15 14:21:17 公開日:2021-12-13
# (参考訳) Surfer100:ウィキペディア形式のWebリソースからサーベイを生成する [全文訳有]

Surfer100: Generating Surveys From Web Resources on Wikipedia-style ( http://arxiv.org/abs/2112.06377v1 )

ライセンス: CC0 1.0
Irene Li, Alexander Fabbri, Rina Kawamura, Yixin Liu, Xiangru Tang, Jaesung Tae, Chang Shen, Sally Ma, Tomoe Mizutani, Dragomir Radev(参考訳) 人工知能(AI)のような高速開発分野は、最近紹介されたトピックを完全にカバーしていないWikipediaのような百科事典ソースの取り組みよりも優れていることが多い。 その結果、コンテンツの自動生成方法は、この情報過負荷に対処するための貴重なツールである。 先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。 提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。 長いウィキペディアスタイルの要約にwebリソースを活用して、私たちの知識を最大限に活用する最初の研究です。

Fast-developing fields such as Artificial Intelligence (AI) often outpace the efforts of encyclopedic sources such as Wikipedia, which either do not completely cover recently-introduced topics or lack such content entirely. As a result, methods for automatically producing content are valuable tools to address this information overload. We show that recent advances in pretrained language modeling can be combined for a two-stage extractive and abstractive approach for Wikipedia lead paragraph generation. We extend this approach to generate longer Wikipedia-style summaries with sections and examine how such methods struggle in this application through detailed studies with 100 reference human-collected surveys. This is the first study on utilizing web resources for long Wikipedia-style summaries to the best of our knowledge.
翻訳日:2021-12-15 06:05:28 公開日:2021-12-13
# (参考訳) 誘導的文書分類のためのグラフニューラルネットワークによるスパース構造学習 [全文訳有]

Sparse Structure Learning via Graph Neural Networks for Inductive Document Classification ( http://arxiv.org/abs/2112.06386v1 )

ライセンス: CC BY 4.0
Yinhua Piao, Sangseon Lee, Dohoon Lee, Sun Kim(参考訳) 近年,グラフニューラルネットワーク(GNN)が文書分類に広く利用されている。 しかし,既存の手法の多くは文レベルの情報を持たない静的な単語共起グラフに基づいているため,(1)単語曖昧性,(2)単語同義性,(3)動的文脈依存の3つの課題が生じる。 これらの課題に対処するために,本研究では, GNN を用いた新しいスパース構造学習モデルを提案する。 具体的には、文書レベルのグラフは、まず文レベルの単語共起グラフの不一致結合によって生成される。 本モデルでは,文間の不一致語を連結する訓練可能なエッジの集合を収集し,動的文脈依存性を持つエッジを疎結合に選択する構造学習を用いる。 スパース構造を持つグラフは、GNNを通じて文書内のローカルおよびグローバルコンテキスト情報を共同で活用することができる。 インダクティブ学習の場合、洗練された文書グラフは、エンドツーエンドでグラフレベルの分類と最適化のための一般的な読み出し関数にさらに供給される。 いくつかの実世界のデータセットに関する広範囲な実験により、提案されたモデルは最先端の結果よりも優れており、各ドキュメントのスパース構造を学ぶ必要性が明らかになった。

Recently, graph neural networks (GNNs) have been widely used for document classification. However, most existing methods are based on static word co-occurrence graphs without sentence-level information, which poses three challenges:(1) word ambiguity, (2) word synonymity, and (3) dynamic contextual dependency. To address these challenges, we propose a novel GNN-based sparse structure learning model for inductive document classification. Specifically, a document-level graph is initially generated by a disjoint union of sentence-level word co-occurrence graphs. Our model collects a set of trainable edges connecting disjoint words between sentences and employs structure learning to sparsely select edges with dynamic contextual dependencies. Graphs with sparse structures can jointly exploit local and global contextual information in documents through GNNs. For inductive learning, the refined document graph is further fed into a general readout function for graph-level classification and optimization in an end-to-end manner. Extensive experiments on several real-world datasets demonstrate that the proposed model outperforms most state-of-the-art results, and reveal the necessity to learn sparse structures for each document.
翻訳日:2021-12-15 05:56:24 公開日:2021-12-13
# (参考訳) 少数ショット学習のための属性による視覚表現形成 [全文訳有]

Shaping Visual Representations with Attributes for Few-Shot Learning ( http://arxiv.org/abs/2112.06398v1 )

ライセンス: CC BY 4.0
Haoxing Chen and Huaxiong Li and Yaohui Li and Chunlin Chen(参考訳) 少ないショット認識は、低データ体制下での新規カテゴリの認識を目的としている。 画像の不足のため、機械は十分な有効な情報を得ることができず、モデルの一般化能力は非常に弱い。 補助的セマンティック・モダリティを用いることで、近年のメトリクス学習に基づく数ショット学習法は有望な性能を達成した。 しかし、これらの手法はサポートクラスの表現を補強するだけであり、クエリ画像は表現を強化するための意味的モダリティ情報を持たない。 代わりに属性型学習 (ASL) を提案し, 視覚表現を正規化し, クエリ画像の属性を予測する。 さらに,属性を利用してより識別的な特徴を生成する属性視覚アテンションモジュール (AVAM) を考案する。 本手法は,属性ガイダンスを用いて視覚表現を重要領域に集中させる。 実験により,本手法はCUBおよびSUNベンチマークにおいて競合する結果が得られることが示された。 私たちのコードは、https://github.com/c henhaoxing/ASL}で利用可能です。

Few-shot recognition aims to recognize novel categories under low-data regimes. Due to the scarcity of images, machines cannot obtain enough effective information, and the generalization ability of the model is extremely weak. By using auxiliary semantic modalities, recent metric-learning based few-shot learning methods have achieved promising performances. However, these methods only augment the representations of support classes, while query images have no semantic modalities information to enhance representations. Instead, we propose attribute-shaped learning (ASL), which can normalize visual representations to predict attributes for query images. And we further devise an attribute-visual attention module (AVAM), which utilizes attributes to generate more discriminative features. Our method enables visual representations to focus on important regions with attributes guidance. Experiments demonstrate that our method can achieve competitive results on CUB and SUN benchmarks. Our code is available at {https://github.com/c henhaoxing/ASL}.
翻訳日:2021-12-15 05:43:13 公開日:2021-12-13
# (参考訳) ディープラーニングにおけるデータ収集と品質問題 - データ中心AIの視点から [全文訳有]

Data Collection and Quality Challenges in Deep Learning: A Data-Centric AI Perspective ( http://arxiv.org/abs/2112.06409v1 )

ライセンス: CC BY 4.0
Steven Euijong Whang, Yuji Roh, Hwanjun Song, Jae-Gil Lee(参考訳) Software 2.0は、機械学習がビッグデータとコンピューティングインフラストラクチャを基盤とする新しいソフトウェアになるソフトウェアエンジニアリングの根本的な変化である。 結果として、ソフトウェアエンジニアリングは、データがコードと同等の第一級市民になるよう再検討する必要があります。 注目すべき観察のひとつは、機械学習プロセスの80~90%がデータ準備に費やされていることだ。 優れたデータがなければ、最高の機械学習アルゴリズムでさえうまく機能しない。 その結果、データ中心のaiプラクティスが主流になりつつある。 残念ながら、現実世界の多くのデータセットは小さく、汚れ、偏り、さらには毒まみれだ。 本研究では,主にディープラーニングアプリケーションを対象としたデータ収集とデータ品質の研究環境について検討する。 データ収集は、最近のディープラーニングアプローチでは機能エンジニアリングの必要性が少なく、むしろ大量のデータを必要とするため重要である。 データ品質については、データ検証とデータクリーニング技術について研究する。 たとえデータが完全にクリーニングできないとしても、堅牢なモデルトレーニング技術を使用するモデルトレーニング中に不完全なデータを扱うことができます。 さらに、従来のデータ管理研究ではバイアスや公平性があまり研究されていないが、これらの問題は現代の機械学習アプリケーションにおいて重要なトピックとなっている。 そこで本研究では,モデルトレーニング前後に適用可能な公平度対策と不公平度軽減技術について検討する。 データ管理コミュニティは、これらの方向の問題を解決するのに十分適していると考えています。

Software 2.0 is a fundamental shift in software engineering where machine learning becomes the new software, powered by big data and computing infrastructure. As a result, software engineering needs to be re-thought where data becomes a first-class citizen on par with code. One striking observation is that 80-90% of the machine learning process is spent on data preparation. Without good data, even the best machine learning algorithms cannot perform well. As a result, data-centric AI practices are now becoming mainstream. Unfortunately, many datasets in the real world are small, dirty, biased, and even poisoned. In this survey, we study the research landscape for data collection and data quality primarily for deep learning applications. Data collection is important because there is lesser need for feature engineering for recent deep learning approaches, but instead more need for large amounts of data. For data quality, we study data validation and data cleaning techniques. Even if the data cannot be fully cleaned, we can still cope with imperfect data during model training where using robust model training techniques. In addition, while bias and fairness have been less studied in traditional data management research, these issues become essential topics in modern machine learning applications. We thus study fairness measures and unfairness mitigation techniques that can be applied before, during, or after model training. We believe that the data management community is well poised to solve problems in these directions.
翻訳日:2021-12-15 05:33:02 公開日:2021-12-13
# (参考訳) ガウス過程回帰における低ランク近似はどの程度良いか? [全文訳有]

How Good are Low-Rank Approximations in Gaussian Process Regression? ( http://arxiv.org/abs/2112.06410v1 )

ライセンス: CC BY 4.0
Constantinos Daskalakis, Petros Dellaportas, Aristeidis Panos(参考訳) 我々は、ランダムなフーリエ特徴に基づく2つの一般的な低ランクカーネル近似から生じる近似ガウス過程(GP)の回帰を保証し、カーネルのマーサー展開を阻止する。 特に,kullback-leibler の偏差を,その近似値と近似値を用いて計算した予測平均ベクトルと予測共分散行列の間に限定する。 理論境界の有効性を評価するため,シミュレーションデータと標準ベンチマークの両方について実験を行った。

We provide guarantees for approximate Gaussian Process (GP) regression resulting from two common low-rank kernel approximations: based on random Fourier features, and based on truncating the kernel's Mercer expansion. In particular, we bound the Kullback-Leibler divergence between an exact GP and one resulting from one of the afore-described low-rank approximations to its kernel, as well as between their corresponding predictive densities, and we also bound the error between predictive mean vectors and between predictive covariance matrices computed using the exact versus using the approximate GP. We provide experiments on both simulated data and standard benchmarks to evaluate the effectiveness of our theoretical bounds.
翻訳日:2021-12-15 04:56:53 公開日:2021-12-13
# (参考訳) 有毒コメント分類法に関する調査研究 [全文訳有]

A Survey of Toxic Comment Classification Methods ( http://arxiv.org/abs/2112.06412v1 )

ライセンス: CC BY 4.0
Kehan Wang, Jiaxi Yang, Hongjun Wu(参考訳) 実生活では、誰もが少なくともある程度は振る舞うが、他人に有害なものを投稿するためのチェックや結果がほとんどないため、人々がインターネット上で振る舞うことを期待するのはずっと難しい。 しかし、反対側の人にとっては、有害なテキストは深刻な心理的結果をもたらすことが多い。 このような有害なテキストの検出は難しい。 本稿では, cnn, naive bayesモデル, lstmなどの機械学習手法を用いた毒性検出器の構築を試みた。 他にも多くの基礎研究が行われてきたが、我々は前者よりも高精度なモデルの構築を目指している。 lstmとcnnを用いて高精度モデルを作成し,言語処理におけるgo-toソリューションであるnaive bayesモデルと比較した。 単語埋め込みアプローチは、モデルの精度を高めるためにも適用されます。

While in real life everyone behaves themselves at least to some extent, it is much more difficult to expect people to behave themselves on the internet, because there are few checks or consequences for posting something toxic to others. Yet, for people on the other side, toxic texts often lead to serious psychological consequences. Detecting such toxic texts is challenging. In this paper, we attempt to build a toxicity detector using machine learning methods including CNN, Naive Bayes model, as well as LSTM. While there has been numerous groundwork laid by others, we aim to build models that provide higher accuracy than the predecessors. We produced very high accuracy models using LSTM and CNN, and compared them to the go-to solutions in language processing, the Naive Bayes model. A word embedding approach is also applied to empower the accuracy of our models.
翻訳日:2021-12-15 04:09:38 公開日:2021-12-13
# (参考訳) LC-FDNet:周波数分解ネットワークを用いた学習損失画像圧縮 [全文訳有]

LC-FDNet: Learned Lossless Image Compression with Frequency Decomposition Network ( http://arxiv.org/abs/2112.06417v1 )

ライセンス: CC BY 4.0
Hochang Rhee, Yeong Il Jang, Seyun Kim, Nam Ik Cho(参考訳) 近年の学習に基づくロスレス画像圧縮法では,サブイメージ単位の画像を符号化し,従来の非学習アルゴリズムに匹敵する性能を実現する。 しかし、これらの手法は高周波領域における性能低下を考慮せず、低域と高周波領域に等しく考慮する。 本稿では,低周波領域と高周波領域を別々に分離処理するために,符号化を粗視的に進行させる新しいロスレス画像圧縮法を提案する。 まず、低周波成分を圧縮し、残りの高周波領域を符号化するための追加入力として使用する。 この場合、低周波成分は強い先行として作用し、高周波領域における推定を改善する。 さらに,色チャネル,空間位置,画像特性に適応する周波数分解プロセスを設計した。 その結果,低周波数成分のイメージ特異的最適比を導出した。 提案手法がベンチマーク高分解能データセットの最先端性能を実現することを示す実験を行った。

Recent learning-based lossless image compression methods encode an image in the unit of subimages and achieve comparable performances to conventional non-learning algorithms. However, these methods do not consider the performance drop in the high-frequency region, giving equal consideration to the low and high-frequency areas. In this paper, we propose a new lossless image compression method that proceeds the encoding in a coarse-to-fine manner to separate and process low and high-frequency regions differently. We initially compress the low-frequency components and then use them as additional input for encoding the remaining high-frequency region. The low-frequency components act as a strong prior in this case, which leads to improved estimation in the high-frequency area. In addition, we design the frequency decomposition process to be adaptive to color channel, spatial location, and image characteristics. As a result, our method derives an image-specific optimal ratio of low/high-frequency components. Experiments show that the proposed method achieves state-of-the-art performance for benchmark high-resolution datasets.
翻訳日:2021-12-15 04:04:42 公開日:2021-12-13
# (参考訳) ガウス多武装バンディットのUPB則の記述を制限する確率微分方程式 [全文訳有]

Stochastic differential equations for limiting description of UCB rule for Gaussian multi-armed bandits ( http://arxiv.org/abs/2112.06423v1 )

ライセンス: CC BY 4.0
Sergey Garbar(参考訳) ガウス多武装バンドの高信頼バウンド戦略を制御地平線サイズが既知の$N$で検討し、確率微分方程式と常微分方程式の系を用いて制限記述を構築する。 腕に対する報酬は、未知の期待値と既知のばらつきを持つと仮定される。 1組のモンテカルロシミュレーションが、報酬の密分布の場合、平均報酬が、最も正規化された後悔を与えるため、$n^{-1/2}$の桁数によって異なり、得られた記述の妥当性を検証するために行われた。 正規化された後悔が最大値よりも顕著に大きくない制御水平方向の最小サイズを推定した。

We consider the upper confidence bound strategy for Gaussian multi-armed bandits with known control horizon sizes $N$ and build its limiting description with a system of stochastic differential equations and ordinary differential equations. Rewards for the arms are assumed to have unknown expected values and known variances. A set of Monte-Carlo simulations was performed for the case of close distributions of rewards, when mean rewards differ by the magnitude of order $N^{-1/2}$, as it yields the highest normalized regret, to verify the validity of the obtained description. The minimal size of the control horizon when the normalized regret is not noticeably larger than maximum possible was estimated.
翻訳日:2021-12-15 03:51:35 公開日:2021-12-13
# (参考訳) ソーシャル・ディスタンシング・ヴァイオレーションの同定のためのコンピュータビジョンと時間グラフを用いた公共シーンの全体的解釈

Holistic Interpretation of Public Scenes Using Computer Vision and Temporal Graphs to Identify Social Distancing Violations ( http://arxiv.org/abs/2112.06428v1 )

ライセンス: CC BY 4.0
Gihan Jayatilaka and Jameel Hassan and Suren Sritharan and Janith Bandara Senananayaka and Harshana Weligampola and Roshan Godaliyadda and Parakrama Ekanayake and Vijitha Herath and Janaka Ekanayake and Samath Dharmaratne(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、前例のない世界的な公衆衛生危機を引き起こした。 本質的には、このパンデミックの拡散を抑えるための主要な戦略として、ソーシャルディスタンシング対策が提案されている。 したがって、これらのプロトコルが違反している状況を特定し、病気の拡散を抑え、持続可能なライフスタイルを促進することにつながる。 本稿では,cctv映像を分析し,感染拡大の脅威レベル評価を行うコンピュータビジョンシステムを提案する。 このシステムは、複数のフレームにまたがるcctv映像の情報内容の収集と解釈を行い、時間と空間にまたがる様々なソーシャルディスタンシングプロトコル違反の事例を認識し、グループ行動の同定に努めている。 この機能は、主に、cctv映像の情報を表現するための時間グラフベースの構造と、グラフを確率的に解釈し、所定のシーンの脅威レベルを定量化する戦略を用いて達成される。 個々のコンポーネントはさまざまなシナリオでテストされ、検証され、完全なシステムは人間の専門家の意見に対してテストされます。 結果は、脅威レベルの人への依存、物理的近接、相互作用、防護服、グループダイナミクスを反映している。 システム性能は76%の精度で、都市に展開可能な脅威監視システムを提供し、社会の正常性と持続可能性を保証する。

The COVID-19 pandemic has caused an unprecedented global public health crisis. Given its inherent nature, social distancing measures are proposed as the primary strategies to curb the spread of this pandemic. Therefore, identifying situations where these protocols are violated, has implications for curtailing the spread of the disease and promoting a sustainable lifestyle. This paper proposes a novel computer vision-based system to analyze CCTV footage to provide a threat level assessment of COVID-19 spread. The system strives to holistically capture and interpret the information content of CCTV footage spanning multiple frames to recognize instances of various violations of social distancing protocols, across time and space, as well as identification of group behaviors. This functionality is achieved primarily by utilizing a temporal graph-based structure to represent the information of the CCTV footage and a strategy to holistically interpret the graph and quantify the threat level of the given scene. The individual components are tested and validated on a range of scenarios and the complete system is tested against human expert opinion. The results reflect the dependence of the threat level on people, their physical proximity, interactions, protective clothing, and group dynamics. The system performance has an accuracy of 76%, thus enabling a deployable threat monitoring system in cities, to permit normalcy and sustainability in the society.
翻訳日:2021-12-15 03:47:21 公開日:2021-12-13
# (参考訳) 複数の特徴量を用いたAirbnbレンタル価格の予測 [全文訳有]

Predicting Airbnb Rental Prices Using Multiple Feature Modalities ( http://arxiv.org/abs/2112.06430v1 )

ライセンス: CC BY 4.0
Aditya Ahuja, Aditya Lahiri, Aniruddha Das(参考訳) リストアップされたAirbnbレンタルの価格を確認することは、ホストと顧客の両方にとって重要かつ難しい作業である。 前者にとって、利益を損なうことなく合理的な価格を設定することができる。 顧客にとって、これは価格のキードライバーを理解するのに役立ち、同様に価格の高い場所を提供する。 この価格予測回帰タスクは、価格に基づく類似のレンタルの推奨など、複数の下流利用も可能である。 位置情報,時間的,視覚的,自然言語的特徴を用いて,信頼性と正確な価格予測アルゴリズムを提案する。

Figuring out the price of a listed Airbnb rental is an important and difficult task for both the host and the customer. For the former, it can enable them to set a reasonable price without compromising on their profits. For the customer, it helps understand the key drivers for price and also provides them with similarly priced places. This price prediction regression task can also have multiple downstream uses, such as in recommendation of similar rentals based on price. We propose to use geolocation, temporal, visual and natural language features to create a reliable and accurate price prediction algorithm.
翻訳日:2021-12-15 03:45:59 公開日:2021-12-13
# (参考訳) データ中心AIはデータとMLエンジニアリングから何を学ぶことができるのか? [全文訳有]

What can Data-Centric AI Learn from Data and ML Engineering? ( http://arxiv.org/abs/2112.06439v1 )

ライセンス: CC BY 4.0
Neoklis Polyzotis and Matei Zaharia(参考訳) データ中心のAIは、AIコミュニティで新しくてエキサイティングな研究トピックだが、多くの企業がすでに、高品質なデータを生成することを目的とした、さまざまな“データ中心”アプリケーションを構築し、メンテナンスしている。 これらは、従来のビジネスデータ処理アプリケーション(例:「今月、各顧客にいくら課金すべきか?」)から、レコメンデーションエンジンなどのMLシステムまで様々です。 データとMLエンジニアリングの分野は、これらのアプリケーションを管理するために近年出現し、興味深いツールやプロセスが数多く含まれている。 本稿では、さまざまな組織で数千のアプリケーションをサポートするデータとMLプラットフォームを構築した経験に基づいて、データ中心のAIに適用することに興味のあるデータとMLエンジニアリングからの教訓について論じる。

Data-centric AI is a new and exciting research topic in the AI community, but many organizations already build and maintain various "data-centric" applications whose goal is to produce high quality data. These range from traditional business data processing applications (e.g., "how much should we charge each of our customers this month?") to production ML systems such as recommendation engines. The fields of data and ML engineering have arisen in recent years to manage these applications, and both include many interesting novel tools and processes. In this paper, we discuss several lessons from data and ML engineering that could be interesting to apply in data-centric AI, based on our experience building data and ML platforms that serve thousands of applications at a range of organizations.
翻訳日:2021-12-15 03:39:34 公開日:2021-12-13
# (参考訳) ランク付けフェアネスを考慮した自己更新深部回帰林 [全文訳有]

Self-Paced Deep Regression Forests with Consideration on Ranking Fairness ( http://arxiv.org/abs/2112.06455v1 )

ライセンス: CC BY 4.0
Lili Pan, Mingming Meng, Yazhou Ren, Yali Zheng, Zenglin Xu(参考訳) 深部回帰林、深部神経決定林などの深部識別モデル(DDM)は、顔年齢推定、頭部ポーズ推定、視線推定などの問題を解決するために近年広く研究されている。 このような問題は、ノイズやバイアスのない大量の効果的なトレーニングデータがしばしば利用できないため、課題となっている。 いくつかの進歩は、より差別的な特徴を学習したり、サンプルを再重み付けすることで達成されているが、より望ましいのは、徐々に人間のように差別を覚えることである。 次に,SPL(Self-paced Learning)を活用する。 DDMはより堅牢でバイアスの少ないソリューションを実現することができるのだろうか? この研究で最初に議論されたSPLの深刻な問題は、特に不均衡なデータに対して、解のバイアスを増大させる傾向があることである。 そこで本研究では,各事例に関連付けられた出力確率とエントロピーに応じて,ノイズと過小表現の例を区別し,新たな視点からsplの基本ランキング問題に取り組む,深層判別モデルのための新しい自己ペースパラダイムを提案する。 このパラダイムは基本的なものであり、様々なDDMと簡単に組み合わせることができる。 顔年齢推定,頭部ポーズ推定,視線推定などの3つのコンピュータビジョンタスクに関する広範囲な実験を行い,このパラダイムの有効性を実証した。 我々の知識を最大限に活用するために、我々の研究は自給体制構築の公正さを考慮に入れたSPL文学における最初の論文である。

Deep discriminative models (DDMs), such as deep regression forests, deep neural decision forests, have been extensively studied recently to solve problems like facial age estimation, head pose estimation, gaze estimation and so forth. Such problems are challenging in part because a large amount of effective training data without noise and bias is often not available. While some progress has been achieved through learning more discriminative features, or reweighting samples, we argue what is more desirable is to learn gradually to discriminate like human beings. Then, we resort to self-paced learning (SPL). But a natural question arises: can self-paced regime lead DDMs to achieve more robust and less biased solutions? A serious problem with SPL, which is firstly discussed by this work, is it tends to aggravate the bias of solutions, especially for obvious imbalanced data. To this end, this paper proposes a new self-paced paradigm for deep discriminative model, which distinguishes noisy and underrepresented examples according to the output likelihood and entropy associated with each example, and tackle the fundamental ranking problem in SPL from a new perspective: fairness. This paradigm is fundamental, and could be easily combined with a variety of DDMs. Extensive experiments on three computer vision tasks, such as facial age estimation, head pose estimation and gaze estimation, demonstrate the efficacy of our paradigm. To the best of our knowledge, our work is the first paper in the literature of SPL that considers ranking fairness for self-paced regime construction.
翻訳日:2021-12-15 03:33:21 公開日:2021-12-13
# (参考訳) 機械学習による心臓疾患診断 : 体系的文献レビュー [全文訳有]

Machine Learning-Based Heart Disease Diagnosis: A Systematic Literature Review ( http://arxiv.org/abs/2112.06459v1 )

ライセンス: CC BY 4.0
Md Manjurul Ahsan, Zahed Siddique(参考訳) 心臓病は、今日の世界で重要な課題の1つであり、世界中の多くの死の原因の1つです。 最近の機械学習(ML)応用の進歩は、心電図(ECG)と患者のデータを用いて、早期に心臓病を検出することが可能であることを示している。 しかし、心電図と患者のデータは、しばしば不均衡であり、結果として従来のMLが偏りなく振る舞うという課題が引き起こされる。 長年にわたり、多くの研究者や実践者がデータレベルとアルゴリズムレベルのソリューションを公開してきた。 そこで本研究では, 心疾患予測における不均衡データに関連する課題を明らかにするために, 体系的文献レビュー(SLR)アプローチを取り入れた。 その前は,2012年から2021年11月15日までに,学術誌から入手した451文献を参考にメタ分析を行った。 詳細な分析では、49の文献が検討され、心臓病の種類、アルゴリズム、応用、解決策などを考慮して研究されている。 我々のSLR研究は、現在のアプローチが不均衡なデータを扱う際に様々なオープンな問題や問題に遭遇し、最終的には実用性や機能を妨げることを明らかにした。

Heart disease is one of the significant challenges in today's world and one of the leading causes of many deaths worldwide. Recent advancement of machine learning (ML) application demonstrates that using electrocardiogram (ECG) and patient data, detecting heart disease during the early stage is feasible. However, both ECG and patient data are often imbalanced, which ultimately raises a challenge for the traditional ML to perform unbiasedly. Over the years, several data level and algorithm level solutions have been exposed by many researchers and practitioners. To provide a broader view of the existing literature, this study takes a systematic literature review (SLR) approach to uncover the challenges associated with imbalanced data in heart diseases predictions. Before that, we conducted a meta-analysis using 451 referenced literature acquired from the reputed journals between 2012 and November 15, 2021. For in-depth analysis, 49 referenced literature has been considered and studied, taking into account the following factors: heart disease type, algorithms, applications, and solutions. Our SLR study revealed that the current approaches encounter various open problems/issues when dealing with imbalanced data, eventually hindering their practical applicability and functionality.
翻訳日:2021-12-15 03:03:57 公開日:2021-12-13
# (参考訳) 社会的・心理的プロファイルからユーザコード切り替えレベルを予測する [全文訳有]

Predicting User Code-Switching Level from Sociological and Psychological Profiles ( http://arxiv.org/abs/2112.06462v1 )

ライセンス: CC BY 4.0
Injy Hamed, Alia El Bolock, Nader Rizk, Cornelia Herbert, Slim Abdennadher, Ngoc Thang Vu(参考訳) 多言語話者は会話の中で言語間で交互に話す傾向があり、この現象は"code-switching"(CS)と呼ばれる。 CSは言語的な課題を包含するだけでなく、話者間の動的振る舞いの観点からも多くの複雑さを含む複雑な現象である。 この動的な行動は社会学者や心理学者によって研究され、CSに影響を与える要因を特定している。 本稿では,アラビア語と英語のcsについて経験的ユーザ調査を行い,ユーザのcs頻度と文字特性の相関性を示す。 機械学習(ML)を用いて、既存の理論を検証し、報告し、確認する。 予測モデルはユーザのCS周波数を55%以上の精度で予測することができ、そこでは旅行経験と性格特性がモデリングプロセスで最大の役割を果たした。

Multilingual speakers tend to alternate between languages within a conversation, a phenomenon referred to as "code-switching" (CS). CS is a complex phenomenon that not only encompasses linguistic challenges, but also contains a great deal of complexity in terms of its dynamic behaviour across speakers. This dynamic behaviour has been studied by sociologists and psychologists, identifying factors affecting CS. In this paper, we provide an empirical user study on Arabic-English CS, where we show the correlation between users' CS frequency and character traits. We use machine learning (ML) to validate the findings, informing and confirming existing theories. The predictive models were able to predict users' CS frequency with an accuracy higher than 55%, where travel experiences and personality traits played the biggest role in the modeling process.
翻訳日:2021-12-15 02:43:29 公開日:2021-12-13
# (参考訳) 情報追跡ベンチマーク [全文訳有]

An Informative Tracking Benchmark ( http://arxiv.org/abs/2112.06467v1 )

ライセンス: CC BY 4.0
Xin Li and Qiao Liu and Wenjie Pei and Qiuhong Shen and Yaowei Wang and Huchuan Lu and Ming-Hsuan Yang(参考訳) ビジュアルトラッキングの急速な進歩とともに、既存のベンチマークはサンプルの冗長性や現在のトラッカー間の差別の弱さにより情報量が少なくなり、すべてのデータセットの評価は非常に時間がかかる。 このように、トラッカーのパフォーマンスを評価するための典型的なシナリオを網羅する、小さくて情報に富んだベンチマークは非常に興味深い。 本研究では,既存のデータセットの1.2Mフレームのうち7%を対象とし,有効性を確保しつつ,効率的な評価を可能にする,小型かつ情報的な追跡ベンチマーク(ITB)を構築する方法を開発した。 具体的には、既存のベンチマークから最も有意義なシーケンスを選択するための品質評価機構をまず設計する。 1)課題レベル。 2)識別力 3) および外観変化の密度。 さらに,追跡シナリオの多様性とバランスを確保するために追加シーケンスを収集し,各シナリオに合計20シーケンスを割り当てる。 同じデータで再トレーニングされた15の最先端トラッカーの結果を分析し,各シナリオにおけるロバストトラッキングの効果的な方法を決定し,この分野における今後の研究に向けた新たな課題を示す。

Along with the rapid progress of visual tracking, existing benchmarks become less informative due to redundancy of samples and weak discrimination between current trackers, making evaluations on all datasets extremely time-consuming. Thus, a small and informative benchmark, which covers all typical challenging scenarios to facilitate assessing the tracker performance, is of great interest. In this work, we develop a principled way to construct a small and informative tracking benchmark (ITB) with 7% out of 1.2 M frames of existing and newly collected datasets, which enables efficient evaluation while ensuring effectiveness. Specifically, we first design a quality assessment mechanism to select the most informative sequences from existing benchmarks taking into account 1) challenging level, 2) discriminative strength, 3) and density of appearance variations. Furthermore, we collect additional sequences to ensure the diversity and balance of tracking scenarios, leading to a total of 20 sequences for each scenario. By analyzing the results of 15 state-of-the-art trackers re-trained on the same data, we determine the effective methods for robust tracking under each scenario and demonstrate new challenges for future research direction in this field.
翻訳日:2021-12-15 02:30:39 公開日:2021-12-13
# (参考訳) gACSONソフトウェアによる3次元電子顕微鏡におけるミエラン化軸索の自動セグメンテーションと形態解析 [全文訳有]

gACSON software for automated segmentation and morphology analyses of myelinated axons in 3D electron microscopy ( http://arxiv.org/abs/2112.06476v1 )

ライセンス: CC BY 4.0
Andrea Behanova, Ali Abdollahzadeh, Ilya Belevich, Eija Jokitalo, Alejandra Sierra, Jussi Tohka(参考訳) 背景と目的: 電子顕微鏡(EM)の進歩により、数百マイクロメートルの組織をナノメートルの解像度で3次元イメージングすることが可能となり、脳の微細構造を研究する新たな機会となった。 本研究では,脳組織サンプルの3D-EMボリュームにおける髄質軸索の可視化,セグメンテーション,アセスメント,形態解析のためのフリーソフトウェアであるgACSONを紹介する。 方法: gACSONソフトウェアはグラフィカルユーザインタフェース(GUI)を備えている。 マイエリン化軸索の軸索内空間と対応するミエリンのシースを自動的に分割し、手動のセグメンテーション、証明読取、およびセグメンテーションされたコンポーネントのインタラクティブな補正を可能にする。 gACSONは軸索径、軸索偏心性、ミエリン厚み、g比などのミエラン化軸索の形態を解析する。 結果:gacsonはラット体性感覚野の3d-em容積6種の神経軸索をsegmentingおよび解析し,sem手術および外傷性脳損傷後のgacsonを用いた。 以上の結果から,somatisensory cortexにおけるミエリン化軸索の等価径は,外傷後5カ月で減少したことが示唆された。 結論:gacsonは3d-emボリュームのミエリン化軸索の可視化,セグメンテーション,評価,形態解析に有用であることが示唆された。 gACSONはMITライセンス下でhttps://github.com/A ndreaBehan/g-ACSONで無料で利用できる。

Background and Objective: Advances in electron microscopy (EM) now allow three-dimensional (3D) imaging of hundreds of micrometers of tissue with nanometer-scale resolution, providing new opportunities to study the ultrastructure of the brain. In this work, we introduce a freely available gACSON software for visualization, segmentation, assessment, and morphology analysis of myelinated axons in 3D-EM volumes of brain tissue samples. Methods: The gACSON software is equipped with a graphical user interface (GUI). It automatically segments the intra-axonal space of myelinated axons and their corresponding myelin sheaths and allows manual segmentation, proofreading, and interactive correction of the segmented components. gACSON analyzes the morphology of myelinated axons, such as axonal diameter, axonal eccentricity, myelin thickness, or g-ratio. Results: We illustrate the use of gACSON by segmenting and analyzing myelinated axons in six 3D-EM volumes of rat somatosensory cortex after sham surgery or traumatic brain injury (TBI). Our results suggest that the equivalent diameter of myelinated axons in somatisensory cortex was decreased in TBI animals five months after the injury. Conclusions: Our results indicate that gACSON is a valuable tool for visualization, segmentation, assessment, and morphology analysis of myelinated axons in 3D-EM volumes. gACSON is freely available at https://github.com/A ndreaBehan/g-ACSON under the MIT license.
翻訳日:2021-12-15 02:16:53 公開日:2021-12-13
# (参考訳) DGL-GAN:GAN圧縮のための差別化学習 [全文訳有]

DGL-GAN: Discriminator Guided Learning for GAN Compression ( http://arxiv.org/abs/2112.06502v1 )

ライセンス: CC BY 4.0
Yuesong Tian, Li Shen, Dacheng Tao, Zhifeng Li, Wei Liu(参考訳) 計算コストの高いGAN(Generative Adversarial Networks)、例えばBigGANやStyleGAN2は、ランダムノイズから高解像度および多彩な画像の合成において顕著な成果を上げている。 フォトリアリスティック画像の生成を維持しながら、GANの計算コストを削減することは、計算資源に制限のあるデバイスに広く応用する上で、緊急かつ困難な分野である。 本研究では,バニラGANを圧縮する手法として,単純だが簡単な"bf D}iscriminator {\bf G}uided {\bf L}earning"を提案する。 教師判別者が有意義な情報を含むかもしれない現象に動機づけられ、我々はその知識を教師判別者からのみ、敵関数を介して伝達する。 dgl-ganの有効性は,教師の判別者からの学習が学生のgansのパフォーマンスを促進できるため,広範な実験結果により検証された。 さらに、DGL-GANを2つの代表的な大規模バニラGAN(StyleGAN2とBigGAN)を圧縮する際、DGL-GANのトレーニングプロセスを大幅に安定させ、優れた性能を達成するための2段階のトレーニング戦略を提案する。 実験の結果、DGL-GANはStyleGAN2(FFHQではFID 2.92、StyleGAN2では1/3$パラメータ)とBigGAN(画像NetではIS 93.29とFID 9.92、BigGANでは1/4$パラメータ)の両方で最先端のSOTA(State-of-the-ar t)を達成し、既存のバニラGAN圧縮技術よりも優れていた。 さらに、DGL-GANはオリジナルの非圧縮型GANの性能向上にも有効であり、DGL-GANで強化されたオリジナルのStyleGAN2はFFHQでFID 2.65を達成する。 コードとモデルは \url{https://github.com/y uesongtian/dgl-gan} で利用可能である。

Generative Adversarial Networks (GANs) with high computation costs, e.g., BigGAN and StyleGAN2, have achieved remarkable results in synthesizing high resolution and diverse images with high fidelity from random noises. Reducing the computation cost of GANs while keeping generating photo-realistic images is an urgent and challenging field for their broad applications on computational resource-limited devices. In this work, we propose a novel yet simple {\bf D}iscriminator {\bf G}uided {\bf L}earning approach for compressing vanilla {\bf GAN}, dubbed {\bf DGL-GAN}. Motivated by the phenomenon that the teacher discriminator may contain some meaningful information, we transfer the knowledge merely from the teacher discriminator via the adversarial function. We show DGL-GAN is valid since empirically, learning from the teacher discriminator could facilitate the performance of student GANs, verified by extensive experimental findings. Furthermore, we propose a two-stage training strategy for training DGL-GAN, which can largely stabilize its training process and achieve superior performance when we apply DGL-GAN to compress the two most representative large-scale vanilla GANs, i.e., StyleGAN2 and BigGAN. Experiments show that DGL-GAN achieves state-of-the-art (SOTA) results on both StyleGAN2 (FID 2.92 on FFHQ with nearly $1/3$ parameters of StyleGAN2) and BigGAN (IS 93.29 and FID 9.92 on ImageNet with nearly $1/4$ parameters of BigGAN) and also outperforms several existing vanilla GAN compression techniques. Moreover, DGL-GAN is also effective in boosting the performance of original uncompressed GANs, original uncompressed StyleGAN2 boosted with DGL-GAN achieves FID 2.65 on FFHQ, which achieves a new state-of-the-art performance. Code and models are available at \url{https://github.com/y uesongtian/DGL-GAN}.
翻訳日:2021-12-15 01:56:20 公開日:2021-12-13
# (参考訳) 偽ニュース検出のための自動証拠収集 [全文訳有]

Automated Evidence Collection for Fake News Detection ( http://arxiv.org/abs/2112.06507v1 )

ライセンス: CC BY 4.0
Mrinal Rawat, Diptesh Kanojia(参考訳) ソーシャルメディアプラットフォーム上の偽ニュース、誤った情報、検証不能な事実は、特に新型コロナウイルスのような伝染病を扱う場合に、社会に不調和と影響をもたらす。 フェイクニュース検出の課題は、ニュースアイテムを偽物や本物と分類することで、そのような誤報の影響に対処することである。 本稿では,各クレームの証拠を自動的に収集することで,現在の偽ニュース検出手法を改善する新しい手法を提案する。 提案手法は,web 記事から証拠を抽出し,証拠集合として扱うための適切なテキストを選択する。 これらのエビデンスセットに事前学習した要約器を使用し、抽出した要約を証拠として用いて分類作業を支援する。 我々の実験は、機械学習とディープラーニングに基づく手法の両方を用いて、我々のアプローチを広範囲に評価するのに役立つ。 提案手法は,CONSTRAINT-2021共有タスクのデータセットに対して99.25のF1スコアを達成するために,フェイクニュース検出における最先端手法よりも優れていることを示す。 さらなる研究のために、拡張データセット、コード、モデルもリリースしています。

Fake news, misinformation, and unverifiable facts on social media platforms propagate disharmony and affect society, especially when dealing with an epidemic like COVID-19. The task of Fake News Detection aims to tackle the effects of such misinformation by classifying news items as fake or real. In this paper, we propose a novel approach that improves over the current automatic fake news detection approaches by automatically gathering evidence for each claim. Our approach extracts supporting evidence from the web articles and then selects appropriate text to be treated as evidence sets. We use a pre-trained summarizer on these evidence sets and then use the extracted summary as supporting evidence to aid the classification task. Our experiments, using both machine learning and deep learning-based methods, help perform an extensive evaluation of our approach. The results show that our approach outperforms the state-of-the-art methods in fake news detection to achieve an F1-score of 99.25 over the dataset provided for the CONSTRAINT-2021 Shared Task. We also release the augmented dataset, our code and models for any further research.
翻訳日:2021-12-15 01:18:23 公開日:2021-12-13
# (参考訳) マルチ武装バンディットの「k$」ランキングトップはノイズ評価

Top $K$ Ranking for Multi-Armed Bandit with Noisy Evaluations ( http://arxiv.org/abs/2112.06517v1 )

ライセンス: CC BY 4.0
Evrard Garcelon and Vashist Avadhanula and Alessandro Lazaric and and Matteo Pirotta(参考訳) マルチアームのバンディット設定を考えると、各ラウンドの始めに、学習者は、各アームの真の報酬のノイズを独立的に受け取り、おそらくバイアスのある \emph{evaluations} を受け取り、できるだけ多くの報酬を t$ ラウンドに蓄積する目的で$k$ のアームを選択する。 各ラウンドにおいて、各アームの真の報酬が固定分布から引き出されるという仮定の下で、評価がどのように生成されるかによって異なるアルゴリズム的アプローチと理論的保証を導出する。 まず、観察関数が真の報酬の系式化された線形関数である場合の一般的な場合、$\widetilde{o}(t^{2/3})$ regretを示す。 一方,実報酬のノイズ線形関数が観測関数である場合には,改良された$\widetilde{o}(\sqrt{t})$ regretが得られることを示した。 最後に,理論的な知見を裏付ける実証的検証を報告し,代替手法を徹底的に比較し,実際にこの設定の関心をさらに支持する。

We consider a multi-armed bandit setting where, at the beginning of each round, the learner receives noisy independent, and possibly biased, \emph{evaluations} of the true reward of each arm and it selects $K$ arms with the objective of accumulating as much reward as possible over $T$ rounds. Under the assumption that at each round the true reward of each arm is drawn from a fixed distribution, we derive different algorithmic approaches and theoretical guarantees depending on how the evaluations are generated. First, we show a $\widetilde{O}(T^{2/3})$ regret in the general case when the observation functions are a genearalized linear function of the true rewards. On the other hand, we show that an improved $\widetilde{O}(\sqrt{T})$ regret can be derived when the observation functions are noisy linear functions of the true rewards. Finally, we report an empirical validation that confirms our theoretical findings, provides a thorough comparison to alternative approaches, and further supports the interest of this setting in practice.
翻訳日:2021-12-15 01:06:15 公開日:2021-12-13
# (参考訳) 顔分析におけるバイアスの解剖 [全文訳有]

Anatomizing Bias in Facial Analysis ( http://arxiv.org/abs/2112.06522v1 )

ライセンス: CC BY 4.0
Richa Singh, Puspita Majumdar, Surbhi Mittal, Mayank Vatsa(参考訳) 既存の顔分析システムは、特定の人口集団に対して偏りのある結果をもたらすことが示されている。 社会への影響により、これらのシステムが個人の性別、アイデンティティ、肌の色によって差別されないようにすることが必須になっている。 これはAIシステムにおけるバイアスの識別と緩和の研究につながった。 本稿では,顔分析のためのバイアス検出・推定・緩和アルゴリズムをカプセル化する。 我々の主な貢献は、バイアスを理解するために提案されたアルゴリズムの体系的レビューと、既存のバイアス緩和アルゴリズムの広範な概要を含む。 また,偏りのある顔分析の分野での課題についても考察する。

Existing facial analysis systems have been shown to yield biased results against certain demographic subgroups. Due to its impact on society, it has become imperative to ensure that these systems do not discriminate based on gender, identity, or skin tone of individuals. This has led to research in the identification and mitigation of bias in AI systems. In this paper, we encapsulate bias detection/estimation and mitigation algorithms for facial analysis. Our main contributions include a systematic review of algorithms proposed for understanding bias, along with a taxonomy and extensive overview of existing bias mitigation algorithms. We also discuss open challenges in the field of biased facial analysis.
翻訳日:2021-12-15 01:04:49 公開日:2021-12-13
# (参考訳) 単発学習のためのハイブリッドグラフニューラルネットワーク [全文訳有]

Hybrid Graph Neural Networks for Few-Shot Learning ( http://arxiv.org/abs/2112.06538v1 )

ライセンス: CC BY 4.0
Tianyuan Yu, Sen He, Yi-Zhe Song, Tao Xiang(参考訳) グラフニューラルネットワーク(GNN)は、数ショット学習(FSL)問題に対処するために使われ、トランスダクティブ設定の下で大きなポテンシャルを示す。 しかし、誘導的な設定の下では、既存のGNNベースの方法は競争力が少ない。 これは、GNNをラベルの伝搬/分類モジュールとして使用しており、機能埋め込みネットワークと共同でメタ学習されているためである。 この設計は、分類器が埋め込みを行わない間、新しいタスクに迅速に適応する必要があるため、問題となる。 本稿では,2つのGNN(インスタンスGNNとプロトタイプGNN)からなるハイブリッドGNN(HGNN)モデルを提案する。 ラベルの伝搬の代わりに、新しいタスクに埋め込まれたメタ学習機能に素早く適応するための機能埋め込み適応モジュールとして機能する。 重要なことは、FSLの基本的かつしばしば無視される課題に対処するように設計されており、クラス毎のショット数が少ない場合、いくつかのショット分類器は、異常なサンプルショットに敏感である。 %2つのGNNは,これら2種類の低サンプリング数ショットにそれぞれ対処するよう設計されており,その相補性をハイブリッドGNNモデルに利用している。 広範な実験により,3つのfslベンチマークでhgnnが新たな最先端技術を得た。

Graph neural networks (GNNs) have been used to tackle the few-shot learning (FSL) problem and shown great potentials under the transductive setting. However under the inductive setting, existing GNN based methods are less competitive. This is because they use an instance GNN as a label propagation/classifi cation module, which is jointly meta-learned with a feature embedding network. This design is problematic because the classifier needs to adapt quickly to new tasks while the embedding does not. To overcome this problem, in this paper we propose a novel hybrid GNN (HGNN) model consisting of two GNNs, an instance GNN and a prototype GNN. Instead of label propagation, they act as feature embedding adaptation modules for quick adaptation of the meta-learned feature embedding to new tasks. Importantly they are designed to deal with a fundamental yet often neglected challenge in FSL, that is, with only a handful of shots per class, any few-shot classifier would be sensitive to badly sampled shots which are either outliers or can cause inter-class distribution overlapping. %Our two GNNs are designed to address these two types of poorly sampled few-shots respectively and their complementarity is exploited in the hybrid GNN model. Extensive experiments show that our HGNN obtains new state-of-the-art on three FSL benchmarks.
翻訳日:2021-12-15 00:51:49 公開日:2021-12-13
# (参考訳) MinkLoc3D-SI: スパース畳み込み, 球面座標, 強度による3次元LiDAR位置認識 [全文訳有]

MinkLoc3D-SI: 3D LiDAR place recognition with sparse convolutions, spherical coordinates, and intensity ( http://arxiv.org/abs/2112.06539v1 )

ライセンス: CC BY-SA 4.0
Kamil \.Zywanowski, Adam Banaszczyk, Micha{\l} R. Nowicki, and Jacek Komorowski(参考訳) 3D LiDAR位置認識は、回転する3D LiDARセンサからの1つのスキャンに基づいて、これまで見られた環境における粗い局所化を推定することを目的としている。 既存のソリューションには、手作りのポイントクラウド記述子(ScanContext、M2DP、LiDAR IRISなど)とディープラーニングベースのソリューション(PointNetVLAD、PCAN、PDNet、DAGC、MinkLoc3Dなど)が含まれており、オックスフォード・ロボカル・データセットから蓄積した2Dスキャンでのみ評価される。 我々は,3次元点の球面座標を利用して3次元LiDAR測定の強度を処理し,単一の3次元LiDARスキャンを用いた場合の性能を向上させるスパース畳み込み法であるMinkLoc3D-SIを紹介する。 提案手法は,手作り記述子(ScanContextなど)と最も効率的な3次元スパース畳み込み(MinkLoc3D)を統合する。 実験では,3次元lidar (usyd campus dataset) とgreat generalization ability (kitti dataset) による単一スキャンの結果が改善された。 蓄積された2dスキャン(robotcar intensity dataset)の強度情報を使用することで、球面表現は目立って改善されないものの、パフォーマンスが向上する。 その結果、MinkLoc3D-SIは3D LiDARから得られた単一のスキャンに適合し、自動運転車に適用できる。

The 3D LiDAR place recognition aims to estimate a coarse localization in a previously seen environment based on a single scan from a rotating 3D LiDAR sensor. The existing solutions to this problem include hand-crafted point cloud descriptors (e.g., ScanContext, M2DP, LiDAR IRIS) and deep learning-based solutions (e.g., PointNetVLAD, PCAN, LPDNet, DAGC, MinkLoc3D), which are often only evaluated on accumulated 2D scans from the Oxford RobotCar dataset. We introduce MinkLoc3D-SI, a sparse convolution-based solution that utilizes spherical coordinates of 3D points and processes the intensity of 3D LiDAR measurements, improving the performance when a single 3D LiDAR scan is used. Our method integrates the improvements typical for hand-crafted descriptors (like ScanContext) with the most efficient 3D sparse convolutions (MinkLoc3D). Our experiments show improved results on single scans from 3D LiDARs (USyd Campus dataset) and great generalization ability (KITTI dataset). Using intensity information on accumulated 2D scans (RobotCar Intensity dataset) improves the performance, even though spherical representation doesn't produce a noticeable improvement. As a result, MinkLoc3D-SI is suited for single scans obtained from a 3D LiDAR, making it applicable in autonomous vehicles.
翻訳日:2021-12-15 00:35:04 公開日:2021-12-13
# (参考訳) U-Netを用いた高効率時空間天気予報 [全文訳有]

Efficient spatio-temporal weather forecasting using U-Net ( http://arxiv.org/abs/2112.06543v1 )

ライセンス: CC BY 4.0
Akshay Punjabi and Pablo Izquierdo Ayala(参考訳) 天気予報は、人間の日常生活における様々な側面において重要な役割を果たす。 現在、物理ベースの数値気象予報は天気予報に使われ、膨大な計算資源を必要とする。 近年、深層学習に基づくモデルは多くの気象予報関連タスクで大きな成功を収めている。 本稿では,weather4cast 2021チャレンジにおいて,最初の1時間の時空間データに基づいて8時間の時空間データを予測する実験について述べる。 我々は,効率的なU-NetベースのオートエンコーダであるSmaAt-UNetに注目した。 このモデルでは,少ない計算資源を維持しながら有能な結果を得る。 さらに,論文の最後にいくつかのアプローチと今後の課題について論じる。

Weather forecast plays an essential role in multiple aspects of the daily life of human beings. Currently, physics based numerical weather prediction is used to predict the weather and requires enormous amount of computational resources. In recent years, deep learning based models have seen wide success in many weather-prediction related tasks. In this paper we describe our experiments for the Weather4cast 2021 Challenge, where 8 hours of spatio-temporal weather data is predicted based on an initial one hour of spatio-temporal data. We focus on SmaAt-UNet, an efficient U-Net based autoencoder. With this model we achieve competent results whilst maintaining low computational resources. Furthermore, several approaches and possible future work is discussed at the end of the paper.
翻訳日:2021-12-15 00:16:12 公開日:2021-12-13
# (参考訳) マルチパラメトリックMRIを用いたGBM腫瘍分離のための組込みCNNネットワーク [全文訳有]

Ensemble CNN Networks for GBM Tumors Segmentation using Multi-parametric MRI ( http://arxiv.org/abs/2112.06554v1 )

ライセンス: CC BY 4.0
Ramy A. Zeineldin, Mohamed E. Karar, Franziska Mathis-Ullrich and Oliver Burgert(参考訳) グリオブラスト腫(glioblastomas)は、脳のグリア細胞から発生する最も急速に成長する脳がんである。 悪性脳腫瘍とその亜領域の正確な同定は、医用画像分割における最も難しい問題の一つである。 brain tumor segmentation challenge (brats)は、その開始以来、脳グリオブラスト腫の自動分割アルゴリズムの人気のあるベンチマークである。 今年の課題では、BraTS 2021は2000人の術前患者の最大マルチパラメトリック(mpMRI)データセットを提供する。 本稿では,術前mpmriにおけるglioblastoma自動認識のためのdeepsegとnnu-netの2つの深層学習フレームワークの集約について検討する。 本手法では,BraTS 2021検証セット上の腫瘍,腫瘍コア,腫瘍全体に対して,92.00,87.33,84.10のDice類似度スコアと3.81,8.91,16.02のHausdorff距離を求める。 これらの実験結果から, 臨床応用が容易であり, 脳がん予後, 治療計画, 治療反応モニタリングに有効であることが示唆された。

Glioblastomas are the most aggressive fast-growing primary brain cancer which originate in the glial cells of the brain. Accurate identification of the malignant brain tumor and its sub-regions is still one of the most challenging problems in medical image segmentation. The Brain Tumor Segmentation Challenge (BraTS) has been a popular benchmark for automatic brain glioblastomas segmentation algorithms since its initiation. In this year's challenge, BraTS 2021 provides the largest multi-parametric (mpMRI) dataset of 2,000 pre-operative patients. In this paper, we propose a new aggregation of two deep learning frameworks namely, DeepSeg and nnU-Net for automatic glioblastoma recognition in pre-operative mpMRI. Our ensemble method obtains Dice similarity scores of 92.00, 87.33, and 84.10 and Hausdorff Distances of 3.81, 8.91, and 16.02 for the enhancing tumor, tumor core, and whole tumor regions on the BraTS 2021 validation set, individually. These Experimental findings provide evidence that it can be readily applied clinically and thereby aiding in the brain cancer prognosis, therapy planning, and therapy response monitoring.
翻訳日:2021-12-15 00:06:31 公開日:2021-12-13
# (参考訳) hiclass: scikit-learnと互換性のあるローカル階層分類のためのpythonライブラリ [全文訳有]

HiClass: a Python library for local hierarchical classification compatible with scikit-learn ( http://arxiv.org/abs/2112.06560v1 )

ライセンス: CC BY 4.0
F\'abio M. Miranda, Niklas K\"oehnecke and Bernhard Y. Renard(参考訳) HiClassは、ローカル階層分類のためのオープンソースのPythonパッケージで、Scikit-learnと完全に互換性がある。 これは、ノード毎のローカル分類子、親ノード毎のローカル分類子、レベル毎のローカル分類子を含む、ローカル階層分類のための最も人気のある機械学習モデルの実装を提供する。 さらに、ライブラリには、階層データにおけるモデルパフォーマンスを評価するツールが含まれている。 ドキュメントにはインストール指示、インタラクティブノートブック、APIの完全な記述が含まれている。 HiClassはBSDライセンスで配布されており、学術および商業の両方での使用を奨励している。 ソースコードとドキュメントはhttps://gitlab.com/d acs-hpi/hiclassで入手できる。

HiClass is an open-source Python package for local hierarchical classification fully compatible with scikit-learn. It provides implementations of the most popular machine learning models for local hierarchical classification, including Local Classifier Per Node, Local Classifier Per Parent Node and Local Classifier Per Level. In addition, the library includes tools to evaluate model performance on hierarchical data. The documentation contains installation instructions, interactive notebooks, and a complete description of the API. HiClass is distributed under the simplified BSD license, encouraging its use in both academic and commercial settings. Source code and documentation are available at https://gitlab.com/d acs-hpi/hiclass.
翻訳日:2021-12-14 23:53:30 公開日:2021-12-13
# (参考訳) クラスタリングのよい説明を見つけるには? [全文訳有]

How to Find a Good Explanation for Clustering? ( http://arxiv.org/abs/2112.06580v1 )

ライセンス: CC BY 4.0
Sayan Bandyapadhyay, Fedor Fomin, Petr Golovach, William Lochet, Nidhi Purohit, Kirill Simonov(参考訳) k$-meansと$k$-medianクラスタリングは、教師なしの強力な機械学習技術である。 しかしながら、すべての機能に複雑な依存があるため、結果のクラスタ割り当てを解釈することは困難である。 Moshkovitz氏、Dasgupta氏、Rashtchian氏、Frost氏(ICML 2020)は、説明可能な$k$-meansと$k$-medianクラスタリングのエレガントなモデルを提案した。 このモデルでは、$k$の葉を持つ決定木は、クラスタにセットされたデータの簡単なキャラクタリゼーションを提供する。 説明可能なクラスタリングに関する2つの自然アルゴリズム質問について検討した。 1) 所定のクラスタリングについて、$k$の葉を持つ決定木を用いて「最良の説明」を見つけるには、どうすればよいか? (2) 与えられた点集合に対して、説明可能なクラスタリングの目標である$k$-means/medianを最小化する、$k$の葉を持つ決定木をどうやって見つけるか? 最初の問題に対処するために、説明可能なクラスタリングの新しいモデルを導入する。 我々のモデルは、ロバスト統計における外れ値の概念に着想を得たものである。 私たちは、既存のクラスタリングをうまく説明できる少数のポイント(外れ値)を求めています。 2つ目の疑問に対処するために、多変量複雑性の観点から、モシュコヴィッツらのモデルの研究を開始する。 厳密なアルゴリズム分析では、入力サイズ、データの寸法、外乱数、クラスタ数、近似比といったパラメータが、説明可能なクラスタリングの計算複雑性に与える影響について光を当てています。

$k$-means and $k$-median clustering are powerful unsupervised machine learning techniques. However, due to complicated dependences on all the features, it is challenging to interpret the resulting cluster assignments. Moshkovitz, Dasgupta, Rashtchian, and Frost [ICML 2020] proposed an elegant model of explainable $k$-means and $k$-median clustering. In this model, a decision tree with $k$ leaves provides a straightforward characterization of the data set into clusters. We study two natural algorithmic questions about explainable clustering. (1) For a given clustering, how to find the "best explanation" by using a decision tree with $k$ leaves? (2) For a given set of points, how to find a decision tree with $k$ leaves minimizing the $k$-means/median objective of the resulting explainable clustering? To address the first question, we introduce a new model of explainable clustering. Our model, inspired by the notion of outliers in robust statistics, is the following. We are seeking a small number of points (outliers) whose removal makes the existing clustering well-explainable. For addressing the second question, we initiate the study of the model of Moshkovitz et al. from the perspective of multivariate complexity. Our rigorous algorithmic analysis sheds some light on the influence of parameters like the input size, dimension of the data, the number of outliers, the number of clusters, and the approximation ratio, on the computational complexity of explainable clustering.
翻訳日:2021-12-14 23:43:37 公開日:2021-12-13
# (参考訳) Maskalによるアクティブラーニングは、Mask R-CNNのトレーニングのためのアノテーションの労力を減らす

Active learning with MaskAL reduces annotation effort for training Mask R-CNN ( http://arxiv.org/abs/2112.06586v1 )

ライセンス: CC BY-SA 4.0
Pieter M. Blok, Gert Kootstra, Hakim Elchaoui Elghor, Boubacar Diallo, Frits K. van Evert, Eldert J. van Henten(参考訳) 畳み込みニューラルネットワーク(CNN)の一般化性能は、トレーニング画像の量、品質、多様性に影響される。 トレーニング用のイメージには注釈を付けなければならない。 我々の研究の目的は、CNNのパフォーマンスを維持しながらトレーニングするために必要な注釈付き画像の数を減らすことであった。 トレーニング画像のセットに分類が難しい画像が多数含まれていることを保証することにより,cnnの性能を高速に改善できると仮定した。 本研究の目的は,この仮説を能動的学習法で検証し,画像の自動分類を行うことである。 マスク領域に基づくcnn(mask r-cnn)のアクティブ学習法を開発し,この手法をmaskalと名付けた。 Maskalは、Mask R-CNNの反復訓練に携わり、その後、トレーニングされたモデルを使用して、モデルが不確実な一連の未ラベル画像を選択する。 選択された画像はアノテートされ、マスクr-cnnの再訓練に使用され、多くのサンプリングを繰り返した。 本研究では,Mask R-CNNを2500ブロッコリー画像を用いて訓練し,MaskALまたは14,000ブロッコリー画像を用いたランダムサンプリング法を用いて12回のサンプリングを行った。 すべてのサンプリングイテレーションに対して、MaskALはランダムサンプリングよりも大幅にパフォーマンスが向上した。 さらに、MaskALは2300枚の画像のランダムサンプリングと900枚の画像のサンプリング後に同じ性能を示した。 トレーニングセット全体(14,000枚)でトレーニングされたMask R-CNNモデルと比較して、MaskALはトレーニングデータの17.9%で93.9%のパフォーマンスを達成した。 ランダムサンプリングはその性能の81.9%、トレーニングデータの16.4%を達成した。 結論として,マスクを用いることで,ブロッコリーデータセット上でマスクr-cnnをトレーニングするためのアノテーションの労力を削減できる。 私たちのソフトウェアはhttps://github.com/p ieterblok/maskalで利用可能です。

The generalisation performance of a convolutional neural network (CNN) is influenced by the quantity, quality, and variety of the training images. Training images must be annotated, and this is time consuming and expensive. The goal of our work was to reduce the number of annotated images needed to train a CNN while maintaining its performance. We hypothesised that the performance of a CNN can be improved faster by ensuring that the set of training images contains a large fraction of hard-to-classify images. The objective of our study was to test this hypothesis with an active learning method that can automatically select the hard-to-classify images. We developed an active learning method for Mask Region-based CNN (Mask R-CNN) and named this method MaskAL. MaskAL involved the iterative training of Mask R-CNN, after which the trained model was used to select a set of unlabelled images about which the model was uncertain. The selected images were then annotated and used to retrain Mask R-CNN, and this was repeated for a number of sampling iterations. In our study, Mask R-CNN was trained on 2500 broccoli images that were selected through 12 sampling iterations by either MaskAL or a random sampling method from a training set of 14,000 broccoli images. For all sampling iterations, MaskAL performed significantly better than the random sampling. Furthermore, MaskAL had the same performance after sampling 900 images as the random sampling had after 2300 images. Compared to a Mask R-CNN model that was trained on the entire training set (14,000 images), MaskAL achieved 93.9% of its performance with 17.9% of its training data. The random sampling achieved 81.9% of its performance with 16.4% of its training data. We conclude that by using MaskAL, the annotation effort can be reduced for training Mask R-CNN on a broccoli dataset. Our software is available on https://github.com/p ieterblok/maskal.
翻訳日:2021-12-14 23:04:05 公開日:2021-12-13
# (参考訳) 統計学者のための量子コンピューティング入門

An Introduction to Quantum Computing for Statisticians ( http://arxiv.org/abs/2112.06587v1 )

ライセンス: CC BY 4.0
Anna Lopatnikova, Minh-Ngoc Tran(参考訳) 量子コンピューティングは、私たちの生き方や世界を理解する方法に革命をもたらす可能性がある。 このレビューは、統計学とデータ分析の応用に焦点を当てた、量子コンピューティングへのアクセス可能な導入を提供することを目的としている。 まず、量子コンピューティングを理解するために必要な基本的な概念と、量子コンピューティングと古典コンピューティングの違いを紹介する。 量子アルゴリズムの構成要素として機能するコア量子サブルーチンについて述べる。 次に、統計と機械学習において計算の利点をもたらすと期待される一連の量子アルゴリズムをレビューする。 量子コンピューティングを統計学の課題に適用する上での課題と機会を強調し,今後の研究の方向性について考察する。

Quantum computing has the potential to revolutionise and change the way we live and understand the world. This review aims to provide an accessible introduction to quantum computing with a focus on applications in statistics and data analysis. We start with an introduction to the basic concepts necessary to understand quantum computing and the differences between quantum and classical computing. We describe the core quantum subroutines that serve as the building blocks of quantum algorithms. We then review a range of quantum algorithms expected to deliver a computational advantage in statistics and machine learning. We highlight the challenges and opportunities in applying quantum computing to problems in statistics and discuss potential future research directions.
翻訳日:2021-12-14 23:02:59 公開日:2021-12-13
# (参考訳) SAC-GAN: 自動運転のための構造認識画像合成 [全文訳有]

SAC-GAN: Structure-Aware Image-to-Image Composition for Self-Driving ( http://arxiv.org/abs/2112.06596v1 )

ライセンス: CC BY 4.0
Hang Zhou, Ali Mahdavi-Amiri, Rui Ma, Hao Zhang(参考訳) 自動運転車のための画像拡張のための構成的アプローチを提案する。 オブジェクトイメージから収穫されたパッチとして表現されたオブジェクト(例えば、車両や歩行者)をバックグラウンドシーンイメージにシームレスに構成する、エンドツーエンドのニューラルネットワークである。 提案手法は,画素レベルのRGBアキュラシーではなく,合成画像のセマンティクスと構造的コヒーレンスに重点を置いているため,ネットワークのインプットとアウトプットを構造認識機能で調整し,それに応じてネットワークの損失を設計する。 具体的には、入力シーン画像から意味的レイアウトの特徴を取り、入力対象パッチのエッジとシルエットからエンコードされた特徴と、入力として潜時コードを取り、オブジェクトパッチの翻訳とスケーリングを定義する2次元空間アフィン変換を生成する。 学習したパラメータは、さらに微分可能な空間変換器ネットワークに入力され、対象画像にオブジェクトパッチを変換し、アフィン変換判別器とレイアウト判別器を用いて逆向きにトレーニングする。 合成画像の品質, 構成性, 一般化性の観点から, 我々のネットワーク, SAC-GAN による構造認識合成の評価を行った。 最先端の代替品との比較を行い,本手法の優位性を確認した。

We present a compositional approach to image augmentation for self-driving applications. It is an end-to-end neural network that is trained to seamlessly compose an object (e.g., a vehicle or pedestrian) represented as a cropped patch from an object image, into a background scene image. As our approach emphasizes more on semantic and structural coherence of the composed images, rather than their pixel-level RGB accuracies, we tailor the input and output of our network with structure-aware features and design our network losses accordingly. Specifically, our network takes the semantic layout features from the input scene image, features encoded from the edges and silhouette in the input object patch, as well as a latent code as inputs, and generates a 2D spatial affine transform defining the translation and scaling of the object patch. The learned parameters are further fed into a differentiable spatial transformer network to transform the object patch into the target image, where our model is trained adversarially using an affine transform discriminator and a layout discriminator. We evaluate our network, coined SAC-GAN for structure-aware composition, on prominent self-driving datasets in terms of quality, composability, and generalizability of the composite images. Comparisons are made to state-of-the-art alternatives, confirming superiority of our method.
翻訳日:2021-12-14 23:02:00 公開日:2021-12-13
# (参考訳) WECHSEL:単言語モデルの言語間移動のための単語埋め込みの効果的な初期化 [全文訳有]

WECHSEL: Effective initialization of subword embeddings for cross-lingual transfer of monolingual language models ( http://arxiv.org/abs/2112.06598v1 )

ライセンス: CC BY 4.0
Benjamin Minixhofer, Fabian Paischer, Navid Rekabsaz(参考訳) 近年,大規模事前学習型言語モデル (LM) が普及している。 これらのモデルのトレーニングにはより多くの計算リソースが必要であり、既存のモデルのほとんどは英語のテキストのみでトレーニングされている。 これらのモデルを他の言語でトレーニングするのは非常に高価です。 この問題を軽減するため,WECHSELと呼ばれる手法を導入し,新しい言語に英語モデルを転送する。 英語モデルのトークン化子を対象言語のトークン化子と交換し、英語と対象言語をカバーする多言語静的単語埋め込みを利用して、意味的に類似した英語トークンに近いトークン埋め込みを初期化する。 wechselを使ってgpt-2とrobertaのモデルを他の4つの言語(フランス語、ドイツ語、中国語、スワヒリ語)に転送します。 WECHSELは、これまで提案されていた言語間パラメータ転送の手法を改良し、最大64倍のトレーニング作業で、ターゲット言語のスクラッチからトレーニングされた同等のサイズのモデルより優れている。 提案手法により,新しい言語に対する大規模言語モデルの訓練が容易になり,環境へのダメージが軽減される。 コードとモデルを公開しています。

Recently, large pretrained language models (LMs) have gained popularity. Training these models requires ever more computational resources and most of the existing models are trained on English text only. It is exceedingly expensive to train these models in other languages. To alleviate this problem, we introduce a method -- called WECHSEL -- to transfer English models to new languages. We exchange the tokenizer of the English model with a tokenizer in the target language and initialize token embeddings such that they are close to semantically similar English tokens by utilizing multilingual static word embeddings covering English and the target language. We use WECHSEL to transfer GPT-2 and RoBERTa models to 4 other languages (French, German, Chinese and Swahili). WECHSEL improves over a previously proposed method for cross-lingual parameter transfer and outperforms models of comparable size trained from scratch in the target language with up to 64x less training effort. Our method makes training large language models for new languages more accessible and less damaging to the environment. We make our code and models publicly available.
翻訳日:2021-12-14 22:51:34 公開日:2021-12-13
# (参考訳) 高速シングルコアK-Nearest近辺グラフ計算 [全文訳有]

Fast Single-Core K-Nearest Neighbor Graph Computation ( http://arxiv.org/abs/2112.06630v1 )

ライセンス: CC BY 4.0
Dan Kluser, Jonas Bokstaller, Samuel Rutz and Tobias Buner(参考訳) 高速で信頼性の高いK-Nearest Neighbor Graphアルゴリズムは、多くのデータ処理技術で広く使われているため、これまで以上に重要である。 本稿では,Wei DongらによるL2距離検定のためのヒューリスティックNN-Descentアルゴリズムのランタイム最適化C実装を提案する。 低次元および高次元データセットのパフォーマンスを改善する様々な実装最適化について説明する。 距離を評価するためのデータポイントペアの選択を高速化する最適化は、主に低次元データセットに影響を及ぼす。 NN-Descentの反復的な性質を利用してメモリ内のデータを並べ替えることにより、局所性を向上し、ランタイムを改善する。 l2距離メトリックへの制限により、高次元データセットのパフォーマンスを大幅に向上させるブロック距離評価が利用可能となる。 組み合わせて最適化することで、すべての考慮されたデータセット上で広く使われているNN-Descentの実装を著しく上回る実装が得られる。 例えば、人気のあるMNIST手書き桁データセットのランタイムは半減である。

Fast and reliable K-Nearest Neighbor Graph algorithms are more important than ever due to their widespread use in many data processing techniques. This paper presents a runtime optimized C implementation of the heuristic "NN-Descent" algorithm by Wei Dong et al. for the l2-distance metric. Various implementation optimizations are explained which improve performance for low-dimensional as well as high dimensional datasets. Optimizations to speed up the selection of which datapoint pairs to evaluate the distance for are primarily impactful for low-dimensional datasets. A heuristic which exploits the iterative nature of NN-Descent to reorder data in memory is presented which enables better use of locality and thereby improves the runtime. The restriction to the l2-distance metric allows for the use of blocked distance evaluations which significantly increase performance for high dimensional datasets. In combination the optimizations yield an implementation which significantly outperforms a widely used implementation of NN-Descent on all considered datasets. For instance, the runtime on the popular MNIST handwritten digits dataset is halved.
翻訳日:2021-12-14 22:20:34 公開日:2021-12-13
# (参考訳) ニューラルネットワークを用いたボルテラ直列前歪みフィルタの効率的な学習 [全文訳有]

Efficient Training of Volterra Series-Based Pre-distortion Filter Using Neural Networks ( http://arxiv.org/abs/2112.06637v1 )

ライセンス: CC BY 4.0
Vinod Bajaj, Mathieu Chagnon, Sander Wahls and Vahid Aref(参考訳) 本稿では,ニューラルネットワークを用いたvolterraシリーズを用いたディジタルプリディストリビューションフィルタの訓練を行うための,簡便で効率的な「直接学習」手法を提案する。 64-qam 64-gbaudシミュレートトランスミッタを用いた従来のトレーニング手法よりも優れた性能を示す。

We present a simple, efficient "direct learning" approach to train Volterra series-based digital pre-distortion filters using neural networks. We show its superior performance over conventional training methods using a 64-QAM 64-GBaud simulated transmitter with varying transmitter nonlinearity and noisy conditions.
翻訳日:2021-12-14 22:08:51 公開日:2021-12-13
# (参考訳) 空中画像におけるロバスト物体検出のためのモデルインタラクションによるアンカーリタッチ [全文訳有]

Anchor Retouching via Model Interaction for Robust Object Detection in Aerial Images ( http://arxiv.org/abs/2112.06701v1 )

ライセンス: CC BY 4.0
Dong Liang, Qixiang Geng, Zongqi Wei, Dmitry A. Vorontsov, Ekaterina L. Kim, Mingqiang Wei and Huiyu Zhou(参考訳) 物体検出はコンピュータビジョンにおいて大きな進歩を遂げた。 外観劣化を伴う小型物体検出は、特に空中観測において顕著な課題である。 ヒューリスティックトレーニングのための十分な正・負のサンプルを収集するために、ほとんどの物体検出器は、接地されたデータに対してIoU(Intersection-ove r-Union)を計算するために領域アンカーをプリセットする。 この場合、小さな物体はしばしば放棄されるか、誤記される。 本稿では,新しいトレーニングサンプル生成装置を構築するために,動的拡張アンカー(DEA)ネットワークを提案する。 他の最先端技術とは違って,本ネットワークでは,アンカーベースユニットとアンカーフリーユニットとの対話型サンプルスクリーニングを実現するために,サンプル判別器を利用する。 さらに、保守的なアンカーベース推論スキームを用いたマルチタスク共同トレーニングにより、計算複雑性を低減しつつ、提案モデルの性能を向上させる。 提案手法はオブジェクト指向と水平物体検出の両方をサポートする。 2つの挑戦的航空ベンチマーク(DOTAとHRSC2016)の大規模な実験は、我々の手法が適度な推論速度と訓練のための計算オーバーヘッドで精度良く最先端の性能を達成することを示唆している。 DOTAでは、RoI-Transformerのベースラインと統合したDEA-Netが、より弱いバックボーンネットワーク(ResNet-101 vs ResNet-152)によるオブジェクト指向オブジェクト検出のための平均精度(mAP)と、同じバックボーンによる水平オブジェクト検出のための平均精度(mAP)を0.40%上回っている。 さらに,ReDetのベースラインと統合したDEA-Netでは,最先端のパフォーマンスが80.37%向上した。 hrsc2016では、従来のベストモデルを1.1%上回り、水平アンカーは3つしかない。

Object detection has made tremendous strides in computer vision. Small object detection with appearance degradation is a prominent challenge, especially for aerial observations. To collect sufficient positive/negative samples for heuristic training, most object detectors preset region anchors in order to calculate Intersection-over-Un ion (IoU) against the ground-truthed data. In this case, small objects are frequently abandoned or mislabeled. In this paper, we present an effective Dynamic Enhancement Anchor (DEA) network to construct a novel training sample generator. Different from the other state-of-the-art techniques, the proposed network leverages a sample discriminator to realize interactive sample screening between an anchor-based unit and an anchor-free unit to generate eligible samples. Besides, multi-task joint training with a conservative anchor-based inference scheme enhances the performance of the proposed model while reducing computational complexity. The proposed scheme supports both oriented and horizontal object detection tasks. Extensive experiments on two challenging aerial benchmarks (i.e., DOTA and HRSC2016) indicate that our method achieves state-of-the-art performance in accuracy with moderate inference speed and computational overhead for training. On DOTA, our DEA-Net which integrated with the baseline of RoI-Transformer surpasses the advanced method by 0.40% mean-Average-Precisi on (mAP) for oriented object detection with a weaker backbone network (ResNet-101 vs ResNet-152) and 3.08% mean-Average-Precisi on (mAP) for horizontal object detection with the same backbone. Besides, our DEA-Net which integrated with the baseline of ReDet achieves the state-of-the-art performance by 80.37%. On HRSC2016, it surpasses the previous best model by 1.1% using only 3 horizontal anchors.
翻訳日:2021-12-14 22:04:13 公開日:2021-12-13
# (参考訳) 量子機械学習におけるノイズ浅層ゲートベース回路の事例 [全文訳有]

A Case For Noisy Shallow Gate-Based Circuits In Quantum Machine Learning ( http://arxiv.org/abs/2112.06712v1 )

ライセンス: CC BY 4.0
Patrick Selig, Niall Murphy, Ashwin Sundareswaran R, David Redmond, Simon Caton(参考訳) 機械学習モデルのトレーニングのためのゲートベースの量子回路の開発への関心が高まっている。 しかし、回路設計のパラメータやノイズやその他の測定誤差が量子機械学習モデルの性能に与える影響についてはほとんど理解されていない。 本稿では,いくつかの標準機械学習データセットとibmのqiskitシミュレータを用いて,鍵回路設計パラメータ(量子ビット数,深さなど)の実用的意義について検討する。 合計6500以上のユニークな回路と$n \approx 120700$の個別ランニングを評価した。 一般に、浅い(低深さ)幅(より量子ビット)の回路トポロジーは、ノイズのない設定でより深いトポロジーを上回る傾向にある。 また、異なるノイズ概念の影響や影響について検討し、機械学習タスクの分類においてノイズに対してより強固な回路トポロジについて論じる。 この結果に基づき,ゲート型nisq量子コンピュータを用いた量子機械学習アルゴリズムの実現を短期的に期待できる回路トポロジのガイドラインを定めている。

There is increasing interest in the development of gate-based quantum circuits for the training of machine learning models. Yet, little is understood concerning the parameters of circuit design, and the effects of noise and other measurement errors on the performance of quantum machine learning models. In this paper, we explore the practical implications of key circuit design parameters (number of qubits, depth etc.) using several standard machine learning datasets and IBM's Qiskit simulator. In total we evaluate over 6500 unique circuits with $n \approx 120700$ individual runs. We find that in general shallow (low depth) wide (more qubits) circuit topologies tend to outperform deeper ones in settings without noise. We also explore the implications and effects of different notions of noise and discuss circuit topologies that are more / less robust to noise for classification machine learning tasks. Based on the findings we define guidelines for circuit topologies that show near-term promise for the realisation of quantum machine learning algorithms using gate-based NISQ quantum computer.
翻訳日:2021-12-14 21:39:27 公開日:2021-12-13
# (参考訳) ANEA: ドイツのドメイン特化テキストに対するエンティティアノテーションの自動(Named) [全文訳有]

ANEA: Automated (Named) Entity Annotation for German Domain-Specific Texts ( http://arxiv.org/abs/2112.06724v1 )

ライセンス: CC BY 4.0
Anastasia Zhukova, Felix Hamborg and Bela Gipp(参考訳) 名前付きエンティティ認識(NER)は、人、場所、組織、時間といった名前付きエンティティの普遍的なカテゴリを解決することを目的とした重要なタスクである。 多くのユースケースでよく使われるが、NERは工学や医学など、一般的なカテゴリーが最適でない領域ではほとんど適用されない。 ドメイン固有型のNERを容易にするために,ドメイン固有テキストのセットを与えられたときに,ドイツのテキストコレクション用のドメイン固有NERコーパスを作成する際に,人間のアノテータを支援する自動(名前付き)エンティティアノテータであるANEAを提案する。 評価において、ANEAは、テキストのコンテンツを最もよく表す用語を自動で識別し、一貫性のある用語のグループを特定し、これらのグループに記述ラベルを抽出し割り当て、すなわち、テキストデータセットをドメイン(名前)エンティティに注釈付けする。

Named entity recognition (NER) is an important task that aims to resolve universal categories of named entities, e.g., persons, locations, organizations, and times. Despite its common and viable use in many use cases, NER is barely applicable in domains where general categories are suboptimal, such as engineering or medicine. To facilitate NER of domain-specific types, we propose ANEA, an automated (named) entity annotator to assist human annotators in creating domain-specific NER corpora for German text collections when given a set of domain-specific texts. In our evaluation, we find that ANEA automatically identifies terms that best represent the texts' content, identifies groups of coherent terms, and extracts and assigns descriptive labels to these groups, i.e., annotates text datasets into the domain (named) entities.
翻訳日:2021-12-14 21:23:57 公開日:2021-12-13
# (参考訳) 文脈対目標語:語彙意味データセットにおけるバイアスの定量化 [全文訳有]

Context vs Target Word: Quantifying Biases in Lexical Semantic Datasets ( http://arxiv.org/abs/2112.06733v1 )

ライセンス: CC BY 4.0
Qianchu Liu, Diana McCarthy, Anna Korhonen(参考訳) BERTのような最先端のコンテキスト化モデルは、WiCやWSDのようなタスクを使用して、ワード・イン・コンテクストの表現を評価する。 これは本質的に、これらのタスクのパフォーマンスは、モデルが結合された単語とコンテキストの意味をいかにうまく表現しているかを反映していると仮定する。 本研究は,第1の定量的解析(ベースラインの探索)を,主要な文脈的意味論的タスクでテストされる文脈語間相互作用について提示することで,この仮定を考察する。 具体的には,データセットにおける文脈や単語のバイアスの程度を計算し,既存のデータセットを連続体にプロットする手法を提案する。 この分析は、ほとんどの既存のデータセットが連続体の最端(文脈バイアスまたはターゲットワードバイアス)に陥り、AM$^2$iCoとSense Retrievalだけが文脈とターゲットの単語の両方を表現するモデルに挑戦していることを示している。 WiCのケーススタディでは、データセット内で人間の被験者は強い文脈バイアスを共有せず(人間は、ターゲット語が欠けている場合、意味判断がはるかに困難である)、モデルは文脈のみから急激な相関関係を学習している。 本研究は、これらのタスクにおいて、通常、モデルがワード・イン・コンテクスト表現のためにテストされていないことを示す。 我々は、将来的なタスク設計と語彙意味論における応用の文脈と目的語バイアスの正当性チェックとして、我々のフレームワークを推奨する。

State-of-the-art contextualized models such as BERT use tasks such as WiC and WSD to evaluate their word-in-context representations. This inherently assumes that performance in these tasks reflect how well a model represents the coupled word and context semantics. This study investigates this assumption by presenting the first quantitative analysis (using probing baselines) on the context-word interaction being tested in major contextual lexical semantic tasks. Specifically, based on the probing baseline performance, we propose measures to calculate the degree of context or word biases in a dataset, and plot existing datasets on a continuum. The analysis shows most existing datasets fall into the extreme ends of the continuum (i.e. they are either heavily context-biased or target-word-biased) while only AM$^2$iCo and Sense Retrieval challenge a model to represent both the context and target words. Our case study on WiC reveals that human subjects do not share models' strong context biases in the dataset (humans found semantic judgments much more difficult when the target word is missing) and models are learning spurious correlations from context alone. This study demonstrates that models are usually not being tested for word-in-context representations as such in these tasks and results are therefore open to misinterpretation. We recommend our framework as sanity check for context and target word biases of future task design and application in lexical semantics.
翻訳日:2021-12-14 21:07:34 公開日:2021-12-13
# (参考訳) Roof-BERT: 仕事における労働と参加の分断 [全文訳有]

Roof-BERT: Divide Understanding Labour and Join in Work ( http://arxiv.org/abs/2112.06736v1 )

ライセンス: CC BY 4.0
Wei-Lin Liao, Wei-Yun Ma(参考訳) 近年,知識グラフ(KG)を用いたBERTに基づく言語表現モデルの改良が,複数のNLPタスクに対して有望な結果をもたらしている。 最先端のアプローチは通常、元の入力文をKGのトリプルと統合し、組み合わせた表現をBERTモデルに供給する。 しかし、BERTモデルのシーケンス長が制限されているため、このフレームワークは元の入力文以外の知識をあまり含まないため、いくつかの知識を捨てざるを得ない。 この問題は、入力が長い段落であるダウンストリームタスクや、qaや理解タスクを読むといったドキュメントである場合には特に深刻です。 そこで本研究では、2つの基盤となるBERTと融合層を持つモデルであるRoof-BERTを提案する。 基盤となるBERTの1つは知識資源をエンコードし、もう1つは元の入力文をエンコードし、屋根のような融合層はBERTのエンコードを統合する。 qaタスクにおける実験結果から,提案モデルの有効性が明らかになった。

Recent work on enhancing BERT-based language representation models with knowledge graphs (KGs) has promising results on multiple NLP tasks. State-of-the-art approaches typically integrate the original input sentences with triples in KGs, and feed the combined representation into a BERT model. However, as the sequence length of a BERT model is limited, the framework can not contain too much knowledge besides the original input sentences and is thus forced to discard some knowledge. The problem is especially severe for those downstream tasks that input is a long paragraph or even a document, such as QA or reading comprehension tasks. To address the problem, we propose Roof-BERT, a model with two underlying BERTs and a fusion layer on them. One of the underlying BERTs encodes the knowledge resources and the other one encodes the original input sentences, and the fusion layer like a roof integrates both BERTs' encodings. Experiment results on QA task reveal the effectiveness of the proposed model.
翻訳日:2021-12-14 20:54:37 公開日:2021-12-13
# (参考訳) 構成的知識伝達によるロングテール認識 [全文訳有]

Long-tail Recognition via Compositional Knowledge Transfer ( http://arxiv.org/abs/2112.06741v1 )

ライセンス: CC BY 4.0
Sarah Parisot, Pedro M. Esperanca, Steven McDonagh, Tamas J. Madarasz, Yongxin Yang, Zhenguo Li(参考訳) そこで本研究では,学習自由な知識伝達を通じて,末尾クラスの少数ショット問題に対処する,長尾認識のための新しい戦略を提案する。 我々の目的は,情報に富む共通クラスから得られた知識を意味的に類似し,しかもデータに富む稀なクラスに伝達し,より強力なテールクラス表現を得ることである。 我々は,クラスプロトタイプと学習コサイン分類器が特徴空間におけるクラスクラスタ中心の2つの異なる相補的な表現を提供し,学習した分類器の特徴を共通クラスから選択・再構成し,高品質のレアクラス表現を得るために注意機構を利用するという事実を生かした。 我々の知識伝達プロセスは、学習の自由であり、過度に適合するリスクを減らし、分類器を新しいクラスに継続的に拡張することができる。 実験により,我々の手法は,高い性能を保ちながら,希少なクラスにおいて顕著な性能向上を達成できることを示す。

In this work, we introduce a novel strategy for long-tail recognition that addresses the tail classes' few-shot problem via training-free knowledge transfer. Our objective is to transfer knowledge acquired from information-rich common classes to semantically similar, and yet data-hungry, rare classes in order to obtain stronger tail class representations. We leverage the fact that class prototypes and learned cosine classifiers provide two different, complementary representations of class cluster centres in feature space, and use an attention mechanism to select and recompose learned classifier features from common classes to obtain higher quality rare class representations. Our knowledge transfer process is training free, reducing overfitting risks, and can afford continual extension of classifiers to new classes. Experiments show that our approach can achieve significant performance boosts on rare classes while maintaining robust common class performance, outperforming directly comparable state-of-the-art models.
翻訳日:2021-12-14 20:46:41 公開日:2021-12-13
# (参考訳) ポリトープ投影とメモリによる非線形ダイナミクスのデータ駆動モデリング

Data-driven modelling of nonlinear dynamics by polytope projections and memory ( http://arxiv.org/abs/2112.06742v1 )

ライセンス: CC BY-SA 4.0
Niklas Wulkow, P\'eter Koltai, Vikram Sunkara, Christof Sch\"utte(参考訳) データから力学系をモデル化するための数値計算法を提案する。 我々は最近導入されたScalable Probabilistic Approximation (SPA) を用いて、ユークリッド空間からポリトープを凸する点を投影し、ポリトープにおけるそれらの位置を示す新しい低次元座標におけるシステムの投影状態を表現する。 次に、ポリトープのダイナミクスのモデルを構築し、元の状態空間に変換するために、特定の非線形変換を導入する。 プロジェクションから低次元ポリトープへの情報の潜在的な損失を克服するために、takesの遅延埋め込み定理の意味でメモリを使用する。 構築により,本手法は安定なモデルを生成する。 様々な例において,複数の連結成分を持つカオス力学やアトラクタを再現する手法の能力について述べる。

We present a numerical method to model dynamical systems from data. We use the recently introduced method Scalable Probabilistic Approximation (SPA) to project points from a Euclidean space to convex polytopes and represent these projected states of a system in new, lower-dimensional coordinates denoting their position in the polytope. We then introduce a specific nonlinear transformation to construct a model of the dynamics in the polytope and to transform back into the original state space. To overcome the potential loss of information from the projection to a lower-dimensional polytope, we use memory in the sense of the delay-embedding theorem of Takens. By construction, our method produces stable models. We illustrate the capacity of the method to reproduce even chaotic dynamics and attractors with multiple connected components on various examples.
翻訳日:2021-12-14 20:30:17 公開日:2021-12-13
# (参考訳) 視覚認識のための教師なし領域適応の検討 [全文訳有]

A Survey of Unsupervised Domain Adaptation for Visual Recognition ( http://arxiv.org/abs/2112.06745v1 )

ライセンス: CC0 1.0
Youshan Zhang(参考訳) ラベルのない大量のデータが生成され、多くのドメインで利用可能になる一方で、視覚データの自動理解に対する需要はこれまで以上に高い。 既存の機械学習モデルの多くは、ハイパフォーマンスを達成するために大量のラベル付きトレーニングデータに依存している。 残念ながら、そのような要件は現実世界のアプリケーションでは満たされない。 ラベルの数は限られており、手動でアノテートするデータは高価で時間を要する。 しばしば、既存のラベル付きドメインから新しいドメインに知識を転送する必要がある。 しかし、ドメイン間の差異(ドメインシフトやデータセットバイアス)により、モデルのパフォーマンスは低下する。 アノテーションの負担を克服するために、ドメイン適応(da)は、あるドメインから別の類似するが異なるドメインに知識を移す際にドメインシフトの問題を軽減することを目的としている。 Unsupervised DA (UDA) はラベル付きソースドメインとラベルなしターゲットドメインを扱う。 UDAの主な目的は、ラベル付きソースデータとラベルなしターゲットデータとの間のドメインの差を減らし、トレーニング中に2つのドメインにわたるドメイン不変表現を学習することである。 本稿ではまず,UDA問題を定義する。 次に,従来の手法と深層学習に基づく手法の両方から,異なるカテゴリのUDAの最先端手法を概説する。 最後に、頻繁に使用されるベンチマークデータセットを収集し、視覚認識問題に対するUDAの最先端手法の結果を報告する。

While huge volumes of unlabeled data are generated and made available in many domains, the demand for automated understanding of visual data is higher than ever before. Most existing machine learning models typically rely on massive amounts of labeled training data to achieve high performance. Unfortunately, such a requirement cannot be met in real-world applications. The number of labels is limited and manually annotating data is expensive and time-consuming. It is often necessary to transfer knowledge from an existing labeled domain to a new domain. However, model performance degrades because of the differences between domains (domain shift or dataset bias). To overcome the burden of annotation, Domain Adaptation (DA) aims to mitigate the domain shift problem when transferring knowledge from one domain into another similar but different domain. Unsupervised DA (UDA) deals with a labeled source domain and an unlabeled target domain. The principal objective of UDA is to reduce the domain discrepancy between the labeled source data and unlabeled target data and to learn domain-invariant representations across the two domains during training. In this paper, we first define UDA problem. Secondly, we overview the state-of-the-art methods for different categories of UDA from both traditional methods and deep learning based methods. Finally, we collect frequently used benchmark datasets and report results of the state-of-the-art methods of UDA on visual recognition problem.
翻訳日:2021-12-14 20:29:15 公開日:2021-12-13
# (参考訳) 実現理論を用いた貯留層ネットワークの解釈可能設計 [全文訳有]

Interpretable Design of Reservoir Computing Networks using Realization Theory ( http://arxiv.org/abs/2112.06891v1 )

ライセンス: CC BY 4.0
Wei Miao, Vignesh Narayanan, Jr-Shin Li(参考訳) 貯水池コンピューティングネットワーク(RCN)は、学習と複雑な意思決定タスクのツールとして成功している。 その効率性と訓練コストの低さにもかかわらず、RCNの実用化は経験的設計に大きく依存している。 本稿では,線形力学系の実現理論を用いてrcnsを設計するアルゴリズムを開発した。 特に、$\alpha$-stable Realizationの概念を導入し、トレーニング精度を低下させることなく線形RCNのサイズを推定する効率的なアプローチを提供する。 さらに,制御可能性と可観測性行列の概念に基づき,線形rcnにおける隠れノード数の既約性に関する必要十分条件を導出する。 線形RCN設計を応用し、非線形活性化関数を持つRCNを実現するためのトラクタブルな手順を提供する。 最後に,提案したRCN設計手法を検証し,その有効性を示すため,時間遅延システムとカオスシステムの予測に関する数値実験を行った。

The reservoir computing networks (RCNs) have been successfully employed as a tool in learning and complex decision-making tasks. Despite their efficiency and low training cost, practical applications of RCNs rely heavily on empirical design. In this paper, we develop an algorithm to design RCNs using the realization theory of linear dynamical systems. In particular, we introduce the notion of $\alpha$-stable realization, and provide an efficient approach to prune the size of a linear RCN without deteriorating the training accuracy. Furthermore, we derive a necessary and sufficient condition on the irreducibility of number of hidden nodes in linear RCNs based on the concepts of controllability and observability matrices. Leveraging the linear RCN design, we provide a tractable procedure to realize RCNs with nonlinear activation functions. Finally, we present numerical experiments on forecasting time-delay systems and chaotic systems to validate the proposed RCN design methods and demonstrate their efficacy.
翻訳日:2021-12-14 19:56:56 公開日:2021-12-13
# 確率的バイリニア報酬を用いたスケジューリングサーバ

Scheduling Servers with Stochastic Bilinear Rewards ( http://arxiv.org/abs/2112.06362v1 )

ライセンス: Link先を確認
Jung-hun Kim and Milan Vojnovic(参考訳) 本稿では,ジョブとサーバを表わす特徴ベクトルの双線形モデルに従って,ジョブサーバ割り当ての確率的報奨を伴うマルチクラスマルチサーバキューシステムについて検討する。 私たちの目標は、システムパラメータに関する完全な情報を持つoracleポリシーに対する後悔の最小化です。 本稿では,サーバへのジョブの動的割り当てとともに線形帯域幅アルゴリズムを用いたスケジューリングアルゴリズムを提案する。 平均ジョブサービス時間が全ジョブに対して同一であるベースライン設定に対して,本アルゴリズムでは,平均待ち行列長に対して水平時間内にバウンドするサブリニアリットと,サブリニアリットを持つことを示す。 さらに、同様の境界がより一般的な仮定の下で保持されていることも示しており、異なるジョブクラスやサーバクラスの時間的変動に対して、非identical平均ジョブサービス時間を可能にする。 また,ジョブクラスのトラフィック強度にアルゴリズムがアクセスすることで,後悔や平均キュー長の境界が保証されることを示した。 本稿では,アルゴリズムの残差と平均待ち時間長が様々なシステムパラメータに依存することを示す数値実験の結果を,合成ランダムに生成されたデータと実世界のクラスタ計算データトレースを用いて提案したアルゴリズムと比較した。

In this paper we study a multi-class, multi-server queueing system with stochastic rewards of job-server assignments following a bilinear model in feature vectors representing jobs and servers. Our goal is regret minimization against an oracle policy that has a complete information about system parameters. We propose a scheduling algorithm that uses a linear bandit algorithm along with dynamic allocation of jobs to servers. For the baseline setting, in which mean job service times are identical for all jobs, we show that our algorithm has a sub-linear regret, as well as a sub-linear bound on the mean queue length, in the horizon time. We further show that similar bounds hold under more general assumptions, allowing for non-identical mean job service times for different job classes and a time-varying set of server classes. We also show that better regret and mean queue length bounds can be guaranteed by an algorithm having access to traffic intensities of job classes. We present results of numerical experiments demonstrating how regret and mean queue length of our algorithms depend on various system parameters and compare their performance against a previously proposed algorithm using synthetic randomly generated data and a real-world cluster computing data trace.
翻訳日:2021-12-14 19:30:53 公開日:2021-12-13
# モデル駆動型MIMOシステムの深層学習によるCSIフィードバック

CSI Feedback with Model-Driven Deep Learning of Massive MIMO Systems ( http://arxiv.org/abs/2112.06405v1 )

ライセンス: Link先を確認
J. Guo, L. Wang, F. Li and J. Xue(参考訳) 周波数分割デュプレックス(FDD)モードにおけるMIMO(Multiple-Input multiple-output)システムの高データレートで信頼性の高い通信を実現するためには、受信機における推定チャネル状態情報(CSI)を送信機に送出する必要がある。 しかし, アンテナ数の増加に伴い, フィードバックのオーバーヘッドが増大する。 本稿では、モデル駆動深層学習に基づくフィードバックオーバーヘッドを低減するために、ミリ波(mmWave)大規模MIMOシステムのための2段階低ランク(TSLR)CSIフィードバックスキームを提案する。 さらに、より効率的なcsiフィードバックを実現するために、高速反復縮小しきい値アルゴリズム(fista)を展開することで、fista-netと呼ばれる深い反復ニューラルネットワークを設計する。 また、注意機構に基づいてfista-netで縮小しきい値ネットワーク(st-net)を設計でき、閾値を適応的に選択できる。 シミュレーションの結果,提案したTSLR CSIフィードバックスキームとFISTA-Netは,様々なシナリオにおいて既存のアルゴリズムよりも優れていた。

In order to achieve reliable communication with a high data rate of massive multiple-input multiple-output (MIMO) systems in frequency division duplex (FDD) mode, the estimated channel state information (CSI) at the receiver needs to be fed back to the transmitter. However, the feedback overhead becomes exorbitant with the increasing number of antennas. In this paper, a two stages low rank (TSLR) CSI feedback scheme for millimeter wave (mmWave) massive MIMO systems is proposed to reduce the feedback overhead based on model-driven deep learning. Besides, we design a deep iterative neural network, named FISTA-Net, by unfolding the fast iterative shrinkage thresholding algorithm (FISTA) to achieve more efficient CSI feedback. Moreover, a shrinkage thresholding network (ST-Net) is designed in FISTA-Net based on the attention mechanism, which can choose the threshold adaptively. Simulation results show that the proposed TSLR CSI feedback scheme and FISTA-Net outperform the existing algorithms in various scenarios.
翻訳日:2021-12-14 19:30:34 公開日:2021-12-13
# ReLU不変分布の完全キャラクタリゼーション

A Complete Characterisation of ReLU-Invariant Distributions ( http://arxiv.org/abs/2112.06532v1 )

ライセンス: Link先を確認
Jan Macdonald, Stephan W\"aldchen(参考訳) 本稿では、ReLUニューラルネットワーク層の作用の下で不変な確率分布の族を完全な特性化する。 このような家族の必要性は、ベイズ的ネットワークのトレーニングや、不確実性定量化(UQ)や説明可能な人工知能(XAI)といった訓練されたニューラルネットワークの分析において生じる。 我々は、以下の3つの制約のうちの少なくとも1つを満たさない限り、不変なパラメトリック分布族は存在しないことを証明している。 第二に、家族の確率測度は有限の支持を持ち、基本的にサンプリング分布に相当する。 第三に、ファミリーのパラメトリゼーションは局所リプシッツ連続ではなく、計算可能なすべての族を除外する。 最後に、これらの制限は個別に必要であることを示す。 3つのケースそれぞれについて、制限のちょうど1つを利用する不変な族を構成できるが、他の2つではない。

We give a complete characterisation of families of probability distributions that are invariant under the action of ReLU neural network layers. The need for such families arises during the training of Bayesian networks or the analysis of trained neural networks, e.g., in the context of uncertainty quantification (UQ) or explainable artificial intelligence (XAI). We prove that no invariant parametrised family of distributions can exist unless at least one of the following three restrictions holds: First, the network layers have a width of one, which is unreasonable for practical neural networks. Second, the probability measures in the family have finite support, which basically amounts to sampling distributions. Third, the parametrisation of the family is not locally Lipschitz continuous, which excludes all computationally feasible families. Finally, we show that these restrictions are individually necessary. For each of the three cases we can construct an invariant family exploiting exactly one of the restrictions but not the other two.
翻訳日:2021-12-14 19:30:13 公開日:2021-12-13
# 圧縮通信を用いた連合学習における最適レート適応

Optimal Rate Adaption in Federated Learning with Compressed Communications ( http://arxiv.org/abs/2112.06694v1 )

ライセンス: Link先を確認
Laizhong Cui, Xiaoxin Su, Yipeng Zhou, Jiangchuan Liu(参考訳) フェデレートラーニング(FL)は高い通信オーバーヘッドを引き起こし、モデル更新の圧縮によって大幅に軽減される。 しかし、ネットワーク環境における圧縮とモデルの精度のトレードオフはいまだ不明であり、ほとんどの実装では固定圧縮率のみを採用している。 本稿では,このトレードオフを初めて体系的に検証し,最終的なモデル精度に対する圧縮誤差の影響を学習率に対して同定する。 具体的には、各グローバルイテレーションの圧縮誤差を、強凸損失関数と非凸損失関数の両方の下での収束率解析に分解する。 次に,各イテレーションの圧縮率を戦略的に調整することにより,最終モデルの精度を最大化する適応フレームワークを提案する。 我々は,本フレームワークの汎用ネットワークにおける重要な実装課題を代表的圧縮アルゴリズムを用いて議論した。 一般的なMNISTおよびCIFAR-10データセットに対する実験により、我々のソリューションはネットワークトラフィックを効果的に削減するが、FLでは高いモデル精度を維持する。

Federated Learning (FL) incurs high communication overhead, which can be greatly alleviated by compression for model updates. Yet the tradeoff between compression and model accuracy in the networked environment remains unclear and, for simplicity, most implementations adopt a fixed compression rate only. In this paper, we for the first time systematically examine this tradeoff, identifying the influence of the compression error on the final model accuracy with respect to the learning rate. Specifically, we factor the compression error of each global iteration into the convergence rate analysis under both strongly convex and non-convex loss functions. We then present an adaptation framework to maximize the final model accuracy by strategically adjusting the compression rate in each iteration. We have discussed the key implementation issues of our framework in practical networks with representative compression algorithms. Experiments over the popular MNIST and CIFAR-10 datasets confirm that our solution effectively reduces network traffic yet maintains high model accuracy in FL.
翻訳日:2021-12-14 19:29:56 公開日:2021-12-13
# q$-state Pottsモデルに対する教師なし機械学習アプローチ

Unsupervised machine learning approaches to the $q$-state Potts model ( http://arxiv.org/abs/2112.06735v1 )

ライセンス: Link先を確認
Andrea Tirelli, Danyella O. Carvalho, Lucas A. Oliveira, J.P. Lima, Natanael C. Costa, Raimundo R. dos Santos(参考訳) 本稿では、$q$-state Pottsモデルの位相遷移を、主成分分析(PCA)、$k$-meansクラスタリング、Uniform Manifold Approximation and Projection(UMAP)、トポロジカルデータ解析(TDA)など、教師なしの機械学習技術を用いて、研究する。 すべての場合において、正しい臨界温度を$T_c(q)$, for $q = 3, 4$ and 5,$で取得できるが、結果は、UMAPやTDAのような非線形法は有限サイズ効果に依存せず、第1次と第2次の相転移を区別できることを示している。 この研究は、相転移の研究において異なる教師なし機械学習アルゴリズムを使用するためのベンチマークと見なすことができる。

In this paper with study phase transitions of the $q$-state Potts model, through a number of unsupervised machine learning techniques, namely Principal Component Analysis (PCA), $k$-means clustering, Uniform Manifold Approximation and Projection (UMAP), and Topological Data Analysis (TDA). Even though in all cases we are able to retrieve the correct critical temperatures $T_c(q)$, for $q = 3, 4$ and $5$, results show that non-linear methods as UMAP and TDA are less dependent on finite size effects, while still being able to distinguish between first and second order phase transitions. This study may be considered as a benchmark for the use of different unsupervised machine learning algorithms in the investigation of phase transitions.
翻訳日:2021-12-14 19:28:34 公開日:2021-12-13
# 最適輸送のためのホモトピーアルゴリズム

A Homotopy Algorithm for Optimal Transport ( http://arxiv.org/abs/2112.06763v1 )

ライセンス: Link先を確認
Roozbeh Yousefzadeh(参考訳) 最適輸送問題は、機械学習、物理学、生物学、経済学などに多くの応用がある。 その目的は非常に明確で数学的に明確に定義されているが、その最適解を見つけることは、高次元空間における大きなデータセットにとって困難である。 本稿では,この問題を対象分布を変化させることで,まず問題を簡単な形式に変換するホモトピーアルゴリズムを提案する。 その後、問題を一連の反復を通じて元の形式に変換し、元の問題の最適解を見つけるまで解の経路をたどる。 ホモトピー経路を直交プロクリスト問題に基づく部分空間回転として定義し、回転行列の固有値分解を用いてホモトピー経路を識別する。 我々のゴールは、文献の既存のメソッドよりも早く、$\mathcal{O}(n^2 \log(n))$で制限された複雑さを持つアルゴリズムを提供することです。

The optimal transport problem has many applications in machine learning, physics, biology, economics, etc. Although its goal is very clear and mathematically well-defined, finding its optimal solution can be challenging for large datasets in high-dimensional space. Here, we propose a homotopy algorithm that first transforms the problem into an easy form, by changing the target distribution. It then transforms the problem back to the original form through a series of iterations, tracing a path of solutions until it finds the optimal solution for the original problem. We define the homotopy path as a subspace rotation based on the orthogonal Procrustes problem, and then we discretize the homotopy path using eigenvalue decomposition of the rotation matrix. Our goal is to provide an algorithm with complexity bound $\mathcal{O}(n^2 \log(n))$, faster than the existing methods in the literature.
翻訳日:2021-12-14 19:28:18 公開日:2021-12-13
# (参考訳) 単語埋め込みとニューラルネットワークを用いたkhmerテキスト分類 [全文訳有]

Khmer Text Classification Using Word Embedding and Neural Networks ( http://arxiv.org/abs/2112.06748v1 )

ライセンス: CC BY 4.0
Rina Buoy and Nguonly Taing and Sovisal Chenda(参考訳) テキスト分類は、オープンエンドテキストをラベル付けする自然言語処理の基本的なタスクの1つであり、感情分析などの様々な応用に有用である。 本稿では,古典的なTF-IDFアルゴリズムによるベクトルマシン分類器から,線形層モデル,リカレントニューラルネットワーク,畳み込みニューラルネットワークを含む,現代的な単語埋め込み型ニューラルネットワーク分類器まで,クメールテキストの分類手法について論じる。 Khmerワード埋め込みモデルは、30万のKhmerワードコーパスでトレーニングされ、3つの異なるニューラルネットワーク分類器をトレーニングするために使用されるワードベクトル表現を構築する。 複数クラス・複数ラベルのテキスト分類タスクに対して,ニュース記事データセット上での異なるアプローチの性能を評価する。 その結果、単語埋め込みモデルを用いたニューラルネットワーク分類器はtf-idfを用いた従来の分類器を一貫して上回っていることが示唆された。 リカレントニューラルネットワーク分類器は、畳み込みネットワークや線形層ネットワークと比較してわずかに良い結果が得られる。

Text classification is one of the fundamental tasks in natural language processing to label an open-ended text and is useful for various applications such as sentiment analysis. In this paper, we discuss various classification approaches for Khmer text, ranging from a classical TF-IDF algorithm with support vector machine classifier to modern word embedding-based neural network classifiers including linear layer model, recurrent neural network and convolutional neural network. A Khmer word embedding model is trained on a 30-million-Khmer-wor d corpus to construct word vector representations that are used to train three different neural network classifiers. We evaluate the performance of different approaches on a news article dataset for both multi-class and multi-label text classification tasks. The result suggests that neural network classifiers using a word embedding model consistently outperform the traditional classifier using TF-IDF. The recurrent neural network classifier provides a slightly better result compared to the convolutional network and the linear layer network.
翻訳日:2021-12-14 19:27:22 公開日:2021-12-13
# 降水ダウンスケーリングのための畳み込みニューラルネットワークの時間方向および垂直方向への拡張

Extension of Convolutional Neural Network along Temporal and Vertical Directions for Precipitation Downscaling ( http://arxiv.org/abs/2112.06571v1 )

ライセンス: Link先を確認
Takeyoshi Nagasato, Kei Ishida, Ali Ercan, Tongbi Tu, Masato Kiyama, Motoki Amagasaki, Kazuki Yokoo(参考訳) 深層学習は、気候データの統計的ダウンスケーリングに利用されている。 具体的には,2次元畳み込みニューラルネットワーク(cnn)を降水推定に適用することに成功した。 本研究では,3次元CNNを用いて,3次元大気データから流域スケールの日降水量を推定し,その結果を2次元CNNと比較する。 2DCNNは、時間方向(3D−CNN−Time)と垂直方向(3D−CNN−Vert)に沿って延びる。 これらの拡張型cnnの降水推定値は、根-平均二乗誤差(rmse)、nash-sutcliffe効率(nse)、99パーセンタイル型rmseの2次元cnnと比較される。 その結果, 3D-CNN-Time と 3D-CNN-Vert は降水量推定のモデル精度を 2D CNN と比較した。 3D-CNN-Vert は RMSE と NSE でトレーニングとテスト期間の最高の見積もりを提供した。

Deep learning has been utilized for the statistical downscaling of climate data. Specifically, a two-dimensional (2D) convolutional neural network (CNN) has been successfully applied to precipitation estimation. This study implements a three-dimensional (3D) CNN to estimate watershed-scale daily precipitation from 3D atmospheric data and compares the results with those for a 2D CNN. The 2D CNN is extended along the time direction (3D-CNN-Time) and the vertical direction (3D-CNN-Vert). The precipitation estimates of these extended CNNs are compared with those of the 2D CNN in terms of the root-mean-square error (RMSE), Nash-Sutcliffe efficiency (NSE), and 99th percentile RMSE. It is found that both 3D-CNN-Time and 3D-CNN-Vert improve the model accuracy for precipitation estimation compared to the 2D CNN. 3D-CNN-Vert provided the best estimates during the training and test periods in terms of RMSE and NSE.
翻訳日:2021-12-14 19:20:16 公開日:2021-12-13
# FinRL-Meta: 定量的ファイナンスにおけるデータ駆動型深層強化学習のためのニアリアル市場環境の宇宙

FinRL-Meta: A Universe of Near-Real Market Environments for Data-Driven Deep Reinforcement Learning in Quantitative Finance ( http://arxiv.org/abs/2112.06753v1 )

ライセンス: Link先を確認
Xiao-Yang Liu, Jingyang Rui, Jiechao Gao, Liuqing Yang, Hongyang Yang, Zhaoran Wang, Christina Dan Wang, Jian Guo(参考訳) 深層強化学習(DRL)は近年,金融市場シミュレータ構築において大きな可能性を示している。 しかし、実世界の市場の非常に複雑でダイナミックな性質のため、生の歴史的財務データはしばしば大きなノイズを伴い、市場の将来を反映せず、DRLベースの市場シミュレーターの忠実さを損なう可能性がある。 さらに、DRLベースの市場シミュレータの精度は、多数の多様なDRLエージェントに大きく依存しており、市場環境の宇宙への需要を増大させ、シミュレーション速度に挑戦する。 本稿では,データ駆動型金融強化学習のための市場環境を構築するFinRL-Metaフレームワークを提案する。 まず、FinRL-MetaはDRLベースの戦略の設計パイプラインから金融データ処理を分離し、金融ビッグデータのためのオープンソースのデータエンジニアリングツールを提供する。 第2に、FinRL-Metaは様々な取引タスクに数百の市場環境を提供している。 第3に、FinRL-Metaは数千のGPUコアを活用することで、マルチプロセスシミュレーションとトレーニングを可能にする。 私たちのコードはhttps://github.com/A I4Finance-Foundation /FinRL-Meta.comで公開されている。

Deep reinforcement learning (DRL) has shown huge potentials in building financial market simulators recently. However, due to the highly complex and dynamic nature of real-world markets, raw historical financial data often involve large noise and may not reflect the future of markets, degrading the fidelity of DRL-based market simulators. Moreover, the accuracy of DRL-based market simulators heavily relies on numerous and diverse DRL agents, which increases demand for a universe of market environments and imposes a challenge on simulation speed. In this paper, we present a FinRL-Meta framework that builds a universe of market environments for data-driven financial reinforcement learning. First, FinRL-Meta separates financial data processing from the design pipeline of DRL-based strategy and provides open-source data engineering tools for financial big data. Second, FinRL-Meta provides hundreds of market environments for various trading tasks. Third, FinRL-Meta enables multiprocessing simulation and training by exploiting thousands of GPU cores. Our codes are available online at https://github.com/A I4Finance-Foundation /FinRL-Meta.
翻訳日:2021-12-14 19:19:36 公開日:2021-12-13
# 低温粒子検出器のためのLSTMニューラルネットワークを用いた非線形積層分離

Nonlinear pile-up separation with LSTM neural networks for cryogenic particle detectors ( http://arxiv.org/abs/2112.06792v1 )

ライセンス: Link先を確認
Felix Wagner(参考訳) 低温粒子検出器を用いた高バックグラウンド・キャリブレーション測定では、リコイル現象の蓄積により露光のかなりの割合が失われる。 本稿では,LSTMニューラルネットワークを用いてイベントを分離する手法を提案し,その性能を模範的なデータセット上で評価する。 非線型検出器応答関数にもかかわらず、ひどく歪んだエネルギースペクトルの基底真実を合理的に再構築することができる。

In high-background or calibration measurements with cryogenic particle detectors, a significant share of the exposure is lost due to pile-up of recoil events. We propose a method for the separation of pile-up events with an LSTM neural network and evaluate its performance on an exemplary data set. Despite a non-linear detector response function, we can reconstruct the ground truth of a severely distorted energy spectrum reasonably well.
翻訳日:2021-12-14 19:19:18 公開日:2021-12-13
# 誤りを伴う学習のハードネスを利用した連帯学習のための効率的な微分プライベートセキュアアグリゲーション

Efficient Differentially Private Secure Aggregation for Federated Learning via Hardness of Learning with Errors ( http://arxiv.org/abs/2112.06872v1 )

ライセンス: Link先を確認
Timothy Stevens, Christian Skalka, Christelle Vincent, John Ring, Samuel Clark, Joseph Near(参考訳) フェデレーション機械学習はエッジコンピューティングを活用してネットワークユーザデータからモデルを開発するが、フェデレーション学習におけるプライバシは依然として大きな課題である。 ディファレンシャルプライバシを使用する技術はこの問題に対処するために提案されているが、独自の課題をもたらしている。 マルチパーティ計算による \emph{secure aggregation} の最近の進歩は、サードパーティの必要性をなくしているが、特に大規模では計算コストが高い。 本稿では,Learning With Errorsのテクニックに基づく,新たな個人的かつ悪意のあるセキュアアグリゲーションプロトコルを利用する,新たなフェデレーション学習プロトコルを提案する。 本プロトコルは,現在の最先端技術よりも優れており,実験結果から,任意の個人共用学習方式に対して最適な精度で,多数のパーティにスケールできることがわかった。

Federated machine learning leverages edge computing to develop models from network user data, but privacy in federated learning remains a major challenge. Techniques using differential privacy have been proposed to address this, but bring their own challenges -- many require a trusted third party or else add too much noise to produce useful models. Recent advances in \emph{secure aggregation} using multiparty computation eliminate the need for a third party, but are computationally expensive especially at scale. We present a new federated learning protocol that leverages a novel differentially private, malicious secure aggregation protocol based on techniques from Learning With Errors. Our protocol outperforms current state-of-the art techniques, and empirical results show that it scales to a large number of parties, with optimal accuracy for any differentially private federated learning scheme.
翻訳日:2021-12-14 19:19:10 公開日:2021-12-13
# VirtualCube:没入型3Dビデオ通信システム

VirtualCube: An Immersive 3D Video Communication System ( http://arxiv.org/abs/2112.06730v1 )

ライセンス: Link先を確認
Yizhong Zhang, Jiaolong Yang, Zhen Liu, Ruicheng Wang, Guojun Chen, Xin Tong, and Baining Guo(参考訳) virtualcube systemは、従来の技術の限界を克服しようとする3dビデオ会議システムである。 キーとなる要素はvirtualcubeで、ユーザーの3d形状とテクスチャをキャプチャするrgbdカメラを備えた実世界のキュービクルの抽象表現だ。 私たちはVirtualCubeを設計し、データキャプチャのタスクを標準化し、大幅に単純化し、全てを既製のハードウェアで構築できるようにします。 仮想会議環境の基本構築ブロックとしてVirtualCubesを使用し、各VirtualCubeユーザに、リモート参加者のライフサイズのビデオを表示する周囲のディスプレイを提供する。 遠隔参加者のリアルタイムレンダリングを実現するために,より正確な深度推定のためのマルチビューステレオとレンダリング品質向上のためのLumi-Netレンダリングを用いたV-Cube Viewアルゴリズムを開発した。 VirtualCubeシステムは、参加者同士の視線を正確に保存し、目の接触を確立し、誰が視覚的に注意を払っているかを認識する。 このシステムでは、参加者が同じ部屋にいるかのように、リモート参加者とサイドディスカッションを行うこともできる。 最後に、システムは作業項目の共有スペース(ドキュメントやアプリケーションなど)をサポートし、作業項目に対する参加者の視覚的な注意を追跡する方法を照らします。

The VirtualCube system is a 3D video conference system that attempts to overcome some limitations of conventional technologies. The key ingredient is VirtualCube, an abstract representation of a real-world cubicle instrumented with RGBD cameras for capturing the 3D geometry and texture of a user. We design VirtualCube so that the task of data capturing is standardized and significantly simplified, and everything can be built using off-the-shelf hardware. We use VirtualCubes as the basic building blocks of a virtual conferencing environment, and we provide each VirtualCube user with a surrounding display showing life-size videos of remote participants. To achieve real-time rendering of remote participants, we develop the V-Cube View algorithm, which uses multi-view stereo for more accurate depth estimation and Lumi-Net rendering for better rendering quality. The VirtualCube system correctly preserves the mutual eye gaze between participants, allowing them to establish eye contact and be aware of who is visually paying attention to them. The system also allows a participant to have side discussions with remote participants as if they were in the same room. Finally, the system sheds lights on how to support the shared space of work items (e.g., documents and applications) and track the visual attention of participants to work items.
翻訳日:2021-12-14 19:17:23 公開日:2021-12-13
# (参考訳) 選択予測における人間とAIの相互作用の役割 [全文訳有]

Role of Human-AI Interaction in Selective Prediction ( http://arxiv.org/abs/2112.06751v1 )

ライセンス: CC BY 4.0
Elizabeth Bondi, Raphael Koster, Hannah Sheahan, Martin Chadwick, Yoram Bachrach, Taylan Cemgil, Ulrich Paquet, Krishnamurthy Dvijotham(参考訳) 最近の研究は、AIの予測が信頼できないとき、特に医療や保護のような高度なアプリケーションにおけるAIシステムの信頼性を向上させるために、人間に遅延する選択予測システムの潜在的な利点を示している。 しかしながら、多くの先行研究は、人間-AIチームの一部として予測タスクを解決した際、人間による行動は変化しないと仮定している。 我々は,人間とAIの相互作用を選択的予測の文脈で定量化する実験を行うことによって,このような現象は起こらないことを示した。 特に、推論するaiシステムの決定について人間に異なる種類の情報を伝えることが与える影響について検討する。 実世界の保全データと、人間やAIシステムよりも期待される精度を個別に向上する選択的予測システムを用いて、このメッセージングが人間の判断の正確性に大きな影響を与えることを示す。 我々の結果はメッセージング戦略の2つの要素について研究した。 1)AIシステムの予測について人間に知らせるか否かと 2)延期する選択予測システムの決定について通知されるか否か。 これらのメッセージコンポーネントを操作することで、人間に遅延を知らせ、AIの予測を明かさないことで、人間のパフォーマンスを大幅に向上させることができることを示す。 そこで我々は,選択予測システムの設計において,遅延決定が人間にどのように伝達されるかを検討することが不可欠であり,人間-AIチームの合成精度を,ループ内フレームワークを用いて慎重に評価する必要があることを示す。

Recent work has shown the potential benefit of selective prediction systems that can learn to defer to a human when the predictions of the AI are unreliable, particularly to improve the reliability of AI systems in high-stakes applications like healthcare or conservation. However, most prior work assumes that human behavior remains unchanged when they solve a prediction task as part of a human-AI team as opposed to by themselves. We show that this is not the case by performing experiments to quantify human-AI interaction in the context of selective prediction. In particular, we study the impact of communicating different types of information to humans about the AI system's decision to defer. Using real-world conservation data and a selective prediction system that improves expected accuracy over that of the human or AI system working individually, we show that this messaging has a significant impact on the accuracy of human judgements. Our results study two components of the messaging strategy: 1) Whether humans are informed about the prediction of the AI system and 2) Whether they are informed about the decision of the selective prediction system to defer. By manipulating these messaging components, we show that it is possible to significantly boost human performance by informing the human of the decision to defer, but not revealing the prediction of the AI. We therefore show that it is vital to consider how the decision to defer is communicated to a human when designing selective prediction systems, and that the composite accuracy of a human-AI team must be carefully evaluated using a human-in-the-loop framework.
翻訳日:2021-12-14 19:14:11 公開日:2021-12-13
# バンディット実験におけるリスクと最適政策

Risk and optimal policies in bandit experiments ( http://arxiv.org/abs/2112.06363v1 )

ライセンス: Link先を確認
Karun Adusumilli(参考訳) 本稿では,バンディット実験の決定論的解析について述べる。 バンディット設定は動的プログラミング問題に対応するが、これを直接解くことは一般的に不可能である。 拡散漸近の枠組みの中で作業し、バンドイット設定に対する漸近ベイズリスクの適切な概念を定義する。 通常分散報酬の場合、最小ベイズリスクは非線形二階偏微分方程式(PDE)の解として特徴づけられる。 実験手法の限界を用いて、このPDE特性は、報酬のパラメトリック分布と非パラメトリック分布の両方において漸近的に保持されることを示す。 このアプローチはさらに、注意を制限するのに漸近的に十分である状態変数を記述し、従って次元減少のための実用的な戦略を提案する。 アップショットは、バンドレート設定を定義する動的プログラミング問題を、スパース行列ルーチンを用いて効率的に解けるPDEで近似できるということである。 これらの方程式に対する数値解から準最適ポリシーを導出する。 提案手法はトンプソンサンプリングのような既存の手法を実質的に支配している。 このフレームワークは、時間ディスカウントや純粋な探検動機など、バンディット問題の実質的な一般化も可能にする。

This paper provides a decision theoretic analysis of bandit experiments. The bandit setting corresponds to a dynamic programming problem, but solving this directly is typically infeasible. Working within the framework of diffusion asymptotics, we define a suitable notion of asymptotic Bayes risk for bandit settings. For normally distributed rewards, the minimal Bayes risk can be characterized as the solution to a nonlinear second-order partial differential equation (PDE). Using a limit of experiments approach, we show that this PDE characterization also holds asymptotically under both parametric and non-parametric distribution of the rewards. The approach further describes the state variables it is asymptotically sufficient to restrict attention to, and therefore suggests a practical strategy for dimension reduction. The upshot is that we can approximate the dynamic programming problem defining the bandit setting with a PDE which can be efficiently solved using sparse matrix routines. We derive near-optimal policies from the numerical solutions to these equations. The proposed policies substantially dominate existing methods such Thompson sampling. The framework also allows for substantial generalizations to the bandit problem such as time discounting and pure exploration motives.
翻訳日:2021-12-14 18:55:46 公開日:2021-12-13
# N-Cloth:メッシュネットワークによる3次元布の変形予測

N-Cloth: Predicting 3D Cloth Deformation with Mesh-Based Networks ( http://arxiv.org/abs/2112.06397v1 )

ライセンス: Link先を確認
Yudi Li and Min Tang and Yun Yang and Zi Huang and Ruofeng Tong and Shuangcai Yang and Yao Li and Dinesh Manocha(参考訳) 本稿では,3次元布の変形予測のためのメッシュに基づく新しい学習手法(N-Cloth)を提案する。 我々のアプローチは一般的なもので、任意のトポロジを持つ三角形メッシュで表される布や障害物を扱える。 グラフ畳み込みを用いて、メッシュ空間の非線形性を低減するために、布とメッシュを潜在空間に変換する。 本ネットワークは,初期布メッシュテンプレートと対象障害物メッシュの状態に基づいて,対象の3次元布メッシュ変形を予測できる。 我々のアプローチは、SMPL人間、非SMPL人間、または剛体に対応する様々な物体で、最大100ドルの三角形とシーンを持つ複雑な布メッシュを扱うことができる。 実際に,本手法は連続する入力フレーム間の時間的コヒーレンスをよく示し,NVIDIA GeForce RTX 3090 GPU上で30-45$ fpsで可塑性布シミュレーションを生成する。 先行学習に基づく方法や物理ベースの布のシミュレータよりもその利点を強調する。

We present a novel mesh-based learning approach (N-Cloth) for plausible 3D cloth deformation prediction. Our approach is general and can handle cloth or obstacles represented by triangle meshes with arbitrary topology. We use graph convolution to transform the cloth and object meshes into a latent space to reduce the non-linearity in the mesh space. Our network can predict the target 3D cloth mesh deformation based on the state of the initial cloth mesh template and the target obstacle mesh. Our approach can handle complex cloth meshes with up to $100$K triangles and scenes with various objects corresponding to SMPL humans, Non-SMPL humans, or rigid bodies. In practice, our approach demonstrates good temporal coherence between successive input frames and can be used to generate plausible cloth simulation at $30-45$ fps on an NVIDIA GeForce RTX 3090 GPU. We highlight its benefits over prior learning-based methods and physically-based cloth simulators.
翻訳日:2021-12-14 18:55:30 公開日:2021-12-13
# 学習ブルームフィルタにおける汎用分類器の選択について:基本フィルタにおける初期解析

On the Choice of General Purpose Classifiers in Learned Bloom Filters: An Initial Analysis Within Basic Filters ( http://arxiv.org/abs/2112.06563v1 )

ライセンス: Link先を確認
Giacomo Fumagalli, Davide Raimondi, Raffaele Giancarlo, Dario Malchiodi, Marco Frasca(参考訳) ブルームフィルタは基本的で普及したデータ構造である。 Learned Data Structuresの領域内では、いくつかの学習されたブルームフィルタが検討されており、古典的なフィルタよりも有利である。 それぞれが、データ構造の学習された部分である分類器を使用する。 これらの新しいフィルタにおいて中心的な役割を持ち、その空間フットプリントと分類時間が学習フィルタの性能に影響を与える可能性があるが、どの特定の分類器がどの状況で利用できるかという体系的な研究はない。 ここでは,5つの古典的分類パラダイムの中から分類器を選択するための初期ガイドラインを提供する。

Bloom Filters are a fundamental and pervasive data structure. Within the growing area of Learned Data Structures, several Learned versions of Bloom Filters have been considered, yielding advantages over classic Filters. Each of them uses a classifier, which is the Learned part of the data structure. Although it has a central role in those new filters, and its space footprint as well as classification time may affect the performance of the Learned Filter, no systematic study of which specific classifier to use in which circumstances is available. We report progress in this area here, providing also initial guidelines on which classifier to choose among five classic classification paradigms.
翻訳日:2021-12-14 18:55:14 公開日:2021-12-13
# (参考訳) MLモデルの価値について [全文訳有]

On the Value of ML Models ( http://arxiv.org/abs/2112.06775v1 )

ライセンス: CC BY 4.0
Fabio Casati, Pierre-Andr\'e No\"el and Jie Yang(参考訳) 機械学習(ML)モデルの確立とベンチマークを行う場合、研究コミュニティは、実践的なアプリケーションでモデルがもたらす価値をよりよく把握する評価指標を優先すべきである、と私たちは主張する。 特定のユースケースのクラス -- 選択的な分類 -- に対して、我々はそれができるほどシンプルであるだけでなく、結果がインポートできることを示し、‘よい’MLモデルで何を探すべきかの洞察を提供する。

We argue that, when establishing and benchmarking Machine Learning (ML) models, the research community should favour evaluation metrics that better capture the value delivered by their model in practical applications. For a specific class of use cases -- selective classification -- we show that not only can it be simple enough to do, but that it has import consequences and provides insights what to look for in a ``good'' ML model.
翻訳日:2021-12-14 18:52:47 公開日:2021-12-13
# フラジプロジェクションの位相アンラッピングにおけるフラジ次予測用ハイブリッドCNN変換器

Hformer: Hybrid CNN-Transformer for Fringe Order Prediction in Phase Unwrapping of Fringe Projection ( http://arxiv.org/abs/2112.06759v1 )

ライセンス: Link先を確認
Xinjun Zhu, Zhiqiang Han, Mengkai Yuan, Qinghua Guo, Hongyi Wang(参考訳) 近年,強力な畳み込みニューラルネットワーク(CNN)モデルを活用した性能向上を目的として,遠近距離射影3次元計測の位相展開に深層学習が注目されている。 本稿では、初めて(私たちの知る限り)、CNNとは異なる位相アンラッピングにトランスフォーマーを導入し、フリンジ順序予測による位相アンラッピング専用のHformerモデルを提案する。 提案モデルは,主にバックボーン,エンコーダ,デコーダで構成されるハイブリッドCNN-Transformerアーキテクチャを備え,CNNとTransformerの両方を利用する。 フリンジオーダー予測のためにクロス注意のエンコーダとデコーダが設計されている。 実験の結果,提案手法は,u-netやdcnnなどのcnnモデルと比較して,フリンジ次数予測の性能が向上することがわかった。 さらに,Hformerのアブレーション実験を行い,改良された特徴ピラミッドネットワーク (FPN) と,予測されたフランジ方向のフリップによるテスト戦略を検証する。 私たちの研究は、フリンジプロジェクション3d計測においてcnnが支配する、ディープラーニングに基づくフェーズアンラッピング法に代わる方法を開きます。

Recently, deep learning has attracted more and more attention in phase unwrapping of fringe projection three-dimensional (3D) measurement, with the aim to improve the performance leveraging the powerful Convolutional Neural Network (CNN) models. In this paper, for the first time (to the best of our knowledge), we introduce the Transformer into the phase unwrapping which is different from CNN and propose Hformer model dedicated to phase unwrapping via fringe order prediction. The proposed model has a hybrid CNN-Transformer architecture that is mainly composed of backbone, encoder and decoder to take advantage of both CNN and Transformer. Encoder and decoder with cross attention are designed for the fringe order prediction. Experimental results show that the proposed Hformer model achieves better performance in fringe order prediction compared with the CNN models such as U-Net and DCNN. Moreover, ablation study on Hformer is made to verify the improved feature pyramid networks (FPN) and testing strategy with flipping in the predicted fringe order. Our work opens an alternative way to deep learning based phase unwrapping methods, which are dominated by CNN in fringe projection 3D measurement.
翻訳日:2021-12-14 18:38:52 公開日:2021-12-13
# hARMS:リアルタイムイベントベース光フローのためのハードウェアアクセラレーションアーキテクチャ

hARMS: A Hardware Acceleration Architecture for Real-Time Event-Based Optical Flow ( http://arxiv.org/abs/2112.06772v1 )

ライセンス: Link先を確認
Daniel C. Stumpp, Himanshu Akolkar, Alan D. George, Ryad B. Benosman(参考訳) イベントベースの視覚センサは、視覚シーンの変化に基づいて、時間分解能の高い非同期イベントストリームを生成する。 これらのセンサーの特性は、イベントが発生すると光学的流れを正確かつ高速に計算できる。 イベントデータから光学的流れを計算する既存のソリューションは、開口問題による運動の真の方向を捉えることができないか、センサーの高時間分解能を使用しないか、組込みプラットフォーム上でリアルタイムに実行するには計算コストがかかりすぎる。 本研究では,従来のアルゴリズムであるARMS(Aperture Robust Multi-Scale Flow)の高速化について述べる。 新しい最適化ソフトウェアバージョン(fARMS)は、従来のCPUのスループットを大幅に改善する。 さらに,低消費電力な組込みプラットフォーム上での真の流れのリアルタイム計算を可能にするfARMSアルゴリズムのハードウェア実現法であるhARMSを提案する。 提案したhARMSアーキテクチャはハイブリッドなシステムオンチップデバイスをターゲットにしており、構成性とスループットを最大化するように設計されている。 ハードウェアアーキテクチャとfARMSアルゴリズムは非同期ニューロモルフィック処理を念頭に置いて開発され、イベントフレームの共通使用を放棄し、関連するイベントの小さな履歴のみを使用して動作し、センサーの解像度とは独立してレイテンシをスケールできる。 この処理パラダイムの変更により、既存の方法と比較して最大73%のフロー方向の推定が向上し、選択したベンチマーク設定で最大1.21Mevent/sのhARMSスループットが得られた。 このスループットにより、リアルタイムのパフォーマンスを実現し、Aperture-robust, event-based optical flowをこれまでで最速で実現した。

Event-based vision sensors produce asynchronous event streams with high temporal resolution based on changes in the visual scene. The properties of these sensors allow for accurate and fast calculation of optical flow as events are generated. Existing solutions for calculating optical flow from event data either fail to capture the true direction of motion due to the aperture problem, do not use the high temporal resolution of the sensor, or are too computationally expensive to be run in real time on embedded platforms. In this research, we first present a faster version of our previous algorithm, ARMS (Aperture Robust Multi-Scale flow). The new optimized software version (fARMS) significantly improves throughput on a traditional CPU. Further, we present hARMS, a hardware realization of the fARMS algorithm allowing for real-time computation of true flow on low-power, embedded platforms. The proposed hARMS architecture targets hybrid system-on-chip devices and was designed to maximize configurability and throughput. The hardware architecture and fARMS algorithm were developed with asynchronous neuromorphic processing in mind, abandoning the common use of an event frame and instead operating using only a small history of relevant events, allowing latency to scale independently of the sensor resolution. This change in processing paradigm improved the estimation of flow directions by up to 73% compared to the existing method and yielded a demonstrated hARMS throughput of up to 1.21 Mevent/s on the benchmark configuration selected. This throughput enables real-time performance and makes it the fastest known realization of aperture-robust, event-based optical flow to date.
翻訳日:2021-12-14 18:38:32 公開日:2021-12-13
# 非視覚マーカーを用いた追跡と長期識別

Tracking and Long-Term Identification Using Non-Visual Markers ( http://arxiv.org/abs/2112.06809v1 )

ライセンス: Link先を確認
Michael P. J. Camilleri and Li Zhang and Andrew Zisserman and Christopher K. I. Williams(参考訳) 本研究の目的は, 生物研究における自動行動認識の先駆けとして, 乱雑なホームケージ環境下でのマウスの追跡と識別である。 これは非常に難しい問題です。 (i)各マウスの視覚的特徴の区別の欠如 (ii)一定の閉塞を伴うシーンの閉じた領域は、標準的な視覚追跡アプローチが使用不可能となる。 しかし、各マウスの位置の粗い推定は独自のRFIDインプラントから可能であるため、(弱)追跡情報と身元に関する粗い情報とを最適に組み合わせることが可能である。 目的を達成するために、私たちは以下の重要な貢献をします。 (a)代入問題としての識別問題の定式化(整数線形計画法を用いて解決) b)トラックレットとRFIDデータの親和性に関する新しい確率モデル。 後者は、粗い局所化が与えられた物体検出の原則的確率的処理を提供するため、モデルの重要な部分である。 本手法は,この同定問題の77%の精度を実現し,動物が隠れている場合には散発的な検出を拒否することができる。

Our objective is to track and identify mice in a cluttered home-cage environment, as a precursor to automated behaviour recognition for biological research. This is a very challenging problem due to (i) the lack of distinguishing visual features for each mouse, and (ii) the close confines of the scene with constant occlusion, making standard visual tracking approaches unusable. However, a coarse estimate of each mouse's location is available from a unique RFID implant, so there is the potential to optimally combine information from (weak) tracking with coarse information on identity. To achieve our objective, we make the following key contributions: (a) the formulation of the identification problem as an assignment problem (solved using Integer Linear Programming), and (b) a novel probabilistic model of the affinity between tracklets and RFID data. The latter is a crucial part of the model, as it provides a principled probabilistic treatment of object detections given coarse localisation. Our approach achieves 77% accuracy on this identification problem, and is able to reject spurious detections when the animals are hidden.
翻訳日:2021-12-14 18:38:06 公開日:2021-12-13
# 全体と部分:MDL原則とa-contrarioフレームワーク

The whole and the parts: the MDL principle and the a-contrario framework ( http://arxiv.org/abs/2112.06853v1 )

ライセンス: Link先を確認
Rafael Grompone von Gioi, Ignacio Ram\'irez Paulino and Gregory Randall(参考訳) 本稿では、rissanenが開発した最小記述長(mdl)原理と、desolneux, moisan, morelによって提案されたa-contrario framework for structure detectionとの関係を考察する。 mdlの原理はデータ全体の最良の解釈に焦点を当て、a-contrarioのアプローチは異常な統計量でデータの一部を検出することに集中している。 異なる理論形式に枠組化されているが,両手法とも共通の概念やツールを共有し,単純な玩具の例から,曲線の多角近似や画像の線分検出といった実用的応用まで,様々な興味深いシナリオにおいて非常に類似した定式化を行っている。 また、両方のアプローチが正式に等価である条件を定式化する。

This work explores the connections between the Minimum Description Length (MDL) principle as developed by Rissanen, and the a-contrario framework for structure detection proposed by Desolneux, Moisan and Morel. The MDL principle focuses on the best interpretation for the whole data while the a-contrario approach concentrates on detecting parts of the data with anomalous statistics. Although framed in different theoretical formalisms, we show that both methodologies share many common concepts and tools in their machinery and yield very similar formulations in a number of interesting scenarios ranging from simple toy examples to practical applications such as polygonal approximation of curves and line segment detection in images. We also formulate the conditions under which both approaches are formally equivalent.
翻訳日:2021-12-14 18:37:49 公開日:2021-12-13
# HVH:ダイナミックヘアパフォーマンスキャプチャのためのハイブリッドニューラルネットワークボリューム表現学習

HVH: Learning a Hybrid Neural Volumetric Representation for Dynamic Hair Performance Capture ( http://arxiv.org/abs/2112.06904v1 )

ライセンス: Link先を確認
Ziyan Wang, Giljoo Nam, Tuur Stuyck, Stephen Lombardi, Michael Zollhoefer, Jessica Hodgins, Christoph Lassner(参考訳) 生命のような髪の捕獲やレンダリングは、幾何学的な構造、複雑な身体的相互作用、非自明な視覚的な外観などによって特に困難である。 本稿では,上記の問題について述べる。 1) 数千個のプリミティブを複合した, 新規な容積的な毛髪表現を用いる。 各プリミティブは、ニューラルレンダリングの最新技術に基づいて構築することで、効率的かつ現実的にレンダリングすることができる。 2) 信頼性の高い制御信号を得るためには, 毛髪をストランドレベルで追跡する新しい方法を提案する。 計算作業を管理できるように、ガイドヘアと古典的なテクニックを使って、それらを密集したヘアフードに拡張します。 3)モデルの時間的一貫性と一般化能力を向上するために,体積線マーチングを用いた多視点光流による表現の3次元シーンフローをさらに最適化する。 提案手法は,記録されたマルチビューシーケンスのリアルなレンダリングを生成するだけでなく,新しい制御信号を提供することで,新しいヘア構成のレンダリングを生成する。 本手法をビューポイント合成とdivableアニメーションに関する既存の研究と比較し,最新の結果を得た。

Capturing and rendering life-like hair is particularly challenging due to its fine geometric structure, the complex physical interaction and its non-trivial visual appearance.Yet, hair is a critical component for believable avatars. In this paper, we address the aforementioned problems: 1) we use a novel, volumetric hair representation that is com-posed of thousands of primitives. Each primitive can be rendered efficiently, yet realistically, by building on the latest advances in neural rendering. 2) To have a reliable control signal, we present a novel way of tracking hair on the strand level. To keep the computational effort manageable, we use guide hairs and classic techniques to expand those into a dense hood of hair. 3) To better enforce temporal consistency and generalization ability of our model, we further optimize the 3D scene flow of our representation with multi-view optical flow, using volumetric ray marching. Our method can not only create realistic renders of recorded multi-view sequences, but also create renderings for new hair configurations by providing new control signals. We compare our method with existing work on viewpoint synthesis and drivable animation and achieve state-of-the-art results.
翻訳日:2021-12-14 18:37:33 公開日:2021-12-13
# 医療AI研究を支援するスケーラブルで協調的で資源効率の良いプラットフォームのための方法論

A Methodology for a Scalable, Collaborative, and Resource-Efficient Platform to Facilitate Healthcare AI Research ( http://arxiv.org/abs/2112.06883v1 )

ライセンス: Link先を確認
Raphael Y. Cohen and Vesela P. Kovacheva(参考訳) 医療AIは、患者の安全性を高め、効率を向上し、患者の結果を改善する可能性を秘めているが、データアクセス、コホートキュレーション、分析のためのツールによって研究は制限されることが多い。 電子健康記録データ、ライブデータ、リアルタイム高解像度デバイスデータの収集と翻訳は、困難かつ時間を要する可能性がある。 現実世界のaiツールの開発には、データ取得における課題の克服、病院リソースの不足、データガバナンスに対する高いニーズが必要である。 これらのボトルネックは、AIシステムの研究と開発において、リソースの重いニーズと長い遅延をもたらす可能性がある。 本稿では,データ取得,データセット開発と分析,AIモデル開発を高速化するシステムと方法論を提案する。 スケーラブルなマイクロサービスバックエンドに依存するインタラクティブなプラットフォームを開発しました。 このシステムは、1時間に15,000の患者記録を取り込み、各記録は数千のマルチモーダル測定、テキストノート、高解像度データを表す。 まとめると、これらのレコードはテラバイトのデータに近づきます。 さらに2-5分でコホート生成と予備データセット解析を行うことができる。 その結果、複数のユーザが同時に協力して、データセットやモデルをリアルタイムでイテレーションすることが可能になった。 このアプローチが現実世界のaiモデル開発を促進し、長期的には医療提供を有意義に改善することを期待しています。

Healthcare AI holds the potential to increase patient safety, augment efficiency and improve patient outcomes, yet research is often limited by data access, cohort curation, and tooling for analysis. Collection and translation of electronic health record data, live data, and real-time high resolution device data can be challenging and time-consuming. The development of real-world AI tools requires overcoming challenges in data acquisition, scarce hospital resources and high needs for data governance. These bottlenecks may result in resource-heavy needs and long delays in research and development of AI systems. We present a system and methodology to accelerate data acquisition, dataset development and analysis, and AI model development. We created an interactive platform that relies on a scalable microservice backend. This system can ingest 15,000 patient records per hour, where each record represents thousands of multimodal measurements, text notes, and high resolution data. Collectively, these records can approach a terabyte of data. The system can further perform cohort generation and preliminary dataset analysis in 2-5 minutes. As a result, multiple users can collaborate simultaneously to iterate on datasets and models in real time. We anticipate that this approach will drive real-world AI model development, and, in the long run, meaningfully improve healthcare delivery.
翻訳日:2021-12-14 18:37:01 公開日:2021-12-13
# 定常ナビエ-ストークス方程式の高速近似のためのスタック生成機械学習モデル

Stacked Generative Machine Learning Models for Fast Approximations of Steady-State Navier-Stokes Equations ( http://arxiv.org/abs/2112.06419v1 )

ライセンス: Link先を確認
Shen Wang, Mehdi Nikfar, Joshua C. Agar, Yaling Liu(参考訳) 計算流体力学(CFD)シミュレーションは工学や物理学に広く応用されている。 流体力学の標準的な記述は、異なる流れ状態におけるナビエ・ストークス方程式(N-S)の解法を必要とする。 しかし、CFDシミュレーションの応用は、高性能コンピューティングの可用性、速度、並列性によって計算的に制限されている。 計算効率を向上させるために、cfdのための加速データ駆動近似を作成するために機械学習技術が使われている。 このようなアプローチの大部分は、堅牢なデータ駆動モデルを構築するために必要なスケールで取得するコストが高い、大きなラベル付きcfdデータセットに依存している。 境界条件と幾何条件を持つマルチチャネル入力を用いて,種々の境界条件下での定常 n-s 方程式の解法を弱教師付きで開発する。 ラベル付きシミュレーションデータを用いずに最先端の結果を得るが、n-s方程式を解くためにモデルを素数化し、小規模の解を用いて独自のデータ駆動型および物理計算型損失関数を用いる。 分解能と予測可能性を改善するため,N-S方程式の数値解を生成する複雑性を増大させるモデルを構築した。 高価な計算がなければ、様々な障害や境界条件で高い予測可能性が得られる。 その高い柔軟性から、モデルは通常のcfdソルバの1000倍高速である通常のデスクトップコンピュータ上で、64x64ドメインの解を5ミリ秒以内で生成することができる。 ローカル・コンシューマー・コンピューティング・ハードウェア上でのインタラクティブCFDシミュレーションの変換により、データ転送が禁止されているモノのインターネット上でのリアルタイムな予測が実現され、境界値流体問題のスケール、速度、計算コストが増大する。

Computational fluid dynamics (CFD) simulations are broadly applied in engineering and physics. A standard description of fluid dynamics requires solving the Navier-Stokes (N-S) equations in different flow regimes. However, applications of CFD simulations are computationally-limi ted by the availability, speed, and parallelism of high-performance computing. To improve computational efficiency, machine learning techniques have been used to create accelerated data-driven approximations for CFD. A majority of such approaches rely on large labeled CFD datasets that are expensive to obtain at the scale necessary to build robust data-driven models. We develop a weakly-supervised approach to solve the steady-state N-S equations under various boundary conditions, using a multi-channel input with boundary and geometric conditions. We achieve state-of-the-art results without any labeled simulation data, but using a custom data-driven and physics-informed loss function by using and small-scale solutions to prime the model to solve the N-S equations. To improve the resolution and predictability, we train stacked models of increasing complexity generating the numerical solutions for N-S equations. Without expensive computations, our model achieves high predictability with a variety of obstacles and boundary conditions. Given its high flexibility, the model can generate a solution on a 64 x 64 domain within 5 ms on a regular desktop computer which is 1000 times faster than a regular CFD solver. Translation of interactive CFD simulation on local consumer computing hardware enables new applications in real-time predictions on the internet of things devices where data transfer is prohibitive and can increase the scale, speed, and computational cost of boundary-value fluid problems.
翻訳日:2021-12-14 18:36:41 公開日:2021-12-13
# (参考訳) なぜ変なの? 孤立林における異常検出のためのインフレ解釈可能性 [全文訳有]

Why Are You Weird? Infusing Interpretability in Isolation Forest for Anomaly Detection ( http://arxiv.org/abs/2112.06858v1 )

ライセンス: CC BY 4.0
Nirmal Sobha Kartha, Cl\'ement Gautrais, and Vincent Vercruyssen(参考訳) 異常検出は、期待される振る舞いに従わないデータセットの例を特定することに関わる。 多数の異常検出アルゴリズムが存在するが、これらのアルゴリズムが異常として特定の例をフラグする理由を説明するためにはほとんど注目されていない。 しかし、そのような説明はアルゴリズムの出力を解釈する人には極めて有用である。 本稿では,最先端の森林異常検出アルゴリズムの異常予測を説明する手法を開発した。 この方法は、例の各属性が異常であると識別することの重要性を捉える説明ベクトルを出力する。 合成データセットと実世界のデータセットの両方に関する徹底的な実験評価により,本手法は,現在のほとんどの状態説明可能性法よりも正確かつ効率的であることが判明した。

Anomaly detection is concerned with identifying examples in a dataset that do not conform to the expected behaviour. While a vast amount of anomaly detection algorithms exist, little attention has been paid to explaining why these algorithms flag certain examples as anomalies. However, such an explanation could be extremely useful to anyone interpreting the algorithms' output. This paper develops a method to explain the anomaly predictions of the state-of-the-art Isolation Forest anomaly detection algorithm. The method outputs an explanation vector that captures how important each attribute of an example is to identifying it as anomalous. A thorough experimental evaluation on both synthetic and real-world datasets shows that our method is more accurate and more efficient than most contemporary state-of-the-art explainability methods.
翻訳日:2021-12-14 18:35:09 公開日:2021-12-13
# 低コスト強化学習のためのベンチマーク

A Benchmark for Low-Switching-Cost Reinforcement Learning ( http://arxiv.org/abs/2112.06424v1 )

ライセンス: Link先を確認
Shusheng Xu, Yancheng Liang, Yunfei Li, Simon Shaolei Du and Yi Wu(参考訳) 医療、レコメンデーションシステム、教育、ロボット工学を含む多くの実践的強化学習(RL)応用において、ユビキタスな要件は、実際に環境と相互作用するデプロイポリシーが頻繁に変更されないことである。 このようなRL設定は、低スイッチングコストRL、すなわち、トレーニング中のポリシースイッチ数を減らしながら最高報酬を達成する。 スイッチングコストの低い効率なRLアルゴリズムを設計することを目的とした最近の理論的研究の傾向にもかかわらず、既存のアプローチは人気のあるRLテストベッドでは十分に評価されていない。 本稿では,理論的指導基準,政策差に基づく手法,非適応的ベースラインなど,政策変更のアプローチを体系的に検討した。 医療環境, atariゲーム, ロボット制御タスクに関する広範な実験を通じて, 低コストrlに対する最初の実証ベンチマークを提示し, 低コストの制約を伴わずにケースと同様のサンプル効率を維持しつつ, スイッチングコストを削減する方法に関する新たな知見を報告する。 このベンチマークが、より実用的な低コストのRLアルゴリズムの開発の出発点になることを期待している。 私たちはコードと完全な結果をhttps://sites.google .com/view/low-switch ing-cost-rlでリリースします。

A ubiquitous requirement in many practical reinforcement learning (RL) applications, including medical treatment, recommendation system, education and robotics, is that the deployed policy that actually interacts with the environment cannot change frequently. Such an RL setting is called low-switching-cost RL, i.e., achieving the highest reward while reducing the number of policy switches during training. Despite the recent trend of theoretical studies aiming to design provably efficient RL algorithms with low switching costs, none of the existing approaches have been thoroughly evaluated in popular RL testbeds. In this paper, we systematically studied a wide collection of policy-switching approaches, including theoretically guided criteria, policy-difference-ba sed methods, and non-adaptive baselines. Through extensive experiments on a medical treatment environment, the Atari games, and robotic control tasks, we present the first empirical benchmark for low-switching-cost RL and report novel findings on how to decrease the switching cost while maintain a similar sample efficiency to the case without the low-switching-cost constraint. We hope this benchmark could serve as a starting point for developing more practically effective low-switching-cost RL algorithms. We release our code and complete results in https://sites.google .com/view/low-switch ing-cost-rl.
翻訳日:2021-12-14 18:25:17 公開日:2021-12-13
# 満足度に基づく線形近似法による文脈探索

Contextual Exploration Using a Linear Approximation Method Based on Satisficing ( http://arxiv.org/abs/2112.06452v1 )

ライセンス: Link先を確認
Akane Minami, Yu Kono, and Tatsuji Takahashi(参考訳) 深層強化学習は、様々な種類のゲームにおいて人間レベルまたはスーパーヒューマンパフォーマンスを可能にした。 しかし、学習に必要な探索の量は、しばしば非常に大きい。 深層強化学習はまた、人間がこれほど多くの探索を達成できないという超人的性能を持つ。 この問題に対処するため,既存の最適化アルゴリズムとは定性的に異なるアプローチであるtextit{satisficing} ポリシーに注目した。 そこで,本稿では,より広いタスクに適用可能なリスク感性満足度(rs)の線形拡張と満足度アルゴリズムの一種である線形rs(linrs)を提案する。 RSの一般化は、既存の最適化アルゴリズムとは異なるアプローチを採用することで探索行動の量を削減するアルゴリズムを提供する。 LinRSは線形回帰とマルチクラス分類を利用して、RS計算に必要なアクション値とアクション選択の比率を線形に近似する。 実験の結果,LinRSは文脈的帯域幅問題における既存のアルゴリズムと比較して探索回数と実行時間を削減した。 これらの結果から, より複雑な環境において, 深層強化学習で扱うことを含む, 充足アルゴリズムのさらなる一般化が有用である可能性が示唆された。

Deep reinforcement learning has enabled human-level or even super-human performance in various types of games. However, the amount of exploration required for learning is often quite large. Deep reinforcement learning also has super-human performance in that no human being would be able to achieve such amounts of exploration. To address this problem, we focus on the \textit{satisficing} policy, which is a qualitatively different approach from that of existing optimization algorithms. Thus, we propose Linear RS (LinRS), which is a type of satisficing algorithm and a linear extension of risk-sensitive satisficing (RS), for application to a wider range of tasks. The generalization of RS provides an algorithm to reduce the volume of exploratory actions by adopting a different approach from existing optimization algorithms. LinRS utilizes linear regression and multiclass classification to linearly approximate both the action value and proportion of action selections required in the RS calculation. The results of our experiments indicate that LinRS reduced the number of explorations and run time compared to those of existing algorithms in contextual bandit problems. These results suggest that a further generalization of satisficing algorithms may be useful for complex environments, including those that are to be handled with deep reinforcement learning.
翻訳日:2021-12-14 18:24:53 公開日:2021-12-13
# 多値サンプリング規則化による生涯超ポリシング最適化

Lifelong Hyper-Policy Optimization with Multiple Importance Sampling Regularization ( http://arxiv.org/abs/2112.06625v1 )

ライセンス: Link先を確認
Pierre Liotet, Francesco Vidaich, Alberto Maria Metelli, Marcello Restelli(参考訳) ダイナミクスが継続的に進化する生涯学習は、現在の強化学習アルゴリズムにとって難しい課題である。 しかし、これは実用的なアプリケーションに必要な機能である。 本稿では,その時にクエリされるポリシーのパラメータを出力する,入力が時間である超政治を学習する手法を提案する。 この超政治は、予測される将来のパフォーマンスを最大化するために訓練され、重要サンプリングによって過去のデータを効率的に再利用する。 将来のパフォーマンス推定と過去のパフォーマンスを組み合わせることで、破滅的な忘れを緩和します。 収集したデータが過度に収まるのを避けるために、ペナリゼーション項として埋め込む微分可能な分散を導出する。 最後に,水資源管理やトレーディングを含む現実的な環境において,最先端のアルゴリズムと比較し,実証的に検証した。

Learning in a lifelong setting, where the dynamics continually evolve, is a hard challenge for current reinforcement learning algorithms. Yet this would be a much needed feature for practical applications. In this paper, we propose an approach which learns a hyper-policy, whose input is time, that outputs the parameters of the policy to be queried at that time. This hyper-policy is trained to maximize the estimated future performance, efficiently reusing past data by means of importance sampling, at the cost of introducing a controlled bias. We combine the future performance estimate with the past performance to mitigate catastrophic forgetting. To avoid overfitting the collected data, we derive a differentiable variance bound that we embed as a penalization term. Finally, we empirically validate our approach, in comparison with state-of-the-art algorithms, on realistic environments, including water resource management and trading.
翻訳日:2021-12-14 18:23:23 公開日:2021-12-13
# 木に基づく動的分類器チェーン

Tree-Based Dynamic Classifier Chains ( http://arxiv.org/abs/2112.06672v1 )

ライセンス: Link先を確認
Eneldo Loza Menc\'ia, Moritz Kulessa, Simon Bohlender, Johannes F\"urnkranz(参考訳) 分類器チェーンは、マルチラベル分類におけるラベル依存をモデル化する効果的な手法である。 しかし、このメソッドはラベルの固定された静的順序を必要とする。 理論上、任意の順序は十分であるが、実際にはこの順序は最終的な予測の品質に大きな影響を与える。 動的分類器チェーンは、各インスタンスが分類するために、ラベルが予測される順序が動的に選択されるという考えを表す。 このようなアプローチのナイーブな実装の複雑さは、ラベルのあらゆる可能な置換のために分類器のシーケンスを訓練する必要があるため、禁じられている。 この問題を効果的に解決するために,各予測に対するラベル順序を動的に選択できるランダムな決定木に基づく新しい手法を提案する。 ランダムな決定木モデルの下で静的順序付けを用いることにより,次のラベルの動的選択が改良されることを実証的に示す。 %, 実験環境であった。 さらに, 動的分類器チェーンのより標的指向の訓練を可能にするため, 極端な勾配木をベースとした代替手法を実証する。 この変異はランダムな決定木や他の木に基づく多ラベル分類法よりも優れていることを示す。 さらに重要なのは、動的選択戦略によって、トレーニングと予測を大幅にスピードアップできることだ。

Classifier chains are an effective technique for modeling label dependencies in multi-label classification. However, the method requires a fixed, static order of the labels. While in theory, any order is sufficient, in practice, this order has a substantial impact on the quality of the final prediction. Dynamic classifier chains denote the idea that for each instance to classify, the order in which the labels are predicted is dynamically chosen. The complexity of a naive implementation of such an approach is prohibitive, because it would require to train a sequence of classifiers for every possible permutation of the labels. To tackle this problem efficiently, we propose a new approach based on random decision trees which can dynamically select the label ordering for each prediction. We show empirically that a dynamic selection of the next label improves over the use of a static ordering under an otherwise unchanged random decision tree model. % and experimental environment. In addition, we also demonstrate an alternative approach based on extreme gradient boosted trees, which allows for a more target-oriented training of dynamic classifier chains. Our results show that this variant outperforms random decision trees and other tree-based multi-label classification methods. More importantly, the dynamic selection strategy allows to considerably speed up training and prediction.
翻訳日:2021-12-14 18:23:10 公開日:2021-12-13
# 安全リニアレベルバンド

Safe Linear Leveling Bandits ( http://arxiv.org/abs/2112.06728v1 )

ライセンス: Link先を確認
Ilker Demirel, Mehmet Ufuk Ozdemir, Cem Tekin(参考訳) マルチアームバンディット(MAB)は、アクションの結果(すなわち報酬)を時間とともに \textit{maximize} することを目的とする様々な環境で広く研究されている。 多くの現実世界の問題において安全性は不可欠であるため、MABアルゴリズムの安全なバージョンもかなりの関心を集めている。 この研究では、アクションの結果を目標レベルに近づけることを目的として、我々が \textit{leveling} と呼ぶ \textit{two-sided} の安全性制約を尊重することを目的として、 \textit{linear stochastic bandits} というレンズを通して異なるクリティカルなタスクに取り組む。 このようなタスクは、多くのドメインで一般的です。 多くの医療問題は、例えば、生理的変数を標的レベルに近い範囲に維持する必要がある。 私たちの目的の根本的な変化は、mabアルゴリズムの中心となる新しい買収戦略を必要とします。 そこで本研究では,線形トンプソンサンプリングアルゴリズムによる安全平準化手法を提案し,従来の安全制約を伴わない古典報酬最大化問題に対する取り組みと同等の時間と次元依存性を持つサブリニア後悔を実現することを示す。 我々は,我々のアルゴリズムの経験的性能を徹底的な実験を通して詳細に実証し,議論する。

Multi-armed bandits (MAB) are extensively studied in various settings where the objective is to \textit{maximize} the actions' outcomes (i.e., rewards) over time. Since safety is crucial in many real-world problems, safe versions of MAB algorithms have also garnered considerable interest. In this work, we tackle a different critical task through the lens of \textit{linear stochastic bandits}, where the aim is to keep the actions' outcomes close to a target level while respecting a \textit{two-sided} safety constraint, which we call \textit{leveling}. Such a task is prevalent in numerous domains. Many healthcare problems, for instance, require keeping a physiological variable in a range and preferably close to a target level. The radical change in our objective necessitates a new acquisition strategy, which is at the heart of a MAB algorithm. We propose SALE-LTS: Safe Leveling via Linear Thompson Sampling algorithm, with a novel acquisition strategy to accommodate our task and show that it achieves sublinear regret with the same time and dimension dependence as previous works on the classical reward maximization problem absent any safety constraint. We demonstrate and discuss our algorithm's empirical performance in detail via thorough experiments.
翻訳日:2021-12-14 18:22:53 公開日:2021-12-13
# 半マルコフ決定過程としての一般分散サービスと切替期間とポアソン到着を考慮した非規範的2つのキューポーリングモデルの解法

Solving the non-preemptive two queue polling model with generally distributed service and switch-over durations and Poisson arrivals as a Semi-Markov Decision Process ( http://arxiv.org/abs/2112.06578v1 )

ライセンス: Link先を確認
Dylan Solms(参考訳) スイッチオーバー期間を持つポーリングシステムは、いくつかの実用的な応用で有用なモデルである。 離散イベント動的システム(DEDS)に分類され、モデリングアプローチに同意する人は誰もいない。 さらに、DEDSは非常に複雑です。 現在まで、ポーリングシステムをモデル化するための最も洗練されたアプローチは、連続時間マルコフ決定プロセス(CTMDP)である。 本稿では, ポーリングシステムの半マルコフ決定過程(SMDP)を定式化し, さらなるモデリング能力を導入する。 このようなパワーは、トラルニケートエラーと高価な数値積分を犠牲にされ、SMDPポリシーが価値ある利点を提供するかどうかという疑問に自然に導かれる。 このシナリオをさらに追加するために、計算効率の良いモデルを開発するために、CTMDPにおいて空間性をどのように活用できるかを示す。 SMDPおよびCTMDPポリシーの割引性能をセミマルコフプロセスシミュレータを用いて評価した。 この2つの政策には、このポーリングシステムのために特別に開発されたヒューリスティックな政策と、徹底的なサービス政策が伴っている。 パラメトリックおよび非パラメトリック仮説テストは、パフォーマンスの差が統計的に有意かどうかをテストするために使用される。

The polling system with switch-over durations is a useful model with several practical applications. It is classified as a Discrete Event Dynamic System (DEDS) for which no one agreed upon modelling approach exists. Furthermore, DEDS are quite complex. To date, the most sophisticated approach to modelling the polling system of interest has been a Continuous-time Markov Decision Process (CTMDP). This paper presents a Semi-Markov Decision Process (SMDP) formulation of the polling system as to introduce additional modelling power. Such power comes at the expense of truncation errors and expensive numerical integrals which naturally leads to the question of whether the SMDP policy provides a worthwhile advantage. To further add to this scenario, it is shown how sparsity can be exploited in the CTMDP to develop a computationally efficient model. The discounted performance of the SMDP and CTMDP policies are evaluated using a Semi-Markov Process simulator. The two policies are accompanied by a heuristic policy specifically developed for this polling system a well as an exhaustive service policy. Parametric and non-parametric hypothesis tests are used to test whether differences in performance are statistically significant.
翻訳日:2021-12-14 18:20:45 公開日:2021-12-13
# 移動ロボットのためのマルチエージェントソフトアクタ・クライブに基づくハイブリッドモーションプランナ

Multi-agent Soft Actor-Critic Based Hybrid Motion Planner for Mobile Robots ( http://arxiv.org/abs/2112.06594v1 )

ライセンス: Link先を確認
Zichen He and Lu Dong and Chunwei Song and Changyin Sun(参考訳) 本稿では、非通信および局所観測可能な条件下で適用可能な、新しいハイブリッド多ロボットモーションプランナーを提案する。 プランナーはモデルフリーであり、複数ロボットの状態と観測情報の終末の滑らかかつ連続的な軌跡へのエンドツーエンドマッピングを実現することができる。 プランナーはフロントエンドとバックエンドの分離アーキテクチャである。 フロントエンド協調型ウェイポイント探索モジュールの設計は、分散実行図を用いた集中学習に基づくマルチエージェントソフトアクター批判アルゴリズムに基づいている。 バックエンド軌道最適化モジュールの設計は、安全ゾーン制約付き最小スナップ法に基づいている。 このモジュールは、最終的な動的実行可能および実行可能軌跡を出力することができる。 最後に,提案手法の有効性を多群実験により検証した。

In this paper, a novel hybrid multi-robot motion planner that can be applied under non-communication and local observable conditions is presented. The planner is model-free and can realize the end-to-end mapping of multi-robot state and observation information to final smooth and continuous trajectories. The planner is a front-end and back-end separated architecture. The design of the front-end collaborative waypoints searching module is based on the multi-agent soft actor-critic algorithm under the centralized training with decentralized execution diagram. The design of the back-end trajectory optimization module is based on the minimal snap method with safety zone constraints. This module can output the final dynamic-feasible and executable trajectories. Finally, multi-group experimental results verify the effectiveness of the proposed motion planner.
翻訳日:2021-12-14 18:20:28 公開日:2021-12-13
# 誤差制御近似鍵キャッシングによるディープラーニング分類の高速化

Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching ( http://arxiv.org/abs/2112.06671v1 )

ライセンス: Link先を確認
Alessandro Finamore, James Roberts, Massimo Gallo, Dario Rossi(参考訳) ディープラーニング(DL)技術は、分類タスクにマップするネットワーク問題を解決するための有望なツールであるが、リアルタイムトラフィック測定の要求に対して、その計算複雑性は高すぎる。 dl推論コストを削減すべく,我々は,dl推論結果に基づいて選択した入力の検索結果の近似結果を返す近似鍵キャッシングという,新しいキャッシングパラダイムを提案する。 近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。 そこで,誤り訂正原理アルゴリズムを用いて近似鍵キャッシングを行い,auto-refreshと命名した。 我々は古典的なLRUと理想的なキャッシュに対してキャッシュシステムのパフォーマンスを解析的にモデル化し、期待されるパフォーマンスをトレース駆動で評価し、提案手法の利点を最先端の類似性キャッシュと比較する。

While Deep Learning (DL) technologies are a promising tool to solve networking problems that map to classification tasks, their computational complexity is still too high with respect to real-time traffic measurements requirements. To reduce the DL inference cost, we propose a novel caching paradigm, that we named approximate-key caching, which returns approximate results for lookups of selected input based on cached DL inference results. While approximate cache hits alleviate DL inference workload and increase the system throughput, they however introduce an approximation error. As such, we couple approximate-key caching with an error-correction principled algorithm, that we named auto-refresh. We analytically model our caching system performance for classic LRU and ideal caches, we perform a trace-driven evaluation of the expected performance, and we compare the benefits of our proposed approach with the state-of-the-art similarity caching -- testifying the practical interest of our proposal.
翻訳日:2021-12-14 18:20:19 公開日:2021-12-13
# 予測による適応:多感覚能動推論トルク制御

Adaptation through prediction: multisensory active inference torque control ( http://arxiv.org/abs/2112.06752v1 )

ライセンス: Link先を確認
Cristian Meo, Giovanni Franzese, Corrado Pezzato, Max Spahn and Pablo Lanillos(参考訳) 外部および内部の変化への適応は、不確実な環境でのロボットシステムにとって重要である。 本稿では,産業用アームの多センサ能動トルク制御装置について紹介する。 予測脳仮説にインスパイアされた制御器は,アーキテクチャを簡素化しつつ,低次元・高次元センサ入力(生画像など)の学習とマルチモーダル統合を取り入れ,現在の能動推論手法の能力を向上させる。 7DoFのFranka Emika Pandaロボットアームの動作を従来のアクティブな推論ベースラインとクラシックコントローラと比較し,定性的かつ定量的な適応能力と制御精度の両方を解析し,本モデルの系統評価を行った。 その結果,マルチモーダルフィルタリングによる高ノイズ除去,動的慣性変化,弾性制約,人間の外乱に対する適応性が,モデルやパラメータのリチューニングを必要とせず,目標方向到達の制御精度が向上した。

Adaptation to external and internal changes is major for robotic systems in uncertain environments. Here we present a novel multisensory active inference torque controller for industrial arms that shows how prediction can be used to resolve adaptation. Our controller, inspired by the predictive brain hypothesis, improves the capabilities of current active inference approaches by incorporating learning and multimodal integration of low and high-dimensional sensor inputs (e.g., raw images) while simplifying the architecture. We performed a systematic evaluation of our model on a 7DoF Franka Emika Panda robot arm by comparing its behavior with previous active inference baselines and classic controllers, analyzing both qualitatively and quantitatively adaptation capabilities and control accuracy. Results showed improved control accuracy in goal-directed reaching with high noise rejection due to multimodal filtering, and adaptability to dynamical inertial changes, elasticity constraints and human disturbances without the need to relearn the model nor parameter retuning.
翻訳日:2021-12-14 18:20:01 公開日:2021-12-13
# 集合知のフロンティア:ワークショップ報告

Frontiers in Collective Intelligence: A Workshop Report ( http://arxiv.org/abs/2112.06864v1 )

ライセンス: Link先を確認
Tyler Millhouse, Melanie Moses, Melanie Mitchell(参考訳) 2021年8月、サンタフェ研究所はインテリジェンス財団プロジェクトの一環として、集合的インテリジェンスに関するワークショップを開催した。 このプロジェクトは、人工知能の性質に関する学際的な研究を促進することによって、人工知能の分野を推し進めようとしている。 このワークショップは、コンピューター科学者、生物学者、哲学者、社会科学者などを集めて、複数のエージェント間の相互作用から知性がどのように生まれるかについての洞察を共有した。 本報告では,各講演とその後の議論について要約する。 また、いくつかの重要なテーマを描き、将来の研究において重要なフロンティアを特定します。

In August of 2021, the Santa Fe Institute hosted a workshop on collective intelligence as part of its Foundations of Intelligence project. This project seeks to advance the field of artificial intelligence by promoting interdisciplinary research on the nature of intelligence. The workshop brought together computer scientists, biologists, philosophers, social scientists, and others to share their insights about how intelligence can emerge from interactions among multiple agents--whether those agents be machines, animals, or human beings. In this report, we summarize each of the talks and the subsequent discussions. We also draw out a number of key themes and identify important frontiers for future research.
翻訳日:2021-12-14 18:19:42 公開日:2021-12-13
# 不完全測定による直交群同期:誤差境界と一般化パワー法の線形収束

Orthogonal Group Synchronization with Incomplete Measurements: Error Bounds and Linear Convergence of the Generalized Power Method ( http://arxiv.org/abs/2112.06556v1 )

ライセンス: Link先を確認
Linglingzhi Zhu, Jinxin Wang, Anthony Man-Cho So(参考訳) グループ同期とは、ノイズのペアワイズ測定からグループ要素の集まりを推定することを指す。 このような非凸問題はコンピュータビジョン、ロボティクス、低温電子顕微鏡など多くの科学分野から注目を集めている。 本稿では,不完全な測定条件下での一般付加音モデルによる直交群同期問題に焦点をあてる。 直交群同期問題のキャラクタリゼーションは、最適条件の観点と、一般化パワー法(gpm)としても知られる投影勾配上昇法の不動点から与えられる。 これらの結果が生成モデルなしでも残ることは注目に値する。 一方、直交群同期問題に対する局所誤差有界性は、異なるアルゴリズムの収束速度解析に有用であり、独立した関心を持つことができる。 最後に,GPMの局所誤差境界特性に基づいた一般加法雑音モデルの下で,大域的最大化器への線形収束結果を証明した。 理論的収束結果は,いくつかの決定論的条件下において,逆雑音を伴う場合を対象とし,例えば,erd\"os-r\'enyi測定グラフとガウス雑音の設定に特化する。

Group synchronization refers to estimating a collection of group elements from the noisy pairwise measurements. Such a nonconvex problem has received much attention from numerous scientific fields including computer vision, robotics, and cryo-electron microscopy. In this paper, we focus on the orthogonal group synchronization problem with general additive noise models under incomplete measurements, which is much more general than the commonly considered setting of complete measurements. Characterizations of the orthogonal group synchronization problem are given from perspectives of optimality conditions as well as fixed points of the projected gradient ascent method which is also known as the generalized power method (GPM). It is well worth noting that these results still hold even without generative models. In the meantime, we derive the local error bound property for the orthogonal group synchronization problem which is useful for the convergence rate analysis of different algorithms and can be of independent interest. Finally, we prove the linear convergence result of the GPM to a global maximizer under a general additive noise model based on the established local error bound property. Our theoretical convergence result holds under several deterministic conditions which can cover certain cases with adversarial noise, and as an example we specialize it to the setting of the Erd\"os-R\'enyi measurement graph and Gaussian noise.
翻訳日:2021-12-14 18:19:33 公開日:2021-12-13
# pm-mmut:ロバストなuyghur e2e音声認識のためのマルチモードユニットトレーニングを用いた電話マスクデータ拡張

PM-MMUT: Boosted Phone-mask Data Augmentation using Multi-modeing Unit Training for Robust Uyghur E2E Speech Recognition ( http://arxiv.org/abs/2112.06721v1 )

ライセンス: Link先を確認
Guodong Ma, Pengfei Hu, Nurmemet Yolwas, Shen Huang, Hao Huang(参考訳) ウイグル語では子音と母音の減少がしばしば見られ、ウイグル語自動音声認識(ASR)の性能低下を引き起こす可能性がある。 最近提案するマスキングに基づく学習戦略であるpmt(phone masking training)は,uyghur asrにおけるこのような現象の影響を緩和する。 PMTは著しく改善されているが、PMTのマスキングユニット(音素)とモデリングユニット(ワードピース)の粒度ミスマッチのため、さらなる向上の余地は残っている。 PMTの性能を高めるために,PM-MMUT(Multi-model ing Unit Training)アーキテクチャとPM-MMUT(PM-MMUT)の融合を提案する。 MMUTフレームワークの考え方は、エンコーダを音素レベル表現(AF-to-PLR)と音素レベル表現(PLR-to-WPLR)の2つの部分に分けられる。 これにより、AF-to-PLRは中間音素ベースのCTC損失によって最適化され、PMTがもたらすリッチな音素レベルの文脈情報を学ぶことができる。 uyghur asrによる実験の結果,提案手法は,pmtを上回って有意に改善した(読み出し試験では24.0から23.7,口頭試験では38.4から36.8)。 ESPnet1 を用いた 960 時間 Librispeech ベンチマークの実験も行っており,LM 融合を伴わない全てのテストセットに対して,最新の ESPnet1 事前訓練モデルと比較して約10%の WER 削減を実現している。

Consonant and vowel reduction are often encountered in Uyghur speech, which might cause performance degradation in Uyghur automatic speech recognition (ASR). Our recently proposed learning strategy based on masking, Phone Masking Training (PMT), alleviates the impact of such phenomenon in Uyghur ASR. Although PMT achieves remarkably improvements, there still exists room for further gains due to the granularity mismatch between masking unit of PMT (phoneme) and modeling unit (word-piece). To boost the performance of PMT, we propose multi-modeling unit training (MMUT) architecture fusion with PMT (PM-MMUT). The idea of MMUT framework is to split the Encoder into two parts including acoustic feature sequences to phoneme-level representation (AF-to-PLR) and phoneme-level representation to word-piece-level representation (PLR-to-WPLR). It allows AF-to-PLR to be optimized by an intermediate phoneme-based CTC loss to learn the rich phoneme-level context information brought by PMT. Experi-mental results on Uyghur ASR show that the proposed approaches improve significantly, outperforming the pure PMT (reduction WER from 24.0 to 23.7 on Read-Test and from 38.4 to 36.8 on Oral-Test respectively). We also conduct experiments on the 960-hour Librispeech benchmark using ESPnet1, which achieves about 10% relative WER reduction on all the test sets without LM fusion comparing with the latest official ESPnet1 pre-trained model.
翻訳日:2021-12-14 18:18:26 公開日:2021-12-13
# (参考訳) GCNDepth:グラフ畳み込みネットワークに基づく自己教師型単眼深度推定 [全文訳有]

GCNDepth: Self-supervised Monocular Depth Estimation based on Graph Convolutional Network ( http://arxiv.org/abs/2112.06782v1 )

ライセンス: CC BY 4.0
Armin Masoumian, Hatem A. Rashwan, Saddam Abdulwahab, Julian Cristiano and Domenec Puig(参考訳) 深度推定は環境認識の精度を高めるために3次元再構成の課題である。 この研究は、既存の方法に比べて深度マップの量的および質的理解を増加させる一連の改善を伴う新しいソリューションをもたらす。 近年,畳み込みニューラルネットワーク(cnn)は,単眼映像から深度マップを推定する能力が極めて高いことを示した。 しかし、従来のcnnは位相構造をサポートしておらず、サイズと重みが決定された正規画像領域でのみ機能する。 一方、グラフ畳み込みネットワーク(GCN)は、非ユークリッドデータ上の畳み込みを処理でき、位相構造内の不規則な画像領域に適用することができる。 そこで本研究では,オブジェクトの幾何学的外観と分布を保存するために,GCNを自己監督深度推定モデルに活用することを目的とする。 1つはResNet-50に依存し、入力画像とマルチスケールGCNから特徴を抽出して深度マップを推定する自動エンコーダである。 次に、第2のネットワークを用いて、ResNet-18に基づく2つの連続フレーム間のエゴモーションベクトル(すなわち3Dポーズ)を推定する。 推定された3dポーズと深度マップはどちらも対象画像の構築に使用される。 測光、投影、滑らかさに関連する損失関数の組み合わせは、深さの悪い予測に対処し、物体の不連続性を保存するために用いられる。 特に,提案手法では,KITTIおよびMake3Dデータセットの予測精度が89%,トレーニング可能なパラメータ数が40%低下した。 ソースコードはhttps://github.com/A rminMasoumian/GCNDep th.gitで公開されている。

Depth estimation is a challenging task of 3D reconstruction to enhance the accuracy sensing of environment awareness. This work brings a new solution with a set of improvements, which increase the quantitative and qualitative understanding of depth maps compared to existing methods. Recently, a convolutional neural network (CNN) has demonstrated its extraordinary ability in estimating depth maps from monocular videos. However, traditional CNN does not support topological structure and they can work only on regular image regions with determined size and weights. On the other hand, graph convolutional networks (GCN) can handle the convolution on non-Euclidean data and it can be applied to irregular image regions within a topological structure. Therefore, in this work in order to preserve object geometric appearances and distributions, we aim at exploiting GCN for a self-supervised depth estimation model. Our model consists of two parallel auto-encoder networks: the first is an auto-encoder that will depend on ResNet-50 and extract the feature from the input image and on multi-scale GCN to estimate the depth map. In turn, the second network will be used to estimate the ego-motion vector (i.e., 3D pose) between two consecutive frames based on ResNet-18. Both the estimated 3D pose and depth map will be used for constructing a target image. A combination of loss functions related to photometric, projection, and smoothness is used to cope with bad depth prediction and preserve the discontinuities of the objects. In particular, our method provided comparable and promising results with a high prediction accuracy of 89% on the publicly KITTI and Make3D datasets along with a reduction of 40% in the number of trainable parameters compared to the state of the art solutions. The source code is publicly available at https://github.com/A rminMasoumian/GCNDep th.git
翻訳日:2021-12-14 18:15:09 公開日:2021-12-13
# ポーズ互換シーンの幻覚

Hallucinating Pose-Compatible Scenes ( http://arxiv.org/abs/2112.06909v1 )

ライセンス: Link先を確認
Tim Brooks, Alexei A. Efros(参考訳) 人間のポーズはシーンについて何を教えてくれますか。 我々は、人間が入力としてポーズをとれば、相性のあるシーンを幻覚させるという、この問いに答えるためのタスクを提案する。 人間のポーズによって捉えられた微妙なヒント -- アクションセマンティクス、環境アフォーアンス、オブジェクトインタラクション -- は、どのシーンが互換性があるのかという驚くべき洞察を与えてくれる。 ポーズ条件付きシーン生成のための大規模生成対向ネットワークを提案する。 トレーニングデータのサイズと複雑さを大幅に拡大し、毎日の環境で1900万フレーム以上の人間を含む巨大なメタデータセットをキュレーションします。 このような複雑なデータを扱うために、StyleGAN2に関するモデルの容量を2倍にし、ポーズとシーン間の微妙な関係を学習するためのポーズ条件付け機構を設計します。 人間の有無に関わらず、ポーズ互換のシーンを幻覚させる、非互換のシーンとポーズを可視化する、ある生成されたイメージから別のシーンに人を配置する、ポーズをアニメーションする、などです。 提案モデルでは,ポーズ条件付きStyleGAN2およびPix2Pixベースラインの精度(キーポイントの比率)と画像品質(フレッシュ開始距離)において,多種多様なサンプルを生成し,性能を向上する。

What does human pose tell us about a scene? We propose a task to answer this question: given human pose as input, hallucinate a compatible scene. Subtle cues captured by human pose -- action semantics, environment affordances, object interactions -- provide surprising insight into which scenes are compatible. We present a large-scale generative adversarial network for pose-conditioned scene generation. We significantly scale the size and complexity of training data, curating a massive meta-dataset containing over 19 million frames of humans in everyday environments. We double the capacity of our model with respect to StyleGAN2 to handle such complex data, and design a pose conditioning mechanism that drives our model to learn the nuanced relationship between pose and scene. We leverage our trained model for various applications: hallucinating pose-compatible scene(s) with or without humans, visualizing incompatible scenes and poses, placing a person from one generated image into another scene, and animating pose. Our model produces diverse samples and outperforms pose-conditioned StyleGAN2 and Pix2Pix baselines in terms of accurate human placement (percent of correct keypoints) and image quality (Frechet inception distance).
翻訳日:2021-12-14 17:45:45 公開日:2021-12-13
# DenseGAP:アンカーポイントを用いたグラフ構造化Dense対応学習

DenseGAP: Graph-Structured Dense Correspondence Learning with Anchor Points ( http://arxiv.org/abs/2112.06910v1 )

ライセンス: Link先を確認
Zhengfei Kuang, Jiaman Li, Mingming He, Tong Wang, Yajie Zhao(参考訳) 2つの画像間の密接な対応を確立することは基本的なコンピュータビジョンの問題であり、通常は局所的な特徴記述子に一致する。 しかし、グローバルな認識がなければ、そのような地域の特徴はしばしば類似の地域を曖昧にするために不十分である。 そして、画像間でのペアワイズ特徴相関の計算は、計算負荷とメモリ集約の両方である。 局所的な特徴をグローバルなコンテキストに認識させ,それらのマッチング精度を向上させるために,アンカーポイントに条件付きグラフ構造化ニューラルネットワークを用いたDense対応学習のための新しいソリューションであるDenseGAPを導入する。 具体的には、まず、画像間および画像内コンテキストに先立って、アンカーポイントを使用するグラフ構造を提案し、すべての画像ポイントに有向エッジを介して伝搬する。 また,光重み付きメッセージパッシング層を介してマルチレベルコンテキストをブロードキャストし,低メモリコストで高分解能特徴マップを生成するグラフ構造ネットワークを設計した。 最後に、予測された特徴マップに基づいて、サイクル整合性を用いた正確な対応予測のための粗大なフレームワークを提案する。 特徴記述子はローカル情報とグローバル情報の両方をキャプチャし、任意の点を高解像度で問合せするための連続的特徴フィールドを可能にする。 大規模屋内および屋外の大規模データセットに対する包括的アブレーション実験と評価を通じて,本手法がほとんどのベンチマーク上での対応学習の最先端化を実証する。

Establishing dense correspondence between two images is a fundamental computer vision problem, which is typically tackled by matching local feature descriptors. However, without global awareness, such local features are often insufficient for disambiguating similar regions. And computing the pairwise feature correlation across images is both computation-expensiv e and memory-intensive. To make the local features aware of the global context and improve their matching accuracy, we introduce DenseGAP, a new solution for efficient Dense correspondence learning with a Graph-structured neural network conditioned on Anchor Points. Specifically, we first propose a graph structure that utilizes anchor points to provide sparse but reliable prior on inter- and intra-image context and propagates them to all image points via directed edges. We also design a graph-structured network to broadcast multi-level contexts via light-weighted message-passing layers and generate high-resolution feature maps at low memory cost. Finally, based on the predicted feature maps, we introduce a coarse-to-fine framework for accurate correspondence prediction using cycle consistency. Our feature descriptors capture both local and global information, thus enabling a continuous feature field for querying arbitrary points at high resolution. Through comprehensive ablative experiments and evaluations on large-scale indoor and outdoor datasets, we demonstrate that our method advances the state-of-the-art of correspondence learning on most benchmarks.
翻訳日:2021-12-14 17:45:21 公開日:2021-12-13
# ColBERTのトーケンプルーニングに関する研究

A Study on Token Pruning for ColBERT ( http://arxiv.org/abs/2112.06540v1 )

ライセンス: Link先を確認
Carlos Lassance, Maroua Maachou, Joohee Park, St\'ephane Clinchant(参考訳) ColBERTモデルは最近、有効なBERTベースのランク付けとして提案されている。 遅延相互作用機構を採用することで、ColBERTの大きな利点は、文書表現を事前にプリ計算できることである。 しかし、モデルの大きな欠点はインデックスサイズであり、コレクション内のトークンの数に線形にスケールする。 本稿では,この問題に対処するために,ColBERTモデルの様々な設計について検討する。 インデックスサイズを低減するために圧縮技術が検討されているが,本研究ではColBERTのトークンプルーニング技術について検討する。 簡単なヒューリスティックスと、インデックス時間に保持するトークンを選択するための単一の注意機構を比較します。 実験の結果,ColBERT インデックスはMS MARCO パスコレクション上で最大30 % までプルーニングでき,性能が大幅に低下することはないことがわかった。 最後に,MS MARCO文書を用いて実験を行い,そのメカニズムの課題を明らかにした。

The ColBERT model has recently been proposed as an effective BERT based ranker. By adopting a late interaction mechanism, a major advantage of ColBERT is that document representations can be precomputed in advance. However, the big downside of the model is the index size, which scales linearly with the number of tokens in the collection. In this paper, we study various designs for ColBERT models in order to attack this problem. While compression techniques have been explored to reduce the index size, in this paper we study token pruning techniques for ColBERT. We compare simple heuristics, as well as a single layer of attention mechanism to select the tokens to keep at indexing time. Our experiments show that ColBERT indexes can be pruned up to 30\% on the MS MARCO passage collection without a significant drop in performance. Finally, we experiment on MS MARCO documents, which reveal several challenges for such mechanism.
翻訳日:2021-12-14 17:44:58 公開日:2021-12-13
# (参考訳) タイトルと抽象の境界を越えたキーフレーズの生成 [全文訳有]

Keyphrase Generation Beyond the Boundaries of Title and Abstract ( http://arxiv.org/abs/2112.06776v1 )

ライセンス: CC BY 4.0
Krishna Garg, Jishnu Ray Chowdhury, Cornelia Caragea(参考訳) keyphrase生成は、指定されたドキュメントを最もよく記述するフレーズ(keyphrases)を生成することを目的としている。 学術領域では、この課題に対する現在のアプローチは神経的アプローチであり、記事のタイトルと抽象のみに大きく取り組んできた。 本研究では、意味論的に類似した記事からの追加データの統合や、与えられた記事の全文の統合が、ニューラルキーフレーズ生成モデルに役立つかどうかを検討する。 特に記事の要約形式で全文から文を追加することで、タイトルや抽象語から存在するか存在しないかのいずれかのキーフレーズの生成を大幅に改善できることがわかった。 より長い文書に適した最新のトランスフォーマーモデルであるLongformer Encoder-Decoder (LED)とともに、3つの評価されたモデルの実験結果により、観測結果が検証された。 また,キーフレーズ生成のための新しい大規模学術データセットであるfulltextkpを提案する。 以前の大規模データセットとは異なり、fulltextkpはタイトルと抽象と共に記事の全文を含む。 提案されたアイデアの研究を刺激するソースコードをリリースする。

Keyphrase generation aims at generating phrases (keyphrases) that best describe a given document. In scholarly domains, current approaches to this task are neural approaches and have largely worked with only the title and abstract of the articles. In this work, we explore whether the integration of additional data from semantically similar articles or from the full text of the given article can be helpful for a neural keyphrase generation model. We discover that adding sentences from the full text particularly in the form of summary of the article can significantly improve the generation of both types of keyphrases that are either present or absent from the title and abstract. The experimental results on the three acclaimed models along with one of the latest transformer models suitable for longer documents, Longformer Encoder-Decoder (LED) validate the observation. We also present a new large-scale scholarly dataset FullTextKP for keyphrase generation, which we use for our experiments. Unlike prior large-scale datasets, FullTextKP includes the full text of the articles alongside title and abstract. We will release the source code to stimulate research on the proposed ideas.
翻訳日:2021-12-14 17:41:58 公開日:2021-12-13
# 深部注意ガイド画像フィルタリング

Deep Attentional Guided Image Filtering ( http://arxiv.org/abs/2112.06401v1 )

ライセンス: Link先を確認
Zhiwei Zhong, Xianming Liu, Junjun Jiang, Debin Zhao, Xiangyang Ji(参考訳) 誘導フィルタは、誘導画像から対象画像へ構造情報を転送することを目的とした、コンピュータビジョンとコンピュータグラフィックスの基本的なツールである。 既存のほとんどのメソッドは、ガイダンスとターゲット間の相互依存を考慮せずに、ガイダンス自体からフィルタカーネルを構築する。 しかし、通常、2つの画像にかなり異なるエッジが存在するため、誘導のすべての構造情報をターゲットに転送するだけで様々なアーティファクトが得られる。 そこで本研究では,両画像に含まれる補完的情報を十分に統合できる,深層注意誘導画像フィルタリングという効果的な枠組みを提案する。 具体的には,2つの画像間の画素依存性をモデル化することにより,それぞれが誘導と目標からフィルタカーネルの2つの集合を生成し,それらを適応的に組み合わせるための注目カーネル学習モジュールを提案する。 一方,提案するマルチスケールガイド画像フィルタリングモジュールは,構成されたカーネルによるフィルタリング結果を粗い方法で段階的に生成する。 次いで, 粗粒化プロセスにおける中間結果を再利用するために, マルチスケール核融合戦略を導入する。 広汎な実験により,提案手法は,ガイド付き超解像,クロスモーダル復元,テクスチャ除去,セマンティックセグメンテーションなど,幅広いガイド付き画像フィルタリングアプリケーションにおいて,最先端の手法と良好に比較できることがわかった。

Guided filter is a fundamental tool in computer vision and computer graphics which aims to transfer structure information from guidance image to target image. Most existing methods construct filter kernels from the guidance itself without considering the mutual dependency between the guidance and the target. However, since there typically exist significantly different edges in the two images, simply transferring all structural information of the guidance to the target would result in various artifacts. To cope with this problem, we propose an effective framework named deep attentional guided image filtering, the filtering process of which can fully integrate the complementary information contained in both images. Specifically, we propose an attentional kernel learning module to generate dual sets of filter kernels from the guidance and the target, respectively, and then adaptively combine them by modeling the pixel-wise dependency between the two images. Meanwhile, we propose a multi-scale guided image filtering module to progressively generate the filtering result with the constructed kernels in a coarse-to-fine manner. Correspondingly, a multi-scale fusion strategy is introduced to reuse the intermediate results in the coarse-to-fine process. Extensive experiments show that the proposed framework compares favorably with the state-of-the-art methods in a wide range of guided image filtering applications, such as guided super-resolution, cross-modality restoration, texture removal, and semantic segmentation.
翻訳日:2021-12-14 17:28:33 公開日:2021-12-13
# 深層登録を前提としたハイブリッドアトラスビルディング

Hybrid Atlas Building with Deep Registration Priors ( http://arxiv.org/abs/2112.06406v1 )

ライセンス: Link先を確認
Nian Wu, Jian Wang, Miaomiao Zhang, Guixu Zhang, Yaxin Peng and Chaomin Shen(参考訳) 登録ベースのアトラスビルディングは高次元画像空間においてしばしば計算上の問題を引き起こす。 本稿では,大規模画像データセットからatlasを高速に推定し,計算コストを大幅に削減するハイブリッドatlas構築アルゴリズムを提案する。 推定アトラスと個々の画像間の登録タスクを反復的に行う従来のアプローチとは対照的に,事前学習されたニューラルネットワークから学習した事前登録を利用する方法を提案する。 この新しく開発されたハイブリッドフレームワークにはいくつかの利点がある。 (i)結果の質を損なうことなく、効率的なアトラス建築方法を提供すること。 (ii)多種多様な深層学習に基づく登録方法を利用する際の柔軟性を提供する。 本稿では3次元脳磁気共鳴画像(MRI)における本モデルの有効性を示す。

Registration-based atlas building often poses computational challenges in high-dimensional image spaces. In this paper, we introduce a novel hybrid atlas building algorithm that fast estimates atlas from large-scale image datasets with much reduced computational cost. In contrast to previous approaches that iteratively perform registration tasks between an estimated atlas and individual images, we propose to use learned priors of registration from pre-trained neural networks. This newly developed hybrid framework features several advantages of (i) providing an efficient way of atlas building without losing the quality of results, and (ii) offering flexibility in utilizing a wide variety of deep learning based registration methods. We demonstrate the effectiveness of this proposed model on 3D brain magnetic resonance imaging (MRI) scans.
翻訳日:2021-12-14 17:28:08 公開日:2021-12-13
# SVIP:動画における手順のシーケンス検証

SVIP: Sequence VerIfication for Procedures in Videos ( http://arxiv.org/abs/2112.06447v1 )

ライセンス: Link先を確認
Yicheng Qian, Weixin Luo, Dongze Lian, Xu Tang, Peilin Zhao, Shenghua Gao(参考訳) 本稿では,ステップレベルの変換を持つ負のアクションシーケンスと同一のアクションシーケンスを実行する正のビデオペアを区別する,新しいシーケンス検証タスクを提案する。 このような混乱するタスクは、優先順位検出やセグメンテーションなしにオープンな設定に置かれ、イベントレベルやフレームレベルのアノテーションさえ必要とします。 そこで我々は,ステッププロデュース・タスク構造を持つ2つの公開アクション関連データセットを慎重に再構成した。 提案手法の有効性について検討するため, 各種ステップレベルの変換実験を収録したビデオデータセットを収録した。 また, 異なるステップレベル変換の等価性を確保するために, 新たな評価式メットリック距離比を導入する。 最後に、新しいシーケンスアライメント損失を持つトランスフォーマに基づく単純かつ効果的なベースラインが導入され、ステップ間の長期的な依存性を特徴付けし、他のアクション認識メソッドよりも優れる。

In this paper, we propose a novel sequence verificationtask that aims to distinguish positive video pairs performingthe same action sequence from negative ones with step-leveltransforma tions but still conducting the same task. Such achallenging task resides in an open-set setting without prioraction detection or segmentation that requires event-levelor even frame-level annotations. To that end, we carefullyreorganize two publicly available action-related datasetswith step-procedure-task structure. To fully investigate theeffectiveness of any method, we collect a scripted videodataset enumerating all kinds of step-level transformationsin chemical experiments. Besides, a novel evaluation met-ric Weighted Distance Ratio is introduced to ensure equiva-lence for different step-level transformations during evalua-tion. In the end, a simple but effective baseline based on thetransformer with a novel sequence alignment loss is intro-duced to better characterize long-term dependency betweensteps, which outperforms other action recognition methods.Codes and data will be released.
翻訳日:2021-12-14 17:27:59 公開日:2021-12-13
# 低照度画像強調のための意味的コントラスト学習

Semantically Contrastive Learning for Low-light Image Enhancement ( http://arxiv.org/abs/2112.06451v1 )

ライセンス: Link先を確認
Dong Liang, Ling Li, Mingqiang Wei, Shuo Yang, Liyan Zhang, Wenhan Yang, Yun Du, Huiyu Zhou(参考訳) 低照度画像強調(LLE)は、単一のRGB画像の低コントラストと低可視性の問題により、依然として困難である。 本稿では, アクセシブルなオーバー/アンダー露画像と高レベルのセマンティックガイダンスの両方を活用することで, 最先端のLLEモデルの性能を向上させることができるのか? 本稿では,LLE(SCL-LLE)に対する効果的な意味論的コントラスト学習パラダイムを提案する。 既存のLLE知恵以外にも、画像強調タスクをマルチタスク共同学習として、LLEをコントラスト学習、セマンティック輝度整合性、特徴保存という3つの制約に変換し、露出、テクスチャ、色整合性を同時に確保する。 SCL-LLEは、LLEモデルにおいて、未経験の正(正規光)/負(オーバー/アンダー露)から学び、シーンセマンティクスと相互作用して画像拡張ネットワークを正規化することができるが、高レベルのセマンティクス知識と低レベルの信号事前の相互作用は、以前の方法ではほとんど研究されない。 容易に利用可能なオープンデータに関するトレーニング 広範な実験により、本手法が6つの独立したクロスシーンデータセットの最先端lleモデルを超えていることが証明された。 さらに, 極暗条件下での下流セマンティックセマンティックセグメンテーションに寄与するSCL-LLEの可能性について論じる。 ソースコード:https://github.com/ LingLIx/SCL-LLE。

Low-light image enhancement (LLE) remains challenging due to the unfavorable prevailing low-contrast and weak-visibility problems of single RGB images. In this paper, we respond to the intriguing learning-related question -- if leveraging both accessible unpaired over/underexposed images and high-level semantic guidance, can improve the performance of cutting-edge LLE models? Here, we propose an effective semantically contrastive learning paradigm for LLE (namely SCL-LLE). Beyond the existing LLE wisdom, it casts the image enhancement task as multi-task joint learning, where LLE is converted into three constraints of contrastive learning, semantic brightness consistency, and feature preservation for simultaneously ensuring the exposure, texture, and color consistency. SCL-LLE allows the LLE model to learn from unpaired positives (normal-light)/negat ives (over/underexposed), and enables it to interact with the scene semantics to regularize the image enhancement network, yet the interaction of high-level semantic knowledge and the low-level signal prior is seldom investigated in previous methods. Training on readily available open data, extensive experiments demonstrate that our method surpasses the state-of-the-arts LLE models over six independent cross-scenes datasets. Moreover, SCL-LLE's potential to benefit the downstream semantic segmentation under extremely dark conditions is discussed. Source Code: https://github.com/L ingLIx/SCL-LLE.
翻訳日:2021-12-14 17:27:41 公開日:2021-12-13
# 映像映像からのリアルタイム行動認識

Real Time Action Recognition from Video Footage ( http://arxiv.org/abs/2112.06456v1 )

ライセンス: Link先を確認
Tasnim Sakib Apon, Mushfiqul Islam Chowdhury, MD Zubair Reza, Arpita Datta, Syeda Tanjina Hasan, MD. Golam Rabiul Alam(参考訳) 犯罪率は人口の増加と比例して増加している。 最も顕著なアプローチは、この問題に取り組むために、CCTV(Closed-Circuit Television)カメラベースの監視を導入することだった。 ビデオ監視カメラは犯罪を検知する新しい次元を追加した。 自律的セキュリティカメラの監視に関するいくつかの研究が進行中であり、基本的な目標はビデオフィードから暴力行為を発見することである。 技術的な見地からすると、暴力を検出するために時間軸の動画を分析するには、誤った結果を減らすために注意深い機械学習モデルトレーニングが必要になるため、これは難しい問題である。 本研究は、最先端のディープラーニング手法を統合して、自律監視のための堅牢なパイプラインを確保し、例えば蹴り、パンチ、スラッピングなどの暴力行為を検出することに焦点を当てる。 最初は、600本のビデオ(アクション毎に200本)を含む、この特定の関心事のデータセットを設計しました。 その後,既存の事前学習モデルアーキテクチャを用いて特徴抽出を行い,分類にディープラーニングネットワークを用いた。 また,vgg16,inceptionv3,r esnet50,xception,mob ilenet v2など,vgg16とmobilenet v2のパフォーマンスが向上したさまざまな事前学習済みアーキテクチャ上で,モデルの精度と混乱行列を分類した。

Crime rate is increasing proportionally with the increasing rate of the population. The most prominent approach was to introduce Closed-Circuit Television (CCTV) camera-based surveillance to tackle the issue. Video surveillance cameras have added a new dimension to detect crime. Several research works on autonomous security camera surveillance are currently ongoing, where the fundamental goal is to discover violent activity from video feeds. From the technical viewpoint, this is a challenging problem because analyzing a set of frames, i.e., videos in temporal dimension to detect violence might need careful machine learning model training to reduce false results. This research focuses on this problem by integrating state-of-the-art Deep Learning methods to ensure a robust pipeline for autonomous surveillance for detecting violent activities, e.g., kicking, punching, and slapping. Initially, we designed a dataset of this specific interest, which contains 600 videos (200 for each action). Later, we have utilized existing pre-trained model architectures to extract features, and later used deep learning network for classification. Also, We have classified our models' accuracy, and confusion matrix on different pre-trained architectures like VGG16, InceptionV3, ResNet50, Xception and MobileNet V2 among which VGG16 and MobileNet V2 performed better.
翻訳日:2021-12-14 17:27:15 公開日:2021-12-13
# マルチモーダル相互情報の最大化:教師なし深層モーダルハッシュの新しいアプローチ

Multi-Modal Mutual Information Maximization: A Novel Approach for Unsupervised Deep Cross-Modal Hashing ( http://arxiv.org/abs/2112.06489v1 )

ライセンス: Link先を確認
Tuan Hoang, Thanh-Toan Do, Tam V. Nguyen, Ngai-Man Cheung(参考訳) 本稿では,相互情報の最大化 (MI) アプローチを採用し,二項ハッシュ符号の教師なし学習の問題に対処し,効率的なクロスモーダル検索を行う。 我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案した。 まず、モダリティ内およびモダリティ間の類似性を両立できる情報表現を学習するために、MIの変分下界を推定する最近の進歩を活用して、2進表現と入力特徴間のMIを最大化し、異なるモダリティの2進表現を最大化する。 二項表現が多変数ベルヌーイ分布によってモデル化されるという仮定の下でこれらのMIを共同で最大化することにより、二項表現を学習することができる。 さらに、同じインスタンスに対して異なるモダリティから類似のバイナリ表現を学習することで、モダリティギャップを最小化しようとすると、より情報的な表現が得られなくなる。 したがって、モダリティギャップの低減とモダリティプライベート情報の喪失のバランスは、モダリティ検索タスクにおいて重要である。 標準ベンチマークデータセットの定量的評価は、提案手法が他の最先端のクロスモーダル検索手法よりも一貫して優れていることを示す。

In this paper, we adopt the maximizing mutual information (MI) approach to tackle the problem of unsupervised learning of binary hash codes for efficient cross-modal retrieval. We proposed a novel method, dubbed Cross-Modal Info-Max Hashing (CMIMH). First, to learn informative representations that can preserve both intra- and inter-modal similarities, we leverage the recent advances in estimating variational lower-bound of MI to maximize the MI between the binary representations and input features and between binary representations of different modalities. By jointly maximizing these MIs under the assumption that the binary representations are modelled by multivariate Bernoulli distributions, we can learn binary representations, which can preserve both intra- and inter-modal similarities, effectively in a mini-batch manner with gradient descent. Furthermore, we find out that trying to minimize the modality gap by learning similar binary representations for the same instance from different modalities could result in less informative representations. Hence, balancing between reducing the modality gap and losing modality-private information is important for the cross-modal retrieval tasks. Quantitative evaluations on standard benchmark datasets demonstrate that the proposed method consistently outperforms other state-of-the-art cross-modal retrieval methods.
翻訳日:2021-12-14 17:26:50 公開日:2021-12-13
# makeup216: 敵対的注意表現を用いたロゴ認識

Makeup216: Logo Recognition with Adversarial Attention Representations ( http://arxiv.org/abs/2112.06533v1 )

ライセンス: Link先を確認
Junjun Hu, Yanhao Zhu, Bo Zhao, Jiexin Zheng, Chenxu Zhao, Xiangyu Zhu, Kangle Wu, Darun Tang(参考訳) ロゴ認識の課題の1つは、シンボル、テキスト、またはそれらの組み合わせといった形態の多様性にある。さらに、ロゴはデザインにおいて極めて簡潔であり、外観は類似しており、識別表現を学ぶことの難しさを示唆している。 ロゴの多様性と表現について検討するため,実世界から取得した化粧分野における最大かつ最も複雑なロゴデータセットであるMakeup216を紹介した。 216のロゴと157のブランドで構成され、その中には10,019の画像と37,018の注釈付きロゴオブジェクトが含まれる。 また,純正ロゴの辺縁背景が重要な文脈情報を提供できること,ロゴテーマと補助辺縁背景に別々に出席する敵注意表現フレームワーク(aar)を提案し,より優れた表現のために組み合わせることができることを示した。 提案するフレームワークは,Makeup216と,ロゴ認識の新たな考え方を提供する大規模オープンロゴデータセット上で,競合する結果を得た。 Makeup216のデータセットと提案されたフレームワークのコードは近くリリースされる。

One of the challenges of logo recognition lies in the diversity of forms, such as symbols, texts or a combination of both; further, logos tend to be extremely concise in design while similar in appearance, suggesting the difficulty of learning discriminative representations. To investigate the variety and representation of logo, we introduced Makeup216, the largest and most complex logo dataset in the field of makeup, captured from the real world. It comprises of 216 logos and 157 brands, including 10,019 images and 37,018 annotated logo objects. In addition, we found that the marginal background around the pure logo can provide a important context information and proposed an adversarial attention representation framework (AAR) to attend on the logo subject and auxiliary marginal background separately, which can be combined for better representation. Our proposed framework achieved competitive results on Makeup216 and another large-scale open logo dataset, which could provide fresh thinking for logo recognition. The dataset of Makeup216 and the code of the proposed framework will be released soon.
翻訳日:2021-12-14 17:24:26 公開日:2021-12-13
# SphereSR

SphereSR ( http://arxiv.org/abs/2112.06536v1 )

ライセンス: Link先を確認
Youngho Yoon, Inchul Chung, Lin Wang, and Kuk-Jin Yoon(参考訳) 360 画像は近年注目されているが、その角分解能は、同じセンサーサイズで魚眼レンズを用いて捉えられるため、視野の狭い(FOV)視野像よりも比較的低い。 したがって、360度画像の超解像は有益である。 Some attempts have been made but mostly considered the equirectangular projection (ERP) as one of the way for 360 image representation despite of latitude-dependent distortions.In that case, as the output high-resolution(HR) image is always in the same ERP format as the low-resolution (LR) input, another information loss may occur when transforming the HR image to other projection types.In this paper, we propose SphereSR, a novel framework to generate a continuous spherical image representation from an LR 360 image, aiming at predicting the RGB values at given spherical coordinates for super-resolution with an arbitrary 360 image projection. 具体的には,まず,イコサヘドロンに基づく球面データを表現し,球面上の特徴を効率的に抽出する特徴抽出モジュールを提案する。 次に球面座標におけるrgb値を予測する球面局所暗黙画像関数(sliif)を提案する。 そこで,SphereSR は任意の投影型の下で HR 画像を柔軟に再構成する。

The 360 imaging has recently gained great attention; however, its angular resolution is relatively lower than that of a narrow field-of-view (FOV) perspective image as it is captured by using fisheye lenses with the same sensor size. Therefore, it is beneficial to super-resolve a 360 image. Some attempts have been made but mostly considered the equirectangular projection (ERP) as one of the way for 360 image representation despite of latitude-dependent distortions.In that case, as the output high-resolution(HR) image is always in the same ERP format as the low-resolution (LR) input, another information loss may occur when transforming the HR image to other projection types.In this paper, we propose SphereSR, a novel framework to generate a continuous spherical image representation from an LR 360 image, aiming at predicting the RGB values at given spherical coordinates for super-resolution with an arbitrary 360 image projection. Specifically, we first pro-pose a feature extraction module that represents the spherical data based on icosahedron and efficiently extracts features on the spherical surface. We then propose a spherical local implicit image function (SLIIF) to predict RGB values at the spherical coordinates. As such, SphereSR flexibly re-constructs an HR image under an arbitrary projection type.Experiments on various benchmark datasets show that our method significantly surpasses existing methods.
翻訳日:2021-12-14 17:24:06 公開日:2021-12-13
# 三角攻撃:クエリ効率のよい逆攻撃

Triangle Attack: A Query-efficient Decision-based Adversarial Attack ( http://arxiv.org/abs/2112.06569v1 )

ライセンス: Link先を確認
Xiaosen Wang, Zeliang Zhang, Kangheng Tong, Dihong Gong, Kun He, Zhifeng Li, Wei Liu(参考訳) 決定に基づく攻撃は、ターゲットモデルをブラックボックスとみなし、ハード予測ラベルのみにアクセスするため、現実世界のアプリケーションに深刻な脅威をもたらす。 クエリ数を減らすために最近は大きな努力がなされているが、既存の決定ベースの攻撃は高品質な逆の例を生成するために数千のクエリを必要とする。 この研究において、良性サンプル、電流および次の逆例は、任意の反復攻撃に対する部分空間に自然に三角形を構築することができる。 シネスの法則に基づき、長辺が任意の三角形のより大きい角度と常に反対である幾何学的情報を利用して摂動を最適化する新しい三角攻撃(ta)を提案する。 しかし,入力試料の近傍を高次元空間で徹底的に探索できないため,入力画像に直接情報を適用することは効果的ではない。 この問題に対処するため、TAはそのような幾何学的性質の一般化により、低周波空間における摂動を効果的に次元化するために最適化する。 imagenetデータセットの広範な評価は、taが1000クエリ内で攻撃成功率が非常に高く、既存の決定ベースの攻撃よりも様々な摂動予算の下で同じ攻撃成功率を達成するために、クエリ数がはるかに少ないことを示している。 このような高い効率で、現実のAPI、すなわちTencent Cloud APIにおけるTAの適用性をさらに実証する。

Decision-based attack poses a severe threat to real-world applications since it regards the target model as a black box and only accesses the hard prediction label. Great efforts have been made recently to decrease the number of queries; however, existing decision-based attacks still require thousands of queries in order to generate good quality adversarial examples. In this work, we find that a benign sample, the current and the next adversarial examples could naturally construct a triangle in a subspace for any iterative attacks. Based on the law of sines, we propose a novel Triangle Attack (TA) to optimize the perturbation by utilizing the geometric information that the longer side is always opposite the larger angle in any triangle. However, directly applying such information on the input image is ineffective because it cannot thoroughly explore the neighborhood of the input sample in the high dimensional space. To address this issue, TA optimizes the perturbation in the low frequency space for effective dimensionality reduction owing to the generality of such geometric property. Extensive evaluations on the ImageNet dataset demonstrate that TA achieves a much higher attack success rate within 1,000 queries and needs a much less number of queries to achieve the same attack success rate under various perturbation budgets than existing decision-based attacks. With such high efficiency, we further demonstrate the applicability of TA on real-world API, i.e., Tencent Cloud API.
翻訳日:2021-12-14 17:23:46 公開日:2021-12-13
# CR-FIQA:学習サンプルによる顔画像品質評価

CR-FIQA: Face Image Quality Assessment by Learning Sample Relative Classifiability ( http://arxiv.org/abs/2112.06592v1 )

ライセンス: Link先を確認
Fadi Boutros, Meiling Fang, Marcel Klemt, Biying Fu, Naser Damer(参考訳) 顔画像の品質は基礎となる顔認識アルゴリズムの性能に大きく影響する。 顔画像品質評価(fiqa)は、撮影画像の有用性を推定し、信頼性と正確な認識性能を達成する。 本研究では,学習過程における内部ネットワーク観測を学習する新しい学習パラダイムを提案する。 提案するCR-FIQAは,このパラダイムを用いて,その相対的分類可能性を予測することにより,サンプルの顔画像品質を推定する。 この分類可能性は、クラス中心と最も近い負のクラス中心に対する角空間におけるトレーニングサンプル特徴表現の割り当てに基づいて測定される。 本研究では,顔画像品質とサンプル相対分類可能性の関係を実験的に示す。 このような特性はトレーニングデータセットでしか観測できないため、トレーニングデータセットからこの特性を学習し、未検出サンプルの品質指標を予測するために利用する。 このトレーニングは、顔認識モデルトレーニングに使用される角縁ペナルティに基づくソフトマックスロスにより、クラスセンターを最適化しながら同時に行われる。 8つのベンチマークと4つの顔認識モデルに対する広範囲な評価実験を通じて、提案したCR-FIQAが最先端(SOTA)FIQAアルゴリズムよりも優れていることを示す。

The quality of face images significantly influences the performance of underlying face recognition algorithms. Face image quality assessment (FIQA) estimates the utility of the captured image in achieving reliable and accurate recognition performance. In this work, we propose a novel learning paradigm that learns internal network observations during the training process. Based on that, our proposed CR-FIQA uses this paradigm to estimate the face image quality of a sample by predicting its relative classifiability. This classifiability is measured based on the allocation of the training sample feature representation in angular space with respect to its class center and the nearest negative class center. We experimentally illustrate the correlation between the face image quality and the sample relative classifiability. As such property is only observable for the training dataset, we propose to learn this property from the training dataset and utilize it to predict the quality measure on unseen samples. This training is performed simultaneously while optimizing the class centers by an angular margin penalty-based softmax loss used for face recognition model training. Through extensive evaluation experiments on eight benchmarks and four face recognition models, we demonstrate the superiority of our proposed CR-FIQA over state-of-the-art (SOTA) FIQA algorithms.
翻訳日:2021-12-14 17:23:22 公開日:2021-12-13
# 長期的非監督的ドメイン適応型人物の再同定 : 協調型アンチフォーゲッティングと適応

Lifelong Unsupervised Domain Adaptive Person Re-identification with Coordinated Anti-forgetting and Adaptation ( http://arxiv.org/abs/2112.06632v1 )

ライセンス: Link先を確認
Zhipeng Huang, Zhizheng Zhang, Cuiling Lan, Wenjun Zeng, Peng Chu, Quanzeng You, Jiang Wang, Zicheng Liu, Zheng-jun Zha(参考訳) reid (unsupervised domain adaptive person re-identification) はドメイン間隙の悪影響を軽減するために広く研究されている。 これらの処理は、対象のドメインデータがすべて同時にアクセス可能であると仮定します。 しかし、実世界のストリーミングデータでは、データ統計の変化へのタイムリーな適応とサンプルの増加による十分な活用を妨げる。 本稿では、より実践的なシナリオに対処するため、新しいタスクであるLifelong Unsupervised Domain Adaptive (LUDA) Person ReIDを提案する。 このようなきめ細かい人物検索タスクを忘れないようにしながら、ターゲット環境のラベルのないデータに継続的に適応する必要があるため、これは難しい。 我々は、CLUDA-ReIDと呼ばれるこのタスクのための効果的なスキームを設計し、そこでは、アンチフォージェッティングが適応と調和して調整される。 具体的には、古いデータをリプレイし、適応と記憶の両方のために協調最適化方向でネットワークを更新するメタベースのコーディネートデータ再生戦略を提案する。 さらに,従来の知識の蒸留/継承のための関係一貫性学習を,検索タスクの目的に合わせて提案する。 実用シナリオをシミュレートするために,評価設定を2つ設定した。 静的ターゲットストリームと動的ターゲットストリームの両シナリオにおけるcluda-reidの有効性を,広範な実験により実証した。

Unsupervised domain adaptive person re-identification (ReID) has been extensively investigated to mitigate the adverse effects of domain gaps. Those works assume the target domain data can be accessible all at once. However, for the real-world streaming data, this hinders the timely adaptation to changing data statistics and sufficient exploitation of increasing samples. In this paper, to address more practical scenarios, we propose a new task, Lifelong Unsupervised Domain Adaptive (LUDA) person ReID. This is challenging because it requires the model to continuously adapt to unlabeled data of the target environments while alleviating catastrophic forgetting for such a fine-grained person retrieval task. We design an effective scheme for this task, dubbed CLUDA-ReID, where the anti-forgetting is harmoniously coordinated with the adaptation. Specifically, a meta-based Coordinated Data Replay strategy is proposed to replay old data and update the network with a coordinated optimization direction for both adaptation and memorization. Moreover, we propose Relational Consistency Learning for old knowledge distillation/inherit ance in line with the objective of retrieval-based tasks. We set up two evaluation settings to simulate the practical application scenarios. Extensive experiments demonstrate the effectiveness of our CLUDA-ReID for both scenarios with stationary target streams and scenarios with dynamic target streams.
翻訳日:2021-12-14 17:23:05 公開日:2021-12-13
# (参考訳) ケースベースバイオメディカル質問応答における説明コンテナ [全文訳有]

Explanation Container in Case-Based Biomedical Question-Answering ( http://arxiv.org/abs/2112.06780v1 )

ライセンス: CC BY 4.0
Prateek Goel, Adam J. Johs, Manil Shrestha, and Rosina O. Weber(参考訳) The National Center for Advancing Translational Sciences (NCATS) Biomedical Data Translator (Translator)は、翻訳科学者が直面する問題を緩和することを目的としている。 Translatorは、6つの自律リレーエージェント(ARA)と8つの知識プロバイダ(KP)で構成されるマルチエージェントアーキテクチャである。 本稿では,複数のkpsにアクセスし,ランキング結果にアクセスし,結果のランキングを説明することで,生物医学的問合せに答えるケースベースのaraである説明エージェント (xara) の設計について述べる。 説明エージェントは、オリジナルの4つの知識コンテナと説明のための1つの追加のコンテナを含む5つの知識コンテナで設計されている。 Explanation Containerはケースベースで、独自のナレッジコンテナで設計されている。

The National Center for Advancing Translational Sciences(NCATS) Biomedical Data Translator (Translator) aims to attenuate problems faced by translational scientists. Translator is a multi-agent architecture consisting of six autonomous relay agents (ARAs) and eight knowledge providers (KPs). In this paper, we present the design of the Explanatory Agent (xARA), a case-based ARA that answers biomedical queries by accessing multiple KPs, ranking results, and explaining the ranking of results. The Explanatory Agent is designed with five knowledge containers that include the four original knowledge containers and one additional container for explanation - the Explanation Container. The Explanation Container is case-based and designed with its own knowledge containers.
翻訳日:2021-12-14 17:21:46 公開日:2021-12-13
# スパーストランスフォーマーを用いたsingle stride 3d object detector

Embracing Single Stride 3D Object Detector with Sparse Transformer ( http://arxiv.org/abs/2112.06375v1 )

ライセンス: Link先を確認
Lue Fan, Ziqi Pang, Tianyuan Zhang, Yu-Xiong Wang, Hang Zhao, Feng Wang, Naiyan Wang, Zhaoxiang Zhang(参考訳) lidarを用いた自律走行用3次元物体検出では,物体サイズと入力シーンサイズとの比は2次元検出例に比べて有意に小さい。 この違いを見渡すと、多くの3D検出器は2D検出器の一般的な慣習に従っている。 本稿では,このマルチストライドステレオタイプがLiDARベースの3Dオブジェクト検出器に与える影響を再考することから始める。 我々の実験は、ダウンサンプリング操作は少ない利点をもたらし、避けられない情報損失につながることを指摘している。 この問題に対処するため,ネットワークの開始から終了までの解像度を維持するために,sst(single-stride sparse transformer)を提案する。 トランスフォーマーを装備し,シングルストライドアーキテクチャにおける受容場不足の問題に対処した。 また、点雲の広がりによく協力し、自然に高価な計算を避ける。 最終的に、sstは大規模なwaymo open datasetで最先端の結果を達成します。 提案手法は, 単ストライドの特性により, 小物体(歩行者)検出におけるエキサイティングな性能(検証分割時83.8 LEVEL 1 AP)を達成できることは注目に値する。 Codesはhttps://github.com/T uSimple/SSTでリリースされる

In LiDAR-based 3D object detection for autonomous driving, the ratio of the object size to input scene size is significantly smaller compared to 2D detection cases. Overlooking this difference, many 3D detectors directly follow the common practice of 2D detectors, which downsample the feature maps even after quantizing the point clouds. In this paper, we start by rethinking how such multi-stride stereotype affects the LiDAR-based 3D object detectors. Our experiments point out that the downsampling operations bring few advantages, and lead to inevitable information loss. To remedy this issue, we propose Single-stride Sparse Transformer (SST) to maintain the original resolution from the beginning to the end of the network. Armed with transformers, our method addresses the problem of insufficient receptive field in single-stride architectures. It also cooperates well with the sparsity of point clouds and naturally avoids expensive computation. Eventually, our SST achieves state-of-the-art results on the large scale Waymo Open Dataset. It is worth mentioning that our method can achieve exciting performance (83.8 LEVEL 1 AP on validation split) on small object (pedestrian) detection due to the characteristic of single stride. Codes will be released at https://github.com/T uSimple/SST
翻訳日:2021-12-14 17:08:25 公開日:2021-12-13
# 第5回 VSPW 2021 チャレンジ

5th Place Solution for VSPW 2021 Challenge ( http://arxiv.org/abs/2112.06379v1 )

ライセンス: Link先を確認
Jiafan Zhuang, Yixin Zhang, Xinyu Hu, Junjie Li, Zilei Wang(参考訳) 本稿では,VSPW 2021 Challengeで使用したソリューションを紹介する。 実験はSwin TransformerとMaskFormerの2つのベースラインモデルに基づいている。 さらなる性能向上のために,確率的重み平均化手法と階層的アンサンブル戦略を採用した。 外部のセマンティクスセグメンテーションデータセットを使用せずに、ソリューションはプライベートなリーダボードで5位にランクインしました。 さらに,valサブセットの改善を実現するために,長期の認識と過剰適合の問題に対処するための興味深い試みもいくつかある。 おそらく分布の違いのため、これらの試みはテストサブセットでは動作しません。 これらの試みも紹介し、他の研究者に刺激を与えたいと思っています。

In this article, we introduce the solution we used in the VSPW 2021 Challenge. Our experiments are based on two baseline models, Swin Transformer and MaskFormer. To further boost performance, we adopt stochastic weight averaging technique and design hierarchical ensemble strategy. Without using any external semantic segmentation dataset, our solution ranked the 5th place in the private leaderboard. Besides, we have some interesting attempts to tackle long-tail recognition and overfitting issues, which achieves improvement on val subset. Maybe due to distribution difference, these attempts don't work on test subset. We will also introduce these attempts and hope to inspire other researchers.
翻訳日:2021-12-14 17:08:05 公開日:2021-12-13
# PartGlot: 言語参照ゲームから形状を学習する部分のセグメンテーション

PartGlot: Learning Shape Part Segmentation from Language Reference Games ( http://arxiv.org/abs/2112.06390v1 )

ライセンス: Link先を確認
Juil Koo, Ian Huang, Panos Achlioptas, Leonidas Guibas, Minhyuk Sung(参考訳) 本稿では,部分参照言語のみに基づく3次元形状のセグメンテーションを学習するためのニューラルネットワークと関連するアーキテクチャであるPartGlotを紹介する。 自然言語は、物体の構成要素構造に対する人間の認識を反映し、その認識と使用に不可欠なものとして進化してきた。 学習には,シェープグロット作業で収集した一対の幾何・言語データを用いて,話者が2つの気晴らしとターゲット形状を区別する発話を作成し,聞き手はこの発話に基づいてターゲットを見つけなければならない。 本ネットワークは, 言語に記述された意味的部分や部分を正確に強調できるように, トランスベースアテンションモジュールを慎重に組み込んで, ターゲット識別問題を解決するために設計されている。 さらに、ネットワークは3dジオメトリ自体を直接監視することなく動作する。 驚いたことに、我々はさらに学習した部分情報がトレーニング中に目に見えないクラスを形成するために一般化可能であることを実証する。 提案手法は,大規模部分幾何アノテーションを必要とせずに,言語単独で3次元形状を学習し,アノテーションの取得を容易にする。

We introduce PartGlot, a neural framework and associated architectures for learning semantic part segmentation of 3D shape geometry, based solely on part referential language. We exploit the fact that linguistic descriptions of a shape can provide priors on the shape's parts -- as natural language has evolved to reflect human perception of the compositional structure of objects, essential to their recognition and use. For training, we use the paired geometry / language data collected in the ShapeGlot work for their reference game, where a speaker creates an utterance to differentiate a target shape from two distractors and the listener has to find the target based on this utterance. Our network is designed to solve this target discrimination problem, carefully incorporating a Transformer-based attention module so that the output attention can precisely highlight the semantic part or parts described in the language. Furthermore, the network operates without any direct supervision on the 3D geometry itself. Surprisingly, we further demonstrate that the learned part information is generalizable to shape classes unseen during training. Our approach opens the possibility of learning 3D shape parts from language alone, without the need for large-scale part geometry annotations, thus facilitating annotation acquisition.
翻訳日:2021-12-14 17:07:56 公開日:2021-12-13
# 物体間相互作用認識による物体検出の分離

Decoupling Object Detection from Human-Object Interaction Recognition ( http://arxiv.org/abs/2112.06392v1 )

ライセンス: Link先を確認
Ying Jin, Yinpeng Chen, Lijuan Wang, Jianfeng Wang, Pei Yu, Lin Liang, Jenq-Neng Hwang, Zicheng Liu(参考訳) 物体の位置や人間のポーズを使わずに、画像レベルでの人間と物体の相互作用(HOI)を識別するDefrection-FRee法を提案する。 検出器が既存の方法の不可欠な部分であるため、これは難しい。 本稿では,検出不要な手法の性能を高めるための2つの知見を提案する。 まず,HOIクラス間の意味的相関を効果的に活用することが重要である。 HOIラベルの言語埋め込みを使用して線形分類器を初期化することで、HOIの構造を符号化してトレーニングをガイドすることで、顕著な利益を得ることができる。 さらに,全クラスの勾配をソフトマックス形式でバランスさせることにより,ロングテールデータセットにおけるマルチラベル学習を容易にするために,log-sum-exp sign (lse-sign)ロスを提案する。 HICOのHOI分類では65.6mAP,SOTAでは18.5mAP,単発では52.7mAP,SOTAでは27.3mAPを上回った。 我々の分類モデル(DEFR)は,従来と異なり,境界ボックス出力をDEFR用バイナリマスクに変換するオフザシェルフ物体検出器に接続することにより,HOI検出において追加の訓練を伴わずに直接使用することができる。 驚いたことに、このような2つの分離されたモデルの単純な接続はSOTA性能(32.35 mAP)を達成する。

We propose DEFR, a DEtection-FRee method to recognize Human-Object Interactions (HOI) at image level without using object location or human pose. This is challenging as the detector is an integral part of existing methods. In this paper, we propose two findings to boost the performance of the detection-free approach, which significantly outperforms the detection-assisted state of the arts. Firstly, we find it crucial to effectively leverage the semantic correlations among HOI classes. Remarkable gain can be achieved by using language embeddings of HOI labels to initialize the linear classifier, which encodes the structure of HOIs to guide training. Further, we propose Log-Sum-Exp Sign (LSE-Sign) loss to facilitate multi-label learning on a long-tailed dataset by balancing gradients over all classes in a softmax format. Our detection-free approach achieves 65.6 mAP in HOI classification on HICO, outperforming the detection-assisted state of the art (SOTA) by 18.5 mAP, and 52.7 mAP in one-shot classes, surpassing the SOTA by 27.3 mAP. Different from previous work, our classification model (DEFR) can be directly used in HOI detection without any additional training, by connecting to an off-the-shelf object detector whose bounding box output is converted to binary masks for DEFR. Surprisingly, such a simple connection of two decoupled models achieves SOTA performance (32.35 mAP).
翻訳日:2021-12-14 17:07:35 公開日:2021-12-13
# (参考訳) 双曲幾何学における意味圏埋め込みのための認知的重み付きエントロピーモデル [全文訳有]

A cognitively driven weighted-entropy model for embedding semantic categories in hyperbolic geometry ( http://arxiv.org/abs/2112.06876v1 )

ライセンス: CC BY 4.0
Eugene Yu Ji(参考訳) 本稿では,双曲幾何学に意味圏を埋め込むための教師なしおよび認知駆動型重み付きエントロピー法を提案する。 モデルは認知言語学における2つの研究分野によって駆動される: 1つは言語習得の統計的学習理論、もう1つは認知における意味的知識を表現するための高次元ネットワークの提案、もう1つはドメイン固有の意味的コミュニケーションへの情報的アプローチである。 単語共起の重み付き条件エントロピーを埋め込み計量として提案し, 2つの重み付きパラメータは対応する統計分布におけるコロケーション多様性と条件付き確率ランキングである。 ボルツマン分布は重み付きエントロピー計量で使われ、双曲型ポインカレディスクモデルに埋め込まれる。 テストは主に、認知意味論におけるドメイン固有の研究が集中的に研究してきたクラスに属する、基本的な色と親族関係の単語のドメインで行われる。 以上の結果から,本手法は,英語の基本色・親和語の大部分において,人気と類似性のセマンティックな関係をモデル化およびマッピングし,他のセマンティックドメインや異なる言語に一般化できる可能性が示唆された。 本稿では,計算言語学とNLPに組み込んだネットワークおよび幾何学駆動型言語の研究と,計算認知のセマンティクスの両立に寄与する。

In this paper, an unsupervised and cognitively driven weighted-entropy method for embedding semantic categories in hyperbolic geometry is proposed. The model is driven by two fields of research in cognitive linguistics: the first is the statistical learning theory of language acquisition and the proposal of using high-dimensional networks to represent semantic knowledge in cognition, and the second is the domain-specific informativeness approach to semantic communication. Weighted conditional entropy of word co-occurrence is proposed as the embedding metric, and the two weighting parameters are collocation diversity and conditional probability ranking in the corresponding statistical distribution. The Boltzmann distribution is then used on the weighted-entropy metric and embedded into a hyperbolic Poincare disk model. Testing has been mainly performed in the domains of basic color and kinship words, which belong to the classes that domain-specificity focused research in cognitive semantics has most intensively investigated. Results show that this new approach can successfully model and map the semantic relationships of popularity and similarity for most of the basic color and kinship words in English and have potential to be generalized to other semantic domains and different languages. Generally, this paper contributes to both computational cognitive semantics and the research on network and geometry-driven language embedding in computational linguistics and NLP.
翻訳日:2021-12-14 17:05:26 公開日:2021-12-13
# データベースのCulriculaは機能するのか?

Do Data-based Curricula Work? ( http://arxiv.org/abs/2112.06510v1 )

ライセンス: Link先を確認
Maxim K. Surkov, Vladislav D. Mosin, Ivan P. Yamshchikov(参考訳) 現在の最先端のNLPシステムは、トレーニングに多くの計算リソースを必要とする大規模なニューラルネットワークを使用している。 人間の知識獲得に触発された研究者は、タスク(タスクベースのカリキュラム)のシーケンシングや、トレーニングを容易にするデータセット(データベースのカリキュラム)の順序付けとサンプリングといったカリキュラム学習を提案している。 本研究は,bert や t5 などの大規模現代言語モデルに対するデータベースカリキュラム学習の利点について検討する。 我々は,様々な複雑性尺度と異なるサンプリング戦略に基づいて,様々なカリキュラムを実験する。 様々なnlpタスクに関する広範囲な実験により、様々な複雑性尺度に基づくカリキュラムは、ランダムサンプリングがカリキュラムよりも優れる一方で、ほとんど利益がないことが示された。

Current state-of-the-art NLP systems use large neural networks that require lots of computational resources for training. Inspired by human knowledge acquisition, researchers have proposed curriculum learning, - sequencing of tasks (task-based curricula) or ordering and sampling of the datasets (data-based curricula) that facilitate training. This work investigates the benefits of data-based curriculum learning for large modern language models such as BERT and T5. We experiment with various curricula based on a range of complexity measures and different sampling strategies. Extensive experiments on different NLP tasks show that curricula based on various complexity measures rarely has any benefits while random sampling performs either as well or better than curricula.
翻訳日:2021-12-14 16:50:37 公開日:2021-12-13
# GLaM:Mixture-of-Expe rtsを用いた言語モデルの効率的なスケーリング

GLaM: Efficient Scaling of Language Models with Mixture-of-Experts ( http://arxiv.org/abs/2112.06905v1 )

ライセンス: Link先を確認
Nan Du, Yanping Huang, Andrew M. Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu, Maxim Krikun, Yanqi Zhou, Adams Wei Yu, Orhan Firat, Barret Zoph, Liam Fedus, Maarten Bosma, Zongwei Zhou, Tao Wang, Yu Emma Wang, Kellie Webster, Marie Pellat, Kevin Robinson, Kathy Meier-Hellstern, Toju Duke, Lucas Dixon, Kun Zhang, Quoc V Le, Yonghui Wu, Zhifeng Chen, Claire Cui(参考訳) より多くのデータ、計算、パラメータによる言語モデルのスケーリングは、自然言語処理の大きな進歩をもたらした。 例えば、スケーリングのおかげで、GPT-3はコンテキスト内学習タスクで強力な結果を得ることができた。 しかし、これらの大きな密集モデルのトレーニングには大量の計算資源が必要である。 本稿では,GLaM(Generalist Language Model,一般言語モデル)と呼ばれる言語モデル群を提案する。 最大のGLaMは1.2兆のパラメータを持ち、GPT-3より約7倍大きい。 GPT-3のトレーニングに使用するエネルギーの1/3しか消費せず、推論には計算フロップの半分を要し、29のNLPタスクの全体的なゼロショットとワンショットのパフォーマンスは改善されている。

Scaling language models with more data, compute and parameters has driven significant progress in natural language processing. For example, thanks to scaling, GPT-3 was able to achieve strong results on in-context learning tasks. However, training these large dense models requires significant amounts of computing resources. In this paper, we propose and develop a family of language models named GLaM (Generalist Language Model), which uses a sparsely activated mixture-of-experts architecture to scale the model capacity while also incurring substantially less training cost compared to dense variants. The largest GLaM has 1.2 trillion parameters, which is approximately 7x larger than GPT-3. It consumes only 1/3 of the energy used to train GPT-3 and requires half of the computation flops for inference, while still achieving better overall zero-shot and one-shot performance across 29 NLP tasks.
翻訳日:2021-12-14 16:50:24 公開日:2021-12-13
# (参考訳) アクティブラーニングのための深さ不確かさネットワーク [全文訳有]

Depth Uncertainty Networks for Active Learning ( http://arxiv.org/abs/2112.06796v1 )

ライセンス: CC BY 4.0
Chelsea Murray, James U. Allingham, Javier Antor\'an, Jos\'e Miguel Hern\'andez-Lobato(参考訳) アクティブラーニングでは、トレーニングデータセットのサイズと複雑さは時間とともに変化する。 アクティブラーニングの開始時に利用可能なデータ量によってよく定義された単純なモデルは、より多くのポイントが積極的にサンプリングされるにつれてバイアスを被る可能性がある。 データセット全体に適した柔軟なモデルは、アクティブな学習の開始に向けて過剰な適合に苦しむ可能性がある。 ネットワークの深さと複雑さを推定するBNN変種であるDUN(Depth Uncertainty Networks)を用いてこの問題に対処する。 DUNは、いくつかのアクティブな学習タスクにおいて、他のBNN亜種よりも優れていることがわかった。 重要なことは、DUNが最善を尽くすタスクにおいて、ベースラインよりも明らかに過度に適合していないことを示している。

In active learning, the size and complexity of the training dataset changes over time. Simple models that are well specified by the amount of data available at the start of active learning might suffer from bias as more points are actively sampled. Flexible models that might be well suited to the full dataset can suffer from overfitting towards the start of active learning. We tackle this problem using Depth Uncertainty Networks (DUNs), a BNN variant in which the depth of the network, and thus its complexity, is inferred. We find that DUNs outperform other BNN variants on several active learning tasks. Importantly, we show that on the tasks in which DUNs perform best they present notably less overfitting than baselines.
翻訳日:2021-12-14 16:43:51 公開日:2021-12-13
# 生物医学的知識グラフにおける表現学習における位相的不均衡の意義

Implications of Topological Imbalance for Representation Learning on Biomedical Knowledge Graphs ( http://arxiv.org/abs/2112.06567v1 )

ライセンス: Link先を確認
Stephen Bonner, Ufuk Kirik, Ola Engkvist, Jian Tang, Ian P Barrett(参考訳) 疾患の治療基準の改善は、より良い治療を前提としており、新しい薬物の発見と開発に依存している。 しかし、薬物発見は複雑でコストのかかるプロセスである。 機械学習からの手法の採用は、ドメインの固有の相互接続性を利用する薬物発見知識グラフの作成につながった。 グラフベースのデータモデリングと知識グラフ埋め込みはドメインのより直感的な表現を提供し、欠落したリンクの予測のような推論タスクに適している。 そのような例の1つは、特定の疾患に関連する可能性のある遺伝子のランクリストを作成し、しばしば標的発見と呼ばれる。 したがって、これらの予測は関連するだけでなく生物学的にも有意義である。 しかしながら、ナレッジグラフは、統合された基盤となるデータソースによって直接バイアスされるか、あるいはグラフの構築におけるモデリングの選択によって偏り、その結果としてあるエンティティが位相的に過剰に表現される可能性がある。 本研究では,この構造的不均衡によって知識グラフ埋め込みモデルがどのように影響を受けるかを示す。 この観察をさまざまなデータセット、モデル、予測タスクにわたってサポートしています。 さらに、このグラフトポロジが、ランダムで生物学的に無意味な情報によって、遺伝子ランクを人工的に変更できることを示す。 このことは、そのようなモデルは、関係にエンコードされた生物学的情報よりも、エンティティの頻度に影響され、エンティティの頻度が基礎となるデータの真の反映ではない場合に問題を引き起こすことを示唆する。 本研究は,データモデリング選択の重要性を強調し,モデルアウトプットと知識グラフ合成の間において,これらの問題に留意することの必要性を強調する。

Improving on the standard of care for diseases is predicated on better treatments, which in turn relies on finding and developing new drugs. However, drug discovery is a complex and costly process. Adoption of methods from machine learning has given rise to creation of drug discovery knowledge graphs which utilize the inherent interconnected nature of the domain. Graph-based data modelling, combined with knowledge graph embeddings provide a more intuitive representation of the domain and are suitable for inference tasks such as predicting missing links. One such example would be producing ranked lists of likely associated genes for a given disease, often referred to as target discovery. It is thus critical that these predictions are not only pertinent but also biologically meaningful. However, knowledge graphs can be biased either directly due to the underlying data sources that are integrated or due to modeling choices in the construction of the graph, one consequence of which is that certain entities can get topologically overrepresented. We show how knowledge graph embedding models can be affected by this structural imbalance, resulting in densely connected entities being highly ranked no matter the context. We provide support for this observation across different datasets, models and predictive tasks. Further, we show how the graph topology can be perturbed to artificially alter the rank of a gene via random, biologically meaningless information. This suggests that such models can be more influenced by the frequency of entities rather than biological information encoded in the relations, creating issues when entity frequency is not a true reflection of underlying data. Our results highlight the importance of data modeling choices and emphasizes the need for practitioners to be mindful of these issues when interpreting model outputs and during knowledge graph composition.
翻訳日:2021-12-14 16:31:05 公開日:2021-12-13
# ニューラルネットワークの等価性検証のための幾何経路列挙法

Geometric Path Enumeration for Equivalence Verification of Neural Networks ( http://arxiv.org/abs/2112.06582v1 )

ライセンス: Link先を確認
Samuel Teuber, Marko Kleine B\"uning, Philipp Kern and Carsten Sinz(参考訳) ニューラルネットワーク(NN)が安全クリティカルなドメインにますます導入されているため、デプロイメント前にNNを正式に検証する必要がある。 本研究では,2つのNN(例えばオリジナル版と圧縮版)が等価動作を示すことを示すことを目的としたNN等価性の形式的検証問題に焦点を当てる。 この問題に対して,混合整数線形計画法と区間伝播法という2つのアプローチが提案されている。 最初のアプローチはスケーラビリティに欠けるが、後者は構造的に類似したNNにしか適していない。 論文の寄稿には4つの部分がある。 まず、epsilon-equivalence問題がcoNP完全であることを証明して理論的結果を示す。 第二に、Tran et al. の 1 つの NN 幾何経路列挙アルゴリズムを複数の NN を用いた設定に拡張する。 第3段階として,等価性検証のための拡張アルゴリズムを実装し,その実用化に必要な最適化を評価する。 最後に、同値検証と反例探索の両方において、我々のアプローチが過去の最先端技術よりも優れたユースケースを示す比較評価を行う。

As neural networks (NNs) are increasingly introduced into safety-critical domains, there is a growing need to formally verify NNs before deployment. In this work we focus on the formal verification problem of NN equivalence which aims to prove that two NNs (e.g. an original and a compressed version) show equivalent behavior. Two approaches have been proposed for this problem: Mixed integer linear programming and interval propagation. While the first approach lacks scalability, the latter is only suitable for structurally similar NNs with small weight changes. The contribution of our paper has four parts. First, we show a theoretical result by proving that the epsilon-equivalence problem is coNP-complete. Secondly, we extend Tran et al.'s single NN geometric path enumeration algorithm to a setting with multiple NNs. In a third step, we implement the extended algorithm for equivalence verification and evaluate optimizations necessary for its practical use. Finally, we perform a comparative evaluation showing use-cases where our approach outperforms the previous state of the art, both, for equivalence verification as well as for counter-example finding.
翻訳日:2021-12-14 16:30:38 公開日:2021-12-13
# アルゴリズムロバスト統計に基づくロバスト投票規則

Robust Voting Rules from Algorithmic Robust Statistics ( http://arxiv.org/abs/2112.06380v1 )

ライセンス: Link先を確認
Allen Liu, Ankur Moitra(参考訳) 本研究は,Mallowsモデルに頑健に学習する問題について考察する。 我々は,そのサンプルの一定割合が任意に破損した場合でも,その中央ランキングを正確に推定できるアルゴリズムを提案する。 さらに、我々の堅牢性保証は、全体的な精度がランク付けされる選択肢の数に依存しないという意味で次元に依存しない。 我々の研究は、アルゴリズムのロバストな統計から、投票や情報集約における中心的な推論問題への視点の自然な注入と考えることができる。 特に、我々の投票ルールは効率的に計算可能であり、その成果は多数の有権者によって大きく変えられない。

In this work we study the problem of robustly learning a Mallows model. We give an algorithm that can accurately estimate the central ranking even when a constant fraction of its samples are arbitrarily corrupted. Moreover our robustness guarantees are dimension-independen t in the sense that our overall accuracy does not depend on the number of alternatives being ranked. Our work can be thought of as a natural infusion of perspectives from algorithmic robust statistics into one of the central inference problems in voting and information-aggregat ion. Specifically, our voting rule is efficiently computable and its outcome cannot be changed by much by a large group of colluding voters.
翻訳日:2021-12-14 16:29:12 公開日:2021-12-13
# 4次畳み込みニューラルネットワークによる急性リンパ性白血病の診断

Quaternion-Valued Convolutional Neural Network Applied for Acute Lymphoblastic Leukemia Diagnosis ( http://arxiv.org/abs/2112.06685v1 )

ライセンス: Link先を確認
Marco Aur\'elio Granero, Cristhian Xavier Hern\'andez, and Marcos Eduardo Valle(参考訳) 近年、ニューラルネットワークの分野は、深層および畳み込み型ニューラルネットワークの開発によって大きく進歩している。 現在の研究の多くは実数値モデルに対処しているが、近年の研究では、超複素値パラメータを持つニューラルネットワークが多次元データの複雑さを捉え、一般化し、表現できることが示されている。 本稿では,急性リンパ性白血病の診断におけるパターン認識の課題として,第4次畳み込みニューラルネットワークの応用について検討する。 正確には, 末梢血スメア顕微鏡像からリンパ芽球を分類するために, 実値と四値の畳み込みニューラルネットワークの性能を比較する。 4値の畳み込みニューラルネットワークは、対応する実値のネットワークよりも、あるいは類似した性能を達成したが、パラメータの34%しか使用しなかった。 この結果は、四元数代数がより少ないパラメータで色画像から情報を取り込み抽出できることを確認した。

The field of neural networks has seen significant advances in recent years with the development of deep and convolutional neural networks. Although many of the current works address real-valued models, recent studies reveal that neural networks with hypercomplex-valued parameters can better capture, generalize, and represent the complexity of multidimensional data. This paper explores the quaternion-valued convolutional neural network application for a pattern recognition task from medicine, namely, the diagnosis of acute lymphoblastic leukemia. Precisely, we compare the performance of real-valued and quaternion-valued convolutional neural networks to classify lymphoblasts from the peripheral blood smear microscopic images. The quaternion-valued convolutional neural network achieved better or similar performance than its corresponding real-valued network but using only 34% of its parameters. This result confirms that quaternion algebra allows capturing and extracting information from a color image with fewer parameters.
翻訳日:2021-12-14 16:27:38 公開日:2021-12-13
# あいまいなラベルを用いた医用画像セグメンテーションにおけるセグメンテーション確率のハイパーネットセンブル学習

Hypernet-Ensemble Learning of Segmentation Probability for Medical Image Segmentation with Ambiguous Labels ( http://arxiv.org/abs/2112.06693v1 )

ライセンス: Link先を確認
Sungmin Hong, Anna K. Bonkhoff, Andrew Hoopes, Martin Bretzner, Markus D. Schirmer, Anne-Katrin Giese, Adrian V. Dalca, Polina Golland, Natalia S. Rost(参考訳) 多くのセグメンテーションタスクにおいて、Deep Learning (DL) の優れたパフォーマンスにもかかわらず、DLベースのアプローチは高い偏極ラベル確率で予測を過小評価している。 これは、人間のアノテーションであっても固有のラベルの曖昧さを持つ多くのアプリケーションでは望ましくない。 この課題は、画像毎の複数のアノテーションとセグメンテーションの不確実性を活用することで解決されている。 しかし、画像毎のアノテーションは現実世界のアプリケーションでは利用できないことが多く、セグメンテーション結果を完全に制御することができない。 本稿では,画像毎に1つの曖昧なアノテーションしか持たない実世界のシナリオにおいて,性能を犠牲にすることなくセグメント化確率推定を改善する手法を提案する。 我々は、バランスの取れたセグメンテーションをペナルライズすることなく、異なるトヴェルスキー損失とアンダー/オーバーセグメントを奨励するネットワークの推定セグメンテーション確率マップをマージする。 さらに,複数のネットワークを訓練する計算負荷を軽減する統一ハイパーネットワークアンサンブル手法を提案する。 基礎構造を反映したセグメンテーション確率マップを推定し,挑戦的な3次元医用画像セグメンテーションのためのセグメンテーションの直感的制御を行った。 提案手法の主な焦点は二分法セグメンテーション性能を改善することではなく、我々のアプローチは最先端技術を上回った。 コードは \url{https://github.com/s h4174/hypernetensemb le} で入手できる。

Despite the superior performance of Deep Learning (DL) on numerous segmentation tasks, the DL-based approaches are notoriously overconfident about their prediction with highly polarized label probability. This is often not desirable for many applications with the inherent label ambiguity even in human annotations. This challenge has been addressed by leveraging multiple annotations per image and the segmentation uncertainty. However, multiple per-image annotations are often not available in a real-world application and the uncertainty does not provide full control on segmentation results to users. In this paper, we propose novel methods to improve the segmentation probability estimation without sacrificing performance in a real-world scenario that we have only one ambiguous annotation per image. We marginalize the estimated segmentation probability maps of networks that are encouraged to under-/over-segment with the varying Tversky loss without penalizing balanced segmentation. Moreover, we propose a unified hypernetwork ensemble method to alleviate the computational burden of training multiple networks. Our approaches successfully estimated the segmentation probability maps that reflected the underlying structures and provided the intuitive control on segmentation for the challenging 3D medical image segmentation. Although the main focus of our proposed methods is not to improve the binary segmentation performance, our approaches marginally outperformed the state-of-the-arts. The codes are available at \url{https://github.com/s h4174/HypernetEnsemb le}.
翻訳日:2021-12-14 16:27:21 公開日:2021-12-13
# N-SfC:因果画像からのロバストかつ高速な形状推定

N-SfC: Robust and Fast Shape Estimation from Caustic Images ( http://arxiv.org/abs/2112.06705v1 )

ライセンス: Link先を確認
Marc Kassubeck, Moritz Kappel, Susana Castillo and Marcus Magnor(参考訳) 本稿では, 屈折物体の形状を, 結果として生じる因果関係の単一画像から再構成するという, 極めて困難な問題に対処する。 日常生活における透明な屈折物が普及しているため、その形状の再構築には多くの実用的応用が伴う。 近年のcaustics (sfc) 法による形状は, 可微分レンダラで解くことができるcaustic image合成のための光伝搬シミュレーションの逆としてこの問題を提起している。 しかし、現在、屈折面を経由する光輸送の固有の複雑さは、復元速度とロバスト性に関して実用性を制限している。 そこで,本研究では,光伝達シミュレーションの計算コストを緩和する減音モジュール,学習勾配降下に基づく最適化プロセスという,2つのコンポーネントを組み込んだ学習ベースの拡張であるcaustics(n-sfc)のニューラル形状を紹介する。 3次元ガラス印刷における品質制御のシナリオにおける神経拡張の有効性を示す大規模な実験を行い、計算速度と最終的な表面誤差の点で最先端の状態を著しく上回った。

This paper deals with the highly challenging problem of reconstructing the shape of a refracting object from a single image of its resulting caustic. Due to the ubiquity of transparent refracting objects in everyday life, reconstruction of their shape entails a multitude of practical applications. The recent Shape from Caustics (SfC) method casts the problem as the inverse of a light propagation simulation for synthesis of the caustic image, that can be solved by a differentiable renderer. However, the inherent complexity of light transport through refracting surfaces currently limits the practicability with respect to reconstruction speed and robustness. To address these issues, we introduce Neural-Shape from Caustics (N-SfC), a learning-based extension that incorporates two components into the reconstruction pipeline: a denoising module, which alleviates the computational cost of the light transport simulation, and an optimization process based on learned gradient descent, which enables better convergence using fewer iterations. Extensive experiments demonstrate the effectiveness of our neural extensions in the scenario of quality control in 3D glass printing, where we significantly outperform the current state-of-the-art in terms of computational speed and final surface error.
翻訳日:2021-12-14 16:26:56 公開日:2021-12-13
# マルチアセットスポットとオプション市場シミュレーション

Multi-Asset Spot and Option Market Simulation ( http://arxiv.org/abs/2112.06823v1 )

ライセンス: Link先を確認
Magnus Wiese, Ben Wood, Alexandre Pachoud, Ralf Korn, Hans Buehler, Phillip Murray, Lianjun Bai(参考訳) 正規化フローに基づく1つの基盤となる1つのマーケットシミュレータを現実的に構築する。 再構成面における静的な調停を維持しつつ、効率的な価格の低次元表現を近似する調停フリーオートエンコーダを通じて、市場が観察する呼出価格の高次元性に対処する。 マルチアセスト宇宙が与えられると、正規化フローの条件付き可逆性を利用し、各シミュレータのダイナミクスを保ちながら、独立したシミュレータの集合の関節分布をキャリブレーションするスケーラブルな手法を導入する。 実験の結果,校正シミュレータの良さと信頼性が強調された。

We construct realistic spot and equity option market simulators for a single underlying on the basis of normalizing flows. We address the high-dimensionality of market observed call prices through an arbitrage-free autoencoder that approximates efficient low-dimensional representations of the prices while maintaining no static arbitrage in the reconstructed surface. Given a multi-asset universe, we leverage the conditional invertibility property of normalizing flows and introduce a scalable method to calibrate the joint distribution of a set of independent simulators while preserving the dynamics of each simulator. Empirical results highlight the goodness of the calibrated simulators and their fidelity.
翻訳日:2021-12-14 16:24:32 公開日:2021-12-13
# 意味のグラフ表現における多重性と定量化

Plurality and Quantification in Graph Representation of Meaning ( http://arxiv.org/abs/2112.06448v1 )

ライセンス: Link先を確認
Yu Cao(参考訳) 本論では、有向グラフに基づく意味表現形式論を示し、複数の意味論と定量化における言語的妥当性と説明的利益を探求する。 グラフ言語はモナディック二階変数のみを使用して自然言語意味論の本質を網羅する。 我々は、変数の相対的範囲がそれらの評価順序から生じるグラフトラバーサルの観点で、そのモデル理論解釈を定義する。 本稿では,意味論と統語的分布の部分的に決定論的関係を確立することで,対話参照に対する分割関数としての構文を分類文法で実装する,単純な構文意味論インタフェースで意味グラフを構築するための統一的なメカニズムを提案する。 このメカニズムは将来の探査を容易にするために自動化される。 現在のグラフ形式は、分配的述語、クロスカテゴリー接続、不定詞の例外的なスコーピング行動を含む量化表現のスコープ置換における言語問題に適用される。

In this thesis we present a semantic representation formalism based on directed graphs and explore its linguistic adequacy and explanatory benefits in the semantics of plurality and quantification. Our graph language covers the essentials of natural language semantics using only monadic second-order variables. We define its model-theoretical interpretation in terms of graph traversal, where the relative scope of variables arises from their order of valuation. We present a unification-based mechanism for constructing semantic graphs at a simple syntax-semantics interface, where syntax as a partition function on discourse referents is implemented with categorial grammars by establishing a partly deterministic relation between semantics and syntactic distribution. This mechanism is automated to facilitate future exploration. The present graph formalism is applied to linguistic issues in distributive predication, cross-categorial conjunction, and scope permutation of quantificational expressions, including the exceptional scoping behaviors of indefinites.
翻訳日:2021-12-14 16:20:41 公開日:2021-12-13
# ITA:マルチモーダル名前付きエンティティ認識のための画像テキストアライメント

ITA: Image-Text Alignments for Multi-Modal Named Entity Recognition ( http://arxiv.org/abs/2112.06482v1 )

ライセンス: Link先を確認
Xinyu Wang, Min Gui, Yong Jiang, Zixia Jia, Nguyen Bach, Tao Wang, Zhongqiang Huang, Fei Huang, Kewei Tu(参考訳) 近年,MNER (Multi-modal Named Entity Recognition) が注目されている。 研究の大部分は、事前訓練された物体検出器から得られた領域レベルの視覚的表現を通じて画像情報を利用し、画像とテキスト間の相互作用をモデル化するための注意機構に依存している。 しかし、画像やテキストの表現のような相互作用を、それぞれのモダリティのデータに基づいて別々に訓練し、同じ空間に整列させることは困難である。 テキスト表現はmnerにおいて最も重要な役割を果たすため,本論文では,画像特徴をテキスト空間に整列させるため,トランスフォーマライズによるテキスト埋め込みにおける注意機構をより活用するために,画像特徴をテキスト空間に整列する {\bf i}mage-{\bf t}ext {\bf a}lignments (ita) を提案する。 ITAは、まずローカルかつグローバルに、地域オブジェクトタグと画像レベルのキャプションを視覚的コンテキストとして調整し、入力テキストを新しいクロスモーダル入力として結合し、事前訓練されたテキスト埋め込みモデルに入力する。 これにより、事前学習されたテキスト埋め込みモデルのアテンションモジュールは、どちらもテキスト空間で表現されるため、2つのモダリティ間の相互作用をモデル化することが容易になる。 ITAはさらに、クロスモーダル入力およびテキスト入力ビューから予測される出力分布を、MNERモデルが画像からのノイズに対してより実用的で堅牢になるように整列する。 本実験では, itaモデルが画像情報なしでも, マルチモーダル名前付きエンティティ認識データセットにおいて最先端の精度を実現できることを示す。

Recently, Multi-modal Named Entity Recognition (MNER) has attracted a lot of attention. Most of the work utilizes image information through region-level visual representations obtained from a pretrained object detector and relies on an attention mechanism to model the interactions between image and text representations. However, it is difficult to model such interactions as image and text representations are trained separately on the data of their respective modality and are not aligned in the same space. As text representations take the most important role in MNER, in this paper, we propose {\bf I}mage-{\bf t}ext {\bf A}lignments (ITA) to align image features into the textual space, so that the attention mechanism in transformer-based pretrained textual embeddings can be better utilized. ITA first locally and globally aligns regional object tags and image-level captions as visual contexts, concatenates them with the input texts as a new cross-modal input, and then feeds it into a pretrained textual embedding model. This makes it easier for the attention module of a pretrained textual embedding model to model the interaction between the two modalities since they are both represented in the textual space. ITA further aligns the output distributions predicted from the cross-modal input and textual input views so that the MNER model can be more practical and robust to noises from images. In our experiments, we show that ITA models can achieve state-of-the-art accuracy on multi-modal Named Entity Recognition datasets, even without image information.
翻訳日:2021-12-14 16:20:25 公開日:2021-12-13
# ネイティブの中国語読み手:Native-Level Chinese Machine Reading Comprehensionに向けたデータセット

Native Chinese Reader: A Dataset TowardsNative-Level Chinese Machine ReadingComprehension ( http://arxiv.org/abs/2112.06494v1 )

ライセンス: Link先を確認
Shusheng Xu, Yichen Liu, Xiaoyu Yi, Siyuan Zhou, Huizi Li and Yi Wu(参考訳) 我々は、現代中国語と古典中国語の両方で特に長い記事を持つ新しい機械読解データセットであるNative Chinese Reader (NCR)を提示する。 NCRは、中国の高校生の言語習熟度を評価するために設計された、中国の高校の中国語コースの試験質問から収集される。 既存の中国のmrcデータセットはドメイン固有か、あるいは現代中国語のみの数百文字の短い文脈に焦点を当てている。 対照的に、NCRには8390通の文書があり、平均長は1024字で、漢文・古典・古典など多岐にわたる書体を網羅している。 これらの文書に関する合計20477の質問もまた、正しい答えを見つけるために強い推論能力と常識を必要とする。 人気の中国語事前学習モデルを用いて複数のベースラインモデルを実装し,現在の手法の限界を検討するためにデータセットを用いてオンラインコンペティションを開始した。 最適なモデルは59%の精度を達成し、人間の評価では平均79%の精度を示し、これは現在のMSCモデルと中国のネイティブスピーカーとの顕著なパフォーマンス差を示している。 私たちはデータセットをhttps://sites.google .com/view/native- chinese-reader/でリリースします。

We present Native Chinese Reader (NCR), a new machine reading comprehension (MRC) dataset with particularly long articles in both modern and classical Chinese. NCR is collected from the exam questions for the Chinese course in China's high schools, which are designed to evaluate the language proficiency of native Chinese youth. Existing Chinese MRC datasets are either domain-specific or focusing on short contexts of a few hundreds of characters in modern Chinese only. By contrast, NCR contains 8390 documents with an average length of 1024 characters covering a wide range of Chinese writing styles, including modern articles, classical literature and classical poetry. A total of 20477 questions on these documents also require strong reasoning abilities and common sense to figure out the correct answers. We implemented multiple baseline models using popular Chinese pre-trained models and additionally launched an online competition using our dataset to examine the limit of current methods. The best model achieves 59% test accuracy while human evaluation shows an average accuracy of 79%, which indicates a significant performance gap between current MRC models and native Chinese speakers. We release the dataset at https://sites.google .com/view/native-chi nese-reader/.
翻訳日:2021-12-14 16:19:55 公開日:2021-12-13
# (参考訳) bscnets:ブロックsimplicial complex neural networks [全文訳有]

BScNets: Block Simplicial Complex Neural Networks ( http://arxiv.org/abs/2112.06826v1 )

ライセンス: CC BY 4.0
Yuzhou Chen, Yulia R. Gel, H. Vincent Poor(参考訳) SNN(Simplicial Neural Network)は、最近、ノード空間からグラフ上のsimplicial Complexへの畳み込みアーキテクチャの考え方を拡大するグラフ学習の最も新しい方向として登場した。 現在のようなノード間のペアワイズ関係を優位に評価する代わりに、単純複体は高次相互作用やマルチノードグラフ構造を記述できる。 畳み込み操作と新しいブロックHodge-Laplacianの接続により,リンク予測のための最初のSNNを提案する。 bscnets(block simplicial complex neural networks)モデルは,既存のグラフ畳み込みネットワーク(gcn)フレームワークを一般化し,異なる次元の複数の高次グラフ構造間の高度相互作用を体系的に組み込む。 bscnetsの背後にある理論的基礎を議論し、8つの実世界および合成データセットにおけるリンク予測の有用性を説明する。 実験の結果,BScNetsは計算コストを低く抑えつつ,最先端のモデルよりも優れた性能を示した。 最後に,BScNetsの有用性を,新型コロナウイルスなどの感染症の感染拡大を追跡し,医療リスク軽減戦略の有効性を評価するための新たな代替手段として提示する。

Simplicial neural networks (SNN) have recently emerged as the newest direction in graph learning which expands the idea of convolutional architectures from node space to simplicial complexes on graphs. Instead of pre-dominantly assessing pairwise relations among nodes as in the current practice, simplicial complexes allow us to describe higher-order interactions and multi-node graph structures. By building upon connection between the convolution operation and the new block Hodge-Laplacian, we propose the first SNN for link prediction. Our new Block Simplicial Complex Neural Networks (BScNets) model generalizes the existing graph convolutional network (GCN) frameworks by systematically incorporating salient interactions among multiple higher-order graph structures of different dimensions. We discuss theoretical foundations behind BScNets and illustrate its utility for link prediction on eight real-world and synthetic datasets. Our experiments indicate that BScNets outperforms the state-of-the-art models by a significant margin while maintaining low computation costs. Finally, we show utility of BScNets as the new promising alternative for tracking spread of infectious diseases such as COVID-19 and measuring the effectiveness of the healthcare risk mitigation strategies.
翻訳日:2021-12-14 16:18:27 公開日:2021-12-13
# リモートセンシングのための半教師付きコントラスト学習--アンデス南部における古代都市化の同定

Semi-Supervised Contrastive Learning for Remote Sensing: Identifying Ancient Urbanization in the South Central Andes ( http://arxiv.org/abs/2112.06437v1 )

ライセンス: Link先を確認
Jiachen Xu, James Zimmer-Dauphinee, Quan Liu, Yuxuan Shi, Steven Wernke, Yuankai Huo(参考訳) 古代の集落の発見は、景観考古学の重要な焦点である。 伝統的に、居住地は歩行者調査によって特定され、研究者は地形を物理的に横断し、居住地を記録した。 近年、衛星画像中の遺跡の手動識別とラベル付けが考古学的データ収集の規模を増大させているが、その過程は極めて時間がかかり、困難である。 自己教師あり学習(例:コントラスト学習)の開発は、ラベルなしの衛星画像と歴史的な航空画像を用いて考古学的遺跡を見つけるためのスケーラブルな学習手法を提供する。 しかし、考古学的遺跡は地形全体のごく一部にしか存在せず、現代のコントラスト的な学習手法は、衛星画像を用いて比較的局所的な古代の都市化を特定するなど、高度にバランスの取れたデータセットでは劣っている。 本稿では,このロングテール問題を解決するためのフレームワークを提案する。 ラベル付きデータとラベル付きデータとを別々に扱う既存のコントラスト型学習アプローチとは対照的に,提案手法では,半教師付きで学習パラダイムを改革し,貴重な注釈付きデータを完全に活用する(<7%)。 具体的には、注釈付画像パッチと注釈付アンカー画像との類似性をランク付けして擬似負対を形成するための事前知識として、データの高度に不均衡な性質を用いる。 本研究では,95,358枚のラベル付き画像と5,830枚のラベル付き画像を用いて,衛星画像から古い建物を検知する問題を解決した。 その結果, 半教師付きコントラスト学習モデルでは, 精度79.0%の有望なテストが達成され, 最先端のアプローチよりも3.8%向上した。

The detection of ancient settlements is a key focus in landscape archaeology. Traditionally, settlements were identified through pedestrian survey, as researchers physically traversed the landscape and recorded settlement locations. Recently the manual identification and labeling of ancient remains in satellite imagery have increased the scale of archaeological data collection, but the process remains tremendously time-consuming and arduous. The development of self-supervised learning (e.g., contrastive learning) offers a scalable learning scheme in locating archaeological sites using unlabeled satellite and historical aerial images. However, archaeology sites are only present in a very small proportion of the whole landscape, while the modern contrastive-supervis ed learning approach typically yield inferior performance on the highly balanced dataset, such as identifying sparsely localized ancient urbanization on a large area using satellite images. In this work, we propose a framework to solve this long-tail problem. As opposed to the existing contrastive learning approaches that typically treat the labeled and unlabeled data separately, the proposed method reforms the learning paradigm under a semi-supervised setting to fully utilize the precious annotated data (<7% in our setting). Specifically, the highly unbalanced nature of the data is employed as the prior knowledge to form pseudo negative pairs by ranking the similarities between unannotated image patches and annotated anchor images. In this study, we used 95,358 unlabeled images and 5,830 labeled images to solve the problem of detecting ancient buildings from a long-tailed satellite image dataset. From the results, our semi-supervised contrastive learning model achieved a promising testing balanced accuracy of 79.0%, which is 3.8% improvement over state-of-the-art approaches.
翻訳日:2021-12-14 15:53:12 公開日:2021-12-13
# 空間交流変圧器ネットワークによる歩行者軌跡予測

Pedestrian Trajectory Prediction via Spatial Interaction Transformer Network ( http://arxiv.org/abs/2112.06624v1 )

ライセンス: Link先を確認
Tong Su, Yu Meng and Yan Xu(参考訳) 自動運転システムの中核技術である歩行者追跡予測は、アクティブ車両の安全性を著しく向上させ、道路交通の損傷を減らすことができる。 交通シーンでは、対向する人々と遭遇すると、歩行者は突然の旋回や直ちに停止し、複雑な軌道に繋がることがある。 このような予測不能な軌道を予測するために、歩行者間の相互作用についての洞察を得ることができる。 本稿では,注意機構を通じて歩行者の軌跡の時空間相関を学習する空間的相互作用トランスフォーマ(sit)という新しい生成法を提案する。 さらに,歩行者の潜在動作状態をモデル化するために,条件付き変分オートエンコーダ(CVAE)フレームワークを導入する。 特に,大規模な trafc データセット nuScenes [2] に基づく実験では,SIT が最先端 (SOTA) 法よりも優れた性能を示した。 提案モデルのロバスト性を考慮した難解なethおよびucyデータセットの実験的評価

As a core technology of the autonomous driving system, pedestrian trajectory prediction can significantly enhance the function of active vehicle safety and reduce road traffic injuries. In traffic scenes, when encountering with oncoming people, pedestrians may make sudden turns or stop immediately, which often leads to complicated trajectories. To predict such unpredictable trajectories, we can gain insights into the interaction between pedestrians. In this paper, we present a novel generative method named Spatial Interaction Transformer (SIT), which learns the spatio-temporal correlation of pedestrian trajectories through attention mechanisms. Furthermore, we introduce the conditional variational autoencoder (CVAE) framework to model the future latent motion states of pedestrians. In particular, the experiments based on large-scale trafc dataset nuScenes [2] show that SIT has an outstanding performance than state-of-the-art (SOTA) methods. Experimental evaluation on the challenging ETH and UCY datasets conrms the robustness of our proposed model
翻訳日:2021-12-14 15:52:40 公開日:2021-12-13
# テキストに基づく人物探索のための意味対応特徴表現の学習

Learning Semantic-Aligned Feature Representation for Text-based Person Search ( http://arxiv.org/abs/2112.06714v1 )

ライセンス: Link先を確認
Shiping Li, Min Cao, Min Zhang(参考訳) テキストに基づく人物検索は,ある歩行者の画像をテキスト記述で検索することを目的としている。 このタスクの重要な課題は、モダリティ間のギャップを排除し、モダリティ間の機能アライメントを達成することである。 本稿では,テキストに基づく人物検索のセマンティック・アライメント・埋め込み手法を提案する。この手法は,意味的アライメントの視覚的特徴とテキスト的特徴を自動的に学習することにより,モダリティ間の特徴アライメントを実現する。 まず、画像とテキストのロバストな特徴表現を符号化するトランスフォーマーベースのバックボーンを2つ導入する。 第2に,マルチヘッドアテンションモジュールのクロスモダリティ部分アライメント損失と多様性損失によって制約されたマルチヘッドアライメントモジュールによって実現される,同じセマンティクスを持つ機能をパートアウェア機能に適応的に選択・集約するために,セマンティクスアライメント機能アグリゲーションネットワークを設計する。 CUHK-PEDESおよびFlickr30Kデータセットによる実験結果から,本手法が最先端の性能を実現することを示す。

Text-based person search aims to retrieve images of a certain pedestrian by a textual description. The key challenge of this task is to eliminate the inter-modality gap and achieve the feature alignment across modalities. In this paper, we propose a semantic-aligned embedding method for text-based person search, in which the feature alignment across modalities is achieved by automatically learning the semantic-aligned visual features and textual features. First, we introduce two Transformer-based backbones to encode robust feature representations of the images and texts. Second, we design a semantic-aligned feature aggregation network to adaptively select and aggregate features with the same semantics into part-aware features, which is achieved by a multi-head attention module constrained by a cross-modality part alignment loss and a diversity loss. Experimental results on the CUHK-PEDES and Flickr30K datasets show that our method achieves state-of-the-art performances.
翻訳日:2021-12-14 15:49:25 公開日:2021-12-13
# (参考訳) 確率密度推定に基づく模倣学習 [全文訳有]

Probability Density Estimation Based Imitation Learning ( http://arxiv.org/abs/2112.06746v1 )

ライセンス: CC BY 4.0
Yang Liu, Yongzhe Chang, Shilei Jiang, Xueqian Wang, Bin Liang, Bo Yuan(参考訳) 模倣学習(il)はエージェントと環境間の相互作用を利用した効果的な学習パラダイムである。 明確な報酬信号は必要とせず、専門家のデモンストレーションを使って望ましいポリシーを回復しようとする。 一般に、il法は行動クローニング(bc)と逆強化学習(irl)に分類される。 本研究では, 確率密度推定に基づく新しい報酬関数をIRLに対して提案し, 既存のIRL法の複雑さを著しく低減することができる。 さらに, 報酬関数から導かれる理論的に最適な政策は, 決定論的である限り, 専門家の政策と同一であることを示す。 これにより、IRL問題を適切に確率密度推定問題に変換することができる。 提案した報奨関数に基づいて,確率密度推定に基づくImitation Learning (PDEIL) という,離散的かつ連続的な行動空間で動作する「ウォッチ・トライ・ラーン」スタイルのフレームワークを提案する。 最後に、Gym環境における総合的な実験により、PDEILは既存のアルゴリズムよりもはるかに効率的であることが示される。

Imitation Learning (IL) is an effective learning paradigm exploiting the interactions between agents and environments. It does not require explicit reward signals and instead tries to recover desired policies using expert demonstrations. In general, IL methods can be categorized into Behavioral Cloning (BC) and Inverse Reinforcement Learning (IRL). In this work, a novel reward function based on probability density estimation is proposed for IRL, which can significantly reduce the complexity of existing IRL methods. Furthermore, we prove that the theoretically optimal policy derived from our reward function is identical to the expert policy as long as it is deterministic. Consequently, an IRL problem can be gracefully transformed into a probability density estimation problem. Based on the proposed reward function, we present a "watch-try-learn" ; style framework named Probability Density Estimation based Imitation Learning (PDEIL), which can work in both discrete and continuous action spaces. Finally, comprehensive experiments in the Gym environment show that PDEIL is much more efficient than existing algorithms in recovering rewards close to the ground truth.
翻訳日:2021-12-14 15:45:25 公開日:2021-12-13
# wood:wassersteinベースの分散検出

WOOD: Wasserstein-based Out-of-Distribution Detection ( http://arxiv.org/abs/2112.06384v1 )

ライセンス: Link先を確認
Yinan Wang, Wenbo Sun, Jionghua "Judy" Jin, Zhenyu "James" Kong, Xiaowei Yue(参考訳) ディープニューラルネットワークに基づく分類器のトレーニングとテストデータは、通常同じ分布からサンプリングされる。 テストサンプルの一部が、トレーニングサンプル(ood(out-of-distribu tion)サンプル)から十分に離れた分布から引き出される場合、トレーニングされたニューラルネットワークは、これらのoodサンプルに対して高い信頼性の予測を行う傾向がある。 OODサンプルの検出は、画像分類やオブジェクト検出などに使われるニューラルネットワークをトレーニングする場合、極めて重要である。 これは、無関係な入力に対する分類器の堅牢性を高め、異なる形の攻撃の下でシステムのレジリエンスとセキュリティを向上させる。 OODサンプルの検出には3つの課題がある。 (i)提案したOOD検出方法は,計算資源の複雑さや要求を大幅に増大させることなく,分類器の様々なアーキテクチャ(例えば DenseNet や ResNet)と互換性を持つべきである。 (ii) OODサンプルは、一般的にクラスラベルが使用できない複数のディストリビューションから取得することができる。 3)OODサンプルをin-distriion (InD)サンプルから効果的に分離するためにスコア関数を定義する必要がある。 これらの課題を克服するため,我々はWasserstein-based Out-of-distriion Detection (WOOD)法を提案する。 基本的な考え方は、テストサンプルとInDサンプルの分布の相似性を評価するワッサーシュタイン距離に基づくスコアを定義することである。 そして、提案するスコア関数に基づいて最適化問題を定式化し、解く。 実験最適化器が達成した損失値が大域的最適値に近似することを保証するため,提案手法の統計的学習限界を検討した。 比較実験の結果,提案するWOODは既存のOOD検出方法よりも一貫して優れていることがわかった。

The training and test data for deep-neural-network- based classifiers are usually assumed to be sampled from the same distribution. When part of the test samples are drawn from a distribution that is sufficiently far away from that of the training samples (a.k.a. out-of-distribution (OOD) samples), the trained neural network has a tendency to make high confidence predictions for these OOD samples. Detection of the OOD samples is critical when training a neural network used for image classification, object detection, etc. It can enhance the classifier's robustness to irrelevant inputs, and improve the system resilience and security under different forms of attacks. Detection of OOD samples has three main challenges: (i) the proposed OOD detection method should be compatible with various architectures of classifiers (e.g., DenseNet, ResNet), without significantly increasing the model complexity and requirements on computational resources; (ii) the OOD samples may come from multiple distributions, whose class labels are commonly unavailable; (iii) a score function needs to be defined to effectively separate OOD samples from in-distribution (InD) samples. To overcome these challenges, we propose a Wasserstein-based out-of-distribution detection (WOOD) method. The basic idea is to define a Wasserstein-distance -based score that evaluates the dissimilarity between a test sample and the distribution of InD samples. An optimization problem is then formulated and solved based on the proposed score function. The statistical learning bound of the proposed method is investigated to guarantee that the loss value achieved by the empirical optimizer approximates the global optimum. The comparison study results demonstrate that the proposed WOOD consistently outperforms other existing OOD detection methods.
翻訳日:2021-12-14 15:26:09 公開日:2021-12-13
# ロバスト因数主成分分析による行列値外れ値の調節と検出

Robust factored principal component analysis for matrix-valued outlier accommodation and detection ( http://arxiv.org/abs/2112.06760v1 )

ライセンス: Link先を確認
Xuan Ma, Jianhua Zhao, Yue Wang(参考訳) 主成分分析(PCA)はベクトルデータに対する一般的な次元削減手法である。 Factored PCA (FPCA) は、行列データに対するPCAの確率的拡張であり、PCAのパラメータ数を著しく削減し、良好な性能が得られる。 しかし、FPCAはガウスの仮定に基づいており、したがって外れ値に影響を受けやすい。 ベクトルデータのロバストなモデリングツールとしての多変量$t$分布は非常に長い歴史を持つが、行列データへの応用は非常に限られている。 主な理由は、ベクトル化された行列データの次元がしばしば非常に高く、次元が高いほど、ロバスト性を測定する分解点が低くなるからである。 本稿では,FPCAが抱えるロバスト性問題を行列データに適用するために,行列変数分布と呼ばれる$t$型分布上に構築したFPCA(RFPCA)のロバスト拡張を提案する。 多変量 $t$ 分布と同様に、行列変数 $t$ 分布は適応的にダウンウェイトの外れ値となり、堅牢な推定が得られる。 パラメータ推定のための高速em型アルゴリズムを開発した。 合成および実世界のデータセットに関する実験により、rfpcaはいくつかの関連する方法と比較され、rfpcaはマトリックス値の異常検出のためのシンプルで強力なツールであることが判明した。

Principal component analysis (PCA) is a popular dimension reduction technique for vector data. Factored PCA (FPCA) is a probabilistic extension of PCA for matrix data, which can substantially reduce the number of parameters in PCA while yield satisfactory performance. However, FPCA is based on the Gaussian assumption and thereby susceptible to outliers. Although the multivariate $t$ distribution as a robust modeling tool for vector data has a very long history, its application to matrix data is very limited. The main reason is that the dimension of the vectorized matrix data is often very high and the higher the dimension, the lower the breakdown point that measures the robustness. To solve the robustness problem suffered by FPCA and make it applicable to matrix data, in this paper we propose a robust extension of FPCA (RFPCA), which is built upon a $t$-type distribution called matrix-variate $t$ distribution. Like the multivariate $t$ distribution, the matrix-variate $t$ distribution can adaptively down-weight outliers and yield robust estimates. We develop a fast EM-type algorithm for parameter estimation. Experiments on synthetic and real-world datasets reveal that RFPCA is compared favorably with several related methods and RFPCA is a simple but powerful tool for matrix-valued outlier detection.
翻訳日:2021-12-14 15:25:40 公開日:2021-12-13
# 低次元データの存在下での変分オートエンコーダ--ランドスケープと暗黙バイアス

Variational autoencoders in the presence of low-dimensional data: landscape and implicit bias ( http://arxiv.org/abs/2112.06868v1 )

ライセンス: Link先を確認
Frederic Koehler and Viraj Mehta and Andrej Risteski and Chenghui Zhou(参考訳) 変分オートエンコーダ(VAE)は、特に画像データにおいて最もよく使われる生成モデルの一つである。 vaesの訓練における顕著な困難は、低次元多様体上でサポートされるデータである。 dai と wipf (2019) による最近の研究は、低次元のデータでは、生成器は基底真理多様体上で正しく支持される0分散の解に収束することを示唆している。 本稿では,理論的および実証的な結果の組み合わせにより,物語がより微妙であることを示す。 正確には、線形エンコーダ/デコーダの場合、ストーリーは概ね真実であり、VAEトレーニングは、基底真理多様体に等しいサポートを持つジェネレータを復元するが、これは、単にVAE損失そのものではなく、勾配降下の暗黙のバイアスによるものである。 非線形の場合、VAEトレーニングは基底真理多様体の超集合である高次元多様体を頻繁に学習することを示す。

Variational Autoencoders (VAEs) are one of the most commonly used generative models, particularly for image data. A prominent difficulty in training VAEs is data that is supported on a lower dimensional manifold. Recent work by Dai and Wipf (2019) suggests that on low-dimensional data, the generator will converge to a solution with 0 variance which is correctly supported on the ground truth manifold. In this paper, via a combination of theoretical and empirical results, we show that the story is more subtle. Precisely, we show that for linear encoders/decoders, the story is mostly true and VAE training does recover a generator with support equal to the ground truth manifold, but this is due to the implicit bias of gradient descent rather than merely the VAE loss itself. In the nonlinear case, we show that the VAE training frequently learns a higher-dimensional manifold which is a superset of the ground truth manifold.
翻訳日:2021-12-14 15:25:16 公開日:2021-12-13
# (参考訳) Centroid-UNet:空中画像中のCentroidの検出 [全文訳有]

Centroid-UNet: Detecting Centroids in Aerial Images ( http://arxiv.org/abs/2112.06530v1 )

ライセンス: CC BY 4.0
N. Lakmal Deshapriya, Dan Tran, Sriram Reddy, Kavinda Gunasekara(参考訳) 航空/衛星画像解析(リモートセンシング)の多くの応用において、物体の正確な形状の生成は面倒な作業である。 オブジェクトのカウントなどのリモートセンシングアプリケーションでは、オブジェクトの位置推定のみを必要とする。 したがって、空中/衛星画像中の物体中心体の位置は、物体の正確な形状が不要なタスクに対する簡単な解である。 そこで本研究では,深層ニューラルネットワークを用いた衛星画像中の物体中心の探索の可能性について検討する。 私たちのモデルの名前はCentroid-UNetです。 centroid-unetモデルは古典的なu-netセマンティクスセグメンテーションアーキテクチャに基づいている。 我々は,U-Netセマンティックセマンティックセグメンテーションアーキテクチャを,元のモデルの単純さを保ったセントロイド検出モデルに修正し,適応させた。 さらに,航空衛星画像を含む2つのケーススタディを用いて実験を行い,評価を行った。 これらの2つのケーススタディは、建築用セントロイド検出ケーススタディとココナッツ木のセントロイド検出ケーススタディである。 評価結果は,他の手法に比べて精度が良好であり,簡便である。 この研究で開発されたコードとモデルは、centroid-unet githubリポジトリでも利用可能である。

In many applications of aerial/satellite image analysis (remote sensing), the generation of exact shapes of objects is a cumbersome task. In most remote sensing applications such as counting objects requires only location estimation of objects. Hence, locating object centroids in aerial/satellite images is an easy solution for tasks where the object's exact shape is not necessary. Thus, this study focuses on assessing the feasibility of using deep neural networks for locating object centroids in satellite images. Name of our model is Centroid-UNet. The Centroid-UNet model is based on classic U-Net semantic segmentation architecture. We modified and adapted the U-Net semantic segmentation architecture into a centroid detection model preserving the simplicity of the original model. Furthermore, we have tested and evaluated our model with two case studies involving aerial/satellite images. Those two case studies are building centroid detection case study and coconut tree centroid detection case study. Our evaluation results have reached comparably good accuracy compared to other methods, and also offer simplicity. The code and models developed under this study are also available in the Centroid-UNet GitHub repository: https://github.com/g icait/centroid-unet
翻訳日:2021-12-14 15:23:26 公開日:2021-12-13
# GMスコア:クラス間およびクラス内ジェネレータの多様性、アンタングル表現の識別性、GANの評価のためのサンプル忠実度

GM Score: Incorporating inter-class and intra-class generator diversity, discriminability of disentangled representation, and sample fidelity for evaluating GANs ( http://arxiv.org/abs/2112.06431v1 )

ライセンス: Link先を確認
Harshvardhan GM (1), Aanchal Sahu (1), Mahendra Kumar Gourisaria (1) ((1) School of Computer Engineering, KIIT Deemed to be University, Bhubaneswar, India)(参考訳) 生成敵ネットワーク(gan)は、変分オートエンコーダ(vae)やボルツマン(boltzmann)といった他の生成モデルと異なり、高いサンプル品質で人気があるが、生成したサンプルの評価が困難である。 生成したサンプルの品質、クラス(クラスとクラス間)の多様性、非絡み合った潜在空間の使用、上記の評価基準と人間の知覚との一致など、さまざまな側面を念頭に置いておく必要がある。 本稿では,サンプル品質,異種間表現,クラス内およびクラス間多様性などの様々な要因を考慮したgmスコアと,深層信念ネットワーク (dbn) と制限ボルツマンマシン (rbm) の潜在空間の識別性について,精度,リコール,f1スコアなどの指標を用いた新しいスコアを提案する。 この評価は、ベンチマークMNISTデータセットでトレーニングされた異なるGAN(GAN, DCGAN, BiGAN, CGAN, CoupledGAN, LSGAN, SGAN, WGAN, WGAN Improved)に対して行われる。

While generative adversarial networks (GAN) are popular for their higher sample quality as opposed to other generative models like the variational autoencoders (VAE) and Boltzmann machines, they suffer from the same difficulty of the evaluation of generated samples. Various aspects must be kept in mind, such as the quality of generated samples, the diversity of classes (within a class and among classes), the use of disentangled latent spaces, agreement of said evaluation metric with human perception, etc. In this paper, we propose a new score, namely, GM Score, which takes into various factors such as sample quality, disentangled representation, intra-class and inter-class diversity, and other metrics such as precision, recall, and F1 score are employed for discriminability of latent space of deep belief network (DBN) and restricted Boltzmann machine (RBM). The evaluation is done for different GANs (GAN, DCGAN, BiGAN, CGAN, CoupledGAN, LSGAN, SGAN, WGAN, and WGAN Improved) trained on the benchmark MNIST dataset.
翻訳日:2021-12-14 15:16:22 公開日:2021-12-13
# 元モデル: トレーニングされたモデルのストリームから継続的な学習

Ex-Model: Continual Learning from a Stream of Trained Models ( http://arxiv.org/abs/2112.06511v1 )

ライセンス: Link先を確認
Antonio Carta, Andrea Cossu, Vincenzo Lomonaco, Davide Bacciu(参考訳) 非定常データストリームから継続的に学ぶことは、ここ数年で人気が高まっている難しい研究テーマである。 効率的で効果的でスケーラブルな方法で継続的に学習し、適応し、一般化できることは、人工知能システムの持続可能な開発に不可欠である。 しかし、エージェント中心の継続的学習は、独立したエージェント間の相互作用、効率性、現在のアプローチのプライバシーを制限する生データから直接学習する必要がある。 代わりに、継続学習システムは、訓練されたモデルの形式で圧縮された情報の可用性を活用するべきであると論じる。 本稿では,エージェントが生データではなく,事前にトレーニングされたモデルのシーケンスから学習する「ex-model continual learning(exml)」という新しいパラダイムを紹介し,形式化する。 さらに,3つのモデル連続学習アルゴリズムと,3つのデータセット(mnist,cifar-10,core 50)と,提案アルゴリズムを広範囲にテストした8つのシナリオからなる経験的設定に寄与する。 最後に,前モデルパラダイムの特異性に注目し,今後の興味深い研究方向性を指摘する。

Learning continually from non-stationary data streams is a challenging research topic of growing popularity in the last few years. Being able to learn, adapt, and generalize continually in an efficient, effective, and scalable way is fundamental for a sustainable development of Artificial Intelligent systems. However, an agent-centric view of continual learning requires learning directly from raw data, which limits the interaction between independent agents, the efficiency, and the privacy of current approaches. Instead, we argue that continual learning systems should exploit the availability of compressed information in the form of trained models. In this paper, we introduce and formalize a new paradigm named "Ex-Model Continual Learning" (ExML), where an agent learns from a sequence of previously trained models instead of raw data. We further contribute with three ex-model continual learning algorithms and an empirical setting comprising three datasets (MNIST, CIFAR-10 and CORe50), and eight scenarios, where the proposed algorithms are extensively tested. Finally, we highlight the peculiarities of the ex-model paradigm and we point out interesting future research directions.
翻訳日:2021-12-14 15:14:47 公開日:2021-12-13
# オープンドメイン会話のためのexemplar-based generationの理解と改善

Understanding and Improving the Exemplar-based Generation for Open-domain Conversation ( http://arxiv.org/abs/2112.06723v1 )

ライセンス: Link先を確認
Seungju Han, Beomsu Kim, Seokjun Seo, Enkhbayar Erdenee, Buru Chang(参考訳) オープンドメイン会話のための模範に基づく生成モデルは、生成モデルと検索モデルを利用して、検索者が提供する模範に基づく応答を生成する。 しかし、検索した例題を無視し、応答を生成したり、検索した例題に過度に適合した反応を生成することが多い。 本稿では,オープンドメイン会話における一対多の問題から,これらの欠点を導出する。 抽出した例題が与えられた文脈と金反応と大きく異なる場合、例題に基づく生成モデルは、例題が金反応を生成するのに役に立たないため、例題を無視するように訓練される。 一方、回収された模範品が金の反応と語彙的に類似している場合、生成モデルは模範品に大きく依存するように訓練される。 そこで本研究では,金の反応に意味的に関係するが,金の応答と語彙的に距離を置き,上記の欠点を緩和する訓練手法を提案する。 トレーニング段階において,本提案手法はまず,ゴールド応答に意味論的に関連のある例を抽出するためのクエリとして,対話コンテキストの代わりにゴールド応答を用いる。 そして、金の反応に語彙的に類似している例を排除し、その例に生成モデルが依存することを緩和する。 残りの例は、金の反応に応じて探索されるため、与えられた文脈とは無関係である可能性がある。 そこで,提案手法では,与えられた文脈と実例との関連性スコアを活用し,無関係な実例をペナルティ化する。 広範な実験により,提案手法は既存の経験型生成モデルの欠点を軽減し,適切性と情報性の観点から性能を著しく向上することを示した。

Exemplar-based generative models for open-domain conversation produce responses based on the exemplars provided by the retriever, taking advantage of generative models and retrieval models. However, they often ignore the retrieved exemplars while generating responses or produce responses over-fitted to the retrieved exemplars. In this paper, we argue that these drawbacks are derived from the one-to-many problem of the open-domain conversation. When the retrieved exemplar is relevant to the given context yet significantly different from the gold response, the exemplar-based generative models are trained to ignore the exemplar since the exemplar is not helpful for generating the gold response. On the other hand, when the retrieved exemplar is lexically similar to the gold response, the generative models are trained to rely on the exemplar highly. Therefore, we propose a training method selecting exemplars that are semantically relevant to the gold response but lexically distanced from the gold response to mitigate the above disadvantages. In the training phase, our proposed training method first uses the gold response instead of dialogue context as a query to select exemplars that are semantically relevant to the gold response. And then, it eliminates the exemplars that lexically resemble the gold responses to alleviate the dependency of the generative models on that exemplars. The remaining exemplars could be irrelevant to the given context since they are searched depending on the gold response. Thus, our proposed training method further utilizes the relevance scores between the given context and the exemplars to penalize the irrelevant exemplars. Extensive experiments demonstrate that our proposed training method alleviates the drawbacks of the existing exemplar-based generative models and significantly improves the performance in terms of appropriateness and informativeness.
翻訳日:2021-12-14 15:12:33 公開日:2021-12-13
# マルチターンエンドツーエンド音声言語理解のための注意的コンテキストキャリオーバー

Attentive Contextual Carryover for Multi-Turn End-to-End Spoken Language Understanding ( http://arxiv.org/abs/2112.06743v1 )

ライセンス: Link先を確認
Kai Wei, Thanh Tran, Feng-Ju Chang, Kanthashree Mysore Sathyendra, Thejaswi Muniyappa, Jing Liu, Anirudh Raju, Ross McGowan, Nathan Susanj, Ariya Rastrow, Grant P. Strimel(参考訳) 近年、音声から意図やスロットを直接予測するエンドツーエンド(e2e)音声言語理解(slu)システムが大幅に進歩している。 対話の歴史は、従来のテキストベースの自然言語理解システムを改善するために利用されてきたが、現在のE2E SLUアプローチでは、このような重要な文脈信号をマルチターンやタスク指向の対話に組み込んでいない。 本研究では,マルチターン対話の先行発話と対話行動(音声アシスタントによる行動)を符号化したマルチヘッドアテンション機構を用いたコンテキスト型E2E SLUモデルアーキテクチャを提案する。 我々は、これらのコンテキストを最先端のリカレントおよびトランスフォーマティブベースモデルに統合する代替手法について詳述する。 音声アシスタントが収集した発話の大規模非同定データセットに適用した場合,平均単語と意味的誤り率をそれぞれ10.8%,12.6%削減する。 また,公開データセット上での結果を示し,この手法が非コンテキストベースラインよりも大幅に性能が向上することを示す。

Recent years have seen significant advances in end-to-end (E2E) spoken language understanding (SLU) systems, which directly predict intents and slots from spoken audio. While dialogue history has been exploited to improve conventional text-based natural language understanding systems, current E2E SLU approaches have not yet incorporated such critical contextual signals in multi-turn and task-oriented dialogues. In this work, we propose a contextual E2E SLU model architecture that uses a multi-head attention mechanism over encoded previous utterances and dialogue acts (actions taken by the voice assistant) of a multi-turn dialogue. We detail alternative methods to integrate these contexts into the state-ofthe-art recurrent and transformer-based models. When applied to a large de-identified dataset of utterances collected by a voice assistant, our method reduces average word and semantic error rates by 10.8% and 12.6%, respectively. We also present results on a publicly available dataset and show that our method significantly improves performance over a noncontextual baseline
翻訳日:2021-12-14 15:12:02 公開日:2021-12-13
# 3次元ポーズ推定のための局所的および大域的ポイントクラウド再構成

Local and Global Point Cloud Reconstruction for 3D Hand Pose Estimation ( http://arxiv.org/abs/2112.06389v1 )

ライセンス: Link先を確認
Ziwei Yu, Linlin Yang, Shicheng Chen, Angela Yao(参考訳) 本稿では、1枚のRGB画像から3次元点雲再構成と3次元ポーズ推定について述べる。 そこで我々は,ポーズ推定のための潜在表現を学習しながら,3Dハンドテンプレートを用いた局所的および大域的クラウド再構築のための新しいパイプラインを提案する。 本手法を実証するために,実世界における手の完全な3次元点雲を得るための多視点手姿勢データセットを提案する。 提案するデータセットと4つの公開ベンチマークによる実験により,モデルの強みが示された。 本手法は,現実的に見える完全3次元ハンドポイントクラウドを再構築しながら,3次元ポーズ推定における競合相手よりも優れる。

This paper addresses the 3D point cloud reconstruction and 3D pose estimation of the human hand from a single RGB image. To that end, we present a novel pipeline for local and global point cloud reconstruction using a 3D hand template while learning a latent representation for pose estimation. To demonstrate our method, we introduce a new multi-view hand posture dataset to obtain complete 3D point clouds of the hand in the real world. Experiments on our newly proposed dataset and four public benchmarks demonstrate the model's strengths. Our method outperforms competitors in 3D pose estimation while reconstructing realistic-looking complete 3D hand point clouds.
翻訳日:2021-12-14 15:10:56 公開日:2021-12-13
# グラフ表現構造から多元的詳細を持つ点雲を生成する

Generate Point Clouds with Multiscale Details from Graph-Represented Structures ( http://arxiv.org/abs/2112.06433v1 )

ライセンス: Link先を確認
Ximing Yang and Cheng Jin(参考訳) Generating point clouds from structures is a highly valued method to control the generation of point clouds.One of the major problems in structure-based controllable point cloud generation is the lack of controllability to details, as details are missing in most existing representations of structures.It can be observed that definitions of details and structures are subjective.Details can be treated as structures on small scale.To represent structures in different scales at the same time, we present a graph-based representation of structures called the Multiscale Structure Graph(MSG). By treating details as small-scale structures, similar patterns of local structures can be found at different scales, places, densities, and angles.The knowledge learned from a pattern can be transferred to similar patterns in other scales.An encoding and generation mechanism, namely the Multiscale Structure-based Point Cloud Generator(MSPCG), for generating dense point clouds from the MSG is proposed, which can simultaneously learn local patterns with miscellaneous spatial properties.Our MSPCG also has great generalization ability and scalability.An MSPCG trained on the ShapeNet dataset can enable multi-scale edition on point clouds, generate point clouds for unseen categories, and generate indoor scenes from a given structure. 実験の結果,本手法はベースライン法よりも有意に優れていた。

Generating point clouds from structures is a highly valued method to control the generation of point clouds.One of the major problems in structure-based controllable point cloud generation is the lack of controllability to details, as details are missing in most existing representations of structures.It can be observed that definitions of details and structures are subjective.Details can be treated as structures on small scale.To represent structures in different scales at the same time, we present a graph-based representation of structures called the Multiscale Structure Graph(MSG).By treating details as small-scale structures, similar patterns of local structures can be found at different scales, places, densities, and angles.The knowledge learned from a pattern can be transferred to similar patterns in other scales.An encoding and generation mechanism, namely the Multiscale Structure-based Point Cloud Generator(MSPCG), for generating dense point clouds from the MSG is proposed, which can simultaneously learn local patterns with miscellaneous spatial properties.Our MSPCG also has great generalization ability and scalability.An MSPCG trained on the ShapeNet dataset can enable multi-scale edition on point clouds, generate point clouds for unseen categories, and generate indoor scenes from a given structure. The experimental results show that our method significantly outperforms baseline methods.
翻訳日:2021-12-14 15:10:47 公開日:2021-12-13
# Split GCN: 切断インスタンスのセグメンテーションに有効なインタラクティブアノテーション

Split GCN: Effective Interactive Annotation for Segmentation of Disconnected Instance ( http://arxiv.org/abs/2112.06454v1 )

ライセンス: Link先を確認
Namgil Kim and Barom Kang and Yeonok Cho(参考訳) 人間によるオブジェクト境界への注釈は高いコストを必要とする。 近年,人間インタラクションを用いた多角形アノテーション手法が成功している。 しかし、連結頂点トポロジーを考えると、これらの手法は物体内の不連結成分を予測するのが困難である。 本稿では,ポリゴンアプローチと自己認識機構に基づく新しいアーキテクチャであるSplit-GCNを紹介する。 方向情報を提供することで、Split-GCNはポリゴン頂点をオブジェクト境界へより正確に移動させることができる。 我々のモデルは,頂点の依存関係に関するコンテキスト交換を用いて初期トポロジを変換することにより,オブジェクトの非連結成分をうまく予測する。 Split-GCNは、Cityscapesの最先端モデルと競合する性能を示し、ベースラインモデルよりも高性能である。 4つのクロスドメインデータセット上で、モデルの一般化能力を確認する。

Annotating object boundaries by humans demands high costs. Recently, polygon-based annotation methods with human interaction have shown successful performance. However, given the connected vertex topology, these methods exhibit difficulty predicting the disconnected components in an object. This paper introduces Split-GCN, a novel architecture based on the polygon approach and self-attention mechanism. By offering the direction information, Split-GCN enables the polygon vertices to move more precisely to the object boundary. Our model successfully predicts disconnected components of an object by transforming the initial topology using the context exchange about the dependencies of vertices. Split-GCN demonstrates competitive performance with the state-of-the-art models on Cityscapes and even higher performance with the baseline models. On four cross-domain datasets, we confirm our model's generalization ability.
翻訳日:2021-12-14 15:10:34 公開日:2021-12-13
# MAGIC:多変量テキストベース画像キャプションのためのマルチモーダルレゾナルグラフ逆数型インフェレンCe

MAGIC: Multimodal relAtional Graph adversarIal inferenCe for Diverse and Unpaired Text-based Image Captioning ( http://arxiv.org/abs/2112.06558v1 )

ライセンス: Link先を確認
Wenqiao Zhang, Haochen Shi, Jiannan Guo, Shengyu Zhang, Qingpeng Cai, Juncheng Li, Sihui Luo, Yueting Zhuang(参考訳) テキストベースの画像キャプション(textcap)は、自然言語記述を生成するために、視覚コンテンツと画像のテキストを同時に理解する必要がある。 テキストが日常の環境において一様であることを考えると、タスクは機械に複雑な人間の環境を理解するように教えることができるが、通常のキャプションではさらなる課題が生じる。 テキストベースの画像は、直感的に、豊富で複雑なマルチモーダルな関係コンテンツを含み、つまり、画像の詳細は単一のキャプションではなく、多視点から多様に記述できる。 画像記述の多様性を示すために、追加のペアトレーニングデータを導入することもできるが、このプロセスは、余分なテキストを含むTextCapペアアノテーションに対して、労働集約的で時間を要する。 上記の知見に基づいて,非ペアトレーニングパラダイムを用いて,異なる画像部分に焦点を当てた多様なキャプションを生成する方法について検討する。 本稿では,多種多様かつ非連結なテキストキャプチャのための多様関係グラフ逆推論(magic)フレームワークを提案する。 このフレームワークは、画像の複数のマルチモーダル関係グラフを適応的に構築し、記述的多様性を表現するグラフ間の複雑な関係をモデル化することができる。 さらに、モデルグラフからカスケード生成対向ネットワークを開発し、画像文の特徴アライメントと言語的コヒーレンスレベルにおける未ペア字幕生成を推定する。 画像の異なる関係情報項目から多種多様なキャプションを生成するためのMAGICの有効性を検証する。 実験結果から、MAGICは画像キャプチャトレーニングペアを使わずに、非常に有望な結果が得られることが示された。

Text-based image captioning (TextCap) requires simultaneous comprehension of visual content and reading the text of images to generate a natural language description. Although a task can teach machines to understand the complex human environment further given that text is omnipresent in our daily surroundings, it poses additional challenges in normal captioning. A text-based image intuitively contains abundant and complex multimodal relational content, that is, image details can be described diversely from multiview rather than a single caption. Certainly, we can introduce additional paired training data to show the diversity of images' descriptions, this process is labor-intensive and time-consuming for TextCap pair annotations with extra texts. Based on the insight mentioned above, we investigate how to generate diverse captions that focus on different image parts using an unpaired training paradigm. We propose the Multimodal relAtional Graph adversarIal inferenCe (MAGIC) framework for diverse and unpaired TextCap. This framework can adaptively construct multiple multimodal relational graphs of images and model complex relationships among graphs to represent descriptive diversity. Moreover, a cascaded generative adversarial network is developed from modeled graphs to infer the unpaired caption generation in image-sentence feature alignment and linguistic coherence levels. We validate the effectiveness of MAGIC in generating diverse captions from different relational information items of an image. Experimental results show that MAGIC can generate very promising outcomes without using any image-caption training pairs.
翻訳日:2021-12-14 15:10:22 公開日:2021-12-13
# テキスト生成のためのステップアンロール型デノイングオートエンコーダ

Step-unrolled Denoising Autoencoders for Text Generation ( http://arxiv.org/abs/2112.06749v1 )

ライセンス: Link先を確認
Nikolay Savinov, Junyoung Chung, Mikolaj Binkowski, Erich Elsen, Aaron van den Oord(参考訳) 本稿では, 自己回帰モデルに依存しない新たなテキスト生成モデルであるSUNDAE(Step-unrolled Denoising Autoencoder)を提案する。 SUNDAEは拡散法をデノナイズするのと同様に、ランダムな入力から始まり、収束するまで毎回改善するトークンの列に繰り返し適用される。 我々は,自然言語データセット上で質的に優れたサンプルを生成する一方で,拡散法よりも少ない反復で収束する単純な新しい改良演算子を提案する。 SUNDAEは、WMT'14の英独翻訳タスクにおける最先端の結果(非自己回帰的手法)と、Colossal Cleaned Common CrawlデータセットとGitHubからのPythonコードのデータセット上の無条件言語モデリングに関する質的な結果を達成する。 SUNDAEの非自己回帰性は、テンプレートに任意の空白パターンを埋めることによって、左から右への誘導生成を超えて可能性を開く。

In this paper we propose a new generative model of text, Step-unrolled Denoising Autoencoder (SUNDAE), that does not rely on autoregressive models. Similarly to denoising diffusion techniques, SUNDAE is repeatedly applied on a sequence of tokens, starting from random inputs and improving them each time until convergence. We present a simple new improvement operator that converges in fewer iterations than diffusion methods, while qualitatively producing better samples on natural language datasets. SUNDAE achieves state-of-the-art results (among non-autoregressive methods) on the WMT'14 English-to-German translation task and good qualitative results on unconditional language modeling on the Colossal Cleaned Common Crawl dataset and a dataset of Python code from GitHub. The non-autoregressive nature of SUNDAE opens up possibilities beyond left-to-right prompted generation, by filling in arbitrary blank patterns in a template.
翻訳日:2021-12-14 15:09:17 公開日:2021-12-13
# 異なるマスキングを持つ言語モデルにおけるスパース介入

Sparse Interventions in Language Models with Differentiable Masking ( http://arxiv.org/abs/2112.06837v1 )

ライセンス: Link先を確認
Nicola De Cao, Leon Schmid, Dieuwke Hupkes, Ivan Titov(参考訳) 言語モデル(LM)の隠れ表現によって得られる情報を理解することに、多くの関心が寄せられている。 通常 解釈方法は i) モデルが実際にエンコードされた情報を使用していることを保証していないこと,及び ii) 考慮される現象の原因となるニューロンの小さな部分集合を見出さないこと。 因果媒介分析に着想を得て,特定の言語現象の原因となるニューロンの小さなサブセット,すなわち,対応するトークン放出確率の変化を引き起こすサブセットをニューラルLM内で発見する手法を提案する。 我々は組合せ空間を概ね探索するために微分可能な緩和を用いる。 l_0$正規化項は、探索が離散解とスパース解に収束することを保証する。 本手法をLSTMにおける主観的動詞数一致と性差検出に応用する。 我々は、それが高速であり、代替(REINFORCE)よりも優れた解を見つけることを観察する。 実験により、これらの現象は、他の識別可能な役割を果たさないニューロンの小さなサブセットを介して媒介されていることが確認された。

There has been a lot of interest in understanding what information is captured by hidden representations of language models (LMs). Typically, interpretation methods i) do not guarantee that the model actually uses the encoded information, and ii) do not discover small subsets of neurons responsible for a considered phenomenon. Inspired by causal mediation analysis, we propose a method that discovers within a neural LM a small subset of neurons responsible for a particular linguistic phenomenon, i.e., subsets causing a change in the corresponding token emission probabilities. We use a differentiable relaxation to approximately search through the combinatorial space. An $L_0$ regularization term ensures that the search converges to discrete and sparse solutions. We apply our method to analyze subject-verb number agreement and gender bias detection in LSTMs. We observe that it is fast and finds better solutions than the alternative (REINFORCE). Our experiments confirm that each of these phenomenons is mediated through a small subset of neurons that do not play any other discernible role.
翻訳日:2021-12-14 15:08:58 公開日:2021-12-13
# 音響表現と語彙表現を組み合わせた感情キャリアの検出

Detecting Emotion Carriers by Combining Acoustic and Lexical Representations ( http://arxiv.org/abs/2112.06603v1 )

ライセンス: Link先を確認
Sebastian P. Bayerl, Aniruddha Tammewar, Korbinian Riedhammer and Giuseppe Riccardi(参考訳) 個人的物語(Personal narratives、PN)は、自分の経験から事実、人々、出来事、思考を回想したものである。 感情認識と感情分析のタスクは通常、発話または文書レベルで定義される。 しかし、本研究では、語り手の感情状態を説明するセグメント(音声またはテキスト)として定義された感情伝達体(ec)に焦点を当てている("loss of father", "made me choose")。 ひとたび抽出されると、そのようなecは自然言語理解と対話モデリングを改善するためにユーザー状態をよりリッチに表現することができる。 これまでの研究では、ECは語彙的特徴を用いて識別できることが示されている。 しかし、話し言葉は、文脈とユーザの感情状態のより豊かな説明を提供するべきである。 本稿では,音声中のECを検出するために,単語ベースの音響およびテキストの埋め込み,および早期・後期融合技術を活用する。 単語レベルの音響表現には、個別の音声感情コーパスに基づいて事前訓練されたResidual Neural Networks(ResNet)を用いてECを検出する。 異なる融合とシステムの組み合わせ戦略による実験は、後期融合がこのタスクに大きな改善をもたらすことを示している。

Personal narratives (PN) - spoken or written - are recollections of facts, people, events, and thoughts from one's own experience. Emotion recognition and sentiment analysis tasks are usually defined at the utterance or document level. However, in this work, we focus on Emotion Carriers (EC) defined as the segments (speech or text) that best explain the emotional state of the narrator ("loss of father", "made me choose"). Once extracted, such EC can provide a richer representation of the user state to improve natural language understanding and dialogue modeling. In previous work, it has been shown that EC can be identified using lexical features. However, spoken narratives should provide a richer description of the context and the users' emotional state. In this paper, we leverage word-based acoustic and textual embeddings as well as early and late fusion techniques for the detection of ECs in spoken narratives. For the acoustic word-level representations, we use Residual Neural Networks (ResNet) pretrained on separate speech emotion corpora and fine-tuned to detect EC. Experiments with different fusion and system combination strategies show that late fusion leads to significant improvements for this task.
翻訳日:2021-12-14 15:08:21 公開日:2021-12-13
# (参考訳) 統一テキスト変換器による法的判断予測のための依存学習 [全文訳有]

Dependency Learning for Legal Judgment Prediction with a Unified Text-to-Text Transformer ( http://arxiv.org/abs/2112.06370v1 )

ライセンス: CC BY 4.0
Yunyun Huang, Xiaoyu Shen, Chuanyi Li, Jidong Ge, Bin Luo(参考訳) 訴訟の事実を考えると、法的判断予測(英語版)(ljp)は、違反した法律記事、告訴、ペナルティ期間の予測のような一連のサブタスクを含む。 自動回帰デコーダ内にサブタスク間の依存関係を自然に確立できるLJP用の統一テキスト変換器を提案する。 以前の作品と比較して、(1)マスク言語モデルの事前学習パターンに適合し、アトミックラベルとしてではなく、各サブタスクの意味的プロンプトの恩恵を受ける、(2)単一の統一アーキテクチャを利用する、すべてのサブタスクで完全なパラメータ共有を可能にする、(3)分類と生成的なサブタスクの両方を組み込むことができる、という3つの利点がある。 この統合トランスフォーマーは、一般ドメインのテキストで事前訓練されているにもかかわらず、法律ドメイン用に特別に調整された事前訓練されたモデルよりも優れていることを示す。 大規模な実験を通して、依存関係を捕捉する最善の順序は人間の直観と異なり、人間にとって最も合理的な論理的順序はモデルに準最適であることがわかった。 さらに、コートビュー生成と記事コンテンツ予測という2つの補助的なタスクも含み、予測精度を向上できるだけでなく、エラーが発生した場合でもモデル出力の解釈可能な説明を提供する。 最適な構成で、我々のモデルは以前のSOTAと統一トランスの単一タスクバージョンの両方を大きなマージンで上回る。

Given the fact of a case, Legal Judgment Prediction (LJP) involves a series of sub-tasks such as predicting violated law articles, charges and term of penalty. We propose leveraging a unified text-to-text Transformer for LJP, where the dependencies among sub-tasks can be naturally established within the auto-regressive decoder. Compared with previous works, it has three advantages: (1) it fits in the pretraining pattern of masked language models, and thereby can benefit from the semantic prompts of each sub-task rather than treating them as atomic labels, (2) it utilizes a single unified architecture, enabling full parameter sharing across all sub-tasks, and (3) it can incorporate both classification and generative sub-tasks. We show that this unified transformer, albeit pretrained on general-domain text, outperforms pretrained models tailored specifically for the legal domain. Through an extensive set of experiments, we find that the best order to capture dependencies is different from human intuitions, and the most reasonable logical order for humans can be sub-optimal for the model. We further include two more auxiliary tasks: court view generation and article content prediction, showing they can not only improve the prediction accuracy, but also provide interpretable explanations for model outputs even when an error is made. With the best configuration, our model outperforms both previous SOTA and a single-tasked version of the unified transformer by a large margin.
翻訳日:2021-12-14 15:06:00 公開日:2021-12-13
# VL-Adapter:視覚・言語タスクのためのパラメータ効率の良い伝達学習

VL-Adapter: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks ( http://arxiv.org/abs/2112.06825v1 )

ライセンス: Link先を確認
Yi-Lin Sung, Jaemin Cho, Mohit Bansal(参考訳) 近年,大文字コーパスで事前学習した微調整言語モデルによって,視覚言語(v&l)タスクや純粋言語タスクが大幅に改善されている。 しかし,モデルサイズが急速に増大しているため,事前学習したモデルのパラメータ集合全体を微調整することは現実的ではない。 そこで本研究では,VL-BARTやVL-T5といったV&Lモデルに対して,アダプタに基づくパラメータ効率変換学習手法を提案する。 VQAv2, GQA, NLVR2, MSCOCO画像キャプションの4つのタスクに対して, マルチタスクを統一した構成で評価を行った。 注意深いトレーニングと徹底的な実験により、一般的なアダプタベースの3つの手法(Adapter、Hyperformer、Compacter)を標準のフルチューニングと最近提案されたプロンプトチューニングアプローチと比較した。 また,タスク間の知識を得るための重みを共有することで,アダプタの効率性と性能も向上する。 以上の結果から,モデル全体の微調整性能に適合する重み付け技術(総パラメータの4.4%)でアダプタを訓練できることが示される。 最後に,アダプタとタスク固有のプロンプトの組み合わせ,アダプタへのv&l事前トレーニングの影響など,包括的な分析を行う。 私たちのコードは、https://github.com/y lsung/VL_adapter.com で利用可能です。

Recently, fine-tuning language models pre-trained on large text corpora have provided huge improvements on vision-and-language (V&L) tasks as well as on pure language tasks. However, fine-tuning the entire parameter set of pre-trained models becomes impractical since the model size is growing rapidly. Hence, in this paper, we introduce adapter-based parameter-efficient transfer learning techniques to V&L models such as VL-BART and VL-T5. We evaluate our methods in a unified multi-task setup on four diverse V&L tasks: VQAv2, GQA, NLVR2 , and MSCOCO image captioning. With careful training and thorough experiments, we benchmark three popular adapter-based methods (Adapter, Hyperformer, Compacter) against the standard full fine-tuning and the recently proposed prompt-tuning approach. We also enhance the efficiency and performance of adapters by sharing their weights to attain knowledge across tasks. Our results demonstrate that training the adapter with the weight-sharing technique (4.4% of total parameters) can match the performance of fine-tuning the entire model. Lastly, we present a comprehensive analysis including the combination of adapter and task-specific prompts and the impact of V&L pre-training on adapters. Our code is available at: https://github.com/y lsung/VL_adapter.
翻訳日:2021-12-14 14:40:47 公開日:2021-12-13
# エンティティ強化知識注入による知識に基づく視覚的質問応答の改善と診断

Improving and Diagnosing Knowledge-Based Visual Question Answering via Entity Enhanced Knowledge Injection ( http://arxiv.org/abs/2112.06888v1 )

ライセンス: Link先を確認
Diego Garcia-Olano, Yasumasa Onoe, Joydeep Ghosh(参考訳) KBVQA(Knowledge-Base d Visual Question Answering)は、テキスト質問と関連する画像に正しく答えるために、外部の知識を必要とするバイモーダルタスクである。 最近の単一のモダリティテキストワークでは、事前訓練された言語モデル、特にエンティティ強化知識グラフの埋め込みへの知識注入は、下流のエンティティ中心のタスクのパフォーマンスを向上させることができる。 本研究では,これらの手法をバイモーダル環境で適用することで,kbvqaタスクにおける既存のvqaシステムの性能を向上できるかどうかを実証的に検討する。 我々は,(1)稀なウィキペディアのエンティティを多く含むKVQA,(2)エンティティ中心ではなく,常識推論に適合したOKVQAの2つの大規模公開VQAデータセットを実験した。 どちらも明示的な実体が欠如しており、我々はそれらを得るための弱い教師と手動の方法の効果について研究している。 さらに、最近提案されているバイモーダルおよびシングルモーダル注意説明が、そのようなエンティティ拡張表現の導入によってどのように影響を受けるかを分析する。 その結果,KBVQAタスクの性能は,コストのかかる事前学習を必要とせずに大幅に向上し,エンティティ知識注入がモデルの理解向上に有効であることを示す。 再現性のためのコードと拡張データセットを提供します。

Knowledge-Based Visual Question Answering (KBVQA) is a bi-modal task requiring external world knowledge in order to correctly answer a text question and associated image. Recent single modality text work has shown knowledge injection into pre-trained language models, specifically entity enhanced knowledge graph embeddings, can improve performance on downstream entity-centric tasks. In this work, we empirically study how and whether such methods, applied in a bi-modal setting, can improve an existing VQA system's performance on the KBVQA task. We experiment with two large publicly available VQA datasets, (1) KVQA which contains mostly rare Wikipedia entities and (2) OKVQA which is less entity-centric and more aligned with common sense reasoning. Both lack explicit entity spans and we study the effect of different weakly supervised and manual methods for obtaining them. Additionally we analyze how recently proposed bi-modal and single modal attention explanations are affected by the incorporation of such entity enhanced representations. Our results show substantial improved performance on the KBVQA task without the need for additional costly pre-training and we provide insights for when entity knowledge injection helps improve a model's understanding. We provide code and enhanced datasets for reproducibility.
翻訳日:2021-12-14 14:40:04 公開日:2021-12-13
# (参考訳) SIMMC 2.0のための事前訓練単モーダルモデルを用いたマルチモーダルインタラクション [全文訳有]

Multimodal Interactions Using Pretrained Unimodal Models for SIMMC 2.0 ( http://arxiv.org/abs/2112.05328v2 )

ライセンス: CC BY 4.0
Joosung Lee, Kijong Han(参考訳) 本稿では,Dialog State Tracking Challenge 10で実施されたSituated Interactive MultiModal Conversations 2.0の課題について述べる。 SIMMC 2.0には4つのサブタスクが含まれており、サブタスク \#1, \#2 とサブタスク \#4 の生成に対するマルチモーダルアプローチを導入しています。 SIMMC 2.0データセットは、画像とテキスト情報を含むマルチモーダルデータセットであり、画像とテキストの関係を理解することで解決する必要があるため、テキストベースの会話の問題よりも難しい。 したがって,BERT や GPT2 のようなテキストモデルのみを解決するには限界があるため,画像とテキストを組み合わせたマルチモーダルモデルを提案する。 まず、画像とテキストの関係を理解するためにマルチモーダルモデルを事前訓練し、タスク毎にモデルを微調整する。 我々は,subtask \#1, \#2における3番目に優れた性能と,subtask \#4の生成におけるランナーアップを達成する。 ソースコードはhttps://github.com/r ungjoo/simmc2.0で入手できる。

This paper presents our work on the Situated Interactive MultiModal Conversations 2.0 challenge held at Dialog State Tracking Challenge 10. SIMMC 2.0 includes 4 subtasks, and we introduce our multimodal approaches for the subtask \#1, \#2 and the generation of subtask \#4. SIMMC 2.0 dataset is a multimodal dataset containing image and text information, which is more challenging than the problem of only text-based conversations because it must be solved by understanding the relationship between image and text. Therefore, since there is a limit to solving only text models such as BERT or GPT2, we propose a multimodal model combining image and text. We first pretrain the multimodal model to understand the relationship between image and text, then finetune our model for each task. We achieve the 3rd best performance in subtask \#1, \#2 and a runner-up in the generation of subtask \#4. The source code is available at https://github.com/r ungjoo/simmc2.0.
翻訳日:2021-12-14 11:40:38 公開日:2021-12-13
# 中央フィルタによるネットワーク圧縮

Network Compression via Central Filter ( http://arxiv.org/abs/2112.05493v2 )

ライセンス: Link先を確認
Yuanzhi Duan, Xiaofang Hu, Yue Zhou, Qiang Liu, Shukai Duan(参考訳) ニューラルネットワークのプルーニングは、ディープネットワークモデルの複雑さを減らすための優れた性能を持つ。 最近のネットワークプルーニング手法は、ネットワーク内の重要でないフィルタや冗長なフィルタの除去に重点を置いている。 本稿では,特徴マップ間の類似性を検討することにより,フィルタの適切な調整により,フィルタが他のフィルタのセットとほぼ等しいことを示唆する,新しいフィルタプルーニング法であるセントラルフィルタ(cf)を提案する。 提案手法は,入力画像の数に関係なく,特徴マップ間の平均的類似性がほとんど変化しないことを示す。 この結果に基づき,特徴写像上の類似性グラフを確立し,各ノードの近接性中心度を計算して中央フィルタを選択する。 さらに, 中心フィルタに対応する次の層の重みを直接調整し, プルーニングによる誤差を効果的に最小化する手法を考案した。 様々なベンチマークネットワークとデータセットの実験を通じて、cfは最先端のパフォーマンスをもたらす。 例えば、ResNet-56では、CFはパラメータの47.1%を取り除き、約39.7%のFLOPを削減し、CIFAR-10の精度は0.33%向上した。 googlenetでは、cfは55.6%のパラメータを削除することでフロップの約63.2%を削減し、cifar-10のtop-1精度では0.35%の損失しかなかった。 ResNet-50では、パラメータの36.9%を削除することで、FLOPの約47.9%が削減され、ImageNetでは1.07%の精度しか失われていない。 コードはhttps://github.com/8 ubpshLR23/Central-Fi lterで入手できる。

Neural network pruning has remarkable performance for reducing the complexity of deep network models. Recent network pruning methods usually focused on removing unimportant or redundant filters in the network. In this paper, by exploring the similarities between feature maps, we propose a novel filter pruning method, Central Filter (CF), which suggests that a filter is approximately equal to a set of other filters after appropriate adjustments. Our method is based on the discovery that the average similarity between feature maps changes very little, regardless of the number of input images. Based on this finding, we establish similarity graphs on feature maps and calculate the closeness centrality of each node to select the Central Filter. Moreover, we design a method to directly adjust weights in the next layer corresponding to the Central Filter, effectively minimizing the error caused by pruning. Through experiments on various benchmark networks and datasets, CF yields state-of-the-art performance. For example, with ResNet-56, CF reduces approximately 39.7% of FLOPs by removing 47.1% of the parameters, with even 0.33% accuracy improvement on CIFAR-10. With GoogLeNet, CF reduces approximately 63.2% of FLOPs by removing 55.6% of the parameters, with only a small loss of 0.35% in top-1 accuracy on CIFAR-10. With ResNet-50, CF reduces approximately 47.9% of FLOPs by removing 36.9% of the parameters, with only a small loss of 1.07% in top-1 accuracy on ImageNet. The codes can be available at https://github.com/8 ubpshLR23/Central-Fi lter.
翻訳日:2021-12-14 11:29:33 公開日:2021-12-13
# HeadNeRF:リアルタイムNeRFを用いたパラメトリックヘッドモデル

HeadNeRF: A Real-time NeRF-based Parametric Head Model ( http://arxiv.org/abs/2112.05637v2 )

ライセンス: Link先を確認
Yang Hong, Bo Peng, Haiyao Xiao, Ligang Liu, Juyong Zhang(参考訳) 本稿では,人間の頭部のパラメトリック表現に神経放射場を統合する新しいNeRFを用いたパラメトリックヘッドモデルであるHeadNeRFを提案する。 高忠実度ヘッドイメージをリアルタイムでレンダリングでき、生成した画像のレンダリングポーズとさまざまなセマンティック属性を直接制御できる。 既存のパラメトリックモデルと異なり、従来の3Dテクスチャメッシュの代わりにニューラルレージアンスフィールドを新しい3Dプロキシとして使用することで、HeadNeRFは高忠実度画像を生成することができる。 しかし、原型NeRFの計算コストのかかるレンダリングプロセスは、パラメトリックNeRFモデルの構築を妨げる。 この問題に対処するために,2次元ニューラルレンダリングをnerfのレンダリングプロセスに統合し,新たな損失項を設計する手法を採用する。 その結果、HeadNeRFのレンダリング速度が大幅に向上し、1フレームのレンダリング時間が5sから25msに短縮される。 新規に設計された損失項はレンダリング精度も向上し、歯、しわ、あごひげの隙間などの人間の頭部の細部の詳細をヘッドナーフによって表現・合成することができる。 広範な実験結果といくつかの応用が有効性を示している。 コードとトレーニングされたモデルを一般公開します。

In this paper, we propose HeadNeRF, a novel NeRF-based parametric head model that integrates the neural radiance field to the parametric representation of the human head. It can render high fidelity head images in real-time, and supports directly controlling the generated images' rendering pose and various semantic attributes. Different from existing related parametric models, we use the neural radiance fields as a novel 3D proxy instead of the traditional 3D textured mesh, which makes that HeadNeRF is able to generate high fidelity images. However, the computationally expensive rendering process of the original NeRF hinders the construction of the parametric NeRF model. To address this issue, we adopt the strategy of integrating 2D neural rendering to the rendering process of NeRF and design novel loss terms. As a result, the rendering speed of HeadNeRF can be significantly accelerated, and the rendering time of one frame is reduced from 5s to 25ms. The novel-designed loss terms also improve the rendering accuracy, and the fine-level details of the human head, such as the gaps between teeth, wrinkles, and beards, can be represented and synthesized by HeadNeRF. Extensive experimental results and several applications demonstrate its effectiveness. We will release the code and trained model to the public.
翻訳日:2021-12-14 11:29:07 公開日:2021-12-13
# 言葉に合致しろ! 神経情報検索における語彙マッチングの検討

Match Your Words! A Study of Lexical Matching in Neural Information Retrieval ( http://arxiv.org/abs/2112.05662v2 )

ライセンス: Link先を確認
Thibault Formal, Benjamin Piwowarski, St\'ephane Clinchant(参考訳) ニューラル情報検索モデルは、現代の検索エンジンにおける語彙マッチングモデル(例えばbm25)を置き換えると約束されている。 それらの機能は、ms marcoのようなドメイン内データセットに完全に依存しているが、最近、ドメイン外ゼロショット設定(ベンチマーク)に挑戦された。 特に、これらの欠点は(部分的には)ニューラルIRモデルが棚外で語彙マッチングを実行できない結果なのか疑問である。 本研究では,任意の(ニューラル)モデルによる語彙マッチングと「理想的」モデルとの差異の尺度を提案する。 これに基づいて、異なる最先端のニューラルIRモデルの振る舞いを研究し、それが実際に有用である場合、すなわち重要な用語で語彙マッチングを行うことができるかどうかに焦点をあてる。 全体として、ニューラルネットワークモデルでは、トレーニング中にドメイン外のコレクションや用語がほとんど見えない場合に、用語の重要性を適切に一般化できないことを示す。

Neural Information Retrieval models hold the promise to replace lexical matching models, e.g. BM25, in modern search engines. While their capabilities have fully shone on in-domain datasets like MS MARCO, they have recently been challenged on out-of-domain zero-shot settings (BEIR benchmark), questioning their actual generalization capabilities compared to bag-of-words approaches. Particularly, we wonder if these shortcomings could (partly) be the consequence of the inability of neural IR models to perform lexical matching off-the-shelf. In this work, we propose a measure of discrepancy between the lexical matching performed by any (neural) model and an 'ideal' one. Based on this, we study the behavior of different state-of-the-art neural IR models, focusing on whether they are able to perform lexical matching when it's actually useful, i.e. for important terms. Overall, we show that neural IR models fail to properly generalize term importance on out-of-domain collections or terms almost unseen during training
翻訳日:2021-12-14 11:28:45 公開日:2021-12-13
# 潜在埋め込みによるタスク適応としての少数キーポイント検出

Few-Shot Keypoint Detection as Task Adaptation via Latent Embeddings ( http://arxiv.org/abs/2112.04910v2 )

ライセンス: Link先を確認
Mel Vecerik and Jackie Kay and Raia Hadsell and Lourdes Agapito and Jon Scholz(参考訳) 特定のオブジェクトポイントをピクセルレベルの精度でローカライズするDense Object Trackingは、ロボット工学における多くのダウンストリーム応用を伴う重要なコンピュータビジョンタスクである。 既存のアプローチでは、密度の高いキーポイント埋め込みを1回のフォワードパスで計算する、つまりモデルは、すべてを一度に追跡するように訓練される、あるいは完全な容量をスパースな事前定義されたポイントに割り当てる、という方法がある。 本稿では,対象物体の把持点など,ある時点の関連点数が比較的少ないという観測に基づいて,中間地盤を探索する。 私たちの主なコントリビューションは、少数ショットのタスク適応にインスパイアされた新しいアーキテクチャであり、どのポイントをトラックするかを示すキーポイント埋め込みにスパーススタイルのネットワークを条件付けることができます。 我々の中心的な発見は、このアプローチが密度埋め込みモデルの一般性を提供する一方で、スパースキーポイントアプローチにかなり近い精度を提供することである。 本稿では,このキャパシティ対精度トレードオフを実証し,実ロボットピック・アンド・プレイスタスクを用いて,新しいオブジェクトインスタンス(クラス内)へのゼロショット転送機能を示す。

Dense object tracking, the ability to localize specific object points with pixel-level accuracy, is an important computer vision task with numerous downstream applications in robotics. Existing approaches either compute dense keypoint embeddings in a single forward pass, meaning the model is trained to track everything at once, or allocate their full capacity to a sparse predefined set of points, trading generality for accuracy. In this paper we explore a middle ground based on the observation that the number of relevant points at a given time are typically relatively few, e.g. grasp points on a target object. Our main contribution is a novel architecture, inspired by few-shot task adaptation, which allows a sparse-style network to condition on a keypoint embedding that indicates which point to track. Our central finding is that this approach provides the generality of dense-embedding models, while offering accuracy significantly closer to sparse-keypoint approaches. We present results illustrating this capacity vs. accuracy trade-off, and demonstrate the ability to zero-shot transfer to new object instances (within-class) using a real-robot pick-and-place task.
翻訳日:2021-12-14 11:28:27 公開日:2021-12-13