このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210626となっている論文です。

PDF登録状況(公開日: 20210626)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 群衆の知恵を活用して放射線科医のコンセンサスをリアルタイムで改善し、デジタルスウォームプラットフォーム上でのブラインドされたコラボレーション [全文訳有]

Leveraging wisdom of the crowds to improve consensus among radiologists by real time, blinded collaborations on a digital swarm platform ( http://arxiv.org/abs/2107.07341v1 )

ライセンス: CC BY 4.0
Rutwik Shah, Bruno Astuto, Tyler Gleason, Will Fletcher, Justin Banaga, Kevin Sweetwood, Allen Ye, Rina Patel, Kevin McGill, Thomas Link, Jason Crane, Valentina Pedoia, Sharmila Majumdar(参考訳) 今日、放射線科医は診断決定や画像のラベル付けにおいて重要な役割を担っている。 アルゴリズム。 低読影信頼性(IRR)は、難しいケースを解釈する際に専門家の間で見られる。 チームベースの決定は個々の決定を上回ることは知られているが、個人間のバイアスは、非支配的な参加者が真の意見を述べることを制限するグループ間インタラクションにおいて、しばしば潜んでいる。 低コンセンサスと対人偏見という2つの問題を克服するため,ハチの生物群をモデルとしたソリューションを探索した。 3人の放射線科医と5人の放射線科医がリアルタイムで、目隠しで、膝関節MRI検査で半月板病変を悪化させ、デジタルスワムプラットフォームで協力した。 これらの意見投票は、臨床(関節鏡)と放射線学(老年者)の観察と比較された。 コンセンサス投票のirrは、多数派のirrと2人のコーホートの最も自信のある投票と比較され、放射線科医のcohortは、多数派投票よりスウォーム投票のirrが23%向上した。 多数決に対する3回投票におけるirrの23%の同様の改善が観察された。 5選挙区のスウォームは、過半数の票よりも32%高い改善率を示した。 swarmコンセンサス投票は、仕様を最大50%改善した。 スウォームコンセンサス投票は、放射線科医と住民のコホートの両方で個人と過半数の投票決定を上回った。 5-resident swarmは3-resident swarmよりもIRRが高かった。 参加者や住民の群れも、最先端のAIからの予測を上回った。 アルゴリズム。 デジタルスワーミングプラットフォームによる合意の改善と、参加者の判断の自由意思の表現を可能にし、優れた臨床パフォーマンスと堅牢なaiを実現する。 トレーニングラベル。

Radiologists today play a key role in making diagnostic decisions and labeling images for training A.I. algorithms. Low inter-reader reliability (IRR) can be seen between experts when interpreting challenging cases. While teams-based decisions are known to outperform individual decisions, inter-personal biases often creep up in group interactions which limit non-dominant participants from expressing true opinions. To overcome the dual problems of low consensus and inter-personal bias, we explored a solution modeled on biological swarms of bees. Two separate cohorts; three radiologists and five radiology residents collaborated on a digital swarm platform in real time and in a blinded fashion, grading meniscal lesions on knee MR exams. These consensus votes were benchmarked against clinical (arthroscopy) and radiological (senior-most radiologist) observations. The IRR of the consensus votes was compared to the IRR of the majority and most confident votes of the two cohorts.The radiologist cohort saw an improvement of 23% in IRR of swarm votes over majority vote. Similar improvement of 23% in IRR in 3-resident swarm votes over majority vote, was observed. The 5-resident swarm had an even higher improvement of 32% in IRR over majority vote. Swarm consensus votes also improved specificity by up to 50%. The swarm consensus votes outperformed individual and majority vote decisions in both the radiologists and resident cohorts. The 5-resident swarm had higher IRR than 3-resident swarm indicating positive effect of increased swarm size. The attending and resident swarms also outperformed predictions from a state-of-the-art A.I. algorithm. Utilizing a digital swarm platform improved agreement and allows participants to express judgement free intent, resulting in superior clinical performance and robust A.I. training labels.
翻訳日:2021-07-18 19:34:54 公開日:2021-06-26
# (参考訳) ガウス過程を用いた太陽電池光性能の確率論的解析 [全文訳有]

Probabilistic analysis of solar cell optical performance using Gaussian processes ( http://arxiv.org/abs/2107.07342v1 )

ライセンス: CC BY 4.0
Rahul Jaiswal and Manel Mart\'inez-Ram\'on and Tito Busani(参考訳) 本研究は、異なる機械学習に基づく予測手法のシリコンベースのテクスチャセルの性能評価への応用について検討する。 信頼境界領域の概念を導入し、この概念の利点を詳細に論じる。 その結果,予測値の不確かさを正確に把握したガウス過程を用いて,反射プロファイルと奥行き依存光発生プロファイルを正確に推定できること,また,所望の性能測定値に対してセル設計パラメータを推定できることが示唆された。

This work investigates application of different machine learning based prediction methodologies to estimate the performance of silicon based textured cells. Concept of confidence bound regions is introduced and advantages of this concept are discussed in detail. Results show that reflection profiles and depth dependent optical generation profiles can be accurately estimated using Gaussian processes with exact knowledge of uncertainty in the prediction values.It is also shown that cell design parameters can be estimated for a desired performance metric.
翻訳日:2021-07-18 19:23:12 公開日:2021-06-26
# (参考訳) 中国の小学校社会科における複数質問への回答 [全文訳有]

Answering Chinese Elementary School Social Study Multiple Choice Questions ( http://arxiv.org/abs/2107.02893v1 )

ライセンス: CC BY 4.0
Daniel Lee, Chao-Chun Liang, Keh-Yih Su(参考訳) 本稿では,中国の小学校社会科複数選択問題に答える新しいアプローチを提案する。 bertは理解タスクの読解において優れた性能を示したが、否定、オール・オブ・ザ・ボブ、ノー・オブ・ザ・ボブといった特定の種類の質問をうまく扱えていないことが判明した。 そこで我々は,この課題に対処するために,プレプロシーサとAnswer-SelectorモジュールでBERTをカスケードする新しいフレームワークを提案する。 実験の結果,提案手法はBERTの性能を効果的に向上し,追加モジュールでBERTを補足する可能性を示した。

We present a novel approach to answer the Chinese elementary school Social Study Multiple Choice questions. Although BERT has demonstrated excellent performance on Reading Comprehension tasks, it is found not good at handling some specific types of questions, such as Negation, All-of-the-above, and None-of-the-above. We thus propose a novel framework to cascade BERT with a Pre-Processor and an Answer-Selector modules to tackle the above challenges. Experimental results show the proposed approach effectively improves the performance of BERT, and thus demonstrate the feasibility of supplementing BERT with additional modules.
翻訳日:2021-07-11 12:47:43 公開日:2021-06-26
# 半教師型大規模データストリームのためのスケーラブル教師強制ネットワーク

Scalable Teacher Forcing Network for Semi-Supervised Large Scale Data Streams ( http://arxiv.org/abs/2107.02943v1 )

ライセンス: Link先を確認
Mahardhika Pratama, Choiru Za'in, Edwin Lughofer, Eric Pardede, Dwi A. P. Rahayu(参考訳) 大規模データストリーム問題は、従来のコンピューティングプラットフォームではスケーラブルに処理できない高速な情報フローを指す。 この問題はまた、完全な教師付きアルゴリズムの展開を不可能にする高価なラベル付けコストを課す。 一方で、半教師付き大規模データストリームの問題は、従来のシングルノードコンピューティング環境で設計されているだけでなく、完全に教師付きアプローチになっているため、文献ではほとんど検討されていない。 本稿では,ラベル付きサンプルと大規模データストリームの不足に対処すべく,教師強制ネットワーク (wescatternet) を弱監視する手法を提案する。 wescatternetはapache sparkの分散コンピューティングプラットフォームで開発されており、並列コンピューティングステージ後のモデル圧縮のためのデータフリーなモデル融合戦略を備えている。 グローバルおよびローカルドリフト問題に対処するオープンネットワーク構造を備え、部分的にラベル付けされたデータストリームを処理するためのデータ拡張、アノテーション、自動修正(da^3$)メソッドを統合する。 WeScatterNetの性能は,ラベル比が25 %の大規模データストリーム6つの問題において数値的に評価される。 完全な教師付き学習者と比較しても、ラベル比率が100\%の高い競争性能を示す。

The large-scale data stream problem refers to high-speed information flow which cannot be processed in scalable manner under a traditional computing platform. This problem also imposes expensive labelling cost making the deployment of fully supervised algorithms unfeasible. On the other hand, the problem of semi-supervised large-scale data streams is little explored in the literature because most works are designed in the traditional single-node computing environments while also being fully supervised approaches. This paper offers Weakly Supervised Scalable Teacher Forcing Network (WeScatterNet) to cope with the scarcity of labelled samples and the large-scale data streams simultaneously. WeScatterNet is crafted under distributed computing platform of Apache Spark with a data-free model fusion strategy for model compression after parallel computing stage. It features an open network structure to address the global and local drift problems while integrating a data augmentation, annotation and auto-correction ($DA^3$) method for handling partially labelled data streams. The performance of WeScatterNet is numerically evaluated in the six large-scale data stream problems with only $25\%$ label proportions. It shows highly competitive performance even if compared with fully supervised learners with $100\%$ label proportions.
翻訳日:2021-07-11 11:34:23 公開日:2021-06-26
# (参考訳) FCMI:特徴相関に基づくミスデータインプット [全文訳有]

FCMI: Feature Correlation based Missing Data Imputation ( http://arxiv.org/abs/2107.00100v1 )

ライセンス: CC BY 4.0
Prateek Mishra, Kumar Divya Mani, Prashant Johri, Dikhsa Arya(参考訳) 処理されたデータは洞察力に富み、粗いデータは難解である。 データ信頼性に対する深刻な脅威は、値の欠如である。 このようなデータは不正確な分析と誤った予測につながる。 fcmi(feature correlation based missing data imputation)と呼ばれる相関に基づくデータセットの欠落値をインデュートする効率的な手法を提案する。 私たちはデータセットの属性の相関について検討してきました。 提案アルゴリズムはデータセットの高相関属性を選択し,これらの属性を用いてパラメータが最適化された回帰モデルを構築し,データセットの相関性を維持する。 分類と回帰の両方の実験により,提案手法が既存の計算アルゴリズムより優れていることが示された。

Processed data are insightful, and crude data are obtuse. A serious threat to data reliability is missing values. Such data leads to inaccurate analysis and wrong predictions. We propose an efficient technique to impute the missing value in the dataset based on correlation called FCMI (Feature Correlation based Missing Data Imputation). We have considered the correlation of the attributes of the dataset, and that is our central idea. Our proposed algorithm picks the highly correlated attributes of the dataset and uses these attributes to build a regression model whose parameters are optimized such that the correlation of the dataset is maintained. Experiments conducted on both classification and regression datasets show that the proposed imputation technique outperforms existing imputation algorithms.
翻訳日:2021-07-04 19:59:33 公開日:2021-06-26
# Bayesian Joint Chance Constrained Optimization: Approximations and Statistical Consistency

Bayesian Joint Chance Constrained Optimization: Approximations and Statistical Consistency ( http://arxiv.org/abs/2106.12199v2 )

ライセンス: Link先を確認
Prateek Jaiswal, Harsha Honnappa, Vinayak A. Rao(参考訳) 本稿では,ベイズフレームワークにおける確率制約付き確率最適化問題について考察する。 ベイズの後部は、確率的最適化問題にデータと事前知識を組み込む原理的なメカニズムを持つ。 しかし、ベイズ後方の計算は一般に難解な問題であり、近似ベイズ計算に関する多くの文献を生み出している。 ここでは,確率制約最適化の文脈において,近似的な後方分布を用いて計算した最適値の統計的一貫性(適切な意味で)の問題に焦点をあてる。 この目的のために,パラメータ化制約最適化問題の最適値に対する最適値の収束性を示す頻繁な一貫性を厳密に証明する。 我々は、最適値の収束率を確率的に設定することで、これを補強する。 また,近似ベイズ確率最適化問題の凸可能性も証明する。 最後に,M/M/c待ち行列モデルに対する最適スタッフリング問題に対するアプローチの有用性を示す。

This paper considers data-driven chance-constrained stochastic optimization problems in a Bayesian framework. Bayesian posteriors afford a principled mechanism to incorporate data and prior knowledge into stochastic optimization problems. However, the computation of Bayesian posteriors is typically an intractable problem, and has spawned a large literature on approximate Bayesian computation. Here, in the context of chance-constrained optimization, we focus on the question of statistical consistency (in an appropriate sense) of the optimal value, computed using an approximate posterior distribution. To this end, we rigorously prove a frequentist consistency result demonstrating the convergence of the optimal value to the optimal value of a fixed, parameterized constrained optimization problem. We augment this by also establishing a probabilistic rate of convergence of the optimal value. We also prove the convex feasibility of the approximate Bayesian stochastic optimization problem. Finally, we demonstrate the utility of our approach on an optimal staffing problem for an M/M/c queueing model.
翻訳日:2021-07-04 19:44:15 公開日:2021-06-26
# (参考訳) tanet++: 3d検出のためのフィルタ付きpointcloudによるトリプルアテンションネットワーク [全文訳有]

TANet++: Triple Attention Network with Filtered Pointcloud on 3D Detection ( http://arxiv.org/abs/2106.15366v1 )

ライセンス: CC BY 4.0
Cong Ma(参考訳) TANetはKITTIおよびJRDBベンチマークにおける最先端の3Dオブジェクト検出手法の1つであり,3D検出の堅牢性と精度を向上させるために,Triple AttentionモジュールとCoarse-to-Fine Regressionモジュールを含む。 しかし、元の入力データ(ポイントクラウド)にはデータ収集中に多くのノイズが含まれているため、モデルのトレーニングにさらに影響を与えます。 例えば、物体はロボットから遠く離れており、センサーは十分なポイントクラウドを得るのが困難である。 オブジェクトがわずかなポイントクラウドしか含んでおらず、サンプルがトレーニング中に通常のサンプルと一緒にモデルに投入されると、検出者はオブジェクトやバックグラウンドに属するポイントクラウドの少ない個人を区別することが困難になる。 本稿では,tanetをトレーニングするための新しいトレーニング戦略を採用する3d検出の性能を向上させるために,tanet++を提案する。 弱いサンプルによるネガティブな影響を減らすために、トレーニング戦略はトレーニングデータをフィルタし、その後、tanet++は残りのデータによってトレーニングされる。 実験の結果, TANet++のAPスコアはJRDBベンチマークでTANetよりも8.98\%高いことがわかった。

TANet is one of state-of-the-art 3D object detection method on KITTI and JRDB benchmark, the network contains a Triple Attention module and Coarse-to-Fine Regression module to improve the robustness and accuracy of 3D Detection. However, since the original input data (point clouds) contains a lot of noise during collecting the data, which will further affect the training of the model. For example, the object is far from the robot, the sensor is difficult to obtain enough pointcloud. If the objects only contains few point clouds, and the samples are fed into model with the normal samples together during training, the detector will be difficult to distinguish the individual with few pointcloud belong to object or background. In this paper, we propose TANet++ to improve the performance on 3D Detection, which adopt a novel training strategy on training the TANet. In order to reduce the negative impact by the weak samples, the training strategy previously filtered the training data, and then the TANet++ is trained by the rest of data. The experimental results shows that AP score of TANet++ is 8.98\% higher than TANet on JRDB benchmark.
翻訳日:2021-07-01 09:55:55 公開日:2021-06-26
# 分類因子を持つビッグデータを用いたデータ駆動設計のためのスケーラブルガウスプロセス

Scalable Gaussian Processes for Data-Driven Design using Big Data with Categorical Factors ( http://arxiv.org/abs/2106.15356v1 )

ライセンス: Link先を確認
Liwei Wang, Akshay Iyer, Suraj Yerramilli, Daniel Apley, Ping Zhu, Wei Chen(参考訳) 科学と工学の問題は、しばしば理解と有望な設計の探索を支援するために人工知能を使用する必要がある。 ガウス過程(GP)は、使いやすく解釈可能な学習者として際立っているが、大きなデータセット、分類的な入力、複数の応答の調整が困難であり、多くのデータ駆動設計アプリケーションにとって共通の課題となっている。 本稿では,上記の課題を同時に解決するために,変動推論によって得られる潜在変数と関数を利用するgpモデルを提案する。 この手法は遅延変数ガウス過程(LVGP)モデルに基づいて構築され、分類因子を連続的な潜在空間にマッピングすることで、混合変数データセットのGPモデリングを可能にする。 変分推論をLVGPモデルに拡張することにより、大規模なトレーニングデータセットは、スケーラビリティ問題に対処するための小さなインジェクションポイントセットに置き換えられる。 出力応答ベクトルは独立した潜在関数の線形結合によって表現され、異なる振る舞いを持つ複数の応答を扱う柔軟なカーネル構造を形成する。 比較研究により,提案手法は10^4以上のデータポイントを持つ大規模データセットに対して,高パラメータチューニングを必要とせず,最先端の機械学習手法よりも優れていることが示された。 さらに, メタマテリアルや材料設計における建築ブロックの構成要素や要素選択など, カテゴリー的要因の影響を解明するために, 解釈可能な潜伏空間が得られた。 本手法は, 3元系酸化物材料の機械学習と, 周期的マイクロ構造と複数材料を有する多スケール適合機構のトポロジー最適化に有効である。

Scientific and engineering problems often require the use of artificial intelligence to aid understanding and the search for promising designs. While Gaussian processes (GP) stand out as easy-to-use and interpretable learners, they have difficulties in accommodating big datasets, categorical inputs, and multiple responses, which has become a common challenge for a growing number of data-driven design applications. In this paper, we propose a GP model that utilizes latent variables and functions obtained through variational inference to address the aforementioned challenges simultaneously. The method is built upon the latent variable Gaussian process (LVGP) model where categorical factors are mapped into a continuous latent space to enable GP modeling of mixed-variable datasets. By extending variational inference to LVGP models, the large training dataset is replaced by a small set of inducing points to address the scalability issue. Output response vectors are represented by a linear combination of independent latent functions, forming a flexible kernel structure to handle multiple responses that might have distinct behaviors. Comparative studies demonstrate that the proposed method scales well for large datasets with over 10^4 data points, while outperforming state-of-the-art machine learning methods without requiring much hyperparameter tuning. In addition, an interpretable latent space is obtained to draw insights into the effect of categorical factors, such as those associated with building blocks of architectures and element choices in metamaterial and materials design. Our approach is demonstrated for machine learning of ternary oxide materials and topology optimization of a multiscale compliant mechanism with aperiodic microstructures and multiple materials.
翻訳日:2021-06-30 15:41:15 公開日:2021-06-26
# 多段階最適化に基づく対人訓練

Multi-stage Optimization based Adversarial Training ( http://arxiv.org/abs/2106.15357v1 )

ライセンス: Link先を確認
Xiaosen Wang, Chuanbiao Song, Liwei Wang, Kun He(参考訳) 対向ロバスト性の分野では、対向ロバストモデルの開発を迅速に行うために、単段対向トレーニングを採用するのが一般的である。 しかし、一段階の逆行訓練は破滅的なオーバーフィッティングを引き起こす可能性が高く、いくつかの訓練期間を経て、敵の強固さを継続的に向上させる強力な逆行例を生成することは困難である。 本研究は, 単段攻撃訓練中に多段階攻撃例を導入することにより, 破滅的な過剰フィッティングを回避することを目的とする。 そこで本研究では,複数段階の対向例を生成する際の大きなトレーニングオーバーヘッドのバランスをとるために,混合良性例,単段階対向例,多段階対向例を段階的に段階的に訓練する多段階最適化型対向学習(moat)法を提案する。 このように、トレーニング全体のオーバーヘッドは大幅に削減されるが、モデルは壊滅的なオーバーフィッティングを避けることができる。 CIFAR-10とCIFAR-100データセットの大規模な実験により、同様の量のトレーニングオーバーヘッドの下で、提案したMOATは、単一ステップまたは複数ステップの対向訓練方法よりも堅牢性が高いことが示された。

In the field of adversarial robustness, there is a common practice that adopts the single-step adversarial training for quickly developing adversarially robust models. However, the single-step adversarial training is most likely to cause catastrophic overfitting, as after a few training epochs it will be hard to generate strong adversarial examples to continuously boost the adversarial robustness. In this work, we aim to avoid the catastrophic overfitting by introducing multi-step adversarial examples during the single-step adversarial training. Then, to balance the large training overhead of generating multi-step adversarial examples, we propose a Multi-stage Optimization based Adversarial Training (MOAT) method that periodically trains the model on mixed benign examples, single-step adversarial examples, and multi-step adversarial examples stage by stage. In this way, the overall training overhead is reduced significantly, meanwhile, the model could avoid catastrophic overfitting. Extensive experiments on CIFAR-10 and CIFAR-100 datasets demonstrate that under similar amount of training overhead, the proposed MOAT exhibits better robustness than either single-step or multi-step adversarial training methods.
翻訳日:2021-06-30 15:38:27 公開日:2021-06-26
# 複合機械学習パイプラインの設計のための自動進化アプローチ

Automated Evolutionary Approach for the Design of Composite Machine Learning Pipelines ( http://arxiv.org/abs/2106.15397v1 )

ライセンス: Link先を確認
Nikolay O. Nikitin, Pavel Vychuzhanin, Mikhail Sarafanov, Iana S. Polonskaia, Ilia Revin, Irina V. Barabanova, Gleb Maximov, Anna V. Kalyuzhnaya, Alexander Boukhanovsky(参考訳) 実世界のタスクに対する機械学習手法の有効性は、モデリングパイプラインの適切な構造に依存する。 提案手法は、モデルとデータ操作からなる計算ワークフローに相当する複合機械学習パイプラインの設計を自動化することを目的としている。 このアプローチは、自動機械学習とワークフロー管理システムの両方の主要なアイデアを組み合わせたものだ。 パイプラインをカスタマイズ可能なグラフベースの構造で設計し、得られた結果を分析して再生する。 進化的アプローチはパイプライン構造の柔軟な識別に使用される。 感度解析、原子化、ハイパーパラメータチューニングのための追加のアルゴリズムが実装され、アプローチの有効性が向上する。 また、このアプローチのソフトウェア実装はオープンソースフレームワークとして提示されます。 実験のセットは、異なるデータセットとタスク(分類、回帰、時系列予測)に対して実行される。 その結果,提案手法の正当性と有効性は,最先端の競合相手やベースラインソリューションと比較して検証した。

The effectiveness of the machine learning methods for real-world tasks depends on the proper structure of the modeling pipeline. The proposed approach is aimed to automate the design of composite machine learning pipelines, which is equivalent to computation workflows that consist of models and data operations. The approach combines key ideas of both automated machine learning and workflow management systems. It designs the pipelines with a customizable graph-based structure, analyzes the obtained results, and reproduces them. The evolutionary approach is used for the flexible identification of pipeline structure. The additional algorithms for sensitivity analysis, atomization, and hyperparameter tuning are implemented to improve the effectiveness of the approach. Also, the software implementation on this approach is presented as an open-source framework. The set of experiments is conducted for the different datasets and tasks (classification, regression, time series forecasting). The obtained results confirm the correctness and effectiveness of the proposed approach in the comparison with the state-of-the-art competitors and baseline solutions.
翻訳日:2021-06-30 15:23:03 公開日:2021-06-26
# 状態ベース領域理論を用いた非局所制約プロセスモデルの自動修復

Automated Repair of Process Models with Non-Local Constraints Using State-Based Region Theory ( http://arxiv.org/abs/2106.15398v1 )

ライセンス: Link先を確認
Anna Kalenkova, Josep Carmona, Artem Polyvyanyy, Marcello La Rosa(参考訳) 最先端プロセス発見手法はイベントログから自由選択プロセスモデルを構築する。 したがって、構築されたモデルはイベント間の間接的な依存関係を考慮しない。 入力動作が自由選択でない場合、これらのメソッドは正確なモデルを提供しない。 本稿では,非自由選択構造を地域的手法で発見し,非自由選択構造を付加することで自由選択過程モデルを改善する手法を提案する。 これにより、既存のプロセス発見手法の性能と、採用されている基本合成技術の精度を享受することができる。 提案手法は,イベントログに対する適合性を保ちながら,間接的依存関係が存在する場合の精度を向上する。 このアプローチは、合成データセットと実生活データセットの両方で実装およびテストされている。 その結果,イベントログから検出したモデルの修復に有効性が示された。

State-of-the-art process discovery methods construct free-choice process models from event logs. Consequently, the constructed models do not take into account indirect dependencies between events. Whenever the input behaviour is not free-choice, these methods fail to provide a precise model. In this paper, we propose a novel approach for enhancing free-choice process models by adding non-free-choice constructs discovered a-posteriori via region-based techniques. This allows us to benefit from the performance of existing process discovery methods and the accuracy of the employed fundamental synthesis techniques. We prove that the proposed approach preserves fitness with respect to the event log while improving the precision when indirect dependencies exist. The approach has been implemented and tested on both synthetic and real-life datasets. The results show its effectiveness in repairing models discovered from event logs.
翻訳日:2021-06-30 15:22:00 公開日:2021-06-26
# SpreadsheetCoder:半構造化コンテキストによる予測

SpreadsheetCoder: Formula Prediction from Semi-structured Context ( http://arxiv.org/abs/2106.15339v1 )

ライセンス: Link先を確認
Xinyun Chen, Petros Maniatis, Rishabh Singh, Charles Sutton, Hanjun Dai, Max Lin, Denny Zhou(参考訳) スプレッドシートの公式予測は多くの実世界の応用において重要なプログラム合成問題である。 従来の作品は、通常スプレッドシートの式合成の仕様として入出力の例を使用しており、各入出力のペアがスプレッドシートの別々の行をシミュレートする。 しかし、この定式化は現実世界のスプレッドシートのリッチなコンテキストを完全に捉えていない。 まず、スプレッドシートのデータエントリはテーブルとして整理されるので、列と列が必ずしも独立しているとは限らない。 さらに、多くのスプレッドシートテーブルには、セルデータの高レベルな記述を提供するヘッダが含まれている。 しかし、以前の合成アプローチではヘッダーを仕様の一部として考慮していない。 本稿では,ヘッダと半構造化表データの両方を含む表的なコンテキストから表計算式を合成する最初の手法を提案する。 特に、行ベースと列ベースの両方のフォーマットで表型コンテキストを表現するbertベースのモデルアーキテクチャであるスプレッドシートコーダを提案する。 私たちは、スプレッドシートの大規模なデータセットでモデルをトレーニングし、スプレッドシートコーダが42.51%のtop-1予測精度を達成することを実証しました。 ルールベースのシステムと比較して、SpreadsheetCoderは、Google Sheetsで公式を作成するユーザを82%増やす。

Spreadsheet formula prediction has been an important program synthesis problem with many real-world applications. Previous works typically utilize input-output examples as the specification for spreadsheet formula synthesis, where each input-output pair simulates a separate row in the spreadsheet. However, this formulation does not fully capture the rich context in real-world spreadsheets. First, spreadsheet data entries are organized as tables, thus rows and columns are not necessarily independent from each other. In addition, many spreadsheet tables include headers, which provide high-level descriptions of the cell data. However, previous synthesis approaches do not consider headers as part of the specification. In this work, we present the first approach for synthesizing spreadsheet formulas from tabular context, which includes both headers and semi-structured tabular data. In particular, we propose SpreadsheetCoder, a BERT-based model architecture to represent the tabular context in both row-based and column-based formats. We train our model on a large dataset of spreadsheets, and demonstrate that SpreadsheetCoder achieves top-1 prediction accuracy of 42.51%, which is a considerable improvement over baselines that do not employ rich tabular context. Compared to the rule-based system, SpreadsheetCoder assists 82% more users in composing formulas on Google Sheets.
翻訳日:2021-06-30 15:15:10 公開日:2021-06-26
# シーケンス学習を用いたスマートホームアプリケーションのための短期負荷予測

Short-Term Load Forecasting for Smart HomeAppliances with Sequence to Sequence Learning ( http://arxiv.org/abs/2106.15348v1 )

ライセンス: Link先を確認
Mina Razghandi, Hao Zhou, Melike Erol-Kantarci, Damla Turgut(参考訳) 住宅エネルギー管理において,アプライアンスレベルの負荷予測が重要な役割を担っている。 本稿では,家電製品の負荷プロファイルをキャプチャするlstmベースのシーケンス・ツー・シーケンス(seq2seq)学習モデルを提案する。 我々は,4つの住宅から収集した実データを用いて,提案手法を,VARMA,Dilated One dimensional Convolutional Neural Network,LSTMモデルという3つの他の手法と比較した。

Appliance-level load forecasting plays a critical role in residential energy management, besides having significant importance for ancillary services performed by the utilities. In this paper, we propose to use an LSTM-based sequence-to-sequence (seq2seq) learning model that can capture the load profiles of appliances. We use a real dataset collected fromfour residential buildings and compare our proposed schemewith three other techniques, namely VARMA, Dilated One Dimensional Convolutional Neural Network, and an LSTM model.The results show that the proposed LSTM-based seq2seq model outperforms other techniques in terms of prediction error in most cases.
翻訳日:2021-06-30 15:14:50 公開日:2021-06-26
# (参考訳) 人工知能を用いたモバイルネットワーク最適化のための量子コンピューティング [全文訳有]

Quantum Computing for Artificial Intelligence Based Mobile Network Optimization ( http://arxiv.org/abs/2106.13917v1 )

ライセンス: CC BY 4.0
Furqan Ahmed and Petri M\"ah\"onen(参考訳) 本稿では,人工知能における制約満足度問題の概念を用いて,特定の無線アクセスネットワーク最適化問題をモデル化し,量子コンピュータを用いて大規模に解く方法について述べる。 ケーススタディでは、重要なLTE/NR物理ランダムアクセスチャネル構成に関連する自動化ユースケースであるルートシーケンスインデックス(RSI)割り当て問題について論じる。 我々は、商用モバイルネットワークから取得したデータを用いて構築された二次的非制約バイナリ最適化(qubo)問題としてrsi割り当てを定式化し、クラウドベースの商用量子コンピューティングプラットフォームを用いて解く。 その結果,quantum annealing solver はコンフリクトフリー rsis を割り当てることに成功した。 良く知られたヒューリスティックスと比較すると、いくつかの古典的アルゴリズムは解の質や計算時間に関してさらに効果的である。 量子でない利点は、現在の実装が半量子概念証明アルゴリズムであるという事実にある。 また、結果は使用される量子コンピュータの種類にも依存する。 それでも、提案するフレームワークは非常に柔軟であり、モバイルネットワーク自動化における量子コンピューティングのパワーを活用する大きな可能性を秘めている。

In this paper, we discuss how certain radio access network optimization problems can be modelled using the concept of constraint satisfaction problems in artificial intelligence, and solved at scale using a quantum computer. As a case study, we discuss root sequence index (RSI) assignment problem - an important LTE/NR physical random access channel configuration related automation use-case. We formulate RSI assignment as quadratic unconstrained binary optimization (QUBO) problem constructed using data ingested from a commercial mobile network, and solve it using a cloud-based commercially available quantum computing platform. Results show that quantum annealing solver can successfully assign conflict-free RSIs. Comparison with well-known heuristics reveals that some classic algorithms are even more effective in terms of solution quality and computation time. The non-quantum advantage is due to the fact that current implementation is a semi-quantum proof-of-concept algorithm. Also, the results depend on the type of quantum computer used. Nevertheless, the proposed framework is highly flexible and holds tremendous potential for harnessing the power of quantum computing in mobile network automation.
翻訳日:2021-06-30 13:17:18 公開日:2021-06-26
# (参考訳) ハイパーグラフの繰り返し予測 [全文訳有]

Recurrently Predicting Hypergraphs ( http://arxiv.org/abs/2106.13919v1 )

ライセンス: CC BY 4.0
David W. Zhang, Gertjan J. Burghouts, Cees G. M. Snoek(参考訳) 本研究は、与えられた頂点集合に対するハイパーグラフのリレーショナル構造の予測を、素粒子物理学、生体システム、その他の複雑な組合せ問題への応用に共通している。 問題は、$n$要素の集合に対して$\mathcal{O}(2^n)$のスケーリングが可能なマルチウェイ関係(ハイパーエッジ)の数から生じる。 すべての関係に対してインジケータテンソルを格納することは、中程度の大きさの$n$に対して既に難解であり、ハイパーエッジ接続の頂点数を制限する以前のアプローチが促される。 代わりに,解の最初の推測を反復的に精算することで入射行列を予測できる再帰的ハイパーグラフニューラルネットワークを提案する。 ほとんどのハイパーグラフは疎結合であり、メモリ要求を$\mathcal{O}(nk)$に減らし、$k$は実際に存在するエッジの最大数の正のエッジである。 改良ステップの長大化列の訓練から線形に増大するメモリコストを正すために,ランダムにサンプリングされたサブシーケンスに対して時間を通じてバックプロパゲーションを適用するアルゴリズムを提案する。 実験により,本手法は性能低下を伴わずに内在的複雑性の増加と一致し,最先端モデルと比較して優れた性能を示す。

This work considers predicting the relational structure of a hypergraph for a given set of vertices, as common for applications in particle physics, biological systems and other complex combinatorial problems. A problem arises from the number of possible multi-way relationships, or hyperedges, scaling in $\mathcal{O}(2^n)$ for a set of $n$ elements. Simply storing an indicator tensor for all relationships is already intractable for moderately sized $n$, prompting previous approaches to restrict the number of vertices a hyperedge connects. Instead, we propose a recurrent hypergraph neural network that predicts the incidence matrix by iteratively refining an initial guess of the solution. We leverage the property that most hypergraphs of interest are sparsely connected and reduce the memory requirement to $\mathcal{O}(nk)$, where $k$ is the maximum number of positive edges, i.e., edges that actually exist. In order to counteract the linearly growing memory cost from training a lengthening sequence of refinement steps, we further propose an algorithm that applies backpropagation through time on randomly sampled subsequences. We empirically show that our method can match an increase in the intrinsic complexity without a performance decrease and demonstrate superior performance compared to state-of-the-art models.
翻訳日:2021-06-30 11:22:53 公開日:2021-06-26
# (参考訳) オブジェクト検出器の反転と理解 [全文訳有]

Inverting and Understanding Object Detectors ( http://arxiv.org/abs/2106.13933v1 )

ライセンス: CC BY 4.0
Ang Cao, Justin Johnson(参考訳) コンピュータビジョンの中核的な問題として、オブジェクト検出の性能はここ数年で劇的に向上した。 その印象的な性能にもかかわらず、物体検出器は解釈可能性の欠如に苦しむ。 可視化技術は、他の深層学習モデルによる決定をイントロスペクションするために開発され、広く応用されているが、物体検出器の可視化は過小評価されている。 本稿では,現代の物体検出装置を理解するための主要なツールとしてインバージョンを用い,レイアウトインバージョンに対する最適化に基づくアプローチを開発し,対象の望ましい構成を含むとして,訓練された検出器が認識する合成画像を生成する。 我々は, 様々な現代の物体検出器にレイアウトインバージョン技術を適用し, さらに検証実験を行い, 分類と回帰の質的に異なる特徴に依存し, 一般に共起する物体の標準的モチーフを学習し, 異なる大きさの物体を認識するためにディファレントな視覚的手がかりを用いる。 私たちの洞察が、実践者がオブジェクト検出を改善するのに役立つことを願っています。

As a core problem in computer vision, the performance of object detection has improved drastically in the past few years. Despite their impressive performance, object detectors suffer from a lack of interpretability. Visualization techniques have been developed and widely applied to introspect the decisions made by other kinds of deep learning models; however, visualizing object detectors has been underexplored. In this paper, we propose using inversion as a primary tool to understand modern object detectors and develop an optimization-based approach to layout inversion, allowing us to generate synthetic images recognized by trained detectors as containing a desired configuration of objects. We reveal intriguing properties of detectors by applying our layout inversion technique to a variety of modern object detectors, and further investigate them via validation experiments: they rely on qualitatively different features for classification and regression; they learn canonical motifs of commonly co-occurring objects; they use diff erent visual cues to recognize objects of varying sizes. We hope our insights can help practitioners improve object detectors.
翻訳日:2021-06-30 11:06:32 公開日:2021-06-26
# (参考訳) 一段階クロスドメイン検出のためのドメイン適応yolo [全文訳有]

Domain Adaptive YOLO for One-Stage Cross-Domain Detection ( http://arxiv.org/abs/2106.13939v1 )

ライセンス: CC BY 4.0
Shizhao Zhang, Hongya Tuo, Jian Hu, Zhongliang Jing(参考訳) ドメインシフトは、オブジェクト検出者が現実世界のアプリケーションにうまく一般化する上で、大きな課題である。 2段階検出器に対する領域適応の新しい技術は、この問題に取り組むのに役立つ。 しかし、長期消費のため、2段検出器は産業用途の第一選択ではない。 本稿では,一段検出器のクロスドメイン性能を向上させるために,新しいドメイン適応型YOLO(DA-YOLO)を提案する。 画像レベルの特徴アライメントは、テクスチャなどのローカル機能に厳密にマッチし、照明のようなグローバル機能にゆるやかにマッチする。 マルチスケールのインスタンスレベルの特徴アライメントは、オブジェクトの外観や視点のバリエーションなど、インスタンスドメインシフトを効果的に削減するために提示される。 これらのドメイン分類器に対するコンセンサス正規化は、ネットワークがドメイン不変検出を生成するのに役立つ。 提案手法を,Cityscapes,KITTI,SI M10Kなどの一般的なデータセット上で評価する。 この結果は、異なるクロスドメインシナリオでテストした場合の大幅な改善を示している。

Domain shift is a major challenge for object detectors to generalize well to real world applications. Emerging techniques of domain adaptation for two-stage detectors help to tackle this problem. However, two-stage detectors are not the first choice for industrial applications due to its long time consumption. In this paper, a novel Domain Adaptive YOLO (DA-YOLO) is proposed to improve cross-domain performance for one-stage detectors. Image level features alignment is used to strictly match for local features like texture, and loosely match for global features like illumination. Multi-scale instance level features alignment is presented to reduce instance domain shift effectively , such as variations in object appearance and viewpoint. A consensus regularization to these domain classifiers is employed to help the network generate domain-invariant detections. We evaluate our proposed method on popular datasets like Cityscapes, KITTI, SIM10K and etc.. The results demonstrate significant improvement when tested under different cross-domain scenarios.
翻訳日:2021-06-30 10:51:06 公開日:2021-06-26
# (参考訳) 身体的視覚言語計画における中核的課題

Core Challenges in Embodied Vision-Language Planning ( http://arxiv.org/abs/2106.13948v1 )

ライセンス: CC BY 4.0
Jonathan Francis, Nariaki Kitamura, Felix Labelle, Xiaopeng Lu, Ingrid Navarro, Jean Oh(参考訳) マルチモーダル機械学習と人工知能(AI)の分野での最近の進歩は、コンピュータビジョン、自然言語処理、エンボダイドAIの交差点における挑戦的なタスクの開発につながっている。 多くのアプローチや過去の調査はこれらの次元の1つまたは2つを特徴付けるが、3つの次元の中央に全体論的解析は存在していない。 さらに、これらのトピックの組み合わせが検討されたとしても、例えば現在のアーキテクチャメソッドの記述に重点が置かれており、この分野における高いレベルの課題や機会を示すのとは対照的である。 本稿では,コンピュータビジョンと自然言語を併用した,顕著なナビゲーションと操作の問題群であるEmbodied Vision-Language Planning (EVLP)タスクについて論じる。 我々は,これらのタスクを統一し,新しいアルゴリズムアプローチ,メトリクス,シミュレーション環境,およびevlpタスクに使用されるデータセットの詳細な分析と比較を行う分類法を提案する。 最後に,新しいEVLPの課題として,モデル一般化性の実現と実世界の展開の促進を目的としたタスク構築を提唱する。

Recent advances in the areas of multimodal machine learning and artificial intelligence (AI) have led to the development of challenging tasks at the intersection of Computer Vision, Natural Language Processing, and Embodied AI. Whereas many approaches and previous survey pursuits have characterised one or two of these dimensions, there has not been a holistic analysis at the center of all three. Moreover, even when combinations of these topics are considered, more focus is placed on describing, e.g., current architectural methods, as opposed to also illustrating high-level challenges and opportunities for the field. In this survey paper, we discuss Embodied Vision-Language Planning (EVLP) tasks, a family of prominent embodied navigation and manipulation problems that jointly use computer vision and natural language. We propose a taxonomy to unify these tasks and provide an in-depth analysis and comparison of the new and current algorithmic approaches, metrics, simulated environments, as well as the datasets used for EVLP tasks. Finally, we present the core challenges that we believe new EVLP works should seek to address, and we advocate for task construction that enables model generalizability and furthers real-world deployment.
翻訳日:2021-06-30 10:40:36 公開日:2021-06-26
# (参考訳) 遺伝的アルゴリズムを用いた日射予測 [全文訳有]

Solar Irradiation Forecasting using Genetic Algorithms ( http://arxiv.org/abs/2106.13956v1 )

ライセンス: CC BY 4.0
V. Gunasekaran, K.K. Kovi, S. Arja and R. Chimata(参考訳) 再生可能エネルギー予測は電力グリッドへのコントリビューションの継続的な増加により、より重要になっている。 太陽エネルギーは再生可能エネルギーの最も重要な貢献の1つであり、太陽光照射に依存している。 電力グリッドの効率的な管理には、高精度な太陽光照射を予測する予測モデルが必要である。 本研究では, 線形回帰, 極勾配ブースティング, 遺伝的アルゴリズム最適化などの機械学習技術を用いて, 太陽光照射の予測を行う。 トレーニングと検証に使用されるデータは、SURFRADネットワークの一部であるアメリカ合衆国の3つの異なる地理的ステーションから記録される。 GHI(Global Horizontal Index)は、構築および比較されたモデルに対して予測される。 遺伝的アルゴリズム最適化がxgbに適用され、太陽照射予測の精度がさらに向上する。

Renewable energy forecasting is attaining greater importance due to its constant increase in contribution to the electrical power grids. Solar energy is one of the most significant contributors to renewable energy and is dependent on solar irradiation. For the effective management of electrical power grids, forecasting models that predict solar irradiation, with high accuracy, are needed. In the current study, Machine Learning techniques such as Linear Regression, Extreme Gradient Boosting and Genetic Algorithm Optimization are used to forecast solar irradiation. The data used for training and validation is recorded from across three different geographical stations in the United States that are part of the SURFRAD network. A Global Horizontal Index (GHI) is predicted for the models built and compared. Genetic Algorithm Optimization is applied to XGB to further improve the accuracy of solar irradiation prediction.
翻訳日:2021-06-30 10:39:33 公開日:2021-06-26
# (参考訳) OffRoadTranSeg: OffRoad環境上のトランスフォーマーを用いた半スーパービジョンセグメンテーション [全文訳有]

OffRoadTranSeg: Semi-Supervised Segmentation using Transformers on OffRoad environments ( http://arxiv.org/abs/2106.13963v1 )

ライセンス: CC0 1.0
Anukriti Singh, Kartikeya Singh, and P.B. Sujit(参考訳) トランスフォーマーを用いた非構造化屋外環境における半教師ありセグメンテーションのための最初のエンドツーエンドフレームワークであるoffroadtransegを提案する。 オフロードセグメンテーションは、自動運転で広く使われているシーン理解アプローチである。 一般的なオフロードセグメンテーション手法は、完全に連結された畳み込み層と大きなラベル付きデータを使用することであるが、クラス不均衡のため、いくつかのミスマッチがあり、いくつかのクラスは検出されない。 我々のアプローチは、半教師付き方式でオフロードセグメンテーションを行うことである。 奥行き推定を用いたラベル付けのための自己教師付きデータ収集を用いたオフロードデータセットの微調整に自己教師付きビジョントランスフォーマを使用するモデルを提供することを目的としている。 提案手法はRELLIS-3DおよびRUGDオフロードデータセット上で検証される。 実験の結果、OffRoadTranSegはアートモデルの他の状態よりも優れており、RELLIS-3Dクラス不均衡の問題も解決していることがわかった。

We present OffRoadTranSeg, the first end-to-end framework for semi-supervised segmentation in unstructured outdoor environment using transformers and automatic data selection for labelling. The offroad segmentation is a scene understanding approach that is widely used in autonomous driving. The popular offroad segmentation method is to use fully connected convolution layers and large labelled data, however, due to class imbalance, there will be several mismatches and also some classes may not be detected. Our approach is to do the task of offroad segmentation in a semi-supervised manner. The aim is to provide a model where self supervised vision transformer is used to fine-tune offroad datasets with self-supervised data collection for labelling using depth estimation. The proposed method is validated on RELLIS-3D and RUGD offroad datasets. The experiments show that OffRoadTranSeg outperformed other state of the art models, and also solves the RELLIS-3D class imbalance problem.
翻訳日:2021-06-30 10:34:09 公開日:2021-06-26
# (参考訳) 映像中のオンライン行動検出のための時間的文脈と人間の運動ダイナミクスの探索 [全文訳有]

Exploring Temporal Context and Human Movement Dynamics for Online Action Detection in Videos ( http://arxiv.org/abs/2106.13967v1 )

ライセンス: CC BY 4.0
Vasiliki I. Vasileiou, Nikolaos Kardaris, Petros Maragos(参考訳) 現在、人間とロボットの相互作用は常に拡大しており、人間のモーション認識アプリケーションがリアルタイムに動作するのにますます必要となっている。 しかし、時間的行動の検出と認識に関するほとんどの研究は、これらのタスクをオフラインで実行している。 時間分割されたビデオは 全体として分類されます 本稿では,最近提案されたテンポラル・リカレント・ネットワークの枠組みに基づき,オンライン行動検出に時間的文脈と人間の動きのダイナミクスを効果的に活用する方法を考察する。 提案手法は最先端アーキテクチャを多用し,抽出した特徴を適切に組み合わせ,動作検出を改善する。 本手法は,時間的行動局所化のための挑戦的かつ広く使用されるデータセットであるthums'14を用いて評価する。 実験の結果,THUMOS'14では,ベースライン法よりも有意な改善が得られた。

Nowadays, the interaction between humans and robots is constantly expanding, requiring more and more human motion recognition applications to operate in real time. However, most works on temporal action detection and recognition perform these tasks in offline manner, i.e. temporally segmented videos are classified as a whole. In this paper, based on the recently proposed framework of Temporal Recurrent Networks, we explore how temporal context and human movement dynamics can be effectively employed for online action detection. Our approach uses various state-of-the-art architectures and appropriately combines the extracted features in order to improve action detection. We evaluate our method on a challenging but widely used dataset for temporal action localization, THUMOS'14. Our experiments show significant improvement over the baseline method, achieving state-of-the art results on THUMOS'14.
翻訳日:2021-06-30 10:22:26 公開日:2021-06-26
# (参考訳) BERTモデルの差分プライバシーとフェデレーション学習のベンチマーク [全文訳有]

Benchmarking Differential Privacy and Federated Learning for BERT Models ( http://arxiv.org/abs/2106.13973v1 )

ライセンス: CC BY 4.0
Priyam Basu, Tiasa Singha Roy, Rakshit Naidu, Zumrut Muftuoglu, Sahib Singh, Fatemehsadat Mireshghallah(参考訳) 自然言語処理(NLP)技術は、人の発話の収集を用いてうつ病などの医学的症状の診断を助けることができる。 うつ病は深刻な医療疾患であり、自分の感情や思考、行動に悪影響を及ぼし、感情や身体的な問題を引き起こす。 このようなデータの繊細な性質のため、そのようなデータでモデルを扱い、訓練するためのプライバシー対策を講ずる必要がある。 本研究では,分散学習(FL)と集中学習(FL)の双方において,差分プライバシー(DP)の応用が文脈型言語モデル(BERT, ALBERT, RoBERTa, DistilBERT)の訓練に与える影響について検討する。 NLPモデルをプライベートにトレーニングする方法や、より望ましいプライバシユーティリティトレードオフを提供するアーキテクチャやセットアップについて、洞察を提供する。 この研究は、医療履歴をプライベートに保つために、将来の医療とメンタルヘルスの研究で使われるように助言しています。 そこで本研究のオープンソース実装について述べる。

Natural Language Processing (NLP) techniques can be applied to help with the diagnosis of medical conditions such as depression, using a collection of a person's utterances. Depression is a serious medical illness that can have adverse effects on how one feels, thinks, and acts, which can lead to emotional and physical problems. Due to the sensitive nature of such data, privacy measures need to be taken for handling and training models with such data. In this work, we study the effects that the application of Differential Privacy (DP) has, in both a centralized and a Federated Learning (FL) setup, on training contextualized language models (BERT, ALBERT, RoBERTa and DistilBERT). We offer insights on how to privately train NLP models and what architectures and setups provide more desirable privacy utility trade-offs. We envisage this work to be used in future healthcare and mental health studies to keep medical history private. Therefore, we provide an open-source implementation of this work.
翻訳日:2021-06-30 10:12:22 公開日:2021-06-26
# (参考訳) セマンティックス対応マルチモーダルドメイン翻訳:パノラマカラー画像へのLiDAR点雲の形成 [全文訳有]

Semantics-aware Multi-modal Domain Translation:From LiDAR Point Clouds to Panoramic Color Images ( http://arxiv.org/abs/2106.13974v1 )

ライセンス: CC BY 4.0
Tiago Cortinhal, Fatih Kurnaz, Eren Aksoy(参考訳) 本研究では,センサの異なるモダリティ間のドメイン変換問題に一意なデータ形式で対処する,シンプルかつ効果的なフレームワークを提案する。 シーンのセマンティクスにのみ依存することで、モジュラー生成フレームワークは、与えられたフル3D LiDAR点雲からパノラマカラー画像を初めて合成することができる。 このフレームワークは、最初に球面に投影されたポイントクラウドのセマンティックセグメンテーションから始まる。 対応するカメラ画像に同じ意味セグメンテーションを適用する。 次に,新たな条件生成モデルを用いて,予測したlidarセグメントマップをカメラ画像対応マップに変換する。 そして、生成された画像セグメントを処理してパノラマシーン画像を描画する。 SemanticKittiデータセットの詳細な定量的評価を行い、提案するフレームワークが他の強力なベースラインモデルより優れていることを示す。 ソースコードはhttps://github.com/h almstad-University/T ITAN-NETで公開されています。

In this work, we present a simple yet effective framework to address the domain translation problem between different sensor modalities with unique data formats. By relying only on the semantics of the scene, our modular generative framework can, for the first time, synthesize a panoramic color image from a given full 3D LiDAR point cloud. The framework starts with semantic segmentation of the point cloud, which is initially projected onto a spherical surface. The same semantic segmentation is applied to the corresponding camera image. Next, our new conditional generative model adversarially learns to translate the predicted LiDAR segment maps to the camera image counterparts. Finally, generated image segments are processed to render the panoramic scene images. We provide a thorough quantitative evaluation on the SemanticKitti dataset and show that our proposed framework outperforms other strong baseline models. Our source code is available at https://github.com/h almstad-University/T ITAN-NET
翻訳日:2021-06-30 09:57:56 公開日:2021-06-26
# (参考訳) feシミュレーションと深層学習による織物の記述的モデリング [全文訳有]

Descriptive Modeling of Textiles using FE Simulations and Deep Learning ( http://arxiv.org/abs/2106.13982v1 )

ライセンス: CC BY 4.0
Arturo Mendoza, Roger Trullo, Yanneck Wielhorski(参考訳) 本研究では繊維補強の直接パラメトリゼーション(例えばfeメッシュ)を達成するために織物複合材料の糸の幾何学的特徴を抽出する新規かつ完全自動化手法を提案する。 したがって,本研究の目的は,トモグラフィ画像から糸のセグメンテーションを行うだけでなく,布の完全な記述的モデリングを提供することである。 このように、この直接的なアプローチは、中間表現としてボクセルマスクを使用した以前の手法を改良し、次いで再処理(ヤルエンベロープ推定)を行う。 提案手法は2つのディープニューラルネットワークアーキテクチャ(u-netとmask rcnn)を用いる。 まず、対応するFEシミュレーションから合成CT画像を生成するためにU-Netを訓練する。 これにより、高価な手動アノテーションを必要とせずに、大量の注釈付きデータを生成することができる。 このデータは、画像内の各糸の輪郭点の予測に焦点を当てたマスクr-cnnのトレーニングに使用される。 実験の結果,ct画像上で糸インスタンスセグメンテーションを行うための精度とロバストが得られ,定量的・質的解析により検証された。

In this work we propose a novel and fully automated method for extracting the yarn geometrical features in woven composites so that a direct parametrization of the textile reinforcement is achieved (e.g., FE mesh). Thus, our aim is not only to perform yarn segmentation from tomographic images but rather to provide a complete descriptive modeling of the fabric. As such, this direct approach improves on previous methods that use voxel-wise masks as intermediate representations followed by re-meshing operations (yarn envelope estimation). The proposed approach employs two deep neural network architectures (U-Net and Mask RCNN). First, we train the U-Net to generate synthetic CT images from the corresponding FE simulations. This allows to generate large quantities of annotated data without requiring costly manual annotations. This data is then used to train the Mask R-CNN, which is focused on predicting contour points around each of the yarns in the image. Experimental results show that our method is accurate and robust for performing yarn instance segmentation on CT images, this is further validated by quantitative and qualitative analyses.
翻訳日:2021-06-30 09:36:44 公開日:2021-06-26
# (参考訳) 大気データのマイニング [全文訳有]

Mining atmospheric data ( http://arxiv.org/abs/2106.13992v1 )

ライセンス: CC BY 4.0
Chaabane Djeraba, J\'er\^ome Riedi(参考訳) 本稿では,リモートセンシングデータマイニングにおいて重要な2つの相互依存問題について概説する。 大気観測ミッションから得られたものです 最初の問題は、リモートセンシングコミュニティの最優先事項である、新しいパブリックデータセットとベンチマークの構築に関するものだ。 第2の課題は、アノテーションのない膨大なデータに基づく大気データ分類のための深層学習手法と、表面のスパース観測ネットワークが提供する局所的な注釈データの検討である。 対象とするアプリケーションは、空気品質評価と予測である。 大気の質は、ガスやエアロゾルのようないくつかの大気成分と結びついている汚染レベルとして定義される。 大気汚染によって引き起こされる悪質な空気質と公衆衛生の間には依存関係がある。 対象とするアプリケーションは、地域および地域の大気品質評価および追跡のための高速予測モデルの開発である。 マイニングデータの結果は,スパークグラウンドベースのin situ測定ネットワークのインテリジェントな外挿を通じて,地域規模と地域規模を高速かつ信頼性の高い空気質監視システムを提供することによって,市民と意思決定者に大きな影響を与える。

This paper overviews two interdependent issues important for mining remote sensing data (e.g. images) obtained from atmospheric monitoring missions. The first issue relates the building new public datasets and benchmarks, which are hot priority of the remote sensing community. The second issue is the investigation of deep learning methodologies for atmospheric data classification based on vast amount of data without annotations and with localized annotated data provided by sparse observing networks at the surface. The targeted application is air quality assessment and prediction. Air quality is defined as the pollution level linked with several atmospheric constituents such as gases and aerosols. There are dependency relationships between the bad air quality, caused by air pollution, and the public health. The target application is the development of a fast prediction model for local and regional air quality assessment and tracking. The results of mining data will have significant implication for citizen and decision makers by providing a fast prediction and reliable air quality monitoring system able to cover the local and regional scale through intelligent extrapolation of sparse ground-based in situ measurement networks.
翻訳日:2021-06-30 09:11:05 公開日:2021-06-26
# (参考訳) ステルス攻撃の可能性と不可避性 [全文訳有]

The Feasibility and Inevitability of Stealth Attacks ( http://arxiv.org/abs/2106.13997v1 )

ライセンス: CC BY 4.0
Ivan Y. Tyukin, Desmond J. Higham, Eliyas Woldegeorgis, Alexander N. Gorban(参考訳) 我々は、ディープラーニングニューラルネットワークを含む汎用人工知能(AI)システムにおいて、攻撃者が決定を制御できる新しい敵対的摂動を開発し、研究する。 逆データ修正とは対照的に、ここで検討する攻撃メカニズムには、aiシステム自体の変更が含まれる。 このようなステルス攻撃は,ソフトウェア開発チームの不正な,腐敗した,あるいは不満を抱いたメンバによって実施することができる。 また、ネットワークアーキテクチャとトレーニングされたパラメータセットを公開して共有する"AIの民主化"アジェンダを利用したい人々によっても実現される。 ニューラルネットワークに関する国際合同会議(2020年)の成果に基づいて,我々は,攻撃者にとって未知の固定された検証セット上でのシステム性能が変化しないという意味で,高い確率でステルス攻撃を透過的にすることができることを示すとともに,興味の引き金入力に対する任意の所望の出力を誘発する,一連の新しい実装可能な攻撃戦略を開発した。 攻撃者は、検証セットのサイズとAIの関連する潜伏空間の広がりを見積もるだけでよい。 深層学習ニューラルネットワークの場合、単一ニューロン攻撃(単一ニューロンに関連する重みとバイアスの変更)が可能であることを示し、過度なパラメータ化に起因する脆弱性を明らかにします。 これらの概念を現実的な設定で説明します。 また,理論と計算結果から,ステルス攻撃に対する防御戦略を提案する。

We develop and study new adversarial perturbations that enable an attacker to gain control over decisions in generic Artificial Intelligence (AI) systems including deep learning neural networks. In contrast to adversarial data modification, the attack mechanism we consider here involves alterations to the AI system itself. Such a stealth attack could be conducted by a mischievous, corrupt or disgruntled member of a software development team. It could also be made by those wishing to exploit a "democratization of AI" agenda, where network architectures and trained parameter sets are shared publicly. Building on work by [Tyukin et al., International Joint Conference on Neural Networks, 2020], we develop a range of new implementable attack strategies with accompanying analysis, showing that with high probability a stealth attack can be made transparent, in the sense that system performance is unchanged on a fixed validation set which is unknown to the attacker, while evoking any desired output on a trigger input of interest. The attacker only needs to have estimates of the size of the validation set and the spread of the AI's relevant latent space. In the case of deep learning neural networks, we show that a one neuron attack is possible - a modification to the weights and bias associated with a single neuron - revealing a vulnerability arising from over-parameterizatio n. We illustrate these concepts in a realistic setting. Guided by the theory and computational results, we also propose strategies to guard against stealth attacks.
翻訳日:2021-06-30 09:03:25 公開日:2021-06-26
# (参考訳) ブラインド画像品質評価のための半監督深層アンサンブル [全文訳有]

Semi-Supervised Deep Ensembles for Blind Image Quality Assessment ( http://arxiv.org/abs/2106.14008v1 )

ライセンス: CC BY 4.0
Zhihua Wang, Dingquan Li, Kede Ma(参考訳) アンサンブル法は、基礎学習者が「正確」かつ「多元的」と見なされる場合、一般に単一のモデルよりも良いと見なされる。 そこで本研究では,半教師付きアンサンブル学習戦略を用いて,一般化可能なブラインド画像品質評価モデルを作成する。 ラベル付きデータに対するアンサンブル(およびベース学習者)の精度を最大化し、それらの間の不一致(すなわち多様性)をラベル付きデータ上で最大化することにより、品質予測のためのマルチヘッド畳み込みネットワークを訓練する。 我々は,BIQAにラベルのないデータを用いることの利点,特にモデル一般化と故障同定において,広範な実験を行った。

Ensemble methods are generally regarded to be better than a single model if the base learners are deemed to be "accurate" and "diverse." Here we investigate a semi-supervised ensemble learning strategy to produce generalizable blind image quality assessment models. We train a multi-head convolutional network for quality prediction by maximizing the accuracy of the ensemble (as well as the base learners) on labeled data, and the disagreement (i.e., diversity) among them on unlabeled data, both implemented by the fidelity loss. We conduct extensive experiments to demonstrate the advantages of employing unlabeled data for BIQA, especially in model generalization and failure identification.
翻訳日:2021-06-30 08:37:15 公開日:2021-06-26
# (参考訳) 文脈逆最適化:オフラインとオンライン学習

Contextual Inverse Optimization: Offline and Online Learning ( http://arxiv.org/abs/2106.14015v1 )

ライセンス: CC BY 4.0
Omar Besbes, Yuri Fonseca, Ilan Lobel(参考訳) 我々は、オフラインおよびオンラインの文脈最適化の問題をフィードバック情報で検討し、損失を観察する代わりに、目的関数の完全な知識を持つオラクルが行ったであろう最適なアクションを観察する。 我々は後悔を最小限に抑えることを目指しており、これは我々の損失と全知の託宣によって引き起こされた損失との違いとして定義される。 オフライン設定では、意思決定者は過去の期間から利用可能な情報を持ち、1つの決定を行う必要があるが、オンライン設定では、意思決定者は、各期間における実行可能なアクションとコンテキスト関数の新たなセットに基づいて、時間とともに決定を動的に最適化する。 オフライン設定では、最適なミニマックスポリシーを特徴付け、データによって誘導される情報の基本的な幾何学の関数として達成できる性能を確立する。 オンライン環境では、この幾何学的特徴を利用して累積的後悔を最適化する。 我々は,時間軸の対数的問題に対する最初の後悔を生じさせるアルゴリズムを開発した。

We study the problems of offline and online contextual optimization with feedback information, where instead of observing the loss, we observe, after-the-fact, the optimal action an oracle with full knowledge of the objective function would have taken. We aim to minimize regret, which is defined as the difference between our losses and the ones incurred by an all-knowing oracle. In the offline setting, the decision-maker has information available from past periods and needs to make one decision, while in the online setting, the decision-maker optimizes decisions dynamically over time based a new set of feasible actions and contextual functions in each period. For the offline setting, we characterize the optimal minimax policy, establishing the performance that can be achieved as a function of the underlying geometry of the information induced by the data. In the online setting, we leverage this geometric characterization to optimize the cumulative regret. We develop an algorithm that yields the first regret bound for this problem that is logarithmic in the time horizon.
翻訳日:2021-06-30 08:28:13 公開日:2021-06-26
# (参考訳) オントロジーを介する問合せに対するニューラルシンボリックアプローチ [全文訳有]

A Neural-symbolic Approach for Ontology-mediated Query Answering ( http://arxiv.org/abs/2106.14052v1 )

ライセンス: CC BY 4.0
Medina Andresel, Csaba Domokos, Daria Stepanova, Trung-Kien Tran(参考訳) 近年、知識グラフ(KGs)の低次元ベクトル空間表現を用いて、不完全KG上の共役クエリ(CQs)に対する解を求める。 しかし、現在の手法は帰納的推論のみに焦点を当てている。 データから学んだパターンに基づいて事実を予測することでcqsに答え、外部のドメイン知識を適用して推論する能力に欠ける。 このような(専門家または常識)ドメイン知識は、機械知の進歩に使用できる貴重なリソースです。 この欠点に対処するために、埋め込み空間で動作する不完全なKG上でオントロジーを介するCQ応答のニューラルシンボリック手法を導入する。 より具体的には、クエリーリライトベースのメソッドを使ってトレーニングクエリを生成するための様々なデータ拡張戦略を提案し、モデルのトレーニングに新しい損失関数を利用する。 実験の結果,本手法は帰納的推論と帰納的推論の両方を必要とする設定において,学習戦略の有効性と新たな損失関数の有効性を示す。

Recently, low-dimensional vector space representations of knowledge graphs (KGs) have been applied to find answers to conjunctive queries (CQs) over incomplete KGs. However, the current methods only focus on inductive reasoning, i.e. answering CQs by predicting facts based on patterns learned from the data, and lack the ability of deductive reasoning by applying external domain knowledge. Such (expert or commonsense) domain knowledge is an invaluable resource which can be used to advance machine intelligence. To address this shortcoming, we introduce a neural-symbolic method for ontology-mediated CQ answering over incomplete KGs that operates in the embedding space. More specifically, we propose various data augmentation strategies to generate training queries using query-rewriting based methods and then exploit a novel loss function for training the model. The experimental results demonstrate the effectiveness of our training strategies and the new loss function, i.e., our method significantly outperforms the baseline in the settings that require both inductive and deductive reasoning.
翻訳日:2021-06-30 08:27:10 公開日:2021-06-26
# (参考訳) 信頼できる高精度アセンブリタスクのためのビジョン駆動協調操作 [全文訳有]

Vision-driven Compliant Manipulation for Reliable, High-Precision Assembly Tasks ( http://arxiv.org/abs/2106.14070v1 )

ライセンス: CC BY 4.0
Andrew S. Morgan, Bowen Wen, Junchi Liang, Abdeslam Boularias, Aaron M. Dollar, and Kostas Bekris(参考訳) 高度に制約された操作タスクは、従来の知覚システムでは達成できないような1mm未満の高精度のロボットを必要とするため、自律ロボットにとって依然として困難である。 本稿では,最先端の物体追跡と受動適応型機械ハードウェアを組み合わせることで,厳密な産業用耐久性能(0.25mm)で高精度な操作を実現できることを示す。 提案手法は,作業空間内の物体の相対的な6次元ポーズを追跡することにより,視覚を通してループを閉じる。 対応するマニピュレータと手の両方の制御基準を調整し、手動操作によりオブジェクト挿入タスクを完了させる。 従来の挿入作業とは対照的に、この方法は高価な力センサや精密マニピュレータ、時間を要するオンライン学習を必要とせず、データに飢えている。 代わりに、この取り組みは機械的コンプライアンスを活用し、学習したオフラインのオブジェクト非依存の操作モデル、市販のモーションプランニング、合成データのみで訓練されたRGBDベースのオブジェクトトラッカーを利用する。 これらの特徴により、提案システムは、新しいタスクや環境に容易に一般化および転送できる。 本稿では, 各種ジオメトリの厳密な耐久ペグインインホール挿入タスクや, オープンワールドの制約された配置タスクを含む広範囲な実験により, システムコンポーネントを詳細に説明し, その有効性を示す。

Highly constrained manipulation tasks continue to be challenging for autonomous robots as they require high levels of precision, typically less than 1mm, which is often incompatible with what can be achieved by traditional perception systems. This paper demonstrates that the combination of state-of-the-art object tracking with passively adaptive mechanical hardware can be leveraged to complete precision manipulation tasks with tight, industrially-relevan t tolerances (0.25mm). The proposed control method closes the loop through vision by tracking the relative 6D pose of objects in the relevant workspace. It adjusts the control reference of both the compliant manipulator and the hand to complete object insertion tasks via within-hand manipulation. Contrary to previous efforts for insertion, our method does not require expensive force sensors, precision manipulators, or time-consuming, online learning, which is data hungry. Instead, this effort leverages mechanical compliance and utilizes an object agnostic manipulation model of the hand learned offline, off-the-shelf motion planning, and an RGBD-based object tracker trained solely with synthetic data. These features allow the proposed system to easily generalize and transfer to new tasks and environments. This paper describes in detail the system components and showcases its efficacy with extensive experiments involving tight tolerance peg-in-hole insertion tasks of various geometries as well as open-world constrained placement tasks.
翻訳日:2021-06-30 07:42:42 公開日:2021-06-26
# (参考訳) モデルに基づく強化学習のためのモデルアドバンテージ最適化 [全文訳有]

Model-Advantage Optimization for Model-Based Reinforcement Learning ( http://arxiv.org/abs/2106.14080v1 )

ライセンス: CC BY 4.0
Nirbhay Modhe, Harish Kamath, Dhruv Batra, Ashwin Kalyan(参考訳) モデルに基づく強化学習(MBRL)アルゴリズムは、伝統的に環境の正確な力学を学習するために設計されてきた。 これは、モデル学習の目的と、最適な方針を見つけるための全体的な学習問題とのミスマッチをもたらす。 学習方針の価値関数を通じてモデル学習に通知する,モデル学習パラダイムであるバリューアウェアモデル学習を提案する。 このパラダイムは理論的には健全だが、おもちゃの設定以外にはスケールしない。 本研究では,2つのモデルにまたがるポリシーの絶対性能差を上限とした,新たな価値認識目標を提案する。 さらに,標準的なMBRLパイプラインを改良した汎用アルゴリズムを提案する。 提案手法は,提案アルゴリズムと組み合わせて,従来の値認識目標を上回り,競争性能w.r.tと競い合うような,継続的な制御環境における価値認識型MBRLのインスタンス化に成功した最初の手法である。 MLEベースのMBRLアプローチ。

Model-based Reinforcement Learning (MBRL) algorithms have been traditionally designed with the goal of learning accurate dynamics of the environment. This introduces a mismatch between the objectives of model-learning and the overall learning problem of finding an optimal policy. Value-aware model learning, an alternative model-learning paradigm to maximum likelihood, proposes to inform model-learning through the value function of the learnt policy. While this paradigm is theoretically sound, it does not scale beyond toy settings. In this work, we propose a novel value-aware objective that is an upper bound on the absolute performance difference of a policy across two models. Further, we propose a general purpose algorithm that modifies the standard MBRL pipeline -- enabling learning with value aware objectives. Our proposed objective, in conjunction with this algorithm, is the first successful instantiation of value-aware MBRL on challenging continuous control environments, outperforming previous value-aware objectives and with competitive performance w.r.t. MLE-based MBRL approaches.
翻訳日:2021-06-30 07:11:54 公開日:2021-06-26
# (参考訳) 特徴マップフローを用いたリアルタイム3次元物体検出 [全文訳有]

Real-time 3D Object Detection using Feature Map Flow ( http://arxiv.org/abs/2106.14101v1 )

ライセンス: CC BY 4.0
Youshaa Murhij and Dmitry Yudin(参考訳) 本稿では,深部ニューラルモデル推論(FMF)の異なる時間ステップからの時空間特徴写像の集約を考慮したリアルタイム3次元検出手法を提案する。 提案手法は、3次元検出センタベースラインの品質を改善し、nuscenesとwaymoベンチマークでリアルタイムパフォーマンスを提供する。 コードはhttps://github.com/Y oushaaMurhij/FMFNetで入手できる。

In this paper, we present a real-time 3D detection approach considering time-spatial feature map aggregation from different time steps of deep neural model inference (named feature map flow, FMF). Proposed approach improves the quality of 3D detection center-based baseline and provides real-time performance on the nuScenes and Waymo benchmark. Code is available at https://github.com/Y oushaaMurhij/FMFNet
翻訳日:2021-06-30 06:51:18 公開日:2021-06-26
# (参考訳) 画像分類器はビデオ理解に十分です [全文訳有]

An Image Classifier Can Suffice Video Understanding ( http://arxiv.org/abs/2106.14104v1 )

ライセンス: CC BY 4.0
Quanfu Fan, Chun-Fu (Richard) Chen, Rameswar Panda(参考訳) 本稿では,映像認識問題を画像認識タスクとしてキャストすることで,映像理解の新しい視点を提案する。 画像分類器だけでは時間的モデリングなしで映像理解に十分であることを示す。 私たちのアプローチはシンプルで普遍的です。 入力フレームをスーパーイメージに合成し、画像分類器を訓練してアクション認識のタスクを、画像の分類とまったく同じ方法で達成する。 我々は,最近開発された視覚変換器を用いて,Kinetics400,Some-to -something (V2),MiT,Jesterの4つの公開データセットに対して,強靭かつ有望な性能を示すことによって,そのようなアイデアの実現可能性を証明する。 また、コンピュータビジョンにおける一般的なResNet画像分類器を用いて、このアイデアをさらに検証した。 Kinetics400の結果は、時空間モデルに基づく最高のパフォーマンスのCNNアプローチに匹敵するものである。 私たちのコードとモデルはhttps://github.com/I BM/sifar-pytorch.com で公開されます。

We propose a new perspective on video understanding by casting the video recognition problem as an image recognition task. We show that an image classifier alone can suffice for video understanding without temporal modeling. Our approach is simple and universal. It composes input frames into a super image to train an image classifier to fulfill the task of action recognition, in exactly the same way as classifying an image. We prove the viability of such an idea by demonstrating strong and promising performance on four public datasets including Kinetics400, Something-to-somethi ng (V2), MiT and Jester, using a recently developed vision transformer. We also experiment with the prevalent ResNet image classifiers in computer vision to further validate our idea. The results on Kinetics400 are comparable to some of the best-performed CNN approaches based on spatio-temporal modeling. our code and models will be made available at https://github.com/I BM/sifar-pytorch.
翻訳日:2021-06-30 06:45:45 公開日:2021-06-26
# (参考訳) 時間的・文脈的コントラストによる時系列表現学習 [全文訳有]

Time-Series Representation Learning via Temporal and Contextual Contrasting ( http://arxiv.org/abs/2106.14112v1 )

ライセンス: CC BY 4.0
Emadeldeen Eldele, Mohamed Ragab, Zhenghua Chen, Min Wu, Chee Keong Kwoh, Xiaoli Li and Cuntai Guan(参考訳) 非ラベルの時系列データから適切な表現を時間的ダイナミクスで学習するのは非常に難しい作業です。 本稿では,時間・文脈コントラスト(TS-TCC)を用いた教師なし時系列表現学習フレームワークを提案し,ラベルのないデータから時系列表現を学習する。 まず、生の時系列データは弱みと強みを用いて2つの異なる相関のあるビューに変換される。 第2に,強靭なクロスビュー予測タスクを設計することにより,ロバストな時間表現を学ぶための新しい時間的コントラストモジュールを提案する。 最後に,識別表現をさらに学習するために,時間的コントラストモジュールから文脈に基づいて構築したコンテクストコントラストモジュールを提案する。 同じサンプルの異なるコンテキスト間の類似性を最大化しつつ、異なるサンプルのコンテキスト間の類似性を最小化する。 3つの実世界の時系列データセットで実験が行われた。 その結果,提案したTS-TCCによる線形分類器の訓練は,教師あり訓練と相容れないことがわかった。 さらに,提案するts-tccは,少ないラベルデータと転送学習シナリオにおいて高い効率を示す。 コードはhttps://github.com/e madeldeen24/TS-TCCで公開されている。

Learning decent representations from unlabeled time-series data with temporal dynamics is a very challenging task. In this paper, we propose an unsupervised Time-Series representation learning framework via Temporal and Contextual Contrasting (TS-TCC), to learn time-series representation from unlabeled data. First, the raw time-series data are transformed into two different yet correlated views by using weak and strong augmentations. Second, we propose a novel temporal contrasting module to learn robust temporal representations by designing a tough cross-view prediction task. Last, to further learn discriminative representations, we propose a contextual contrasting module built upon the contexts from the temporal contrasting module. It attempts to maximize the similarity among different contexts of the same sample while minimizing similarity among contexts of different samples. Experiments have been carried out on three real-world time-series datasets. The results manifest that training a linear classifier on top of the features learned by our proposed TS-TCC performs comparably with the supervised training. Additionally, our proposed TS-TCC shows high efficiency in few-labeled data and transfer learning scenarios. The code is publicly available at https://github.com/e madeldeen24/TS-TCC.
翻訳日:2021-06-30 06:31:41 公開日:2021-06-26
# 集中度重み付けと自己参照冗長性による無訓練・無基準要約評価基準

A Training-free and Reference-free Summarization Evaluation Metric via Centrality-weighted Relevance and Self-referenced Redundancy ( http://arxiv.org/abs/2106.13945v1 )

ライセンス: Link先を確認
Wang Chen, Piji Li, Irwin King(参考訳) 近年,参照ベースおよび教師付き要約評価指標が広く研究されている。 しかし、人間による注釈付き参照と評価の収集はコストと時間を要する。 これらの制限を回避するため、トレーニング不要かつ参照不要な要約評価指標を提案する。 本尺度は,集中度重み付き関連スコアと自己参照冗長スコアからなる。 関連スコアは、ソース文書から構築された擬似参照と所定の要約との間に算出され、擬似参照内容は文中心性によって重み付けされ、重要ガイダンスを提供する。 F_1$ベースの関連スコアに加えて、リコールスコアにもっと注意を払う$F_\beta$ベースの変種も設計します。 要約の冗長性スコアについては,要約自体と自己マスクによる類似度スコアを算出し,要約の冗長性を評価する。 最後に、関連性と冗長性のスコアを組み合わせて、与えられた要約の最終的な評価スコアを生成する。 大規模な実験により,本手法は,複数文書と単一文書の要約評価において,既存の手法を著しく上回る結果が得られた。

In recent years, reference-based and supervised summarization evaluation metrics have been widely explored. However, collecting human-annotated references and ratings are costly and time-consuming. To avoid these limitations, we propose a training-free and reference-free summarization evaluation metric. Our metric consists of a centrality-weighted relevance score and a self-referenced redundancy score. The relevance score is computed between the pseudo reference built from the source document and the given summary, where the pseudo reference content is weighted by the sentence centrality to provide importance guidance. Besides an $F_1$-based relevance score, we also design an $F_\beta$-based variant that pays more attention to the recall score. As for the redundancy score of the summary, we compute a self-masked similarity score with the summary itself to evaluate the redundant information in the summary. Finally, we combine the relevance and redundancy scores to produce the final evaluation score of the given summary. Extensive experiments show that our methods can significantly outperform existing methods on both multi-document and single-document summarization evaluation.
翻訳日:2021-06-29 18:13:11 公開日:2021-06-26
# 説明可能なAIにおける説明的複数主義

Explanatory Pluralism in Explainable AI ( http://arxiv.org/abs/2106.13976v1 )

ライセンス: Link先を確認
Yiheng Yao(参考訳) AIモデルの普及は、さまざまな利害関係者からの説明に対する需要の増加を動機付けている。 しかし、評価基準が異なる「説明」の種類が多々あるため、この需要は曖昧である。 多元主義の精神では、説明の種類とそれに対応するXAI手法の分類をグラフ化します。 AIモデルの内部メカニズムを明らかにするために、診断説明を開発する。 モデル出力を分かりやすくレンダリングしようとすると、エクスプリケーションを生成する。 モデルの安定な一般化を作りたいとき、期待・説明を生み出す。 最後に、モデルの使用を正当化したい場合は、社会的コンテキスト内でモデルを配置する役割説明を作成します。 このような多元的視点のモチベーションは、操作可能な関係やさまざまなタイプの説明が、私たちが望む変化に影響を与えるために介入できるAIシステムの関連点を特定することに起因する。 本稿では、XAI分野における「説明」という言葉のあいまいさを低減し、実践者や利害関係者がXAI手法の適正化や評価や説明を行うのに役立つテンプレートを提供する。

The increasingly widespread application of AI models motivates increased demand for explanations from a variety of stakeholders. However, this demand is ambiguous because there are many types of 'explanation' with different evaluative criteria. In the spirit of pluralism, I chart a taxonomy of types of explanation and the associated XAI methods that can address them. When we look to expose the inner mechanisms of AI models, we develop Diagnostic-explanati ons. When we seek to render model output understandable, we produce Explication-explanat ions. When we wish to form stable generalizations of our models, we produce Expectation-explanat ions. Finally, when we want to justify the usage of a model, we produce Role-explanations that situate models within their social context. The motivation for such a pluralistic view stems from a consideration of causes as manipulable relationships and the different types of explanations as identifying the relevant points in AI systems we can intervene upon to affect our desired changes. This paper reduces the ambiguity in use of the word 'explanation' in the field of XAI, allowing practitioners and stakeholders a useful template for avoiding equivocation and evaluating XAI methods and putative explanations.
翻訳日:2021-06-29 18:10:58 公開日:2021-06-26
# CAMS:カラー対応マルチスタイルトランスファー

CAMS: Color-Aware Multi-Style Transfer ( http://arxiv.org/abs/2106.13920v1 )

ライセンス: Link先を確認
Mahmoud Afifi, Abdullah Abuolaim, Mostafa Hussien, Marcus A. Brubaker, Michael S. Brown(参考訳) 画像スタイル転送は、ソース画像や「コンテンツ」画像の外観を操作し、ターゲットの「スタイル」画像の同様のテクスチャや色を共有することを目的としている。 理想的には、スタイル転送操作はソースイメージの意味的内容も保持するべきです。 スタイルを転送するのによく使われるアプローチは、グラム行列最適化に基づいている。 グラム行列に基づく最適化の1つの問題は、色とスタイルの相関を考慮しないことである。 具体的には、特定のテクスチャや構造は特定の色に関連付けるべきである。 ターゲットのスタイルイメージが複数のスタイルタイプを示す場合、これは特に難しい。 本研究では,スタイルと生成画像のスタイル・カラー相関を保ちつつ,審美的に心地よい結果を生成するカラーアウェアマルチスタイル転送手法を提案する。 従来のグラムマトリクスに基づくスタイル転送最適化の単純かつ効率的な修正を導入することで,この望ましい結果を得る。 提案手法の優れた特徴は、ユーザがターゲットスタイルとコンテンツイメージのカラー関連を手動で選択し、転送の柔軟性を高めることである。 被験者30名を対象に実施したユーザスタディを含む,いくつかの定性比較を行った。 従来の手法と比較して,本手法は単純で実装が容易であり,複数のスタイルの画像を対象とする場合,視覚的に魅力的な結果が得られる。 ソースコードはhttps://github.com/m ahmoudnafifi/color-a ware-style-transferで入手できる。

Image style transfer aims to manipulate the appearance of a source image, or "content" image, to share similar texture and colors of a target "style" image. Ideally, the style transfer manipulation should also preserve the semantic content of the source image. A commonly used approach to assist in transferring styles is based on Gram matrix optimization. One problem of Gram matrix-based optimization is that it does not consider the correlation between colors and their styles. Specifically, certain textures or structures should be associated with specific colors. This is particularly challenging when the target style image exhibits multiple style types. In this work, we propose a color-aware multi-style transfer method that generates aesthetically pleasing results while preserving the style-color correlation between style and generated images. We achieve this desired outcome by introducing a simple but efficient modification to classic Gram matrix-based style transfer optimization. A nice feature of our method is that it enables the users to manually select the color associations between the target style and content image for more transfer flexibility. We validated our method with several qualitative comparisons, including a user study conducted with 30 participants. In comparison with prior work, our method is simple, easy to implement, and achieves visually appealing results when targeting images that have multiple styles. Source code is available at https://github.com/m ahmoudnafifi/color-a ware-style-transfer.
翻訳日:2021-06-29 18:10:42 公開日:2021-06-26
# ドメイン適応型人物再同定のためのデュアルストリーム逆アンタングル学習

Dual-Stream Reciprocal Disentanglement Learning for Domain Adaption Person Re-Identification ( http://arxiv.org/abs/2106.13929v1 )

ライセンス: Link先を確認
Huafeng Li, Kaixiong Xu, Jinxing Li, Guangming Lu, Yong Xu, Zhengtao Yu, David Zhang(参考訳) 人ラベル付きサンプルは対象セットに対して無償であるため,近年,ソースセットの活用により,教師なしの人物再識別(Re-ID)が注目されている。 しかし、カメラスタイル、照明、背景の違いにより、ソースドメインとターゲットドメインの間に大きなギャップが存在し、クロスドメインマッチングに大きな課題がもたらされる。 そこで本研究では,ドメイン不変の特徴を学習する上で極めて効率的なDual-stream Reciprocal Disentanglement Learning(DRDL)という手法を提案する。 DRDLでは、まず2つのエンコーダがID関連およびID非関連の特徴抽出のために構築され、それぞれ関連する分類器によって測定される。 さらに、逆学習戦略に従い、双方のストリームが相互に肯定的に影響し、id関連特徴とid非関連特徴が与えられた画像から完全に切り離され、エンコーダが識別的だがドメイン不変な特徴を得るのに十分強力となる。 既存の手法とは対照的に,提案手法は画像生成が不要であり,計算複雑性を著しく低減するだけでなく,ID関連の特徴から冗長な情報を除去する。 大規模実験により提案手法の優位性は最先端技術と比較できる。 ソースコードはhttps://github.com/l hf12278/DRDLで公開されている。

Since human-labeled samples are free for the target set, unsupervised person re-identification (Re-ID) has attracted much attention in recent years, by additionally exploiting the source set. However, due to the differences on camera styles, illumination and backgrounds, there exists a large gap between source domain and target domain, introducing a great challenge on cross-domain matching. To tackle this problem, in this paper we propose a novel method named Dual-stream Reciprocal Disentanglement Learning (DRDL), which is quite efficient in learning domain-invariant features. In DRDL, two encoders are first constructed for id-related and id-unrelated feature extractions, which are respectively measured by their associated classifiers. Furthermore, followed by an adversarial learning strategy, both streams reciprocally and positively effect each other, so that the id-related features and id-unrelated features are completely disentangled from a given image, allowing the encoder to be powerful enough to obtain the discriminative but domain-invariant features. In contrast to existing approaches, our proposed method is free from image generation, which not only reduces the computational complexity remarkably, but also removes redundant information from id-related features. Extensive experiments substantiate the superiority of our proposed method compared with the state-of-the-arts. The source code has been released in https://github.com/l hf12278/DRDL.
翻訳日:2021-06-29 18:10:21 公開日:2021-06-26
# In-N-Out: インペイントとアウトペイントのための優れた初期化に向けて

In-N-Out: Towards Good Initialization for Inpainting and Outpainting ( http://arxiv.org/abs/2106.13953v1 )

ライセンス: Link先を確認
Changho Jo, Woobin Im, Sung-Eui Yoon(参考訳) コンピュータビジョンでは,画像インパインティング,画像外挿,環境マップ推定といった他の応用へのユーザビリティと幅広い適用性について,例えばインパインティングなど,マスク領域を満たして空間情報を復元する手法が広く研究されている。 ほとんどは用途によって別々に研究されている。 しかし、我々の焦点は反対のタスク、例えば画像の露光を調節することであり、これはターゲットのアプリケーション、例えば画像の塗布に役立ちます。 我々の自己超越的手法であるIn-N-Outは、対向タスクの知識を対象モデルに活用する訓練手法として要約される。 補完的な情報を探究するIn-N-Outが、トレーニング時にタスク固有の学習のみが行われる従来のパイプラインを効果的に活用できることを実証的に示す。 実験では,本手法を従来の手法と比較し,画像インペインティング,画像外挿,環境マップ推定など,異なる用途における手法の有効性を分析した。 これらの課題に対して、In-N-Outはトレーニング手順に対するIn-N-Out自己監督による最近の作品の性能を一貫して改善することを示した。 また,既存の学習アプローチよりも優れた結果が得られることを示す。

In computer vision, recovering spatial information by filling in masked regions, e.g., inpainting, has been widely investigated for its usability and wide applicability to other various applications: image inpainting, image extrapolation, and environment map estimation. Most of them are studied separately depending on the applications. Our focus, however, is on accommodating the opposite task, e.g., image outpainting, which would benefit the target applications, e.g., image inpainting. Our self-supervision method, In-N-Out, is summarized as a training approach that leverages the knowledge of the opposite task into the target model. We empirically show that In-N-Out -- which explores the complementary information -- effectively takes advantage over the traditional pipelines where only task-specific learning takes place in training. In experiments, we compare our method to the traditional procedure and analyze the effectiveness of our method on different applications: image inpainting, image extrapolation, and environment map estimation. For these tasks, we demonstrate that In-N-Out consistently improves the performance of the recent works with In-N-Out self-supervision to their training procedure. Also, we show that our approach achieves better results than an existing training approach for outpainting.
翻訳日:2021-06-29 18:09:57 公開日:2021-06-26
# 統計多様体上の測地線距離を導出するグラフに基づくアプローチ:マルチメディア情報検索への応用

A Graph-based approach to derive the geodesic distance on Statistical manifolds: Application to Multimedia Information Retrieval ( http://arxiv.org/abs/2106.14060v1 )

ライセンス: Link先を確認
Zakariae Abbad, Ahmed Drissi El Maliani, Said Ouatik El Alaoui, Mohammed El Hassouni(参考訳) 本稿では,非ユークリッド幾何学の特性を利用して,統計多様体の空間上の測地線距離(GD)を定義する。 測地線距離(Geodesic distance)は、純粋に統計的に広く用いられているクルバック・リーブラー発散(KLD)のよい代替となる、現実的で直感的な類似度尺度である。 GDの有効性にもかかわらず、測地方程式は解けないため、多くの多様体に対して閉形式は存在しない。 このことは、数値近似を用いた主な研究が内容であることを示している。 それでも、そのほとんどは多様体の性質を考慮せず、情報が失われ、結果として性能が低下する。 グラフに基づく手法を用いて測地線距離の近似を提案する。 この後者は、統計多様体の構造をうまく表現することができ、その幾何学的性質を尊重する。 我々の主な目的は、グラフベース近似とアート近似の状態を比較することである。 そこで,提案手法は,異なるデータベース上でのコンテンツベーステクスチャ検索の適用を考えると,ワイブル多様体とガンマ多様体の2つの統計多様体に対して評価される。

In this paper, we leverage the properties of non-Euclidean Geometry to define the Geodesic distance (GD) on the space of statistical manifolds. The Geodesic distance is a real and intuitive similarity measure that is a good alternative to the purely statistical and extensively used Kullback-Leibler divergence (KLD). Despite the effectiveness of the GD, a closed-form does not exist for many manifolds, since the geodesic equations are hard to solve. This explains that the major studies have been content to use numerical approximations. Nevertheless, most of those do not take account of the manifold properties, which leads to a loss of information and thus to low performances. We propose an approximation of the Geodesic distance through a graph-based method. This latter permits to well represent the structure of the statistical manifold, and respects its geometrical properties. Our main aim is to compare the graph-based approximation to the state of the art approximations. Thus, the proposed approach is evaluated for two statistical manifolds, namely the Weibull manifold and the Gamma manifold, considering the Content-Based Texture Retrieval application on different databases.
翻訳日:2021-06-29 18:09:35 公開日:2021-06-26
# unseenについて語る: 対話エージェントによるビデオ記述

Saying the Unseen: Video Descriptions via Dialog Agents ( http://arxiv.org/abs/2106.14069v1 )

ライセンス: Link先を確認
Ye Zhu, Yu Wu, Yi Yang, Yan Yan(参考訳) 現在の視覚と言語タスクは通常、完全な視覚データ(例えば、生の画像やビデオ)を入力として取り込むが、実際のシナリオでは、セキュリティ上の懸念のために固定カメラによる制限ビューや意図的な視覚ブロックなどの様々な理由により、視覚情報の一部がアクセス不能な状況を含むことが多い。 より実用的なアプリケーションシナリオに向けたステップとして,不完全な視覚データに対して,2つのエージェント間の自然言語ダイアログを補足情報源として用いる映像を記述することを目的とした新しいタスクを提案する。 aiシステムが画像やビデオクリップに完全にアクセスできる既存の視覚言語タスクとは異なり、人間の顔や声を認識するなどのセンシティブな情報を明らかにするため、私たちは意図的にaiシステムの視覚入力を制限し、よりセキュアで透明な情報媒体、すなわち自然言語ダイアログを探し、行方不明の視覚情報を補完します。 具体的には、インテリジェントエージェントの1つ、Q-BOTは、ビデオの開始と終了から2つのセマンティックセグメンテーションフレームが与えられ、未確認のビデオを記述する前に、関連する自然言語の質問をする機会は有限である。 ビデオ全体にアクセスする他のエージェントであるA-BOTは、Q-BOTが質問に答えて目標を達成するのを支援する。 生成的(エージェントが自由に質問や回答を生成)または識別的(エージェントが候補者から質問や回答を選択する)な内部ダイアログ生成プロセスの2つの異なる実験環境を導入する。 提案する統合qa協調ネットワークを用いて,2つの対話エージェント間の知識伝達過程と,自然言語ダイアログを不完全な暗黙的視覚の補足として用いる効果を実験的に実証する。

Current vision and language tasks usually take complete visual data (e.g., raw images or videos) as input, however, practical scenarios may often consist the situations where part of the visual information becomes inaccessible due to various reasons e.g., restricted view with fixed camera or intentional vision block for security concerns. As a step towards the more practical application scenarios, we introduce a novel task that aims to describe a video using the natural language dialog between two agents as a supplementary information source given incomplete visual data. Different from most existing vision-language tasks where AI systems have full access to images or video clips, which may reveal sensitive information such as recognizable human faces or voices, we intentionally limit the visual input for AI systems and seek a more secure and transparent information medium, i.e., the natural language dialog, to supplement the missing visual information. Specifically, one of the intelligent agents - Q-BOT - is given two semantic segmented frames from the beginning and the end of the video, as well as a finite number of opportunities to ask relevant natural language questions before describing the unseen video. A-BOT, the other agent who has access to the entire video, assists Q-BOT to accomplish the goal by answering the asked questions. We introduce two different experimental settings with either a generative (i.e., agents generate questions and answers freely) or a discriminative (i.e., agents select the questions and answers from candidates) internal dialog generation process. With the proposed unified QA-Cooperative networks, we experimentally demonstrate the knowledge transfer process between the two dialog agents and the effectiveness of using the natural language dialog as a supplement for incomplete implicit visions.
翻訳日:2021-06-29 18:09:16 公開日:2021-06-26
# interflow: アテンション機構による多層特徴マッピングの集約

Interflow: Aggregating Multi-layer Feature Mappings with Attention Mechanism ( http://arxiv.org/abs/2106.14073v1 )

ライセンス: Link先を確認
Zhicheng Cai(参考訳) 伝統的に、CNNモデルは階層構造を持ち、最終層の特徴マッピングを利用して予測出力を得る。 しかし、最適なネットワーク深度を解決し、中間層に優れた特徴を学習させることは困難である。 本稿では従来のCNNモデルに特化してInterflowアルゴリズムを提案する。 Interflowは、深さに応じてCNNを複数のステージに分割し、各ステージの特徴マッピングによって予測する。 その後、これらの予測分岐をよく設計された注意モジュールに入力し、予測分岐の重みを学習し、それらを集約し、最終的な出力を得る。 インターフローは、浅層と深層の両方で学んだ特徴を重み付け、融合させ、各ステージの特徴情報を合理的かつ効果的に処理し、中間層がより優れた特徴を学習し、モデル表現能力を高める。 また,注視機構を導入することで,勾配消失問題を緩和し,ネットワーク奥行き選択の難易度を低減し,オーバーフィッティング問題を軽量化することができる。 また、副産物としてネットワーク劣化を回避できる。 オリジナルのモデルと比較して、Interflowを用いたCNNモデルは、複数のベンチマークデータセットで高いテスト精度を達成する。

Traditionally, CNN models possess hierarchical structures and utilize the feature mapping of the last layer to obtain the prediction output. However, it can be difficulty to settle the optimal network depth and make the middle layers learn distinguished features. This paper proposes the Interflow algorithm specially for traditional CNN models. Interflow divides CNNs into several stages according to the depth and makes predictions by the feature mappings in each stage. Subsequently, we input these prediction branches into a well-designed attention module, which learns the weights of these prediction branches, aggregates them and obtains the final output. Interflow weights and fuses the features learned in both shallower and deeper layers, making the feature information at each stage processed reasonably and effectively, enabling the middle layers to learn more distinguished features, and enhancing the model representation ability. In addition, Interflow can alleviate gradient vanishing problem, lower the difficulty of network depth selection, and lighten possible over-fitting problem by introducing attention mechanism. Besides, it can avoid network degradation as a byproduct. Compared with the original model, the CNN model with Interflow achieves higher test accuracy on multiple benchmark datasets.
翻訳日:2021-06-29 18:08:44 公開日:2021-06-26
# 3次元物体検出のためのレーダーボクセル融合

Radar Voxel Fusion for 3D Object Detection ( http://arxiv.org/abs/2106.14087v1 )

ライセンス: Link先を確認
Felix Nobis, Ehsan Shafiei, Phillip Karle, Johannes Betz and Markus Lienkamp(参考訳) 自動車の交通シーンは、さまざまなシナリオ、オブジェクト、および処理が必要な気象条件のために複雑である。 自動化された地下列車のようなより制約のある環境とは対照的に、自動車の認識システムは特定のタスクの狭い分野に合わせて調整することはできない。 現在、周囲のすべての活動を確実に知覚できるセンサは存在しないため、センサデータ融合は可能な限り多くの情報を知覚するために適用される。 異なるセンサと低抽象化レベルでのセンサモダリティのデータ融合により、情報豊富なセンサデータが圧縮される前にセンサ間のセンサーの弱点や誤検出を補償することができ、センサ個別のオブジェクト検出後に情報が失われる。 本稿では,lidar,カメラ,レーダーデータを融合する3次元物体検出のための低レベルセンサ融合ネットワークを開発した。 核融合ネットワークは、nuScenesデータセットに基づいて訓練され評価される。 テストセットでは、レーダデータの融合によって得られたap(平均精度)検出スコアがベースラインlidarネットワークと比較して約5.1%向上する。 レーダーセンサーの融合は、雨や夜景のような裂け目状態において特に有益である。 追加のカメラデータを使用すると、レーダーフュージョンと組み合わせることで、検出結果にセンサーの相互依存性が重要であることを示す。 さらに,オブジェクト検出のための単純なyaw表現の不連続性を扱うための新しい損失を提案する。 最新の損失により,センサ入力構成の検出と方向推定性能が向上した。 この研究のコードはGitHubで公開されている。

Automotive traffic scenes are complex due to the variety of possible scenarios, objects, and weather conditions that need to be handled. In contrast to more constrained environments, such as automated underground trains, automotive perception systems cannot be tailored to a narrow field of specific tasks but must handle an ever-changing environment with unforeseen events. As currently no single sensor is able to reliably perceive all relevant activity in the surroundings, sensor data fusion is applied to perceive as much information as possible. Data fusion of different sensors and sensor modalities on a low abstraction level enables the compensation of sensor weaknesses and misdetections among the sensors before the information-rich sensor data are compressed and thereby information is lost after a sensor-individual object detection. This paper develops a low-level sensor fusion network for 3D object detection, which fuses lidar, camera, and radar data. The fusion network is trained and evaluated on the nuScenes data set. On the test set, fusion of radar data increases the resulting AP (Average Precision) detection score by about 5.1% in comparison to the baseline lidar network. The radar sensor fusion proves especially beneficial in inclement conditions such as rain and night scenes. Fusing additional camera data contributes positively only in conjunction with the radar fusion, which shows that interdependencies of the sensors are important for the detection result. Additionally, the paper proposes a novel loss to handle the discontinuity of a simple yaw representation for object detection. Our updated loss increases the detection and orientation estimation performance for all sensor input configurations. The code for this research has been made available on GitHub.
翻訳日:2021-06-29 18:08:26 公開日:2021-06-26
# BiX-NAS:医用画像分割のための効率的な双方向アーキテクチャの探索

BiX-NAS: Searching Efficient Bi-directional Architecture for Medical Image Segmentation ( http://arxiv.org/abs/2106.14033v1 )

ライセンス: Link先を確認
Xinyi Wang, Tiange Xiang, Chaoyi Zhang, Yang Song, Dongnan Liu, Heng Huang, Weidong Cai(参考訳) このリカレントメカニズムは, 様々な医用画像分割タスクにおいてU-Netに導入された。 既存の研究では、ビルディングブロックの再利用によるネットワーク再帰の促進に重点を置いている。 ネットワークパラメータは大幅に節約できるが、プリセットされたイテレーション時間に応じて計算コストは必然的に増加する。 本研究では,双方向スキップ接続ネットワークのマルチスケールアップグレードについて検討し,新しい2相ニューラルアーキテクチャ探索 (NAS) アルゴリズム,すなわち BiX-NAS を用いて,効率的なアーキテクチャを自動検出する。 提案手法は,異なるレベルやイテレーションで非効率なマルチスケール特徴を抽出し,ネットワーク計算コストを削減する。 3種類の医用画像データセットを用いて2つのセグメンテーションタスクにおけるbix-nasの評価を行い,bix-nas探索アーキテクチャが計算コストを著しく低減した最先端性能を実現することを示す。

The recurrent mechanism has recently been introduced into U-Net in various medical image segmentation tasks. Existing studies have focused on promoting network recursion via reusing building blocks. Although network parameters could be greatly saved, computational costs still increase inevitably in accordance with the pre-set iteration time. In this work, we study a multi-scale upgrade of a bi-directional skip connected network and then automatically discover an efficient architecture by a novel two-phase Neural Architecture Search (NAS) algorithm, namely BiX-NAS. Our proposed method reduces the network computational cost by sifting out ineffective multi-scale features at different levels and iterations. We evaluate BiX-NAS on two segmentation tasks using three different medical image datasets, and the experimental results show that our BiX-NAS searched architecture achieves the state-of-the-art performance with significantly lower computational cost.
翻訳日:2021-06-29 17:54:24 公開日:2021-06-26
# 交通カメラ画像における高精度領域の同定と道路交通指標の推定

Identifying High Accuracy Regions in Traffic Camera Images to Enhance the Estimation of Road Traffic Metrics: A Quadtree Based Method ( http://arxiv.org/abs/2106.14049v1 )

ライセンス: Link先を確認
Yue Lin, Nningchuan Xiao(参考訳) 都市部におけるリアルタイムカメラフィードの増加により、効率的な交通計画、運用、管理のための高品質な交通データの提供が可能になった。 しかし、現在の車両検出技術の限界や、高さや解像度などの様々なカメラ条件により、これらのカメラフィードから信頼性の高い交通指標を導き出すことは課題となっている。 本研究では,検出精度の高い領域のみが残るまで画像範囲を連続的に分割するクワッドツリー型アルゴリズムを開発した。 本論文では,これらの領域を高精度識別領域(HAIR)と呼ぶ。 本研究では,中央オハイオの異なる高さと解像度の交通カメラ画像を用いて,HAIRを用いた交通密度推定の精度向上を実証する。 実験の結果,提案アルゴリズムは,車両検出精度が原画像の41%以上であるロバストなHAIRを導出するのに有効であることがわかった。 HAIRの使用はまた、ルート平均2乗誤差の49%を全体で減少させ、トラフィック密度の推定を著しく改善する。

The growing number of real-time camera feeds in urban areas has made it possible to provide high-quality traffic data for effective transportation planning, operations, and management. However, deriving reliable traffic metrics from these camera feeds has been a challenge due to the limitations of current vehicle detection techniques, as well as the various camera conditions such as height and resolution. In this work, a quadtree based algorithm is developed to continuously partition the image extent until only regions with high detection accuracy are remained. These regions are referred to as the high-accuracy identification regions (HAIR) in this paper. We demonstrate how the use of the HAIR can improve the accuracy of traffic density estimates using images from traffic cameras at different heights and resolutions in Central Ohio. Our experiments show that the proposed algorithm can be used to derive robust HAIR where vehicle detection accuracy is 41 percent higher than that in the original image extent. The use of the HAIR also significantly improves the traffic density estimation with an overall decrease of 49 percent in root mean squared error.
翻訳日:2021-06-29 17:54:08 公開日:2021-06-26
# 受け入れとランク付けモデルによるコード補完の隠れコスト削減に向けて

Toward Less Hidden Cost of Code Completion with Acceptance and Ranking Models ( http://arxiv.org/abs/2106.13928v1 )

ライセンス: Link先を確認
Jingxuan Li, Rui Huang, Wei Li, Kai Yao, Weiguo Tan(参考訳) コード補完は、ソフトウェア開発者が部分的に記述されたコードスニペットに対してコード提案を提供するために広く使われている。 単一トークン補完を最小限の位置にしかサポートしない従来のコード補完方法とは別に、最近の研究では、より柔軟な位置により長いコード補完を提供する能力を示している。 しかし、そのような頻繁なトリガーとより長い完了結果により、より無効な結果を生み出すため、全体的な精度が低下する。 さらに、異なる研究はほとんどが互いに相容れない。 したがって、複数のモデルの結果を組み合わせて、各モデルの利点とオフセット欠陥を引き出すアンサンブルフレームワークを開発することが不可欠である。 本稿では、コードコンテキストと異なるコード補完モデルからデータを収集し、2つのタスクにデータを適用するための符号化シミュレーションを行う。 まず、開発者が完了結果を表示するかどうかを動的に制御できる受け入れモデルを提案する。 シミュレーション機能を使用して、これらのモデルの出力に正しい結果が存在するかどうかを予測する。 我々の最良のモデルは偽陽性の完成率を55.09%から17.44%に下げる。 第2に,完了結果の優先度を自動的に識別し,複数のコード補完モデルから候補を再順序付け可能な融合ランキングスキームを設計する。 このスキームは、タイプや完了結果の長さに関わらず、様々なモデルを扱う際に柔軟である。 このランク付け方式を2つの周波数モデルとgpt-2スタイル言語モデルに統合し,受入モデルは27.80%,top1は37.64%,top5は37.64%向上した。 さらに,キーストローク保存の利点と,実際のコーダ体験シナリオに近い完了リストブラウジングの隠れコストを考慮した新しいコード補完評価指標であるBeefit-Cost Ratio(BCR)を提案する。

Code completion is widely used by software developers to provide coding suggestions given a partially written code snippet. Apart from the traditional code completion methods, which only support single token completion at minimal positions, recent studies show the ability to provide longer code completion at more flexible positions. However, such frequently triggered and longer completion results reduce the overall precision as they generate more invalid results. Moreover, different studies are mostly incompatible with each other. Thus, it is vital to develop an ensemble framework that can combine results from multiple models to draw merits and offset defects of each model. This paper conducts a coding simulation to collect data from code context and different code completion models and then apply the data in two tasks. First, we introduce an acceptance model which can dynamically control whether to display completion results to the developer. It uses simulation features to predict whether correct results exist in the output of these models. Our best model reduces the percentage of false-positive completion from 55.09% to 17.44%. Second, we design a fusion ranking scheme that can automatically identify the priority of the completion results and reorder the candidates from multiple code completion models. This scheme is flexible in dealing with various models, regardless of the type or the length of their completion results. We integrate this ranking scheme with two frequency models and a GPT-2 styled language model, along with the acceptance model to yield 27.80% and 37.64% increase in TOP1 and TOP5 accuracy, respectively. In addition, we propose a new code completion evaluation metric, Benefit-Cost Ratio(BCR), taking into account the benefit of keystrokes saving and hidden cost of completion list browsing, which is closer to real coder experience scenario.
翻訳日:2021-06-29 17:48:15 公開日:2021-06-26
# 自律機械の台頭

Rise of the Autonomous Machines ( http://arxiv.org/abs/2106.13987v1 )

ライセンス: Link先を確認
Shaoshan Liu, Jean-Luc Gaudiot(参考訳) 何十年もの間、途絶えることのない進歩と成長を経て、情報技術は進化してきたので、私たちは自律機械の時代に入ったと言えるだろう。 本稿では,自律機械の技術的および非技術的課題を認識し,分類する予備的試みを行う。 これはコミュニティが将来、明確で、効果的で、より正式な開発目標ポストを定義するのに役立つと期待されている。

After decades of uninterrupted progress and growth, information technology has so evolved that it can be said we are entering the age of autonomous machines, but there exist many roadblocks in the way of making this a reality. In this article, we make a preliminary attempt at recognizing and categorizing the technical and non-technical challenges of autonomous machines; for each of the ten areas we have identified, we review current status, roadblocks, and potential research directions. It is hoped that this will help the community define clear, effective, and more formal development goalposts for the future.
翻訳日:2021-06-29 17:47:45 公開日:2021-06-26
# 乗算重み更新を用いた対数システムの低精度学習

Low-Precision Training in Logarithmic Number System using Multiplicative Weight Update ( http://arxiv.org/abs/2106.13914v1 )

ライセンス: Link先を確認
Jiawei Zhao, Steve Dai, Rangharajan Venkatesan, Ming-Yu Liu, Brucek Khailany, Bill Dally, Anima Anandkumar(参考訳) 現在、大規模なディープニューラルネットワーク(DNN)のトレーニングにはかなりのエネルギーが必要であり、深刻な環境影響をもたらす。 エネルギーコストを削減するための有望なアプローチは、DNNを低精度で表現することである。 低精度で前方および後方に伝播するdnnを訓練することが一般的であるが、高精度で重みのコピーを保持することなく、低精度で直接訓練することは未解決の問題である。 これは学習アルゴリズムと低精度数システムの間の複雑な相互作用に起因する。 そこで我々は,対数数系(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。 LNSは低ビット幅でも高いダイナミックレンジを持ち、エネルギー効率が向上し、エネルギー制約のエッジデバイスにおけるオンボードトレーニングに関係している。 通常、トレーニング中に異なる量子化ギャップとダイナミックレンジを必要とするため、重量と勾配の異なるベースを選択する柔軟性を持つようにLSNを設計する。 LNSと乗算更新の間の接続を描画することにより、LSS-Madamはウェイト更新中に低い量子化誤差を保証し、ビット幅が制限されても安定した収束をもたらす。 固定点数システムや浮動小数点数システムを用いてSGDやAdamのような一般的な学習アルゴリズムを訓練するのに比べ、LNSとLNS-Madamオプティマイザとの結合設計では、ビット幅を小さくしながら精度が向上する。 特に、勾配の5ビットしか持たないこのトレーニングフレームワークは、ResNet-50やBERTのような最先端のモデルに匹敵する精度を達成している。 学習中の数値データパス単位を解析してエネルギー推定を行った結果, bertモデルにおけるfp32と比較して60倍以上のエネルギー削減を達成できた。

Training large-scale deep neural networks (DNNs) currently requires a significant amount of energy, leading to serious environmental impacts. One promising approach to reduce the energy costs is representing DNNs with low-precision numbers. While it is common to train DNNs with forward and backward propagation in low-precision, training directly over low-precision weights, without keeping a copy of weights in high-precision, still remains to be an unsolved problem. This is due to complex interactions between learning algorithms and low-precision number systems. To address this, we jointly design a low-precision training framework involving a logarithmic number system (LNS) and a multiplicative weight update training method, termed LNS-Madam. LNS has a high dynamic range even in a low-bitwidth setting, leading to high energy efficiency and making it relevant for on-board training in energy-constrained edge devices. We design LNS to have the flexibility of choosing different bases for weights and gradients, as they usually require different quantization gaps and dynamic ranges during training. By drawing the connection between LNS and multiplicative update, LNS-Madam ensures low quantization error during weight update, leading to a stable convergence even if the bitwidth is limited. Compared to using a fixed-point or floating-point number system and training with popular learning algorithms such as SGD and Adam, our joint design with LNS and LNS-Madam optimizer achieves better accuracy while requiring smaller bitwidth. Notably, with only 5-bit for gradients, the proposed training framework achieves accuracy comparable to full-precision state-of-the-art models such as ResNet-50 and BERT. After conducting energy estimations by analyzing the math datapath units during training, the results show that our design achieves over 60x energy reduction compared to FP32 on BERT models.
翻訳日:2021-06-29 17:46:54 公開日:2021-06-26
# 自己監督的模倣によるシーケンスレコメンデーション整合性の改善

Improving Sequential Recommendation Consistency with Self-Supervised Imitation ( http://arxiv.org/abs/2106.14031v1 )

ライセンス: Link先を確認
Xu Yuan, Hongshen Chen, Yonghao Song, Xiaofang Zhao, Zhuoye Ding, Zhen He, Bo Long(参考訳) ほとんどのシーケンシャルレコメンデーションモデルは、ユーザとイテムのインタラクション履歴における連続したアイテムの特徴をキャプチャする。 有効ではあるが、その表現表現性は、いまだにスパース学習信号によって妨げられている。 その結果、シーケンシャルレコメンダは一貫性のない予測を行う傾向にある。 本稿では,自己スーパーバイザード・イミテーションによる逐次レコメンデーションの整合性を改善するモデルである「textbf{SSI}」を提案する。 時間的整合性とペルソナ整合性は,時間的順序とペルソナ感の両面からユーザインタラクションのダイナミクスを捉えた3つの自己指導型事前学習タスクを利用して,一貫性知識を抽出する。 さらに、グローバルな視点でモデルを提供するため、グローバルインタラクションシーケンスとローカルインタラクションシーケンス間の相互情報を最大化することにより、グローバルセッション一貫性を導入する。 最後に、一貫性強化知識の3つの独立した側面を総合的に活用するために、統合模倣学習フレームワークを確立した。 整合性知識は、従来の予測ロジットと整合性向上アイテム表現を模倣することにより、学生モデルに効果的に内部化され、伝達される。 さらに、フレキシブルな自己監督型模倣フレームワークは、他の学生レコメンデーションにもメリットがある。 4つの実世界のデータセットの実験により、SSIは最先端のシーケンシャルレコメンデーション手法よりも効果的に優れていることが示された。

Most sequential recommendation models capture the features of consecutive items in a user-item interaction history. Though effective, their representation expressiveness is still hindered by the sparse learning signals. As a result, the sequential recommender is prone to make inconsistent predictions. In this paper, we propose a model, \textbf{SSI}, to improve sequential recommendation consistency with Self-Supervised Imitation. Precisely, we extract the consistency knowledge by utilizing three self-supervised pre-training tasks, where temporal consistency and persona consistency capture user-interaction dynamics in terms of the chronological order and persona sensitivities, respectively. Furthermore, to provide the model with a global perspective, global session consistency is introduced by maximizing the mutual information among global and local interaction sequences. Finally, to comprehensively take advantage of all three independent aspects of consistency-enhanced knowledge, we establish an integrated imitation learning framework. The consistency knowledge is effectively internalized and transferred to the student model by imitating the conventional prediction logit as well as the consistency-enhanced item representations. In addition, the flexible self-supervised imitation framework can also benefit other student recommenders. Experiments on four real-world datasets show that SSI effectively outperforms the state-of-the-art sequential recommendation methods.
翻訳日:2021-06-29 17:46:22 公開日:2021-06-26
# 重力波実験のための高速リカレントニューラルネットワーク

Accelerating Recurrent Neural Networks for Gravitational Wave Experiments ( http://arxiv.org/abs/2106.14089v1 )

ライセンス: Link先を確認
Zhiqiang Que, Erwei Wang, Umar Marikar, Eric Moreno, Jennifer Ngadiuba, Hamza Javed, Bart{\l}omiej Borzyszkowski, Thea Aarrestad, Vladimir Loncar, Sioni Summers, Maurizio Pierini, Peter Y Cheung, Wayne Luk(参考訳) 本稿では、重力波検出に使用されるリカレントニューラルネットワーク(RNN)の遅延を低減するための新しい再構成可能なアーキテクチャを提案する。 LIGO検出器のような重力干渉計は、未知の時間と様々な期間のブラックホールの融合のような宇宙現象を捉え、時系列データを生成する。 LIGO検出器から時系列データを解析するためのRNN推論を高速化する新しいアーキテクチャを開発した。 本アーキテクチャは,多層LSTM(Long Short-Term Memory)ネットワークにおける開始間隔(II)を最適化し,各層に対して適切な再利用係数を同定する。 このアーキテクチャのためのカスタマイズ可能なテンプレートが設計され、高レベル合成ツールを用いた効率的な資源利用による低レイテンシFPGA設計が実現されている。 提案手法は ZYNQ 7045 FPGA と U250 FPGA を対象とする 2 つのLSTM モデルに基づいて評価されている。 実験の結果, 平衡IIではDSPの数は42%まで減少し, 同じIIを達成できた。 他のFPGAベースのLSTM設計と比較して、我々の設計は、約4.92から12.4倍のレイテンシを実現することができる。

This paper presents novel reconfigurable architectures for reducing the latency of recurrent neural networks (RNNs) that are used for detecting gravitational waves. Gravitational interferometers such as the LIGO detectors capture cosmic events such as black hole mergers which happen at unknown times and of varying durations, producing time-series data. We have developed a new architecture capable of accelerating RNN inference for analyzing time-series data from LIGO detectors. This architecture is based on optimizing the initiation intervals (II) in a multi-layer LSTM (Long Short-Term Memory) network, by identifying appropriate reuse factors for each layer. A customizable template for this architecture has been designed, which enables the generation of low-latency FPGA designs with efficient resource utilization using high-level synthesis tools. The proposed approach has been evaluated based on two LSTM models, targeting a ZYNQ 7045 FPGA and a U250 FPGA. Experimental results show that with balanced II, the number of DSPs can be reduced up to 42% while achieving the same IIs. When compared to other FPGA-based LSTM designs, our design can achieve about 4.92 to 12.4 times lower latency.
翻訳日:2021-06-29 17:41:33 公開日:2021-06-26
# mbstsパッケージ:Rにおける多変量ベイズ構造時系列モデル

The mbsts package: Multivariate Bayesian Structural Time Series Models in R ( http://arxiv.org/abs/2106.14045v1 )

ライセンス: Link先を確認
Ning Ning and Jinwen Qiu(参考訳) multivariate bayesian structure time series (mbsts) model \citep{qiu2018 multivariate,jammala madaka2019predicting } 多くの構造時系列モデルの一般化版として、複数の相関時系列の推論と予測を扱う。 MBSTSモデルには幅広い応用があり、特徴選択、時系列予測、現在放送、因果的影響の推測などに最適である。 本稿では, MBSTS モデリングにおける R パッケージ \pkg{mbsts} の使用方法を示し, パッケージ内のユーザフレンドリな関数と開発者フレンドリな関数とそれに対応する方法論のブリッジを確立する。 \pkg{mbsts}パッケージのシミュレートされたデータセットとオブジェクト指向関数は、ユーザが柔軟にいくつかのコンポーネントを追加したり、削除したり、いくつかの設定を単純化したり、複雑にしたりできる方法で説明される。

The multivariate Bayesian structural time series (MBSTS) model \citep{qiu2018multivariate, Jammalamadaka2019Pre dicting} as a generalized version of many structural time series models, deals with inference and prediction for multiple correlated time series, where one also has the choice of using a different candidate pool of contemporaneous predictors for each target series. The MBSTS model has wide applications and is ideal for feature selection, time series forecasting, nowcasting, inferring causal impact, and others. This paper demonstrates how to use the R package \pkg{mbsts} for MBSTS modeling, establishing a bridge between user-friendly and developer-friendly functions in package and the corresponding methodology. A simulated dataset and object-oriented functions in the \pkg{mbsts} package are explained in the way that enables users to flexibly add or deduct some components, as well as to simplify or complicate some settings.
翻訳日:2021-06-29 17:38:21 公開日:2021-06-26
# 中点正規化:高度不確実性訓練から保守的分類へ

Midpoint Regularization: from High Uncertainty Training to Conservative Classification ( http://arxiv.org/abs/2106.13913v1 )

ライセンス: Link先を確認
Hongyu Guo(参考訳) Label Smoothing (LS)は、過信出力分布の生成からモデルをペナライズすることでモデル一般化を改善する。 各トレーニングサンプルについて、LS戦略は、非基底真理クラスに分布質量を分散することにより、1ホット符号化されたトレーニング信号を円滑にする。 この手法を例のペアであるplsを用いて拡張する。 plsはまず、ランダムなサンプルペアを平均して中点サンプルを作成し、その後、これらの中点サンプルのトレーニング中に平滑化分布を学習し、トレーニングのための不確実性ラベルの高い中点を生成する。 PLSはLSを有意に上回り,相対的分類誤差の最大30%を達成している。 また,plsは分布サンプルと分布サンプルの両方において,非常に低得点のソフトマックススコアを生成することを可視化した。

Label Smoothing (LS) improves model generalization through penalizing models from generating overconfident output distributions. For each training sample the LS strategy smooths the one-hot encoded training signal by distributing its distribution mass over the non-ground truth classes. We extend this technique by considering example pairs, coined PLS. PLS first creates midpoint samples by averaging random sample pairs and then learns a smoothing distribution during training for each of these midpoint samples, resulting in midpoints with high uncertainty labels for training. We empirically show that PLS significantly outperforms LS, achieving up to 30% of relative classification error reduction. We also visualize that PLS produces very low winning softmax scores for both in and out of distribution samples.
翻訳日:2021-06-29 14:06:56 公開日:2021-06-26
# ARMベースのコンピューティングプラットフォームのためのCondenseNeXtによる画像分類

Image Classification with CondenseNeXt for ARM-Based Computing Platforms ( http://arxiv.org/abs/2106.14102v1 )

ライセンス: Link先を確認
Priyank Kalgaonkar, Mohamed El-Sharkawy(参考訳) 本稿では、自動運転車向けに開発された自動運転開発プラットフォームであるNXP BlueBox上のCondenseNeXtという超効率的なディープ畳み込みニューラルネットワークアーキテクチャの実装を実演する。 CondenseNeXtは計算資源が限られているARMベースの組み込みコンピューティングプラットフォーム向けに設計されており、CUDAを有効にしたGPUを必要とせずに画像分類を行うことができる。 CondenseNeXtは最先端のDeepwise Separable Convolutionとモデル圧縮技術を利用して、驚くべき計算効率を実現する。 CIFAR-10, CIFAR-100, ImageNetデータセットを用いて, CondenseNeXt Convolutional Neural Network (CNN)アーキテクチャの性能を検証する。 CIFAR-10(4.79%のトップ1エラー)、CIFAR-100(21.98%トップ1エラー)、ImageNet(7.91%シングルモデル、単一作物トップ5エラー)を含む3つのベンチマークデータセットで、最先端の画像分類性能を達成する。 CondenseNeXtは2.9MB以上のモデルサイズの改善と、CondenseNetと比較して最大59.98%の削減を実現し、CUDAを有効にしたGPUサポートを必要とせずにARMベースのコンピューティングプラットフォーム上で画像分類を行うことができる。

In this paper, we demonstrate the implementation of our ultra-efficient deep convolutional neural network architecture: CondenseNeXt on NXP BlueBox, an autonomous driving development platform developed for self-driving vehicles. We show that CondenseNeXt is remarkably efficient in terms of FLOPs, designed for ARM-based embedded computing platforms with limited computational resources and can perform image classification without the need of a CUDA enabled GPU. CondenseNeXt utilizes the state-of-the-art depthwise separable convolution and model compression techniques to achieve a remarkable computational efficiency. Extensive analyses are conducted on CIFAR-10, CIFAR-100 and ImageNet datasets to verify the performance of CondenseNeXt Convolutional Neural Network (CNN) architecture. It achieves state-of-the-art image classification performance on three benchmark datasets including CIFAR-10 (4.79% top-1 error), CIFAR-100 (21.98% top-1 error) and ImageNet (7.91% single model, single crop top-5 error). CondenseNeXt achieves final trained model size improvement of 2.9+ MB and up to 59.98% reduction in forward FLOPs compared to CondenseNet and can perform image classification on ARM-Based computing platforms without needing a CUDA enabled GPU support, with outstanding efficiency.
翻訳日:2021-06-29 14:06:41 公開日:2021-06-26
# 機能的クラスワイド主成分分析:新しい分類フレームワーク

Functional Classwise Principal Component Analysis: A Novel Classification Framework ( http://arxiv.org/abs/2106.13959v1 )

ライセンス: Link先を確認
Avishek Chatterjee, Satyaki Mazumder, Koel Das(参考訳) 近年,高次元データ分類の分野では,機能的データ分析(FDA)が成功している。 本稿では,機能データとクラスワイド主成分分析(PCA)を用いた新しい分類手法を提案する。 提案手法は, サンプルサイズの小さな問題に典型的に苦しむ高次元時系列データに適用できる。 提案手法は,時系列データを関数データに変換し,特徴抽出にクラスワイズ関数型pcaを使用し,ベイズ線形分類器を用いた分類を行う。 提案手法は, 神経科学, 食品科学, 医学, ケモメトリックスに限らず, 様々な分野の合成データセットと実時間時系列データの両方に適用し, 有効性を示す。

In recent times, functional data analysis (FDA) has been successfully applied in the field of high dimensional data classification. In this paper, we present a novel classification framework using functional data and classwise Principal Component Analysis (PCA). Our proposed method can be used in high dimensional time series data which typically suffers from small sample size problem. Our method extracts a piece wise linear functional feature space and is particularly suitable for hard classification problems.The proposed framework converts time series data into functional data and uses classwise functional PCA for feature extraction followed by classification using a Bayesian linear classifier. We demonstrate the efficacy of our proposed method by applying it to both synthetic data sets and real time series data from diverse fields including but not limited to neuroscience, food science, medical sciences and chemometrics.
翻訳日:2021-06-29 14:06:00 公開日:2021-06-26
# UMIC:コントラスト学習による画像キャプションのための非参照メトリック

UMIC: An Unreferenced Metric for Image Captioning via Contrastive Learning ( http://arxiv.org/abs/2106.14019v1 )

ライセンス: Link先を確認
Hwanhee Lee, Seunghyun Yoon, Franck Dernoncourt, Trung Bui, Kyomin Jung(参考訳) BERTScoreのような様々なテキスト生成指標の成功にもかかわらず、説明の多様性のために十分な参照キャプションなしで画像キャプションを評価することは依然として困難である。 本稿では,画像キャプション評価のための参照キャプションを必要としない,画像キャプション用unreferenced Metrics for Image Captioningという新しいメトリックUMICを紹介する。 ビジョン・アンド・ランゲージ BERT に基づいてUMIC を訓練し、対照的な学習を通して否定的なキャプションを識別する。 また、画像キャプションメトリクスにおける従来のベンチマークデータセット(つまりヒューマンアノテーション)の重要な問題を観察し、生成されたキャプションに新たなヒューマンアノテーションの集合を導入する。 我々は、新しいデータセットを含む4つのデータセット上でUMICを検証し、UMICが複数の参照を必要とする以前のすべてのメトリクスよりも高い相関性を持つことを示す。 UMICを計算するために,ベンチマークデータセットと事前学習モデルをリリースする。

Despite the success of various text generation metrics such as BERTScore, it is still difficult to evaluate the image captions without enough reference captions due to the diversity of the descriptions. In this paper, we introduce a new metric UMIC, an Unreferenced Metric for Image Captioning which does not require reference captions to evaluate image captions. Based on Vision-and-Language BERT, we train UMIC to discriminate negative captions via contrastive learning. Also, we observe critical problems of the previous benchmark dataset (i.e., human annotations) on image captioning metric, and introduce a new collection of human annotations on the generated captions. We validate UMIC on four datasets, including our new dataset, and show that UMIC has a higher correlation than all previous metrics that require multiple references. We release the benchmark dataset and pre-trained models to compute the UMIC.
翻訳日:2021-06-29 14:04:06 公開日:2021-06-26
# ShapeEditer:Face Swapping用のStyleGANエンコーダ

ShapeEditer: a StyleGAN Encoder for Face Swapping ( http://arxiv.org/abs/2106.13984v1 )

ライセンス: Link先を確認
Shuai Yang, Kai Qiao(参考訳) 本稿では,高解像度,リアル,高忠実な顔交換のための新しいエンコーダであるShapeEditorを提案する。 第一に、十分な明瞭さと信頼性を確保するために、我々のキーとなるアイデアは、事前訓練された高品質のランダムな顔画像生成装置を使用することである。 StyleGAN、バックボーンとして。 次に、2段階のエンコーダであるShapeEditorを設計し、スワップされた顔に入力された顔のアイデンティティと属性を統合する。 第1ステップでは、ソース画像の同一性ベクトルと対象画像の属性ベクトルをそれぞれ抽出し、第2ステップでは、同一性ベクトルと属性ベクトルの連結性を$\mathcal{W+}$ポテンシャル空間にマッピングする。 また、スタイルガンの潜在空間にマップする学習のために、トレーニングデータを手動でラベル付けする必要のない自己教師付き損失関数の集合を提案する。 テストデータセットの大規模な実験により,本手法の結果は,他の最先端手法よりも明瞭さと信頼性に優れるだけでなく,アイデンティティと属性の十分な統合を反映していることがわかった。

In this paper, we propose a novel encoder, called ShapeEditor, for high-resolution, realistic and high-fidelity face exchange. First of all, in order to ensure sufficient clarity and authenticity, our key idea is to use an advanced pretrained high-quality random face image generator, i.e. StyleGAN, as backbone. Secondly, we design ShapeEditor, a two-step encoder, to make the swapped face integrate the identity and attribute of the input faces. In the first step, we extract the identity vector of the source image and the attribute vector of the target image respectively; in the second step, we map the concatenation of identity vector and attribute vector into the $\mathcal{W+}$ potential space. In addition, for learning to map into the latent space of StyleGAN, we propose a set of self-supervised loss functions with which the training data do not need to be labeled manually. Extensive experiments on the test dataset show that the results of our method not only have a great advantage in clarity and authenticity than other state-of-the-art methods, but also reflect the sufficient integration of identity and attribute.
翻訳日:2021-06-29 14:03:52 公開日:2021-06-26
# 意味概念を用いたマルチモーダル変分オートエンコーダを用いた一般化ゼロショット学習

Generalized Zero-Shot Learning using Multimodal Variational Auto-Encoder with Semantic Concepts ( http://arxiv.org/abs/2106.14082v1 )

ライセンス: Link先を確認
Nihar Bendre, Kevin Desai and Peyman Najafirad(参考訳) データの量が増え続ける中、マルチモーダル学習の中心的な課題はラベル付きサンプルの制限である。 分類作業では,メタラーニング,ゼロショットラーニング,少数ショットラーニングなどの手法が,事前知識に基づいて新しいクラスに関する情報を学習する能力を示している。 近年の手法では,意味空間と画像空間の相互マッピングが試みられている。 しかし、彼らは局所的およびグローバルな意味知識を無視する傾向がある。 この問題を解決するために、画像特徴の共有潜在空間と意味空間を学習できるマルチモーダル変分オートエンコーダ(M-VAE)を提案する。 私たちのアプローチでは、潜在空間を学ぶためにvaeに渡す前に、マルチモーダルデータを単一の埋め込みにまとめます。 本稿では,デコーダに埋め込まれた特徴の再構成において,マルチモーダルロスの利用を提案する。 提案手法は, モダリティを関連づけ, 局所的およびグローバルな意味知識を新たなサンプル予測に活用する。 4つのベンチマークデータセット上のMLP分類器を用いた実験結果から,提案手法はゼロショット学習における最先端の手法よりも優れていることが示された。

With the ever-increasing amount of data, the central challenge in multimodal learning involves limitations of labelled samples. For the task of classification, techniques such as meta-learning, zero-shot learning, and few-shot learning showcase the ability to learn information about novel classes based on prior knowledge. Recent techniques try to learn a cross-modal mapping between the semantic space and the image space. However, they tend to ignore the local and global semantic knowledge. To overcome this problem, we propose a Multimodal Variational Auto-Encoder (M-VAE) which can learn the shared latent space of image features and the semantic space. In our approach we concatenate multimodal data to a single embedding before passing it to the VAE for learning the latent space. We propose the use of a multi-modal loss during the reconstruction of the feature embedding through the decoder. Our approach is capable to correlating modalities and exploit the local and global semantic knowledge for novel sample predictions. Our experimental results using a MLP classifier on four benchmark datasets show that our proposed model outperforms the current state-of-the-art approaches for generalized zero-shot learning.
翻訳日:2021-06-29 14:03:29 公開日:2021-06-26
# タスク間シナプスマッピングによる連続学習

Continual Learning via Inter-Task Synaptic Mapping ( http://arxiv.org/abs/2106.13954v1 )

ライセンス: Link先を確認
Mao Fubing, Weng Weiwei, Mahardhika Pratama, Edward Yapp Kien Yee(参考訳) ストリーミングタスクから学ぶことは、前回から吸収したユニークな体験を壊滅的に消去するモデルにつながる。 LWF、SI、EWCのような正規化技術は、新しい概念を受け入れる際に古いタスクの重要なパラメータが変化することを制限することで、この問題を克服するための効果的な手段として証明されているが、これらのアプローチは既存のニューロンと共有できる各タスクの共通情報を活用していない。 その結果、パラメータの重要性変数が急速に爆発するため、大規模な問題に対してうまくスケールできない。 連続学習における知識保持の基盤となるタスク間シナプスマッピング(ISYANA)を提案する。 isyanaは、タスク対ニューロンの関係と概念対概念関係を組み合わせることで、ニューロンが関連する概念を受け入れながら、異なる概念を受け入れることを妨げている。 ベンチマーク連続学習問題における数値的研究は、顕著な連続学習アルゴリズムとの比較に続くものである。 ISYANAは、最先端の芸術と比較して競争力がある。 ISYANAのコードは \url{https://github.com/C ontinualAL/ISYANAKBS } で公開されている。

Learning from streaming tasks leads a model to catastrophically erase unique experiences it absorbs from previous episodes. While regularization techniques such as LWF, SI, EWC have proven themselves as an effective avenue to overcome this issue by constraining important parameters of old tasks from changing when accepting new concepts, these approaches do not exploit common information of each task which can be shared to existing neurons. As a result, they do not scale well to large-scale problems since the parameter importance variables quickly explode. An Inter-Task Synaptic Mapping (ISYANA) is proposed here to underpin knowledge retention for continual learning. ISYANA combines task-to-neuron relationship as well as concept-to-concept relationship such that it prevents a neuron to embrace distinct concepts while merely accepting relevant concept. Numerical study in the benchmark continual learning problems has been carried out followed by comparison against prominent continual learning algorithms. ISYANA exhibits competitive performance compared to state of the arts. Codes of ISYANA is made available in \url{https://github.com/C ontinualAL/ISYANAKBS }.
翻訳日:2021-06-29 14:01:10 公開日:2021-06-26
# ストリーミング環境における自律的品質モニタリング

Autonomous Deep Quality Monitoring in Streaming Environments ( http://arxiv.org/abs/2106.13955v1 )

ライセンス: Link先を確認
Andri Ashfahani, Mahardhika Pratama, Edwin Lughofer, Edward Yapp Kien Yee(参考訳) 業界における品質監視の一般的なプラクティスは、遅く、エラーが発生しやすく、オペレータに依存した手作業による検査に依存している。 この課題は、データ駆動アプローチから開発された自動リアルタイム品質監視に対する強い需要を高め、オペレータ依存を緩和し、さまざまなプロセスの不確実性に適応する。 それにもかかわらず、現在のアプローチは、アプリケーション固有の手作り機能に大きく依存しながらも、感覚情報のストリーミングの性質を考慮していない。 本稿では,最近開発されたデータストリームのディープラーニングアルゴリズムであるNADINE++(Neural Networks with Dynamically Evolved Capacity)を用いて,オンライン品質モニタリング手法を提案する。 1次元と2次元の畳み込み層を統合し、私たちのプロジェクトからインジェクション成形機のセンサーとカメラから得られた時系列とビジュアルデータストリームの自然な特徴を抽出する。 オンライン品質監視タスクを事前テスト-then-train方式でリアルタイムでシミュレートするリアルタイム実験が実施されている。 最先端技術と比較すると、ストリーミング環境における品質監視タスクにおいて、NADINE++の利点と平均4.68\%の改善が明らかである。 再現可能な研究イニシアチブをサポートするために、コード、NADINE++の結果と補助材料、射出成形データセットが \url{https://github.com/C ontinualAL/NADINE-IJ CNN2021} で公開されている。

The common practice of quality monitoring in industry relies on manual inspection well-known to be slow, error-prone and operator-dependent. This issue raises strong demand for automated real-time quality monitoring developed from data-driven approaches thus alleviating from operator dependence and adapting to various process uncertainties. Nonetheless, current approaches do not take into account the streaming nature of sensory information while relying heavily on hand-crafted features making them application-specific . This paper proposes the online quality monitoring methodology developed from recently developed deep learning algorithms for data streams, Neural Networks with Dynamically Evolved Capacity (NADINE), namely NADINE++. It features the integration of 1-D and 2-D convolutional layers to extract natural features of time-series and visual data streams captured from sensors and cameras of the injection molding machines from our own project. Real-time experiments have been conducted where the online quality monitoring task is simulated on the fly under the prequential test-then-train fashion - the prominent data stream evaluation protocol. Comparison with the state-of-the-art techniques clearly exhibits the advantage of NADINE++ with 4.68\% improvement on average for the quality monitoring task in streaming environments. To support the reproducible research initiative, codes, results of NADINE++ along with supplementary materials and injection molding dataset are made available in \url{https://github.com/C ontinualAL/NADINE-IJ CNN2021}.
翻訳日:2021-06-29 14:00:52 公開日:2021-06-26
# 強化学習における動機づけ型自己教師型学習

Intrinsically Motivated Self-supervised Learning in Reinforcement Learning ( http://arxiv.org/abs/2106.13970v1 )

ライセンス: Link先を確認
Yue Zhao, Chenzhuang Du, Hang Zhao, Tiejun Li(参考訳) 視覚に基づく強化学習(RL)タスクでは、補助的なタスクに自己監督的損失を割り当て、より意味的な表現を得、サンプル効率を向上させることが一般的である。 しかし、表現学習部と意思決定部とが分離されているため、自己監督補助タスクの豊富な情報は無視されている。 補助課題における情報を十分に活用するために,本質的動機づけ自己教師付き学習(im-ssr)と呼ばれる自己教師付き学習を本質的報酬として活用する,単純かつ効果的なアイデアを提案する。 自己教師付き損失を,新しい状態の探索とニュアサンス除去によるロバスト性改善として分解できることを形式的に示す。 IM-SSRは、余分なコストを伴わずに、自己監督的な補助目標を持つ強化学習に力ずくで接続することができる。 IM-SSRと組み合わせることで、DeepMind Control Suiteの様々なビジョンベースのロボットタスクにおいて、サンプル効率と一般化の両方において、特に報酬信号が不足している場合には、優れた改善が達成される。

In vision-based reinforcement learning (RL) tasks, it is prevalent to assign the auxiliary task with a surrogate self-supervised loss so as to obtain more semantic representations and improve sample efficiency. However, abundant information in self-supervised auxiliary tasks has been disregarded, since the representation learning part and the decision-making part are separated. To sufficiently utilize information in the auxiliary task, we present a simple yet effective idea to employ self-supervised loss as an intrinsic reward, called Intrinsically Motivated Self-Supervised learning in Reinforcement learning (IM-SSR). We formally show that the self-supervised loss can be decomposed as exploration for novel states and robustness improvement from nuisance elimination. IM-SSR can be effortlessly plugged into any reinforcement learning with self-supervised auxiliary objectives with nearly no additional cost. Combined with IM-SSR, the previous underlying algorithms achieve salient improvements on both sample efficiency and generalization in various vision-based robotics tasks from the DeepMind Control Suite, especially when the reward signal is sparse.
翻訳日:2021-06-29 14:00:27 公開日:2021-06-26
# PhyCRNet:時空間PDEを解く物理インフォームド畳み込みリカレントネットワーク

PhyCRNet: Physics-informed Convolutional-Recurr ent Network for Solving Spatiotemporal PDEs ( http://arxiv.org/abs/2106.14103v1 )

ライセンス: Link先を確認
Pu Ren, Chengping Rao, Yang Liu, Jianxun Wang, Hao Sun(参考訳) 偏微分方程式 (Partial differential equation, PDE) は、幅広い分野の問題をモデル化し、シミュレーションする上で基礎的な役割を果たす。 近年のディープラーニングの進歩は、データ駆動モデリングと逆解析の基礎としてPDEを解決する物理情報ニューラルネットワーク(PINN)の大きな可能性を示している。 しかし, 既存のPINN手法の大部分は, 低次元時空間パラメータ化に固有の制約を課している。 さらに、初期/境界条件(I/BC)はペナルティによってソフトに課されるため、ソリューションの品質はハイパーパラメータチューニングに大きく依存する。 そこで本研究では,PDEをラベル付きデータなしで解くための物理インフォームド・コンボリューショナル・リカレント学習アーキテクチャ(PhyCRNetとPhyCRNet-s)を提案する。 具体的には,低次元空間特徴抽出と時間進化学習のために,エンコーダ・デコーダ畳み込み長短期記憶ネットワークを提案する。 損失関数は集計離散pde残差として定義され、i/bcsは強制的な満足度(例えば周期的境界パディング)を確保するためにネットワーク内でハードエンコードされる。 ネットワークは、時間マーチングを明示的にシミュレートする自己回帰接続と残留接続によってさらに強化される。 提案手法の性能は、3つの非線形PDE(例えば、2D Burgers方程式、$\lambda$-$\omega$およびFitzHugh Nagumo反応拡散方程式)を解くことで評価され、最先端のベースラインアルゴリズムと比較された。 その結果,提案手法は解の正確性,外挿性,一般化性において優れていることがわかった。

Partial differential equations (PDEs) play a fundamental role in modeling and simulating problems across a wide range of disciplines. Recent advances in deep learning have shown the great potential of physics-informed neural networks (PINNs) to solve PDEs as a basis for data-driven modeling and inverse analysis. However, the majority of existing PINN methods, based on fully-connected NNs, pose intrinsic limitations to low-dimensional spatiotemporal parameterizations. Moreover, since the initial/boundary conditions (I/BCs) are softly imposed via penalty, the solution quality heavily relies on hyperparameter tuning. To this end, we propose the novel physics-informed convolutional-recurr ent learning architectures (PhyCRNet and PhyCRNet-s) for solving PDEs without any labeled data. Specifically, an encoder-decoder convolutional long short-term memory network is proposed for low-dimensional spatial feature extraction and temporal evolution learning. The loss function is defined as the aggregated discretized PDE residuals, while the I/BCs are hard-encoded in the network to ensure forcible satisfaction (e.g., periodic boundary padding). The networks are further enhanced by autoregressive and residual connections that explicitly simulate time marching. The performance of our proposed methods has been assessed by solving three nonlinear PDEs (e.g., 2D Burgers' equations, the $\lambda$-$\omega$ and FitzHugh Nagumo reaction-diffusion equations), and compared against the start-of-the-art baseline algorithms. The numerical results demonstrate the superiority of our proposed methodology in the context of solution accuracy, extrapolability and generalizability.
翻訳日:2021-06-29 13:54:30 公開日:2021-06-26
# タスクの自動生成による一般化可能なスキルの発見

Discovering Generalizable Skills via Automated Generation of Diverse Tasks ( http://arxiv.org/abs/2106.13935v1 )

ライセンス: Link先を確認
Kuan Fang, Yuke Zhu, Silvio Savarese, Li Fei-Fei(参考訳) 知的エージェントの学習効率と一般化能力は、有用なスキルセットを利用することで大幅に向上することができる。 しかし、ロボットスキルの設計は、必要となる膨大な努力と専門知識のために、現実の応用においてしばしば難解である。 本研究では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法であるSkill Learning In Diversified Environments(SLIDE)を紹介する。 同じ環境下で異なる結果を生み出すためのスキルを動機付けるスキルの教師なし発見に関する先行研究とは対照的に,本手法では各スキルと,トレーニング可能なタスクジェネレータが生成するユニークなタスクをペアリングする。 一般化可能なスキルの出現を促すため,提案手法では,ペアタスクを専門とする各スキルを訓練し,生成するタスクの多様性を最大化する。 生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。 学習スキルは階層的強化学習アルゴリズムで構成され、対象とする未認識のタスクを解決する。 提案手法は,2つのテーブルトップ操作領域において,多様なロボットスキルを効果的に学習できることを実証する。 以上の結果から,既存の強化学習やスキル学習手法と比較して,学習スキルはロボットの性能を効果的に向上させることができることが示唆された。

The learning efficiency and generalization ability of an intelligent agent can be greatly improved by utilizing a useful set of skills. However, the design of robot skills can often be intractable in real-world applications due to the prohibitive amount of effort and expertise that it requires. In this work, we introduce Skill Learning In Diversified Environments (SLIDE), a method to discover generalizable skills via automated generation of a diverse set of tasks. As opposed to prior work on unsupervised discovery of skills which incentivizes the skills to produce different outcomes in the same environment, our method pairs each skill with a unique task produced by a trainable task generator. To encourage generalizable skills to emerge, our method trains each skill to specialize in the paired task and maximizes the diversity of the generated tasks. A task discriminator defined on the robot behaviors in the generated tasks is jointly trained to estimate the evidence lower bound of the diversity objective. The learned skills can then be composed in a hierarchical reinforcement learning algorithm to solve unseen target tasks. We demonstrate that the proposed method can effectively learn a variety of robot skills in two tabletop manipulation domains. Our results suggest that the learned skills can effectively improve the robot's performance in various unseen target tasks compared to existing reinforcement learning and skill learning methods.
翻訳日:2021-06-29 13:53:59 公開日:2021-06-26
# 個別クラスタリングのための近似アルゴリズムの改良

Improved Approximation Algorithms for Individually Fair Clustering ( http://arxiv.org/abs/2106.14043v1 )

ライセンス: Link先を確認
Ali Vakilian, Mustafa Yal\c{c}{\i}ner(参考訳) Jungらによって提案された公正性の概念の下で、$k$-median、$k$-means、$k$-centerコスト関数を含む$\ell_p$-normコストの$k$-clustering問題を考える。 [2020]: 点の集合 P$ of size $n$ が与えられたとき、$k$ 中心の集合は、すべての点 $v\in P$ に対して、$v$ が近辺の $n/k$ の中心を見つけることができるならば、公平なクラスタリングを誘導する。 最近、Mahabadi と Vakilian [2020] は、$(p^{O(p)},7)$-bicriteria approximation for the problem of fair $k$-clustering with $\ell_p$-norm cost: すべての点が、その$(n/k)$-th Near neighbor と、$\ell_p$-norm cost of the solution の少なくとも$(p^{O(p)}$倍の距離にある中心を見つける。 この研究では、任意の$\varepsilon>0$に対して、$\ell_p$-normコストのフェア$k$-clusteringに対する改良された$ 16^p +\varepsilon,3)$-bicr iteria近似を示す。 保証を達成するため、[Charikar et al., 2002, Swamy, 2016] の枠組みを拡張し、独立した関心を持つマトロイド制約の下で、$\ell_p$-normのコストで施設位置に対する16^p$-approximationアルゴリズムを考案する。 さらに,我々のアプローチは,kleindessnerらによって提案されたグループフェアネス要件により,個々に公平なクラスタリングからクラスタ化への縮小を示唆する。 Crishnaswamy et al., 2011] は, 基本的には中央値のマトロイド問題である。

We consider the $k$-clustering problem with $\ell_p$-norm cost, which includes $k$-median, $k$-means and $k$-center cost functions, under an individual notion of fairness proposed by Jung et al. [2020]: given a set of points $P$ of size $n$, a set of $k$ centers induces a fair clustering if for every point $v\in P$, $v$ can find a center among its $n/k$ closest neighbors. Recently, Mahabadi and Vakilian [2020] showed how to get a $(p^{O(p)},7)$-bicriteria approximation for the problem of fair $k$-clustering with $\ell_p$-norm cost: every point finds a center within distance at most $7$ times its distance to its $(n/k)$-th closest neighbor and the $\ell_p$-norm cost of the solution is at most $p^{O(p)}$ times the cost of an optimal fair solution. In this work, for any $\varepsilon>0$, we present an improved $(16^p +\varepsilon,3)$-bicr iteria approximation for the fair $k$-clustering with $\ell_p$-norm cost. To achieve our guarantees, we extend the framework of [Charikar et al., 2002, Swamy, 2016] and devise a $16^p$-approximation algorithm for the facility location with $\ell_p$-norm cost under matroid constraint which might be of an independent interest. Besides, our approach suggests a reduction from our individually fair clustering to a clustering with a group fairness requirement proposed by Kleindessner et al. [2019], which is essentially the median matroid problem [Krishnaswamy et al., 2011].
翻訳日:2021-06-29 13:53:41 公開日:2021-06-26
# ハイパースペクトル画像分類のためのスペクトル空間グラフ推論ネットワーク

Spectral-Spatial Graph Reasoning Network for Hyperspectral Image Classification ( http://arxiv.org/abs/2106.13952v1 )

ライセンス: Link先を確認
Di Wang, Bo Du, Liangpei Zhang(参考訳) 本稿では,超スペクトル画像(HSI)分類のためのスペクトル空間グラフ推論ネットワーク(SSGRN)を提案する。 具体的には、空間グラフ推論サブネットワーク (SAGRN) とスペクトルグラフ推論サブネットワーク (SEGRN) という2つの部分から構成され、それぞれ空間グラフコンテキストとスペクトルグラフコンテキストをキャプチャする。 元の画像にスーパーピクセルセグメンテーションを実装したり、ラベル画像のガイドでカテゴリ特徴を取得しようとする以前のアプローチと異なり、ネットワークの中間特徴に対してスーパーピクセルセグメンテーションを行い、同種領域を適応的に生成し、有効記述子を得る。 次に、スペクトル部分において同様のアイデアを採用し、チャネルを合理的に集約し、スペクトルグラフコンテキストをキャプチャするスペクトル記述子を生成する。 SAGRNとSEGRNの全てのグラフ推論手順は、グラフ畳み込みによって達成される。 提案手法のグローバルな認識能力を保証するため,非局所自己認識機構の助けを借りて,グラフ推論における隣接行列を全て取得する。 最後に、抽出した空間グラフとスペクトルグラフのコンテキストを組み合わせることで、SSGRNを取得し、高精度な分類を実現する。 3つの公開HSIベンチマークにおける大規模定量的および定性的な実験は、提案手法の競合性を他の最先端手法と比較して実証する。

In this paper, we propose a spectral-spatial graph reasoning network (SSGRN) for hyperspectral image (HSI) classification. Concretely, this network contains two parts that separately named spatial graph reasoning subnetwork (SAGRN) and spectral graph reasoning subnetwork (SEGRN) to capture the spatial and spectral graph contexts, respectively. Different from the previous approaches implementing superpixel segmentation on the original image or attempting to obtain the category features under the guide of label image, we perform the superpixel segmentation on intermediate features of the network to adaptively produce the homogeneous regions to get the effective descriptors. Then, we adopt a similar idea in spectral part that reasonably aggregating the channels to generate spectral descriptors for spectral graph contexts capturing. All graph reasoning procedures in SAGRN and SEGRN are achieved through graph convolution. To guarantee the global perception ability of the proposed methods, all adjacent matrices in graph reasoning are obtained with the help of non-local self-attention mechanism. At last, by combining the extracted spatial and spectral graph contexts, we obtain the SSGRN to achieve a high accuracy classification. Extensive quantitative and qualitative experiments on three public HSI benchmarks demonstrate the competitiveness of the proposed methods compared with other state-of-the-art approaches.
翻訳日:2021-06-29 13:49:19 公開日:2021-06-26
# ベストアーム識別における文脈情報の役割

The Role of Contextual Information in Best Arm Identification ( http://arxiv.org/abs/2106.14077v1 )

ライセンス: Link先を確認
Masahiro Kato and Kaito Ariu(参考訳) 確率的バンディットにおいて文脈情報(共変量)が利用可能である場合、最良のアーム識別問題を一定の信頼性で検討する。 各ラウンドでコンテキスト情報を使用することは可能ですが、文脈分布よりも余分な平均報酬に関心があります。 私たちのゴールは、エラー率の所定の値の下で最小限のサンプリング数で最適なアームを特定することです。 この問題に対して、インスタンス固有のサンプル複雑性の低い境界を示す。 そこで本研究では,アームの比率が最適な割り当てのセットを追跡し,期待されるアームの数が漸近的に下限に一致することを示す「トラック・アンド・ストップ」戦略の文脈対応版を提案する。 本稿では,Garivier & Kaufmann (2016) の結果と比較して,最適辺縁化平均報酬の同定効率を向上させるために,文脈情報を用いることを実証する。 我々は、文脈情報がより高速なベストアーム識別に寄与することを実験的に確認する。

We study the best-arm identification problem with fixed confidence when contextual (covariate) information is available in stochastic bandits. Although we can use contextual information in each round, we are interested in the marginalized mean reward over the contextual distribution. Our goal is to identify the best arm with a minimal number of samplings under a given value of the error rate. We show the instance-specific sample complexity lower bounds for the problem. Then, we propose a context-aware version of the "Track-and-Stop" strategy, wherein the proportion of the arm draws tracks the set of optimal allocations and prove that the expected number of arm draws matches the lower bound asymptotically. We demonstrate that contextual information can be used to improve the efficiency of the identification of the best marginalized mean reward compared with the results of Garivier & Kaufmann (2016). We experimentally confirm that context information contributes to faster best-arm identification.
翻訳日:2021-06-29 13:46:05 公開日:2021-06-26
# (参考訳) 深さ誘導カモフラージュ物体検出 [全文訳有]

Depth-Guided Camouflaged Object Detection ( http://arxiv.org/abs/2106.13217v2 )

ライセンス: CC BY 4.0
Jing Zhang, Yunqiu Lv, Mochu Xiang, Aixuan Li, Yuchao Dai, Yiran Zhong(参考訳) カモフラージュされた物体検出(COD)は、カモフラージュされた物体を環境中に隠蔽することを目的としている。 生物学の研究によると、深度は、すべての動物が3D知覚能力を持つため、カモフラージュされた物体発見に有用な物体の局所化手段を提供する可能性がある。 しかし、深度情報はカモフラージュされた物体検出に利用されていない。 そこで本研究では,既存の単眼深度推定法から予め計算した深度マップを用いた深度誘導型物体検出ネットワークを提案する。 深度推定データセットとキャモフラージュしたオブジェクト検出データセットのドメインギャップのため、生成した深度は我々のフレームワークで直接使用されるほど正確ではないかもしれない。 次に,rgb codブランチおよびrgb-d codブランチからのモデル予測に基づいて深さ品質を評価する奥行き品質評価モジュールを提案する。 トレーニング中は、マルチモーダル学習のためのモーダル相互作用モジュールを更新するために、高品質な深度のみを使用する。 テスト中, 深度評価モジュールは, 奥行きの寄与を効果的に判定し, 迷彩予測のためのRGBブランチまたはRGB-Dブランチを選択する。 様々なカモフラージュ物体検出データセットに関する広範囲な実験により,カモフラージュ物体検出の奥行き情報探索におけるソリューションの有効性が証明された。 私たちのコードとデータは、 \url{https://github.com/j ingzhang617/rgbd-cod } で公開されている。

Camouflaged object detection (COD) aims to segment camouflaged objects hiding in the environment, which is challenging due to the similar appearance of camouflaged objects and their surroundings. Research in biology suggests that depth can provide useful object localization cues for camouflaged object discovery, as all the animals have 3D perception ability. However, the depth information has not been exploited for camouflaged object detection. To explore the contribution of depth for camouflage detection, we present a depth-guided camouflaged object detection network with pre-computed depth maps from existing monocular depth estimation methods. Due to the domain gap between the depth estimation dataset and our camouflaged object detection dataset, the generated depth may not be accurate enough to be directly used in our framework. We then introduce a depth quality assessment module to evaluate the quality of depth based on the model prediction from both RGB COD branch and RGB-D COD branch. During training, only high-quality depth is used to update the modal interaction module for multi-modal learning. During testing, our depth quality assessment module can effectively determine the contribution of depth and select the RGB branch or RGB-D branch for camouflage prediction. Extensive experiments on various camouflaged object detection datasets prove the effectiveness of our solution in exploring the depth information for camouflaged object detection. Our code and data is publicly available at: \url{https://github.com/J ingZhang617/RGBD-COD }.
翻訳日:2021-06-29 11:33:38 公開日:2021-06-26