このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210815となっている論文です。

PDF登録状況(公開日: 20210815)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) Contrast Limited Adaptive Histogram Equalization (CLAHE) 法による摩擦ステア溶接継手の組織改善 [全文訳有]

Contrast Limited Adaptive Histogram Equalization (CLAHE) Approach for Enhancement of the Microstructures of Friction Stir Welded Joints ( http://arxiv.org/abs/2109.00886v1 )

ライセンス: CC BY 4.0
Akshansh Mishra(参考訳) 画像処理アルゴリズムは、製造された試料中の亀裂の同定、与えられた微細構造の幾何学的性質の計算、表面欠陥の存在など、製造および材料産業における様々な応用を見出している。 本研究は,摩擦スター溶接継手の微細構造画像の品質向上にContrast Limited Adaptive Histogram Equalization (CLAHE)アルゴリズムを適用した。 その結果,エントロピー値やRMSコントラスト値などの定量値の得られた値は高い値を示し,その結果,微細構造像が向上した。

Image processing algorithms are finding various applications in manufacturing and materials industries such as identification of cracks in the fabricated samples, calculating the geometrical properties of the given microstructure, presence of surface defects, etc. The present work deals with the application of Contrast Limited Adaptive Histogram Equalization (CLAHE) algorithm for improving the quality of the microstructure images of the Friction Stir Welded joints. The obtained results showed that the obtained value of quantitative metric features such as Entropy value and RMS Contrast value were high which resulted in enhanced microstructure images.
翻訳日:2021-09-05 12:51:46 公開日:2021-08-15
# エンタープライズアーキテクチャモデル変換エンジン

Enterprise Architecture Model Transformation Engine ( http://arxiv.org/abs/2108.13169v1 )

ライセンス: Link先を確認
Erik Heiland, Peter Hillmann, Andreas Karcher(参考訳) バリューチェーン内のリンクの増加に伴い、異なる企業のITシステムも相互に接続されている。 これにより、プロセスの品質とパフォーマンスを改善するために、業界4.0の動きにおけるサービスの統合が可能になる。 エンタープライズアーキテクチャモデルは、よりよいビジネスITアライメントによって、この基盤を形成します。 しかし、モデリングフレームワークと記述言語の多様性は、特に構文、意味、関係の相違など、結合をかなり困難にしている。 そこで本稿では,エンタープライズアーキテクチャモデルを複数の言語間で変換する変換エンジンを提案する。 我々は、任意のモデリング言語に柔軟に対応可能な、特定のメタモデリングを含まない最初のジェネリック翻訳手法を開発した。 変換プロセスはルールベースの記述言語を用いて様々なパターンマッチング手法によって定義される。 集合論と一階述語論理を基礎として直観的記述に用いる。 この概念は、大規模なドイツのitサービスプロバイダの例を使って実践的に評価される。 いずれにせよ、このアプローチは幅広いエンタープライズアーキテクチャフレームワークの間で適用できます。

With increasing linkage within value chains, the IT systems of different companies are also being connected with each other. This enables the integration of services within the movement of Industry 4.0 in order to improve the quality and performance of the processes. Enterprise architecture models form the basis for this with a better buisness IT-alignment. However, the heterogeneity of the modeling frameworks and description languages makes a concatenation considerably difficult, especially differences in syntax, semantic and relations. Therefore, this paper presents a transformation engine to convert enterprise architecture models between several languages. We developed the first generic translation approach that is free of specific meta-modeling, which is flexible adaptable to arbitrary modeling languages. The transformation process is defined by various pattern matching techniques using a rule-based description language. It uses set theory and first-order logic for an intuitive description as a basis. The concept is practical evaluated using an example in the area of a large German IT-service provider. Anyhow, the approach is applicable between a wide range of enterprise architecture frameworks.
翻訳日:2021-09-05 08:52:20 公開日:2021-08-15
# (参考訳) 機械学習のためのパターン認識手法としてのパターンインバージョン [全文訳有]

Pattern Inversion as a Pattern Recognition Method for Machine Learning ( http://arxiv.org/abs/2108.10242v1 )

ライセンス: CC BY 4.0
Alexei Mikhailov, Mikhail Karavay(参考訳) ニューラルネットワークは、特に深層学習ネットワークが採用されている場合、その調整に大量の計算能力を必要とする多くの係数を使用する。 しかし、例えばGoogle検索エンジンやゲノムシークエンシングなどにおいて、係数のない非常に高速なインデックス付けベースの技術が存在する。 本稿では,パターン認識におけるインデクシングに基づく手法について述べる。 パターン認識アプリケーションの場合、このようなインデックス化手法は逆パターンに置き換わり、完全に反転したファイルは一般的に検索エンジンで使用される。 このような逆転は、深層学習の目印である自動特徴抽出を提供するだけでなく、深層学習とは異なり、パターン逆転はほとんど瞬時学習をサポートしており、これは係数の欠如の結果である。 本稿では,新しいパターン変換を応用したパターン反転形式と教師なしインスタント学習への応用について述べる。 例として、自動車などの3次元物体の視角独立認識、任意の背景、航空機エンジンの寿命の予測、その他の応用例を挙げる。 結論として、神経生理学においては、新皮質小柱の機能は1957年以来広く議論されてきた。 本稿では, 数学的に, 皮質ミニカラムを逆パターンとして記述し, 入力と関連するパターンクラスとの結合を物理的に拡大する接続乗算器として機能することを仮定する。

Artificial neural networks use a lot of coefficients that take a great deal of computing power for their adjustment, especially if deep learning networks are employed. However, there exist coefficients-free extremely fast indexing-based technologies that work, for instance, in Google search engines, in genome sequencing, etc. The paper discusses the use of indexing-based methods for pattern recognition. It is shown that for pattern recognition applications such indexing methods replace with inverse patterns the fully inverted files, which are typically employed in search engines. Not only such inversion provide automatic feature extraction, which is a distinguishing mark of deep learning, but, unlike deep learning, pattern inversion supports almost instantaneous learning, which is a consequence of absence of coefficients. The paper discusses a pattern inversion formalism that makes use on a novel pattern transform and its application for unsupervised instant learning. Examples demonstrate a view-angle independent recognition of three-dimensional objects, such as cars, against arbitrary background, prediction of remaining useful life of aircraft engines, and other applications. In conclusion, it is noted that, in neurophysiology, the function of the neocortical mini-column has been widely debated since 1957. This paper hypothesize that, mathematically, the cortical mini-column can be described as an inverse pattern, which physically serves as a connection multiplier expanding associations of inputs with relevant pattern classes.
翻訳日:2021-08-29 14:20:03 公開日:2021-08-15
# (参考訳) 境界ボックスアノテーションを用いた画像分類モデルの信頼性向上 [全文訳有]

Improving the trustworthiness of image classification models by utilizing bounding-box annotations ( http://arxiv.org/abs/2108.10131v1 )

ライセンス: CC BY 4.0
Dharma KC, Chicheng Zhang(参考訳) 学習データの補助情報を利用して,機械学習モデルの信頼性を向上させる。 具体的には、画像分類の文脈において、多くの画像分類データセットで利用可能なバウンディングボックス情報を含むトレーニング目標を最適化することを提案する。 予備実験の結果,提案アルゴリズムはベースラインと比較して精度,頑健性,解釈性に優れていた。

We study utilizing auxiliary information in training data to improve the trustworthiness of machine learning models. Specifically, in the context of image classification, we propose to optimize a training objective that incorporates bounding box information, which is available in many image classification datasets. Preliminary experimental results show that the proposed algorithm achieves better performance in accuracy, robustness, and interpretability compared with baselines.
翻訳日:2021-08-29 14:10:10 公開日:2021-08-15
# (参考訳) Sonic: ストリーミングアプリケーションのためのサンプリングベースのオンラインコントローラ [全文訳有]

Sonic: A Sampling-based Online Controller for Streaming Applications ( http://arxiv.org/abs/2108.10701v1 )

ライセンス: CC BY 4.0
Yan Pei, Keshav Pingali(参考訳) マシンラーニングやコンピュータビジョンといった重要な問題領域の多くのアプリケーションは、時間とともに一連の入力を受けるストリーミングアプリケーションです。 最適なノブ設定は、通常、入力、コンピューティングプラットフォーム、時間、およびユーザーの要求の関数であり、非常に多様であるので、そのようなアプリケーションのランタイムパフォーマンスを最適化するノブ設定を見つけることは困難である。 以前の作業のほとんどはオフラインのプロファイリングでこの問題に対処し、その後制御のためのトレーニングモデルが続いた。 しかし、プロファイリングベースのアプローチは実行前に大きなオーバーヘッドを発生させるため、他のランタイム設定でそれらを再デプロイすることも困難である。 本稿では,事前にプロファイリングを必要としない長期ストリーミングアプリケーションのためのサンプリングベースのオンラインコントローラであるSonicを提案する。 ストリーミングアプリケーションの実行の各フェーズにおいて、Sonicは初期部を利用して戦略的にknob空間をサンプリングし、ユーザ指定の制約付き最適化問題を考えると、残りのフェーズに対して最適なknob設定を選択する。 機械学習回帰とベイジアン最適化のハイブリッドアプローチは、サンプリングの全体選択を改善するために用いられる。 sonicはアプリケーション、デバイス、インプット、パフォーマンスの目的と制約とは独立に実装されている。 従来の並列ベンチマークと、複数のプラットフォームにわたるディープラーニング推論ベンチマークでSonicを評価します。 私たちの実験では、sonicを使ってノブ設定を制御した場合、アプリケーションのランタイム性能は最適なノブ設定が使われた場合よりも5.3%低く、sonicが事前知識なしに様々なランタイム設定の下で、最適化に近いノブ設定を素早く見つけることができることを示した。

Many applications in important problem domains such as machine learning and computer vision are streaming applications that take a sequence of inputs over time. It is challenging to find knob settings that optimize the run-time performance of such applications because the optimal knob settings are usually functions of inputs, computing platforms, time as well as user's requirements, which can be very diverse. Most prior works address this problem by offline profiling followed by training models for control. However, profiling-based approaches incur large overhead before execution; it is also difficult to redeploy them in other run-time configurations. In this paper, we propose Sonic, a sampling-based online controller for long-running streaming applications that does not require profiling ahead of time. Within each phase of a streaming application's execution, Sonic utilizes the beginning portion to sample the knob space strategically and aims to pick the optimal knob setting for the rest of the phase, given a user-specified constrained optimization problem. A hybrid approach of machine learning regressions and Bayesian optimization are used for better overall sampling choices. Sonic is implemented independent of application, device, input, performance objective and constraints. We evaluate Sonic on traditional parallel benchmarks as well as on deep learning inference benchmarks across multiple platforms. Our experiments show that when using Sonic to control knob settings, application run-time performance is only 5.3% less than if optimal knob settings were used, demonstrating that Sonic is able to find near-optimal knob settings under diverse run-time configurations without prior knowledge quickly.
翻訳日:2021-08-29 14:03:12 公開日:2021-08-15
# (参考訳) 正規回帰によるORESの拡張による1次元ウィキペディア記事の品質測定 [全文訳有]

Measuring Wikipedia Article Quality in One Dimension by Extending ORES with Ordinal Regression ( http://arxiv.org/abs/2108.10684v1 )

ライセンス: CC BY 4.0
Nathan TeBlunthuis(参考訳) 複雑な相互生産プロジェクトの編成とオープンコラボレーションの科学的知識の進歩は、それぞれ品質を測定する能力に依存する。 ウィキペディアにおける記事の品質評価は、知識ギャップの追跡や、政治的分極化がコラボレーションをどう形作るかを研究するために、ウィキペディアのコミュニティメンバーと学術研究者の両方によって広く利用されている。 それでも品質の測定には多くの方法論上の課題がある。 最も広く使われているシステムは、品質を評価する際に個別の順序スケールでラベルを使用するが、統計学や機械学習には不便である。 先行作業は、異なるレベルの品質が互いに「均等に間隔」にあると仮定することでこれを処理します。 この仮定はウィキペディア百科事典の記事を異なる品質レベルに上げるのに必要な相対的な労力に関する直感に反する。 さらに、先行作業のモデルは、高品質な記事をオーバーサンプリングするデータセットに適合する。 これにより、記事やリビジョンの代表的サンプルの精度が制限される。 Wikimedia FoundationsのORES記事の品質モデルを拡張し、これらの制限に対処する手法について説明する。 重み付き順序回帰モデルを用いて品質の1次元連続測度を構築する。 私の手法と先行アプローチのスコアは相関するが、私の手法は研究データセットの精度を向上し、英語のウィキペディアで実際に「均一な」仮定が確立されていないことを示す。 私は、将来の研究で品質スコアを使うことを推奨し、完全なコード、データ、モデルを含めます。

Organizing complex peer production projects and advancing scientific knowledge of open collaboration each depend on the ability to measure quality. Article quality ratings on English language Wikipedia have been widely used by both Wikipedia community members and academic researchers for purposes like tracking knowledge gaps and studying how political polarization shapes collaboration. Even so, measuring quality presents many methodological challenges. The most widely used systems use labels on discrete ordinal scales when assessing quality, but such labels can be inconvenient for statistics and machine learning. Prior work handles this by assuming that different levels of quality are "evenly spaced" from one another. This assumption runs counter to intuitions about the relative degrees of effort needed to raise Wikipedia encyclopedia articles to different quality levels. Furthermore, models from prior work are fit to datasets that oversample high-quality articles. This limits their accuracy for representative samples of articles or revisions. I describe a technique extending the Wikimedia Foundations' ORES article quality model to address these limitations. My method uses weighted ordinal regression models to construct one-dimensional continuous measures of quality. While scores from my technique and from prior approaches are correlated, my approach improves accuracy for research datasets and provides evidence that the "evenly spaced" assumption is unfounded in practice on English Wikipedia. I conclude with recommendations for using quality scores in future research and include the full code, data, and models.
翻訳日:2021-08-29 13:42:48 公開日:2021-08-15
# 多様な解釈を用いたテキスト分類のための深層アクティブラーニング

Deep Active Learning for Text Classification with Diverse Interpretations ( http://arxiv.org/abs/2108.10687v1 )

ライセンス: Link先を確認
Qiang Liu and Yanqiao Zhu and Zhaocheng Liu and Yufeng Zhang and Shu Wu(参考訳) 近年、ディープニューラルネットワーク(dnn)はテキスト分類において著しい進歩を遂げているが、それでも大量のラベル付きデータを必要とする。 アノテーションコストが最小のハイパフォーマンスモデルをトレーニングするために、最も有益なサンプルを選択しラベル付けするために、アクティブラーニングが提案されているが、dnnで使用されるサンプルの情報量を測定することは依然として困難である。 本稿では,DNNの断片的線形解釈性に着想を得て,DivErse iNterpretations (ALDEN) を用いた新しい学習手法を提案する。 DNNの局所的な解釈により、ALDENは標本の線形分離可能な領域を特定する。 そして、ローカルな解釈の多様性に応じてサンプルを選択し、ラベルを問い合わせる。 テキスト分類問題に対処するために,文章全体を表現するために,最も多様な解釈で単語を選択する。 大規模な実験により、ALDENは最先端の深層学習方法よりも一貫して優れていることが示された。

Recently, Deep Neural Networks (DNNs) have made remarkable progress for text classification, which, however, still require a large number of labeled data. To train high-performing models with the minimal annotation cost, active learning is proposed to select and label the most informative samples, yet it is still challenging to measure informativeness of samples used in DNNs. In this paper, inspired by piece-wise linear interpretability of DNNs, we propose a novel Active Learning with DivErse iNterpretations (ALDEN) approach. With local interpretations in DNNs, ALDEN identifies linearly separable regions of samples. Then, it selects samples according to their diversity of local interpretations and queries their labels. To tackle the text classification problem, we choose the word with the most diverse interpretations to represent the whole sentence. Extensive experiments demonstrate that ALDEN consistently outperforms several state-of-the-art deep active learning methods.
翻訳日:2021-08-29 12:10:51 公開日:2021-08-15
# 新型コロナウイルス感染前後の時空間駐車行動予測と分析

Spatio-temporal Parking Behaviour Forecasting and Analysis Before and During COVID-19 ( http://arxiv.org/abs/2108.07731v1 )

ライセンス: Link先を確認
Shuhui Gong, Xiaopeng Mo, Rui Cao, Yu Liu, Wei Tu, Ruibin Bai(参考訳) 近年,交通渋滞の緩和や旅行行動の理解において重要な役割を担っていることから,駐車需要予測や行動分析が注目されている。 しかし、従来の研究では、駐車予測のために駐車場間の空間相関を無視するが、時間依存のみを考慮すべきである。 これは主に、直接の物理的接続や観測可能な相互作用の欠如によるものである。 したがって、空間的相関の定量化は依然として重要な課題である。 そこで本研究では,このギャップを埋めるために,2つのステップを含む空間対応駐車予測フレームワークを提案する。 空間接続グラフの構築と時空間予測 中国・寧波市のケーススタディでは、新型コロナウイルス(COVID-19)前後の駐車記録を100万件以上利用している。 その結果,特にcovid-19のような時間的不規則性が高い場合において,パーキング占有率予測が基本手法よりも優れていることがわかった。 本研究は,パンデミックが駐車行動に与える影響を明らかにし,また,駐車行動予測における空間依存のモデル化の重要性を強調した。

Parking demand forecasting and behaviour analysis have received increasing attention in recent years because of their critical role in mitigating traffic congestion and understanding travel behaviours. However, previous studies usually only consider temporal dependence but ignore the spatial correlations among parking lots for parking prediction. This is mainly due to the lack of direct physical connections or observable interactions between them. Thus, how to quantify the spatial correlation remains a significant challenge. To bridge the gap, in this study, we propose a spatial-aware parking prediction framework, which includes two steps, i.e. spatial connection graph construction and spatio-temporal forecasting. A case study in Ningbo, China is conducted using parking data of over one million records before and during COVID-19. The results show that the approach is superior on parking occupancy forecasting than baseline methods, especially for the cases with high temporal irregularity such as during COVID-19. Our work has revealed the impact of the pandemic on parking behaviour and also accentuated the importance of modelling spatial dependence in parking behaviour forecasting, which can benefit future studies on epidemiology and human travel behaviours.
翻訳日:2021-08-18 13:11:33 公開日:2021-08-15
# (参考訳) ソースコード編集のマルチモーダル学習について [全文訳有]

On Multi-Modal Learning of Editing Source Code ( http://arxiv.org/abs/2108.06645v1 )

ライセンス: CC BY 4.0
Saikat Chakraborty, Baishakhi Ray(参考訳) 近年、Neural Machine Translator (NMT) はソースコードを自動編集することを約束している。 典型的なNMTベースのコードエディタは、インプットとして変更が必要なコードのみを考慮し、修正済みのコードのリストをランク付けした開発者が選択するように提案する。 nmtベースのコード編集システムは、多種多様な可能なパッチを生成するが、正しいものは開発者の要求に依存し、しばしばパッチが適用される状況に依存する。 したがって、開発者が自然言語の使用やパッチコンテキストの提供といったヒントを提供すれば、nmtモデルはそのメリットを享受できる。 概念実証として,位置の編集,コードコンテキストの編集,(自然言語における開発者のヒントのプロキシとして)メッセージのコミットという3つの情報モダリティを活用し,NMTモデルによる編集を自動的に生成する。 そこで我々は,マルチモーダルNMTベースのコード編集エンジンMODITを開発した。 In-deepth investigation and analysis, we show that developers's hint as a input modality could narrow the search space for patch and outform state-of-the-art model to generate correct patched code in top-1 position。

In recent years, Neural Machine Translator (NMT) has shown promise in automatically editing source code. Typical NMT based code editor only considers the code that needs to be changed as input and suggests developers with a ranked list of patched code to choose from - where the correct one may not always be at the top of the list. While NMT based code editing systems generate a broad spectrum of plausible patches, the correct one depends on the developers' requirement and often on the context where the patch is applied. Thus, if developers provide some hints, using natural language, or providing patch context, NMT models can benefit from them. As a proof of concept, in this research, we leverage three modalities of information: edit location, edit code context, commit messages (as a proxy of developers' hint in natural language) to automatically generate edits with NMT models. To that end, we build MODIT, a multi-modal NMT based code editing engine. With in-depth investigation and analysis, we show that developers' hint as an input modality can narrow the search space for patches and outperform state-of-the-art models to generate correctly patched code in top-1 position.
翻訳日:2021-08-18 05:08:47 公開日:2021-08-15
# (参考訳) 連続時間と空間における政策評価と時間差学習:Martingaleアプローチ

Policy Evaluation and Temporal-Difference Learning in Continuous Time and Space: A Martingale Approach ( http://arxiv.org/abs/2108.06655v1 )

ライセンス: CC BY 4.0
Yanwei Jia and Xun Yu Zhou(参考訳) 本研究では,政策評価(PE)と関連する時間差分法(TD)を連続的な時間空間で学習するための統一的な枠組みを提案する。 PEはプロセスのマーチンゲール状態を維持するのに等価であることを示す。 この観点から、平均平方TD誤差はマーチンゲールの二次的変動を近似しており、そのためPEには適さないことが分かる。 我々は,peアルゴリズムの設計にmartingale characterizationを使用する2つの手法を提案する。 1つ目は「マーチンゲール損失関数」(martingale loss function)を最小化し、その解は平均平方意味での真の値関数の最適近似であることが証明される。 この手法は古典勾配モンテカルロアルゴリズムを解釈する。 2つ目の方法は、「テスト関数」を持つ「マルティンゲール直交条件」と呼ばれる方程式系に基づいている。 これらの方程式を異なる方法で解くことで、TD($\lambda$)、LSTD、GTDといった古典的なTDアルゴリズムが回復する。 テスト関数の異なる選択は、結果の解が真値関数にどんな意味で近似するかを決定する。 さらに,メッシュサイズが0となるにつれて,任意の収束時間分散アルゴリズムが連続時間に収束することを示す。 数値実験と応用により,理論結果と対応するアルゴリズムを実証する。

We propose a unified framework to study policy evaluation (PE) and the associated temporal difference (TD) methods for reinforcement learning in continuous time and space. We show that PE is equivalent to maintaining the martingale condition of a process. From this perspective, we find that the mean--square TD error approximates the quadratic variation of the martingale and thus is not a suitable objective for PE. We present two methods to use the martingale characterization for designing PE algorithms. The first one minimizes a "martingale loss function", whose solution is proved to be the best approximation of the true value function in the mean--square sense. This method interprets the classical gradient Monte-Carlo algorithm. The second method is based on a system of equations called the "martingale orthogonality conditions" with "test functions". Solving these equations in different ways recovers various classical TD algorithms, such as TD($\lambda$), LSTD, and GTD. Different choices of test functions determine in what sense the resulting solutions approximate the true value function. Moreover, we prove that any convergent time-discretized algorithm converges to its continuous-time counterpart as the mesh size goes to zero. We demonstrate the theoretical results and corresponding algorithms with numerical experiments and applications.
翻訳日:2021-08-18 04:41:29 公開日:2021-08-15
# (参考訳) 正確だが 一貫性がない? 言語理解モデルの一貫性解析 [全文訳有]

Accurate, yet inconsistent? Consistency Analysis on Language Understanding Models ( http://arxiv.org/abs/2108.06665v1 )

ライセンス: CC BY 4.0
Myeongjun Jang, Deuk Sin Kwon, Thomas Lukasiewicz(参考訳) 一貫性(Consistency)とは、意味論的に類似した文脈で同じ予測を生成する能力であり、音声言語理解モデルにとって非常に望ましい性質である。 最近のプレトレーニング言語モデル(PLM)は、様々な下流タスクにおいて優れたパフォーマンスを提供するが、モデルが言語を真に理解しているならば、一貫した振る舞いを示すべきである。 本稿では,言語理解モデル(calum)における一貫性解析というシンプルなフレームワークを提案する。 実験により,現在のplmは,意味的に同一の入力であっても一貫性のない予測を生じやすいことを確認した。 また,paraphrase識別タスクを用いたマルチタスクトレーニングは,一貫性の向上に有効であり,一貫性を平均13%向上させる。

Consistency, which refers to the capability of generating the same predictions for semantically similar contexts, is a highly desirable property for a sound language understanding model. Although recent pretrained language models (PLMs) deliver outstanding performance in various downstream tasks, they should exhibit consistent behaviour provided the models truly understand language. In this paper, we propose a simple framework named consistency analysis on language understanding models (CALUM)} to evaluate the model's lower-bound consistency ability. Through experiments, we confirmed that current PLMs are prone to generate inconsistent predictions even for semantically identical inputs. We also observed that multi-task training with paraphrase identification tasks is of benefit to improve consistency, increasing the consistency by 13% on average.
翻訳日:2021-08-18 04:40:17 公開日:2021-08-15
# (参考訳) CPNet:CT画像における弱教師付き3次元腎コンパートメント分割のためのサイクルプロトタイプネットワーク [全文訳有]

CPNet: Cycle Prototype Network for Weakly-supervised 3D Renal Compartments Segmentation on CT Images ( http://arxiv.org/abs/2108.06669v1 )

ライセンス: CC BY 4.0
Song Wang, Yuting He, Youyong Kong, Xiaomei Zhu, Shaobo Zhang, Pengfei Shao, Jean-Louis Dillenseger, Jean-Louis Coatrieux, Shuo Li, Guanyu Yang(参考訳) ct画像上の腎コンパートメント分割は,腹部ct画像から腎コンパートメントの3次元構造を抽出することを目的としており,腎疾患の診断と治療に非常に重要である。 しかし, 3次元腎CT像では, 区画境界の曖昧さ, 細い区画構造, 解剖学的変化などにより, 深層学習による腎区画分割が困難な課題となっている。 3次元腎区画分割のための新しい弱教師付き学習フレームワークcycle prototype networkを提案する。 1) 一般化のための一貫性を学ぶために,サイクルプロトタイプ学習(cpl)が提案されている。 擬似ラベルからフォワードプロセスを通じて学習し、逆プロセスを通じて一貫性の規則化を学ぶ。 2つのプロセスは、モデルをノイズとラベル効率に堅牢にする。 2) クロス周期事前知識に基づくベイズ弱教師付きモジュール(bwsm)を提案する。 クロス周期非ラベルデータから事前知識を学習し、自動的に誤り訂正を行い、正確な擬似ラベルを生成する。 3)細粒度特徴抽出のためのFDFE(Fold Decoding Feature Extractor)を提案する。 グローバルモルフォロジー情報と局所的詳細情報を組み合わせることで,細部を細部とした特徴地図を得る。 我々のモデルは4つのラベル付き画像で79.1%と78.7%のDiceを実現し、典型的なプロトタイプPANetよりも約20%向上した。

Renal compartment segmentation on CT images targets on extracting the 3D structure of renal compartments from abdominal CTA images and is of great significance to the diagnosis and treatment for kidney diseases. However, due to the unclear compartment boundary, thin compartment structure and large anatomy variation of 3D kidney CT images, deep-learning based renal compartment segmentation is a challenging task. We propose a novel weakly supervised learning framework, Cycle Prototype Network, for 3D renal compartment segmentation. It has three innovations: 1) A Cycle Prototype Learning (CPL) is proposed to learn consistency for generalization. It learns from pseudo labels through the forward process and learns consistency regularization through the reverse process. The two processes make the model robust to noise and label-efficient. 2) We propose a Bayes Weakly Supervised Module (BWSM) based on cross-period prior knowledge. It learns prior knowledge from cross-period unlabeled data and perform error correction automatically, thus generates accurate pseudo labels. 3) We present a Fine Decoding Feature Extractor (FDFE) for fine-grained feature extraction. It combines global morphology information and local detail information to obtain feature maps with sharp detail, so the model will achieve fine segmentation on thin structures. Our model achieves Dice of 79.1% and 78.7% with only four labeled images, achieving a significant improvement by about 20% than typical prototype model PANet.
翻訳日:2021-08-18 04:22:48 公開日:2021-08-15
# (参考訳) 深部地理空間補間ネットワーク [全文訳有]

Deep Geospatial Interpolation Networks ( http://arxiv.org/abs/2108.06670v1 )

ライセンス: CC BY 4.0
Sumit Kumar Varshney, Jeetu Kumar, Aditya Tiwari, Rishabh Singh, Venkata M. V. Gunturi, and Narayanan C. Krishnan(参考訳) 時空間データの補間は、気候、輸送、鉱業など様々な分野で応用されている。 時空間補間は複雑な空間的・時間的関係のために非常に困難である。 しかしながら、krigingのような伝統的なテクニックは、高い実行時間と、空間と時間次元にまたがる高いばらつきを示すデータに対する低パフォーマンスに苦しむ。 そこで本研究では,空間的および時間的関係を包含し,トレーニング時間を大幅に短縮したDGIN(Deep Geospatial Interpolation Network)という,新しいディープニューラルネットワークを提案する。 DGINは、空間的依存関係をキャプチャする空間エンコーダ、時間的ダイナミクスを組み込むシークエンシャルモジュール、ギャップ周辺の時間的近傍の重要性を学ぶためのアテンションブロックの3つの主要コンポーネントから構成される。 2つの異なる領域のMODIS反射率データセット上でDGINを評価する。 実験結果から,DGINには2つの利点があることが示唆された。 (a) 代替手法(p値 < 0.01) で MSE が低く, (b) 実行時間がKriging よりもかなり低い。

Interpolation in Spatio-temporal data has applications in various domains such as climate, transportation, and mining. Spatio-Temporal interpolation is highly challenging due to the complex spatial and temporal relationships. However, traditional techniques such as Kriging suffer from high running time and poor performance on data that exhibit high variance across space and time dimensions. To this end, we propose a novel deep neural network called as Deep Geospatial Interpolation Network(DGIN), which incorporates both spatial and temporal relationships and has significantly lower training time. DGIN consists of three major components: Spatial Encoder to capture the spatial dependencies, Sequential module to incorporate the temporal dynamics, and an Attention block to learn the importance of the temporal neighborhood around the gap. We evaluate DGIN on the MODIS reflectance dataset from two different regions. Our experimental results indicate that DGIN has two advantages: (a) it outperforms alternative approaches (has lower MSE with p-value < 0.01) and, (b) it has significantly low execution time than Kriging.
翻訳日:2021-08-18 04:12:23 公開日:2021-08-15
# (参考訳) ST3D++:3Dオブジェクト検出における教師なしドメイン適応のための自己学習 [全文訳有]

ST3D++: Denoised Self-training for Unsupervised Domain Adaptation on 3D Object Detection ( http://arxiv.org/abs/2108.06682v1 )

ライセンス: CC BY 4.0
Jihan Yang, Shaoshuai Shi, Zhe Wang, Hongsheng Li, Xiaojuan Qi(参考訳) 本稿では,3次元オブジェクト検出における教師なし領域適応のための汎用的な擬似ラベル記述パイプラインを備えた,ST3D++という自己学習手法を提案する。 ST3D++は、擬似ラベル生成におけるノイズの低減と、擬似ラベルがモデルトレーニングに負の影響を軽減することを目的としている。 まず、ST3D++は、ソースドメインのオブジェクトスケールバイアスに起因するターゲットドメインの擬似ラベルノイズを低減するために、ランダムオブジェクトスケーリング(ROS)を用いてラベル付きソースドメイン上の3Dオブジェクト検出器を事前トレーニングする。 そして、擬似ラベルの生成と擬似ラベル付き対象ドメインデータによる対象検出器の訓練の交互化により、段階的に検出器を改良する。 本稿では,擬似ラベル生成プロセスにハイブリッド品質認識トリプルトメモリを適用し,生成する擬似ラベルの品質と安定性を向上させる。 一方, モデル学習段階では, 音源データ支援トレーニング戦略とカリキュラムデータ拡張ポリシーを提案し, 雑音下勾配方向を効果的に修正し, 雑音下擬似ラベルデータへの過剰フィッティングを回避した。 これらの特定の設計により、ディテクターは、厳密に洗練された擬似ラベル付きターゲットデータに対して、識別されたトレーニング信号で訓練することができ、アノテーションを必要とせずに、対象ドメインへのオブジェクト検出器の適応を効果的に行うことができる。 最後に,3つの共通カテゴリ(車,歩行者,自転車)について,Waymo,KITTI,Lyft,nu Scenesの4つのベンチマークデータセットを用いて評価を行った。 ST3D++は評価されたすべての設定で最先端のパフォーマンスを達成し、対応するベースラインを大きなマージン(例えば9.6%$\sim$ 38.16% on Waymo $\rightarrow$ KITTI in the terms of AP$_{\text{3D}}$)で上回る。 コードは利用可能だ。

In this paper, we present a self-training method, named ST3D++, with a holistic pseudo label denoising pipeline for unsupervised domain adaptation on 3D object detection. ST3D++ aims at reducing noise in pseudo label generation as well as alleviating the negative impacts of noisy pseudo labels on model training. First, ST3D++ pre-trains the 3D object detector on the labeled source domain with random object scaling (ROS) which is designed to reduce target domain pseudo label noise arising from object scale bias of the source domain. Then, the detector is progressively improved through alternating between generating pseudo labels and training the object detector with pseudo-labeled target domain data. Here, we equip the pseudo label generation process with a hybrid quality-aware triplet memory to improve the quality and stability of generated pseudo labels. Meanwhile, in the model training stage, we propose a source data assisted training strategy and a curriculum data augmentation policy to effectively rectify noisy gradient directions and avoid model over-fitting to noisy pseudo labeled data. These specific designs enable the detector to be trained on meticulously refined pseudo labeled target data with denoised training signals, and thus effectively facilitate adapting an object detector to a target domain without requiring annotations. Finally, our method is assessed on four 3D benchmark datasets (i.e., Waymo, KITTI, Lyft, and nuScenes) for three common categories (i.e., car, pedestrian and bicycle). ST3D++ achieves state-of-the-art performance on all evaluated settings, outperforming the corresponding baseline by a large margin (e.g., 9.6% $\sim$ 38.16% on Waymo $\rightarrow$ KITTI in terms of AP$_{\text{3D}}$), and even surpasses the fully supervised oracle results on the KITTI 3D object detection benchmark with target prior. Code will be available.
翻訳日:2021-08-18 04:06:26 公開日:2021-08-15
# (参考訳) 多線形回帰によるディープフェイク表現 [全文訳有]

Deepfake Representation with Multilinear Regression ( http://arxiv.org/abs/2108.06702v1 )

ライセンス: CC BY 4.0
Sara Abdali, M. Alex O. Vasilescu, Evangelos E. Papalexakis(参考訳) GANのような生成ニューラルネットワークアーキテクチャは、実際のデータの欠如を補うために合成インスタンスを生成するために使われる。 しかし、社会的、政治的、経済的混乱を引き起こすようなメディアを作るために使われることもある。 一つの新興メディアは「ディープフェイク」であり、そのようなメディアを区別できる技術は不可欠である。 本稿では,偽データと実データを表すために,線形回帰と多線形回帰を組み合わせた修正多重線形(テンソル)法を提案する。 修正されたマルチ線形(テンソル)アプローチでDeepfakesを表現し、SVM分類を奨励的な結果で実行することで、アプローチをテストする。

Generative neural network architectures such as GANs, may be used to generate synthetic instances to compensate for the lack of real data. However, they may be employed to create media that may cause social, political or economical upheaval. One emerging media is "Deepfake".Techniques that can discriminate between such media is indispensable. In this paper, we propose a modified multilinear (tensor) method, a combination of linear and multilinear regressions for representing fake and real data. We test our approach by representing Deepfakes with our modified multilinear (tensor) approach and perform SVM classification with encouraging results.
翻訳日:2021-08-18 03:28:37 公開日:2021-08-15
# (参考訳) Audio2 Gestures:条件付き変分オートエンコーダを用いた音声音声からの異種ジェスチャー生成 [全文訳有]

Audio2Gestures: Generating Diverse Gestures from Speech Audio with Conditional Variational Autoencoders ( http://arxiv.org/abs/2108.06720v1 )

ライセンス: CC BY 4.0
Jing Li, Di Kang, Wenjie Pei, Xuefei Zhe, Ying Zhang, Zhenyu He, Linchao Bao(参考訳) 音声と身体の動きを1対1でマッピングするため、音声から対話的なジェスチャーを生成することは困難である。 従来のcnn/rnnは1対1のマッピングを仮定しており、すべてのターゲット動作の平均を予測する傾向がある。 そこで本研究では,一対多の音声-動画像マッピングを共通コードと動作固有コードに分割することで,条件付き変分自動符号化(VAE)を提案する。 共有コードは、主にオーディオとモーション(同期オーディオやモーションビートなど)の強い相関関係をモデル化し、モーション固有のコードは、オーディオとは無関係に多様な動き情報をキャプチャする。 しかし、潜在コードを2つに分割すると、VAEモデルのトレーニングが困難になる。 ゆるやかな動きの損失、自転車の制約、多様性の喪失などの他の手法とともに、ランダムサンプリングを容易にするマッピングネットワークを設計し、VAEのトレーニングを改善する。 3Dと2Dの両方のモーションデータセットの実験により、我々の手法は最先端の手法よりもリアルで多様な動きを定量的に、質的に生成することを確認した。 最後に,提案手法を用いて,ユーザが特定した動画クリップをタイムライン上で生成できることを示す。 コードやその他の結果はhttps://jingli513.gi thub.io/audio2gestur esにある。

Generating conversational gestures from speech audio is challenging due to the inherent one-to-many mapping between audio and body motions. Conventional CNNs/RNNs assume one-to-one mapping, and thus tend to predict the average of all possible target motions, resulting in plain/boring motions during inference. In order to overcome this problem, we propose a novel conditional variational autoencoder (VAE) that explicitly models one-to-many audio-to-motion mapping by splitting the cross-modal latent code into shared code and motion-specific code. The shared code mainly models the strong correlation between audio and motion (such as the synchronized audio and motion beats), while the motion-specific code captures diverse motion information independent of the audio. However, splitting the latent code into two parts poses training difficulties for the VAE model. A mapping network facilitating random sampling along with other techniques including relaxed motion loss, bicycle constraint, and diversity loss are designed to better train the VAE. Experiments on both 3D and 2D motion datasets verify that our method generates more realistic and diverse motions than state-of-the-art methods, quantitatively and qualitatively. Finally, we demonstrate that our method can be readily used to generate motion sequences with user-specified motion clips on the timeline. Code and more results are at https://jingli513.gi thub.io/audio2gestur es.
翻訳日:2021-08-18 03:17:51 公開日:2021-08-15
# (参考訳) 多視点表情の自己教師型コントラスト学習 [全文訳有]

Self-supervised Contrastive Learning of Multi-view Facial Expressions ( http://arxiv.org/abs/2108.06723v1 )

ライセンス: CC BY-SA 4.0
Shuvendu Roy, Ali Etemad(参考訳) 顔表情認識(FER)は,人間とコンピュータのインタラクションシステムにおいて重要な構成要素である。 近年のFERの進歩にもかかわらず、顔以外の画像では性能が著しく低下することが多い。 異なる角度から FER に対して同時に取得した顔画像を利用するために, CL-MEx (Contrastive Learning of Multi-view Face Expression) を提案する。 CL-MExは2段階のトレーニングフレームワークである。 最初のステップでは、エンコーダネットワークが提案された自己監督型コントラスト損失によって事前訓練され、被験者の異なる視点に対するビュー不変の埋め込みを生成する。 モデルは教師付き設定でラベル付きデータで微調整される。 提案手法は, kdef と ddcf という2つの多視点 fer データセットにおいて, 最先端のパフォーマンスを実現するための性能を示す。 さらに,提案手法の難解な角度とラベル付きデータの量削減におけるロバスト性を示す実験を行った。

Facial expression recognition (FER) has emerged as an important component of human-computer interaction systems. Despite recent advancements in FER, performance often drops significantly for non-frontal facial images. We propose Contrastive Learning of Multi-view facial Expressions (CL-MEx) to exploit facial images captured simultaneously from different angles towards FER. CL-MEx is a two-step training framework. In the first step, an encoder network is pre-trained with the proposed self-supervised contrastive loss, where it learns to generate view-invariant embeddings for different views of a subject. The model is then fine-tuned with labeled data in a supervised setting. We demonstrate the performance of the proposed method on two multi-view FER datasets, KDEF and DDCF, where state-of-the-art performances are achieved. Further experiments show the robustness of our method in dealing with challenging angles and reduced amounts of labeled data.
翻訳日:2021-08-18 03:02:43 公開日:2021-08-15
# (参考訳) 重なり合う情報の検出とともに概念を再利用したInBan_CIDOオントロジーの開発 [全文訳有]

Development of the InBan_CIDO Ontology by Reusing the Concepts along with Detecting Overlapping Information ( http://arxiv.org/abs/2108.06742v1 )

ライセンス: CC BY 4.0
Archana Patel and Narayan C Debnath(参考訳) 新型コロナウイルスのパンデミックは、各国の経済に大きな影響を与えた世界的な緊急事態だ。 コビッド19は10年ぶりの低成長となったインドに打撃を与えた。 このパンデミックが経済に与える影響を意味的に分析するには、オントロジーを持つことが難しい。 cidoオントロジー(cido ontology)は、新型コロナウイルスの影響を評価し、その結果を、研究、医療の進歩、技術革新的導入など、さまざまな分野の政府、業界の専門家、専門家の将来の意思決定に活用するために特別に設計された、標準化されたオントロジーである。 しかし、このオントロジーはインド銀行部門に対するcovid-19パンデミックの影響を分析していない。 一方、Covid19IBOオントロジーは、インド銀行セクターに対するCovid19パンデミックの影響を分析するために開発されたが、このオントロジーはCovid19データの完全な情報を反映していない。 その結果、ユーザーはCovid19とそのインド経済への影響に関するすべての関連情報を入手できない。 この記事では、CIDOオントロジーを拡張し、他のデータソースの概念を再利用することで、コビッド19がインド経済セクターに与える影響を示すことを目的とする。 また,オントロジ間の重なり合う情報を検出する簡易なスキーママッチング手法を提案する。 実験により,提案手法が妥当な結果を示した。

The covid19 pandemic is a global emergency that badly impacted the economies of various countries. Covid19 hit India when the growth rate of the country was at the lowest in the last 10 years. To semantically analyze the impact of this pandemic on the economy, it is curial to have an ontology. CIDO ontology is a well standardized ontology that is specially designed to assess the impact of coronavirus disease and utilize its results for future decision forecasting for the government, industry experts, and professionals in the field of various domains like research, medical advancement, technical innovative adoptions, and so on. However, this ontology does not analyze the impact of the Covid19 pandemic on the Indian banking sector. On the other side, Covid19IBO ontology has been developed to analyze the impact of the Covid19 pandemic on the Indian banking sector but this ontology does not reflect complete information of Covid19 data. Resultantly, users cannot get all the relevant information about Covid19 and its impact on the Indian economy. This article aims to extend the CIDO ontology to show the impact of Covid19 on the Indian economy sector by reusing the concepts from other data sources. We also provide a simplified schema matching approach that detects the overlapping information among the ontologies. The experimental analysis proves that the proposed approach has reasonable results.
翻訳日:2021-08-18 02:53:12 公開日:2021-08-15
# (参考訳) 算術・論理推論における事前学習言語モデルの一般化能力の検討 [全文訳有]

Exploring Generalization Ability of Pretrained Language Models on Arithmetic and Logical Reasoning ( http://arxiv.org/abs/2108.06743v1 )

ライセンス: CC BY 4.0
Cunxiang Wang, Boyuan Zheng, Yuchen Niu and Yue Zhang(参考訳) 事前学習言語モデル (plm) の一般化能力を定量的かつ直感的に検討するために, 算術と論理推論のタスクをいくつか設計した。 我々は,試験データが列車データと同じ分布にある場合にPLMがどの程度うまく一般化するかを解析し,それが異なる場合には,後者の分析のために,分布内テストセット以外の分散テストセットも設計した。 我々は最も先進的で一般公開されたPLM-BARTの実験を行った。 本研究は, 分布が同じ場合, PLM は容易に一般化できることを示したが, 分布から一般化することは依然として困難である。

To quantitatively and intuitively explore the generalization ability of pre-trained language models (PLMs), we have designed several tasks of arithmetic and logical reasoning. We both analyse how well PLMs generalize when the test data is in the same distribution as the train data and when it is different, for the latter analysis, we have also designed a cross-distribution test set other than the in-distribution test set. We conduct experiments on one of the most advanced and publicly released generative PLM - BART. Our research finds that the PLMs can easily generalize when the distribution is the same, however, it is still difficult for them to generalize out of the distribution.
翻訳日:2021-08-18 02:45:32 公開日:2021-08-15
# (参考訳) SOTR: トランスフォーマーによるオブジェクトのセグメンテーション [全文訳有]

SOTR: Segmenting Objects with Transformers ( http://arxiv.org/abs/2108.06747v1 )

ライセンス: CC BY 4.0
Ruohao Guo, Dantong Niu, Liao Qu, Zhenbo Li(参考訳) 最近のトランスフォーマーベースのモデルは、畳み込みニューラルネットワーク(cnn)よりも優れた視覚タスクで印象的なパフォーマンスを示している。 本稿では,高品質インスタンスセグメンテーションのための新しいフレキシブルで効果的なトランスフォーマモデルを提案する。 TRansformers (SOTR) を用いたSegmenting Objects (Segmenting Objects) は,2つの並列サブタスクを付加した代替CNNバックボーン上に構築されたセグメンテーションパイプラインを単純化し,(1)トランスフォーマーによるインスタンスごとのカテゴリ予測,(2)マルチレベルアップサンプリングモジュールによるセグメンテーションマスクを動的に生成する。 SOTRは、低レベルの特徴表現を効果的に抽出し、FPN(Feature Pyramid Network)とツイントランスによる長距離コンテキスト依存をキャプチャすることができる。 一方、元々の変圧器と比較して、提案された双変圧器はピクセルの符号化には行と列のみの注意が必要であるため、時間と資源効率が良い。 さらに、SOTRを様々なCNNバックボーンやトランスフォーマーモデルに組み込むことで、セグメンテーション精度とトレーニング収束性を大幅に改善することができる。 大規模な実験により、私たちのSOTRはMS COCOデータセット上で良好に動作し、最先端のインスタンスセグメンテーションアプローチを超えていることが示された。 シンプルだが強力なフレームワークが、インスタンスレベルの認識のベースラインとして役立つことを願っています。 私たちのコードはhttps://github.com/e aston-cau/sotrで利用可能です。

Most recent transformer-based models show impressive performance on vision tasks, even better than Convolution Neural Networks (CNN). In this work, we present a novel, flexible, and effective transformer-based model for high-quality instance segmentation. The proposed method, Segmenting Objects with TRansformers (SOTR), simplifies the segmentation pipeline, building on an alternative CNN backbone appended with two parallel subtasks: (1) predicting per-instance category via transformer and (2) dynamically generating segmentation mask with the multi-level upsampling module. SOTR can effectively extract lower-level feature representations and capture long-range context dependencies by Feature Pyramid Network (FPN) and twin transformer, respectively. Meanwhile, compared with the original transformer, the proposed twin transformer is time- and resource-efficient since only a row and a column attention are involved to encode pixels. Moreover, SOTR is easy to be incorporated with various CNN backbones and transformer model variants to make considerable improvements for the segmentation accuracy and training convergence. Extensive experiments show that our SOTR performs well on the MS COCO dataset and surpasses state-of-the-art instance segmentation approaches. We hope our simple but strong framework could serve as a preferment baseline for instance-level recognition. Our code is available at https://github.com/e aston-cau/SOTR.
翻訳日:2021-08-18 02:33:56 公開日:2021-08-15
# (参考訳) Occlusion-Aware Video Object Inpainting [全文訳有]

Occlusion-Aware Video Object Inpainting ( http://arxiv.org/abs/2108.06765v1 )

ライセンス: CC BY 4.0
Lei Ke, Yu-Wing Tai, Chi-Keung Tang(参考訳) 従来のビデオのインペイントはオブジェクト指向でもオクルージョン認識でもないので、大きなオブクルードされたオブジェクト領域がインペイントされたときに、明らかなアーティファクトに義務付けられる。 そこで本稿では,目に見えるマスクのセグメンテーションにより,映像中のオクルージョン物体の形状と外観を復元するオクルージョンアウェアビデオオブジェクト・インパインティングを提案する。 この新たな研究を促進するため、我々はYouTube-VOIの最初の大規模ビデオオブジェクト塗装ベンチマークを構築し、隠蔽マスクと可視マスクの両方で現実的な閉塞シナリオを提供する。 私たちの技術貢献voinはビデオオブジェクト形状補完とオクルードテクスチャ生成を共同で行う。 特に、形状完了モジュールは、フロー完了モジュールがシャープな動き境界で正確な流れを回復する間、長距離物体コヒーレンスをモデル化し、時間的に一貫性のあるテクスチャをフレーム間の同じ移動物体に伝播させる。 より現実的な結果を得るために、VOINはT-PatchGANと新しい時空間注意に基づくマルチクラス判別器の両方を用いて最適化されている。 最後に、VOINとYouTube-VOIの強力なベースラインを比較します。 複雑な物体や動的物体の塗布を含む方法の有効性を実験的に明らかにした。 VOINは不正確な入力可視マスクで優雅に劣化する。

Conventional video inpainting is neither object-oriented nor occlusion-aware, making it liable to obvious artifacts when large occluded object regions are inpainted. This paper presents occlusion-aware video object inpainting, which recovers both the complete shape and appearance for occluded objects in videos given their visible mask segmentation. To facilitate this new research, we construct the first large-scale video object inpainting benchmark YouTube-VOI to provide realistic occlusion scenarios with both occluded and visible object masks available. Our technical contribution VOIN jointly performs video object shape completion and occluded texture generation. In particular, the shape completion module models long-range object coherence while the flow completion module recovers accurate flow with sharp motion boundary, for propagating temporally-consisten t texture to the same moving object across frames. For more realistic results, VOIN is optimized using both T-PatchGAN and a new spatio-temporal attention-based multi-class discriminator. Finally, we compare VOIN and strong baselines on YouTube-VOI. Experimental results clearly demonstrate the efficacy of our method including inpainting complex and dynamic objects. VOIN degrades gracefully with inaccurate input visible mask.
翻訳日:2021-08-18 02:16:36 公開日:2021-08-15
# (参考訳) Event2Graph: 多変量時系列異常検出のためのイベント駆動バイパートグラフ [全文訳有]

Event2Graph: Event-driven Bipartite Graph for Multivariate Time-series Anomaly Detection ( http://arxiv.org/abs/2108.06783v1 )

ライセンス: CC BY 4.0
Yuhang Wu, Mengting Gu, Lan Wang, Yusan Lin, Fei Wang, Hao Yang(参考訳) 多変量時系列データの異常検出において,時系列間の相互依存性をモデル化することが鍵となる。 依存関係をモデル化するデファクトソリューションは、データをリカレントニューラルネットワーク(RNN)に供給する。 しかしながら、RNNの下にある完全に接続されたネットワーク構造(GRUまたはLSTM)は、時系列間の静的かつ完全な依存グラフを仮定する。 この仮定を緩和するために,時系列間の相互依存性を符号化する動的二部グラフ構造を提案する。 より具体的には、時系列を1つのノードとしてモデル化し、時系列セグメント(イベントと呼ばれる)を別のノードとしてモデル化する。 この設計に基づいて、時系列間の関係をイベントノードへの動的接続を通じて明示的にモデル化し、動的グラフにおける自己教師付きエッジストリーム予測問題として多変量時系列異常検出問題を定式化することができる。 設計の有効性を実証するために広範な実験を行った。

Modeling inter-dependencies between time-series is the key to achieve high performance in anomaly detection for multivariate time-series data. The de-facto solution to model the dependencies is to feed the data into a recurrent neural network (RNN). However, the fully connected network structure underneath the RNN (either GRU or LSTM) assumes a static and complete dependency graph between time-series, which may not hold in many real-world applications. To alleviate this assumption, we propose a dynamic bipartite graph structure to encode the inter-dependencies between time-series. More concretely, we model time series as one type of nodes, and the time series segments (regarded as event) as another type of nodes, where the edge between two types of nodes describe a temporal pattern occurred on a specific time series at a certain time. Based on this design, relations between time series can be explicitly modelled via dynamic connections to event nodes, and the multivariate time-series anomaly detection problem can be formulated as a self-supervised, edge stream prediction problem in dynamic graphs. We conducted extensive experiments to demonstrate the effectiveness of the design.
翻訳日:2021-08-18 01:59:24 公開日:2021-08-15
# (参考訳) ニューラルリファレンシャルフォームセレクタは何を学べるか? [全文訳有]

What can Neural Referential Form Selectors Learn? ( http://arxiv.org/abs/2108.06806v1 )

ライセンス: CC BY 4.0
Guanyi Chen, Fahime Same, Kees van Deemter(参考訳) 奨励的な結果を得たにもかかわらず、神経参照表現生成モデルは、しばしば透明性を欠いていると考えられている。 我々は、Reformに影響を与える言語的特徴が、最先端のRFSモデルによってどの程度学習され、キャプチャされるかを調べるために、ニューラルネットワーク参照形式選択(RFS)モデルを探索した。 8つの調査タスクの結果、定義されたすべての機能はある程度学習されたことを示している。 指示的地位と統語的地位に関する調査課題が最も高いパフォーマンスを示した。 最も低い性能は、文レベルを超えて談話の構造特性を予測するように設計されたプロビングモデルによって達成された。

Despite achieving encouraging results, neural Referring Expression Generation models are often thought to lack transparency. We probed neural Referential Form Selection (RFS) models to find out to what extent the linguistic features influencing the RE form are learnt and captured by state-of-the-art RFS models. The results of 8 probing tasks show that all the defined features were learnt to some extent. The probing tasks pertaining to referential status and syntactic position exhibited the highest performance. The lowest performance was achieved by the probing models designed to predict discourse structure properties beyond the sentence level.
翻訳日:2021-08-18 01:42:49 公開日:2021-08-15
# (参考訳) マルチアームバンディットのためのバッチトンプソンサンプリング [全文訳有]

Batched Thompson Sampling for Multi-Armed Bandits ( http://arxiv.org/abs/2108.06812v1 )

ライセンス: CC BY 4.0
Nikolai Karpov, Qin Zhang(参考訳) 我々は,バッチ設定における確率的多腕バンディットに対するトンプソンサンプリングアルゴリズムについて検討し,少数のポリシー変更(あるいはバッチ)を用いて,アームプルのシーケンス上での後悔を最小限に抑えることを望む。 本稿では,合成データセットと実データセットの両方で実験を行い,その効果を実証する。 また,提案したアルゴリズムを理論的側面から解析し,両腕のケースに対するほぼ厳密な後悔バッチトレードオフを得る。

We study Thompson Sampling algorithms for stochastic multi-armed bandits in the batched setting, in which we want to minimize the regret over a sequence of arm pulls using a small number of policy changes (or, batches). We propose two algorithms and demonstrate their effectiveness by experiments on both synthetic and real datasets. We also analyze the proposed algorithms from the theoretical aspect and obtain almost tight regret-batches tradeoffs for the two-arm case.
翻訳日:2021-08-18 01:27:03 公開日:2021-08-15
# (参考訳) 動的時間ゆがみを伴う弱教師付き時間異常セグメンテーション [全文訳有]

Weakly Supervised Temporal Anomaly Segmentation with Dynamic Time Warping ( http://arxiv.org/abs/2108.06816v1 )

ライセンス: CC BY 4.0
Dongha Lee, Sehun Yu, Hyunjun Ju, Hwanjo Yu(参考訳) 時間的異常の検出と局所化に関する最近の研究は、主に深層ニューラルネットワークを用いて、教師なしの方法で時間的データの正常なパターンを学習している。 それらとは異なり、我々の研究の目標はインスタンスレベルの(または弱い)異常ラベルを完全に活用することであり、これは時間データの各インスタンスで異常な事象が発生したかどうかのみを示すものである。 本稿では,入力インスタンスにおける異常な時間的セグメント(すなわち連続時間点)を効果的に識別する新しいフレームワークであるwetasを提案する。 WETASはインスタンスレベルのラベルから識別的特徴を学習し、各インスタンス内の正常なセグメントと異常なセグメントの順序を推論し、粗いセグメンテーションマスクとして使用できる。 入力インスタンスとそのセグメンテーションマスク間の動的時間ワープ(DTW)アライメントに基づいて、WETASは、時間セグメンテーションの結果を取得し、同時に、マスクを追加の監視として使用することにより、さらに強化する。 実験の結果,WETASは時間的異常の局所化という点で他のベースラインよりも優れており,点レベルの検出方法よりも有意な結果が得られた。

Most recent studies on detecting and localizing temporal anomalies have mainly employed deep neural networks to learn the normal patterns of temporal data in an unsupervised manner. Unlike them, the goal of our work is to fully utilize instance-level (or weak) anomaly labels, which only indicate whether any anomalous events occurred or not in each instance of temporal data. In this paper, we present WETAS, a novel framework that effectively identifies anomalous temporal segments (i.e., consecutive time points) in an input instance. WETAS learns discriminative features from the instance-level labels so that it infers the sequential order of normal and anomalous segments within each instance, which can be used as a rough segmentation mask. Based on the dynamic time warping (DTW) alignment between the input instance and its segmentation mask, WETAS obtains the result of temporal segmentation, and simultaneously, it further enhances itself by using the mask as additional supervision. Our experiments show that WETAS considerably outperforms other baselines in terms of the localization of temporal anomalies, and also it provides more informative results than point-level detection methods.
翻訳日:2021-08-18 01:13:40 公開日:2021-08-15
# (参考訳) 麻雀の手の不足数を計算するための高速アルゴリズム

A Fast Algorithm for Computing the Deficiency Number of a Mahjong Hand ( http://arxiv.org/abs/2108.06832v1 )

ライセンス: CC BY 4.0
Xueqing Yan, Yongming Li, Sanjiang Li(参考訳) タイルベースのマルチプレイヤーゲームMahjongはアジアで広くプレイされており、世界中で人気が高まっている。 対面またはオンラインでは、各プレイヤーは13のタイルの手で始まり、プレイヤーは勝利の手を完了するまで順番にタイルを描き捨てる。 mahjong の重要な概念は不足数 (a.k.a.) である。 手(ひょうてん)は、手が勝ち手になるのに必要なタイルの変化の数を算定する手である。 欠陥数は、破棄するタイルを選択するなどの主要な意思決定タスクにおいて重要な役割を果たす。 本稿では,Mahjongハンドの不足数を高速に計算するアルゴリズムを提案する。 ベースラインアルゴリズムと比較して、新しいアルゴリズムは通常100倍速く、さらに重要なのは、利用可能なタイルに関するエージェントの知識を尊重する。 このアルゴリズムはルールベースと機械学習ベースのMahjong AIによって、すべてのMahjong変種の基本手順として使用できる。

The tile-based multiplayer game Mahjong is widely played in Asia and has also become increasingly popular worldwide. Face-to-face or online, each player begins with a hand of 13 tiles and players draw and discard tiles in turn until they complete a winning hand. An important notion in Mahjong is the deficiency number (a.k.a. shanten number in Japanese Mahjong) of a hand, which estimates how many tile changes are necessary to complete the hand into a winning hand. The deficiency number plays an essential role in major decision-making tasks such as selecting a tile to discard. This paper proposes a fast algorithm for computing the deficiency number of a Mahjong hand. Compared with the baseline algorithm, the new algorithm is usually 100 times faster and, more importantly, respects the agent's knowledge about available tiles. The algorithm can be used as a basic procedure in all Mahjong variants by both rule-based and machine learning-based Mahjong AI.
翻訳日:2021-08-18 00:54:12 公開日:2021-08-15
# (参考訳) オンライン交通速度予測におけるグレーシステムモデルのベイズパラメータ推定 [全文訳有]

Bayesian Parameter Estimations for Grey System Models in Online Traffic Speed Predictions ( http://arxiv.org/abs/2108.06839v1 )

ライセンス: CC BY 4.0
Gurcan Comert, Negash Begashaw, Negash G. Medhin(参考訳) 本稿では,一階グレイシステムモデルのパラメータ(あるいはハイパーパラメータと呼ばれることもある)に対するベイズパラメータ推定について述べる。 一階グレーシステムには様々な形態がある。 これには$GM(1,1)$, $GM(1,1| \cos(\omega t)$, $GM(1,1| \sin(\omega t)$, $GM(1,1| \cos(\omega t), \sin(\omega t)$が含まれる。 The whitenization equation of these models is a first-order linear differential equation of the form \[ \frac{dx}{dt} + a x = f(t) \] where $a$ is a parameter and $f(t) = b$ in $GM(1,1|)$ , $f(t) = b_1\cos(\omega t) + b_2$ in $GM(1,1| cos(\omega t)$, $f(t) = b_1\sin(\omega t)+b_2$ in $GM(1,1| \sin(\omega t)$, $f(t) = b_1\sin(\omega t) + b_2\cos(\omega t) + b_3$ in $GM(1,1| \cos(\omega t), \sin(\omega t)$, $f(t) = b x^2$ in Grey Verhulst model (GVM), and where $b, b_1, b_2$, and $b_3$ are parameters. ベイズ推定の結果は、固定$\omega$の最小2乗推定モデルと比較される。 GMパラメータに対する転がりベイズ推定を用いることで、可能な全ての形式のパラメータを推定できることがわかった。 その結果,平均二乗誤差ではベイズパラメータ推定モデルの方が最大45\%精度が高いことがわかった。

This paper presents Bayesian parameter estimation for first order Grey system models' parameters (or sometimes referred to as hyperparameters). There are different forms of first-order Grey System Models. These include $GM(1,1)$, $GM(1,1| \cos(\omega t)$, $GM(1,1| \sin(\omega t)$, and $GM(1,1| \cos(\omega t), \sin(\omega t)$. The whitenization equation of these models is a first-order linear differential equation of the form \[ \frac{dx}{dt} + a x = f(t) \] where $a$ is a parameter and $f(t) = b$ in $GM(1,1|)$ , $f(t) = b_1\cos(\omega t) + b_2$ in $GM(1,1| cos(\omega t)$, $f(t) = b_1\sin(\omega t)+b_2$ in $GM(1,1| \sin(\omega t)$, $f(t) = b_1\sin(\omega t) + b_2\cos(\omega t) + b_3$ in $GM(1,1| \cos(\omega t), \sin(\omega t)$, $f(t) = b x^2$ in Grey Verhulst model (GVM), and where $b, b_1, b_2$, and $b_3$ are parameters. The results from Bayesian estimations are compared to the least square estimated models with fixed $\omega$. We found that using rolling Bayesian estimations for GM parameters can allow us to estimate the parameters in all possible forms. Based on the data used for the comparison, the numerical results showed that models with Bayesian parameter estimations are up to 45\% more accurate in mean squared errors.
翻訳日:2021-08-18 00:53:15 公開日:2021-08-15
# DEXTER:仮想アシスタントにおける名前付きエンティティ認識のための外部知識の深層符号化

DEXTER: Deep Encoding of External Knowledge for Named Entity Recognition in Virtual Assistants ( http://arxiv.org/abs/2108.06633v1 )

ライセンス: Link先を確認
Deepak Muralidharan, Joel Ruben Antony Moniz, Weicheng Zhang, Stephen Pulman, Lin Li, Megan Barnes, Jingjing Pan, Jason Williams, Alex Acero(参考訳) 名前付きエンティティ認識(NER)は通常、よく書かれたソースからのテキストで開発、テストされる。 しかし、NERが重要なコンポーネントであるインテリジェント音声アシスタントでは、ユーザや音声認識エラーのため、NERへの入力がうるさい場合がある。 アプリケーションでは、エンティティラベルは頻繁に変更され、トピック性や人気といった非テキストプロパティは、代替品を選択するために必要となる。 これらの問題に対処するためのNERシステムについて述べる。 我々は、このシステムをプロプライエタリなユーザ由来のデータセットでテストし、訓練する。 本稿では,ベースラインのテキストのみのnerシステム,外部のガゼッタで拡張されたベースライン,および下記の検索および間接ラベル技術で強化されたベースラインとの比較を行った。 最終的な構成は、NERエラー率を約6%削減する。 また,この手法はセマンティック解析などの関連タスクを改善し,エラー率を最大5%向上させることを示した。

Named entity recognition (NER) is usually developed and tested on text from well-written sources. However, in intelligent voice assistants, where NER is an important component, input to NER may be noisy because of user or speech recognition error. In applications, entity labels may change frequently, and non-textual properties like topicality or popularity may be needed to choose among alternatives. We describe a NER system intended to address these problems. We test and train this system on a proprietary user-derived dataset. We compare with a baseline text-only NER system; the baseline enhanced with external gazetteers; and the baseline enhanced with the search and indirect labelling techniques we describe below. The final configuration gives around 6% reduction in NER error rate. We also show that this technique improves related tasks, such as semantic parsing, with an improvement of up to 5% in error rate.
翻訳日:2021-08-17 15:31:48 公開日:2021-08-15
# SAPPHIRE: 概念テキスト生成の高度化へのアプローチ

SAPPHIRE: Approaches for Enhanced Concept-to-Text Generation ( http://arxiv.org/abs/2108.06643v1 )

ライセンス: Link先を確認
Steven Y. Feng, Jessica Huynh, Chaitanya Narisetty, Eduard Hovy, Varun Gangal(参考訳) サファイア(sapphire)と呼ばれる概念対テキスト生成のための、単純かつ効果的な一連の改善を動機付け、提案する。 生成コモンセンス推論においての有効性を示す。 CommonGenタスクは、BARTモデルとT5モデルの両方を使用した実験を通じて行われる。 広範囲な自動評価と人間評価により,サファイアのモデル性能が顕著に向上することを示す。 詳細な質的分析では、SAPPHIREはコモンセンスの欠如、特異性の欠如、フラレンシの低さなど、ベースラインモデル世代における多くの問題に効果的に対処していることを示している。

We motivate and propose a suite of simple but effective improvements for concept-to-text generation called SAPPHIRE: Set Augmentation and Post-hoc PHrase Infilling and REcombination. We demonstrate their effectiveness on generative commonsense reasoning, a.k.a. the CommonGen task, through experiments using both BART and T5 models. Through extensive automatic and human evaluation, we show that SAPPHIRE noticeably improves model performance. An in-depth qualitative analysis illustrates that SAPPHIRE effectively addresses many issues of the baseline model generations, including lack of commonsense, insufficient specificity, and poor fluency.
翻訳日:2021-08-17 15:31:35 公開日:2021-08-15
# hcr-net:深層学習に基づくスクリプト独立手書き文字認識ネットワーク

HCR-Net: A deep learning based script independent handwritten character recognition network ( http://arxiv.org/abs/2108.06663v1 )

ライセンス: Link先を確認
Vinod Kumar Chauhan, Sukhdeep Singh and Anuj Sharma(参考訳) 手書き文字認識(HCR)は、主に文字の構造、異なる手書きスタイル、ノイズの多いデータセット、多種多様な言語やスクリプトの類似性から、パターン認識において難しい学習問題である。 HCR問題は数十年にわたって広く研究されているが、スクリプト独立モデルについては非常に限定的な研究がある。 これは、スクリプトの多様性、言語やスクリプトに特有で常に利用できるわけではない手作りの特徴抽出技術に焦点をあてる従来の研究努力のほとんどに焦点が当てられていること、そして結果の再現に公共データセットやコードが利用できないことなどである。 一方で、ディープラーニングは、hcrを含むさまざまなパターン認識分野で大きな成功を収め、エンドツーエンドの学習、すなわち自動特徴抽出と認識を提供する。 本稿では,HCR-Netと呼ばれるスクリプト独立型手書き文字認識において,手書き文字認識のための変換学習と画像拡張を利用した新しいディープラーニングアーキテクチャを提案する。 このネットワークは、訓練済みのVGG16ネットワークの下位層の一部を利用するHCRの新しい転送学習アプローチに基づいている。 転送学習と画像拡張により、HCR-Netはより高速なトレーニング、より良いパフォーマンス、より良い一般化を提供する。 Bangla, Punjabi, Hindi, English, Swedish, Urdu, Farsi, Tibetan, Kannada, Malayalam, Telugu, Marathi, Nepali and Arabic languagesの公開データセットによる実験結果は、HCR-Netの有効性を証明し、いくつかの新しいベンチマークを確立する。 結果の再現性とHCR研究の進歩のために、完全なコードは \href{https://github.com/j mdvinodjmd/HCR-Net}{GitHub} で公開されている。

Handwritten character recognition (HCR) is a challenging learning problem in pattern recognition, mainly due to similarity in structure of characters, different handwriting styles, noisy datasets and a large variety of languages and scripts. HCR problem is studied extensively for a few decades but there is very limited research on script independent models. This is because of factors, like, diversity of scripts, focus of the most of conventional research efforts on handcrafted feature extraction techniques which are language/script specific and are not always available, and unavailability of public datasets and codes to reproduce the results. On the other hand, deep learning has witnessed huge success in different areas of pattern recognition, including HCR, and provides end-to-end learning, i.e., automated feature extraction and recognition. In this paper, we have proposed a novel deep learning architecture which exploits transfer learning and image-augmentation for end-to-end learning for script independent handwritten character recognition, called HCR-Net. The network is based on a novel transfer learning approach for HCR, where some of lower layers of a pre-trained VGG16 network are utilised. Due to transfer learning and image-augmentation, HCR-Net provides faster training, better performance and better generalisations. The experimental results on publicly available datasets of Bangla, Punjabi, Hindi, English, Swedish, Urdu, Farsi, Tibetan, Kannada, Malayalam, Telugu, Marathi, Nepali and Arabic languages prove the efficacy of HCR-Net and establishes several new benchmarks. For reproducibility of the results and for the advancements of the HCR research, complete code is publicly released at \href{https://github.com/j mdvinodjmd/HCR-Net}{GitHub}.
翻訳日:2021-08-17 15:30:31 公開日:2021-08-15
# 効率的な肝・腫瘍分離のためのマルチスライスドスパース学習

Multi-Slice Dense-Sparse Learning for Efficient Liver and Tumor Segmentation ( http://arxiv.org/abs/2108.06761v1 )

ライセンス: Link先を確認
Ziyuan Zhao, Zeyu Ma, Yanjie Liu, Zeng Zeng, Pierce KH Chow(参考訳) 正確な肝臓と腫瘍のセグメンテーションは、治療計画と疾患モニタリングにおいて重要な役割を果たす。 近年,深層畳み込みニューラルネットワーク (dcnns) は2次元および3次元医用画像分割において大きな成功を収めている。 しかし、2D DCNNはスライス間情報を十分に活用できないが、3D DCNNは計算コストが高く、メモリ集約的である。 これらの問題に対処するために,我々はまずデータの観点から,DCNNを正規化するための入力として,密に隣接したスライスと疎に隣接したスライスを抽出し,モデル性能を向上する,新しい密分なトレーニングフローを提案する。 さらに,ネットワークの観点から2.5次元軽量nnu-netの設計を行い,その効率向上のために奥行き分離可能な畳み込みを採用する。 LiTSデータセットの大規模な実験により,提案手法の優位性を実証した。

Accurate automatic liver and tumor segmentation plays a vital role in treatment planning and disease monitoring. Recently, deep convolutional neural network (DCNNs) has obtained tremendous success in 2D and 3D medical image segmentation. However, 2D DCNNs cannot fully leverage the inter-slice information, while 3D DCNNs are computationally expensive and memory intensive. To address these issues, we first propose a novel dense-sparse training flow from a data perspective, in which, densely adjacent slices and sparsely adjacent slices are extracted as inputs for regularizing DCNNs, thereby improving the model performance. Moreover, we design a 2.5D light-weight nnU-Net from a network perspective, in which, depthwise separable convolutions are adopted to improve the efficiency. Extensive experiments on the LiTS dataset have demonstrated the superiority of the proposed method.
翻訳日:2021-08-17 15:29:57 公開日:2021-08-15
# 深部敵によるk-ネアレストの隣人

Deep Adversarially-Enhanc ed k-Nearest Neighbors ( http://arxiv.org/abs/2108.06797v1 )

ライセンス: Link先を確認
Ren Wang, Tianqi Chen(参考訳) 近年の研究では、ディープニューラルネットワーク(DNN)が小さな摂動に固有の脆弱性があることが理論的および実験的に示されている。 dknn(deep k-nearest neighbors)分類器を適用すると、層が深くなるにつれて、ロバストネス・正確なトレードオフが劇的に増加するのがわかります。 本研究では、DkNNよりも高いロバスト性を実現し、2つのキー要素によるディープ層におけるロバスト性-精度トレードオフを軽減する、ディープ・アドバイサリー強化k-Nearest Neighbors (DAEkNN)手法を提案する。 まず、DAEkNNは敵対的に訓練されたモデルに基づいている。 第二に、DAEkNNは良性トレーニングデータと逆性トレーニングデータの重み付けの組み合わせを利用して予測を行う。 経験的に、DAEkNNはMNISTとCIFAR-10データセットのロバストネスとロバストネスのトレードオフの両方を改善している。

Recent works have theoretically and empirically shown that deep neural networks (DNNs) have an inherent vulnerability to small perturbations. Applying the Deep k-Nearest Neighbors (DkNN) classifier, we observe a dramatically increasing robustness-accuracy trade-off as the layer goes deeper. In this work, we propose a Deep Adversarially-Enhanc ed k-Nearest Neighbors (DAEkNN) method which achieves higher robustness than DkNN and mitigates the robustness-accuracy trade-off in deep layers through two key elements. First, DAEkNN is based on an adversarially trained model. Second, DAEkNN makes predictions by leveraging a weighted combination of benign and adversarial training data. Empirically, we find that DAEkNN improves both the robustness and the robustness-accuracy trade-off on MNIST and CIFAR-10 datasets.
翻訳日:2021-08-17 15:28:34 公開日:2021-08-15
# 文脈表現を用いた地図検索ミススペル検出

Maps Search Misspelling Detection Leveraging Domain-Augmented Contextual Representations ( http://arxiv.org/abs/2108.06842v1 )

ライセンス: Link先を確認
Yutong Li(参考訳) 独立したミススペル検出器を構築し、修正前にそれを提供することは、スペラーや他の検索コンポーネントに複数の利点をもたらす可能性がある。 深層学習の急速な発展とBERTologyのような文脈表現学習の大幅な進歩により、ノイズチャネルアーキテクチャに関連する手作りの機能を必要とせずに、まともなミススペル検出器を構築することは、より使いやすくなっている。 しかし、BERTolgyモデルは自然言語コーパスで訓練されているが、Maps Searchは非常にドメイン固有であり、BERTologyは成功し続けるだろう。 本稿では,最も基本的なLSTMから単一ドメイン拡張細調整BERTまで,誤り検出のためのモデルの4段階を設計する。 我々の場合、マップ検索では、RoBERTaのような他の高度なBERTologyファミリモデルはBERTを必ずしも上回りませんし、古典的なクロスドメインファインチューニングフルBERTはより小さな単一ドメインファインチューニングBERTを下回ります。 包括的なモデリング実験と分析を通じてさらに多くの知見を共有し、データ生成アルゴリズムのブレークスルーについても簡単に紹介する。

Building an independent misspelling detector and serve it before correction can bring multiple benefits to speller and other search components, which is particularly true for the most commonly deployed noisy-channel based speller systems. With rapid development of deep learning and substantial advancement in contextual representation learning such as BERTology, building a decent misspelling detector without having to rely on hand-crafted features associated with noisy-channel architecture becomes more-than-ever accessible. However BERTolgy models are trained with natural language corpus but Maps Search is highly domain specific, would BERTology continue its success. In this paper we design 4 stages of models for misspeling detection ranging from the most basic LSTM to single-domain augmented fine-tuned BERT. We found for Maps Search in our case, other advanced BERTology family model such as RoBERTa does not necessarily outperform BERT, and a classic cross-domain fine-tuned full BERT even underperforms a smaller single-domain fine-tuned BERT. We share more findings through comprehensive modeling experiments and analysis, we also briefly cover the data generation algorithm breakthrough.
翻訳日:2021-08-17 15:27:18 公開日:2021-08-15
# 複雑反応ネットワークの理論的アドバンテージの理解に向けて

Towards Understanding Theoretical Advantages of Complex-Reaction Networks ( http://arxiv.org/abs/2108.06711v1 )

ライセンス: Link先を確認
Shao-Qun Zhang, Gao Wei, Zhi-Hua Zhou(参考訳) 近年、複雑な数値ニューラルネットワークが注目を集めている一方で、実数値ニューラルネットワークと比較して、複雑な数値ニューラルネットワークの利点が注目されている。 この研究は、完全接続されたフィードフォワードアーキテクチャを持つ \emph{complex-reaction network} を導入することで、この方向への一歩を踏み出します。 複素反応ネットワークの普遍近似特性を証明し、パラメータの多項式数を用いて放射関数のクラスを複素反応ネットワークで近似できることを示し、一方実数値ネットワークは同じ近似レベルに達するためには少なくとも指数関数を必要とする。 経験的リスク最小化については, 複素反応ネットワークの臨界点集合が実数値ネットワークの固有部分集合であることを理論的に示した。

Complex-valued neural networks have attracted increasing attention in recent years, while it remains open on the advantages of complex-valued neural networks in comparison with real-valued networks. This work takes one step on this direction by introducing the \emph{complex-reaction network} with fully-connected feed-forward architecture. We prove the universal approximation property for complex-reaction networks, and show that a class of radial functions can be approximated by a complex-reaction network using the polynomial number of parameters, whereas real-valued networks need at least exponential parameters to reach the same approximation level. For empirical risk minimization, our theoretical result shows that the critical point set of complex-reaction networks is a proper subset of that of real-valued networks, which may show some insights on finding the optimal solutions more easily for complex-reaction networks.
翻訳日:2021-08-17 15:25:46 公開日:2021-08-15
# 未来へのトレーニング:時間とともに一般化する簡単な勾配補間損失

Training for the Future: A Simple Gradient Interpolation Loss to Generalize Along Time ( http://arxiv.org/abs/2108.06721v1 )

ライセンス: Link先を確認
Anshul Nasery, Soumyadeep Thakur, Vihari Piratla, Abir De, Sunita Sarawagi(参考訳) いくつかの現実世界のアプリケーションでは、分散が時間とともに徐々に変化するデータを予測するために機械学習モデルがデプロイされ、列車とテスト分布のドリフトに繋がる。 このようなモデルは、しばしば新しいデータに対して定期的に再訓練されるため、将来遠くないデータに一般化する必要がある。 この文脈では、時間的一般化(例えば、時間的一般化)を強化するための多くの先行的な作業がある。 過去のデータとカーネルの連続輸送、時間に敏感なパラメータの平滑化、そして最近では、時間不変特徴の逆学習。 しかし、これらの手法はスケーラビリティの貧弱さ、トレーニングの不安定さ、ラベル付きデータへの将来依存など、いくつかの制限を満たしている。 上記の制約に対応して,時間に敏感なパラメータを持つモデルから始めて,勾配補間(gi)損失を用いて時間的複雑性を正規化する簡単な手法を提案する。 GIにより、決定境界は時間とともに変更でき、時間とともにタスク固有の変更制御を許すことで、限られたトレーニング時間スナップショットへの過度な適合を防止することができる。 本研究では,複数の実世界のデータセット上の既存のベースラインと比較し,giがより複雑な生成的手法や敵意的アプローチよりも優れており,一方はより単純な勾配正規化法であることを示した。

In several real world applications, machine learning models are deployed to make predictions on data whose distribution changes gradually along time, leading to a drift between the train and test distributions. Such models are often re-trained on new data periodically, and they hence need to generalize to data not too far into the future. In this context, there is much prior work on enhancing temporal generalization, e.g. continuous transportation of past data, kernel smoothed time-sensitive parameters and more recently, adversarial learning of time-invariant features. However, these methods share several limitations, e.g, poor scalability, training instability, and dependence on unlabeled data from the future. Responding to the above limitations, we propose a simple method that starts with a model with time-sensitive parameters but regularizes its temporal complexity using a Gradient Interpolation (GI) loss. GI allows the decision boundary to change along time and can still prevent overfitting to the limited training time snapshots by allowing task-specific control over changes along time. We compare our method to existing baselines on multiple real-world datasets, which show that GI outperforms more complicated generative and adversarial approaches on the one hand, and simpler gradient regularization methods on the other.
翻訳日:2021-08-17 15:23:50 公開日:2021-08-15
# 脳腫瘍分離のためのDilated Inception U-Net (DIU-Net)

Dilated Inception U-Net (DIU-Net) for Brain Tumor Segmentation ( http://arxiv.org/abs/2108.06772v1 )

ライセンス: Link先を確認
Daniel E. Cahall, Ghulam Rasool, Nidhal C. Bouaynaya and Hassan M. Fathallah-Shaykh(参考訳) MRIは脳腫瘍の診断、治療計画、治療後の監視に日常的に用いられている。 近年,脳MRIにおける腫瘍のピクセルレベルセグメンテーションのためのディープニューラルネットワークに基づく様々なモデルが提案されている。 しかし、MRIにおける構造的変異、空間的相違、強度不均一性は、セグメント化を困難な課題にしている。 インセプションモジュールと拡張畳み込みをその収縮と伸長経路に統合した,u-netに基づく新しいエンド・ツー・エンドの脳腫瘍セグメンテーションアーキテクチャを提案する。 これにより、ローカルな構造や、グローバルなコンテキスト情報を抽出することができます。 腫瘍コア,造影腫瘍,腫瘍全体を含むグリオーマ亜領域のセグメンテーションは,Brain tumor Segmentation (BraTS) 2018データセットを用いて行った。 提案モデルは,腫瘍コアおよび全腫瘍セグメンテーションにおいて最先端のu-netベースモデル (p<0.05$) よりも有意に良好であった。

Magnetic resonance imaging (MRI) is routinely used for brain tumor diagnosis, treatment planning, and post-treatment surveillance. Recently, various models based on deep neural networks have been proposed for the pixel-level segmentation of tumors in brain MRIs. However, the structural variations, spatial dissimilarities, and intensity inhomogeneity in MRIs make segmentation a challenging task. We propose a new end-to-end brain tumor segmentation architecture based on U-Net that integrates Inception modules and dilated convolutions into its contracting and expanding paths. This allows us to extract local structural as well as global contextual information. We performed segmentation of glioma sub-regions, including tumor core, enhancing tumor, and whole tumor using Brain Tumor Segmentation (BraTS) 2018 dataset. Our proposed model performed significantly better than the state-of-the-art U-Net-based model ($p<0.05$) for tumor core and whole tumor segmentation.
翻訳日:2021-08-17 15:22:37 公開日:2021-08-15
# 2つの目は1つより優れている:糖尿病網膜症重症度評価における両眼相関の活用

Two Eyes Are Better Than One: Exploiting Binocular Correlation for Diabetic Retinopathy Severity Grading ( http://arxiv.org/abs/2108.06763v1 )

ライセンス: Link先を確認
Peisheng Qian, Ziyuan Zhao, Cong Chen, Zeng Zeng, Xiaoli Li(参考訳) 糖尿病網膜症 (DR) は糖尿病患者の眼症状として最も多い。 しかし、視覚障害は主にdrの後期に発生し、軽度から重度の視覚障害の症状は大きく異なり、臨床治療における診断と治療の負担が増大する。 網膜画像に基づく深層学習は、自動的なdr採点において著しく成功したが、そのほとんどは糖尿病が両眼に影響を及ぼすことを無視しており、眼科医は通常、両眼をdr診断のために同時に比較し、左右の眼の相関は未経験のままである。 本研究では, 診断過程をシミュレートし, 左右眼の微妙な相関関係を捉える2ストリーム双眼ネットワークを提案する。 クラス間差異を最小化しつつクラス間差異を最大化する5つのクラスdr検出の両眼相関を学習するために,対照的なグレーディング損失を設計した。 eyepacsデータセットの実験的結果は、提案する双眼鏡モデルの優劣を示し、単眼法を大きなマージンで上回った。

Diabetic retinopathy (DR) is one of the most common eye conditions among diabetic patients. However, vision loss occurs primarily in the late stages of DR, and the symptoms of visual impairment, ranging from mild to severe, can vary greatly, adding to the burden of diagnosis and treatment in clinical practice. Deep learning methods based on retinal images have achieved remarkable success in automatic DR grading, but most of them neglect that the presence of diabetes usually affects both eyes, and ophthalmologists usually compare both eyes concurrently for DR diagnosis, leaving correlations between left and right eyes unexploited. In this study, simulating the diagnostic process, we propose a two-stream binocular network to capture the subtle correlations between left and right eyes, in which, paired images of eyes are fed into two identical subnetworks separately during training. We design a contrastive grading loss to learn binocular correlation for five-class DR detection, which maximizes inter-class dissimilarity while minimizing the intra-class difference. Experimental results on the EyePACS dataset show the superiority of the proposed binocular model, outperforming monocular methods by a large margin.
翻訳日:2021-08-17 15:21:23 公開日:2021-08-15
# 転送エントロピーに基づく交通渋滞伝搬の時間遅延推定

Time Delay Estimation of Traffic Congestion Propagation based on Transfer Entropy ( http://arxiv.org/abs/2108.06717v1 )

ライセンス: Link先を確認
YongKyung Oh, JiIn Kwak, JuYoung Lee, Sungil Kim(参考訳) 近いうちに渋滞がどのように伝播するかを考えると、より正確な到着時刻(ETA)を提供するGPSナビゲーションシステムにおいて、交通渋滞の伝播を理解することが重要である。 しかし、道路間の複雑な伝播プロセスと、プロセスの今後の挙動に関する高い不確実性のため、渋滞時に正確なETAを提供することは困難である。 近年,頻繁な混雑伝播パターンの発見と伝播確率の決定に注目が集まっている。 これとは対照的に,ラグ特異的トランスファーエントロピー (TE) を用いた道路間交通渋滞伝搬の時間遅延推定手法を提案する。 TEを計算する際に、ソースとターゲット時系列間の因果関係を効果的に明らかにするために、スライドウインドウによる非線形正規化を用いる。 さらに, 時間遅延推定器の不確かさを定量化するために, マルコフブートストラップ法を採用した。 最善の知識として,本論文で提示した時間遅延推定手法は,任意の混雑伝搬パターンに対して道路間の時間遅延を決定する最初の方法である。 提案手法は,韓国で適用されたgpsナビゲーションシステムから得られた実ユーザ軌跡データとともにシミュレーションデータを用いて検証した。

Considering how congestion will propagate in the near future, understanding traffic congestion propagation has become crucial in GPS navigation systems for providing users with a more accurate estimated time of arrival (ETA). However, providing the exact ETA during congestion is a challenge owing to the complex propagation process between roads and high uncertainty regarding the future behavior of the process. Recent studies have focused on finding frequent congestion propagation patterns and determining the propagation probabilities. By contrast, this study proposes a novel time delay estimation method for traffic congestion propagation between roads using lag-specific transfer entropy (TE). Nonlinear normalization with a sliding window is used to effectively reveal the causal relationship between the source and target time series in calculating the TE. Moreover, Markov bootstrap techniques were adopted to quantify the uncertainty in the time delay estimator. To the best of our knowledge, the time delay estimation method presented in this article is the first to determine the time delay between roads for any congestion propagation pattern. The proposed method was validated using simulated data as well as real user trajectory data obtained from a major GPS navigation system applied in South Korea.
翻訳日:2021-08-17 15:20:11 公開日:2021-08-15
# conet:畳み込みニューラルネットワークのためのチャネル最適化

CONet: Channel Optimization for Convolutional Neural Networks ( http://arxiv.org/abs/2108.06822v1 )

ライセンス: Link先を確認
Mahdi S. Hosseini, Jia Shu Zhang, Zhe Liu, Andre Fu, Jingxuan Su, Mathieu Tuli and Konstantinos N. Plataniotis(参考訳) ニューラル・アーキテクチャ・サーチ(nas)は、ネットワーク設計を人間の直観から評価指標に導かれた検索アルゴリズムの活用へとシフトした。 畳み込みニューラルネットワーク(cnn)におけるチャネルサイズ最適化について検討し,モデル精度と複雑性に果たす役割について検討した。 現在のチャネルサイズ選択手法は、手動の反復と単純なヒューリスティックに苦しむ一方で、個別のサンプル空間によって制限される。 これを解決するために,ネットワーク層間のチャネルサイズを自動的に最適化する効率的な動的スケーリングアルゴリズムconetを導入する。 トレーニングに蓄積された情報を特定するために、2つのメトリクス -`\textit{Rank}" と "\textit{Rank Average Slope}" が導入された。 このアルゴリズムは、固定探索フェーズ上でチャネルサイズを動的にスケールアップする。 CIFAR10/100およびImageNetデータセット上で実験を行い、ConetがResNet、DARTS、DARTS+空間で探索された効率的で正確なアーキテクチャを見つけられることを示す。

Neural Architecture Search (NAS) has shifted network design from using human intuition to leveraging search algorithms guided by evaluation metrics. We study channel size optimization in convolutional neural networks (CNN) and identify the role it plays in model accuracy and complexity. Current channel size selection methods are generally limited by discrete sample spaces while suffering from manual iteration and simple heuristics. To solve this, we introduce an efficient dynamic scaling algorithm -- CONet -- that automatically optimizes channel sizes across network layers for a given CNN. Two metrics -- ``\textit{Rank}" and "\textit{Rank Average Slope}" -- are introduced to identify the information accumulated in training. The algorithm dynamically scales channel sizes up or down over a fixed searching phase. We conduct experiments on CIFAR10/100 and ImageNet datasets and show that CONet can find efficient and accurate architectures searched in ResNet, DARTS, and DARTS+ spaces that outperform their baseline models.
翻訳日:2021-08-17 15:19:37 公開日:2021-08-15
# 複雑な知識に基づく質問への回答:調査

Complex Knowledge Base Question Answering: A Survey ( http://arxiv.org/abs/2108.06688v1 )

ライセンス: Link先を確認
Yunshi Lan, Gaole He, Jinhao Jiang, Jing Jiang, Wayne Xin Zhao, Ji-Rong Wen(参考訳) 知識ベース質問応答(KBQA)は、知識ベース(KB)に関する質問に答えることを目的としている。 初期の研究は主にKBで単純な質問に答えることに集中し、大きな成功を収めた。 しかし、複雑な質問に対する彼らのパフォーマンスは、まだ満足には程遠い。 そのため,近年,複雑な疑問に答えることの難しさを考察した新しい手法が多数提案されている。 本稿では、KBQAの最近の進歩を概観し、複数の主題を含む複雑な問題を解くこと、複合関係を表現すること、あるいは数値演算に関わることに焦点を当てた。 より詳しくは、複雑なKBQAタスクと関連するバックグラウンドの導入から始める。 次に、複雑なKBQAタスクのベンチマークデータセットを説明し、これらのデータセットの構築プロセスを紹介する。 次に,複雑なKBQAの手法,すなわち意味解析法(SPベース)と情報検索法(IRベース)の2つの主流カテゴリを提案する。 具体的には,フロー設計の手順を説明し,両者の主な相違点と類似点について考察する。 その後、これらの2つの手法が複雑な質問に答える際に直面する課題を要約し、既存の作業で使われる高度なソリューションやテクニックを解説する。 最後に、今後の研究のために複雑なKBQAに関するいくつかの有望な方向性を結論し、議論する。

Knowledge base question answering (KBQA) aims to answer a question over a knowledge base (KB). Early studies mainly focused on answering simple questions over KBs and achieved great success. However, their performance on complex questions is still far from satisfactory. Therefore, in recent years, researchers propose a large number of novel methods, which looked into the challenges of answering complex questions. In this survey, we review recent advances on KBQA with the focus on solving complex questions, which usually contain multiple subjects, express compound relations, or involve numerical operations. In detail, we begin with introducing the complex KBQA task and relevant background. Then, we describe benchmark datasets for complex KBQA task and introduce the construction process of these datasets. Next, we present two mainstream categories of methods for complex KBQA, namely semantic parsing-based (SP-based) methods and information retrieval-based (IR-based) methods. Specifically, we illustrate their procedures with flow designs and discuss their major differences and similarities. After that, we summarize the challenges that these two categories of methods encounter when answering complex questions, and explicate advanced solutions and techniques used in existing work. Finally, we conclude and discuss several promising directions related to complex KBQA for future research.
翻訳日:2021-08-17 15:19:03 公開日:2021-08-15
# バイオメディカルイメージングのためのディープアルゴリズム

Deep Algorithm Unrolling for Biomedical Imaging ( http://arxiv.org/abs/2108.06637v1 )

ライセンス: Link先を確認
Yuelong Li, Or Bar-Shira, Vishal Monga and Yonina C. Eldar(参考訳) 本章では,従来の反復アルゴリズムと現代のディープラーニング技術を橋渡しする重要な手法であるアンロールアルゴリズムを利用したバイオメディカル応用とブレークスルーについてレビューする。 そこで我々は,まず,アルゴリズムの展開元をトレースし,反復的アルゴリズムを深層ネットワークに展開する方法に関する包括的なチュートリアルを提供する。 次に, 多様な生体画像モダリティを包含するアルゴリズムを広範囲にカバーし, 最近の代表的研究を詳細に調査する。 実際、バイオメディカル画像合成のための反復アルゴリズムの豊富な歴史があり、この手法を解き放つためのフィールドリップとなっている。 さらに,アルゴリズムを広範に展開することで,アルゴリズムがなぜ効果的であるかを理解し,最近のトレンドについて議論する。 最後に,オープンな課題を議論し,今後の研究の方向性を提案することで,章を締めくくる。

In this chapter, we review biomedical applications and breakthroughs via leveraging algorithm unrolling, an important technique that bridges between traditional iterative algorithms and modern deep learning techniques. To provide context, we start by tracing the origin of algorithm unrolling and providing a comprehensive tutorial on how to unroll iterative algorithms into deep networks. We then extensively cover algorithm unrolling in a wide variety of biomedical imaging modalities and delve into several representative recent works in detail. Indeed, there is a rich history of iterative algorithms for biomedical image synthesis, which makes the field ripe for unrolling techniques. In addition, we put algorithm unrolling into a broad perspective, in order to understand why it is particularly effective and discuss recent trends. Finally, we conclude the chapter by discussing open challenges, and suggesting future research directions.
翻訳日:2021-08-17 15:12:36 公開日:2021-08-15
# 双方向注意とコントラストメタラーニングによるFew-Shot Fine-Grained Action Recognition

Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and Contrastive Meta-Learning ( http://arxiv.org/abs/2108.06647v1 )

ライセンス: Link先を確認
Jiahao Wang, Yunhong Wang, Sheng Liu, Annan Li(参考訳) 実世界のアプリケーションにおける特定の行動理解の需要が高まり、微粒な行動認識が注目を集めている一方、希少な微粒なカテゴリーのデータは非常に限られている。 そこで本研究では,各クラスに付与されるサンプル数が少ない新規なきめ細かい動作を認識することを目的とした,数発のきめ細かい動作認識問題を提案する。 粒度の粗いアクションでは進歩が見られたが、既存の極小ショット認識手法では、微妙なアクションの詳細をキャプチャできないことと、クラス間分散の少ないデータから学ぶことの不十分さという2つの問題に遭遇している。 まず,人間の視覚に触発された双方向注意モジュール(bam)を提案する。 BAMは、トップダウンタスク駆動信号とボトムアップ唾液刺激を組み合わせることで、情報的時空間を正確に強調することにより微妙なアクションの詳細を捉える。 第2の課題に対処するために、コントラストメタラーニング(CML)を導入する。 広く採用されているProtoNetベースの手法と比較して、CMLはトレーニングエピソード毎に潜在的なコントラッシブペアをフル活用するため、低クラス間分散データに対してより差別的なビデオ表現を生成する。 さらに、異なるモデルを比較するために、2つの大規模細粒度アクション認識データセットに特定のベンチマークプロトコルを確立する。 実験結果から,提案手法は評価課題間の最先端性能を常に達成していることがわかった。

Fine-grained action recognition is attracting increasing attention due to the emerging demand of specific action understanding in real-world applications, whereas the data of rare fine-grained categories is very limited. Therefore, we propose the few-shot fine-grained action recognition problem, aiming to recognize novel fine-grained actions with only few samples given for each class. Although progress has been made in coarse-grained actions, existing few-shot recognition methods encounter two issues handling fine-grained actions: the inability to capture subtle action details and the inadequacy in learning from data with low inter-class variance. To tackle the first issue, a human vision inspired bidirectional attention module (BAM) is proposed. Combining top-down task-driven signals with bottom-up salient stimuli, BAM captures subtle action details by accurately highlighting informative spatio-temporal regions. To address the second issue, we introduce contrastive meta-learning (CML). Compared with the widely adopted ProtoNet-based method, CML generates more discriminative video representations for low inter-class variance data, since it makes full use of potential contrastive pairs in each training episode. Furthermore, to fairly compare different models, we establish specific benchmark protocols on two large-scale fine-grained action recognition datasets. Extensive experiments show that our method consistently achieves state-of-the-art performance across evaluated tasks.
翻訳日:2021-08-17 15:12:22 公開日:2021-08-15
# 適応擬似ラベルによる半教師付き3次元物体検出

Semi-supervised 3D Object Detection via Adaptive Pseudo-Labeling ( http://arxiv.org/abs/2108.06649v1 )

ライセンス: Link先を確認
Hongyi Xu, Fengqi Liu, Qianyu Zhou, Jinkun Hao, Zhijie Cao, Zhengyang Feng, Lizhuang Ma(参考訳) 3dオブジェクト検出は、コンピュータビジョンにおいて重要なタスクである。 既存のほとんどのメソッドでは、多くの高品質な3Dアノテーションが必要です。 特に屋外のシーンでは、点雲の希薄さと都市景観の複雑さにより、問題はさらに深刻になる。 半教師付き学習は、データアノテーションの問題を軽減する有望なテクニックである。 そこで本研究では,屋外3次元物体検出タスクに擬似ラベルを用いた半教師付きフレームワークを提案する。 適応クラス信頼選択モジュール(ACCS)を設計し,高品質な擬似ラベルを生成する。 さらに、ロバスト性を改善するために、ラベルのないデータに対するHolistic Point Cloud Augmentation (HPCA)を提案する。 KITTIベンチマーク実験により,本手法の有効性が示された。

3D object detection is an important task in computer vision. Most existing methods require a large number of high-quality 3D annotations, which are expensive to collect. Especially for outdoor scenes, the problem becomes more severe due to the sparseness of the point cloud and the complexity of urban scenes. Semi-supervised learning is a promising technique to mitigate the data annotation issue. Inspired by this, we propose a novel semi-supervised framework based on pseudo-labeling for outdoor 3D object detection tasks. We design the Adaptive Class Confidence Selection module (ACCS) to generate high-quality pseudo-labels. Besides, we propose Holistic Point Cloud Augmentation (HPCA) for unlabeled data to improve robustness. Experiments on the KITTI benchmark demonstrate the effectiveness of our method.
翻訳日:2021-08-17 15:11:56 公開日:2021-08-15
# 野生における単一RGB画像からのセマンティック埋め込み型無監督スペクトル再構成

Semantic-embedded Unsupervised Spectral Reconstruction from Single RGB Images in the Wild ( http://arxiv.org/abs/2108.06659v1 )

ライセンス: Link先を確認
Zhiyu Zhu, Hui Liu, Junhui Hou, Huanqiang Zeng, Qingfu Zhang(参考訳) 本稿では,商用カメラで撮影した1枚のRGB画像からハイパースペクトル(HS)画像を再構成する際の問題点について検討する。 この課題に取り組むために,我々は新しい軽量かつエンドツーエンドの学習ベースフレームワークを提案する。 具体的には、HS画像からのRGB画像の本質的な画像劣化モデルに基づいて、効率的なカメラスペクトル応答関数推定により、HS画像から入力されたRGB画像と再投影されたRGB画像との差を徐々に広げる。 接地hs画像を監督することなく学習を可能にするために, 逆学習方式を採用し, 簡便かつ効果的な$\mathcal{l}_1$勾配クリッピング方式で学習を促進させる。 さらに、入力されたRGB画像の意味情報を埋め込み、教師なし学習を局所的に正規化する。 合成RGB画像からのHS画像再構成のために広く利用されている2つのデータセットの定量的実験に加えて,実RGB画像から復元されたHS画像をHSベースの視覚追跡に適用することにより,本手法の評価を行った。 その結果,提案手法は最先端の教師なし手法よりも優れており,一部の設定下では最新の教師付き手法よりも優れていた。 ソースコードはhttps://github.com/z bzhzhy/Unsupervised- Spectral-Reconstruct ionで公開されている。

This paper investigates the problem of reconstructing hyperspectral (HS) images from single RGB images captured by commercial cameras, \textbf{without} using paired HS and RGB images during training. To tackle this challenge, we propose a new lightweight and end-to-end learning-based framework. Specifically, on the basis of the intrinsic imaging degradation model of RGB images from HS images, we progressively spread the differences between input RGB images and re-projected RGB images from recovered HS images via effective unsupervised camera spectral response function estimation. To enable the learning without paired ground-truth HS images as supervision, we adopt the adversarial learning manner and boost it with a simple yet effective $\mathcal{L}_1$ gradient clipping scheme. Besides, we embed the semantic information of input RGB images to locally regularize the unsupervised learning, which is expected to promote pixels with identical semantics to have consistent spectral signatures. In addition to conducting quantitative experiments over two widely-used datasets for HS image reconstruction from synthetic RGB images, we also evaluate our method by applying recovered HS images from real RGB images to HS-based visual tracking. Extensive results show that our method significantly outperforms state-of-the-art unsupervised methods and even exceeds the latest supervised method under some settings. The source code is public available at https://github.com/z bzhzhy/Unsupervised- Spectral-Reconstruct ion.
翻訳日:2021-08-17 15:11:45 公開日:2021-08-15
# 知識蒸留における多粒度

Multi-granularity for knowledge distillation ( http://arxiv.org/abs/2108.06681v1 )

ライセンス: Link先を確認
Baitan Shao, Ying Chen(参考訳) 生徒は教師が与える知識を理解する能力が異なることを考慮し,より理解しやすい知識を学生ネットワークに伝達するための多面的蒸留機構を提案する。 教師ネットワークの多粒性自己分析モジュールを設計し、学生ネットワークが異なる指導パターンから知識を学習できるようにする。 さらに,学生教育における堅牢な指導のために,安定した励振方式を提案する。 提案した蒸留機構は, 基本となる異なる蒸留機構に組み込むことができる。 実験によれば、このメカニズムは平均0.58%、ベースラインよりも1.08%精度が向上し、最新技術よりも性能が向上する。 また, 提案手法により, ノイズ入力に対する微調整能力と頑健性を向上させることができる。 コードはhttps://github.com/s haoeric/multi-granul arity-distillationで入手できる。

Considering the fact that students have different abilities to understand the knowledge imparted by teachers, a multi-granularity distillation mechanism is proposed for transferring more understandable knowledge for student networks. A multi-granularity self-analyzing module of the teacher network is designed, which enables the student network to learn knowledge from different teaching patterns. Furthermore, a stable excitation scheme is proposed for robust supervision for the student training. The proposed distillation mechanism can be embedded into different distillation frameworks, which are taken as baselines. Experiments show the mechanism improves the accuracy by 0.58% on average and by 1.08% in the best over the baselines, which makes its performance superior to the state-of-the-arts. It is also exploited that the student's ability of fine-tuning and robustness to noisy inputs can be improved via the proposed mechanism. The code is available at https://github.com/s haoeric/multi-granul arity-distillation.
翻訳日:2021-08-17 15:11:19 公開日:2021-08-15
# 領域不変物体検出のためのベクトル分解解離

Vector-Decomposed Disentanglement for Domain-Invariant Object Detection ( http://arxiv.org/abs/2108.06685v1 )

ライセンス: Link先を確認
Aming Wu, Rui Liu, Yahong Han, Linchao Zhu, Yi Yang(参考訳) ドメイン適応オブジェクト検出(DAOD)における検出器の一般化を改善するため、近年の進歩は、ソースと単一ターゲットドメイン間の特徴レベル分布の整合を主に検討しており、整列した特徴に存在するドメイン固有情報の影響を無視する可能性がある。 DAODに向けて、ドメイン不変のオブジェクト表現を抽出することが重要である。 そこで本論文では,ドメイン固有表現からドメイン不変表現を分離する。 また,ベクトル分解に基づく新しい非絡み合い手法を提案する。 まず、オブジェクトの提案を抽出するために使用される入力からドメイン不変表現を分離するために抽出器が考案される。 第二に、入力とドメイン不変表現の違いとしてドメイン固有表現が導入される。 差分演算により、ドメイン固有表現とドメイン不変表現の間のギャップが拡大され、ドメイン不変表現がよりドメイン非関連情報を含むように促進される。 実験では,本手法を単目的と複目的に別々に評価した。 単目的の場合,4つのドメインシフトシーンの実験結果から,本手法はベースライン法よりも顕著な性能向上を示した。 さらに、複合ターゲットの場合(すなわち、ドメインラベルのない2つの異なるドメインの複合体)に対して、本手法はベースライン法を約4%上回る性能を示し、本手法の有効性を実証する。

To improve the generalization of detectors, for domain adaptive object detection (DAOD), recent advances mainly explore aligning feature-level distributions between the source and single-target domain, which may neglect the impact of domain-specific information existing in the aligned features. Towards DAOD, it is important to extract domain-invariant object representations. To this end, in this paper, we try to disentangle domain-invariant representations from domain-specific representations. And we propose a novel disentangled method based on vector decomposition. Firstly, an extractor is devised to separate domain-invariant representations from the input, which are used for extracting object proposals. Secondly, domain-specific representations are introduced as the differences between the input and domain-invariant representations. Through the difference operation, the gap between the domain-specific and domain-invariant representations is enlarged, which promotes domain-invariant representations to contain more domain-irrelevant information. In the experiment, we separately evaluate our method on the single- and compound-target case. For the single-target case, experimental results of four domain-shift scenes show our method obtains a significant performance gain over baseline methods. Moreover, for the compound-target case (i.e., the target is a compound of two different domains without domain labels), our method outperforms baseline methods by around 4%, which demonstrates the effectiveness of our method.
翻訳日:2021-08-17 15:11:06 公開日:2021-08-15
# より一般的なビデオ顔偽造検出のための時間的コヒーレンス探索

Exploring Temporal Coherence for More General Video Face Forgery Detection ( http://arxiv.org/abs/2108.06693v1 )

ライセンス: Link先を確認
Yinglin Zheng, Jianmin Bao, Dong Chen, Ming Zeng, Fang Wen(参考訳) 現在の顔操作技術は、品質と制御性に関する印象的なパフォーマンスを実現するが、時間的コヒーレントな顔ビデオを生成するのに苦労している。 本研究では,映像顔偽造検出における時間的コヒーレンスをフル活用することを検討する。 そこで本研究では,2つの段階からなる新しいエンドツーエンドフレームワークを提案する。 最初の段階は完全な時間的畳み込みネットワーク(FTCN)である。 FTCNの重要な洞察は、空間的畳み込みカーネルのサイズを1に減らし、時間的畳み込みカーネルのサイズを一定に保つことである。 この特別な設計は、時間的特徴を抽出し、一般化能力を向上するモデルに有用である。 第2段階はテンポラルトランスフォーマーネットワークであり、長期の時間的コヒーレンスを探求することを目的としている。 提案されたフレームワークは汎用的で柔軟性があり、事前トレーニングモデルや外部データセットなしで、スクラッチから直接トレーニングすることができる。 広範な実験により,提案手法は既存手法よりも優れており,新たな顔偽ビデオの検出にも有効であることが示された。

Although current face manipulation techniques achieve impressive performance regarding quality and controllability, they are struggling to generate temporal coherent face videos. In this work, we explore to take full advantage of the temporal coherence for video face forgery detection. To achieve this, we propose a novel end-to-end framework, which consists of two major stages. The first stage is a fully temporal convolution network (FTCN). The key insight of FTCN is to reduce the spatial convolution kernel size to 1, while maintaining the temporal convolution kernel size unchanged. We surprisingly find this special design can benefit the model for extracting the temporal features as well as improve the generalization capability. The second stage is a Temporal Transformer network, which aims to explore the long-term temporal coherence. The proposed framework is general and flexible, which can be directly trained from scratch without any pre-training models or external datasets. Extensive experiments show that our framework outperforms existing methods and remains effective when applied to detect new sorts of face forgery videos.
翻訳日:2021-08-17 15:10:44 公開日:2021-08-15
# U-mesh: メッシュ畳み込みネットワークによる人間対応マッチング

U-mesh: Human Correspondence Matching with Mesh Convolutional Networks ( http://arxiv.org/abs/2108.06695v1 )

ライセンス: Link先を確認
Benjamin Groisser, Alon Wolf, Ron Kimmel(参考訳) 3Dスキャン技術の普及により、幾何学的データ、特に人体に対する解釈方法の必要性が高まっている。 本稿では,パラメトリックテンプレートモデルを生の走査メッシュに適合させるために,回帰(ボトムアップ)と生成(トップダウン)のエレガントな融合を提案する。 最初の大きな貢献は、テンプレート表面への点対応を予測する固有の畳み込みメッシュU-netアーキテクチャである。 ソフト対応は新しく構築されたカルト空間の座標として定式化される。 ユークリッド近接としてのモデリング対応は、ネットワークトレーニングとアルゴリズムの次のステップの両方において効率的な最適化を可能にする。 第2のコントリビューションは、U-net対応予測を用いてパラメトリック反復閉点登録を誘導する生成最適化アルゴリズムである。 事前訓練されたヒト表面パラメトリックモデルを使用することで、ドメイン固有の事前知識を最大限に活用する。 メッシュ-畳み込みネットワークと生成モデルフィッティングのペアリングにより、オクルージョン、部分性、および様々な属を含む実際の人間の表面スキャンの対応を予測できる(例)。 自己接触から)。 FAUST対応課題に対する提案手法の評価を行い,対象者間対応技術の現状を20%(33%)改善する方法について検討した。

The proliferation of 3D scanning technology has driven a need for methods to interpret geometric data, particularly for human subjects. In this paper we propose an elegant fusion of regression (bottom-up) and generative (top-down) methods to fit a parametric template model to raw scan meshes. Our first major contribution is an intrinsic convolutional mesh U-net architecture that predicts pointwise correspondence to a template surface. Soft-correspondence is formulated as coordinates in a newly-constructed Cartesian space. Modeling correspondence as Euclidean proximity enables efficient optimization, both for network training and for the next step of the algorithm. Our second contribution is a generative optimization algorithm that uses the U-net correspondence predictions to guide a parametric Iterative Closest Point registration. By employing pre-trained human surface parametric models we maximally leverage domain-specific prior knowledge. The pairing of a mesh-convolutional network with generative model fitting enables us to predict correspondence for real human surface scans including occlusions, partialities, and varying genus (e.g. from self-contact). We evaluate the proposed method on the FAUST correspondence challenge where we achieve 20% (33%) improvement over state of the art methods for inter- (intra-) subject correspondence.
翻訳日:2021-08-17 15:10:25 公開日:2021-08-15
# 高レベル複合活動ラベルを用いた時間的行動セグメンテーション

Temporal Action Segmentation with High-level Complex Activity Labels ( http://arxiv.org/abs/2108.06706v1 )

ライセンス: Link先を確認
Guodong Ding and Angela Yao(参考訳) 過去数年間、短いトリミングビデオでのアクション認識の成功は、未トリミングビデオにおけるアクションの時間的セグメンテーションに向けたさらなる調査につながった。 近年,非トリミングビデオにおける複雑なヒューマンアクションのセグメンテーションにおいて,教師付きアプローチが優れた性能を達成している。 しかし、アクションラベルの他に、これらのアプローチは各アクションの開始点と終了点を必要とする。 本稿では,高レベルなアクティビティラベルのみを入力とするアクションセグメントの学習を目的とする。 アクションレベルの監視が提供されない環境では、ハンガリーのマッチングは、セグメントと地上の真実のアクションの間のマッピングを見つけ、モデルを評価し、パフォーマンスを報告するためにしばしば使用される。 一方、ハイレベルな監視では、現在のビデオとアクティビティレベルからグローバルレベルまで、ハンガリーのマッチング設定を一般化できることが示されています。 拡張されたグローバルレベルのマッチングは、アクティビティ間の共有アクションを可能にする。 一方,行動分類タスクを用いて動画中の構成動作を自動的に検出する新しい行動発見フレームワークを提案する。 具体的には,映像列の双対表現を形成するために,有限個のプロトタイプを定義する。 これらの学習されたプロトタイプは発見された行動とみなされる。 この分類設定は、複数の複雑なアクティビティ間で潜在的に共有されたアクションを発見する能力を内包する。 大規模な実験により、発見された行動は時間的行動セグメンテーションと活動認識の実行に有用であることが示されている。

Over the past few years, the success in action recognition on short trimmed videos has led more investigations towards the temporal segmentation of actions in untrimmed long videos. Recently, supervised approaches have achieved excellent performance in segmenting complex human actions in untrimmed videos. However, besides action labels, such approaches also require the start and end points of each action, which is expensive and tedious to collect. In this paper, we aim to learn the action segments taking only the high-level activity labels as input. Under the setting where no action-level supervision is provided, Hungarian matching is often used to find the mapping between segments and ground truth actions to evaluate the model and report the performance. On the one hand, we show that with the high-level supervision, we are able to generalize the Hungarian matching settings from the current video and activity level to the global level. The extended global-level matching allows for the shared actions across activities. On the other hand, we propose a novel action discovery framework that automatically discovers constituent actions in videos with the activity classification task. Specifically, we define a finite number of prototypes to form a dual representation of a video sequence. These collectively learned prototypes are considered discovered actions. This classification setting endows our approach the capability of discovering potentially shared actions across multiple complex activities. Extensive experiments demonstrate that the discovered actions are helpful in performing temporal action segmentation and activity recognition.
翻訳日:2021-08-17 15:10:08 公開日:2021-08-15
# SPG:意味点生成による3次元物体検出のための教師なし領域適応

SPG: Unsupervised Domain Adaptation for 3D Object Detection via Semantic Point Generation ( http://arxiv.org/abs/2108.06709v1 )

ライセンス: Link先を確認
Qiangeng Xu, Yin Zhou, Weiyue Wang, Charles R. Qi, Dragomir Anguelov(参考訳) 自動運転では、lidarベースの物体検出器は、異なる場所や様々な気象条件下で確実に動作する必要がある。 最近の3d検出研究は単一領域の性能向上に重点を置いているが、現代の検出器の性能は大幅にクロスドメインに低下する可能性があることが判明した。 本稿では,LiDARを用いた3Dオブジェクト検出のための教師なし領域適応(UDA)について検討する。 waymoドメイン適応データセットでは、低下するポイントクラウドの品質を、パフォーマンス低下の根本原因として特定する。 この問題に対処するために、我々は、LiDAR検出器のドメインシフトに対する信頼性を高めるための一般的なアプローチであるセマンティックポイント生成(SPG)を提案する。 具体的には、SPGは予測された前景領域のセマンティックポイントを生成し、オクルージョン、低反射性、気象干渉などの現象に起因する前景オブジェクトの欠落部分を忠実に回復する。 意味点を元の点とマージすることで、現代のLiDARベースの検出器で直接消費できる拡張点雲が得られる。 SPGの適用性を検証するために,PointPillarsとPV-RCNNの2つの代表検出器を実験した。 UDAタスクでは、SPGはすべての対象カテゴリとあらゆる難易度で両方の検出器を著しく改善する。 SPGは元のドメインでのオブジェクト検出にも役立つ。 Waymo Open DatasetとKITTIでは、SPGはこれら2つのメソッドのすべてのカテゴリにわたる3D検出結果を改善している。 PV-RCNNと組み合わせて、SPGはKITTI上で最先端の3D検出結果を得る。

In autonomous driving, a LiDAR-based object detector should perform reliably at different geographic locations and under various weather conditions. While recent 3D detection research focuses on improving performance within a single domain, our study reveals that the performance of modern detectors can drop drastically cross-domain. In this paper, we investigate unsupervised domain adaptation (UDA) for LiDAR-based 3D object detection. On the Waymo Domain Adaptation dataset, we identify the deteriorating point cloud quality as the root cause of the performance drop. To address this issue, we present Semantic Point Generation (SPG), a general approach to enhance the reliability of LiDAR detectors against domain shifts. Specifically, SPG generates semantic points at the predicted foreground regions and faithfully recovers missing parts of the foreground objects, which are caused by phenomena such as occlusions, low reflectance or weather interference. By merging the semantic points with the original points, we obtain an augmented point cloud, which can be directly consumed by modern LiDAR-based detectors. To validate the wide applicability of SPG, we experiment with two representative detectors, PointPillars and PV-RCNN. On the UDA task, SPG significantly improves both detectors across all object categories of interest and at all difficulty levels. SPG can also benefit object detection in the original domain. On the Waymo Open Dataset and KITTI, SPG improves 3D detection results of these two methods across all categories. Combined with PV-RCNN, SPG achieves state-of-the-art 3D detection results on KITTI.
翻訳日:2021-08-17 15:09:46 公開日:2021-08-15
# 学ぶことなくオープンワールドオブジェクトの提案を学ぶ

Learning Open-World Object Proposals without Learning to Classify ( http://arxiv.org/abs/2108.06753v1 )

ライセンス: Link先を確認
Dahun Kim, Tsung-Yi Lin, Anelia Angelova, In So Kweon, Weicheng Kuo(参考訳) オブジェクト提案は、オブジェクト検出、弱い教師付き検出、オブジェクト発見、トラッキングなど、多くのビジョンパイプラインの不可欠な前処理ステップになっている。 学習フリー手法と比較して,オブジェクト検出への関心が高まっているため,学習ベースの提案が最近普及している。 共通のパラダイムは、オブジェクト領域とその対応するカテゴリのセットでラベル付けされたデータからオブジェクトの提案を学ぶことである。 しかし、このアプローチは、トレーニングセットにないオープンワールドにおける新しいオブジェクトにしばしば苦労する。 本稿では,既存の提案手法におけるバイナリ分類器が,トレーニングカテゴリに過剰に適合する傾向があることを明らかにする。 そこで本研究では,各領域の位置と形状がどのような接地的対象(例えば,中心性とIoU)とどのように重なり合うかによって,各領域の目的性を純粋に推定する。 この単純な戦略は、一般化可能なオブジェクト性を学び、COCO上のクロスカテゴリの一般化に関する既存の提案と、RoboNet、Object365、EpicKitchensのクロスデータセット評価を上回ります。 最後に,lvis(large vocabulary dataset)におけるlong-tail object detectionにおけるolnの有用性を示す。

Object proposals have become an integral preprocessing steps of many vision pipelines including object detection, weakly supervised detection, object discovery, tracking, etc. Compared to the learning-free methods, learning-based proposals have become popular recently due to the growing interest in object detection. The common paradigm is to learn object proposals from data labeled with a set of object regions and their corresponding categories. However, this approach often struggles with novel objects in the open world that are absent in the training set. In this paper, we identify that the problem is that the binary classifiers in existing proposal methods tend to overfit to the training categories. Therefore, we propose a classification-free Object Localization Network (OLN) which estimates the objectness of each region purely by how well the location and shape of a region overlap with any ground-truth object (e.g., centerness and IoU). This simple strategy learns generalizable objectness and outperforms existing proposals on cross-category generalization on COCO, as well as cross-dataset evaluation on RoboNet, Object365, and EpicKitchens. Finally, we demonstrate the merit of OLN for long-tail object detection on large vocabulary dataset, LVIS, where we notice clear improvement in rare and common categories.
翻訳日:2021-08-17 15:09:23 公開日:2021-08-15
# パターンファブリック欠陥検出のためのカスケードズームインネットワーク

A Cascaded Zoom-In Network for Patterned Fabric Defect Detection ( http://arxiv.org/abs/2108.06760v1 )

ライセンス: Link先を確認
Zhiwei Zhang(参考訳) 現在、深層畳み込みニューラルネットワーク(dcnn)は織物欠陥検出に広く使われており、高価なトレーニングと複雑なモデルパラメータのコストがかかる。 ファブリックのほとんどが欠陥がないという観測から,パターンドファブリック欠陥検出のための2段階カスケードズームインネットワーク (czi-net) が提案されている。 CZI-Netでは、Aggregated HOG (A-HOG) とSIFTの機能は、特徴抽出のための単純な畳み込みフィルタの代わりに使われる。 さらに、より特徴的な特徴を抽出するために、特徴表現層と完全な接続層がCZI-Netに含まれる。 実際、ほとんどの欠陥のない布地は、我々の方法の第1段階にしか関わらず、第2段階ではコストのかかる計算を避け、非常に高速な布地検出を行う。 さらに,第1ステップでLocality-Constrained Reconstruction Error(LCRE),第2ステップでRestrictive Locality-Constrained Coding(RLC),Bag-of-I ndexes(BoI)手法を提案する。 また, 異なる符号化手法間の接続を解析し, 視覚単語の指標が符号化手法において不可欠な役割を担っていることを結論づける。 実世界のデータセットに基づく実験を行い,提案手法が計算学的に単純であるだけでなく,検出精度も高いことを示す。

Nowadays, Deep Convolutional Neural Networks (DCNNs) are widely used in fabric defect detection, which come with the cost of expensive training and complex model parameters. With the observation that most fabrics are defect free in practice, a two-step Cascaded Zoom-In Network (CZI-Net) is proposed for patterned fabric defect detection. In the CZI-Net, the Aggregated HOG (A-HOG) and SIFT features are used to instead of simple convolution filters for feature extraction. Moreover, in order to extract more distinctive features, the feature representation layer and full connection layer are included in the CZI-Net. In practice, Most defect-free fabrics only involve in the first step of our method and avoid a costive computation in the second step, which makes very fast fabric detection. More importantly, we propose the Locality-constrained Reconstruction Error (LCRE) in the first step and Restrictive Locality-constrained Coding (RLC), Bag-of-Indexes (BoI) methods in the second step. We also analyse the connections between different coding methods and conclude that the index of visual words plays an essential role in the coding methods. In conclusion, experiments based on real-world datasets are implemented and demonstrate that our proposed method is not only computationally simple but also with high detection accuracy.
翻訳日:2021-08-17 15:09:00 公開日:2021-08-15
# NPBDREG : 非パラメトリックベイズディープラーニングに基づく拡散型脳MRIレジストレーション

NPBDREG: A Non-parametric Bayesian Deep-Learning Based Approach for Diffeomorphic Brain MRI Registration ( http://arxiv.org/abs/2108.06771v1 )

ライセンス: Link先を確認
Samah Khawaled, Moti Freiman(参考訳) 深層ニューラルネットワーク(dnn)に基づく画像登録アルゴリズムにおける不確かさの定量化は、現実世界の医療アプリケーションと研究指向の処理パイプラインの安全な展開と一般化能力の向上において重要な役割を担っている。 不確実性推定には、変分エンコーダ-デコーダアーキテクチャや推論時間ドロップアウトアプローチなど、特定のネットワークアーキテクチャが必要であり、予測された変形場に対する後方分布の準最適キャラクタリゼーションをもたらす潜在空間のパラメトリック分布を仮定する必要がある。 非教師なしのdnnベースの変形可能な画像登録のための完全非パラメトリックベイズフレームワークであるnpbdreg と確率勾配ランジュバンダイナミクス(sgld)を組み合わせることにより、後方サンプリングによる真の後方分布を特徴付ける。 NPBDREGは、真の後部分布を特徴付けるための原則化された非パラメトリックな方法を提供し、理論上は十分に確立され、計算的に効率的である。 MGH10, CMUC12, ISBR18, LPBA40の4つの公開データベースから390ドルの画像対を用いた脳MRI画像登録において, NPBDREGの付加価値を, ベースライン確率的 texttt{VoxelMorph} 教師なしモデル (PrVXM) と比較した。 npbdregは、prvxm($0.73$ vs.$0.68$, $p \ll 0.01$)、混合構造ノイズによるデータの一般化能力($0.729$ vs.$0.686$ for $\alpha=0.2$)、そして最後に、予測の不確実性と分散データ($r>0.95$ vs. $r<0.5$)との相関性が大幅に向上している。

Quantification of uncertainty in deep-neural-networks (DNN) based image registration algorithms plays an important role in the safe deployment of real-world medical applications and research-oriented processing pipelines, and in improving generalization capabilities. Currently available approaches for uncertainty estimation, including the variational encoder-decoder architecture and the inference-time dropout approach, require specific network architectures and assume parametric distribution of the latent space which may result in sub-optimal characterization of the posterior distribution for the predicted deformation-fields. We introduce the NPBDREG, a fully non-parametric Bayesian framework for unsupervised DNN-based deformable image registration by combining an \texttt{Adam} optimizer with stochastic gradient Langevin dynamics (SGLD) to characterize the true posterior distribution through posterior sampling. The NPBDREG provides a principled non-parametric way to characterize the true posterior distribution, thus providing improved uncertainty estimates and confidence measures in a theoretically well-founded and computationally efficient way. We demonstrated the added-value of NPBDREG, compared to the baseline probabilistic \texttt{VoxelMorph} unsupervised model (PrVXM), on brain MRI images registration using $390$ image pairs from four publicly available databases: MGH10, CMUC12, ISBR18 and LPBA40. The NPBDREG shows a slight improvement in the registration accuracy compared to PrVXM (Dice score of $0.73$ vs. $0.68$, $p \ll 0.01$), a better generalization capability for data corrupted by a mixed structure noise (e.g Dice score of $0.729$ vs. $0.686$ for $\alpha=0.2$) and last but foremost, a significantly better correlation of the predicted uncertainty with out-of-distribution data ($r>0.95$ vs. $r<0.5$).
翻訳日:2021-08-17 15:08:34 公開日:2021-08-15
# 視覚食品分類のためのオンライン連続学習

Online Continual Learning For Visual Food Classification ( http://arxiv.org/abs/2108.06781v1 )

ライセンス: Link先を確認
Jiangpeng He and Fengqing Zhu(参考訳) 既存の方法ではトレーニングのために静的データセットが必要であり、シーケンシャルに利用可能な新しい食品画像から学べないため、現実のアプリケーションではフードイメージの分類が難しい。 オンライン連続学習は、学習した知識を忘れることなく、各新しいデータのみを使用して、データストリームから新しいクラスを学習することを目的としている。 しかし,どの研究も食品画像解析を対象とせず,食品群分布の非バランス・予測不可能な特性と高いクラス内変動のため,漸進的に学習することが困難である。 本稿では,(1)学習済み食品の最も代表的なデータを記憶し,(2)バランスのとれた学習バッチを用いた効果的なオンライン学習環境と,学習対象の知識蒸留とを併用し,すべての学習クラスにおけるモデル性能を維持できるクラスタリング型エクセプラー選択アルゴリズムを導入することで,これらの課題を解決する。 本手法は,新たに追加された食品のクラス数を変化させて,大規模食品画像データベースであるfood-1k上で評価する。 以上の結果から,既存のオンライン連続学習手法と比較して大きな改善がみられ,実世界の食品画像分類における生涯学習の可能性が示唆された。

Food image classification is challenging for real-world applications since existing methods require static datasets for training and are not capable of learning from sequentially available new food images. Online continual learning aims to learn new classes from data stream by using each new data only once without forgetting the previously learned knowledge. However, none of the existing works target food image analysis, which is more difficult to learn incrementally due to its high intra-class variation with the unbalanced and unpredictable characteristics of future food class distribution. In this paper, we address these issues by introducing (1) a novel clustering based exemplar selection algorithm to store the most representative data belonging to each learned food for knowledge replay, and (2) an effective online learning regime using balanced training batch along with the knowledge distillation on augmented exemplars to maintain the model performance on all learned classes. Our method is evaluated on a challenging large scale food image database, Food-1K, by varying the number of newly added food classes. Our results show significant improvements compared with existing state-of-the-art online continual learning methods, showing great potential to achieve lifelong learning for food image classification in real world.
翻訳日:2021-08-17 15:07:49 公開日:2021-08-15
# SSH: イメージ調和のための自己監督型フレームワーク

SSH: A Self-Supervised Framework for Image Harmonization ( http://arxiv.org/abs/2108.06805v1 )

ライセンス: Link先を確認
Yifan Jiang, He Zhang, Jianming Zhang, Yilin Wang, Zhe Lin, Kalyan Sunkavalli, Simon Chen, Sohrab Amirghodsi, Sarah Kong, Zhangyang Wang(参考訳) 画像調和は、前景画像と背景画像の「外観」(色調、明るさ、コントラスト)をマッチングすることにより、画像合成の品質を向上させることを目的としている。 しかし、このタスクのために大規模な注釈付きデータセットを収集するには、複雑なプロのリタッチが必要である。 代わりに、編集することなく、単に「自由」な自然画像を使って訓練できる新しい自己改善調和フレームワーク(SSH)を提案する。 画像調和問題を表現融合の観点から再構成し、前景と背景を別々に処理し、背景閉塞問題に対処する。 このフレームワークの設計により、多様な[地上、背景、擬似GT]三重項を3Dカラールックアップテーブル(LUT)を用いて摂動でトリミングすることで、二重データ拡張が可能となる。 さらに,評価やベンチマークの目的で,専門家ユーザが慎重に作成した実世界の調和データセットを構築する。 提案手法は,基準指標,視覚的品質,主観的ユーザスタディにおいて,従来の最先端手法よりも優れていた。 コードとデータセットは \url{https://github.com/V ITA-Group/SSHarmoniz ation} で公開されている。

Image harmonization aims to improve the quality of image compositing by matching the "appearance" (\eg, color tone, brightness and contrast) between foreground and background images. However, collecting large-scale annotated datasets for this task requires complex professional retouching. Instead, we propose a novel Self-Supervised Harmonization framework (SSH) that can be trained using just "free" natural images without being edited. We reformulate the image harmonization problem from a representation fusion perspective, which separately processes the foreground and background examples, to address the background occlusion issue. This framework design allows for a dual data augmentation method, where diverse [foreground, background, pseudo GT] triplets can be generated by cropping an image with perturbations using 3D color lookup tables (LUTs). In addition, we build a real-world harmonization dataset as carefully created by expert users, for evaluation and benchmarking purposes. Our results show that the proposed self-supervised method outperforms previous state-of-the-art methods in terms of reference metrics, visual quality, and subject user study. Code and dataset are available at \url{https://github.com/V ITA-Group/SSHarmoniz ation}.
翻訳日:2021-08-17 15:07:27 公開日:2021-08-15
# SCIDA: 単一-多ラベル空中画像からの自己補正統合ドメイン適応

SCIDA: Self-Correction Integrated Domain Adaptation from Single- to Multi-label Aerial Images ( http://arxiv.org/abs/2108.06810v1 )

ライセンス: Link先を確認
Tianze Yu, Jianzhe Lin, Lichao Mou, Yuansheng Hua, Xiaoxiang Zhu and Z. Jane Wang(参考訳) 画像分類のためのほとんどの公開データセットは単一のラベルでできており、画像は本質的に私たちの日常生活でマルチラベル化されている。 このようなアノテーションギャップは、訓練済みのシングルラベル分類モデルの多くを現実的なシナリオでフェールさせる。 センサーから収集された空中データは、複数のラベルを持つ比較的大きな土地を自然にカバーし、注釈付き空中データセットは、一般に公開されている(UCM、AIDなど)。 マルチラベル画像に手動でアノテートすることは時間/ラベル消費であるので,自動マルチラベル学習のための新しい自己修正統合ドメイン適応 (scida) 法を提案する。 SCIDAは、大規模で公開可能なシングルラベル画像から、マルチラベル画像分類モデルを自動的に学習する弱い教師付きである。 この目的を達成するために,ラベル相関をよりよく研究するための新しいラベル・ワイズ自己補正(LWC)モジュールを提案する。 このモジュールは、シングルからマルチラベルデータへの教師なしドメイン適応(uda)も可能にする。 モデルトレーニングにおいて,提案モデルは単一ラベル情報のみを使用するが,複数ラベルデータの事前知識は必要とせず,多ラベル空中画像のラベルを予測する。 単ラベルMAI-AID-sおよびMAI-UCM-sデータセットを用いて学習した実験では,本モデルが収集したMAI(Multi-scene Aerial Image)データセット上で直接テストされる。

Most publicly available datasets for image classification are with single labels, while images are inherently multi-labeled in our daily life. Such an annotation gap makes many pre-trained single-label classification models fail in practical scenarios. This annotation issue is more concerned for aerial images: Aerial data collected from sensors naturally cover a relatively large land area with multiple labels, while annotated aerial datasets, which are publicly available (e.g., UCM, AID), are single-labeled. As manually annotating multi-label aerial images would be time/labor-consuming , we propose a novel self-correction integrated domain adaptation (SCIDA) method for automatic multi-label learning. SCIDA is weakly supervised, i.e., automatically learning the multi-label image classification model from using massive, publicly available single-label images. To achieve this goal, we propose a novel Label-Wise self-Correction (LWC) module to better explore underlying label correlations. This module also makes the unsupervised domain adaptation (UDA) from single- to multi-label data possible. For model training, the proposed model only uses single-label information yet requires no prior knowledge of multi-labeled data; and it predicts labels for multi-label aerial images. In our experiments, trained with single-labeled MAI-AID-s and MAI-UCM-s datasets, the proposed model is tested directly on our collected Multi-scene Aerial Image (MAI) dataset.
翻訳日:2021-08-17 15:07:07 公開日:2021-08-15
# ビデオフレーム補間のための非対称バイラテラル運動推定

Asymmetric Bilateral Motion Estimation for Video Frame Interpolation ( http://arxiv.org/abs/2108.06815v1 )

ライセンス: Link先を確認
Junheum Park, Chul Lee and Chang-Su Kim(参考訳) 2つの入力フレーム間の中間フレームを合成する非対称な左右運動推定(ABME)に基づく新しいビデオフレーム補間アルゴリズムを提案する。 まず、左右対称運動場を予測してアンカーフレームを補間する。 次に,アンカーフレームから入力フレームへの非対称な左右運動場を推定する。 第3に、非対称場を用いて入力フレームを後方に向かわせ、中間フレームを再構築する。 最後に,中間フレームを改良するために,局所的および大域的情報を用いた動的フィルタと残留フレームの集合を生成する新しい合成ネットワークを開発する。 実験結果から,提案アルゴリズムは様々なデータセットに対して優れた性能を示すことがわかった。 ソースコードと事前訓練されたモデルはhttps://github.com/J unHeum/ABME.comで入手できる。

We propose a novel video frame interpolation algorithm based on asymmetric bilateral motion estimation (ABME), which synthesizes an intermediate frame between two input frames. First, we predict symmetric bilateral motion fields to interpolate an anchor frame. Second, we estimate asymmetric bilateral motions fields from the anchor frame to the input frames. Third, we use the asymmetric fields to warp the input frames backward and reconstruct the intermediate frame. Last, to refine the intermediate frame, we develop a new synthesis network that generates a set of dynamic filters and a residual frame using local and global information. Experimental results show that the proposed algorithm achieves excellent performance on various datasets. The source codes and pretrained models are available at https://github.com/J unHeum/ABME.
翻訳日:2021-08-17 15:06:40 公開日:2021-08-15
# EventHPE:イベントベースの3Dヒューマンポースと形状推定

EventHPE: Event-based 3D Human Pose and Shape Estimation ( http://arxiv.org/abs/2108.06819v1 )

ライセンス: Link先を確認
Shihao Zou, Chuan Guo, Xinxin Zuo, Sen Wang, Pengyu Wang, Xiaoqin Hu, Shoushun Chen, Minglun Gong, Li Cheng(参考訳) イベントカメラは、移動物体のダイナミックな動きをイベントとして捉え、イベント信号から3Dのポーズと形状を推定する作業の動機となる。 一方、イベントには固有の課題がある。静的な身体姿勢を捉えるのではなく、イベント信号は局所的な動きを捉えるのに最適である。 これにより、EventHPEと呼ばれる2段階のディープラーニングアプローチを提案します。 第1段階のflownetは教師なし学習によって訓練され、イベントからの光の流れを推測する。 イベントとオプティカルフローは2段目のシェープネットへの入力として供給される人体のダイナミクスと密接に関連し、3次元の人体形状を推定する。 画像ベースフロー(光学フロー)と形状ベースフロー(人体形状の頂点運動)との差を緩和するために、同一の人間の動きから両方の流れが生じるという事実を利用して、新しい流れコヒーレンス損失を導入する。 社内のイベントベースの3Dヒューマンデータセットがキュレーションされ、3Dのポーズと形状のアノテーションが提供される。 DHP19データセットと社内データセットの実証評価により,本手法の有効性が示された。

Event camera is an emerging imaging sensor for capturing dynamics of moving objects as events, which motivates our work in estimating 3D human pose and shape from the event signals. Events, on the other hand, have their unique challenges: rather than capturing static body postures, the event signals are best at capturing local motions. This leads us to propose a two-stage deep learning approach, called EventHPE. The first-stage, FlowNet, is trained by unsupervised learning to infer optical flow from events. Both events and optical flow are closely related to human body dynamics, which are fed as input to the ShapeNet in the second stage, to estimate 3D human shapes. To mitigate the discrepancy between image-based flow (optical flow) and shape-based flow (vertices movement of human body shape), a novel flow coherence loss is introduced by exploiting the fact that both flows are originated from the identical human motion. An in-house event-based 3D human dataset is curated that comes with 3D pose and shape annotations, which is by far the largest one to our knowledge. Empirical evaluations on DHP19 dataset and our in-house dataset demonstrate the effectiveness of our approach.
翻訳日:2021-08-17 15:06:28 公開日:2021-08-15
# 単一偏光画像からの人間のポーズと形状推定

Human Pose and Shape Estimation from Single Polarization Images ( http://arxiv.org/abs/2108.06834v1 )

ライセンス: Link先を確認
Shihao Zou, Xinxin Zuo, Sen Wang, Yiming Qian, Chuan Guo, Wei Ji, Jingjing Li, Minglun Gong, Li Cheng(参考訳) 本稿では,単一偏光画像から人間のポーズと形状を推定する新しい問題に着目する。 偏光カメラは、物体表面のリッチな幾何学的手がかりを保存する反射光の偏光を捉えることができることが知られている。 本稿では,偏光画像からの表面正規化の最近の応用に触発されて,偏光による幾何学的手がかりを利用して,単偏光画像から人間のポーズと形状を推定する。 単一偏光画像が与えられた場合、第1ステージ(Polar2Normal)は細かな人体表面の正常な推定に焦点を合わせ、第2ステージ(Polar2Shape)は偏光画像と推定表面の正常な推定から布状人の形状を再構築する。 このアプローチを実証的に検証するために,500Kフレームを超える正確なポーズと形状アノテーションを備えた専用データセット(PHSPD)を構築した。 この実世界のデータセットと合成データセットであるsurrealに対する実証的な評価は、このアプローチの有効性を示しています。 偏光カメラは、人間のポーズと形状を推定するための従来のRGBカメラに代わる有望な選択肢として提案されている。

This paper focuses on a new problem of estimating human pose and shape from single polarization images. Polarization camera is known to be able to capture the polarization of reflected lights that preserves rich geometric cues of an object surface. Inspired by the recent applications in surface normal reconstruction from polarization images, in this paper, we attempt to estimate human pose and shape from single polarization images by leveraging the polarization-induced geometric cues. A dedicated two-stage pipeline is proposed: given a single polarization image, stage one (Polar2Normal) focuses on the fine detailed human body surface normal estimation; stage two (Polar2Shape) then reconstructs clothed human shape from the polarization image and the estimated surface normal. To empirically validate our approach, a dedicated dataset (PHSPD) is constructed, consisting of over 500K frames with accurate pose and shape annotations. Empirical evaluations on this real-world dataset as well as a synthetic dataset, SURREAL, demonstrate the effectiveness of our approach. It suggests polarization camera as a promising alternative to the more conventional RGB camera for human pose and shape estimation.
翻訳日:2021-08-17 15:06:09 公開日:2021-08-15
# HiTab: 質問応答と自然言語生成のための階層テーブルデータセット

HiTab: A Hierarchical Table Dataset for Question Answering and Natural Language Generation ( http://arxiv.org/abs/2108.06712v1 )

ライセンス: Link先を確認
Zhoujun Cheng, Haoyu Dong, Zhiruo Wang, Ran Jia, Jiaqi Guo, Yan Gao, Shi Han, Jian-Guang Lou, Dongmei Zhang(参考訳) 表はしばしば階層で作成されるが、テーブル推論に関する既存の研究は主に平らなテーブルに焦点を当て、階層的なテーブルを無視している。 階層テーブルは、計算と意味論の暗黙の関係と同様に、階層的な索引付けによって既存の手法に挑戦する。 この研究は、階層テーブル上で質問応答(QA)と自然言語生成(NLG)を研究する研究コミュニティのための、自由でオープンなデータセットであるHiTabを提示する。 HiTabは、多くの統計レポートとウィキペディアページから構築されたクロスドメインデータセットであり、(1)ほぼすべてのテーブルが階層的であり、(2)NLGのターゲット文とQAの問合せは、有意義で多様である統計レポートの高品質な記述から修正される。 (3) HiTabはエンティティと量アライメントの両方にきめ細かいアノテーションを提供します。 階層構造を対象とし,テーブル上の記号推論のための新しい階層認識論理形式を考案し,高い有効性を示す。 次に、エンティティと量アライメントのアノテーションを与えられた場合、モデルがqaタスクのスプリアス予測を大幅に削減する部分的な教師付きトレーニングを提案する。 NLGタスクでは、実測値と量アライメントは、条件付き生成設定において、NLGモデルがより良い結果を生成するのに役立つ。 最先端のベースラインの実験結果は、このデータセットが将来の研究にとって大きな課題であり、価値のあるベンチマークであることを示唆している。

Tables are often created with hierarchies, but existing works on table reasoning mainly focus on flat tables and neglect hierarchical tables. Hierarchical tables challenge existing methods by hierarchical indexing, as well as implicit relationships of calculation and semantics. This work presents HiTab, a free and open dataset for the research community to study question answering (QA) and natural language generation (NLG) over hierarchical tables. HiTab is a cross-domain dataset constructed from a wealth of statistical reports and Wikipedia pages, and has unique characteristics: (1) nearly all tables are hierarchical, and (2) both target sentences for NLG and questions for QA are revised from high-quality descriptions in statistical reports that are meaningful and diverse. (3) HiTab provides fine-grained annotations on both entity and quantity alignment. Targeting hierarchical structure, we devise a novel hierarchy-aware logical form for symbolic reasoning over tables, which shows high effectiveness. Then given annotations of entity and quantity alignment, we propose partially supervised training, which helps models to largely reduce spurious predictions in the QA task. In the NLG task, we find that entity and quantity alignment also helps NLG models to generate better results in a conditional generation setting. Experiment results of state-of-the-art baselines suggest that this dataset presents a strong challenge and a valuable benchmark for future research.
翻訳日:2021-08-17 14:57:07 公開日:2021-08-15
# マルチビュークラスタリングのための効率的かつ効率的なグラフ学習

Effective and Efficient Graph Learning for Multi-view Clustering ( http://arxiv.org/abs/2108.06734v1 )

ライセンス: Link先を確認
Quanxue Gao, Wei Xia, Xinbo Gao, Dacheng Tao(参考訳) データとクラスタ構造の両方を特徴付けるのに優れたクラスタリング性能と効率にもかかわらず、既存のグラフベースのマルチビュークラスタリング手法には、次のような欠点がある。 グラフの構築とラプラシア行列の固有分解の両方により、コストのかかる時間的負担に悩まされ、大規模データのクラスタ構造を探索できなかった。 さらに、最終的なクラスタリングを得るためには、後処理が必要である。 さらに、学習されたビュー・コンセンサスグラフのランクは、目標ランクを近似することはできない。 本稿では,両部グラフからインスピレーションを得て,マルチビュークラスタリングのための効率的かつ効率的なグラフ学習モデルを提案する。 具体的には,異なるビューのグラフに埋め込まれた空間構造と補完情報の両方を特徴付けるテンソルシャッテンpノルムの最小化により,異なるビューのグラフ間のビュー類似性を利用する。 我々は、接続されたコンポーネントがクラスタを直接示すように、適応的に重み付けされた戦略と接続制約を持つビューコンセンサスグラフを学習する。 提案手法は時間経済的であり,データサイズに応じて安定した結果とスケールが得られる。 実験結果から,本手法は最先端手法よりも優れていることが示唆された。

Despite the impressive clustering performance and efficiency in characterizing both the relationship between data and cluster structure, existing graph-based multi-view clustering methods still have the following drawbacks. They suffer from the expensive time burden due to both the construction of graphs and eigen-decomposition of Laplacian matrix, and fail to explore the cluster structure of large-scale data. Moreover, they require a post-processing to get the final clustering, resulting in suboptimal performance. Furthermore, rank of the learned view-consensus graph cannot approximate the target rank. In this paper, drawing the inspiration from the bipartite graph, we propose an effective and efficient graph learning model for multi-view clustering. Specifically, our method exploits the view-similar between graphs of different views by the minimization of tensor Schatten p-norm, which well characterizes both the spatial structure and complementary information embedded in graphs of different views. We learn view-consensus graph with adaptively weighted strategy and connectivity constraint such that the connected components indicates clusters directly. Our proposed algorithm is time-economical and obtains the stable results and scales well with the data size. Extensive experimental results indicate that our method is superior to state-of-the-art methods.
翻訳日:2021-08-17 14:54:46 公開日:2021-08-15
# リプレイに基づく継続的学習手法の検討

An Investigation of Replay-based Approaches for Continual Learning ( http://arxiv.org/abs/2108.06758v1 )

ライセンス: Link先を確認
Benedikt Bagus and Alexander Gepperth(参考訳) 連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的な忘れ物(CF)なしで連続的に複数のタスクを学習する能力を記述する。 最近の研究は、CLが複雑なトピックであることを示している。 いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望である。 このようなアプローチは、後の処理のために、過去のサンプルのサブセットを専用メモリに格納する。 本稿では,連続学習のリプレイに基づくアプローチを実証的に検討し,その応用可能性を評価する。 選択された最近のアプローチと独自の提案は、共通のベンチマークで比較され、特に異なるサンプル選択戦略のパフォーマンスを評価することに焦点が当てられている。 少数のサンプルが保存されると,サンプル選択の影響が増加することが判明した。 それにもかかわらず、パフォーマンスは異なるリプレイアプローチの間で大きく異なる。 驚いたことに、ここで提案する最もナイーブなリハーサルベースのアプローチは、最新の最先端メソッドを上回ることができる。

Continual learning (CL) is a major challenge of machine learning (ML) and describes the ability to learn several tasks sequentially without catastrophic forgetting (CF). Recent works indicate that CL is a complex topic, even more so when real-world scenarios with multiple constraints are involved. Several solution classes have been proposed, of which so-called replay-based approaches seem very promising due to their simplicity and robustness. Such approaches store a subset of past samples in a dedicated memory for later processing: while this does not solve all problems, good results have been obtained. In this article, we empirically investigate replay-based approaches of continual learning and assess their potential for applications. Selected recent approaches as well as own proposals are compared on a common set of benchmarks, with a particular focus on assessing the performance of different sample selection strategies. We find that the impact of sample selection increases when a smaller number of samples is stored. Nevertheless, performance varies strongly between different replay approaches. Surprisingly, we find that the most naive rehearsal-based approaches that we propose here can outperform recent state-of-the-art methods.
翻訳日:2021-08-17 14:54:27 公開日:2021-08-15
# bregman近位点アルゴリズムの暗黙的正則化と分離可能データによるミラー降下

Implicit Regularization of Bregman Proximal Point Algorithm and Mirror Descent on Separable Data ( http://arxiv.org/abs/2108.06808v1 )

ライセンス: Link先を確認
Yan Li, Caleb Ju, Ethan X. Fang, Tuo Zhao(参考訳) bregman proximal point algorithm (bppa) は最適化ツールボックスの中心的要素の一つであり、新しいアプリケーションを見てきた。 シンプルで実装が容易なアップデートルールでは、このアルゴリズムには経験的成功に対する説得力のある直観がいくつかあるが、厳格な正当化はいまだにほとんど解明されていない。 BPPAの計算特性について,分離可能なデータを用いた分類タスクを用いて検討し,BPPAに関連するアルゴリズム正則化効果を示す。 BPPAはBregman分散を誘導する距離生成関数の条件数に密接に依存する非自明なマージンを持つことを示す。 さらに, 条件数依存性が問題の種類に密着していることを示し, 得られた解の質に影響を与えるため, 発散の重要性を示した。 さらに,鏡面下降 (mirror descend, md) にも知見を拡張し,マージンとブレグマンの発散との類似性を確立した。 我々は,具体的な例を通して,BPPA/MDがマハラノビス距離に対して最大辺解に収束することを示す。 我々の理論的な知見は、BPPA/MDの良性学習特性を初めて証明し、アルゴリズム設計における相違点の選択を慎重に行うためのコロンボレーションを提供するものである。

Bregman proximal point algorithm (BPPA), as one of the centerpieces in the optimization toolbox, has been witnessing emerging applications. With simple and easy to implement update rule, the algorithm bears several compelling intuitions for empirical successes, yet rigorous justifications are still largely unexplored. We study the computational properties of BPPA through classification tasks with separable data, and demonstrate provable algorithmic regularization effects associated with BPPA. We show that BPPA attains non-trivial margin, which closely depends on the condition number of the distance generating function inducing the Bregman divergence. We further demonstrate that the dependence on the condition number is tight for a class of problems, thus showing the importance of divergence in affecting the quality of the obtained solutions. In addition, we extend our findings to mirror descent (MD), for which we establish similar connections between the margin and Bregman divergence. We demonstrate through a concrete example, and show BPPA/MD converges in direction to the maximal margin solution with respect to the Mahalanobis distance. Our theoretical findings are among the first to demonstrate the benign learning properties BPPA/MD, and also provide corroborations for a careful choice of divergence in the algorithmic design.
翻訳日:2021-08-17 14:54:10 公開日:2021-08-15
# ゼロショット分類のための視覚的説明可能なアクティブラーニングに向けて

Towards Visual Explainable Active Learning for Zero-Shot Classification ( http://arxiv.org/abs/2108.06730v1 )

ライセンス: Link先を確認
Shichao Jia, Zeyu Li, Nuo Chen, Jiawan Zhang(参考訳) ゼロショット分類は、トレーニングクラスとテストクラスが分離されたときに適用可能な問題を解決するための有望なパラダイムである。 これを達成するには、どのクラスにどの属性があるかを定義するために、手動でクラス属性マトリックスを指定することで、ドメインの知識を外部化する専門家が必要です。 適切なクラス属性マトリックスを設計することは、その後の手順の鍵であるが、この設計プロセスは退屈で試行錯誤であり、ガイダンスがない。 本稿では,上記の課題を解決するために,セマンティックナビゲータと呼ばれる設計と実装を用いて,視覚的に説明可能なアクティブラーニング手法を提案する。 このアプローチは、インタラクションループ毎に4つのアクション(ask、説明、推奨、応答)で人間とAIのコラボレーションを促進する。 この機械は、人間に属性の思考過程を導くために、対照的な質問をする。 セマンティックマップと呼ばれる新しい視覚化は、マシンの現状を説明する。 したがって、なぜ機械がオブジェクトを誤分類するのかをよりよく理解することができる。 さらに、マシンは各属性に対するクラスのラベルを推奨し、ラベリングの負担を軽減する。 最後に、人間はラベルを対話的に変更してモデルを制御し、マシンはそのレコメンデーションを調整する。 視覚的説明可能なアクティブラーニングアプローチは、ガイダンスのない手法と比較して、ゼロショット分類モデルを対話的に構築する効率を向上する。 ゼロショット分類のための標準ベンチマークを用いたユーザスタディで結果を正当化する。

Zero-shot classification is a promising paradigm to solve an applicable problem when the training classes and test classes are disjoint. Achieving this usually needs experts to externalize their domain knowledge by manually specifying a class-attribute matrix to define which classes have which attributes. Designing a suitable class-attribute matrix is the key to the subsequent procedure, but this design process is tedious and trial-and-error with no guidance. This paper proposes a visual explainable active learning approach with its design and implementation called semantic navigator to solve the above problems. This approach promotes human-AI teaming with four actions (ask, explain, recommend, respond) in each interaction loop. The machine asks contrastive questions to guide humans in the thinking process of attributes. A novel visualization called semantic map explains the current status of the machine. Therefore analysts can better understand why the machine misclassifies objects. Moreover, the machine recommends the labels of classes for each attribute to ease the labeling burden. Finally, humans can steer the model by modifying the labels interactively, and the machine adjusts its recommendations. The visual explainable active learning approach improves humans' efficiency of building zero-shot classification models interactively, compared with the method without guidance. We justify our results with user studies using the standard benchmarks for zero-shot classification.
翻訳日:2021-08-17 14:50:36 公開日:2021-08-15
# 自動車ライクロボットの軌道計画のためのヒューリスティックサンプリングによるGRIPSの拡張

Augmenting GRIPS with Heuristic Sampling for Planning Feasible Trajectories of a Car-Like Robot ( http://arxiv.org/abs/2108.06789v1 )

ライセンス: Link先を確認
Brian Angulo, Konstantin Yakovlev, Ivan Radionov(参考訳) 非ホロモニックな移動ロボットの運動計画は、普遍的な解決法が欠如している難題である。 計算効率の良い解法の一つは、まず幾何学的経路を構築し、次にこの経路をキネマティックに実現可能な経路に変換することである。 Gradient-informed Path Smoothing (GRIPS) は近年導入された変換手法である。 GRIPSは経路を反復的に変形し、それらの連続するペアを、キネマティック制約を尊重する提供されたステアリング関数を介して接続し、ウェイポイントを追加/削除する。 アルゴリズムは比較的高速だが、残念ながら、成功する保証は提供していない。 実際には、回転半径が大きい車のようなロボットに対して実現可能な軌道を作るのに失敗することが多い。 本研究では,カーライクロボットにおけるGRIPSの成功率の向上を目的とした,様々な改良を行った。 主な強化は、幾何学的経路のボトルネック部分(シャープ・ターンなど)に沿って経路ポイントをヒューリスティックにサンプリングする追加ステップを追加することである。 実験評価の結果,提案アルゴリズムの成功率は,従来のグリップよりも最大40%高く,90%のバーに到達したのに対し,ランタイムは低いという明確な証拠が得られた。

Kinodynamic motion planning for non-holomonic mobile robots is a challenging problem that is lacking a universal solution. One of the computationally efficient ways to solve it is to build a geometric path first and then transform this path into a kinematically feasible one. Gradient-informed Path Smoothing (GRIPS) is a recently introduced method for such transformation. GRIPS iteratively deforms the path and adds/deletes the waypoints while trying to connect each consecutive pair of them via the provided steering function that respects the kinematic constraints. The algorithm is relatively fast but, unfortunately, does not provide any guarantees that it will succeed. In practice, it often fails to produce feasible trajectories for car-like robots with large turning radius. In this work, we introduce a range of modifications that are aimed at increasing the success rate of GRIPS for car-like robots. The main enhancement is adding the additional step that heuristically samples waypoints along the bottleneck parts of the geometric paths (such as sharp turns). The results of the experimental evaluation provide a clear evidence that the success rate of the suggested algorithm is up to 40% higher compared to the original GRIPS and hits the bar of 90%, while its runtime is lower.
翻訳日:2021-08-17 14:50:15 公開日:2021-08-15
# 画像から学ぶ:並列畳み込みニューラルネットワークによる能動的キャッシング

Learning from Images: Proactive Caching with Parallel Convolutional Neural Networks ( http://arxiv.org/abs/2108.06817v1 )

ライセンス: Link先を確認
Yantong Wang, Ye Hu, Zhaohui Yang, Walid Saad, Kai-Kit Wong, Vasilis Friderikos(参考訳) データ爆発の連続的なトレンドにより、データサーバからエンドユーザへのパケット配信は、モバイルネットワークのフロントホールとバックホールの両方のトラフィックのストレスを増大させる。 この問題を軽減するために,ネットワークの混雑を低減し,ユーザエクスペリエンスを向上させる効果的な方法として,エンドユーザーに近い人気コンテンツをキャッシュする手法が登場した。 コンテンツキャッシングの最適な場所を見つけるために、多くの従来の手法が様々な混合整数線形プログラミング(MILP)モデルを構築している。 しかし、このような手法は、次元性の固有の呪いのため、オンライン意思決定をサポートしない可能性がある。 本稿では,アクティブキャッシュのための新しいフレームワークを提案する。 このフレームワークは、最適化問題をグレースケールの画像に変換することで、モデルベースの最適化とデータ駆動技術を統合する。 並列トレーニングとシンプルな設計のために、提案したMILPモデルは、まず複数のサブプロブレムに分解され、その後、畳み込みニューラルネットワーク(CNN)がこれらのサブプロブレムのコンテンツキャッシング位置を予測するように訓練される。 さらに、MILPモデルの分解はサブプロブレムの内部効果を無視しているため、CNNの出力は実現不可能な解決策となるリスクがある。 そのため、第1のアルゴリズムはCNNからの予測を余分な制約として使用し、第2のアルゴリズムはローカル検索を高速化するためにCNNの出力を使用する。 数値計算の結果,提案手法は,リアルタイムに高品質な意思決定を提供するmilpソリューションと比較して,計算時間を71.6%削減し,パフォーマンスコストをわずか0.8%増やすことが判明した。

With the continuous trend of data explosion, delivering packets from data servers to end users causes increased stress on both the fronthaul and backhaul traffic of mobile networks. To mitigate this problem, caching popular content closer to the end-users has emerged as an effective method for reducing network congestion and improving user experience. To find the optimal locations for content caching, many conventional approaches construct various mixed integer linear programming (MILP) models. However, such methods may fail to support online decision making due to the inherent curse of dimensionality. In this paper, a novel framework for proactive caching is proposed. This framework merges model-based optimization with data-driven techniques by transforming an optimization problem into a grayscale image. For parallel training and simple design purposes, the proposed MILP model is first decomposed into a number of sub-problems and, then, convolutional neural networks (CNNs) are trained to predict content caching locations of these sub-problems. Furthermore, since the MILP model decomposition neglects the internal effects among sub-problems, the CNNs' outputs have the risk to be infeasible solutions. Therefore, two algorithms are provided: the first uses predictions from CNNs as an extra constraint to reduce the number of decision variables; the second employs CNNs' outputs to accelerate local search. Numerical results show that the proposed scheme can reduce 71.6% computation time with only 0.8% additional performance cost compared to the MILP solution, which provides high quality decision making in real-time.
翻訳日:2021-08-17 14:49:56 公開日:2021-08-15
# 近距離IDアルゴリズム

The Proximal ID Algorithm ( http://arxiv.org/abs/2108.06818v1 )

ライセンス: Link先を確認
Ilya Shpitser and Zach Wood-Doughty and Eric J. Tchetgen Tchetgen(参考訳) 観測データから有効な因果結論を確立するための基本的な障害である。 この障害に対処する2つの補完的なアプローチが開発されている。 幅広い研究の行は、(機器変数や他のプロキシの存在のような)偽装的な外部援助の利点と、識別を保証するための追加の仮定に基づいている。 近位因果推論(Miao et al., 2018a)の最近の研究は、厳密なパラメトリック仮定に頼らずに、プロキシを使って観測不能な推論に対処する新しいアプローチを提供することを目的としている。 一方,隠れ変数を持つ任意の因果モデルにおいて,多種多様な因果パラメータの同定可能性の完全な特徴付けがグラフィカルモデルの言語を用いて開発され,idアルゴリズムと関連する拡張 (tian and pearl, 2002; shpitser and pearl, 2006a,b) が実現されている。 このアプローチの有名な特別なケース、例えばフロントドアモデルは、治療と結果が任意に複雑で観察できない共通の原因を共有するとき、一見直観に反する状況でノンパラメトリックな識別を得ることができる。 本稿では,現在知られている多変量系における最も一般的な識別アルゴリズムである近位idアルゴリズムを導出するために,因果推論における識別に対する近位およびグラフィカルなアプローチの合成法を開発することを目的とする。 提案手法では,IDアルゴリズムが成功するすべてのケースにおいて,非パラメトリックな識別が可能であることに加えて,本手法ではプロキシを体系的に利用して,発見を防止した未観測の共同創設者の存在を調整できる。 また,提案手法によって同定された因果パラメータに対する推定戦略のクラスを,特に重要なケースで概説する。 我々はシミュレーションによるアプローチを例示する。

Unobserved confounding is a fundamental obstacle to establishing valid causal conclusions from observational data. Two complementary types of approaches have been developed to address this obstacle. An extensive line of work is based on taking advantage of fortuitous external aids (such as the presence of an instrumental variable or other proxy), along with additional assumptions to ensure identification. A recent line of work of proximal causal inference (Miao et al., 2018a) has aimed to provide a novel approach to using proxies to deal with unobserved confounding without relying on stringent parametric assumptions. On the other hand, a complete characterization of identifiability of a large class of causal parameters in arbitrary causal models with hidden variables has been developed using the language of graphical models, resulting in the ID algorithm and related extensions (Tian and Pearl, 2002; Shpitser and Pearl, 2006a,b). Celebrated special cases of this approach, such as the front-door model, are able to obtain non-parametric identification in seemingly counter-intuitive situations when a treatment and an outcome share an arbitrarily complicated unobserved common cause. In this paper we aim to develop a synthesis of the proximal and graphical approaches to identification in causal inference to yield the most general identification algorithm in multi- variate systems currently known - the proximal ID algorithm. In addition to being able to obtain non-parametric identification in all cases where the ID algorithm succeeds, our approach allows us to systematically exploit proxies to adjust for the presence of unobserved confounders that would have otherwise prevented identification. In addition, we outline a class of estimation strategies for causal parameters identified by our method in an important special case. We illustration our approach by simulation studies.
翻訳日:2021-08-17 14:49:27 公開日:2021-08-15
# 前向きソナーセマンティックセグメンテーションのための海洋デブリデータセット

The Marine Debris Dataset for Forward-Looking Sonar Semantic Segmentation ( http://arxiv.org/abs/2108.06800v1 )

ライセンス: Link先を確認
Deepak Singh and Matias Valdenegro-Toro(参考訳) 海洋破片の正確な検出とセグメンテーションは、水域をきれいに保つために重要である。 本稿では,FLS (Forward Looking Sonar) を用いて収集した海洋破片のセグメンテーションのための新しいデータセットを提案する。 データセットは、ARISエクスプローラー3000センサーで撮影された1868個のFLS画像で構成されている。 このデータセットを作成するために使用されるオブジェクトは、典型的な住宅用海洋破片と、散逸した海洋物(タイヤ、フック、バルブ、etc)を含み、11のクラスと背景クラスに分けられる。 各種エンコーダを用いたアートセマンティックセグメンテーションアーキテクチャの性能をこのデータセットで解析し,ベースライン結果として提示した。 画像はグレースケールであるため、事前訓練された重量は使用されていない。 比較はIntersection over Union (IoU)を用いて行われる。 最高のパフォーマンスモデルは、0.7481 mIoUのResNet34バックボーンを持つUnetである。 データセットはhttps://github.com/m valdenegro/marine-de bris-fls-datasets/で利用可能である。

Accurate detection and segmentation of marine debris is important for keeping the water bodies clean. This paper presents a novel dataset for marine debris segmentation collected using a Forward Looking Sonar (FLS). The dataset consists of 1868 FLS images captured using ARIS Explorer 3000 sensor. The objects used to produce this dataset contain typical house-hold marine debris and distractor marine objects (tires, hooks, valves,etc), divided in 11 classes plus a background class. Performance of state of the art semantic segmentation architectures with a variety of encoders have been analyzed on this dataset and presented as baseline results. Since the images are grayscale, no pretrained weights have been used. Comparisons are made using Intersection over Union (IoU). The best performing model is Unet with ResNet34 backbone at 0.7481 mIoU. The dataset is available at https://github.com/m valdenegro/marine-de bris-fls-datasets/
翻訳日:2021-08-17 14:48:26 公開日:2021-08-15
# 家庭用電池による変電所制約管理のための2層近接最適戦略

A Two-Layer Near-Optimal Strategy for Substation Constraint Management via Home Batteries ( http://arxiv.org/abs/2108.06735v1 )

ライセンス: Link先を確認
Igor Melatti, Federico Mari, Toni Mancini, Milan Prodanovic, Enrico Tronci(参考訳) 電気配電網では、住宅利用者からの電力需要の集約は適切な範囲に抑えられなければならない。 サブステーション制約管理の効率は、制約違反w.r.tの低減として測定できる。 無管理の要求だ ホームバッテリは、効率的な、そして、ユーザによる制約管理を可能にするという約束を持っている。 家庭用バッテリーの集中制御は最適な効率を実現するだろう。 しかし、サービス提供者(ユーティリティやアグリゲータなど)がユーザー・前提で直接バッテリーを制御できるため、ユーザーにとってほとんど受け入れられない。 残念ながら、上記の問題を克服する効率的な階層制御戦略を考案するのは容易ではない。 本稿では,サービス提供者による家電機器の直接制御を回避し,ほぼ最適の変電所制約管理効率を生ずる家庭用電池の2層制御戦略を提案する。 デンマークの62世帯のフィールドデータを用いたシミュレーションの結果, 提案手法により達成されたサブステーション制約管理効率は, 理論的最適集中戦略により得られた世帯の82%以上であることがわかった。

Within electrical distribution networks, substation constraints management requires that aggregated power demand from residential users is kept within suitable bounds. Efficiency of substation constraints management can be measured as the reduction of constraints violations w.r.t. unmanaged demand. Home batteries hold the promise of enabling efficient and user-oblivious substation constraints management. Centralized control of home batteries would achieve optimal efficiency. However, it is hardly acceptable by users, since service providers (e.g., utilities or aggregators) would directly control batteries at user premises. Unfortunately, devising efficient hierarchical control strategies, thus overcoming the above problem, is far from easy. We present a novel two-layer control strategy for home batteries that avoids direct control of home devices by the service provider and at the same time yields near-optimal substation constraints management efficiency. Our simulation results on field data from 62 households in Denmark show that the substation constraints management efficiency achieved with our approach is at least 82% of the one obtained with a theoretical optimal centralized strategy.
翻訳日:2021-08-17 14:47:26 公開日:2021-08-15
# 迅速かつ高精度なコミュニティ検出のためのトポロジー誘導サンプリング

Topology-Guided Sampling for Fast and Accurate Community Detection ( http://arxiv.org/abs/2108.06651v1 )

ライセンス: Link先を確認
Frank Wanye, Vitaliy Gleyzer, Edward Kao, Wu-chun Feng(参考訳) コミュニティ検出は、コンピュータネットワークからバイオインフォマティクスまで幅広い分野のアプリケーションでよく研究されている問題である。 コミュニティ検出を行うアルゴリズムは数多く存在するが、より正確で統計的に堅牢なアルゴリズムは遅く、並列化が難しい傾向がある。 このようなアルゴリズムを高速化する方法の1つは、データ削減である。 しかし、このアプローチは十分に研究されておらず、このアプローチで得られた結果の質は、適用するグラフによって異なる。 本稿では,複雑で異種なコミュニティ構造を持つグラフ上でうまく機能するコミュニティ検出アルゴリズムである,確率的ブロック分割を高速化するためのトポロジー誘導サンプリングに基づくアプローチを提案する。 また、高速化を犠牲にして、我々のアプローチの有効性を向上させるための学位ベースのしきい値設定手法も導入する。 最後に, 合成グラフに対する一連の実験を行い, 様々なグラフパラメータが結果の質にどのように影響するかを検証し, 実世界のデータに対するアプローチを検証した。 以上の結果から,我々のアプローチは,確率的ブロック分割よりも最大15倍の高速化につながり,また,特定のグラフ上のf1スコアの点において,結果品質が150%以上向上する可能性が示唆された。

Community detection is a well-studied problem with applications in domains ranging from computer networking to bioinformatics. While there are many algorithms that perform community detection, the more accurate and statistically robust algorithms tend to be slow and hard to parallelize. One way to speed up such algorithms is through data reduction. However, this approach has not been thoroughly studied, and the quality of results obtained with this approach varies with the graph it is applied to. In this manuscript, we present an approach based on topology-guided sampling for accelerating stochastic block partitioning - a community detection algorithm that works well on graphs with complex and heterogeneous community structure. We also introduce a degree-based thresholding scheme that improves the efficacy of our approach at the expense of speedup. Finally, we perform a series of experiments on synthetically generated graphs to determine how various graph parameters affect the quality of results and speedup obtained with our approach, and we validate our approach on real-world data. Our results show that our approach can lead to a speedup of up to 15X over stochastic block partitioning without sampling while maintaining result quality and can even lead to improvements of over 150% in result quality in terms of F1 score on certain kinds of graphs.
翻訳日:2021-08-17 14:46:15 公開日:2021-08-15
# フェデレーションID管理のための参照サービスモデル

Reference Service Model for Federated Identity Management ( http://arxiv.org/abs/2108.06701v1 )

ライセンス: Link先を確認
Daniela P\"ohn and Peter Hillmann(参考訳) 新型コロナウイルス(COVID-19)のパンデミックにより、世界中の人々が在宅勤務が増えている。 各自然人は通常、異なる関連情報を持つ複数のデジタルIDを持つ。 過去数年間、さまざまなアイデンティティとアクセス管理アプローチが注目され、例えば、信頼の境界内で他の組織のサービスにアクセスするのに役立った。 結果として生じる異質性は、これらのアプローチとシナリオを参加エンティティとして区別する上で、高い複雑さを生み出します。 最後に重要なのは、さまざまなアクターがこの文脈で、"サービス"のような用語の理解や視点が異なることです。 本稿では,一般的なフェデレーションid管理における標準コンポーネントを用いた参照サービスについて述べる。 これはarchimateフレームワークを使用して、モダンなエンタープライズアーキテクチャで利用される。 提案するユニバーサルフェデレーションid管理サービスモデル(fimsm)は、さまざまなフェデレーションid管理シナリオを汎用的なサービス指向方法で記述するために適用される。 提案した参照設計は複数の面で承認されており、多くのシナリオで容易に適用できる。

With the pandemic of COVID-19, people around the world increasingly work from home. Each natural person typically has several digital identities with different associated information. During the last years, various identity and access management approaches have gained attraction, helping for example to access other organization's services within trust boundaries. The resulting heterogeneity creates a high complexity to differentiate between these approaches and scenarios as participating entity; combining them is even harder. Last but not least, various actors have a different understanding or perspective of the terms, like 'service', in this context. Our paper describes a reference service with standard components in generic federated identity management. This is utilized with modern Enterprise Architecture using the framework ArchiMate. The proposed universal federated identity management service model (FIMSM) is applied to describe various federated identity management scenarios in a generic service-oriented way. The presented reference design is approved in multiple aspects and is easily applicable in numerous scenarios.
翻訳日:2021-08-17 14:44:25 公開日:2021-08-15
# 自動強化学習に基づくマルチ周期予測を用いた分離マイクログリッドの最適スケジューリング

Optimal Scheduling of Isolated Microgrids Using Automated Reinforcement Learning-based Multi-period Forecasting ( http://arxiv.org/abs/2108.06764v1 )

ライセンス: Link先を確認
Yang Li, Ruinong Wang, Zhen Yang(参考訳) マイクログリッド運転における負荷の不確実性および再生エネルギー出力の負の影響を低減するため, 自動強化学習による再生電力生成と負荷の多周期予測を用いて, マイクログリッドの最適スケジューリングモデルを提案する。 Firstly, a prioritized experience replay automated reinforcement learning (PER-AutoRL) is designed to simplify the deployment of deep reinforcement learning (DRL)-based forecasting model in a customized manner, the single-step multi-period forecasting method based on PER-AutoRL is proposed for the first time to address the error accumulation issue suffered by existing multi-step forecasting methods, then the prediction values obtained by the proposed forecasting method are revised via the error distribution to improve the prediction accuracy; secondly, a scheduling model considering demand response is constructed to minimize the total microgrid operating costs, where the revised forecasting values are used as the dispatch basis, and a spinning reserve chance constraint is set according to the error distribution; finally, by transforming the original scheduling model into a readily solvable mixed integer linear programming via the sequence operation theory (SOT), the transformed model is solved by using CPLEX solver. シミュレーションの結果,予測のない従来のスケジューリングモデルと比較して,予測精度を向上してシステム運用コストを大幅に削減できることが示唆された。

In order to reduce the negative impact of the uncertainty of load and renewable energies outputs on microgrid operation, an optimal scheduling model is proposed for isolated microgrids by using automated reinforcement learning-based multi-period forecasting of renewable power generations and loads. Firstly, a prioritized experience replay automated reinforcement learning (PER-AutoRL) is designed to simplify the deployment of deep reinforcement learning (DRL)-based forecasting model in a customized manner, the single-step multi-period forecasting method based on PER-AutoRL is proposed for the first time to address the error accumulation issue suffered by existing multi-step forecasting methods, then the prediction values obtained by the proposed forecasting method are revised via the error distribution to improve the prediction accuracy; secondly, a scheduling model considering demand response is constructed to minimize the total microgrid operating costs, where the revised forecasting values are used as the dispatch basis, and a spinning reserve chance constraint is set according to the error distribution; finally, by transforming the original scheduling model into a readily solvable mixed integer linear programming via the sequence operation theory (SOT), the transformed model is solved by using CPLEX solver. The simulation results show that compared with the traditional scheduling model without forecasting, this approach manages to significantly reduce the system operating costs by improving the prediction accuracy.
翻訳日:2021-08-17 14:43:33 公開日:2021-08-15
# 生成課題:精度評価共有課題の結果

Generation Challenges: Results of the Accuracy Evaluation Shared Task ( http://arxiv.org/abs/2108.05644v2 )

ライセンス: Link先を確認
Craig Thomson and Ehud Reiter(参考訳) スポーツレポートドメインにおいて,ニューラルなNLGシステムによって作成されたテキストの事実的正確性を評価する技術(手動と自動の両方)に焦点を当てた評価タスク。 4つのチームが、まったく異なるアプローチとテクニックを使用して、このタスクの評価手法を提出しました。 最高のパフォーマンスの応募は、この難しいタスクで励まされた。 しかし、すべての自動提出は、意味的または実用的複雑である事実的誤り(例えば、不正な計算や推論に基づく)を検出するのに苦労した。

The Shared Task on Evaluating Accuracy focused on techniques (both manual and automatic) for evaluating the factual accuracy of texts produced by neural NLG systems, in a sports-reporting domain. Four teams submitted evaluation techniques for this task, using very different approaches and techniques. The best-performing submissions did encouragingly well at this difficult task. However, all automatic submissions struggled to detect factual errors which are semantically or pragmatically complex (for example, based on incorrect computation or inference).
翻訳日:2021-08-17 10:50:38 公開日:2021-08-15