このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220102となっている論文です。

PDF登録状況(公開日: 20220102)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 短時間多言語多型回答の信頼性向上に向けて [全文訳有]

Towards Trustworthy AutoGrading of Short, Multi-lingual, Multi-type Answers ( http://arxiv.org/abs/2201.03425v1 )

ライセンス: CC BY 4.0
Johannes Schneider and Robin Richner and Micha Riser(参考訳) NLPの台頭やオンライン教育への移行に伴う質問応答ペアの増加により、短い文章による回答の自動化が実現可能になった。 オートグレーディングのパフォーマンスは、人間のグレーティングよりも劣っている。 最先端の機械学習モデルの統計的およびブラックボックスの性質は、それらを信頼できないものにし、倫理的懸念を高め、実用性を制限する。 さらに、オートグレーディングの評価は、通常、特定の質問タイプに対する小さな単言語データセットに限られる。 本研究は,数学や言語など多種多様な分野をカバーする複数の言語から約1000万の質問応答対からなる大規模データセットと,質問応答構文の強いバリエーションを用いた。 このような複雑なデータセットの自動分解における微調整変換器モデルの有効性を示す。 私たちの最高のハイパーパラメータチューニングモデルは、特定のタイプの質問、主題、言語に合わせてより一般的で調整された最先端モデルに匹敵する、約86.5\%の精度を与えます。 さらに重要なことは、信頼と倫理的な懸念に対処します。 自動採点プロセスに人間を関与させることで,自動採点結果の精度を向上させる方法を示し,指導助手と同等の精度を得る。 また,教師がシステムによるエラーの種類を効果的に制御し,個々の試験におけるオートグラファーのパフォーマンスが期待した性能に近いことを効果的に検証する方法を示す。

Autograding short textual answers has become much more feasible due to the rise of NLP and the increased availability of question-answer pairs brought about by a shift to online education. Autograding performance is still inferior to human grading. The statistical and black-box nature of state-of-the-art machine learning models makes them untrustworthy, raising ethical concerns and limiting their practical utility. Furthermore, the evaluation of autograding is typically confined to small, monolingual datasets for a specific question type. This study uses a large dataset consisting of about 10 million question-answer pairs from multiple languages covering diverse fields such as math and language, and strong variation in question and answer syntax. We demonstrate the effectiveness of fine-tuning transformer models for autograding for such complex datasets. Our best hyperparameter-tuned model yields an accuracy of about 86.5\%, comparable to the state-of-the-art models that are less general and more tuned to a specific type of question, subject, and language. More importantly, we address trust and ethical concerns. By involving humans in the autograding process, we show how to improve the accuracy of automatically graded answers, achieving accuracy equivalent to that of teaching assistants. We also show how teachers can effectively control the type of errors made by the system and how they can validate efficiently that the autograder's performance on individual exams is close to the expected performance.
翻訳日:2022-01-16 17:43:23 公開日:2022-01-02
# 人間ライクなコミュニケーション知性の構築--基盤的視点

Building Human-like Communicative Intelligence: A Grounded Perspective ( http://arxiv.org/abs/2201.02734v1 )

ライセンス: Link先を確認
Marina Dubova(参考訳) 現代の人工知能(AI)システムは、画像分類から戦略ゲームまで様々なタスクで優れており、これらの領域の多くで人間よりも優れています。 しかし、近年の言語学習の驚くべき進歩の後、AIシステムは人間のコミュニケーション能力の重要な側面を反映しない天井に近づいたようだ。 人間の学習者とは異なり、コミュニケーションaiシステムは、体系的に新しいデータへの一般化に失敗し、サンプル非効率に苦しめられ、常識的な意味知識を捉えられず、現実世界のコミュニケーション状況に翻訳されないことが多い。 Cognitive Scienceは、この点からAIがどのように前進するかについて、いくつかの洞察を提供する。 本稿の目的は,(1)ナチビストや象徴的パラダイムに基づく認知にインスパイアされたAI指導が,現代AIの進歩を導くために必要なサブストラテジや具体性を欠いていること,(2)エンボディード,エンベッドド,拡張,活動的認知(4E)研究にインスパイアされた,AIの進歩に対する「接地」的な視点を明示することである。 認知科学における4E研究の成果を概観し,人間の言語発達における因果的役割を担う自然主義的学習条件の主な側面を識別する。 言語知を構築するための具体的で実装可能なコンポーネントのリストを提案するために、この分析を使っています。 これらのコンポーネントには、知覚行動サイクルで機械を具現化し、エージェントに独自のカリキュラムを構築するための積極的な探索機構を装備し、エージェントが徐々に運動能力を発達させ、断片的な言語開発を促進し、物理的および社会的環境からの適応的なフィードバックでエージェントを内挿することが含まれる。 これらのアイデアが、世界との体験を通じて、人間に似た言語能力を開発するマシン構築に向けて、ai研究を指示できることを願っています。

Modern Artificial Intelligence (AI) systems excel at diverse tasks, from image classification to strategy games, even outperforming humans in many of these domains. After making astounding progress in language learning in the recent decade, AI systems, however, seem to approach the ceiling that does not reflect important aspects of human communicative capacities. Unlike human learners, communicative AI systems often fail to systematically generalize to new data, suffer from sample inefficiency, fail to capture common-sense semantic knowledge, and do not translate to real-world communicative situations. Cognitive Science offers several insights on how AI could move forward from this point. This paper aims to: (1) suggest that the dominant cognitively-inspired AI directions, based on nativist and symbolic paradigms, lack necessary substantiation and concreteness to guide progress in modern AI, and (2) articulate an alternative, "grounded", perspective on AI advancement, inspired by Embodied, Embedded, Extended, and Enactive Cognition (4E) research. I review results on 4E research lines in Cognitive Science to distinguish the main aspects of naturalistic learning conditions that play causal roles for human language development. I then use this analysis to propose a list of concrete, implementable components for building "grounded" linguistic intelligence. These components include embodying machines in a perception-action cycle, equipping agents with active exploration mechanisms so they can build their own curriculum, allowing agents to gradually develop motor abilities to promote piecemeal language development, and endowing the agents with adaptive feedback from their physical and social environment. I hope that these ideas can direct AI research towards building machines that develop human-like language abilities through their experiences with the world.
翻訳日:2022-01-16 16:20:33 公開日:2022-01-02
# 階層グラフ側情報を用いた行列補完

Matrix Completion with Hierarchical Graph Side Information ( http://arxiv.org/abs/2201.01728v1 )

ライセンス: Link先を確認
Adel Elmahdy, Junhyung Ahn, Changho Suh, Soheil Mohajer(参考訳) ソーシャルやアイテムの類似性グラフをサイド情報として活用する行列補完問題を考える。 階層的グラフクラスタリングから始まり、グラフクラスタリングと行列評価の両方で見積を反復的に洗練する、普遍的でパラメータフリーで計算効率のよいアルゴリズムを開発した。 実有意なソーシャルグラフと低ランクの格付け行列モデル(詳細は)をよく尊重する階層的確率ブロックモデルの下で,本アルゴリズムが観測された行列エントリ数(すなわち最適サンプル複雑性)の情報理論的限界を達成し,その最大推定値と低バウンドな不定値結果の両方を導出することを示す。 この結果の1つの結果は、ソーシャルグラフの階層構造を利用すると、それらの間の関係構造に頼らずに、単に異なる群を識別するのに対して、サンプルの複雑さが大幅に向上するということである。 我々は、合成データと実世界のデータセットの両方で広範な実験を行い、理論結果とグラフサイド情報を利用する他の行列補完アルゴリズムよりも大幅に性能が向上することを示す。

We consider a matrix completion problem that exploits social or item similarity graphs as side information. We develop a universal, parameter-free, and computationally efficient algorithm that starts with hierarchical graph clustering and then iteratively refines estimates both on graph clustering and matrix ratings. Under a hierarchical stochastic block model that well respects practically-relevant social graphs and a low-rank rating matrix model (to be detailed), we demonstrate that our algorithm achieves the information-theoreti c limit on the number of observed matrix entries (i.e., optimal sample complexity) that is derived by maximum likelihood estimation together with a lower-bound impossibility result. One consequence of this result is that exploiting the hierarchical structure of social graphs yields a substantial gain in sample complexity relative to the one that simply identifies different groups without resorting to the relational structure across them. We conduct extensive experiments both on synthetic and real-world datasets to corroborate our theoretical results as well as to demonstrate significant performance improvements over other matrix completion algorithms that leverage graph side information.
翻訳日:2022-01-06 13:53:35 公開日:2022-01-02
# (参考訳) Rxn Hypergraph:化学反応表現のためのハイパーグラフ注意モデル [全文訳有]

Rxn Hypergraph: a Hypergraph Attention Model for Chemical Reaction Representation ( http://arxiv.org/abs/2201.01196v1 )

ライセンス: CC BY 4.0
Mohammadamin Tavakoli, Alexander Shmakov, Francesco Ceccarelli, Pierre Baldi(参考訳) 科学と技術が化学反応とその特性を予測できることは基本的なことである。 このようなスキルを達成するためには、化学反応の優れた表現や、データからその表現を自動的に学習できる優れたディープラーニングアーキテクチャを開発することが重要である。 現在、化学反応を強固に表現するための普遍的で広く採用されている方法は存在しない。 既存のほとんどの手法は、(1)普遍性の欠如、(2)堅牢性の欠如、(3)解釈可能性の欠如、(4)過剰な手作業による事前処理などの欠点に悩まされている。 ここでは,分子構造のグラフベース表現を利用してハイパーグラフアテンションニューラルネットワークアプローチを開発し,反応表現と特性予測問題を一度に解くことで,上記の欠点を緩和する。 我々はこのハイパーグラフ表現を3つの独立な化学反応データセットを用いて3つの実験で評価した。 すべての実験において、ハイパーグラフに基づくアプローチは他の表現とそれに対応する化学反応のモデルに適合し、解釈可能な多レベル表現をもたらす。

It is fundamental for science and technology to be able to predict chemical reactions and their properties. To achieve such skills, it is important to develop good representations of chemical reactions, or good deep learning architectures that can learn such representations automatically from the data. There is currently no universal and widely adopted method for robustly representing chemical reactions. Most existing methods suffer from one or more drawbacks, such as: (1) lacking universality; (2) lacking robustness; (3) lacking interpretability; or (4) requiring excessive manual pre-processing. Here we exploit graph-based representations of molecular structures to develop and test a hypergraph attention neural network approach to solve at once the reaction representation and property-prediction problems, alleviating the aforementioned drawbacks. We evaluate this hypergraph representation in three experiments using three independent data sets of chemical reactions. In all experiments, the hypergraph-based approach matches or outperforms other representations and their corresponding models of chemical reactions while yielding interpretable multi-level representations.
翻訳日:2022-01-05 23:09:54 公開日:2022-01-02
# 双方向ニューラルネットワークを用いた分子動力学軌道再構成の超解像

Super-resolution in Molecular Dynamics Trajectory Reconstruction with Bi-Directional Neural Networks ( http://arxiv.org/abs/2201.01195v1 )

ライセンス: Link先を確認
Ludwig Winkler and Klaus-Robert M\"uller and Huziel E. Sauceda(参考訳) 分子動力学シミュレーションは科学の基盤であり、システムの熱力学から複雑な分子相互作用を分析することができる。 一般に、拡張された分子軌道を作るには、例えば$ab-initio$シミュレーションを実行する場合、計算コストがかかる。 したがって、そのような計算を繰り返すことで、より正確な熱力学を得るか、または細粒度量子相互作用によって生じる力学のより高分解能を得るかは、時間的かつ計算的に消費される。 本研究では,機械学習(ML)の手法を探索し,分子動力学トラジェクトリをオンデマンドで処理する手法を提案する。 概念実証として、分子動力学シミュレーション(以下、MD17データセット)において、ニューラルネットワーク、ハミルトニアンネットワーク、リカレントニューラルネットワーク、LSTMなどの双方向ニューラルネットワークの性能と、参照として一方向変量の解析を行う。 サーモスタット軌道の局所的時間対称性を利用して、長距離相関を学習し、分子の複雑さにまたがる雑音のダイナミックスに対して高い堅牢性を示すことができる。 我々のモデルは、軌道補間における最大10$^{-4}$アングストロームの精度に到達し、未知の複雑な高周波分子振動の完全なサイクルを忠実に再構築し、学習された軌道と参照軌道の比較を区別できないものにすることができる。 本研究で報告された結果は,(1)大規模システムのベースラインとして機能し,(2)より優れたMDインテグレータの構築に有効である。

Molecular dynamics simulations are a cornerstone in science, allowing to investigate from the system's thermodynamics to analyse intricate molecular interactions. In general, to create extended molecular trajectories can be a computationally expensive process, for example, when running $ab-initio$ simulations. Hence, repeating such calculations to either obtain more accurate thermodynamics or to get a higher resolution in the dynamics generated by a fine-grained quantum interaction can be time- and computationally-cons uming. In this work, we explore different machine learning (ML) methodologies to increase the resolution of molecular dynamics trajectories on-demand within a post-processing step. As a proof of concept, we analyse the performance of bi-directional neural networks such as neural ODEs, Hamiltonian networks, recurrent neural networks and LSTMs, as well as the uni-directional variants as a reference, for molecular dynamics simulations (here: the MD17 dataset). We have found that Bi-LSTMs are the best performing models; by utilizing the local time-symmetry of thermostated trajectories they can even learn long-range correlations and display high robustness to noisy dynamics across molecular complexity. Our models can reach accuracies of up to 10$^{-4}$ angstroms in trajectory interpolation, while faithfully reconstructing several full cycles of unseen intricate high-frequency molecular vibrations, rendering the comparison between the learned and reference trajectories indistinguishable. The results reported in this work can serve (1) as a baseline for larger systems, as well as (2) for the construction of better MD integrators.
翻訳日:2022-01-05 13:32:55 公開日:2022-01-02
# (参考訳) ボックスの内部を考える:グレーボックスベイズ最適化のチュートリアル [全文訳有]

Thinking inside the box: A tutorial on grey-box Bayesian optimization ( http://arxiv.org/abs/2201.00272v1 )

ライセンス: CC BY 4.0
Raul Astudillo, Peter I. Frazier(参考訳) ベイズ最適化 (bayesian optimization, bo) は、費用対評価目的関数のグローバル最適化のためのフレームワークである。 古典的なboメソッドは、目的関数がブラックボックスであると仮定する。 しかし、目的関数計算に関する内部情報は、しばしば利用可能である。 例えば、製造ラインのスループットをシミュレーションで最適化する場合、全スループットに加えて各ワークステーションで待っている部品の数を観察します。 近年のBO法は内部情報を利用して性能を劇的に改善している。 これらの「グレーボックス」BO法は、対象関数計算の知識を「ホワイトボックス」と呼ぶブラックボックスアプローチと混同し、対象関数計算を部分的に観測可能かつ修正可能とみなすためである。 本チュートリアルでは, 複合目的関数のBOに着目し, 全体目標に影響を及ぼす個々の成分を観察し, 選択的に評価するBOと, 評価オラクルのパラメータを変化させることで, より安価な目的関数近似を評価できるBOとを述べる。

Bayesian optimization (BO) is a framework for global optimization of expensive-to-evaluat e objective functions. Classical BO methods assume that the objective function is a black box. However, internal information about objective function computation is often available. For example, when optimizing a manufacturing line's throughput with simulation, we observe the number of parts waiting at each workstation, in addition to the overall throughput. Recent BO methods leverage such internal information to dramatically improve performance. We call these "grey-box" BO methods because they treat objective computation as partially observable and even modifiable, blending the black-box approach with so-called "white-box" first-principles knowledge of objective function computation. This tutorial describes these methods, focusing on BO of composite objective functions, where one can observe and selectively evaluate individual constituents that feed into the overall objective; and multi-fidelity BO, where one can evaluate cheaper approximations of the objective function by varying parameters of the evaluation oracle.
翻訳日:2022-01-04 23:30:56 公開日:2022-01-02
# (参考訳) 進化遺伝的アルゴリズムにおけるガウス変異の自己適応への応用 [全文訳有]

Applications of Gaussian Mutation for Self Adaptation in Evolutionary Genetic Algorithms ( http://arxiv.org/abs/2201.00285v1 )

ライセンス: CC BY-SA 4.0
Okezue Bell(参考訳) 近年,より強力な計算手法の必要性から,最適化問題の一般化が進んでいる。 人工知能などの技術が最近出現するにつれて、古典的なアルゴリズムの能力を高める新しいメタヒューリスティックが求められている。 近年、研究者はチャールズ・ダーウィンの自然選択と進化の理論を、機械学習を用いた現在のアプローチを強化する手段として研究している。 1960年、ジョン・ホランドとその学生によって最初の遺伝的アルゴリズムが開発された。 ガウス突然変異を用いて進化可能な発展系における遺伝的アルゴリズムの数学的直観と最適化問題の解法におけるその意味について検討する。

In recent years, optimization problems have become increasingly more prevalent due to the need for more powerful computational methods. With the more recent advent of technology such as artificial intelligence, new metaheuristics are needed that enhance the capabilities of classical algorithms. More recently, researchers have been looking at Charles Darwin's theory of natural selection and evolution as a means of enhancing current approaches using machine learning. In 1960, the first genetic algorithm was developed by John H. Holland and his student. We explore the mathematical intuition of the genetic algorithm in developing systems capable of evolving using Gaussian mutation, as well as its implications in solving optimization problems.
翻訳日:2022-01-04 23:04:36 公開日:2022-01-02
# (参考訳) 行動制約を伴うタスク仕様の強化学習 [全文訳有]

Reinforcement Learning for Task Specifications with Action-Constraints ( http://arxiv.org/abs/2201.00286v1 )

ライセンス: CC BY 4.0
Arun Raman, Keerthan Shagrithaya and Shalabh Bhatnagar(参考訳) 本稿では,離散事象システムの監視制御理論の概念を用いて,有限状態マルコフ決定過程(mdp)の最適制御方針を学習する方法を提案する。 我々は、安全で安全でないと考えられる一連のアクションシーケンスが有限状態オートマトンによって与えられると仮定し、アクションシーケンスの制約を満たすためにmdpの各状態におけるアクションのサブセットを無効にするスーパーバイザを提案する。 次に,非マルコフ的行動系列と状態制約の存在下での最適方針学習のためのq-learningアルゴリズムのバージョンを提案する。 本手法は,強化学習のための非マルコフ状態および動作仕様のためのオートマトンベース手法の有用性を例示し,シミュレーション結果を示す。

In this paper, we use concepts from supervisory control theory of discrete event systems to propose a method to learn optimal control policies for a finite-state Markov Decision Process (MDP) in which (only) certain sequences of actions are deemed unsafe (respectively safe). We assume that the set of action sequences that are deemed unsafe and/or safe are given in terms of a finite-state automaton; and propose a supervisor that disables a subset of actions at every state of the MDP so that the constraints on action sequence are satisfied. Then we present a version of the Q-learning algorithm for learning optimal policies in the presence of non-Markovian action-sequence and state constraints, where we use the development of reward machines to handle the state constraints. We illustrate the method using an example that captures the utility of automata-based methods for non-Markovian state and action specifications for reinforcement learning and show the results of simulations in this setting.
翻訳日:2022-01-04 23:00:22 公開日:2022-01-02
# (参考訳) インフォームドマルチコンテキストエンティティアライメント [全文訳有]

Informed Multi-context Entity Alignment ( http://arxiv.org/abs/2201.00304v1 )

ライセンス: CC BY 4.0
Kexuan Xin, Zequn Sun, Wen Hua, Wei Hu, Xiaofang Zhou(参考訳) エンティティアライメントは、複数のソースから知識グラフ(KG)を統合するための重要なステップである。 エンティティアライメントの以前の試みでは、エンティティの埋め込みを学習するために、近傍や経路ベースのコンテキストなど、さまざまなKG構造を探索してきたが、それらはマルチコンテキストの特徴を捉えることに制限されている。 さらに、ほとんどのアプローチは、エンティティとリレーションの間のグローバルな相互作用を考慮せずに、エンティティアライメントを決定するために埋め込み類似性を直接利用する。 本稿では,これらの問題に対処するため,Informed Multi-context Entity Alignment (IMEA)モデルを提案する。 特に,関係,経路,近傍の文脈を柔軟に把握するためにtransformerを導入し,埋め込みの類似性と関係/エンティティ機能の両方に基づいてアライメント確率を推定する包括的推論を設計する。 包括的推論から得られたアライメントエビデンスをさらにトランスフォーマーに注入し,ソフトラベル編集により埋め込み学習を通知する。 いくつかのベンチマークデータセットの実験結果は、既存の最先端エンティティアライメント手法と比較して、IMEAモデルの優位性を示している。

Entity alignment is a crucial step in integrating knowledge graphs (KGs) from multiple sources. Previous attempts at entity alignment have explored different KG structures, such as neighborhood-based and path-based contexts, to learn entity embeddings, but they are limited in capturing the multi-context features. Moreover, most approaches directly utilize the embedding similarity to determine entity alignment without considering the global interaction among entities and relations. In this work, we propose an Informed Multi-context Entity Alignment (IMEA) model to address these issues. In particular, we introduce Transformer to flexibly capture the relation, path, and neighborhood contexts, and design holistic reasoning to estimate alignment probabilities based on both embedding similarity and the relation/entity functionality. The alignment evidence obtained from holistic reasoning is further injected back into the Transformer via the proposed soft label editing to inform embedding learning. Experimental results on several benchmark datasets demonstrate the superiority of our IMEA model compared with existing state-of-the-art entity alignment methods.
翻訳日:2022-01-04 22:48:07 公開日:2022-01-02
# (参考訳) 自動腹部臓器分割術における反復的特徴伝播とエッジスキップ接続 [全文訳有]

Recurrent Feature Propagation and Edge Skip-Connections for Automatic Abdominal Organ Segmentation ( http://arxiv.org/abs/2201.00317v1 )

ライセンス: CC BY 4.0
Zefan Yang, Di Lin, and Yi Wang(参考訳) ct画像における腹部臓器の自動分割は放射線治療や画像誘導手術のワークフローを支援する。 このような自動解法の開発は、主にct画像の複雑な臓器間相互作用とぼやけた境界のために難しいままである。 これらの課題に対処するために,効率的な空間コンテキストモデリングと明示的なエッジセグメンテーションに着目する。 そこで我々は,共有エンコーダ,エッジ検出器,エッジスキップ接続(esc)付きデコーダ,rfpヘッド(recurrent feature propagation head)の4つの主成分を訓練した3次元ネットワークを提案する。 広帯域空間依存性を捉えるため,RFP-Headは画像単位の空間配置に関して,効率的なスライスワイズ方式で繰り返し接続された有向非巡回グラフ(DAG)を用いて局所的特徴を伝播し,抽出する。 エッジ情報を活用するために、エッジ監視によりエンコーダの中間特徴を利用して、エッジ検出器は、セマンティックセグメンテーション用に特別に調整されたエッジ先行知識を学習する。 ESCは、エッジ知識とマルチレベルデコーダ特徴を集約し、臓器の内部とセグメント化のためのエッジ間の相補性を明示的にモデル化した識別的特徴の階層構造を学ぶ。 腹部CTにて8臓器を注視した2症例について広範な実験を行った。 実験の結果,提案するネットワークは,特に小型で複雑な構造(胆嚢,食道,胃,膵臓,十二指腸)のセグメンテーションにおいて,最先端モデルよりも優れていた。 コードは公開される予定だ。

Automatic segmentation of abdominal organs in computed tomography (CT) images can support radiation therapy and image-guided surgery workflows. Developing of such automatic solutions remains challenging mainly owing to complex organ interactions and blurry boundaries in CT images. To address these issues, we focus on effective spatial context modeling and explicit edge segmentation priors. Accordingly, we propose a 3D network with four main components trained end-to-end including shared encoder, edge detector, decoder with edge skip-connections (ESCs) and recurrent feature propagation head (RFP-Head). To capture wide-range spatial dependencies, the RFP-Head propagates and harvests local features through directed acyclic graphs (DAGs) formulated with recurrent connections in an efficient slice-wise manner, with regard to spatial arrangement of image units. To leverage edge information, the edge detector learns edge prior knowledge specifically tuned for semantic segmentation by exploiting intermediate features from the encoder with the edge supervision. The ESCs then aggregate the edge knowledge with multi-level decoder features to learn a hierarchy of discriminative features explicitly modeling complementarity between organs' interiors and edges for segmentation. We conduct extensive experiments on two challenging abdominal CT datasets with eight annotated organs. Experimental results show that the proposed network outperforms several state-of-the-art models, especially for the segmentation of small and complicated structures (gallbladder, esophagus, stomach, pancreas and duodenum). The code will be publicly available.
翻訳日:2022-01-04 22:33:38 公開日:2022-01-02
# (参考訳) 原油価格予測のためのLSTMアーキテクチャ [全文訳有]

LSTM Architecture for Oil Stocks Prices Prediction ( http://arxiv.org/abs/2201.00350v1 )

ライセンス: CC BY 4.0
Javad T. Firouzjaee and Pouriya Khaliliyan(参考訳) 石油会社は世界最大の企業の一つであり、世界の株式市場における経済指標は、金、原油、ドルとの関係から世界経済と市場に大きな影響を与えている。 これらの関係を定量化するために、ドル、原油、金、主要石油会社の株価指数との相関特徴と株価の関係を利用して、データセットを作成し、予測結果を実際のデータと比較する。 さまざまな企業の株価を予測するために、私たちはrecurrent neural network(rnns)とlstmを使っています。 実証実験を行い、株価指数データセットを用いて平均二乗誤差(mse)、平均絶対誤差(mae)、根平均二乗誤差(rmse)、平均絶対パーセンテージ誤差(mape)など、いくつかの一般的な誤差指標を用いて予測性能を評価する。 得られた結果は有望であり、近い将来の石油会社の株価の予測に適度に正確である。 その結果、RNNには解釈性がなく、相関データを追加することでモデルを改善することはできないことがわかった。

Oil companies are among the largest companies in the world whose economic indicators in the global stock market have a great impact on the world economy and market due to their relation to gold, crude oil, and the dollar. To quantify these relations we use the correlation feature and the relationships between stocks with the dollar, crude oil, gold, and major oil company stock indices, we create datasets and compare the results of forecasts with real data. To predict the stocks of different companies, we use Recurrent Neural Networks (RNNs) and LSTM, because these stocks change in time series. We carry on empirical experiments and perform on the stock indices dataset to evaluate the prediction performance in terms of several common error metrics such as Mean Square Error (MSE), Mean Absolute Error (MAE), Root Mean Square Error (RMSE), and Mean Absolute Percentage Error (MAPE). The received results are promising and present a reasonably accurate prediction for the price of oil companies' stocks in the near future. The results show that RNNs do not have the interpretability, and we cannot improve the model by adding any correlated data.
翻訳日:2022-01-04 22:09:05 公開日:2022-01-02
# (参考訳) 因果認識rlに向けて : 状態的行動改善時間差 [全文訳有]

Toward Causal-Aware RL: State-Wise Action-Refined Temporal Difference ( http://arxiv.org/abs/2201.00354v1 )

ライセンス: CC BY 4.0
Hao Sun(参考訳) 強化学習(RL)において探索が重要な役割を担っていることはよく知られているが、RLにおける連続制御タスクの探索戦略は、主に行動空間とタスクの因果関係によらず、ナイーブな等方的ガウスノイズに基づいており、行動のすべての次元が等しく重要である。 本研究では,行動空間と課題報酬の因果関係を明らかにするために,プライマルアクション空間上で介入を行うことを提案する。 本稿では, 行動空間冗長性の問題に対処し, RLにおける因果関係の発見を促進するための, SWAR (State-Wise Action Refined) 法を提案する。 状態依存型行動空間選択問題としてRLタスクの因果性探索を定式化し、2つの実用的なアルゴリズムを解として提案する。 第1のアプローチであるTD-SWARは時間差分学習中のタスク関連動作を検出し,第2のアプローチであるDyn-SWARは動的モデル予測を通じて重要な動作を明らかにする。 実証的に、どちらの手法もRLエージェントによる決定を理解し、アクション依存タスクにおける学習効率を向上させるためのアプローチを提供する。

Although it is well known that exploration plays a key role in Reinforcement Learning (RL), prevailing exploration strategies for continuous control tasks in RL are mainly based on naive isotropic Gaussian noise regardless of the causality relationship between action space and the task and consider all dimensions of actions equally important. In this work, we propose to conduct interventions on the primal action space to discover the causal relationship between the action space and the task reward. We propose the method of State-Wise Action Refined (SWAR), which addresses the issue of action space redundancy and promote causality discovery in RL. We formulate causality discovery in RL tasks as a state-dependent action space selection problem and propose two practical algorithms as solutions. The first approach, TD-SWAR, detects task-related actions during temporal difference learning, while the second approach, Dyn-SWAR, reveals important actions through dynamic model prediction. Empirically, both methods provide approaches to understand the decisions made by RL agents and improve learning efficiency in action-redundant tasks.
翻訳日:2022-01-04 22:02:31 公開日:2022-01-02
# (参考訳) 実験に基づく機械学習ソリューションの作成と分析

Experiment Based Crafting and Analyzing of Machine Learning Solutions ( http://arxiv.org/abs/2201.00355v1 )

ライセンス: CC BY 4.0
Samuel Ackerman, Eitan Farchi, Orna Raz, Onn Shehory(参考訳) 機械学習(ML)ベースのシステムの製作には、そのライフサイクルを通して統計的制御が必要である。 ビジネス要件の慎重に定量化とビジネス要件に影響を与える重要な要因の特定は、プロジェクトの失敗のリスクを低減します。 ビジネス要件の定量化は、統計実験を通じて分析する必要があるシステムキーのパフォーマンス指標を表すランダム変数の定義をもたらす。 さらに、トレーニングと実験結果の利用可能なデータは、システムの設計に影響を与える。 システムが開発されると、ビジネス要件を満たすようにテストされ、継続的に監視される。 これは、主要なパフォーマンス指標を分析し制御するための統計実験の継続的な応用を通して行われる。 この本はMLベースのシステムの構築と開発について教えている。 プロジェクトライフサイクルの始めから統計的実験を定義する必要性を強調した"実験ファースト"アプローチを提唱している。 また、ライフサイクルを通してMLベースのシステムに統計的制御を適用する方法についても詳細に論じている。

The crafting of machine learning (ML) based systems requires statistical control throughout its life cycle. Careful quantification of business requirements and identification of key factors that impact the business requirements reduces the risk of a project failure. The quantification of business requirements results in the definition of random variables representing the system key performance indicators that need to be analyzed through statistical experiments. In addition, available data for training and experiment results impact the design of the system. Once the system is developed, it is tested and continually monitored to ensure it meets its business requirements. This is done through the continued application of statistical experiments to analyze and control the key performance indicators. This book teaches the art of crafting and developing ML based systems. It advocates an "experiment first" approach stressing the need to define statistical experiments from the beginning of the project life cycle. It also discusses in detail how to apply statistical control on the ML based system throughout its lifecycle.
翻訳日:2022-01-04 21:38:47 公開日:2022-01-02
# (参考訳) イベント表現学習のための半教師付きグラフ注意ネットワーク [全文訳有]

Semi-Supervised Graph Attention Networks for Event Representation Learning ( http://arxiv.org/abs/2201.00363v1 )

ライセンス: CC BY 4.0
Joao Pedro Rodrigues Mattos and Ricardo M. Marcacini(参考訳) ニュースやソーシャルネットワークからのイベント分析は、幅広い社会研究や現実世界の応用に非常に有用である。 最近、イベントグラフは、イベントデータセットとその複雑な関係をモデル化するために探索され、イベントは、場所、人名、日付、その他のさまざまなイベントメタデータを表す他の頂点に接続された頂点である。 グラフ表現学習手法は、異なる分類アルゴリズムの使用を可能にするためにイベントグラフから潜在特徴を抽出することに有望である。 しかし、既存のメソッドはイベントグラフの必須要件を満たしていない。 (i)ラベル付きイベントを利用するための半教師付きグラフ埋め込みを扱う。 (ii)イベント頂点とそのメタデータ頂点間の関係の重要性を自動的に決定する (iii)グラフの不均一性を扱う。 本稿では,グラフ注意ネットワークとグラフ正規化を組み合わせたGNEE(GAT Neural Event Embeddings)を提案する。 まず、全てのグラフ頂点がイベント特徴を受け取り、したがってグラフの不均一性の欠点を軽減するために、イベントグラフ正規化を提案する。 第2に,自己参照機構を備えた半教師付きグラフ埋め込みは,既存のラベル付きイベントを考慮し,表現学習過程におけるイベントグラフにおける関係の重要性を学習する。 5つの実世界のイベントグラフと6つのグラフ埋め込みによる実験結果の統計的解析により、GNEEは最先端の半教師付きグラフ埋め込み法より優れていることが示された。

Event analysis from news and social networks is very useful for a wide range of social studies and real-world applications. Recently, event graphs have been explored to model event datasets and their complex relationships, where events are vertices connected to other vertices representing locations, people's names, dates, and various other event metadata. Graph representation learning methods are promising for extracting latent features from event graphs to enable the use of different classification algorithms. However, existing methods fail to meet essential requirements for event graphs, such as (i) dealing with semi-supervised graph embedding to take advantage of some labeled events, (ii) automatically determining the importance of the relationships between event vertices and their metadata vertices, as well as (iii) dealing with the graph heterogeneity. This paper presents GNEE (GAT Neural Event Embeddings), a method that combines Graph Attention Networks and Graph Regularization. First, an event graph regularization is proposed to ensure that all graph vertices receive event features, thereby mitigating the graph heterogeneity drawback. Second, semi-supervised graph embedding with self-attention mechanism considers existing labeled events, as well as learns the importance of relationships in the event graph during the representation learning process. A statistical analysis of experimental results with five real-world event graphs and six graph embedding methods shows that our GNEE outperforms state-of-the-art semi-supervised graph embedding methods.
翻訳日:2022-01-04 21:37:28 公開日:2022-01-02
# (参考訳) 知識ベースによる食品安全出版物の話題分類 [全文訳有]

Topical Classification of Food Safety Publications with a Knowledge Base ( http://arxiv.org/abs/2201.00374v1 )

ライセンス: CC BY 4.0
Piotr Sowi\'nski, Katarzyna Wasielewska-Michniew ska, Maria Ganzha, Marcin Paprzycki(参考訳) 多くの科学出版物は、与えられた研究課題に関連するものを見つけ、その根拠に基づいて情報的決定を行うという課題が増えていることを示している。 これは自動化ツールを使わずに非常に難しくなります。 ここで、改善すべき1つの領域は、そのトピックに応じた出版要約の自動分類である。 本研究は,新しい知識ベース指向出版分類器を提案する。 提案手法はスケーラビリティと他のドメインへの適応性の向上に重点を置いている。 分類速度と精度は、非常に要求の多い食品安全分野において満足できる。 本手法のさらなる開発と評価は,提案手法が大きな可能性を示すため必要である。

The vast body of scientific publications presents an increasing challenge of finding those that are relevant to a given research question, and making informed decisions on their basis. This becomes extremely difficult without the use of automated tools. Here, one possible area for improvement is automatic classification of publication abstracts according to their topic. This work introduces a novel, knowledge base-oriented publication classifier. The proposed method focuses on achieving scalability and easy adaptability to other domains. Classification speed and accuracy are shown to be satisfactory, in the very demanding field of food safety. Further development and evaluation of the method is needed, as the proposed approach shows much potential.
翻訳日:2022-01-04 21:27:15 公開日:2022-01-02
# (参考訳) Parkour Spot ID:ディープラーニングを用いた衛星画像とストリートビュー画像の特徴マッチング [全文訳有]

Parkour Spot ID: Feature Matching in Satellite and Street view images using Deep Learning ( http://arxiv.org/abs/2201.00377v1 )

ライセンス: CC BY 4.0
Jo\~ao Morais, Kaushal Rathi, Bhuvaneshwar Mohan, Shantanu Rajesh(参考訳) Googleマップにインデックスされていない場所を見つけるには? 本研究では,その空間的特徴に基づいて位置を特定するための直感的な手法とフレームワークを提案する。 本手法では,衛星画像とストリートビュー画像を用いて位置の分類を行う。 ロケーションを分類できれば、関心のある領域の重複しないロケーションを繰り返すだけでよいのです。 アリゾナ州立大学キャンパスにおける公園跡の探索システムについて検討した。 結果は非常に良好で、25以上の新しいパークール点が発見され、60%以上の正の値が得られた。

How to find places that are not indexed by Google Maps? We propose an intuitive method and framework to locate places based on their distinctive spatial features. The method uses satellite and street view images in machine vision approaches to classify locations. If we can classify locations, we just need to repeat for non-overlapping locations in our area of interest. We assess the proposed system in finding Parkour spots in the campus of Arizona State University. The results are very satisfactory, having found more than 25 new Parkour spots, with a rate of true positives above 60%.
翻訳日:2022-01-04 21:12:04 公開日:2022-01-02
# (参考訳) 時系列データにおける信号抽出のためのランダム化署名層 [全文訳有]

Randomized Signature Layers for Signal Extraction in Time Series Data ( http://arxiv.org/abs/2201.00384v1 )

ライセンス: CC BY 4.0
Enea Monzio Compagnoni, Luca Biggio, Antonio Orvieto, Thomas Hofmann, Josef Teichmann(参考訳) 時系列分析は自然科学、社会科学、工学において広く行われている。 基本的な問題は、任意の下流タスクを実行する出発点として使用する入力時系列の表現的かつ効率的で計算的な表現を見つけることである。 本稿では,経路のシグネチャを特徴写像として用いる最近の研究と,それらの特徴を線形ランダム射影に基づいて近似する計算効率の高い手法について検討する。 提案手法を正当化するための理論的な結果をいくつか提示し,ランダム射影が経路の基盤となるシグネチャを効果的に取得できることを実証的に検証する。 本稿では,(1)確率微分方程式の制御を対応する解にマッピングすること,(2)分類タスクの時系列表現としてランダム化符号を用いることなど,いくつかのタスクにおけるランダムな特徴の驚くべき性能を示す。 truncated Signatureアプローチと比較すると、Randomizes Signaturesは高次元での計算効率が良く、精度が良く、訓練も速い。 署名を抽出する新たなツールの提供に加えて,これらの特徴の高レベルな表現性を検証し,既存のいくつかの研究領域間の興味深い概念的リンクを提供し,今後の研究への新たな関心を喚起する。

Time series analysis is a widespread task in Natural Sciences, Social Sciences, and Engineering. A fundamental problem is finding an expressive yet efficient-to-compute representation of the input time series to use as a starting point to perform arbitrary downstream tasks. In this paper, we build upon recent works that use the Signature of a path as a feature map and investigate a computationally efficient technique to approximate these features based on linear random projections. We present several theoretical results to justify our approach and empirically validate that our random projections can effectively retrieve the underlying Signature of a path. We show the surprising performance of the proposed random features on several tasks, including (1) mapping the controls of stochastic differential equations to the corresponding solutions and (2) using the Randomized Signatures as time series representation for classification tasks. When compared to corresponding truncated Signature approaches, our Randomizes Signatures are more computationally efficient in high dimensions and often lead to better accuracy and faster training. Besides providing a new tool to extract Signatures and further validating the high level of expressiveness of such features, we believe our results provide interesting conceptual links between several existing research areas, suggesting new intriguing directions for future investigations.
翻訳日:2022-01-04 21:04:09 公開日:2022-01-02
# (参考訳) 意味的外観伝達のためのスプライシングvit特徴 [全文訳有]

Splicing ViT Features for Semantic Appearance Transfer ( http://arxiv.org/abs/2201.00424v1 )

ライセンス: CC BY 4.0
Narek Tumanyan, Omer Bar-Tal, Shai Bagon, Tali Dekel(参考訳) 本稿では,ある自然画像の視覚的外観を他へ意味的に伝達する手法を提案する。 具体的には、ソース構造画像中のオブジェクトを、ターゲットの外観画像中のそれらの意味的関連オブジェクトの視覚的外観で“ペイント”する画像を生成する。 本手法は,入力として1つの構造/外観画像ペアのみを与えられたジェネレータを訓練する。 セマンティック情報をフレームワーク - このタスクに取り組む上で重要なコンポーネント - に統合するために、私たちのキーとなるアイデアは、事前トレーニングされた固定されたビジョントランスフォーマー(ViT)モデルを活用することです。 具体的には、深部 ViT 特徴から抽出された構造と外観の新たな表現を導出し、学習した自己注意モジュールからそれらを解き放つ。 次に、所望の構造と外観表現を分割し、それらをViT特徴空間に織り込む客観的関数を確立する。 我々のフレームワークは「スプライス」と呼ばれ、敵対的な訓練を伴わず、セマンティックセグメンテーションや対応のような追加の入力情報も必要とせず、HDでの作業のような高精細な結果を生成することができる。 対象物数,ポーズ,外観に有意な変化を伴って,様々な画像対に対して高品質な結果を示す。

We present a method for semantically transferring the visual appearance of one natural image to another. Specifically, our goal is to generate an image in which objects in a source structure image are "painted" with the visual appearance of their semantically related objects in a target appearance image. Our method works by training a generator given only a single structure/appearance image pair as input. To integrate semantic information into our framework - a pivotal component in tackling this task - our key idea is to leverage a pre-trained and fixed Vision Transformer (ViT) model which serves as an external semantic prior. Specifically, we derive novel representations of structure and appearance extracted from deep ViT features, untwisting them from the learned self-attention modules. We then establish an objective function that splices the desired structure and appearance representations, interweaving them together in the space of ViT features. Our framework, which we term "Splice", does not involve adversarial training, nor does it require any additional input information such as semantic segmentation or correspondences, and can generate high-resolution results, e.g., work in HD. We demonstrate high quality results on a variety of in-the-wild image pairs, under significant variations in the number of objects, their pose and appearance.
翻訳日:2022-01-04 20:32:53 公開日:2022-01-02
# (参考訳) ドーナツによるアンサンブル結合予測法

The DONUT Approach to EnsembleCombination Forecasting ( http://arxiv.org/abs/2201.00426v1 )

ライセンス: CC BY 4.0
Lars Lien Ankile, Kjartan Krange(参考訳) 本稿では,DONUT(DO Not UTilize human assumptions)と呼ばれる特徴とモデル選択の仮定を減らし,M4Competitionデータセット上で強い結果を示すアンサンブル予測手法を提案する。 自動生成特徴量とより多様なアンサンブルモデルプールからなる仮定の削減は,montro-manso et al. (2020) による統計的特徴量に基づくアンサンブル法 fforma を大きく上回っている。 さらに,Long Short-term memory Network (LSTM) Autoencoder を用いて特徴抽出を行い,従来の統計的特徴量アプローチでは捉えられない重要な情報を含むことを確認した。 アンサンブル重み付けモデルはLSTM特徴と統計特徴の両方を用いてモデルを正確に組み合わせる。 特徴の重要性と相互作用の分析は,統計的特徴だけではLSTMの特徴がわずかに優れていることを示している。 クラスタリング分析により、LSTMの特徴は、多くの統計的特徴と異なることが分かる。 また、新しいモデルでアンサンブルを増強することで重み付けモデルの解空間を増大させることで、重み付けモデルが使用することを学習し、精度向上の一部を説明する。 最後に,m4データセットの線形最適化による差異の定量化により,アンサンブルの最適組み合わせと選択の形式的前事後分析を提案する。 モデルの組み合わせがモデル選択よりも優れているという短い証明も含んでいる。

This paper presents an ensemble forecasting method that shows strong results on the M4Competition dataset by decreasing feature and model selection assumptions, termed DONUT(DO Not UTilize human assumptions). Our assumption reductions, consisting mainly of auto-generated features and a more diverse model pool for the ensemble, significantly outperforms the statistical-feature- based ensemble method FFORMA by Montero-Manso et al. (2020). Furthermore, we investigate feature extraction with a Long short-term memory Network(LSTM) Autoencoder and find that such features contain crucial information not captured by traditional statistical feature approaches. The ensemble weighting model uses both LSTM features and statistical features to combine the models accurately. Analysis of feature importance and interaction show a slight superiority for LSTM features over the statistical ones alone. Clustering analysis shows that different essential LSTM features are different from most statistical features and each other. We also find that increasing the solution space of the weighting model by augmenting the ensemble with new models is something the weighting model learns to use, explaining part of the accuracy gains. Lastly, we present a formal ex-post-facto analysis of optimal combination and selection for ensembles, quantifying differences through linear optimization on the M4 dataset. We also include a short proof that model combination is superior to model selection, a posteriori.
翻訳日:2022-01-04 20:17:35 公開日:2022-01-02
# (参考訳) ディープネットワーク幻覚の制御による画像の弁別 [全文訳有]

Image Denoising with Control over Deep Network Hallucination ( http://arxiv.org/abs/2201.00429v1 )

ライセンス: CC BY 4.0
Qiyuan Liang, Florian Cassayre, Haley Owsianko, Majed El Helou, Sabine S\"usstrunk(参考訳) Deep Image Denoiserは最先端の結果を得るが、隠れたコストで達成する。 最近の文献で見られるように、これらのディープネットワークはトレーニング分布を過度に満たし、不正確な幻覚を出力に追加し、さまざまなデータにあまり一般化しない。 深いデノイザー上での制御と解釈性を改善するために,デノイジングネットワークを利用する新しいフレームワークを提案する。 制御可能な信頼に基づく画像認知(CCID)と呼ぶ。 このフレームワークでは,信頼度の高いフィルタを畳み込んだ画像と並行して,ディープデノージングネットワークの出力を利用する。 このようなフィルタは、幻覚情報を追加するリスクのない単純な畳み込みカーネルである。 本稿では,深層ネットワーク出力の信頼性を考慮した周波数領域アプローチで2つのコンポーネントを融合することを提案する。 我々のフレームワークでは、周波数領域内の2つのコンポーネントの融合を制御することができる。 また,ネットワーク幻覚を含む可能性のある出力の空間的信頼度を推定するユーザフレンドリーなマップも提供する。 その結果、CCIDは、より解釈可能性と制御を提供するだけでなく、特にテストデータがトレーニングデータから分岐した場合、ディープデノイザの量的性能と信頼性フィルタの量的性能を上回ります。

Deep image denoisers achieve state-of-the-art results but with a hidden cost. As witnessed in recent literature, these deep networks are capable of overfitting their training distributions, causing inaccurate hallucinations to be added to the output and generalizing poorly to varying data. For better control and interpretability over a deep denoiser, we propose a novel framework exploiting a denoising network. We call it controllable confidence-based image denoising (CCID). In this framework, we exploit the outputs of a deep denoising network alongside an image convolved with a reliable filter. Such a filter can be a simple convolution kernel which does not risk adding hallucinated information. We propose to fuse the two components with a frequency-domain approach that takes into account the reliability of the deep network outputs. With our framework, the user can control the fusion of the two components in the frequency domain. We also provide a user-friendly map estimating spatially the confidence in the output that potentially contains network hallucination. Results show that our CCID not only provides more interpretability and control, but can even outperform both the quantitative performance of the deep denoiser and that of the reliable filter, especially when the test data diverge from the training data.
翻訳日:2022-01-04 20:15:33 公開日:2022-01-02
# (参考訳) 転移学習に基づくナノ流体の熱伝導率モデル [全文訳有]

Transfer-learning-ba sed Surrogate Model for Thermal Conductivity of Nanofluids ( http://arxiv.org/abs/2201.00435v1 )

ライセンス: CC BY 4.0
Saeel S. Pai, Abhijeet Banthiya(参考訳) ナノ流体の伝熱特性は1990年代から広く研究されてきた。 研究により、懸濁したナノ粒子はサスペンションの熱特性を著しく変化させることが示されている。 ナノ流体の熱伝導度は、一般的に基液よりも大きい性質の1つである。 この熱伝導率の増加は、いくつかのパラメータに依存する。 ナノ流体の熱伝導性をモデル化するいくつかの理論が提案されているが、ナノ流体の異常な熱伝導をモデル化する信頼できる普遍理論はまだ存在しない。 近年、教師付きデータ駆動手法は様々な科学分野、特に理解困難な現象をモデル化するために、サロゲートモデルの作成に成功している。 これらの教師付き学習法により、モデルは高非線形現象を捉えることができる。 本研究では, 既存の相関式を利用して, 利用可能な実験結果と並行して, ナノ流体の熱伝導率を予測するためのより堅牢な代理モデルを開発した。 人工ニューラルネットワークは,32種類の粒子-流体の組み合わせ(粒子材料8個と流体4個)に対して,ナノ流体の熱伝導率向上を予測するために,伝達学習手法を用いて訓練される。 相関から生成された大量の低い精度データをモデルパラメータを粗く調整するために使用し、より信頼性の高い実験データの限られた量を用いてモデルパラメータを微調整する。 伝達学習に基づくモデルの結果は、適合度メトリクスの良さを用いて実験データのみに基づいて訓練されたベースラインモデルと比較される。 その結果, 伝達学習モデルの性能は, ベースラインモデルが 0.83 に対して, 適合率 0.93 で良好であることが判明した。

Heat transfer characteristics of nanofluids have been extensively studied since the 1990s. Research investigations show that the suspended nanoparticles significantly alter the suspension's thermal properties. The thermal conductivity of nanofluids is one of the properties that is generally found to be greater than that of the base fluid. This increase in thermal conductivity is found to depend on several parameters. Several theories have been proposed to model the thermal conductivities of nanofluids, but there is no reliable universal theory yet to model the anomalous thermal conductivity of nanofluids. In recent years, supervised data-driven methods have been successfully employed to create surrogate models across various scientific disciplines, especially for modeling difficult-to-underst and phenomena. These supervised learning methods allow the models to capture highly non-linear phenomena. In this work, we have taken advantage of existing correlations and used them concurrently with available experimental results to develop more robust surrogate models for predicting the thermal conductivity of nanofluids. Artificial neural networks are trained using the transfer learning approach to predict the thermal conductivity enhancement of nanofluids with spherical particles for 32 different particle-fluid combinations (8 particles materials and 4 fluids). The large amount of lower accuracy data generated from correlations is used to coarse-tune the model parameters, and the limited amount of more trustworthy experimental data is used to fine-tune the model parameters. The transfer learning-based models' results are compared with those from baseline models which are trained only on experimental data using a goodness of fit metric. It is found that the transfer learning models perform better with goodness of fit values of 0.93 as opposed to 0.83 from the baseline models.
翻訳日:2022-01-04 20:05:48 公開日:2022-01-02
# IoT大気汚染モニタリングプラットフォームのためのグラフ信号再構成技術

Graph Signal Reconstruction Techniques for IoT Air Pollution Monitoring Platforms ( http://arxiv.org/abs/2201.00378v1 )

ライセンス: Link先を確認
Pau Ferrer-Cid, Jose M. Barcelo-Ordinas, Jorge Garcia-Vidal(参考訳) 大気汚染モニタリングプラットフォームは、汚染の防止と緩和に非常に重要な役割を担っている。 グラフ信号処理の分野での最近の進歩により、グラフを用いた大気汚染監視ネットワークの記述と分析が可能になった。 主な応用の1つは、センサのサブセットを用いたグラフ内の測定信号の再構成である。 センサーの隣人の情報を使って信号を再構成することは、ネットワークデータの質を向上させるのに役立つ。例えば、欠落したデータを関連付けられた隣接ノードに記入したり、より正確な隣のセンサーでドリフトセンサーを補正したりする。 本稿では,スペイン大気汚染基準局の実データ集合に適用した各種グラフ信号再構成手法について比較する。 検討した手法は、ラプラシアン補間、低パスグラフ信号再構成、カーネルグラフ信号再構成であり、実際の大気汚染データセットO3, NO2, PM10と比較される。 汚染物質の信号を再構成する手法の能力、およびこの再構成の計算コストを示す。 その結果、カーネルベースのグラフ信号再構成に基づく手法の優位性と、多数の低コストセンサを用いた大気汚染監視ネットワークにおいてスケールする手法の難しさが示唆された。 しかし,クラスタリングアルゴリズムを用いてネットワークを分割するなど,単純な手法でスケーラビリティを克服できることを示す。

Air pollution monitoring platforms play a very important role in preventing and mitigating the effects of pollution. Recent advances in the field of graph signal processing have made it possible to describe and analyze air pollution monitoring networks using graphs. One of the main applications is the reconstruction of the measured signal in a graph using a subset of sensors. Reconstructing the signal using information from sensor neighbors can help improve the quality of network data, examples are filling in missing data with correlated neighboring nodes, or correcting a drifting sensor with neighboring sensors that are more accurate. This paper compares the use of various types of graph signal reconstruction methods applied to real data sets of Spanish air pollution reference stations. The methods considered are Laplacian interpolation, graph signal processing low-pass based graph signal reconstruction, and kernel-based graph signal reconstruction, and are compared on actual air pollution data sets measuring O3, NO2, and PM10. The ability of the methods to reconstruct the signal of a pollutant is shown, as well as the computational cost of this reconstruction. The results indicate the superiority of methods based on kernel-based graph signal reconstruction, as well as the difficulties of the methods to scale in an air pollution monitoring network with a large number of low-cost sensors. However, we show that scalability can be overcome with simple methods, such as partitioning the network using a clustering algorithm.
翻訳日:2022-01-04 15:55:53 公開日:2022-01-02
# ロボット手術における人工知能と拡張現実の統合:外科教育シナリオを用いた初期dVRK研究

Integrating Artificial Intelligence and Augmented Reality in Robotic Surgery: An Initial dVRK Study Using a Surgical Education Scenario ( http://arxiv.org/abs/2201.00383v1 )

ライセンス: Link先を確認
Yonghao Long, Jianfeng Cao, Anton Deguet, Russell H. Taylor, and Qi Dou(参考訳) 有能なロボット補助外科医の需要は、臨床上の優位性から徐々に高まりつつあるため、徐々に拡大している。 この要求に応え,より優れた外科教育を提供するため,人工知能の手術モジュールと拡張現実の可視化を統合した新しいロボット外科教育システムを開発した。 人工知能は、専門家のデモンストレーションから学習するために強化傾きを取り入れ、3D誘導軌道を生成し、完全な外科手術のコンテキスト認識を提供する。 軌跡情報は、テキストヒントなどの他の情報とともに、dVRKのステレオビューアでさらに可視化され、3Dガイダンスを認識して手順を学ぶことができる。 本システムは,次世代のロボット支援外科教育ソリューションとしての可能性と可能性を実証した,外科教育課題ペグトランスファーの予備実験を通じて評価する。

The demand of competent robot assisted surgeons is progressively expanding, because robot-assisted surgery has become progressively more popular due to its clinical advantages. To meet this demand and provide a better surgical education for surgeon, we develop a novel robotic surgery education system by integrating artificial intelligence surgical module and augmented reality visualization. The artificial intelligence incorporates reinforcement leaning to learn from expert demonstration and then generate 3D guidance trajectory, providing surgical context awareness of the complete surgical procedure. The trajectory information is further visualized in stereo viewer in the dVRK along with other information such as text hint, where the user can perceive the 3D guidance and learn the procedure. The proposed system is evaluated through a preliminary experiment on surgical education task peg-transfer, which proves its feasibility and potential as the next generation of robot-assisted surgery education solution.
翻訳日:2022-01-04 15:26:24 公開日:2022-01-02
# 偏光SAR画像のリーマン近傍正規化部分空間分類

Riemannian Nearest-Regularized Subspace Classification for Polarimetric SAR images ( http://arxiv.org/abs/2201.00337v1 )

ライセンス: Link先を確認
Junfei Shi, Haiyan Jin(参考訳) 表現学習法として、最も近い正規化部分空間(NRS)アルゴリズムは、PolSAR画像分類の精度と速度を両立させる有効なツールである。 しかし、既存のNRS法では偏光的特徴ベクトルを用いるが、PolSARの原共分散行列(Hermitian positive definite(HPD)matrix) が入力として用いられる。 行列構造を考慮せずに、既存のnrsベースの手法ではチャネル間の相関を学習することはできない。 NRS法に対する元の共分散行列の活用は重要な問題である。 この極限に対処するため、リーマン空間においてHPD行列が成立すると考えるリーマン NRS 法が提案されている。 まず、PolSARの原データを利用するために、HPD辞書とHPD距離メトリックを構築して、リーマンNRS法(RNRS)を提案する。 第二に、新しいチコノフ正則化項は、同じクラス内の差を減らすように設計されている。 最後に、最適手法を開発し、一階導出を推定する。 実験では,提案手法ではT行列のみを用い,比較手法では複数の特徴を応用した。 実験により,提案手法は少ない特徴量でも最先端アルゴリズムに勝ることを示した。

As a representation learning method, nearest regularized subspace(NRS) algorithm is an effective tool to obtain both accuracy and speed for PolSAR image classification. However, existing NRS methods use the polarimetric feature vector but the PolSAR original covariance matrix(known as Hermitian positive definite(HPD)matrix) as the input. Without considering the matrix structure, existing NRS-based methods cannot learn correlation among channels. How to utilize the original covariance matrix to NRS method is a key problem. To address this limit, a Riemannian NRS method is proposed, which consider the HPD matrices endow in the Riemannian space. Firstly, to utilize the PolSAR original data, a Riemannian NRS method(RNRS) is proposed by constructing HPD dictionary and HPD distance metric. Secondly, a new Tikhonov regularization term is designed to reduce the differences within the same class. Finally, the optimal method is developed and the first-order derivation is inferred. During the experimental test, only T matrix is used in the proposed method, while multiple of features are utilized for compared methods. Experimental results demonstrate the proposed method can outperform the state-of-art algorithms even using less features.
翻訳日:2022-01-04 15:22:45 公開日:2022-01-02
# 可搬性畳み込みによる高速高画質画像の雑音化

Fast and High-Quality Image Denoising via Malleable Convolutions ( http://arxiv.org/abs/2201.00392v1 )

ライセンス: Link先を確認
Yifan Jiang, Bart Wronski, Ben Mildenhall, Jon Barron, Zhangyang Wang, Tianfan Xue(参考訳) 多くの画像処理ネットワークは入力画像全体にわたって1組の静的畳み込みカーネルを適用している。 近年の分類、セグメント化、画像復元の研究は、局所的な画像統計のモデリングにおいて、動的カーネルが静的カーネルよりも優れていることを示した。 しかし、これらの作品はしばしばピクセル単位の畳み込みカーネルを採用し、高いメモリと計算コストをもたらす。 空間変動処理を実現するために,動的畳み込みの効率的な変種として \textbf{malle}able \textbf{conv}olution (\textbf{malleconv})を提案する。 \oursの重みは、特定の空間位置でコンテンツ依存出力を生成することができる効率的な予測ネットワークによって動的に生成される。 以前の作品とは異なり、 \ours は入力から空間的に変動するカーネルの集合を生成し、ネットワークの受容野を拡大し、計算コストとメモリコストを大幅に削減する。 これらのカーネルは、メモリオーバーヘッドを最小限にした効率的なスライス・アンド・コンブ演算子を通じて、フル解像度の機能マップに適用される。 さらに,MalleConvを用いて効率の良い復調ネットワークを構築した。 非常に深いアーキテクチャを使わずに高品質な結果が得られるが、同様の性能を維持しながら、最高の性能の復調アルゴリズム(SwinIR)よりも8.91$\times$高速である。 また、標準畳み込みベースのバックボーンに1つの\oursを追加することで、計算コストを大幅に削減したり、同様のコストで画質を向上できることを示した。 プロジェクトページ:https://yifanjiang. net/MalleConv.html

Many image processing networks apply a single set of static convolutional kernels across the entire input image, which is sub-optimal for natural images, as they often consist of heterogeneous visual patterns. Recent work in classification, segmentation, and image restoration has demonstrated that dynamic kernels outperform static kernels at modeling local image statistics. However, these works often adopt per-pixel convolution kernels, which introduce high memory and computation costs. To achieve spatial-varying processing without significant overhead, we present \textbf{Malle}able \textbf{Conv}olution (\textbf{MalleConv}), as an efficient variant of dynamic convolution. The weights of \ours are dynamically produced by an efficient predictor network capable of generating content-dependent outputs at specific spatial locations. Unlike previous works, \ours generates a much smaller set of spatially-varying kernels from input, which enlarges the network's receptive field and significantly reduces computational and memory costs. These kernels are then applied to a full-resolution feature map through an efficient slice-and-conv operator with minimum memory overhead. We further build a efficient denoising network using MalleConv, coined as \textbf{MalleNet}. It achieves high quality results without very deep architecture, \eg, it is 8.91$\times$ faster than the best performed denoising algorithms (SwinIR), while maintaining similar performance. We also show that a single \ours added to a standard convolution-based backbones can contribute significantly reduce the computational cost or boost image quality at similar cost. Project page: https://yifanjiang.n et/MalleConv.html
翻訳日:2022-01-04 15:22:27 公開日:2022-01-02
# 最適化適応重要サンプラーのグローバル収束

Global convergence of optimized adaptive importance samplers ( http://arxiv.org/abs/2201.00409v1 )

ライセンス: Link先を確認
\"Omer Deniz Akyildiz(参考訳) 一般提案とモンテカルロ統合を行うために最適化された適応的重要サンプラー(oais)を解析した。 そこで,本研究では,提案手法と目標値と提案値との間の$\chi^2$-divergenceを用いて,サンプリング重要度の平均二乗誤差(mse)とバイアスをスケールし,$\chi^2$-divergenceのグローバル最適化を行うスキームを開発した。 この量が指数関数的家族提案の凸であることは知られているが、一般提案のケースは公然とした問題である。 このギャップを,確率勾配ランジュバンダイナミクス (sgld) と弱減衰したそれを用いて,非凸最適化文献の最近の結果を利用してmseの非漸近境界を導出する。 結果のAISスキームは、反復数に一様である明確な理論的保証を持つ。

We analyze the optimized adaptive importance sampler (OAIS) for performing Monte Carlo integration with general proposals. We leverage a classical result which shows that the bias and the mean-squared error (MSE) of the importance sampling scales with the $\chi^2$-divergence between the target and the proposal and develop a scheme which performs global optimization of $\chi^2$-divergence. While it is known that this quantity is convex for exponential family proposals, the case of the general proposals has been an open problem. We close this gap by utilizing stochastic gradient Langevin dynamics (SGLD) and its underdamped counterpart for the global optimization of $\chi^2$-divergence and derive nonasymptotic bounds for the MSE by leveraging recent results from non-convex optimization literature. The resulting AIS schemes have explicit theoretical guarantees uniform in the number of iterations.
翻訳日:2022-01-04 15:16:33 公開日:2022-01-02
# 指標付き凸二次最適化問題の凸包について

On the convex hull of convex quadratic optimization problems with indicators ( http://arxiv.org/abs/2201.00387v1 )

ライセンス: Link先を確認
Linchuan Wei, Alper Atamt\"urk, Andr\'es G\'omez, Simge K\"u\c{c}\"ukyavuz(参考訳) 我々は、指標変数と指標に対する任意の制約を伴う凸二次最適化問題を考える。 二次変数の2次数を持つ拡張空間において、関連する混合整数集合の凸包記述が、1つの正半定値制約(明示的記述)と線形制約からなることを示す。 特に、この種類の問題の凸化は、拡張定式化における多面体集合の記述に還元される。 また、変数の元の空間に記述を与える: 無限個の円錐四次不等式に基づいて記述を与えるが、これは「有限生成」である。 特に、与えられた不等式が凸ハルを記述するのに必要かどうかを特徴付けることができる。 ここで提示される新しい理論は、いくつかの既定の結果を統一し、混合整数非線形集合の凸包を解析するために多面体法を利用する道を開く。

We consider the convex quadratic optimization problem with indicator variables and arbitrary constraints on the indicators. We show that a convex hull description of the associated mixed-integer set in an extended space with a quadratic number of additional variables consists of a single positive semidefinite constraint (explicitly stated) and linear constraints. In particular, convexification of this class of problems reduces to describing a polyhedral set in an extended formulation. We also give descriptions in the original space of variables: we provide a description based on an infinite number of conic-quadratic inequalities, which are "finitely generated." In particular, it is possible to characterize whether a given inequality is necessary to describe the convex-hull. The new theory presented here unifies several previously established results, and paves the way toward utilizing polyhedral methods to analyze the convex hull of mixed-integer nonlinear sets.
翻訳日:2022-01-04 15:14:31 公開日:2022-01-02
# TripClick Health Retrievalのための強力なベースラインを確立する

Establishing Strong Baselines for TripClick Health Retrieval ( http://arxiv.org/abs/2201.00365v1 )

ライセンス: Link先を確認
Sebastian Hofst\"atter, Sophia Althammer, Mete Sertkan, Allan Hanbury(参考訳) 我々は最近リリースされたTripClickヘルス・アドホック検索コレクションに対して,トランスフォーマーをベースとした強力な検索ベースラインを提示する。 最初はうるさい)トレーニングデータを、単純な負のサンプリングポリシーで改善します。 従来のベースラインでは達成できなかったTripClickのリグレードタスクにおいて,BM25よりも大幅に向上した。 さらに,様々なドメイン固有事前学習モデルがtripclickに与える影響について検討した。 最後に, 簡易な訓練手順であっても, 密集検索の方がBM25よりかなり優れていることを示す。

We present strong Transformer-based re-ranking and dense retrieval baselines for the recently released TripClick health ad-hoc retrieval collection. We improve the - originally too noisy - training data with a simple negative sampling policy. We achieve large gains over BM25 in the re-ranking task of TripClick, which were not achieved with the original baselines. Furthermore, we study the impact of different domain-specific pre-trained models on TripClick. Finally, we show that dense retrieval outperforms BM25 by considerable margins, even with simple training procedures.
翻訳日:2022-01-04 14:49:29 公開日:2022-01-02
# 選択的拡張による分布外ロバスト性の改善

Improving Out-of-Distribution Robustness via Selective Augmentation ( http://arxiv.org/abs/2201.00299v1 )

ライセンス: Link先を確認
Huaxiu Yao, Yu Wang, Sai Li, Linjun Zhang, Weixin Liang, James Zou, Chelsea Finn(参考訳) 機械学習アルゴリズムは通常、トレーニングとテスト例が同じ分布から引き出されると仮定する。 しかし、実際のアプリケーションでは分散シフトが一般的な問題であり、テスト時にモデルが劇的に悪化する可能性がある。 本稿では,ドメインシフトやサブポピュレーションシフト(不均衡データなど)の問題を具体的に検討する。 先行研究はしばしば、モデルの内部表現と予測子がドメイン不変であるように明示的に正規化しようとするが、代わりに、モデルの内部表現を制限することなく、関数全体を正規化することを目指している。 これにより単純なミックスアップベースのテクニックが実現され、LISAと呼ばれる選択的な拡張を通じて不変関数を学習する。 LISAは、同じラベルを持つが異なるドメインを持つか、同じドメインを持つが異なるラベルを持つサンプルを選択的に補間する。 我々は線形設定を解析し、LISAがいかにしてより小さな最悪のグループエラーにつながるかを理論的に示す。 実験により, サブポピュレーションシフトからドメインシフトまでの9つのベンチマークにおけるLISAの有効性について検討した。

Machine learning algorithms typically assume that training and test examples are drawn from the same distribution. However, distribution shift is a common problem in real-world applications and can cause models to perform dramatically worse at test time. In this paper, we specifically consider the problems of domain shifts and subpopulation shifts (eg. imbalanced data). While prior works often seek to explicitly regularize internal representations and predictors of the model to be domain invariant, we instead aim to regularize the whole function without restricting the model's internal representations. This leads to a simple mixup-based technique which learns invariant functions via selective augmentation called LISA. LISA selectively interpolates samples either with the same labels but different domains or with the same domain but different labels. We analyze a linear setting and theoretically show how LISA leads to a smaller worst-group error. Empirically, we study the effectiveness of LISA on nine benchmarks ranging from subpopulation shifts to domain shifts, and we find that LISA consistently outperforms other state-of-the-art methods.
翻訳日:2022-01-04 14:46:25 公開日:2022-01-02
# 多嚢胞性卵巣症候群(polycystic ovary syndrome)の診断におけるdisparate boosting ensemble learning法の簡潔な分化

Succinct Differentiation of Disparate Boosting Ensemble Learning Methods for Prognostication of Polycystic Ovary Syndrome Diagnosis ( http://arxiv.org/abs/2201.00418v1 )

ライセンス: Link先を確認
Abhishek Gupta, Sannidhi Shetty, Raunak Joshi, Ronald Melwin Laban(参考訳) 機械学習技術を恒星精度で活用した臨床データを用いた医学的課題の予測は、現在最も重要な実世界課題の1つである。 PCOSとして知られる多嚢胞性卵巣症候群の医学的問題を考えると、15歳から49歳の女性には新たな問題となる。 本論文では,様々なブースティングアンサンブル法を用いてこの障害を診断する。 この論文では、Adaptive Boost、Gradient Boosting Machine、XGBoost、CatBoostの詳細な相違点と、データ内の隠れた異常と結果に対するその影響を示すそれぞれのパフォーマンス指標について述べています。 本論文では,コンフュージョンマトリックス,精度,リコール,F1スコア,FPR,RoC曲線,AUCなどのメトリクスを用いている。

Prognostication of medical problems using the clinical data by leveraging the Machine Learning techniques with stellar precision is one of the most important real world challenges at the present time. Considering the medical problem of Polycystic Ovary Syndrome also known as PCOS is an emerging problem in women aged from 15 to 49. Diagnosing this disorder by using various Boosting Ensemble Methods is something we have presented in this paper. A detailed and compendious differentiation between Adaptive Boost, Gradient Boosting Machine, XGBoost and CatBoost with their respective performance metrics highlighting the hidden anomalies in the data and its effects on the result is something we have presented in this paper. Metrics like Confusion Matrix, Precision, Recall, F1 Score, FPR, RoC Curve and AUC have been used in this paper.
翻訳日:2022-01-04 14:46:08 公開日:2022-01-02
# 光電界画像超解像用詳細保存変圧器

Detail-Preserving Transformer for Light Field Image Super-Resolution ( http://arxiv.org/abs/2201.00346v1 )

ライセンス: Link先を確認
Shunzhou Wang, Tianfei Zhou, Yao Lu, Huijun Di(参考訳) 近年、高分解能ビューを得るために超解像低分解能光場(LFSR)問題に取り組むために多くのアルゴリズムが開発されている。 これらのアプローチはすべて畳み込みに基づくものであり、光場固有の構造を特徴付ける必要のあるサブアパーチャ画像のグローバルリレーションモデリングにおいて、自然に弱い。 本稿では,LFSRをシーケンス・ツー・シーケンス再構成タスクとして扱うことにより,トランスフォーマー上に構築された新しい定式化を提案する。 特に,本モデルでは,垂直あるいは水平の角度ビューのサブアパーチャイメージをシーケンスとみなし,各サブアパーチャイメージの局所性も維持する空間角の局所的な自己アテンション層を通じて,各シーケンス内の長距離幾何学的依存関係を確立する。 さらに、画像の詳細をよりよく復元するために、光場の勾配マップを利用してシーケンス学習をガイドするディテール保存変換器(DPT)を提案する。 DPTは2つのブランチで構成され、それぞれがトランスフォーマーに関連付けられ、オリジナルまたはグラデーション画像シーケンスから学習する。 2つの枝は最終的に融合し、再建のための包括的な特徴表現を得る。 実世界のシーンや合成データを含む、多くの光フィールドデータセットで評価が行われる。 提案手法は他の最先端方式と比較して優れた性能を実現する。 私たちのコードは、https://github.com/B ITszwang/DPTで公開されています。

Recently, numerous algorithms have been developed to tackle the problem of light field super-resolution (LFSR), i.e., super-resolving low-resolution light fields to gain high-resolution views. Despite delivering encouraging results, these approaches are all convolution-based, and are naturally weak in global relation modeling of sub-aperture images necessarily to characterize the inherent structure of light fields. In this paper, we put forth a novel formulation built upon Transformers, by treating LFSR as a sequence-to-sequence reconstruction task. In particular, our model regards sub-aperture images of each vertical or horizontal angular view as a sequence, and establishes long-range geometric dependencies within each sequence via a spatial-angular locally-enhanced self-attention layer, which maintains the locality of each sub-aperture image as well. Additionally, to better recover image details, we propose a detail-preserving Transformer (termed as DPT), by leveraging gradient maps of light field to guide the sequence learning. DPT consists of two branches, with each associated with a Transformer for learning from an original or gradient image sequence. The two branches are finally fused to obtain comprehensive feature representations for reconstruction. Evaluations are conducted on a number of light field datasets, including real-world scenes and synthetic data. The proposed method achieves superior performance comparing with other state-of-the-art schemes. Our code is publicly available at: https://github.com/B ITszwang/DPT.
翻訳日:2022-01-04 14:26:22 公開日:2022-01-02
# TVNet: アクションローカライゼーションのための時間投票ネットワーク

TVNet: Temporal Voting Network for Action Localization ( http://arxiv.org/abs/2201.00434v1 )

ライセンス: Link先を確認
Hanyuan Wang, Dima Damen, Majid Mirmehdi and Toby Perrett(参考訳) 非トリミングビデオにおける行動局在化のための時間的投票ネットワーク(tvnet)を提案する。 これは、時間的境界を見つけるための新しい投票エビデンスモジュールを組み込み、時間的文脈的証拠を蓄積して、開始と終了の行動境界のフレームレベル確率を予測する。 我々の行動非依存エビデンスモジュールはパイプラインに組み込まれ、信頼度スコアとアクションクラスを計算します。 私たちはActivityNet-1.3で平均34.6%のmAPを達成しています。 TVNet は PGCN と 59.1% を THUMOS14 で 0.5 IoU で MUSES と組み合わせると 56.0% の mAP を達成し、全てのしきい値で先行作業より優れている。 私たちのコードはhttps://github.com/h anielwang/tvnetで利用可能です。

We propose a Temporal Voting Network (TVNet) for action localization in untrimmed videos. This incorporates a novel Voting Evidence Module to locate temporal boundaries, more accurately, where temporal contextual evidence is accumulated to predict frame-level probabilities of start and end action boundaries. Our action-independent evidence module is incorporated within a pipeline to calculate confidence scores and action classes. We achieve an average mAP of 34.6% on ActivityNet-1.3, particularly outperforming previous methods with the highest IoU of 0.95. TVNet also achieves mAP of 56.0% when combined with PGCN and 59.1% with MUSES at 0.5 IoU on THUMOS14 and outperforms prior work at all thresholds. Our code is available at https://github.com/h anielwang/TVNet.
翻訳日:2022-01-04 14:25:56 公開日:2022-01-02
# ライセンスプレート認識のためのクロスデータセット一般化について

On the Cross-dataset Generalization for License Plate Recognition ( http://arxiv.org/abs/2201.00267v1 )

ライセンス: Link先を確認
Rayson Laroca, Everton V. Cardoso, Diego R. Lucio, Valter Estevam, David Menotti(参考訳) ALPR(Automatic License Plate Recognition)システムは、ディープラーニングの進歩とデータセットの可用性の向上により、複数のリージョンのライセンスプレート(LP)に顕著な性能を示した。 深層alprシステムの評価は通常、各データセット内で行われ、その結果が一般化能力の信頼できる指標であるかどうか疑問視される。 本稿では,様々な側面(例えば取得設定,画像解像度,lpレイアウトなど)で利用可能な9つのデータセットのlp認識に適用される12の光学文字認識 (ocr) モデルのクロスデータセット一般化を実証的に評価するための,従来型スプリット対残1データセット実験的なセットアップを提案する。 我々はまた、Mercosur LPを用いた車両画像と、最も多くのオートバイ画像を含む車両画像を含む、エンドツーエンドALPRのためのパブリックデータセットも導入した。 実験結果は、alprコンテキストにおけるアプローチ評価のための従来のスプリットプロトコルの限界に光を当てた。モデルのトレーニングとテストにおいて、ほとんどのデータセットのパフォーマンスが大幅に低下するからだ。

Automatic License Plate Recognition (ALPR) systems have shown remarkable performance on license plates (LPs) from multiple regions due to advances in deep learning and the increasing availability of datasets. The evaluation of deep ALPR systems is usually done within each dataset; therefore, it is questionable if such results are a reliable indicator of generalization ability. In this paper, we propose a traditional-split versus leave-one-dataset-ou t experimental setup to empirically assess the cross-dataset generalization of 12 Optical Character Recognition (OCR) models applied to LP recognition on nine publicly available datasets with a great variety in several aspects (e.g., acquisition settings, image resolution, and LP layouts). We also introduce a public dataset for end-to-end ALPR that is the first to contain images of vehicles with Mercosur LPs and the one with the highest number of motorcycle images. The experimental results shed light on the limitations of the traditional-split protocol for evaluating approaches in the ALPR context, as there are significant drops in performance for most datasets when training and testing the models in a leave-one-dataset-ou t fashion.
翻訳日:2022-01-04 14:20:10 公開日:2022-01-02
# V-LinkNet: 生成的対向ネットワークの潜在空間をまたいだ文脈表現の学習

V-LinkNet: Learning Contextual Inpainting Across Latent Space of Generative Adversarial Network ( http://arxiv.org/abs/2201.00323v1 )

ライセンス: Link先を確認
Jireh Jam, Connah Kendrick, Vincent Drouard, Kevin Walker, Moi Hoon Yap(参考訳) ディープラーニング手法は、イメージインペイントにおける従来の手法より優れている。 文脈的テクスチャを生成するために、研究者は既存の手法を改善し、地上構造に似た特徴を抽出、伝播、再構成できるモデルを提案している。 さらに、より深い層に高品質な特徴伝達機構が欠如していることは、生成した塗膜領域における持続的収差に寄与する。 そこで我々は,v-linknet クロススペース学習戦略ネットワークを提案する。 文脈的特徴の学習を改善するために,両エンコーダを用いた損失モデルを設計する。 さらに,再帰的残留遷移層 (RSTL) を提案する。 RSTLは高レベルなセマンティック情報を抽出し、それを層下へと伝播する。 最後に,同一顔の塗装性能を異なるマスクと同一マスクで異なる顔で比較する。 画像の再現性を向上させるため,様々なマスクや画像のバイアスを克服するための標準プロトコルを提案する。 実験手法を用いてV-LinkNetコンポーネントについて検討する。 この結果は,CelebA-HQで標準プロトコルで評価した場合,技術状況を上回る。 さらに,パリス・ストリート・ビューとplaces2データセットを標準プロトコルで評価すると,このモデルはよく一般化することができる。

Deep learning methods outperform traditional methods in image inpainting. In order to generate contextual textures, researchers are still working to improve on existing methods and propose models that can extract, propagate, and reconstruct features similar to ground-truth regions. Furthermore, the lack of a high-quality feature transfer mechanism in deeper layers contributes to persistent aberrations on generated inpainted regions. To address these limitations, we propose the V-LinkNet cross-space learning strategy network. To improve learning on contextualised features, we design a loss model that employs both encoders. In addition, we propose a recursive residual transition layer (RSTL). The RSTL extracts high-level semantic information and propagates it down layers. Finally, we compare inpainting performance on the same face with different masks and on different faces with the same masks. To improve image inpainting reproducibility, we propose a standard protocol to overcome biases with various masks and images. We investigate the V-LinkNet components using experimental methods. Our result surpasses the state of the art when evaluated on the CelebA-HQ with the standard protocol. In addition, our model can generalise well when evaluated on Paris Street View, and Places2 datasets with the standard protocol.
翻訳日:2022-01-04 14:19:48 公開日:2022-01-02
# DiffuseVAE:低次元潜水剤の効率的・制御可能・高忠実化

DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from Low-Dimensional Latents ( http://arxiv.org/abs/2201.00308v1 )

ライセンス: Link先を確認
Kushagra Pandey, Avideep Mukherjee, Piyush Rai, Abhishek Kumar(参考訳) 拡散確率モデルは、いくつかの競合画像合成ベンチマークで最先端の結果を生成することが示されているが、低次元で解釈可能な潜在空間がなく、生成が遅い。 一方、変分オートエンコーダ(vaes)は典型的には低次元の潜在空間にアクセスできるが、サンプル品質は乏しい。 近年の進歩にもかかわらず、VAEは通常、高品質なサンプルを生成するために潜伏符号の高次元階層を必要とする。 本稿では,拡散モデルフレームワークにVAEを統合する新しい生成フレームワークであるDiffuseVAEについて述べる。 提案手法は,低次元VAE推論潜時符号を用いた拡散モデルを用いて,サンプリング効率の観点から非条件拡散モデルを改善することができることを示す。 さらに,提案モデルが高分解能サンプルを生成でき,標準ベンチマークにおける最先端モデルに匹敵する合成品質を示すことを示す。 最後に,提案手法は制御可能な画像合成に利用でき,画像の超解像や復調といった下流タスクのアウト・オブ・ボックス機能を示す。 再現性のため、ソースコードは \url{https://github.com/k pandey008/diffusevae } で公開されている。

Diffusion Probabilistic models have been shown to generate state-of-the-art results on several competitive image synthesis benchmarks but lack a low-dimensional, interpretable latent space, and are slow at generation. On the other hand, Variational Autoencoders (VAEs) typically have access to a low-dimensional latent space but exhibit poor sample quality. Despite recent advances, VAEs usually require high-dimensional hierarchies of the latent codes to generate high-quality samples. We present DiffuseVAE, a novel generative framework that integrates VAE within a diffusion model framework, and leverage this to design a novel conditional parameterization for diffusion models. We show that the resulting model can improve upon the unconditional diffusion model in terms of sampling efficiency while also equipping diffusion models with the low-dimensional VAE inferred latent code. Furthermore, we show that the proposed model can generate high-resolution samples and exhibits synthesis quality comparable to state-of-the-art models on standard benchmarks. Lastly, we show that the proposed method can be used for controllable image synthesis and also exhibits out-of-the-box capabilities for downstream tasks like image super-resolution and denoising. For reproducibility, our source code is publicly available at \url{https://github.com/k pandey008/DiffuseVAE }.
翻訳日:2022-01-04 14:00:57 公開日:2022-01-02
# パレートフロンティアにおける機械学習のための公正なデータ表現

Fair Data Representation for Machine Learning at the Pareto Frontier ( http://arxiv.org/abs/2201.00292v1 )

ライセンス: Link先を確認
Shizhou Xu, Thomas Strohmer(参考訳) 機械学習による意思決定は、日々の生活においてますます重要な役割を担っているため、基礎となるデータ処理とアルゴリズムの公平性を追求することが不可欠である。 本稿では,L2-目的教師付き学習アルゴリズムを用いて予測誤差と統計的不一致の間のパレートフロンティアを推定するフェアデータ表現のための前処理アルゴリズムを提案する。 特に,本研究は, 最適正定値アフィン輸送マップを用いて, 事前処理データ変形による最適公正なL2オブジェクト教師あり学習の特性評価にアプローチする。 結果のデータをWasserstein pseudo-barycenterと呼びます。 さらに,学習結果の辺縁部からバリーセンタまでのwasserstein測地線は,学習結果辺縁部におけるl2-lossと総wasserstein距離のparetoフロンティアを特徴付ける。 これにより、McCann補間の適用は、L2オブジェクトの教師付き学習アルゴリズムがパレートフロンティアをもたらすデータ表現の族に擬似バリセンタを一般化する。 Numerical simulations underscore the advantages of the proposed data representation: (1) the pre-processing step is compositive with arbitrary L2-objective supervised learning methods and unseen data; (2) the fair representation protects data privacy by preventing the training machine from direct or indirect access to the sensitive information of the data; (3) the optimal affine map results in efficient computation of fair supervised learning on high-dimensional data; (4) experimental results shed light on the fairness of L2-objective unsupervised learning via the proposed fair data representation.

As machine learning powered decision making is playing an increasingly important role in our daily lives, it is imperative to strive for fairness of the underlying data processing and algorithms. We propose a pre-processing algorithm for fair data representation via which L2- objective supervised learning algorithms result in an estimation of the Pareto frontier between prediction error and statistical disparity. In particular, the present work applies the optimal positive definite affine transport maps to approach the post-processing Wasserstein barycenter characterization of the optimal fair L2-objective supervised learning via a pre-processing data deformation. We call the resulting data Wasserstein pseudo-barycenter. Furthermore, we show that the Wasserstein geodesics from the learning outcome marginals to the barycenter characterizes the Pareto frontier between L2-loss and total Wasserstein distance among learning outcome marginals. Thereby, an application of McCann interpolation generalizes the pseudo-barycenter to a family of data representations via which L2-objective supervised learning algorithms result in the Pareto frontier. Numerical simulations underscore the advantages of the proposed data representation: (1) the pre-processing step is compositive with arbitrary L2-objective supervised learning methods and unseen data; (2) the fair representation protects data privacy by preventing the training machine from direct or indirect access to the sensitive information of the data; (3) the optimal affine map results in efficient computation of fair supervised learning on high-dimensional data; (4) experimental results shed light on the fairness of L2-objective unsupervised learning via the proposed fair data representation.
翻訳日:2022-01-04 13:54:38 公開日:2022-01-02
# ECOD:経験的累積分布関数を用いた教師なし外乱検出

ECOD: Unsupervised Outlier Detection Using Empirical Cumulative Distribution Functions ( http://arxiv.org/abs/2201.00382v1 )

ライセンス: Link先を確認
Zheng Li, Yue Zhao, Xiyang Hu, Nicola Botta, Cezar Ionescu, George H. Chen(参考訳) 外乱検出は、一般的なデータ分布から逸脱するデータポイントの識別を指す。 既存の教師なしアプローチは高い計算コスト、複雑なハイパーパラメータチューニング、限られた解釈可能性、特に大規模な高次元データセットを扱う場合にしばしば発生する。 これらの問題に対処するために,ecod(empirical-cumu lative-distribution- based outlier detection)と呼ばれる単純かつ効果的なアルゴリズムを提案する。 簡単に言うと、ecodはデータの次元ごとの経験的累積分布を計算することで、入力データの基本的な分布を非パラメトリックな方法で推定する。 次にecodは、これらの経験的分布を用いて各データポイントの次元ごとのテール確率を推定する。 最後に、ecodは、次元にわたって推定されたテール確率を集約することにより、各データポイントの外れ値を計算する。 我々は,(1)パラメータフリーかつ解釈が容易なecodと呼ばれる新しい外れ値検出手法を提案し,(2)ecodが11の最先端のベースラインよりも精度,効率,スケーラビリティにおいて優れており,(3)アクセシビリティと再現性を備えたpython実装を,30のベンチマークデータセットで広範囲に実施する。

Outlier detection refers to the identification of data points that deviate from a general data distribution. Existing unsupervised approaches often suffer from high computational cost, complex hyperparameter tuning, and limited interpretability, especially when working with large, high-dimensional datasets. To address these issues, we present a simple yet effective algorithm called ECOD (Empirical-Cumulativ e-distribution-based Outlier Detection), which is inspired by the fact that outliers are often the "rare events" that appear in the tails of a distribution. In a nutshell, ECOD first estimates the underlying distribution of the input data in a nonparametric fashion by computing the empirical cumulative distribution per dimension of the data. ECOD then uses these empirical distributions to estimate tail probabilities per dimension for each data point. Finally, ECOD computes an outlier score of each data point by aggregating estimated tail probabilities across dimensions. Our contributions are as follows: (1) we propose a novel outlier detection method called ECOD, which is both parameter-free and easy to interpret; (2) we perform extensive experiments on 30 benchmark datasets, where we find that ECOD outperforms 11 state-of-the-art baselines in terms of accuracy, efficiency, and scalability; and (3) we release an easy-to-use and scalable (with distributed support) Python implementation for accessibility and reproducibility.
翻訳日:2022-01-04 13:54:12 公開日:2022-01-02
# FUSeg:フット・潰瘍・セグメンテーション・チャレンジ

FUSeg: The Foot Ulcer Segmentation Challenge ( http://arxiv.org/abs/2201.00414v1 )

ライセンス: Link先を確認
Chuanbo Wang, Amirreza Mahbod, Isabella Ellinger, Adrian Galdran, Sandeep Gopalakrishnan, Jeffrey Niezgoda, Zeyun Yu(参考訳) 急性および慢性の創傷は、医療システムを経済的に負担する。 先進的な創傷治療市場は2024年までに220億ドルに達すると推定されている。 ワーンドケアの専門家は、画像と画像文書に大きく依存して適切な診断と治療を提供する。 傷の面積を推定し,治療の定量的測定を行うことが重要であるため,画像中の傷境界の分割はケア・診断プロトコルの重要な要素である。 残念ながら、このプロセスは非常に時間がかかり、高いレベルの専門知識が必要です。 近年,深層学習に基づく創傷分類法は有望な性能を示したが,トレーニングには大規模なデータセットが必要であり,どの手法が優れているかは不明である。 これらの課題に対処するために,2021年の医用画像コンピューティングとコンピュータ支援介入に関する国際会議(MICCAI)と連携して組織されたフット・ウルサー・セグメンテーション・チャレンジ(FUSeg)を提案する。 889例から2年以上経過した足底潰瘍像1,210例の創傷画像データセットを構築した。 創傷治療の専門家によってピクセル単位で注釈付けされ、1010イメージと200イメージの試験セットからなるトレーニングセットに分けられる。 世界中のチームが、アノテーションをプライベートに保持したテストセットの創傷のセグメンテーションを予測する自動メソッドを開発した。 予測は平均Dice係数に基づいて評価・評価された。 FUSegチャレンジは、カンファレンス後の創傷セグメンテーションのベンチマークとして、依然としてオープンな課題である。

Acute and chronic wounds with varying etiologies burden the healthcare systems economically. The advanced wound care market is estimated to reach $22 billion by 2024. Wound care professionals provide proper diagnosis and treatment with heavy reliance on images and image documentation. Segmentation of wound boundaries in images is a key component of the care and diagnosis protocol since it is important to estimate the area of the wound and provide quantitative measurement for the treatment. Unfortunately, this process is very time-consuming and requires a high level of expertise. Recently automatic wound segmentation methods based on deep learning have shown promising performance but require large datasets for training and it is unclear which methods perform better. To address these issues, we propose the Foot Ulcer Segmentation challenge (FUSeg) organized in conjunction with the 2021 International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI). We built a wound image dataset containing 1,210 foot ulcer images collected over 2 years from 889 patients. It is pixel-wise annotated by wound care experts and split into a training set with 1010 images and a testing set with 200 images for evaluation. Teams around the world developed automated methods to predict wound segmentations on the testing set of which annotations were kept private. The predictions were evaluated and ranked based on the average Dice coefficient. The FUSeg challenge remains an open challenge as a benchmark for wound segmentation after the conference.
翻訳日:2022-01-04 13:53:14 公開日:2022-01-02
# 深層学習に基づくテキスト分類アルゴリズムの実用的入力摂動に対する感度について

On Sensitivity of Deep Learning Based Text Classification Algorithms to Practical Input Perturbations ( http://arxiv.org/abs/2201.00318v1 )

ライセンス: Link先を確認
Aamir Miyajiwala, Arnav Ladkat, Samiksha Jagadale, Raviraj Joshi(参考訳) テキスト分類は自然言語処理の基本課題であり、様々な応用があり、ディープラーニングアプローチが最先端の結果を生み出している。 これらのモデルはブラックボックスの性質を強く批判されてきたが、入力テキストのわずかな摂動に対する頑健さは問題視されてきた。 本研究では, cnn, lstm, bertベースのアルゴリズムなど, ディープラーニングに基づくテキスト分類モデルの性能に対する系統的実用的摂動の影響を評価するデータに焦点を当てた研究を行う。 摂動は、モデルの最終的なパフォーマンスに最小限に関連する句読点や停止語などの不要なトークンの追加と削除によって引き起こされる。 BERTを含むこれらのディープラーニングアプローチは,SST2,TREC-6,BBC News,Tweet_evalの4つの標準ベンチマークデータセットにおいて,そのような正当な入力摂動に敏感であることを示す。 我々は、bertがトークンの追加に比べてトークンの削除に影響を受けやすいことを観察する。 さらに、LSTMはCNNベースのモデルに比べて入力摂動に対してわずかに敏感である。 この研究はまた、モデルの最終性能に対する列車試験条件の不一致の影響を評価するための実践的なガイドとしても機能する。

Text classification is a fundamental Natural Language Processing task that has a wide variety of applications, where deep learning approaches have produced state-of-the-art results. While these models have been heavily criticized for their black-box nature, their robustness to slight perturbations in input text has been a matter of concern. In this work, we carry out a data-focused study evaluating the impact of systematic practical perturbations on the performance of the deep learning based text classification models like CNN, LSTM, and BERT-based algorithms. The perturbations are induced by the addition and removal of unwanted tokens like punctuation and stop-words that are minimally associated with the final performance of the model. We show that these deep learning approaches including BERT are sensitive to such legitimate input perturbations on four standard benchmark datasets SST2, TREC-6, BBC News, and tweet_eval. We observe that BERT is more susceptible to the removal of tokens as compared to the addition of tokens. Moreover, LSTM is slightly more sensitive to input perturbations as compared to CNN based model. The work also serves as a practical guide to assessing the impact of discrepancies in train-test conditions on the final performance of models.
翻訳日:2022-01-04 13:13:00 公開日:2022-01-02
# イントロスペクティブエージェント : 身体的エージェントの戦略・生理・センシングの相互依存性

The Introspective Agent: Interdependence of Strategy, Physiology, and Sensing for Embodied Agents ( http://arxiv.org/abs/2201.00411v1 )

ライセンス: Link先を確認
Sarah Pratt, Luca Weihs, Ali Farhadi(参考訳) ここ数年は、生物を模倣する人工エージェントが複雑なタスクをこなすために相互作用から学ぶことができる、具体化aiの分野におけるかなりの進歩を目撃している。 この成功にもかかわらず、生物はこれらの模擬物質に対して大きな優位性を持っている。 生物とシミュレートされたエージェントが目標(戦略)を達成するための決定を下す一方で、生物は環境を理解し(知覚)、それに反応する(生理学)。 これらの要因の純利益は環境に依存し、生物はそれに応じて適応した。 例えば、低視力の水生環境では、捕食者から逃れるための予測可能な、しかし驚くほど速い戦略を提供する特定のニューロンが進化してきた。 哺乳類はこれらの反応系を失ったが、より広い視野と脳回路を持ち、将来の可能性を理解することができる。 従来の実施エージェントは、最もゴールを達成するために環境を操作するが、我々は、その環境の文脈で自身の能力を考える内省的なエージェントを議論する。 異なる環境が最適設計に大きく異なることを示し,長期計画の増加は,物理的能力の増大など,他の改善と比べ,あまり利益を得られないことが多い。 本研究は,ますます複雑なモデルに合格する具体化aiの改善の定義を広げるために,これらの知見を提案する。 自然と同じように、私たちは戦略をひとつのツールとして再編成して、環境において成功させたいと考えています。 コードは、https://github.com/s arahpratt/introspect ive.comで入手できる。

The last few years have witnessed substantial progress in the field of embodied AI where artificial agents, mirroring biological counterparts, are now able to learn from interaction to accomplish complex tasks. Despite this success, biological organisms still hold one large advantage over these simulated agents: adaptation. While both living and simulated agents make decisions to achieve goals (strategy), biological organisms have evolved to understand their environment (sensing) and respond to it (physiology). The net gain of these factors depends on the environment, and organisms have adapted accordingly. For example, in a low vision aquatic environment some fish have evolved specific neurons which offer a predictable, but incredibly rapid, strategy to escape from predators. Mammals have lost these reactive systems, but they have a much larger fields of view and brain circuitry capable of understanding many future possibilities. While traditional embodied agents manipulate an environment to best achieve a goal, we argue for an introspective agent, which considers its own abilities in the context of its environment. We show that different environments yield vastly different optimal designs, and increasing long-term planning is often far less beneficial than other improvements, such as increased physical ability. We present these findings to broaden the definition of improvement in embodied AI passed increasingly complex models. Just as in nature, we hope to reframe strategy as one tool, among many, to succeed in an environment. Code is available at: https://github.com/s arahpratt/introspect ive.
翻訳日:2022-01-04 13:02:31 公開日:2022-01-02