このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220308となっている論文です。

PDF登録状況(公開日: 20220308)

TitleAuthorsAbstract論文公表日・翻訳日
# QCRIの「COVID-19情報発信装置」:ソーシャルメディア上での「COVID-19情報デミック」対策

QCRI's COVID-19 Disinformation Detector: A System to Fight the COVID-19 Infodemic in Social Media ( http://arxiv.org/abs/2204.03506v1 )

ライセンス: Link先を確認
Preslav Nakov, Firoj Alam, Yifan Zhang, Animesh Prakash, Fahim Dalvi(参考訳) 世界保健機関(WHO)は、新型コロナウイルス(COVID-19)の感染拡大以降、世界保健機関(WHO)が目指す最も重要な分野の一つと宣言した。 消費され散布される情報は、偽の治療法、噂、陰謀説を宣伝してキセノフォビアやパニックを広める一方で、政策立案者のような様々な利害関係者を支援する情報(例えば、アドバイスを含む)が存在する。 ソーシャルメディアプラットフォームはインフォデミックを可能にし、そのようなプラットフォーム上のコンテンツをキュレートし、分析し、削除する努力がなされている。 このような情報の1つまたは2つの側面(例えば、事実を検知する)を考慮しながら、本研究では、api,\url{https://app.swaggerh ub.com/apis/yifan201 9/tanbih/0.8.0/} とデモシステムである\url{https://covid19.tanb ih.org} を含む多面的なアプローチに注目する。 これは研究者と異なる利害関係者の助けになると思います。 APIサービスとデモのスクリーンキャストが公開されている。 https://youtu.be/zhb csvxekmk}

Fighting the ongoing COVID-19 infodemic has been declared as one of the most important focus areas by the World Health Organization since the onset of the COVID-19 pandemic. While the information that is consumed and disseminated consists of promoting fake cures, rumors, and conspiracy theories to spreading xenophobia and panic, at the same time there is information (e.g., containing advice, promoting cure) that can help different stakeholders such as policy-makers. Social media platforms enable the infodemic and there has been an effort to curate the content on such platforms, analyze and debunk them. While a majority of the research efforts consider one or two aspects (e.g., detecting factuality) of such information, in this study we focus on a multifaceted approach, including an API,\url{https://app.swaggerh ub.com/apis/yifan201 9/Tanbih/0.8.0/} and a demo system,\url{https://covid19.tanb ih.org}, which we made freely and publicly available. We believe that this will facilitate researchers and different stakeholders. A screencast of the API services and demo is available.\url{https://youtu.be/zhb cSvxEKMk}
翻訳日:2022-04-10 11:10:35 公開日:2022-03-08
# (参考訳) 不均一情報ネットワークにおける強化MOOCs概念勧告 [全文訳有]

Reinforced MOOCs Concept Recommendation in Heterogeneous Information Networks ( http://arxiv.org/abs/2203.11011v1 )

ライセンス: CC BY 4.0
Jibing Gong, Yao Wan, Ye Liu, Xuewen Li, Yi Zhao, Cheng Wang, Qing Li, Wenzheng Feng, Jie Tang(参考訳) 大規模オープンオンラインコース(moocs)は、大規模なインタラクティブな参加とwebによるオープンアクセスを提供するが、オンラインと遠隔教育のモディッシュな方法になりつつある。 学習体験を改善するために、多くのMOOCプラットフォームはユーザーにコースを推薦するサービスを提供している。 しかし、私たちは、ユーザーに直接コースを推薦することは、異なるユーザの専門レベルを無視する、と論じている。 このギャップを埋めるため,本稿では,概念推薦の問題をよりきめ細かい視点で検討する。 そこで我々は,MOOCにおける概念推薦に組み込まれた強化学習(HinCRec-RL)を用いた,異種情報ネットワークに基づくコンセプトレコメンデーションを提案する。 具体的には、まずMOOCにおける概念推薦を強化学習問題として定式化し、ユーザと知識概念間の動的相互作用をより良くモデル化する。 さらに、他の多くのレコメンデーションタスクにも存在しているデータ空間の問題を軽減するために、ユーザ、コース、ビデオ、コンセプト間の異種情報ネットワーク(HIN)を検討し、ユーザのセマンティック表現をよりよく学習する。 特に,hin上のメタパスを用いてユーザの好みの伝達を誘導し,メタパスを表現するために異種グラフアテンションネットワークを提案する。 提案手法の有効性を検証するため,中国発のmoocプラットフォームであるxuetangxによる実世界のデータセットを総合的に実験した。 有望な結果は,提案手法が他のベースラインより優れていることを示している。

Massive open online courses (MOOCs), which provide a large-scale interactive participation and open access via the web, are becoming a modish way for online and distance education. To help users have a better study experience, many MOOC platforms have provided the services of recommending courses to users. However, we argue that directly recommending a course to users will ignore the expertise levels of different users. To fill this gap, this paper studies the problem of concept recommendation in a more fine-grained view. We propose a novel Heterogeneous Information Networks based Concept Recommender with Reinforcement Learning (HinCRec-RL) incorporated for concept recommendation in MOOCs. Specifically, we first formulate the concept recommendation in MOOCs as a reinforcement learning problem to better model the dynamic interaction among users and knowledge concepts. In addition, to mitigate the data sparsity issue which also exists in many other recommendation tasks, we consider a heterogeneous information network (HIN) among users, courses, videos and concepts, to better learn the semantic representation of users. In particular, we use the meta-paths on HIN to guide the propagation of users' preferences and propose a heterogeneous graph attention network to represent the meta-paths. To validate the effectiveness of our proposed approach, we conduct comprehensive experiments on a real-world dataset from XuetangX, a popular MOOC platform from China. The promising results show that our proposed approach can outperform other baselines.
翻訳日:2022-04-03 19:57:09 公開日:2022-03-08
# 画像処理と幾何計算による目標車両の位置推定

Geolocation estimation of target vehicles using image processing and geometric computation ( http://arxiv.org/abs/2203.10938v1 )

ライセンス: Link先を確認
Elnaz Namazi and Rudolf Mester and Chaoru Lu and Jingyue Li(参考訳) 車両の位置を推定することは、交通シーンの認識を高めるためのインテリジェント交通管理システム(ITMS)における重要な要素の1つである。 伝統的に、この点において静止センサーが用いられている。 最新の車両(MV)における高度なセンシング・通信技術の開発により、移動体センサーなどの車両を用いて観測車両の交通データを推定することが可能になった。 本研究では,gps(global positioning system)座標系における観測車両の位置を推定するために,mvに搭載された単眼カメラの能力を検討することを目的とした。 本研究では,深層学習,画像処理,幾何計算を統合した新しい手法を提案する。 提案手法を評価するために,新しいアルゴリズムを開発し,実世界のトラヒックデータを用いてテストを行った。 その結果,提案手法とアルゴリズムにより観測車両の緯度と経度を動的に推定できることが示唆された。

Estimating vehicles' locations is one of the key components in intelligent traffic management systems (ITMSs) for increasing traffic scene awareness. Traditionally, stationary sensors have been employed in this regard. The development of advanced sensing and communication technologies on modern vehicles (MVs) makes it feasible to use such vehicles as mobile sensors to estimate the traffic data of observed vehicles. This study aims to explore the capabilities of a monocular camera mounted on an MV in order to estimate the geolocation of the observed vehicle in a global positioning system (GPS) coordinate system. We proposed a new methodology by integrating deep learning, image processing, and geometric computation to address the observed-vehicle localization problem. To evaluate our proposed methodology, we developed new algorithms and tested them using real-world traffic data. The results indicated that our proposed methodology and algorithms could effectively estimate the observed vehicle's latitude and longitude dynamically.
翻訳日:2022-03-27 05:47:17 公開日:2022-03-08
# 解析バグ検出器における偽陽性率の低減

Learning to Reduce False Positives in Analytic Bug Detectors ( http://arxiv.org/abs/2203.09907v1 )

ライセンス: Link先を確認
Anant Kharkar, Roshanak Zilouchian Moghaddam, Matthew Jin, Xiaoyu Liu, Xin Shi, Colin Clement, Neel Sundaresan(参考訳) ますます複雑なソフトウェア設計と迅速な反復開発のため、コード欠陥とセキュリティの脆弱性は現代のソフトウェアで広く使われている。 プログラマは静的解析ツールを使ってコードベースを定期的にスキャンし、潜在的なバグを見つける。 しかし、カバレッジを最大化するために、これらのツールは一般的にかなりの数の偽陽性を報告し、開発者は各警告を手動で検証する必要がある。 そこで本研究では,誤検出を検知するためのトランスフォーマーベースの学習手法を提案する。 我々は,静的解析の精度を17.5%向上させることができることを示した。 さらに、このアプローチの汎用性は、nullの参照とリソースリークの2つの主要なバグタイプにまたがって検証した。

Due to increasingly complex software design and rapid iterative development, code defects and security vulnerabilities are prevalent in modern software. In response, programmers rely on static analysis tools to regularly scan their codebases and find potential bugs. In order to maximize coverage, however, these tools generally tend to report a significant number of false positives, requiring developers to manually verify each warning. To address this problem, we propose a Transformer-based learning approach to identify false positive bug warnings. We demonstrate that our models can improve the precision of static analysis by 17.5%. In addition, we validated the generalizability of this approach across two major bug types: null dereference and resource leak.
翻訳日:2022-03-27 05:46:21 公開日:2022-03-08
# (参考訳) フェアネスの長い弧:形式化と倫理的談話 [全文訳有]

The Long Arc of Fairness: Formalisations and Ethical Discourse ( http://arxiv.org/abs/2203.06038v1 )

ライセンス: CC BY 4.0
Pola Schw\"obel, Peter Remmers(参考訳) 近年、アルゴリズム的意思決定(adm)のための形式化とモデリングの公平性が、高度な専門化のポイントへと発展してきた。 しかし、技術(形式化された)と公正に関する倫理的談話の関係は必ずしも明確で生産的ではない。 代替的な視点を求めて、既存の公正度指標をレビューし、いくつかの共通問題について議論する。 例えば、手続きと分布の公平性はしばしば形式化され、静的に議論され、現状の構造的前提条件と与えられた介入の下流効果の両方を無視している。 次に,形式的公平度メトリクスを倫理的談話の議論で再定義する,より包括的なアプローチである動的公平度モデリングを紹介する。 ダイナミックフェアネスモデルには,(1)倫理的目標,(2)意思決定手順と結果の定量化のための形式的指標,(3)中期的あるいは長期的下流効果が組み込まれている。 フェアネス関連プロセスのこれらの要素を文脈化することにより、ダイナミックフェアネスモデリングは、以前は遅滞した倫理的側面を明示し、異なるフェアネス介入間のトレードオフをナビゲートする便利なツールを提供する。 このフレームワークを説明するために、私たちはサンプルアプリケーション、例えばクォータソリューションを通じて、企業のボード上の女性数を増やそうとする現在のヨーロッパの取り組み、および私たちのフレームワークに適合する初期の技術作業について論じます。

In recent years, the idea of formalising and modelling fairness for algorithmic decision making (ADM) has advanced to a point of sophisticated specialisation. However, the relations between technical (formalised) and ethical discourse on fairness are not always clear and productive. Arguing for an alternative perspective, we review existing fairness metrics and discuss some common issues. For instance, the fairness of procedures and distributions is often formalised and discussed statically, disregarding both structural preconditions of the status quo and downstream effects of a given intervention. We then introduce dynamic fairness modelling, a more comprehensive approach that realigns formal fairness metrics with arguments from the ethical discourse. A dynamic fairness model incorporates (1) ethical goals, (2) formal metrics to quantify decision procedures and outcomes and (3) mid-term or long-term downstream effects. By contextualising these elements of fairness-related processes, dynamic fairness modelling explicates formerly latent ethical aspects and thereby provides a helpful tool to navigate trade-offs between different fairness interventions. To illustrate the framework, we discuss an example application -- the current European efforts to increase the number of women on company boards, e.g. via quota solutions -- and present early technical work that fits within our framework.
翻訳日:2022-03-20 23:28:14 公開日:2022-03-08
# モデル位置性と計算反射性:データサイエンスにおける反射性促進

Model Positionality and Computational Reflexivity: Promoting Reflexivity in Data Science ( http://arxiv.org/abs/2203.07031v1 )

ライセンス: Link先を確認
Scott Allen Cambo, Darren Gergle(参考訳) データサイエンスと機械学習は、大規模に現象を理解するのに欠かせない技術を提供するが、この研究を行う際の決定的な選択はしばしば認識されない。 定性的研究の実践から、位置性や反射性の概念をどのように適応させ、データサイエンスの作業に固有の決定的選択と主観性を理解し、議論し、開示するための枠組みを提供するかを記述する。 まず、データ科学者がモデルの開発と使用の社会的・文化的文脈、データアノテータとそのアノテーション、そしてデータ科学者自身を反映し、伝達するのに役立つモデル位置性と計算反射率の概念を紹介します。 次に,これらの概念をデータサイエンスの仕事に適応させるというユニークな課題を説明し,アノテータのフィンガープリントと位置マイニングを有望なソリューションとして提供する。 最後に,これらの手法を,オンラインコミュニティにおける有害コメントの分類器の開発を事例として紹介する。

Data science and machine learning provide indispensable techniques for understanding phenomena at scale, but the discretionary choices made when doing this work are often not recognized. Drawing from qualitative research practices, we describe how the concepts of positionality and reflexivity can be adapted to provide a framework for understanding, discussing, and disclosing the discretionary choices and subjectivity inherent to data science work. We first introduce the concepts of model positionality and computational reflexivity that can help data scientists to reflect on and communicate the social and cultural context of a model's development and use, the data annotators and their annotations, and the data scientists themselves. We then describe the unique challenges of adapting these concepts for data science work and offer annotator fingerprinting and position mining as promising solutions. Finally, we demonstrate these techniques in a case study of the development of classifiers for toxic commenting in online communities.
翻訳日:2022-03-20 23:10:50 公開日:2022-03-08
# アドホックエージェント協調のためのオンザフライ戦略適応

On-the-fly Strategy Adaptation for ad-hoc Agent Coordination ( http://arxiv.org/abs/2203.08015v1 )

ライセンス: Link先を確認
Jaleh Zand, Jack Parker-Holder, Stephen J. Roberts(参考訳) 協調的な環境での訓練エージェントは、現実世界の人間(および他のエージェント)と効果的に対話できるAIエージェントの約束を提供する。 マルチエージェント強化学習(MARL)はこの目標を達成する可能性があり、一連の課題において成功を示す。 しかし、これらの進歩は重要なものであるが、ほとんどの焦点は自己再生パラダイムに向けられている。 これはしばしば協調問題を引き起こし、エージェントが自分自身で遊んでいるときに任意の慣習を使うように学習することで引き起こされる。 これは、最強のセルフプレイエージェントであっても、同じアルゴリズムの他の初期化を含む他のエージェントとのクロスプレイが非常に低いことを意味する。 本稿では,他のエージェントの戦略に対する後続の信念を用いて,エージェント戦略をその場で適応させることにより,この問題を解決することを提案する。 具体的には、予め訓練されたエージェントの有限セットから戦略を選択することで、未知のパートナーと対戦する問題を考える。 本稿では,従来の統計手法であるギブスサンプリングを拡張し,他のエージェントに対する信念を更新し,最適なアドホック性能を得る。 その単純さにもかかわらず,本手法は,ハナビの挑戦的なカードゲームにおいて,未確認のパートナーと強いクロスプレイを達成でき,パートナーの戦略を事前に知ることなく,アドホックなコーディネーションを成功させることができる。

Training agents in cooperative settings offers the promise of AI agents able to interact effectively with humans (and other agents) in the real world. Multi-agent reinforcement learning (MARL) has the potential to achieve this goal, demonstrating success in a series of challenging problems. However, whilst these advances are significant, the vast majority of focus has been on the self-play paradigm. This often results in a coordination problem, caused by agents learning to make use of arbitrary conventions when playing with themselves. This means that even the strongest self-play agents may have very low cross-play with other agents, including other initializations of the same algorithm. In this paper we propose to solve this problem by adapting agent strategies on the fly, using a posterior belief over the other agents' strategy. Concretely, we consider the problem of selecting a strategy from a finite set of previously trained agents, to play with an unknown partner. We propose an extension of the classic statistical technique, Gibbs sampling, to update beliefs about other agents and obtain close to optimal ad-hoc performance. Despite its simplicity, our method is able to achieve strong cross-play with unseen partners in the challenging card game of Hanabi, achieving successful ad-hoc coordination without knowledge of the partner's strategy a priori.
翻訳日:2022-03-20 22:50:13 公開日:2022-03-08
# 領域V4における二流変圧器の関節回転不変性と対向訓練による脳スコアの出力状態

Joint rotational invariance and adversarial training of a dual-stream Transformer yields state of the art Brain-Score for Area V4 ( http://arxiv.org/abs/2203.06649v1 )

ライセンス: Link先を確認
William Berrios, Arturo Deza(参考訳) 現代の脳スコア競争における視覚のハイスケーリングモデルは、視覚トランスフォーマーに起因しない。 However, in this short paper, we provide evidence against the unexpected trend of Vision Transformers (ViT) being not perceptually aligned with human visual representations by showing how a dual-stream Transformer, a CrossViT$~\textit{a la}$ Chen et al. (2021), under a joint rotationally-invaria nt and adversarial optimization procedure yields 2nd place in the aggregate Brain-Score 2022 competition averaged across all visual categories, and currently (March 1st, 2022) holds the 1st place for the highest explainable variance of area V4. さらに,本モデルでは,前部V1ライクな計算モジュール(Dapello et al.,2020)を統合した生物学的にインスパイアされたCNN(ResNet50)よりも,V4,IT,ビヘイビアの領域に説明可能な分散を実現する。 私たちのチームは、領域ごとの相違と視覚的階層の深さとの間に正のランク相関を示すトップ5の唯一のエントリーでした。 最初の期待に反して、これらの結果は、ビジョントランスフォーマーのような生物学的に動機づけられない視覚モデルであっても、共同最適化ルールによって強制される$\textit{"All Road led to Rome"の仮サポートを提供する。

Modern high-scoring models of vision in the brain score competition do not stem from Vision Transformers. However, in this short paper, we provide evidence against the unexpected trend of Vision Transformers (ViT) being not perceptually aligned with human visual representations by showing how a dual-stream Transformer, a CrossViT$~\textit{a la}$ Chen et al. (2021), under a joint rotationally-invaria nt and adversarial optimization procedure yields 2nd place in the aggregate Brain-Score 2022 competition averaged across all visual categories, and currently (March 1st, 2022) holds the 1st place for the highest explainable variance of area V4. In addition, our current Transformer-based model also achieves greater explainable variance for areas V4, IT and Behaviour than a biologically-inspire d CNN (ResNet50) that integrates a frontal V1-like computation module(Dapello et al.,2020). Our team was also the only entry in the top-5 that shows a positive rank correlation between explained variance per area and depth in the visual hierarchy. Against our initial expectations, these results provide tentative support for an $\textit{"All roads lead to Rome"}$ argument enforced via a joint optimization rule even for non biologically-motivat ed models of vision such as Vision Transformers.
翻訳日:2022-03-20 22:49:50 公開日:2022-03-08
# まれな課題:法的aiにおける参加型設計

An Uncommon Task: Participatory Design in Legal AI ( http://arxiv.org/abs/2203.06246v1 )

ライセンス: Link先を確認
Fernando Delgado, Solon Barocas, and Karen Levy(参考訳) AI設計への参加を求める声が高まっているが、これらのプロセスがどのようなもので、ドメインの専門家と有意義な関わりのためにどのように構成されるかについての実証的研究は、今のところほとんどない。 本稿では、10年以上前に起きた法律分野における注目すべき、しかし未熟なai設計プロセスについて検討する。 具体的には,全国標準技術研究所主催の計算研究施設であるTeXT Retrieval Conference's Legal Trackにおいて,2006年から2011年にかけて行われた設計と評価活動について検討する。 TRECの法的な追跡は、AI研究と実践の歴史において、新たな計算技術の設計と評価を容易にするための様々な参加的アプローチに依存しているため、特に注目されている。 TREC法定トラックのコーディネーターとのインタビューや考古学的研究に基づいて,コンピュータ科学者と弁護士が共同設計者になるためのインタラクティブなシミュレーション手法が,計算研究と実世界の高度な訴訟の実践の橋渡しにどのように役立ったかを明らかにする。 この事例を最近の事例から分析するために,我々は,AI開発と評価の現代的批判を実証的に根ざし,それに対応する手段として,より大きな参加を求めることを目的としている。

Despite growing calls for participation in AI design, there are to date few empirical studies of what these processes look like and how they can be structured for meaningful engagement with domain experts. In this paper, we examine a notable yet understudied AI design process in the legal domain that took place over a decade ago, the impact of which still informs legal automation efforts today. Specifically, we examine the design and evaluation activities that took place from 2006 to 2011 within the TeXT Retrieval Conference's (TREC) Legal Track, a computational research venue hosted by the National Institute of Standards and Technologies. The Legal Track of TREC is notable in the history of AI research and practice because it relied on a range of participatory approaches to facilitate the design and evaluation of new computational techniques--in this case, for automating attorney document review for civil litigation matters. Drawing on archival research and interviews with coordinators of the Legal Track of TREC, our analysis reveals how an interactive simulation methodology allowed computer scientists and lawyers to become co-designers and helped bridge the chasm between computational research and real-world, high-stakes litigation practice. In analyzing this case from the recent past, our aim is to empirically ground contemporary critiques of AI development and evaluation and the calls for greater participation as a means to address them.
翻訳日:2022-03-20 22:48:21 公開日:2022-03-08
# 個人データの代わりに生成モデルを共有する:マンモグラフィパッチ分類のシミュレーション研究

Sharing Generative Models Instead of Private Data: A Simulation Study on Mammography Patch Classification ( http://arxiv.org/abs/2203.04961v1 )

ライセンス: Link先を確認
Zuzanna Szafranowska, Richard Osuala, Bennet Breier, Kaisar Kushibar, Karim Lekadir, Oliver Diaz(参考訳) 深層学習に基づくコンピュータ支援検出システムによるマンモグラフィ検診における乳がん早期発見は,乳がんの治癒率と死亡率の向上に有望な可能性を示している。 しかし、多くの臨床センターは、そのようなモデルを訓練するために利用可能なデータの量と多様性に制限されている。 (i)有望な業績を達成すること、及び (ii)取得プロトコルとドメインをまたがってよく一般化する。 患者プライバシーの懸念からセンター間でのデータ共有は制限されているため、実際の患者データの代わりにセンター間でトレーニングされた生成モデルを共有するという潜在的な解決策を提案する。 本研究では、3つの有名なマンモグラフィーデータセットを用いて3つのセンターをシミュレートし、1つのセンターが残りの2つのセンターからGAN(Generative Adversarial Networks)の訓練されたジェネレータを受信し、トレーニングデータセットのサイズと不均一性を増大させる。 2つの異なる分類モデルを用いて,GAN受信センタのテストセットにおけるマンモグラフィーパッチ分類の有用性を評価した。 (a)畳み込みニューラルネットワーク及び (b)トランスフォーマーニューラルネットワーク。 実験の結果,共有GANは変圧器と畳み込み分類モデルの両方の性能を顕著に向上させ,この手法を中心的データ共有の代替手段として強調した。

Early detection of breast cancer in mammography screening via deep-learning based computer-aided detection systems shows promising potential in improving the curability and mortality rates of breast cancer. However, many clinical centres are restricted in the amount and heterogeneity of available data to train such models to (i) achieve promising performance and to (ii) generalise well across acquisition protocols and domains. As sharing data between centres is restricted due to patient privacy concerns, we propose a potential solution: sharing trained generative models between centres as substitute for real patient data. In this work, we use three well known mammography datasets to simulate three different centres, where one centre receives the trained generator of Generative Adversarial Networks (GANs) from the two remaining centres in order to augment the size and heterogeneity of its training dataset. We evaluate the utility of this approach on mammography patch classification on the test set of the GAN-receiving centre using two different classification models, (a) a convolutional neural network and (b) a transformer neural network. Our experiments demonstrate that shared GANs notably increase the performance of both transformer and convolutional classification models and highlight this approach as a viable alternative to inter-centre data sharing.
翻訳日:2022-03-11 13:15:16 公開日:2022-03-08
# (参考訳) 拡散モデルサンプリングによる高信頼アンダーサンプルMR再構成に向けて [全文訳有]

Towards performant and reliable undersampled MR reconstruction via diffusion model sampling ( http://arxiv.org/abs/2203.04292v1 )

ライセンス: CC BY 4.0
Cheng Peng, Pengfei Guo, S. Kevin Zhou, Vishal Patel, Rama Chellappa(参考訳) アンダーサンプル取得によるMR画像再構成により,スキャン時間が短縮される。 この目的のために、現在のState-of-The-Art(SoT A)アプローチでは、ディープニューラルネットワークと教師付きトレーニングを使用してリカバリモデルを学ぶ。 これらのアプローチは印象的な性能を達成するが、学習されたモデルは、例えば異なる加速係数が与えられた場合など、目に見えない劣化に対して脆弱である。 これらの手法は一般に決定論的であり、不適切な問題に対する単一の解決策を提供する。 拡散モデルに基づく新しいMR再構成法であるDiffuseReconを紹介する。 DiffuseReconは、観測された信号と事前訓練された拡散モデルに基づいて生成プロセスをガイドし、特定の加速因子に関する追加のトレーニングを必要としない。 DiffuseReconは本質的に確率的であり、完全にサンプリングされたMR画像の分布から結果を生成する。 最後に、DiffuseReconは、最も可能性の高い再構築候補を近似するために、加速された、粗いモンテカルロサンプリングスキームを提案する。 提案したDiffuseReconは、高速MRIおよびSKM-TEAにおける生取得信号から再構成したSoTA性能を実現する。

Magnetic Resonance (MR) image reconstruction from under-sampled acquisition promises faster scanning time. To this end, current State-of-The-Art (SoTA) approaches leverage deep neural networks and supervised training to learn a recovery model. While these approaches achieve impressive performances, the learned model can be fragile on unseen degradation, e.g. when given a different acceleration factor. These methods are also generally deterministic and provide a single solution to an ill-posed problem; as such, it can be difficult for practitioners to understand the reliability of the reconstruction. We introduce DiffuseRecon, a novel diffusion model-based MR reconstruction method. DiffuseRecon guides the generation process based on the observed signals and a pre-trained diffusion model, and does not require additional training on specific acceleration factors. DiffuseRecon is stochastic in nature and generates results from a distribution of fully-sampled MR images; as such, it allows us to explicitly visualize different potential reconstruction solutions. Lastly, DiffuseRecon proposes an accelerated, coarse-to-fine Monte-Carlo sampling scheme to approximate the most likely reconstruction candidate. The proposed DiffuseRecon achieves SoTA performances reconstructing from raw acquisition signals in fastMRI and SKM-TEA.
翻訳日:2022-03-11 09:52:00 公開日:2022-03-08
# (参考訳) NaviAirway: 気管支鏡検査のための深層学習型気道セグメンテーションパイプライン [全文訳有]

NaviAirway: a bronchiole-sensitive deep learning-based airway segmentation pipeline for planning of navigation bronchoscopy ( http://arxiv.org/abs/2203.04294v1 )

ライセンス: CC BY 4.0
Andong Wang, Terence Chi Chun Tam, Ho Ming Poon, Kun-Chang Yu, and Wei-Ning Lee(参考訳) ナビゲーション気管支鏡(navigation bronchoscopy)は、患者の気道に気管支鏡を通し、対象の肺病変を採取する、最小限の侵襲的手術である。 コンピュータ・トモグラフィー(CT)スキャンから再構成した3次元の気道ロードマップは、特に標的が離れた位置にある場合、この手順の前提条件である。 したがって, 気管支科医のプロシージャ前気道識別に対する負担軽減と, 長期経過中の患者の不快感を軽減するために, 正確かつ効率的な気道分割アルゴリズムが不可欠である。 しかし、本質的な複雑な木のような構造、気道枝の大きさの不均衡、CTスキャンの潜在的な領域シフト、利用可能なラベル付き画像が少ないため、気道セグメンテーションは依然として困難な課題である。 そこで本研究では,モデルアーキテクチャ設計における特徴抽出モジュール,ブロンキオール感応的損失関数,人間ビジョンに触発された反復的トレーニング戦略,ラベルのないCT画像を利用するための半教師付き学習フレームワーク,という,4つの新しいコンポーネントを通じて,より微細な気管支拡張を行うNaviAirwayというディープラーニングベースのパイプラインを提案する。 実験の結果,NaviAirwayは既存の方法よりも優れており,特に新しいCTスキャンに対する高次気管支の同定と堅牢性を示した。 NaviAirwayは平均5分で、1人の患者のCTスキャンをGPU内蔵コンピューターに分割する。 さらに,より包括的かつ公平な評価のために,従来の手法を補完する2つの新しい指標を提案する。 コードはhttps://github.com/A ntonotnaWang/NaviAir wayで公開されている。

Navigation bronchoscopy is a minimally invasive procedure in which doctors pass a bronchoscope into a subject's airways to sample the target pulmonary lesion. A three-dimensional (3D) airway roadmap reconstructed from Computer Tomography (CT) scans is a prerequisite for this procedure, especially when the target is distally located. Therefore, an accurate and efficient airway segmentation algorithm is essential to reduce bronchoscopists' ; burden of pre-procedural airway identification as well as patients' discomfort during the prolonged procedure. However, airway segmentation remains a challenging task because of the intrinsic complex tree-like structure, imbalanced sizes of airway branches, potential domain shifts of CT scans, and few available labeled images. To address these problems, we present a deep learning-based pipeline, denoted as NaviAirway, which finds finer bronchioles through four major novel components - feature extractor modules in model architecture design, a bronchiole-sensitive loss function, a human-vision-inspire d iterative training strategy, and a semi-supervised learning framework to utilize unlabeled CT images. Experimental results showed that NaviAirway outperformed existing methods, particularly in identification of higher generation bronchioles and robustness to new CT scans. On average, NaviAirway takes five minutes to segment the CT scans of one patient on a GPU-embedded computer. Moreover, we propose two new metrics to complement conventional ones for a more comprehensive and fairer evaluation of deep learning-based airway segmentation approaches. The code is publicly available on https://github.com/A ntonotnaWang/NaviAir way.
翻訳日:2022-03-11 09:39:52 公開日:2022-03-08
# (参考訳) マルチサイト・ライフスパン脳頭蓋骨ストリッピングのためのソースフリードメイン適応 [全文訳有]

Source-free Domain Adaptation for Multi-site and Lifespan Brain Skull Stripping ( http://arxiv.org/abs/2203.04299v1 )

ライセンス: CC BY 4.0
Yunxiang Li, Ruilong Dan, Shuai Wang, Yifan Cao, Xiangde Luo, Chenghao Tan, Gangyong Jia, Huiyu Zhou, Yaqi Wang, Li Wang(参考訳) 頭蓋骨のストリッピングは、脳磁気共鳴(mr)画像の解析において重要な必須段階である。 多くの優れた作品やツールが提案されているが、それらは低い一般化能力に悩まされている。 例えば、特定のイメージングパラメータ(ソースドメイン)を持つデータセットでトレーニングされたモデルは、異なるイメージングパラメータ(ターゲットドメイン)を持つ他のデータセットにはうまく適用できない。 特に、ライフスパンデータセットでは、大人データセットでトレーニングされたモデルは、ドメイン差が大きいため、幼児データセットには適用されない。 この問題に対処するために、ソースとターゲットドメイン間で抽出された特徴を整列するために、複数のドメイン適応(DA)手法が提案され、両方のドメインの入力画像に同時アクセスする必要がある。 残念ながら、プライバシーのために画像を共有するのは問題です。 本稿では,ソース領域画像にアクセスせずにドメイン適応を実現するマルチサイトストリッピングとライフスパンストリッピングのためのソースフリードメイン適応フレームワーク(sdaf)を設計する。 本手法では,ソースドメインの主題からプライベート情報を開示することなく,ソースラベルを形状辞書やソースデータに基づいてトレーニングした重みとして共有する。 マルチサイトライフスパンデータセット間の領域シフトに対処するために,画像パラメータや年齢に不変な脳形状を前もって活用する。 実験により、我々のフレームワークはマルチサイトライフスパンデータセットにおける最先端の手法を大幅に上回ることを示す。

Skull stripping is a crucial prerequisite step in the analysis of brain magnetic resonance (MR) images. Although many excellent works or tools have been proposed, they suffer from low generalization capability. For instance, the model trained on a dataset with specific imaging parameters (source domain) cannot be well applied to other datasets with different imaging parameters (target domain). Especially, for the lifespan datasets, the model trained on an adult dataset is not applicable to an infant dataset due to the large domain difference. To address this issue, numerous domain adaptation (DA) methods have been proposed to align the extracted features between the source and target domains, requiring concurrent access to the input images of both domains. Unfortunately, it is problematic to share the images due to privacy. In this paper, we design a source-free domain adaptation framework (SDAF) for multi-site and lifespan skull stripping that can accomplish domain adaptation without access to source domain images. Our method only needs to share the source labels as shape dictionaries and the weights trained on the source data, without disclosing private information from source domain subjects. To deal with the domain shift between multi-site lifespan datasets, we take advantage of the brain shape prior which is invariant to imaging parameters and ages. Experiments demonstrate that our framework can significantly outperform the state-of-the-art methods on multi-site lifespan datasets.
翻訳日:2022-03-11 09:11:59 公開日:2022-03-08
# (参考訳) 動的二重出力拡散モデル [全文訳有]

Dynamic Dual-Output Diffusion Models ( http://arxiv.org/abs/2203.04304v1 )

ライセンス: CC BY 4.0
Yaniv Benny, Lior Wolf(参考訳) 反復分解に基づく生成は、拡散モデル(denoising diffusion model)としても知られ、最近、他の生成モデルのクラスに匹敵する品質を示し、それらを超えている。 特に、画像生成の多くのサブタスクで現在最先端にある生成的敵ネットワークを含む。 しかし、この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。 近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下し、生成時に繰り返しが徐々に減少する。 本稿では,拡散モデルの生成品質に影響を及ぼす原因のいくつかを明らかにする。 本稿では,2つの逆微分方程式について考察し,第1は適用雑音を,第2は直接画像を予測する。 私たちのソリューションは2つの選択肢を取り、デノナイジングプロセスを通じて動的に相互に交互に学習します。 提案する解は一般論であり,任意の拡散モデルに適用可能である。 示すように、様々なSOTAアーキテクチャに適用すると、我々のソリューションはすぐに、複雑さとパラメータを無視して、生成品質を向上します。 我々は、複数のデータセットと構成を実験し、これらの発見をサポートするために広範囲なアブレーション研究を行う。

Iterative denoising-based generation, also known as denoising diffusion models, has recently been shown to be comparable in quality to other classes of generative models, and even surpass them. Including, in particular, Generative Adversarial Networks, which are currently the state of the art in many sub-tasks of image generation. However, a major drawback of this method is that it requires hundreds of iterations to produce a competitive result. Recent works have proposed solutions that allow for faster generation with fewer iterations, but the image quality gradually deteriorates with increasingly fewer iterations being applied during generation. In this paper, we reveal some of the causes that affect the generation quality of diffusion models, especially when sampling with few iterations, and come up with a simple, yet effective, solution to mitigate them. We consider two opposite equations for the iterative denoising, the first predicts the applied noise, and the second predicts the image directly. Our solution takes the two options and learns to dynamically alternate between them through the denoising process. Our proposed solution is general and can be applied to any existing diffusion model. As we show, when applied to various SOTA architectures, our solution immediately improves their generation quality, with negligible added complexity and parameters. We experiment on multiple datasets and configurations and run an extensive ablation study to support these findings.
翻訳日:2022-03-11 08:59:17 公開日:2022-03-08
# (参考訳) インテリジェント光制御のためのマルチエージェント広角強化学習 [全文訳有]

Multi-Agent Broad Reinforcement Learning for Intelligent Traffic Light Control ( http://arxiv.org/abs/2203.04310v1 )

ライセンス: CC BY 4.0
Ruijie Zhu, Lulu Li, Shuning Wu, Pei Lv, Yafai Li, Mingliang Xu(参考訳) インテリジェント・トラヒック・ライト・コントロール・システム(ITLCS)は、複数の道路と信号機で構成される典型的なマルチエージェント・システム(MAS)であり、ITLCSのためのMASモデルの構築が交通渋滞の緩和の基盤となっている。 既存のMASのアプローチは、主にマルチエージェントディープ強化学習(MADRL)に基づいている。 MABRLのディープニューラルネットワーク(DNN)は有効であるが、トレーニング時間は長く、パラメータの追跡は困難である。 近年,broad learning systems (bls) は,フラットネットワークによる深層ニューラルネットワーク学習のための選択的手法を提供している。 さらに,Broad Reinforcement Learning (BRL) は,単一エージェント深層強化学習 (SADRL) 問題における BLS を有望な結果で拡張する。 しかし、BRLはエージェントの複雑な構造や相互作用に重点を置いていない。 我々はMADRLの特徴とBRLの課題に感銘を受けて,MASにおけるBLSの機能を探るためのマルチエージェントブロード強化学習(MABRL)フレームワークを提案する。 まず、一連のディープニューラルネットワーク構造を使用する既存のMADRLアプローチとは異なり、各エージェントを広いネットワークでモデル化する。 次に,「3w」情報を確認するために,動的自己サイクリング相互作用機構を導入する。 最後に、インテリジェントな交通光制御シナリオに基づいて実験を行う。 我々は,MABRLのアプローチを6つの異なるアプローチと比較し,MABRLの有効性を3つのデータセットで検証した。

Intelligent Traffic Light Control System (ITLCS) is a typical Multi-Agent System (MAS), which comprises multiple roads and traffic lights.Constructing a model of MAS for ITLCS is the basis to alleviate traffic congestion. Existing approaches of MAS are largely based on Multi-Agent Deep Reinforcement Learning (MADRL). Although the Deep Neural Network (DNN) of MABRL is effective, the training time is long, and the parameters are difficult to trace. Recently, Broad Learning Systems (BLS) provided a selective way for learning in the deep neural networks by a flat network. Moreover, Broad Reinforcement Learning (BRL) extends BLS in Single Agent Deep Reinforcement Learning (SADRL) problem with promising results. However, BRL does not focus on the intricate structures and interaction of agents. Motivated by the feature of MADRL and the issue of BRL, we propose a Multi-Agent Broad Reinforcement Learning (MABRL) framework to explore the function of BLS in MAS. Firstly, unlike most existing MADRL approaches, which use a series of deep neural networks structures, we model each agent with broad networks. Then, we introduce a dynamic self-cycling interaction mechanism to confirm the "3W" information: When to interact, Which agents need to consider, What information to transmit. Finally, we do the experiments based on the intelligent traffic light control scenario. We compare the MABRL approach with six different approaches, and experimental results on three datasets verify the effectiveness of MABRL.
翻訳日:2022-03-11 08:44:31 公開日:2022-03-08
# (参考訳) ベイズ文脈木を用いた離散データの変化点検出とセグメンテーション [全文訳有]

Change-point Detection and Segmentation of Discrete Data using Bayesian Context Trees ( http://arxiv.org/abs/2203.04341v1 )

ライセンス: CC BY 4.0
Valentinian Lungu, Ioannis Papageorgiou, Ioannis Kontoyiannis(参考訳) 離散時系列の変化点検出とセグメンテーションのための効果的なアルゴリズムツールのコレクションとともに、セグメント毎の均質な可変メモリマルコフチェーンのための新しいベイズモデルフレームワークが導入された。 最近導入されたBayesian Context Trees (BCT) フレームワークに基づいて、離散時系列における異なるセグメントの分布を可変メモリマルコフ連鎖として記述する。 変化点の存在と位置の推測はマルコフ連鎖モンテカルロサンプリングによって行われる。 効果的なサンプリングを容易にする重要な観察は、BCTアルゴリズムの1つを使用して、データの事前予測確率を正確に計算し、各セグメントにすべてのモデルとパラメータを統合することである。 これにより、変化点の数と位置の後方分布から直接サンプルを採取することができ、正確な推定と結果の不確実性の自然な定量値を与えることができる。 各セグメントの実際のモデルの見積もりも得ることができ、本質的に計算コストは追加されない。 シミュレーションデータと実世界のデータの両方から,提案手法は最先端技術よりも優れた性能を示す。

A new Bayesian modelling framework is introduced for piece-wise homogeneous variable-memory Markov chains, along with a collection of effective algorithmic tools for change-point detection and segmentation of discrete time series. Building on the recently introduced Bayesian Context Trees (BCT) framework, the distributions of different segments in a discrete time series are described as variable-memory Markov chains. Inference for the presence and location of change-points is then performed via Markov chain Monte Carlo sampling. The key observation that facilitates effective sampling is that, using one of the BCT algorithms, the prior predictive likelihood of the data can be computed exactly, integrating out all the models and parameters in each segment. This makes it possible to sample directly from the posterior distribution of the number and location of the change-points, leading to accurate estimates and providing a natural quantitative measure of uncertainty in the results. Estimates of the actual model in each segment can also be obtained, at essentially no additional computational cost. Results on both simulated and real-world data indicate that the proposed methodology performs better than or as well as state-of-the-art techniques.
翻訳日:2022-03-11 08:25:41 公開日:2022-03-08
# (参考訳) レンズレスカメラ用プリマル双対ネットワーク [全文訳有]

Unrolled Primal-Dual Networks for Lensless Cameras ( http://arxiv.org/abs/2203.04353v1 )

ライセンス: CC BY 4.0
Oliver Kingshott, Nick Antipa, Emrah Bostan and Kaan Ak\c{s}it(参考訳) レンズレスカメラの従来の画像再構成モデルは、与えられたシーンを1つの実験的な測定点スプレッド関数で畳むことによって、それぞれの測定結果が得られると仮定することが多い。 これらの画像再構成モデルは、光学収差や奥行きの変化を考慮に入れていないため、レンズレスカメラのシミュレートに不足している。 本研究は,教師付きプライマル・デュアル・リコンストラクション法を学習すると,ネットワーク容量の増大を必要とせず,文献における画質マッチング状態が得られることを示す。 この改善は、学習可能な前方および隣接モデルを学習された原始双対最適化フレームワークに組み込むことで、モデルエラーに正しくない作業と比較して、再構成画像(+5dB PSNR)の品質を向上できるという最初の発見に由来する。 さらに、擬似ランダム位相マスクを用いて、概念実証用のレンズレスカメラのプロトタイプを構築した。 最後に,オープンデータセットと概念実証レンズレスカメラプロトタイプからのデータセットをもとに,学習モデルの広範な評価を行った。

Conventional image reconstruction models for lensless cameras often assume that each measurement results from convolving a given scene with a single experimentally measured point-spread function. These image reconstruction models fall short in simulating lensless cameras truthfully as these models are not sophisticated enough to account for optical aberrations or scenes with depth variations. Our work shows that learning a supervised primal-dual reconstruction method results in image quality matching state of the art in the literature without demanding a large network capacity. This improvement stems from our primary finding that embedding learnable forward and adjoint models in a learned primal-dual optimization framework can even improve the quality of reconstructed images (+5dB PSNR) compared to works that do not correct for the model error. In addition, we built a proof-of-concept lensless camera prototype that uses a pseudo-random phase mask to demonstrate our point. Finally, we share the extensive evaluation of our learned model based on an open dataset and a dataset from our proof-of-concept lensless camera prototype.
翻訳日:2022-03-11 08:08:25 公開日:2022-03-08
# (参考訳) あなたはどちらにいますか。 陰謀論ソーシャルメディアにおけるインサイダー・アウトサイド分類 [全文訳有]

Which side are you on? Insider-Outsider classification in conspiracy-theoretic social media ( http://arxiv.org/abs/2203.04356v1 )

ライセンス: CC BY 4.0
Pavan Holur, Tianyi Wang, Shadi Shahsavari, Timothy Tangherlini, Vwani Roychowdhury(参考訳) ソーシャルメディアは脅威物語と関連する陰謀論の繁殖地である。 これらの中で、外部グループが内部グループの完全性を脅かし、鋭く定義されたグループアイデンティティが出現する: インサイダー - 著者が特定し、外部にいるエージェント -- インサイダーを脅かすエージェント。 これらのグループのメンバを推測することは、新しいNLPタスクとなる。 (i)多くの粗末な投稿に情報が分配される。 二 脅威及び脅威エージェントは、高度に文脈的であり、同一のポストは、いずれのグループにも複数のエージェントが割り当てられる可能性がある。 (iii)代理人の身元は、しばしば暗黙的で推移的である。 (iv)外人格を示すために用いられる句は、しばしば共通の否定的な感情パターンに従わない。 これらの課題に対処するため、我々は新しいインサイダー・アウトサイダー分類タスクを定義した。 既存の適切なデータセットやアテンダントモデルを意識していないため、ラベル付きデータセット(CT5K)を導入し、このタスクに対処するためのモデル(NP2IO)を設計する。 NP2IOは、事前訓練された言語モデリングを利用して、インサイダーとアウトサイダーを分類する。 NP2IOは頑健で、トレーニング中に見えない名詞句に一般化し、非自明なベースラインモデルの性能を20\%以上上回る。

Social media is a breeding ground for threat narratives and related conspiracy theories. In these, an outside group threatens the integrity of an inside group, leading to the emergence of sharply defined group identities: Insiders -- agents with whom the authors identify and Outsiders -- agents who threaten the insiders. Inferring the members of these groups constitutes a challenging new NLP task: (i) Information is distributed over many poorly-constructed posts; (ii) Threats and threat agents are highly contextual, with the same post potentially having multiple agents assigned to membership in either group; (iii) An agent's identity is often implicit and transitive; and (iv) Phrases used to imply Outsider status often do not follow common negative sentiment patterns. To address these challenges, we define a novel Insider-Outsider classification task. Because we are not aware of any appropriate existing datasets or attendant models, we introduce a labeled dataset (CT5K) and design a model (NP2IO) to address this task. NP2IO leverages pretrained language modeling to classify Insiders and Outsiders. NP2IO is shown to be robust, generalizing to noun phrases not seen during training, and exceeding the performance of non-trivial baseline models by $20\%$.
翻訳日:2022-03-11 07:53:01 公開日:2022-03-08
# (参考訳) AIマッチング - 埋め込みを用いたスキーママッチングのための2ステップアプローチ [全文訳有]

It's AI Match: A Two-Step Approach for Schema Matching Using Embeddings ( http://arxiv.org/abs/2203.04366v1 )

ライセンス: CC BY 4.0
Benjamin H\"attasch, Michael Truong-Ngoc, Andreas Schmidt, Carsten Binnig(参考訳) データはしばしば異なるソースに格納されるため、価値を作成し、そこから知識を引き出すために必要とされるグローバルなビューを集めるために統合する必要がある。 データ統合における重要なステップはスキーママッチングであり、2つのスキーマの要素間の意味的対応を見つけることを目的としている。 スキーママッチングにおける手作業を削減するため,スキーマ対応の自動決定のための多くのソリューションがすでに開発されている。 本稿では,ニューラル埋め込みに基づくスキーママッチングのための新しいエンドツーエンドアプローチを提案する。 主な考え方は、テーブルマッチングステップと属性マッチングステップからなる2段階のアプローチを使用することである。 どちらのステップでも、テーブル全体または単一の属性を表す異なるレベルで埋め込みを使用します。 また,従来のスキーママッチング手法と比較して,非自明な対応を見出すことができることを示した。

Since data is often stored in different sources, it needs to be integrated to gather a global view that is required in order to create value and derive knowledge from it. A critical step in data integration is schema matching which aims to find semantic correspondences between elements of two schemata. In order to reduce the manual effort involved in schema matching, many solutions for the automatic determination of schema correspondences have already been developed. In this paper, we propose a novel end-to-end approach for schema matching based on neural embeddings. The main idea is to use a two-step approach consisting of a table matching step followed by an attribute matching step. In both steps we use embeddings on different levels either representing the whole table or single attributes. Our results show that our approach is able to determine correspondences in a robust and reliable way and compared to traditional schema matching approaches can find non-trivial correspondences.
翻訳日:2022-03-11 07:37:37 公開日:2022-03-08
# (参考訳) Tsetlin Machineを用いたボードゲーム勝者予測のための論理型AI [全文訳有]

Logic-based AI for Interpretable Board Game Winner Prediction with Tsetlin Machine ( http://arxiv.org/abs/2203.04378v1 )

ライセンス: CC BY 4.0
Charul Giri, Ole-Christoffer Granmo, Herke van Hoof, Christian D. Blakely(参考訳) hexはターンベースの2プレイヤー接続ゲームであり、分岐係数が高く、ボードサイズが大きくなると任意に複雑になる。 したがって、hexをプレイするためのトップパフォーマンスアルゴリズムは、ニューラルネットワークを用いたボード位置の正確な評価に依存している。 しかし、ユーザが予測の背後にある理由を理解したい場合、ニューラルネットワークの限定的な解釈性は問題となる。 本稿では,提案する論理式を用いて,ボードゲームの位置の獲得と喪失を記述し,正確な視覚的解釈を容易にすることを提案する。 以前プレイしたゲームからこれらの表現を学ぶために,tsetlin machine (tm) を使用して,ボードの位置が強くなるために,駒の位置や位置を記述した。 6ドルのボードに関する大規模な実験は、TMベースのソリューションと、XGBoost、InterpretML、決定木、ニューラルネットワークといった一般的な機械学習アルゴリズムを比較し、さまざまなボード構成を2ドルから22ドルの動きで検討している。 平均して、TMテストの精度は92.1 %$であり、他の評価アルゴリズムよりも優れている。 さらに、論理式をグローバルに解釈し、それを特定のボードゲーム構成にマップし、局所的な解釈可能性を調べる。 我々は、その結果の解釈可能性によって、より複雑な予測タスクのために、正確なAIと人間とAIのコラボレーションのためのビルディングブロックが確立されると考えている。

Hex is a turn-based two-player connection game with a high branching factor, making the game arbitrarily complex with increasing board sizes. As such, top-performing algorithms for playing Hex rely on accurate evaluation of board positions using neural networks. However, the limited interpretability of neural networks is problematic when the user wants to understand the reasoning behind the predictions made. In this paper, we propose to use propositional logic expressions to describe winning and losing board game positions, facilitating precise visual interpretation. We employ a Tsetlin Machine (TM) to learn these expressions from previously played games, describing where pieces must be located or not located for a board position to be strong. Extensive experiments on $6\times6$ boards compare our TM-based solution with popular machine learning algorithms like XGBoost, InterpretML, decision trees, and neural networks, considering various board configurations with $2$ to $22$ moves played. On average, the TM testing accuracy is $92.1\%$, outperforming all the other evaluated algorithms. We further demonstrate the global interpretation of the logical expressions and map them down to particular board game configurations to investigate local interpretability. We believe the resulting interpretability establishes building blocks for accurate assistive AI and human-AI collaboration, also for more complex prediction tasks.
翻訳日:2022-03-11 07:21:08 公開日:2022-03-08
# (参考訳) 新型コロナウイルス(covid-19)にともなうホテル需要と収益予測のための新しいディープラーニングモデル [全文訳有]

A Novel Deep Learning Model for Hotel Demand and Revenue Prediction amid COVID-19 ( http://arxiv.org/abs/2203.04383v1 )

ライセンス: CC BY 4.0
Ashkan Farhangi, Arthur Huang, Zhishan Guo(参考訳) 新型コロナウイルスの感染拡大が観光業やホスピタリティ部門に大きな影響を与えた。 旅行制限や外出禁止令などの公共政策は観光活動やサービス事業の運営、収益性に大きな影響を与えた。 この目的のためには,管理的および組織的意思決定を支援する解釈可能な予測モデルを開発することが不可欠である。 新型コロナウイルスのパンデミックの影響下で時系列データを予測するための新しいディープラーニングフレームワークであるDemandNetを開発した。 フレームワークは、時系列データに埋め込まれた上位の静的機能と動的機能を選択することから始まる。 次に、前述のデータに対する解釈可能な洞察を提供する非線形モデルを含む。 最後に,上記の特性を利用して長期予測を行う予測モデルを開発した。 米国8都市から毎日のホテル需要と収益データを用いて,この枠組みを評価した。 demandnetが最先端のモデルを上回ることや、新型コロナウイルス(covid-19)パンデミックがホテルの需要や収入に与える影響を正確に予測できることがわかりました。

The COVID-19 pandemic has significantly impacted the tourism and hospitality sector. Public policies such as travel restrictions and stay-at-home orders had significantly affected tourist activities and service businesses' operations and profitability. To this end, it is essential to develop an interpretable forecast model that supports managerial and organizational decision-making. We developed DemandNet, a novel deep learning framework for predicting time series data under the influence of the COVID-19 pandemic. The framework starts by selecting the top static and dynamic features embedded in the time series data. Then, it includes a nonlinear model which can provide interpretable insight into the previously seen data. Lastly, a prediction model is developed to leverage the above characteristics to make robust long-term forecasts. We evaluated the framework using daily hotel demand and revenue data from eight cities in the US. Our findings reveal that DemandNet outperforms the state-of-art models and can accurately predict the impact of the COVID-19 pandemic on hotel demand and revenues.
翻訳日:2022-03-11 07:08:43 公開日:2022-03-08
# (参考訳) グラフデータ中の発散部分群の自動発見を容易にするモデルフリー特徴選択 [全文訳有]

Model-free feature selection to facilitate automatic discovery of divergent subgroups in tabular data ( http://arxiv.org/abs/2203.04386v1 )

ライセンス: CC BY 4.0
Girmaw Abebe Tadesse, William Ogallo, Celia Cintas, Skyler Speakman(参考訳) データ中心のAIは、信頼できるAIを達成するためにデータのクリーニングと理解の必要性を促進する。 AutoMLのような既存の技術は、モデルの設計とトレーニングを自動で容易にするが、データ中心の洞察を抽出する同様のレベルの能力は欠如している。 特徴ごとの表データの手動成層化(例えば、性別)は、発散したサブグループの自動発見によって対処できる、より高い特徴次元のためにスケールアップするために制限される。 それでも、これらの自動発見技術は、前回の機能選択ステップを使って単純化できる可能性のある指数関数的な組み合わせを探索することが多い。 表データの既存の特徴選択技術は、重要な特徴を選択するために、しばしば特定のモデルを適合させる。 しかしながら、このようなモデルに基づく選択は、モデルの設計、微調整、トレーニングに余分なリソースを必要とすることに加えて、モデルバイアスやスプリアス相関に起因する。 本稿では,分散サブグループの自動発見を容易にするために,モデルフリーかつ疎性に基づく自動特徴選択(SAFS)フレームワークを提案する。 フィルタに基づく選択手法と異なり,特徴値間の目的尺度の空間性を利用してランク付けと選択を行う。 2つの公開データセット(MIMIC-IIIとAllstate Claims)でSAFSを検証し、既存の6つの特徴選択手法と比較した。 SAFS は、MIMIC-III と Claims のデータセットの既存の手法を平均して 81x と 104x の係数で特徴選択時間を短縮する。 例えば、クレームデータセットにおけるsafsが選択した特徴の18.3%は、jaccardの類似度が0.95であるが、検出時間の16倍削減された全特徴を用いて検出された異種サンプルと類似している。

Data-centric AI encourages the need of cleaning and understanding of data in order to achieve trustworthy AI. Existing technologies, such as AutoML, make it easier to design and train models automatically, but there is a lack of a similar level of capabilities to extract data-centric insights. Manual stratification of tabular data per a feature (e.g., gender) is limited to scale up for higher feature dimension, which could be addressed using automatic discovery of divergent subgroups. Nonetheless, these automatic discovery techniques often search across potentially exponential combinations of features that could be simplified using a preceding feature selection step. Existing feature selection techniques for tabular data often involve fitting a particular model in order to select important features. However, such model-based selection is prone to model-bias and spurious correlations in addition to requiring extra resource to design, fine-tune and train a model. In this paper, we propose a model-free and sparsity-based automatic feature selection (SAFS) framework to facilitate automatic discovery of divergent subgroups. Different from filter-based selection techniques, we exploit the sparsity of objective measures among feature values to rank and select features. We validated SAFS across two publicly available datasets (MIMIC-III and Allstate Claims) and compared it with six existing feature selection methods. SAFS achieves a reduction of feature selection time by a factor of 81x and 104x, averaged cross the existing methods in the MIMIC-III and Claims datasets respectively. SAFS-selected features are also shown to achieve competitive detection performance, e.g., 18.3% of features selected by SAFS in the Claims dataset detected divergent samples similar to those detected by using the whole features with a Jaccard similarity of 0.95 but with a 16x reduction in detection time.
翻訳日:2022-03-11 06:55:38 公開日:2022-03-08
# (参考訳) 単純な段木の構造学習

Structural Learning of Simple Staged Trees ( http://arxiv.org/abs/2203.04390v1 )

ライセンス: CC BY 4.0
Manuele Leonelli and Gherardo Varando(参考訳) ベイズネットワークはランダムベクトルの成分の間に存在する対称条件独立性を忠実に表している。 段階木(staged tree)は、頂点彩色による非対称条件付き独立性を表す圏ランダムベクトルに対するベイズネットワークの拡張である。 しかし、それらはサンプル空間のツリー表現に基づいているため、変数の数が増えるにつれて、基盤となるグラフが散らかって可視化が難しくなる。 ここでは,非対称な独立性を読みやすくする基礎となる木のコンパクトな合体を楽しむ,単純な木群に対する最初の構造学習アルゴリズムを紹介する。 データ主導の単純なステージ木はベイズネットワークをモデルに当てはめ、結合グラフが非対称条件付き独立性を特定するのにどのように使われるかを示す。

Bayesian networks faithfully represent the symmetric conditional independences existing between the components of a random vector. Staged trees are an extension of Bayesian networks for categorical random vectors whose graph represents non-symmetric conditional independences via vertex coloring. However, since they are based on a tree representation of the sample space, the underlying graph becomes cluttered and difficult to visualize as the number of variables increases. Here we introduce the first structural learning algorithms for the class of simple staged trees, entertaining a compact coalescence of the underlying tree from which non-symmetric independences can be easily read. We show that data-learned simple staged trees often outperform Bayesian networks in model fit and illustrate how the coalesced graph is used to identify non-symmetric conditional independences.
翻訳日:2022-03-11 06:40:15 公開日:2022-03-08
# (参考訳) 活動に基づくモデルのベイズ校正 [全文訳有]

Bayesian Calibration for Activity Based Models ( http://arxiv.org/abs/2203.04414v1 )

ライセンス: CC0 1.0
Laura Schultz and Joshua Auld and Vadim Sokolov(参考訳) 交通シミュレータにおけるキャリブレーションと不確実性解析の問題点について考察する。 ABMは、大都市圏の旅行パターンを予測するために、旅行者の行動の統計モデルに依存する。 入力パラメータは通常、旅行者の調査から最大値を用いて推定される。 本研究では,ガウスプロセスエミュレータを用いた大都市移植システムの活動ベースモデルを校正する手法を開発した。 本手法は従来のエミュレータを拡張して,輸送シミュレータの高次元および非定常特性を扱う。 本手法はイリノイ州ブルーミントンの交通シミュレータに適用する。 モデルのキーパラメータをキャリブレーションし、アドホックキャリブレーションプロセスと比較する。

We consider the problem of calibration and uncertainty analysis for activity-based transportation simulators. ABMs rely on statistical models of traveler's behavior to predict travel patterns in a metropolitan area. Input parameters are typically estimated from traveler's surveys using maximum likelihood. We develop an approach that uses Gaussian process emulator to calibrate an activity-based model of a metropolitan transplantation system. Our approach extends traditional emulators to handle high-dimensional and non-stationary nature of the transportation simulator. Our methodology is applied to transportation simulator of Bloomington, Illinois. We calibrate key parameters of the model and compare to the ad-hoc calibration process.
翻訳日:2022-03-11 06:39:19 公開日:2022-03-08
# (参考訳) 不完全放射線学・病理学・ゲノム学・デモグラフィーデータによる脳癌の生存予測 [全文訳有]

Survival Prediction of Brain Cancer with Incomplete Radiology, Pathology, Genomics, and Demographic Data ( http://arxiv.org/abs/2203.04419v1 )

ライセンス: CC BY 4.0
Can Cui, Han Liu, Quan Liu, Ruining Deng, Zuhayr Asad, Yaohong WangShilin Zhao, Haichun Yang, Bennett A. Landman, Yuankai Huo(参考訳) 脳がんの診断と生存予測には、横断的な多変種データ(放射線学的、病理学的、ゲノム、臨床データなど)の統合が常に存在する。 このような統合は通常、主観的で半定量的な人間の医師(および専門家のパネル)によって行われる。 しかし、近年のマルチモーダル深層学習の進歩は、そのようなプロセスをより客観的かつ定量的に活用するための扉を開いた。 残念ながら、脳がん生存予測に4つのモダリティを使用する先行技術は、「完全なモダリティ」設定(すなわち全てのモダリティが利用可能)によって制限される。 したがって、不完全な放射線学、病理学、ゲノム学、人口統計学(例えば、患者のために1つ以上のモダリティを収集することができない)から、脳がんの生存を効果的に予測する方法には、未解決の疑問がある。 例えば、完全なデータと不完全なデータの両方を使うべきでしょうか。 先行する質問に答えるために,複数モーダルデータを用いたマルチモーダル学習を,欠落したデータセットに一般化する。 私たちの貢献は3倍です。 1)ハードウェア消費と計算効率を最適化したmmdパイプラインを用いた最適マルチモーダル学習を提案する。 2)放射線学,病理学,ゲノム学,人口統計学に関するマルチモーダル・ラーニングを,データ不足シナリオに拡張する。 3)4つのモダリティを用いたグリオーマ腫瘍生存予測を体系的に評価するために,大規模データセット(962例)を収集した。 提案手法は生存予測のC指数を0.7624から0.8053に改善した。

Integrating cross-department multi-modal data (e.g., radiological, pathological, genomic, and clinical data) is ubiquitous in brain cancer diagnosis and survival prediction. To date, such an integration is typically conducted by human physicians (and panels of experts), which can be subjective and semi-quantitative. Recent advances in multi-modal deep learning, however, have opened a door to leverage such a process to a more objective and quantitative manner. Unfortunately, the prior arts of using four modalities on brain cancer survival prediction are limited by a "complete modalities" setting (i.e., with all modalities available). Thus, there are still open questions on how to effectively predict brain cancer survival from the incomplete radiological, pathological, genomic, and demographic data (e.g., one or more modalities might not be collected for a patient). For instance, should we use both complete and incomplete data, and more importantly, how to use those data? To answer the preceding questions, we generalize the multi-modal learning on cross-department multi-modal data to a missing data setting. Our contribution is three-fold: 1) We introduce optimal multi-modal learning with missing data (MMD) pipeline with optimized hardware consumption and computational efficiency; 2) We extend multi-modal learning on radiological, pathological, genomic, and demographic data into missing data scenarios; 3) a large-scale public dataset (with 962 patients) is collected to systematically evaluate glioma tumor survival prediction using four modalities. The proposed method improved the C-index of survival prediction from 0.7624 to 0.8053.
翻訳日:2022-03-11 06:18:44 公開日:2022-03-08
# (参考訳) ポジリリズム:マルチレーダを用いた高精度3次元境界ボックス推定 [全文訳有]

Pointillism: Accurate 3D bounding box estimation with multi-radars ( http://arxiv.org/abs/2203.04440v1 )

ライセンス: CC BY 4.0
Kshitiz Bansal, Keshav Rungta, Siyuan Zhu, Dinesh Bharadia(参考訳) 自律的な知覚は、動的物体の3次元境界ボックスという形で高品質な環境センシングを必要とする。 自動車システムで使用される主なセンサーは、光ベースのカメラとLiDARである。 しかし、悪天候下では故障することが知られている。 レーダーは悪天候の影響がほとんどないため、この問題を解決できる可能性がある。 しかし、無線信号のスペクトル反射はレーダー点雲の性能を低下させる。 本研究では,複数の空間分離レーダからのデータと最適な分離を組み合わせるシステムであるpointillismを提案する。 本研究では,複数のレーダによる空間的多様性を生かして,レーダ点雲のノイズやスパーシティの問題を解消する,クロスポテンシャル点雲の新たな概念を提案する。 さらに,レーダのスパースデータ分布を明示的に設計した新しいディープラーニングアーキテクチャRP-netの設計を行い,正確な3次元境界ボックス推定を実現する。 本論文で提案した空間的手法は,レーダー点雲分布の基本であり,他のレーダセンシング応用に有用である。

Autonomous perception requires high-quality environment sensing in the form of 3D bounding boxes of dynamic objects. The primary sensors used in automotive systems are light-based cameras and LiDARs. However, they are known to fail in adverse weather conditions. Radars can potentially solve this problem as they are barely affected by adverse weather conditions. However, specular reflections of wireless signals cause poor performance of radar point clouds. We introduce Pointillism, a system that combines data from multiple spatially separated radars with an optimal separation to mitigate these problems. We introduce a novel concept of Cross Potential Point Clouds, which uses the spatial diversity induced by multiple radars and solves the problem of noise and sparsity in radar point clouds. Furthermore, we present the design of RP-net, a novel deep learning architecture, designed explicitly for radar's sparse data distribution, to enable accurate 3D bounding box estimation. The spatial techniques designed and proposed in this paper are fundamental to radars point cloud distribution and would benefit other radar sensing applications.
翻訳日:2022-03-11 06:08:33 公開日:2022-03-08
# (参考訳) 再現可能な主観評価 [全文訳有]

Reproducible Subjective Evaluation ( http://arxiv.org/abs/2203.04444v1 )

ライセンス: CC BY 4.0
Max Morrison, Brian Tang, Gefei Tan, and Bryan Pardo(参考訳) 人間の知覚研究は、機械学習、言語学、心理学における多くの研究タスクを評価するための金の標準である。 しかし、これらの研究にはかなりの時間と費用が要る。 その結果、多くの研究者は人間の評価と相関する客観的な尺度を用いている。 主観評価を行う場合、再現性を確保するために十分な詳細が報告されないことが多い。 クラウドソース型主観評価をPythonから直接素早く展開するためのオープンソースのフレームワークであるReproducible Subjective Evaluation (ReSEval)を提案する。 resevalを使用すると、研究者はa/b、abx、平均意見スコア(mos)、複数の刺激をコマンド・ライン・インターフェースからオーディオ、画像、テキスト、ビデオデータに対する隠れた参照およびアンカー(mushra)テストで起動し、客観的評価と同じくらい簡単に実行することができる。 ReSEvalでは、構成ファイルとオーディオ、画像、テキスト、ビデオファイルを共有することで、互いの主観評価を再現することができる。

Human perceptual studies are the gold standard for the evaluation of many research tasks in machine learning, linguistics, and psychology. However, these studies require significant time and cost to perform. As a result, many researchers use objective measures that can correlate poorly with human evaluation. When subjective evaluations are performed, they are often not reported with sufficient detail to ensure reproducibility. We propose Reproducible Subjective Evaluation (ReSEval), an open-source framework for quickly deploying crowdsourced subjective evaluations directly from Python. ReSEval lets researchers launch A/B, ABX, Mean Opinion Score (MOS) and MUltiple Stimuli with Hidden Reference and Anchor (MUSHRA) tests on audio, image, text, or video data from a command-line interface or using one line of Python, making it as easy to run as objective evaluation. With ReSEval, researchers can reproduce each other's subjective evaluations by sharing a configuration file and the audio, image, text, or video files.
翻訳日:2022-03-11 05:46:09 公開日:2022-03-08
# 合理性行動のための政策規則化

Policy Regularization for Legible Behavior ( http://arxiv.org/abs/2203.04303v1 )

ライセンス: Link先を確認
Michele Persiani, Thomas Hellstr\"om(参考訳) 強化学習における解釈可能性(Reinforcement Learning interpretability)とは、一般に、検査のエキスパートによってその決定が理解できるように、エージェントのメカニズムに関する洞察を与えることを意味する。 この定義は、文献から得られた手法とともに、インタラクションの流布が意思決定アルゴリズムの深い検査を禁止しているオンライン環境では不足する可能性がある。 オンライン環境での解釈可能性を支援するためには、観察者モデルで容易に識別できるようにすることにより、エージェントの正当性を重視した説明可能な計画文献手法を借用することが有用である。 本稿では,エージェントのポリシー内に妥当な振る舞いを注入しても,学習アルゴリズムの構成要素を変更する必要はない。 むしろ、エージェントの最適ポリシーは、そのポリシーがどのように観察を生み出し、観察者が誤ったポリシーを推測するかを評価することによって、正当性のために定式化することができる。 我々の定式化では、正当性によって引き起こされる決定境界は、エージェントのポリシーが他のポリシーにおいても高い可能性を持つアクションを返す状態に影響する。 これらの場合、そのような動作と正当/準最適動作とのトレードオフが行われる。

In Reinforcement Learning interpretability generally means to provide insight into the agent's mechanisms such that its decisions are understandable by an expert upon inspection. This definition, with the resulting methods from the literature, may however fall short for online settings where the fluency of interactions prohibits deep inspections of the decision-making algorithm. To support interpretability in online settings it is useful to borrow from the Explainable Planning literature methods that focus on the legibility of the agent, by making its intention easily discernable in an observer model. As we propose in this paper, injecting legible behavior inside an agent's policy doesn't require modify components of its learning algorithm. Rather, the agent's optimal policy can be regularized for legibility by evaluating how the policy may produce observations that would make an observer infer an incorrect policy. In our formulation, the decision boundary introduced by legibility impacts the states in which the agent's policy returns an action that has high likelihood also in other policies. In these cases, a trade-off between such action, and legible/sub-optimal action is made.
翻訳日:2022-03-10 17:05:51 公開日:2022-03-08
# マルチエージェント軌道予測のためのスムースアテンションの活用

Leveraging Smooth Attention Prior for Multi-Agent Trajectory Prediction ( http://arxiv.org/abs/2203.04421v1 )

ライセンス: Link先を確認
Zhangjie Cao, Erdem B{\i}y{\i}k, Guy Rosman, Dorsa Sadigh(参考訳) マルチエージェント相互作用は、他のエージェントの振る舞いや軌道を予測する上で重要なモデルである。 ある時点で、合理的な将来の軌道を予測するために、各エージェントは他のエージェントすべてに不必要に注意を払うのではなく、最も関係のあるエージェントの小さなグループのみとの相互作用に注意を払う必要がある。 しかし、既存の注意モデリングでは、運転中の人間の注意は急速に変化せず、時間の経過とともに注意が変動する可能性があることを無視している。 本稿では,前述した全変動時間的滑らか度に基づくマルチエージェントインタラクションの注意モデルを作成し,これらの相互作用の知識を活用する軌道予測アーキテクチャを提案する。 本稿では,新しいシーケンス予測損失項に先行する全変動注意が,よりスムーズな注意と多エージェント軌道予測のサンプル効率の学習につながることを示し,その利点を,合成運転データと自然運転データの両方に対する最先端のアプローチと比較することにより予測精度の面で示す。 我々は,Webサイト上でのInterActionデータセット上で,軌道予測のためのアルゴリズムの性能を示す。

Multi-agent interactions are important to model for forecasting other agents' behaviors and trajectories. At a certain time, to forecast a reasonable future trajectory, each agent needs to pay attention to the interactions with only a small group of most relevant agents instead of unnecessarily paying attention to all the other agents. However, existing attention modeling works ignore that human attention in driving does not change rapidly, and may introduce fluctuating attention across time steps. In this paper, we formulate an attention model for multi-agent interactions based on a total variation temporal smoothness prior and propose a trajectory prediction architecture that leverages the knowledge of these attended interactions. We demonstrate how the total variation attention prior along with the new sequence prediction loss terms leads to smoother attention and more sample-efficient learning of multi-agent trajectory prediction, and show its advantages in terms of prediction accuracy by comparing it with the state-of-the-art approaches on both synthetic and naturalistic driving data. We demonstrate the performance of our algorithm for trajectory prediction on the INTERACTION dataset on our website.
翻訳日:2022-03-10 17:04:44 公開日:2022-03-08
# IoTディジタル双晶の構造と粒状カウサリティ

Structural & Granger CAUSALITY for IoT Digital Twin ( http://arxiv.org/abs/2203.04876v1 )

ライセンス: Link先を確認
PG Madhavan(参考訳) 本論文は,IoTにおける因果解析の適用に関する基礎資料として,測定されたマルチチャネルセンサデータ(ベクトル時空)から構造因果因子および顆粒因果因子を推定するための基礎理論とアルゴリズムを確立する。 ベクトル時系列は構造ベクトル自己回帰(SVAR)モデルとしてモデル化され、カルマンフィルタと独立成分分析(ICA)法を用いて、構造的および一般化グランガー因果因子を推定する。 推定因果因子は、私たちがCausal Digital Twinと呼ぶFenceグラフとして提示される。 Causal Digital Twinの実践的応用は、NASA Prognostic Data Repository Bearingデータ収集で実証されている。 対物実験におけるCausal Digital Twinの使用法を示す。 Causal Digital Twinは、産業、製造業、自動車、消費者、建築、スマートシティといった複数の産業における多様なユースケースに適用可能な水平方向のソリューションである。

In this foundational expository article on the application of Causality Analysis in IoT, we establish the basic theory and algorithms for estimating Structural and Granger causality factors from measured multichannel sensor data (vector timeseries). Vector timeseries is modeled as a Structural Vector Autoregressive (SVAR) model; utilizing Kalman Filter and Independent Component Analysis (ICA) methods, Structural and generalized Granger causality factors are estimated. The estimated causal factors are presented as a Fence graph which we call Causal Digital Twin. Practical applications of Causal Digital Twin are demonstrated on NASA Prognostic Data Repository Bearing data collection. Use of Causal Digital Twin for counterfactual experiments are indicated. Causal Digital Twin is a horizontal solution that applies to diverse use cases in multiple industries such as Industrial, Manufacturing, Automotive, Consumer, Building and Smart City.
翻訳日:2022-03-10 17:01:58 公開日:2022-03-08
# TTML:汎用機械学習のためのテンソルトレイン

TTML: tensor trains for general supervised machine learning ( http://arxiv.org/abs/2203.04352v1 )

ライセンス: Link先を確認
Bart Vandereycken and Rik Voorhaar(参考訳) 本稿では,テンソルトレイン(tt)に基づく教師付き機械学習(ml)のための汎用推定器を提案する。 推定器はTTを用いて離散化関数をパラメトリゼーションし、テンソル完備問題の形でリーマン勾配勾配を用いて最適化する。 この最適化は初期化に敏感であるため、初期化に他のML推定器を用いることが重要であることが判明した。 これにより、初期化に使用されるような、他の多くのML推定器よりもメモリ使用量の少ない、競争力のある高速なML推定器が得られる。

This work proposes a novel general-purpose estimator for supervised machine learning (ML) based on tensor trains (TT). The estimator uses TTs to parametrize discretized functions, which are then optimized using Riemannian gradient descent under the form of a tensor completion problem. Since this optimization is sensitive to initialization, it turns out that the use of other ML estimators for initialization is crucial. This results in a competitive, fast ML estimator with lower memory usage than many other ML estimators, like the ones used for the initialization.
翻訳日:2022-03-10 16:59:26 公開日:2022-03-08
# iSEA:NLPモデルのセマンティックエラー解析のためのインタラクティブパイプライン

iSEA: An Interactive Pipeline for Semantic Error Analysis of NLP Models ( http://arxiv.org/abs/2203.04408v1 )

ライセンス: Link先を確認
Jun Yuan, Jesse Vig, Nazneen Rajani(参考訳) NLPモデルのエラー解析は、モデルの開発とデプロイの成功に不可欠である。 エラーを診断するための一般的なアプローチは、モデルが最もエラーを発生させるデータセット内のサブポピュレーションを特定することである。 しかしながら、既存のアプローチでは、事前に定義された機能に基づいてサブポピュレーションを定義するのが一般的である。 これらのアプローチを補完するため,我々は,nlpモデルにおける意味的誤り解析のための対話的パイプラインであるiseaを提案する。 iSEAにより、モデル開発者は、発見されたサブポピュレーションを通じてモデルエラーについてより深く学ぶことができ、発見されたサブポピュレーションのインタラクティブ分析を通じてエラーソースを検証することができ、カスタムサブポピュレーションを定義することでモデルエラーに関する仮説をテストすることができる。 このツールはトークンと概念レベルでエラーを起こしやすいサブポピュレーションのセマンティック記述と、事前に定義された高レベル機能をサポートする。 ユースケースと専門家インタビューを通じて、iSEAがエラー理解と分析をいかに支援できるかを実証する。

Error analysis in NLP models is essential to successful model development and deployment. One common approach for diagnosing errors is to identify subpopulations in the dataset where the model produces the most errors. However, existing approaches typically define subpopulations based on pre-defined features, which requires users to form hypotheses of errors in advance. To complement these approaches, we propose iSEA, an Interactive Pipeline for Semantic Error Analysis in NLP Models, which automatically discovers semantically-grounde d subpopulations with high error rates in the context of a human-in-the-loop interactive system. iSEA enables model developers to learn more about their model errors through discovered subpopulations, validate the sources of errors through interactive analysis on the discovered subpopulations, and test hypotheses about model errors by defining custom subpopulations. The tool supports semantic descriptions of error-prone subpopulations at the token and concept level, as well as pre-defined higher-level features. Through use cases and expert interviews, we demonstrate how iSEA can assist error understanding and analysis.
翻訳日:2022-03-10 16:22:29 公開日:2022-03-08
# プロジェクティブクラスタリングとアプリケーションのための新しいコアセット

New Coresets for Projective Clustering and Applications ( http://arxiv.org/abs/2203.04370v1 )

ライセンス: Link先を確認
Murad Tukan and Xuan Wu and Samson Zhou and Vladimir Braverman and Dan Feldman(参考訳) $(j,k)$-プロジェクティブクラスタリングは、$k$-クラスタリングと$j$-サブスペースクラスタリングのファミリーの自然な一般化である。 p$ in $\mathbb{r}^d$ の点が与えられると、目標は、与えられた距離測度の下で最大に p$ に合致する次元 $j$(すなわちアフィン部分空間)の k$ 平面を見つけることである。 本稿では、サイズ多項式の$l_\infty$coresetを$d$で返す最初のアルゴリズムを提案する。 さらに、一般の$M$-推定器回帰に対する最初の強いコアセット構成を与える。 具体的には,cauchy,welsch,huber ,geman-mcclure,tukey ,$l_1-l_2$,フェアレグレッション,一般的なコンケーブとパワーバウンド損失関数の効率的なコアセット構成を提供することを示す。 最後に,実世界のデータセットに基づく実験結果を提供し,提案手法の有効性を示す。

$(j,k)$-projective clustering is the natural generalization of the family of $k$-clustering and $j$-subspace clustering problems. Given a set of points $P$ in $\mathbb{R}^d$, the goal is to find $k$ flats of dimension $j$, i.e., affine subspaces, that best fit $P$ under a given distance measure. In this paper, we propose the first algorithm that returns an $L_\infty$ coreset of size polynomial in $d$. Moreover, we give the first strong coreset construction for general $M$-estimator regression. Specifically, we show that our construction provides efficient coreset constructions for Cauchy, Welsch, Huber, Geman-McClure, Tukey, $L_1-L_2$, and Fair regression, as well as general concave and power-bounded loss functions. Finally, we provide experimental results based on real-world datasets, showing the efficacy of our approach.
翻訳日:2022-03-10 16:20:55 公開日:2022-03-08
# スコアマッチングによる非線形付加雑音モデルの因果探索

Score matching enables causal discovery of nonlinear additive noise models ( http://arxiv.org/abs/2203.04413v1 )

ライセンス: Link先を確認
Paul Rolland, Volkan Cevher, Matth\"aus Kleindessner, Chris Russel, Bernhard Sch\"olkopf, Dominik Janzing and Francesco Locatello(参考訳) 本稿では,非線形加算雑音モデル(gaussian)におけるデータ分布のスコアから因果グラフを復元する方法を示す。 スコアマッチングアルゴリズムをビルディングブロックとして使用し、新しい世代のスケーラブル因果探索手法を設計する方法を示す。 また,提案手法を紹介するために,スコアのヤコビアンを近似し,因果グラフを復元する新しい効率的な手法を提案する。 SCOREと呼ばれる新しいアルゴリズムは、最先端の因果発見手法と競合する一方で、かなり高速である。

This paper demonstrates how to recover causal graphs from the score of the data distribution in non-linear additive (Gaussian) noise models. Using score matching algorithms as a building block, we show how to design a new generation of scalable causal discovery methods. To showcase our approach, we also propose a new efficient method for approximating the score's Jacobian, enabling to recover the causal graph. Empirically, we find that the new algorithm, called SCORE, is competitive with state-of-the-art causal discovery methods while being significantly faster.
翻訳日:2022-03-10 16:20:34 公開日:2022-03-08
# 地域特化最適化(RSO)に基づくディープインタラクティブ登録

Region Specific Optimization (RSO)-based Deep Interactive Registration ( http://arxiv.org/abs/2203.04295v1 )

ライセンス: Link先を確認
Ti Bai, Muhan Lin, Xiao Liang, Biling Wang, Michael Dohopolski, Bin Cai, Dan Nguyen, and Steve Jiang(参考訳) 医用画像登録は、多くの下流臨床作業の有効性に影響を与える基本的で重要な課題である。 深層学習(DL)に基づく変形可能な画像登録(DIR)手法について検討し,最先端の性能を示す。 DLモデルの性能をさらに向上させるため,テスト時間最適化(TTO)手法が提案された。 このTTO技術による大幅な精度向上にもかかわらず、多くのTTOイテレーションの後にも、大きな登録エラーを示す領域が残っている。 この課題を緩和するために,まずtto技術が遅かった,あるいは失敗した理由を特定し,その地域の登録結果を改善した。 次に,2段階のtto手法,すなわちiso(image-specific optimization)とrso(region-specific optimization)を提案する。 さらに,効率と精度の両面で,3段階のDLベース画像登録ワークフローを構想した。 実験の結果,提案手法は従来手法よりも質的に,定量的に優れていた。

Medical image registration is a fundamental and vital task which will affect the efficacy of many downstream clinical tasks. Deep learning (DL)-based deformable image registration (DIR) methods have been investigated, showing state-of-the-art performance. A test time optimization (TTO) technique was proposed to further improve the DL models' performance. Despite the substantial accuracy improvement with this TTO technique, there still remained some regions that exhibited large registration errors even after many TTO iterations. To mitigate this challenge, we firstly identified the reason why the TTO technique was slow, or even failed, to improve those regions' registration results. We then proposed a two-levels TTO technique, i.e., image-specific optimization (ISO) and region-specific optimization (RSO), where the region can be interactively indicated by the clinician during the registration result reviewing process. For both efficiency and accuracy, we further envisioned a three-step DL-based image registration workflow. Experimental results showed that our proposed method outperformed the conventional method qualitatively and quantitatively.
翻訳日:2022-03-10 16:15:03 公開日:2022-03-08
# 圧縮不確かさを伴うライブ腹腔鏡下ビデオ検索

Live Laparoscopic Video Retrieval with Compressed Uncertainty ( http://arxiv.org/abs/2203.04301v1 )

ライセンス: Link先を確認
Tong Yu, Pietro Mascagni, Juan Verde, Jacques Marescaux, Didier Mutter, Nicolas Padoy(参考訳) 関連情報を検索するために大量の医療データを検索することは、臨床医療にとって難しいが重要な課題である。 しかし、キーワードの形式でテキストを検索する原始的かつ最も一般的なアプローチは、複雑なメディアフォーマットを扱う場合に非常に制限される。 コンテンツベースの検索は、リッチメディアをクエリ自身として使用することで、この制限を克服する方法を提供する。 特に外科的ビデオ・ビデオ検索は,特にリアルタイム・ビデオ・ハッシュを用いて手術室内で直接検索を行うという,臨床的価値の高い新たな未発見な研究課題である。 実際、ハッシュ処理は大規模なデータエントリをコンパクトなバイナリ配列やハッシュに変換し、大規模な検索操作を非常に高速に行えるようにする。 しかし、ビデオ中のゆらぎにより、与えられたハッシュのすべてのビットが等しく信頼できるわけではない。 本研究では,光計算フットプリントを維持しながら,この不確実性を緩和する手法を提案する。 そこで本研究では, 胆嚢摘出術期, バイパス期, まったく新しいデータセットから得られた6種類の手術タイプにまたがるクリティカルイベントを用いて, 手術用マルチタスク評価プロトコルにおいて, 優れた検索結果(3~4%トップ10平均精度)を示す。 このマルチタスクベンチマークの成功は,本手法の外科的ビデオ検索における汎用性を示している。

Searching through large volumes of medical data to retrieve relevant information is a challenging yet crucial task for clinical care. However the primitive and most common approach to retrieval, involving text in the form of keywords, is severely limited when dealing with complex media formats. Content-based retrieval offers a way to overcome this limitation, by using rich media as the query itself. Surgical video-to-video retrieval in particular is a new and largely unexplored research problem with high clinical value, especially in the real-time case: using real-time video hashing, search can be achieved directly inside of the operating room. Indeed, the process of hashing converts large data entries into compact binary arrays or hashes, enabling large-scale search operations at a very fast rate. However, due to fluctuations over the course of a video, not all bits in a given hash are equally reliable. In this work, we propose a method capable of mitigating this uncertainty while maintaining a light computational footprint. We present superior retrieval results (3-4 % top 10 mean average precision) on a multi-task evaluation protocol for surgery, using cholecystectomy phases, bypass phases, and coming from an entirely new dataset introduced here, critical events across six different surgery types. Success on this multi-task benchmark shows the generalizability of our approach for surgical video retrieval.
翻訳日:2022-03-10 16:14:48 公開日:2022-03-08
# 内視鏡におけるスーパーポイントの特徴

SuperPoint features in endoscopy ( http://arxiv.org/abs/2203.04302v1 )

ライセンス: Link先を確認
O. L. Barbed, F. Chadebecq, J. Morlana, J.M. Mart\'inez-Montiel, A. C. Murillo(参考訳) 研究結果と日常医療における適用性の間には、しばしば大きなギャップがある。 本研究は,定期的大腸内視鏡下手術で得られた医用データセットの局所的特徴について述べる。 局所的な特徴抽出とマッチングは、特に3Dモデリングに関する多くのコンピュータビジョンアプリケーションにとって重要なステップである。 医療分野では、SIFTのような手作りのローカル機能、COLMAPのような公開パイプラインが依然としてこの種のタスクの主要なツールである。 我々は,よく知られた自己教師付きアプローチスーパーポイントの可能性を検討し,内視鏡領域に適応したバリエーションを示し,難解な評価枠組みを提案する。 superpointベースのモデルは、このドメインで一般的に使用されるローカル機能よりもはるかに高いマッチング品質を達成します。 適応型モデルは、内視鏡画像における頻繁かつ問題のあるアーティファクトである特定領域内の特徴を回避し、その結果の一致と再構成に有用である。

There is often a significant gap between research results and applicability in routine medical practice. This work studies the performance of well-known local features on a medical dataset captured during routine colonoscopy procedures. Local feature extraction and matching is a key step for many computer vision applications, specially regarding 3D modelling. In the medical domain, handcrafted local features such as SIFT, with public pipelines such as COLMAP, are still a predominant tool for this kind of tasks. We explore the potential of the well known self-supervised approach SuperPoint, present an adapted variation for the endoscopic domain and propose a challenging evaluation framework. SuperPoint based models achieve significantly higher matching quality than commonly used local features in this domain. Our adapted model avoids features within specularity regions, a frequent and problematic artifact in endoscopic images, with consequent benefits for matching and reconstruction results.
翻訳日:2022-03-10 16:14:24 公開日:2022-03-08
# 医学的異常検出のための拡散モデル

Diffusion Models for Medical Anomaly Detection ( http://arxiv.org/abs/2203.04306v1 )

ライセンス: Link先を確認
Julia Wolleb, Florentin Bieder, Robin Sandk\"uhler, Philippe C. Cattin(参考訳) 医学的応用においては、画像レベルのアノテーションのみを必要とするため、弱い教師付き異常検出法が重要である。 現在の異常検出法は、主に生成的逆ネットワークまたはオートエンコーダモデルに依存している。 これらのモデルは、しばしば訓練に複雑で、画像の細かい詳細を保存できない。 本稿では,分散拡散暗黙モデルに基づく新しい弱教師付き異常検出法を提案する。 我々は, 決定論的反復的雑音化手法と, イメージ・ツー・イメージ翻訳のための分類法を併用した。 本手法は複雑な訓練手順を必要とせず,非常に詳細な異常マップを生成する。 脳腫瘍検出のためのbrats2020データセットと胸水検出のためのchexpertデータセットの評価を行った。

In medical applications, weakly supervised anomaly detection methods are of great interest, as only image-level annotations are required for training. Current anomaly detection methods mainly rely on generative adversarial networks or autoencoder models. Those models are often complicated to train or have difficulties to preserve fine details in the image. We present a novel weakly supervised anomaly detection method based on denoising diffusion implicit models. We combine the deterministic iterative noising and denoising scheme with classifier guidance for image-to-image translation between diseased and healthy subjects. Our method generates very detailed anomaly maps without the need for a complex training procedure. We evaluate our method on the BRATS2020 dataset for brain tumor detection and the CheXpert dataset for detecting pleural effusions.
翻訳日:2022-03-10 16:14:11 公開日:2022-03-08
# 単一画像復調のためのマルチスケール適応ネットワーク

Multi-Scale Adaptive Network for Single Image Denoising ( http://arxiv.org/abs/2203.04313v1 )

ライセンス: Link先を確認
Yuanbiao Gou, Peng Hu, Jiancheng Lv, Xi Peng(参考訳) マルチスケールアーキテクチャは、クロススケールの相補性に魅力があるため、単一イメージの認知を含む様々なタスクで有効性を示している。 しかしながら、既存の手法では、スケール固有の特性、すなわち、スケール内特性を無視することなく、異なるスケール特徴を等しく扱う。 本稿では,マルチスケールアーキテクチャ設計におけるこの欠落点を明らかにするとともに,マルチスケール適応ネットワーク(MSANet)を提案する。 MSANetは、適応的特徴ブロック(AFeB)、適応的マルチスケールブロック(AMB)、適応的融合ブロック(AFuB)という3つの新しいニューラルネットワークブロックのおかげで、内部的特徴とクロススケール補完性を同時に受け入れている。 簡単に言うと、AFeBは詳細を適応的に選択し、ノイズをフィルタするように設計されている。 AMBは受容領域を拡大し、細粒度と粗粒度の両方の要求を満たすように設計されたマルチスケール情報を集約することができる。 afubは、機能をひとつのスケールから別のスケールに適応的にサンプリングし、転送することに専心している。 3つの実画像と6つの合成ノイズ画像データセットの大規模な実験は、12の手法と比較して、MSANetの優位性を示している。

Multi-scale architectures have shown effectiveness in a variety of tasks including single image denoising, thanks to appealing cross-scale complementarity. However, existing methods treat different scale features equally without considering their scale-specific characteristics, i.e., the within-scale characteristics are ignored. In this paper, we reveal this missing piece for multi-scale architecture design and accordingly propose a novel Multi-Scale Adaptive Network (MSANet) for single image denoising. To be specific, MSANet simultaneously embraces the within-scale characteristics and the cross-scale complementarity thanks to three novel neural blocks, i.e., adaptive feature block (AFeB), adaptive multi-scale block (AMB), and adaptive fusion block (AFuB). In brief, AFeB is designed to adaptively select details and filter noises, which is highly expected for fine-grained features. AMB could enlarge the receptive field and aggregate the multi-scale information, which is designed to satisfy the demands of both fine- and coarse-grained features. AFuB devotes to adaptively sampling and transferring the features from one scale to another scale, which is used to fuse the features with varying characteristics from coarse to fine. Extensive experiments on both three real and six synthetic noisy image datasets show the superiority of MSANet compared with 12 methods.
翻訳日:2022-03-10 16:14:00 公開日:2022-03-08
# 位置認識をチューニングする - Robust SLAMによる自己監督型ドメインキャリブレーション

Tune your Place Recognition: Self-Supervised Domain Calibration via Robust SLAM ( http://arxiv.org/abs/2203.04446v1 )

ライセンス: Link先を確認
Pierre-Yves Lajoie and Giovanni Beltrame(参考訳) 近年、最先端技術として自らを課している深層学習に基づく視覚位置認識技術は、トレーニングセットと視覚的に異なる環境に常によく一般化するわけではない。 したがって、トップパフォーマンスを達成するためには、ネットワークをターゲット環境に微調整する必要がある。 そこで本研究では,GPSや手動ラベリングを必要とせずに,同時局所化マッピング(SLAM)から頑健なポーズグラフ推定に基づく,完全に自己監督されたドメインキャリブレーション手法を提案する。 まず,本手法を用いて作成したトレーニングサンプルを用いて,事前学習した分類モデルから視覚的位置認識システムの訓練を行う。 そして,本手法は,トレーニングセットと異なるターゲット環境における最先端技術の性能を向上させることができることを示す。 このアプローチは、実践者が現実世界のアプリケーションでより堅牢な場所認識ソリューションを展開するのに役立つと信じています。

Visual place recognition techniques based on deep learning, which have imposed themselves as the state-of-the-art in recent years, do not always generalize well to environments that are visually different from the training set. Thus, to achieve top performance, it is sometimes necessary to fine-tune the networks to the target environment. To this end, we propose a completely self-supervised domain calibration procedure based on robust pose graph estimation from Simultaneous Localization and Mapping (SLAM) as the supervision signal without requiring GPS or manual labeling. We first show that the training samples produced by our technique are sufficient to train a visual place recognition system from a pre-trained classification model. Then, we show that our approach can improve the performance of a state-of-the-art technique on a target environment dissimilar from the training set. We believe that this approach will help practitioners to deploy more robust place recognition solutions in real-world applications.
翻訳日:2022-03-10 16:13:35 公開日:2022-03-08
# DNNに基づく音声合成システムにおける高調波の役割

Harmonicity Plays a Critical Role in DNN Based Versus in Biologically-Inspire d Monaural Speech Segregation Systems ( http://arxiv.org/abs/2203.04420v1 )

ライセンス: Link先を確認
Rahil Parikh (1), Ilya Kavalerov (2), Carol Espy-Wilson (1), Shihab Shamma (1) ((1) Institute for Systems Research, University of Maryland, (2) Google Inc.)(参考訳) 近年のディープラーニングの進歩は、音声分離モデルの大幅な改善につながっている。 その成功と適用性の拡大にもかかわらず、これらのネットワークが分離を行うために学習する基礎となる原則を分析する努力はほとんど行われていない。 本稿では、DNNベースのモデルであるConv-TasNetとDPT-Netにおける調和性の役割を分析する。 和音がわずかに振動する非調和音声に対して, 自然音声の混合による性能評価を行った。 例えば、受容不能な3%の高調波ジッタは、15.4dBから0.70dBまでのConv-TasNetの性能を劣化させる。 非調和音声のモデルの訓練は、この感度を改善せず、代わりに自然音声の混合の性能が悪化し、非調和性はDNNモデルにおいて強力な敵対要因となる。 さらに、DNNアルゴリズムは、生物学的にインスパイアされたアルゴリズムから著しく逸脱し、主にタイミングの手がかりに依存し、発声の分離に調和性がないことが明らかとなった。

Recent advancements in deep learning have led to drastic improvements in speech segregation models. Despite their success and growing applicability, few efforts have been made to analyze the underlying principles that these networks learn to perform segregation. Here we analyze the role of harmonicity on two state-of-the-art Deep Neural Networks (DNN)-based models- Conv-TasNet and DPT-Net. We evaluate their performance with mixtures of natural speech versus slightly manipulated inharmonic speech, where harmonics are slightly frequency jittered. We find that performance deteriorates significantly if one source is even slightly harmonically jittered, e.g., an imperceptible 3% harmonic jitter degrades performance of Conv-TasNet from 15.4 dB to 0.70 dB. Training the model on inharmonic speech does not remedy this sensitivity, instead resulting in worse performance on natural speech mixtures, making inharmonicity a powerful adversarial factor in DNN models. Furthermore, additional analyses reveal that DNN algorithms deviate markedly from biologically inspired algorithms that rely primarily on timing cues and not harmonicity to segregate speech.
翻訳日:2022-03-10 15:21:51 公開日:2022-03-08
# 発話特異的ディリクレ優先順位を用いた感情クラスラベルの不確かさの推定

Estimating the Uncertainty in Emotion Class Labels with Utterance-Specific Dirichlet Priors ( http://arxiv.org/abs/2203.04443v1 )

ライセンス: Link先を確認
Wen Wu, Chao Zhang, Xixin Wu, Philip C. Woodland(参考訳) 感情認識は、人間と自然に対話する必要がある人工知能システムにとって重要な属性である。 しかし、タスク定義は感情のあいまいさのため、まだ未解決の問題である。 本稿では,人間のアノテータが同じ発話を異なる感情クラスに割り当てたときに生じる1ホットラベルの不確かさをモデル化した,発話ごとのディリクレの事前分布に基づく新しいベイズ訓練損失を提案する。 ラベル付けの不確かさの高い試験発話を検出することで、さらなる測定値を用いて性能を評価する。 これにより、感情分類システムが多数派ラベルの発話のみを考慮しているという大きな制限が取り除かれ、さらに、1つのホットラベル平均化によって得られる連続的な値の「ソフト」ラベルを活用するために、頻繁なアプローチが研究されている。 発話毎に感情分類を行うための2分岐モデル構造を提案する。 広く使われているIEMOCAPデータセットを用いた実験では、2分岐構造がすべての共通IEMOCAPテスト設定で最先端の分類結果を達成することを示した。 これに基づいて不確実性推定実験を行った。 ソフトラベルのkullback-leiblerダイバージェンストレーニング損失とベイズ学習損失を補間することにより,不確実度の高い発話を検出する際の精度リコール曲線下の領域の最適性能が得られた。

Emotion recognition is a key attribute for artificial intelligence systems that need to naturally interact with humans. However, the task definition is still an open problem due to inherent ambiguity of emotions. In this paper, a novel Bayesian training loss based on per-utterance Dirichlet prior distributions is proposed for verbal emotion recognition, which models the uncertainty in one-hot labels created when human annotators assign the same utterance to different emotion classes. An additional metric is used to evaluate the performance by detecting test utterances with high labelling uncertainty. This removes a major limitation that emotion classification systems only consider utterances with majority labels.Furthermore, a frequentist approach is studied to leverage the continuous-valued "soft" labels obtained by averaging the one-hot labels. We propose a two-branch model structure for emotion classification on a per-utterance basis. Experiments with the widely used IEMOCAP dataset demonstrate that the two-branch structure achieves state-of-the-art classification results with all common IEMOCAP test setups. Based on this, uncertainty estimation experiments were performed. The best performance in terms of the area under the precision-recall curve when detecting utterances with high uncertainty was achieved by interpolating the Bayesian training loss with the Kullback-Leibler divergence training loss for the soft labels.
翻訳日:2022-03-10 15:21:31 公開日:2022-03-08
# 自己監督・リモートセンシング・抽象化:300万箇所にわたる表現学習

Self-Supervision, Remote Sensing and Abstraction: Representation Learning Across 3 Million Locations ( http://arxiv.org/abs/2203.04445v1 )

ライセンス: Link先を確認
Sachith Seneviratne, Kerry A. Nice, Jasper S. Wijnands, Mark Stevenson, Jason Thompson(参考訳) 自己超越に基づく深層学習分類アプローチは学術文献で注目されている。 しかし、リモートセンシング画像領域におけるそのような手法の性能は未検討のままである。 本研究では,都市コンピューティングにおいて重要な課題である画像に基づく都市分類の課題に対するコントラスト表現学習手法を検討する。 2つのドメイン、300万のロケーション、1500以上の都市にまたがる衛星画像と地図画像を使用します。 自己監督手法は,200都市に限らず,最小限の訓練を施した未確認都市において,95%以上の精度の表現を達成できることを示す。 また,自然画像と抽象画像の領域差による教師あり手法と比較すると,そのような手法の性能差はリモートセンシング画像において重要であることがわかった。 我々は、学術文献から既存の教師付きモデルと比較し、より広範な使用法とさらなる批判のために我々のモデルをオープンソース化する。

Self-supervision based deep learning classification approaches have received considerable attention in academic literature. However, the performance of such methods on remote sensing imagery domains remains under-explored. In this work, we explore contrastive representation learning methods on the task of imagery-based city classification, an important problem in urban computing. We use satellite and map imagery across 2 domains, 3 million locations and more than 1500 cities. We show that self-supervised methods can build a generalizable representation from as few as 200 cities, with representations achieving over 95\% accuracy in unseen cities with minimal additional training. We also find that the performance discrepancy of such methods, when compared to supervised methods, induced by the domain discrepancy between natural imagery and abstract imagery is significant for remote sensing imagery. We compare all analysis against existing supervised models from academic literature and open-source our models for broader usage and further criticism.
翻訳日:2022-03-10 15:16:56 公開日:2022-03-08
# 階層モデルに対する局所拡張境界を用いた変分推論

Variational Inference with Locally Enhanced Bounds for Hierarchical Models ( http://arxiv.org/abs/2203.04432v1 )

ライセンス: Link先を確認
Tomas Geffner and Justin Domke(参考訳) 階層モデルは推論アルゴリズムにとって難しい設定である。 MCMC法は、多くの局所変数と観測値を持つ大規模モデルへのスケールに苦慮し、変異推論(VI)は、単純な変分族の使用により正確な近似を得られない可能性がある。 いくつかの変分法(例えば、重み付きVI)はモンテカルロ法を統合して精度を向上させるが、これらは階層モデルには適さない傾向にある。 本稿では,局所確率変数群ごとに個別に重み付け法(重要度重み付け法など)を適用することにより,階層モデルに対する新しい変分境界の族を提案する。 提案手法は,非偏り勾配に対する部分サンプリングの利用を自然に可能とし,低次元空間に独立に適用することにより,より狭い下界を構築する手法のパワーを十分に活用し,関連する基底線よりも優れた結果とより正確な後部近似をもたらすことを示す。

Hierarchical models represent a challenging setting for inference algorithms. MCMC methods struggle to scale to large models with many local variables and observations, and variational inference (VI) may fail to provide accurate approximations due to the use of simple variational families. Some variational methods (e.g. importance weighted VI) integrate Monte Carlo methods to give better accuracy, but these tend to be unsuitable for hierarchical models, as they do not allow for subsampling and their performance tends to degrade for high dimensional models. We propose a new family of variational bounds for hierarchical models, based on the application of tightening methods (e.g. importance weighting) separately for each group of local random variables. We show that our approach naturally allows the use of subsampling to get unbiased gradients, and that it fully leverages the power of methods that build tighter lower bounds by applying them independently in lower dimensional spaces, leading to better results and more accurate posterior approximations than relevant baselines.
翻訳日:2022-03-10 14:56:16 公開日:2022-03-08
# cider: 超球面埋め込みを分散検出に活用する

CIDER: Exploiting Hyperspherical Embeddings for Out-of-Distribution Detection ( http://arxiv.org/abs/2203.04450v1 )

ライセンス: Link先を確認
Yifei Ming, Yiyou Sun, Ousmane Dia, Yixuan Li(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、信頼できる機械学習にとって重要なタスクである。 近年の表現学習の進歩は, 距離依存型OOD検出の進展を招き, テストサンプルが中心体や分布内(ID)クラスのプロトタイプから比較的離れている場合, OODとして検出される。 しかし,従来の方法では,IDサンプルの分類に十分なオフザシェルフ損失関数を直接取り出すが,OOD検出には最適ではない。 本稿では,OOD検出のための超球面埋め込みを利用した簡易かつ効果的な表現学習フレームワークCIDERを提案する。 CIDERは2つの損失を共同で最適化し,強いID-OOD分離性を促進する。(1) 異なるクラスプロトタイプ間の角距離を拡大する分散損失,(2) サンプルをクラスプロトタイプに近接させるコンパクト化損失。 CIDERは様々な設定で有効であることを示し、最先端の性能を確立する。 ハード OOD 検出タスク CIFAR-100 vs. CIFAR-10 では,クロスエントロピー損失による埋め込みに比べて,AUROC を14.20%向上させる。

Out-of-distribution (OOD) detection is a critical task for reliable machine learning. Recent advances in representation learning give rise to developments in distance-based OOD detection, where testing samples are detected as OOD if they are relatively far away from the centroids or prototypes of in-distribution (ID) classes. However, prior methods directly take off-the-shelf loss functions that suffice for classifying ID samples, but are not optimally designed for OOD detection. In this paper, we propose CIDER, a simple and effective representation learning framework by exploiting hyperspherical embeddings for OOD detection. CIDER jointly optimizes two losses to promote strong ID-OOD separability: (1) a dispersion loss that promotes large angular distances among different class prototypes, and (2) a compactness loss that encourages samples to be close to their class prototypes. We show that CIDER is effective under various settings and establishes state-of-the-art performance. On a hard OOD detection task CIFAR-100 vs. CIFAR-10, our method substantially improves the AUROC by 14.20% compared to the embeddings learned by the cross-entropy loss.
翻訳日:2022-03-10 14:55:06 公開日:2022-03-08
# 軽度認知障害のアルツハイマー病への転換予測

Predicting conversion of mild cognitive impairment to Alzheimer's disease ( http://arxiv.org/abs/2203.04725v1 )

ライセンス: Link先を確認
Yiran Wei, Stephen J. Price, Carola-Bibiane Sch\"onlieb, Chao Li(参考訳) アルツハイマー病 (ad) は最も一般的な年齢関連認知症である。 軽度認知障害(MCI)は、AD以前の認知低下の初期段階である。 MCI-AD変換の正確な管理は,患者の多様性のために依然として困難である。 これまでの証拠は、拡散MRIから生成された脳ネットワークが、ディープラーニングを用いて認知症を分類することを約束していることを示している。 しかし、拡散MRIの可用性は限られており、モデルトレーニングに挑戦する。 本研究では,拡散MRIの指導のもと,通常の解剖学的MRIから構造脳ネットワークを生成するための自己指導型コントラスト学習手法を開発した。 生成された脳ネットワークを用いて、MCI-AD変換を予測するための学習フレームワークを訓練する。 私たちはAD脳ネットワークを直接モデル化する代わりに、グラフエンコーダと変分オートエンコーダをトレーニングし、健康的な制御の脳ネットワークから健康な老化軌道をモデル化します。 MCIからADへの変換を予測するため、我々は、健康な老化軌道から患者の脳ネットワークの長手偏差をモデル化するための、リカレントニューラルネットワークに基づくアプローチをさらに設計する。 数値計算の結果,提案手法は予測タスクのベンチマークよりも優れていた。 また, モデル解釈を可視化し, 予測と白色物質の異常な変化の同定を行う。

Alzheimer's disease (AD) is the most common age-related dementia. Mild cognitive impairment (MCI) is the early stage of cognitive decline before AD. It is crucial to predict the MCI-to-AD conversion for precise management, which remains challenging due to the diversity of patients. Previous evidence shows that the brain network generated from diffusion MRI promises to classify dementia using deep learning. However, the limited availability of diffusion MRI challenges the model training. In this study, we develop a self-supervised contrastive learning approach to generate structural brain networks from routine anatomical MRI under the guidance of diffusion MRI. The generated brain networks are applied to train a learning framework for predicting the MCI-to-AD conversion. Instead of directly modelling the AD brain networks, we train a graph encoder and a variational autoencoder to model the healthy ageing trajectories from brain networks of healthy controls. To predict the MCI-to-AD conversion, we further design a recurrent neural networks based approach to model the longitudinal deviation of patients' brain networks from the healthy ageing trajectory. Numerical results show that the proposed methods outperform the benchmarks in the prediction task. We also visualize the model interpretation to explain the prediction and identify abnormal changes of white matter tracts.
翻訳日:2022-03-10 14:53:10 公開日:2022-03-08
# LSTMSPLIT: 逐次時系列データに基づく効率的なSPLIT学習型LSTM

LSTMSPLIT: Effective SPLIT Learning based LSTM on Sequential Time-Series Data ( http://arxiv.org/abs/2203.04305v1 )

ライセンス: Link先を確認
Lianlian Jiang, Yuexuan Wang, Wenyi Zheng, Chao Jin, Zengxiang Li, Sin G. Teo(参考訳) フェデレートラーニング(FL)とスプリットラーニング(SL)は、データプライバシ保護メカニズムを提供する2つの一般的な分散機械学習(ML)アプローチである。 時系列分類問題では、多くの研究者がSLアプローチに基づく1D畳み込みニューラルネットワーク(1DCNN)を単一のクライアントで使用し、データのプライバシを保ちながらクライアント側の計算オーバーヘッドを低減する。 もうひとつの方法であるリカレントニューラルネットワーク(RNN)は、複数のセグメントのシーケンシャルデータのセグメントをさまざまなクライアントに分散するシーケンシャルなパーティショニングデータに使用される。 しかし、我々の知る限り、LSTMネットワークでさえ時系列データを処理するのに事実上有効であり、長い短期記憶(LSTM)ネットワークを持つSLでは、まだ多くの作業がおこなわれていない。 本研究では,LSTMネットワークを用いたSLアーキテクチャを用いて,時系列データを複数のクライアントで分類するLSTMSPLITを提案する。 データプライバシー漏洩を解決するために、差分プライバシー(DP)が適用される。 提案手法であるLSTMSPLITは,心電図データセットとヒト活動認識データセットを用いたSplit-1DCNN法と比較して,精度が向上した。 さらに,LSTMSPLITのカット層のユーザプライバシを保持するために差分プライバシーを適用した上で,その精度も向上する。

Federated learning (FL) and split learning (SL) are the two popular distributed machine learning (ML) approaches that provide some data privacy protection mechanisms. In the time-series classification problem, many researchers typically use 1D convolutional neural networks (1DCNNs) based on the SL approach with a single client to reduce the computational overhead at the client-side while still preserving data privacy. Another method, recurrent neural network (RNN), is utilized on sequentially partitioned data where segments of multiple-segment sequential data are distributed across various clients. However, to the best of our knowledge, it is still not much work done in SL with long short-term memory (LSTM) network, even the LSTM network is practically effective in processing time-series data. In this work, we propose a new approach, LSTMSPLIT, that uses SL architecture with an LSTM network to classify time-series data with multiple clients. The differential privacy (DP) is applied to solve the data privacy leakage. The proposed method, LSTMSPLIT, has achieved better or reasonable accuracy compared to the Split-1DCNN method using the electrocardiogram dataset and the human activity recognition dataset. Furthermore, the proposed method, LSTMSPLIT, can also achieve good accuracy after applying differential privacy to preserve the user privacy of the cut layer of the LSTMSPLIT.
翻訳日:2022-03-10 14:52:50 公開日:2022-03-08
# デジタルコンタクトトラクションへの機械学習アプローチ: TC4TL Challenge

A Machine Learning Approach to Digital Contact Tracing: TC4TL Challenge ( http://arxiv.org/abs/2203.04307v1 )

ライセンス: Link先を確認
Badrinath Singhal, Chris Vorster, Di Meng, Gargi Gupta, Laura Dunne and Mark Germaine(参考訳) 接触追跡は、公衆衛生機関が地域社会における感染症の拡散を防ぐために利用する方法である。 従来は手動のトレーサで行われていたが、最近ではスマートフォンのセンサーデータを利用して2つの端末間の距離を判断するアプリの利用が検討されている。 本稿では,Bluetooth Low Energy, センサデータ, メタデータを用いて, 2台の携帯電話端末間の距離を求める機械学習手法の開発について検討する。 TableNetアーキテクチャと機能エンジニアリングを使用して、既存の技術(現在のnDCF 0.21対2.08)の改善を行い、既存のモデルよりも大幅に優れています。

Contact tracing is a method used by public health organisations to try prevent the spread of infectious diseases in the community. Traditionally performed by manual contact tracers, more recently the use of apps have been considered utilising phone sensor data to determine the distance between two phones. In this paper, we investigate the development of machine learning approaches to determine the distance between two mobile phone devices using Bluetooth Low Energy, sensory data and meta data. We use TableNet architecture and feature engineering to improve on the existing state of the art (total nDCF 0.21 vs 2.08), significantly outperforming existing models.
翻訳日:2022-03-10 14:52:27 公開日:2022-03-08
# グラフ自己教師型学習による階層型UAV群集のクラスタヘッド検出

Cluster Head Detection for Hierarchical UAV Swarm With Graph Self-supervised Learning ( http://arxiv.org/abs/2203.04311v1 )

ライセンス: Link先を確認
Zhiyu Mou, Jun Liu, Xiang Yun, Feifei Gao, Qihui Wu(参考訳) 本稿では、複数のUAVクラスタを持つ2段無人航空機(UAV)群ネットワーク(USNET)のクラスタヘッド検出問題について検討し、HUAV(High-level cluster head)に関して、低レベル従者UAV(FUAV)の固有の追従戦略(IFS)が不明であることを示す。 まず,単一UAVクラスタのHUAVを検出するためのグラフ注意自己教師学習アルゴリズム(GASSL)を提案する。 次に、複数のUAVクラスタでUSNETのHUAVを検出するために、GASSLに基づくマルチクラスタグラフ注意自己教師学習アルゴリズム(MC-GASSL)を開発した。 MC-GASSLは、ゲートリカレントユニット(GRU)ベースのメトリック学習スキームでUSNETをクラスタリングし、GASSLで各クラスタ内のHUAVを見つける。 数値計算の結果,GASSLは1つのUAVクラスタ内のHUAVを98%以上の精度で検出できることがわかった。 シミュレーションの結果,mc-gasslによるusnetのクラスタリング純度は,従来のクラスタリングアルゴリズムに比べて10%以上向上した。 さらに、MC-GASSLは様々なIFSとクラスタ番号を持つUSNETのすべてのHUAVを効率よく検出できる。

In this paper, we study the cluster head detection problem of a two-level unmanned aerial vehicle (UAV) swarm network (USNET) with multiple UAV clusters, where the inherent follow strategy (IFS) of low-level follower UAVs (FUAVs) with respect to high-level cluster head UAVs (HUAVs) is unknown. We first propose a graph attention self-supervised learning algorithm (GASSL) to detect the HUAVs of a single UAV cluster, where the GASSL can fit the IFS at the same time. Then, to detect the HUAVs in the USNET with multiple UAV clusters, we develop a multi-cluster graph attention self-supervised learning algorithm (MC-GASSL) based on the GASSL. The MC-GASSL clusters the USNET with a gated recurrent unit (GRU)-based metric learning scheme and finds the HUAVs in each cluster with GASSL. Numerical results show that the GASSL can detect the HUAVs in single UAV clusters obeying various kinds of IFSs with over 98% average accuracy. The simulation results also show that the clustering purity of the USNET with MC-GASSL exceeds that with traditional clustering algorithms by at least 10% average. Furthermore, the MC-GASSL can efficiently detect all the HUAVs in USNETs with various IFSs and cluster numbers with low detection redundancies.
翻訳日:2022-03-10 14:52:16 公開日:2022-03-08
# ディジタル双生児の基礎となる生成モデルについて

On generative models as the basis for digital twins ( http://arxiv.org/abs/2203.04384v1 )

ライセンス: Link先を確認
G. Tsialiamanis, D.J. Wagg, N. Dervilis, K. Worden(参考訳) デジタルツインや構造鏡の基礎として、生成モデルのためのフレームワークが提案されている。 この提案は、決定論的モデルがほとんどの構造的モデリングアプリケーションに存在する不確かさを考慮できないという前提に基づいている。 ここでは2種類の生成モデルが検討されている。 第一は、確率有限要素法(sfe)に基づく物理モデルであり、材料と荷重の不確実性を持つ構造をモデル化する際に広く用いられる。 このようなモデルは構造からのデータに基づいて校正することができ、モデルが構造の基礎となる真の物理を正確に捉えた場合、他のモデルよりも優れていると期待される。 デジタルミラーとしてのsfeモデルの潜在的利用は、確率的材料特性を持つ線形構造への応用によって示される。 このようなモデルの物理的定式化が不十分な状況については、機械学習と条件付き生成逆ネットワーク(cgans)を用いてデータ駆動フレームワークを提案する。 後者のアルゴリズムは、材料非線形性と不確実性を持つ構造に対する関心量の分布を学習するために用いられる。 この研究で考慮された例では、データ駆動型cGANsモデルは物理学に基づくアプローチよりも優れている。 最後に、ハイブリッドモデルアプローチが示されるように、2つのメソッドが結合された例を示す。

A framework is proposed for generative models as a basis for digital twins or mirrors of structures. The proposal is based on the premise that deterministic models cannot account for the uncertainty present in most structural modelling applications. Two different types of generative models are considered here. The first is a physics-based model based on the stochastic finite element (SFE) method, which is widely used when modelling structures that have material and loading uncertainties imposed. Such models can be calibrated according to data from the structure and would be expected to outperform any other model if the modelling accurately captures the true underlying physics of the structure. The potential use of SFE models as digital mirrors is illustrated via application to a linear structure with stochastic material properties. For situations where the physical formulation of such models does not suffice, a data-driven framework is proposed, using machine learning and conditional generative adversarial networks (cGANs). The latter algorithm is used to learn the distribution of the quantity of interest in a structure with material nonlinearities and uncertainties. For the examples considered in this work, the data-driven cGANs model outperform the physics-based approach. Finally, an example is shown where the two methods are coupled such that a hybrid model approach is demonstrated.
翻訳日:2022-03-10 14:49:28 公開日:2022-03-08
# UENAS: 統一進化ベースのNASフレームワーク

UENAS: A Unified Evolution-based NAS Framework ( http://arxiv.org/abs/2203.04300v1 )

ライセンス: Link先を確認
Zimian Wei, Hengyue Pan, Xin Niu, Peijie Dong, Dongsheng Li(参考訳) ニューラルアーキテクチャサーチ(NAS)は,近年,自動ネットワーク設計において大きな注目を集めている。 以前のnasメソッドは検索スペースが限られており、その結果は最適以下の結果になる可能性がある。 本稿では,ネットワークアーキテクチャ,プルーニング戦略,ハイパーパラメータを同時に最適化する,より広い検索空間を持つ進化型NASフレームワークであるUENASを提案する。 拡張された検索空間による膨大な検索コストを軽減するために,まず,人口の平均モデルサイズを反復的にトリミングする適応型プルーニング戦略を,性能を損なうことなく導入する。 第二に、子ネットワークは重なり合うレイヤの重みを事前訓練された親ネットワークと共有し、トレーニングのエポックを低減する。 第3に、オンライン予測器は、劣るコンボをフィルタリングするために、アーキテクチャ、プルーニング戦略、ハイパーパラメータの合同表現をスコアする。 提案する3つの戦略により,検索効率が大幅に向上し,ハイパーパラメータを調整したより高性能なコンパクトネットワークが導出される。 実験では,CIFAR-10では2.81%,CIFAR-100では20.24%,Tiny-ImageNet では33%の誤差率を達成した。

Neural architecture search (NAS) has gained significant attention for automatic network design in recent years. Previous NAS methods suffer from limited search spaces, which may lead to sub-optimal results. In this paper, we propose UENAS, an evolution-based NAS framework with a broader search space that supports optimizing network architectures, pruning strategies, and hyperparameters simultaneously. To alleviate the huge search cost caused by the expanded search space, three strategies are adopted: First, an adaptive pruning strategy that iteratively trims the average model size in the population without compromising performance. Second, child networks share weights of overlapping layers with pre-trained parent networks to reduce the training epochs. Third, an online predictor scores the joint representations of architecture, pruning strategy, and hyperparameters to filter out inferior combos. By the proposed three strategies, the search efficiency is significantly improved and more well-performed compact networks with tailored hyper-parameters are derived. In experiments, UENAS achieves error rates of 2.81% on CIFAR-10, 20.24% on CIFAR-100, and 33% on Tiny-ImageNet, which shows the effectiveness of our method.
翻訳日:2022-03-10 14:48:35 公開日:2022-03-08
# PyNET-QxQ:CMOSイメージセンサにおけるQxQベイアパターンデモのための蒸留PyNET

PyNET-QxQ: A Distilled PyNET for QxQ Bayer Pattern Demosaicing in CMOS Image Sensor ( http://arxiv.org/abs/2203.04314v1 )

ライセンス: Link先を確認
Minhyeok Cho, Haechang Lee, Hyunwoo Je, Kijeong Kim, Dongil Ryu, Jinsu Kim, Jonghyun Bae, and Albert No(参考訳) モバイルカメラ用のディープラーニングベースのISPモデルは、プロのDSLRカメラに匹敵する高品質な画像を生成する。 しかし、それらの多くは計算コストが高く、モバイル環境には適していない可能性がある。 また、最近のモバイルカメラでは画質向上のために非バイヤーCFA(Quad Bayer、Nona Bayer、QxQ Bayerなど)を採用しているが、ほとんどのディープラーニングベースのISPモデルは標準のバイヤーCFAに重点を置いている。 本研究では,QxQ CFAパターンを明示的に設計した軽量ISPであるPyNETをベースとしたPyNET-QxQを提案する。 PyNET-QxQのパラメータ数はPyNETの2.5%以下である。 また,圧縮ネットワークを効果的に訓練するための新しい知識蒸留技術であるプログレッシブ蒸留法を提案する。 最後に、QxQ画像(開発中の実際のQxQカメラセンサで観測)による実験により、パラメータの大幅な減少にもかかわらず、PyNET-QxQの優れた性能を示す。

The deep learning-based ISP models for mobile cameras produce high-quality images comparable to the professional DSLR camera. However, many of them are computationally expensive, which may not be appropriate for mobile environments. Also, the recent mobile cameras adopt non-Bayer CFAs (e.g., Quad Bayer, Nona Bayer, and QxQ Bayer) to improve image quality; however, most deep learning-based ISP models mainly focus on standard Bayer CFA. In this work, we propose PyNET-QxQ based on PyNET, a light-weighted ISP explicitly designed for the QxQ CFA pattern. The number of parameters of PyNET-QxQ is less than 2.5% of PyNET. We also introduce a novel knowledge distillation technique, progressive distillation, to train the compressed network effectively. Finally, experiments with QxQ images (obtained by an actual QxQ camera sensor, under development) demonstrate the outstanding performance of PyNET-QxQ despite significant parameter reductions.
翻訳日:2022-03-10 14:48:14 公開日:2022-03-08
# 人工知能を用いた乳癌検出 : 体系的文献レビュー

Breast cancer detection using artificial intelligence techniques: A systematic literature review ( http://arxiv.org/abs/2203.04308v1 )

ライセンス: Link先を確認
Ali Bou Nassif, Manar Abu Talib, Qassim Nasir, Yaman Afadar, Omar Elgendy(参考訳) がんは人間にとって最も危険な病気の1つだが、永久的な治療法は開発されていない。 乳癌は最も一般的ながんの1つである。 国立乳癌財団によると、2020年だけで27万6000人以上の浸潤性乳癌と4万8000人以上の非浸潤性症例が米国で診断された。 これらの数字を総合すると、これらの症例の64%は疾患周期の早い段階で診断され、患者の生存確率は99%である。 人工知能と機械学習は、いくつかの危険な疾患の検出と治療に効果的に使われ、早期診断と治療に役立ち、患者が生存する可能性を高める。 深層学習は重篤な疾患の検出と治療に影響を与える最も重要な特徴を分析するように設計されている。 例えば、乳癌は遺伝子や病理組織画像を用いて検出することができる。 遺伝子レベルでの分析は非常に高価であるため、病理組織像は乳がんを検出する最も一般的なアプローチである。 本研究では,ディープラーニングと機械学習を用いて,遺伝子シークエンシングや病理組織像を用いた乳癌の検出と治療に関するこれまでの研究を体系的に検討した。 我々はまた、この分野で働く研究者にレコメンデーションを提供する。

Cancer is one of the most dangerous diseases to humans, and yet no permanent cure has been developed for it. Breast cancer is one of the most common cancer types. According to the National Breast Cancer foundation, in 2020 alone, more than 276,000 new cases of invasive breast cancer and more than 48,000 non-invasive cases were diagnosed in the US. To put these figures in perspective, 64% of these cases are diagnosed early in the disease's cycle, giving patients a 99% chance of survival. Artificial intelligence and machine learning have been used effectively in detection and treatment of several dangerous diseases, helping in early diagnosis and treatment, and thus increasing the patient's chance of survival. Deep learning has been designed to analyze the most important features affecting detection and treatment of serious diseases. For example, breast cancer can be detected using genes or histopathological imaging. Analysis at the genetic level is very expensive, so histopathological imaging is the most common approach used to detect breast cancer. In this research work, we systematically reviewed previous work done on detection and treatment of breast cancer using genetic sequencing or histopathological imaging with the help of deep learning and machine learning. We also provide recommendations to researchers who will work in this field
翻訳日:2022-03-10 14:25:53 公開日:2022-03-08
# MICDIR: 自己構築グラフラテント付きUNetMSSを用いたマルチスケール逆整合デフォルマブルイメージレジストレーション

MICDIR: Multi-scale Inverse-consistent Deformable Image Registration using UNetMSS with Self-Constructing Graph Latent ( http://arxiv.org/abs/2203.04317v1 )

ライセンス: Link先を確認
Soumick Chatterjee, Himanshi Bajaj, Istiyak H. Siddiquee, Nandish Bandi Subbarayappa, Steve Simon, Suraj Bangalore Shashidhar, Oliver Speck and Andreas N\"urnberge(参考訳) 画像登録とは、リモートセンシング、画像検索、医用画像などのコンピュータビジョンの様々な応用で広く使われている技術である。 深層学習に基づく技術は、医用画像登録を含む様々な複雑な医用画像処理問題に対処するために成功している。 長年にわたり、深層学習を用いた画像登録技術が提案されてきた。 voxelmorphのような変形可能な画像登録技術は、より細かい変化を捉え、より滑らかな変形を提供するのに成功している。 しかしながら、VoxelmorphはICNetやFIREと同様に、グローバルな依存関係(すなわち供給された画像の全体解剖学的ビュー)を明示的にエンコードしていないため、大きな変形を追跡できない。 上記の問題に取り組むため,本稿ではvoxelmorphアプローチを3つの方法で拡張する。 変形の小さい場合や大きな場合の性能向上のために,マルチスケールのUNetを用いて,解像度の異なるモデルの監視を行った。 与えられた画像対の構造的相関関係を学習し、符号化するネットワークを支援するために、自己構築グラフネットワーク(SCGNet)がマルチスケールUNetの潜時として使われ、モデルの学習プロセスを改善し、モデルをより一般化するのに役立つ。 そして最後に,変形を逆整合にするために,サイクル一貫性の損失が採用されている。 脳MRIの登録作業において、提案手法はANTとVoxelMorphに対して大幅に改善され、Diceスコアはイントラモダルで0.8013$\pm$0.0243、インターモーダルで0.6211$\pm$0.0309、VoxelMorphは0.7747$\pm$0.0260、VoxelMorphは0.6071$\pm$0.0510となった。

Image registration is the process of bringing different images into a common coordinate system - a technique widely used in various applications of computer vision, such as remote sensing, image retrieval, and most commonly in medical imaging. Deep Learning based techniques have been applied successfully to tackle various complex medical image processing problems, including medical image registration. Over the years, several image registration techniques have been proposed using deep learning. Deformable image registration techniques such as Voxelmorph have been successful in capturing finer changes and providing smoother deformations. However, Voxelmorph, as well as ICNet and FIRE, do not explicitly encode global dependencies (i.e. the overall anatomical view of the supplied image) and therefore can not track large deformations. In order to tackle the aforementioned problems, this paper extends the Voxelmorph approach in three different ways. To improve the performance in case of small as well as large deformations, supervision of the model at different resolutions have been integrated using a multi-scale UNet. To support the network to learn and encode the minute structural co-relations of the given image-pairs, a self-constructing graph network (SCGNet) has been used as the latent of the multi-scale UNet - which can improve the learning process of the model and help the model to generalise better. And finally, to make the deformations inverse-consistent, cycle consistency loss has been employed. On the task of registration of brain MRIs, the proposed method achieved significant improvements over ANTs and VoxelMorph, obtaining a Dice score of 0.8013$\pm$0.0243 for intramodal and 0.6211$\pm$0.0309 for intermodal, while VoxelMorph achieved 0.7747$\pm$0.0260 and 0.6071$\pm$0.0510, respectively.
翻訳日:2022-03-10 14:25:35 公開日:2022-03-08
# 旗の中央値とフラガールは

The Flag Median and FlagIRLS ( http://arxiv.org/abs/2203.04437v1 )

ライセンス: Link先を確認
Nathan Mankovich, Emily King, Chris Peterson, Michael Kirby(参考訳) データセットのプロトタイプ(平均と中央値)を見つけることは、多くの一般的な機械学習アルゴリズムの中心である。 サブスペースは、画像やビデオなどのデータセットに有用で堅牢な表現を提供することが示されている。 部分空間はグラスマン多様体上の点に対応するので、グラスマン値のデータセットに対する部分空間の原型を考えることが導かれる。 多くの異なるサブスペースのプロトタイプが説明されているが、これらのプロトタイプのいくつかは計算コストが高く、他のプロトタイプは外れ値の影響を受け、ノイズの多いデータに対して非常に不完全なクラスタリングを生成する。 本研究は、フラグ中央値である新しいサブスペースプロトタイプを提案し、その計算にFragIRLSアルゴリズムを導入する。 旗の中央値が外れ値に対して頑健であることを示す証拠を,Linde-Buzo-Grey (LBG) などのアルゴリズムで有効に使用して,グラスマン多様体上のクラスタリングを改善する。 数値実験には、合成データセット、MNIST手書き桁データセット、Mind's Eyeビデオデータセット、UCF YouTubeアクションデータセットが含まれる。 フラグ中央値は、グラスマンのプロトタイプを計算する他の主要なアルゴリズム、すなわち$\ell_2$-medianとフラグ平均と比較される。 FlagIRLSを使ってフラグを中央値に計算すると、合成データセット上で4ドルの反復で収束する。 また、コードブックサイズが20ドルで、フラグ中央値を使用すると、フラグの平均値またはMind's Eyeデータセットの$\ell_2$-medianを使用して、Grassmannian LBGに対するクラスタ純度が少なくとも10\%以上向上する。

Finding prototypes (e.g., mean and median) for a dataset is central to a number of common machine learning algorithms. Subspaces have been shown to provide useful, robust representations for datasets of images, videos and more. Since subspaces correspond to points on a Grassmann manifold, one is led to consider the idea of a subspace prototype for a Grassmann-valued dataset. While a number of different subspace prototypes have been described, the calculation of some of these prototypes has proven to be computationally expensive while other prototypes are affected by outliers and produce highly imperfect clustering on noisy data. This work proposes a new subspace prototype, the flag median, and introduces the FlagIRLS algorithm for its calculation. We provide evidence that the flag median is robust to outliers and can be used effectively in algorithms like Linde-Buzo-Grey (LBG) to produce improved clusterings on Grassmannians. Numerical experiments include a synthetic dataset, the MNIST handwritten digits dataset, the Mind's Eye video dataset and the UCF YouTube action dataset. The flag median is compared the other leading algorithms for computing prototypes on the Grassmannian, namely, the $\ell_2$-median and to the flag mean. We find that using FlagIRLS to compute the flag median converges in $4$ iterations on a synthetic dataset. We also see that Grassmannian LBG with a codebook size of $20$ and using the flag median produces at least a $10\%$ improvement in cluster purity over Grassmannian LBG using the flag mean or $\ell_2$-median on the Mind's Eye dataset.
翻訳日:2022-03-10 14:24:58 公開日:2022-03-08
# 強化学習における探索加速のためのR'enyi状態エントロピー

R\'enyi State Entropy for Exploration Acceleration in Reinforcement Learning ( http://arxiv.org/abs/2203.04297v1 )

ライセンス: Link先を確認
Mingqi Yuan, Man-on Pun, Dong Wang(参考訳) 深層強化学習における最も重要な課題の1つは、エージェントの長期探査能力を維持することである。 この問題に対処するため, エージェントに本質的な報酬を提供することが近年提案されている。 しかし、文献で提案されている本質的な報酬に基づく方法のほとんどは、持続可能な調査インセンティブを提供していない。 さらに、これらの従来の手法は、複雑なモデルと学習手順への追加メモリを伴い、高い計算複雑性と低ロバスト性をもたらす。 本研究では,R'enyiエントロピーに基づく新しい固有報酬モジュールを提案し,高品質な固有報酬を提供する。 本手法は既存の状態エントロピー最大化法を実際に一般化することを示す。 特に、エントロピー推定のために$k$-nearest近傍推定器が導入され、その推定精度を保証するために$k$-value探索法が設計されている。 広範なシミュレーション結果から,提案手法は従来の手法に比べて高い性能が得られることがわかった。

One of the most critical challenges in deep reinforcement learning is to maintain the long-term exploration capability of the agent. To tackle this problem, it has been recently proposed to provide intrinsic rewards for the agent to encourage exploration. However, most existing intrinsic reward-based methods proposed in the literature fail to provide sustainable exploration incentives, a problem known as vanishing rewards. In addition, these conventional methods incur complex models and additional memory in their learning procedures, resulting in high computational complexity and low robustness. In this work, a novel intrinsic reward module based on the R\'enyi entropy is proposed to provide high-quality intrinsic rewards. It is shown that the proposed method actually generalizes the existing state entropy maximization methods. In particular, a $k$-nearest neighbor estimator is introduced for entropy estimation while a $k$-value search method is designed to guarantee the estimation accuracy. Extensive simulation results demonstrate that the proposed R\'enyi entropy-based method can achieve higher performance as compared to existing schemes.
翻訳日:2022-03-10 14:20:40 公開日:2022-03-08
# CaSS:多変量時系列分類のためのチャネル対応自己教師型表現学習フレームワーク

CaSS: A Channel-aware Self-supervised Representation Learning Framework for Multivariate Time Series Classification ( http://arxiv.org/abs/2203.04298v1 )

ライセンス: Link先を確認
Yijiang Chen, Xiangdong Zhou, Zhen Xing, Zhidan Liu, Minyang Xu(参考訳) 多変量時系列(MTS)の自己指導型表現学習は課題であり,近年研究関心が高まりつつある。 それまでの多くの研究は、自己教師付き学習の前提課題に焦点を合わせ、通常、MSS符号化の複雑な問題を無視し、結果が得られない。 本稿では,この課題をエンコーダとプリテキストタスクという2つの側面から解決し,チャネル認識型自己教師型学習フレームワークCaSSを提案する。 具体的には、MTSの異なる時間チャネル間の複雑な関係を捉えるために、Transformerベースのエンコーダチャネル対応トランス (CaT) を最初に設計する。 第2に,提案するエンコーダを用いた自己教師型表現学習において,NTP(Next Trend Prediction)とCS(Contextual similarity)の2つの新しいプレテキストタスクを組み合わせる。 いくつかの一般的なベンチマークデータセットで大規模な実験が行われる。 実験の結果,従来の自己教師付きmts表現学習法(lsstデータセットでは最大7.70\%改善)と比較し,下流mts分類に適用可能な新たな最先端学習を実現することができた。

Self-supervised representation learning of Multivariate Time Series (MTS) is a challenging task and attracts increasing research interests in recent years. Many previous works focus on the pretext task of self-supervised learning and usually neglect the complex problem of MTS encoding, leading to unpromising results. In this paper, we tackle this challenge from two aspects: encoder and pretext task, and propose a unified channel-aware self-supervised learning framework CaSS. Specifically, we first design a new Transformer-based encoder Channel-aware Transformer (CaT) to capture the complex relationships between different time channels of MTS. Second, we combine two novel pretext tasks Next Trend Prediction (NTP) and Contextual Similarity (CS) for the self-supervised representation learning with our proposed encoder. Extensive experiments are conducted on several commonly used benchmark datasets. The experimental results show that our framework achieves new state-of-the-art comparing with previous self-supervised MTS representation learning methods (up to +7.70\% improvement on LSST dataset) and can be well applied to the downstream MTS classification.
翻訳日:2022-03-10 14:20:21 公開日:2022-03-08
# 逆問題生成モデルのための中間層の正規化学習

Regularized Training of Intermediate Layers for Generative Models for Inverse Problems ( http://arxiv.org/abs/2203.04382v1 )

ライセンス: Link先を確認
Sean Gunn, Jorio Cocola, Paul Hand(参考訳) generative adversarial network (gans) は、逆問題を解く際に強力で柔軟な優先事項であることが示されている。 それらを使用する1つの課題は、特定の信号を表すネットワークの基本的制限である表現エラーを克服することである。 近年,複数の反転アルゴリズムが中間層表現を最適化することで表現誤差を低減している。 これらの手法は典型的には、下流反転アルゴリズムの訓練を受けない生成モデルに適用される。 本研究では,中間層最適化に基づくアルゴリズムを用いて生成モデルが反転を意図するならば,それらの中間層を正規化する方法で学習する必要があるという原理を導入する。 我々は、この原理を、中間層最適化とマルチコードganプリレントという、最近の注目すべき2つの反転アルゴリズムのためにインスタンス化する。 これら2つの逆解析アルゴリズムについて,新しい正規化gan学習アルゴリズムを導入し,圧縮センシング,インパインティング,スーパーレゾリューション問題を解く際に,学習した生成モデルが幅広いサンプリング率において,再構成誤差を低減させることを示す。

Generative Adversarial Networks (GANs) have been shown to be powerful and flexible priors when solving inverse problems. One challenge of using them is overcoming representation error, the fundamental limitation of the network in representing any particular signal. Recently, multiple proposed inversion algorithms reduce representation error by optimizing over intermediate layer representations. These methods are typically applied to generative models that were trained agnostic of the downstream inversion algorithm. In our work, we introduce a principle that if a generative model is intended for inversion using an algorithm based on optimization of intermediate layers, it should be trained in a way that regularizes those intermediate layers. We instantiate this principle for two notable recent inversion algorithms: Intermediate Layer Optimization and the Multi-Code GAN prior. For both of these inversion algorithms, we introduce a new regularized GAN training algorithm and demonstrate that the learned generative model results in lower reconstruction errors across a wide range of under sampling ratios when solving compressed sensing, inpainting, and super-resolution problems.
翻訳日:2022-03-10 14:19:12 公開日:2022-03-08
# 特徴選択のためのビーム探索

Beam Search for Feature Selection ( http://arxiv.org/abs/2203.04350v1 )

ライセンス: Link先を確認
Nicolas Fraiman, Zichao Li(参考訳) 本稿では,特徴のサブセットを用いた分類モデルの性能について,一貫性のある結果を示す。 さらに,前方選択の一般化と見なすことのできる特徴選択を行うために,ビーム探索の利用を提案する。 シミュレーションデータと実世界データの両方にビームサーチを適用し,様々な特徴を用いた分類モデルの性能評価と比較を行った。 その結果, ビーム探索は, 個々に考えるよりも識別力が高いように特徴が相関している場合において, 前方探索よりも優れることがわかった。 さらに、分類モデルは、数百の原特徴ではなく、ビームサーチによって選択された10の特徴のみを用いて、同等のパフォーマンスを得ることができた。

In this paper, we present and prove some consistency results about the performance of classification models using a subset of features. In addition, we propose to use beam search to perform feature selection, which can be viewed as a generalization of forward selection. We apply beam search to both simulated and real-world data, by evaluating and comparing the performance of different classification models using different sets of features. The results demonstrate that beam search could outperform forward selection, especially when the features are correlated so that they have more discriminative power when considered jointly than individually. Moreover, in some cases classification models could obtain comparable performance using only ten features selected by beam search instead of hundreds of original features.
翻訳日:2022-03-10 14:18:04 公開日:2022-03-08
# 高精度ジコトモウス画像分割法

Highly Accurate Dichotomous Image Segmentation ( http://arxiv.org/abs/2203.03041v2 )

ライセンス: Link先を確認
Xuebin Qin and Hang Dai and Xiaobin Hu and Deng-Ping Fan and Ling Shao and and Luc Van Gool(参考訳) 本稿では,自然画像から高精度な物体を分割することを目的とした,dichotomous image segmentation(dis)と呼ばれる新しいタスクに関する体系的な研究を行う。 この目的のために我々は,5,470個の高解像度画像(例えば,2K,4K以上の画像)を含むDisdis5Kと呼ばれる最初の大規模データセットを収集した。 すべての画像は、非常にきめ細かいラベルでアノテートされている。 さらに,Disdisモデルトレーニングのための特徴レベルとマスクレベルのガイダンスを併用した,シンプルな中間監視ベースライン(IS-Net)を導入する。 トリックなしでIS-Netは、提案されたdis5Kの様々な最先端ベースラインを上回り、Disdisにおける将来の研究を促進するための一般的な自己学習型の監視ネットワークとなる。 さらに、偽陽性と偽陰性を補正するために必要なマウスクリック操作数を近似するHCE(Human correct efforts)と呼ばれる新しい指標を設計する。 HCEはモデルと現実世界のアプリケーション間のギャップを測定するために使われ、既存のメトリクスを補完することができる。 最後に、最大規模のベンチマークを行い、16の代表的なセグメンテーションモデルを評価し、オブジェクトの複雑さについてより洞察力のある議論を行い、いくつかの潜在的な応用(背景除去、アートデザイン、3D再構成など)を示す。 これらの取り組みの推進は、学術と産業の両方に有望な方向性を開くことができる。 DIS5Kデータセット、IS-Netベースライン、HCEメトリック、そして完全なベンチマーク結果をリリースします。

We present a systematic study on a new task called dichotomous image segmentation (DIS), which aims to segment highly accurate objects from natural images. To this end, we collected the first large-scale dataset, called DIS5K, which contains 5,470 high-resolution (e.g., 2K, 4K or larger) images covering camouflaged, salient, or meticulous objects in various backgrounds. All images are annotated with extremely fine-grained labels. In addition, we introduce a simple intermediate supervision baseline (IS-Net) using both feature-level and mask-level guidance for DIS model training. Without tricks, IS-Net outperforms various cutting-edge baselines on the proposed DIS5K, making it a general self-learned supervision network that can help facilitate future research in DIS. Further, we design a new metric called human correction efforts (HCE) which approximates the number of mouse clicking operations required to correct the false positives and false negatives. HCE is utilized to measure the gap between models and real-world applications and thus can complement existing metrics. Finally, we conduct the largest-scale benchmark, evaluating 16 representative segmentation models, providing a more insightful discussion regarding object complexities, and showing several potential applications (e.g., background removal, art design, 3D reconstruction). Hoping these efforts can open up promising directions for both academic and industries. We will release our DIS5K dataset, IS-Net baseline, HCE metric, and the complete benchmark results.
翻訳日:2022-03-10 12:20:49 公開日:2022-03-08
# (参考訳) ドメインと特徴の幻覚を通してのFederated and Generalized Person Re-identification [全文訳有]

Federated and Generalized Person Re-identification through Domain and Feature Hallucinating ( http://arxiv.org/abs/2203.02689v2 )

ライセンス: CC BY 4.0
Fengxiang Yang, Zhun Zhong, Zhiming Luo, Shaozi Li, Nicu Sebe(参考訳) 本稿では,複数の分散ラベル付きソースドメインを用いた一般化モデルを学習することを目的とした,人物再識別(re-ID)のためのフェデレーションドメイン一般化(FedDG)の問題について検討する。 実証的手法(FedAvg)は、個別に局所モデルを訓練し、それらを平均化し、局所的な微調整や未確認ターゲットドメインへの展開のためのグローバルモデルを得る。 fedavgの欠点のひとつは、ローカルトレーニング中に他のクライアントのデータ分散を無視し、ローカルモデルがローカルデータに過度に適合し、一般化されていないグローバルモデルを生成することだ。 そこで本研究では,局所的・大域的モデルを学習するための多種多様な特徴を生み出すために,DFH(Domain and Feature Hallucinating)と呼ばれる新しい手法を提案する。 具体的には、各モデル集約プロセスの後、データプライバシに違反することなく、異なるクライアント間でドメインレベルの特徴統計(DFS)を共有します。 局所訓練中、DFSは、ランダムな重み付けでDFSを再重み付けすることで達成される提案されたドメイン幻覚を用いて、新しいドメイン統計を合成するために使用される。 そこで本研究では,局所的な特徴をスケールし,得られた新規ドメインの分布にシフトすることで多様化する機能幻覚を提案する。 合成された新しい特徴は、元のペアワイズ類似性を保ち、モデルを教師付き方式で最適化することができる。 広範な実験により,提案するdfhがグローバルモデルの一般化能力を効果的に向上できることが確かめられた。 提案手法は4つの大規模re-IDベンチマークにおいてFedDGの最先端性能を実現する。

In this paper, we study the problem of federated domain generalization (FedDG) for person re-identification (re-ID), which aims to learn a generalized model with multiple decentralized labeled source domains. An empirical method (FedAvg) trains local models individually and averages them to obtain the global model for further local fine-tuning or deploying in unseen target domains. One drawback of FedAvg is neglecting the data distributions of other clients during local training, making the local model overfit local data and producing a poorly-generalized global model. To solve this problem, we propose a novel method, called "Domain and Feature Hallucinating (DFH)", to produce diverse features for learning generalized local and global models. Specifically, after each model aggregation process, we share the Domain-level Feature Statistics (DFS) among different clients without violating data privacy. During local training, the DFS are used to synthesize novel domain statistics with the proposed domain hallucinating, which is achieved by re-weighting DFS with random weights. Then, we propose feature hallucinating to diversify local features by scaling and shifting them to the distribution of the obtained novel domain. The synthesized novel features retain the original pair-wise similarities, enabling us to utilize them to optimize the model in a supervised manner. Extensive experiments verify that the proposed DFH can effectively improve the generalization ability of the global model. Our method achieves the state-of-the-art performance for FedDG on four large-scale re-ID benchmarks.
翻訳日:2022-03-10 07:06:31 公開日:2022-03-08
# (参考訳) 演算子の学習カーネルに対するデータ適応RKHS Tikhonov正規化 [全文訳有]

Data adaptive RKHS Tikhonov regularization for learning kernels in operators ( http://arxiv.org/abs/2203.03791v1 )

ライセンス: CC BY 4.0
Fei Lu, Quanjun Lang and Qingci An(参考訳) DARTR: 演算子における関数パラメータの非パラメトリック学習における線形逆問題に対するデータ適応型RKHS Tikhonov正規化法を提案する。 鍵となる要素は、システム固有のデータ適応(SIDA)RKHSであり、その標準は、識別可能性の関数空間で起こる学習を制限する。 DARTRはこの基準を利用し、L曲線法により正規化パラメータを選択する。 本稿では、積分演算子、非線形演算子、離散合成データを持つ非局所演算子などの例でその性能を示す。 数値計算の結果,DARTRは離散データとデータノイズによる数値誤差の両面に頑健な推定器を導出し,データメッシュが異なるノイズレベルの下で洗練され,$l^2$と$L^2$ノルムの2つのベースライン正規化器よりも優れた精度で収束することがわかった。

We present DARTR: a Data Adaptive RKHS Tikhonov Regularization method for the linear inverse problem of nonparametric learning of function parameters in operators. A key ingredient is a system intrinsic data-adaptive (SIDA) RKHS, whose norm restricts the learning to take place in the function space of identifiability. DARTR utilizes this norm and selects the regularization parameter by the L-curve method. We illustrate its performance in examples including integral operators, nonlinear operators and nonlocal operators with discrete synthetic data. Numerical results show that DARTR leads to an accurate estimator robust to both numerical error due to discrete data and noise in data, and the estimator converges at a consistent rate as the data mesh refines under different levels of noises, outperforming two baseline regularizers using $l^2$ and $L^2$ norms.
翻訳日:2022-03-10 03:06:52 公開日:2022-03-08
# (参考訳) PAMI-AD:サーベイランスビデオにおけるパートアテンションとモーション情報を爆発させるアクティビティ検出器 [全文訳有]

PAMI-AD: An Activity Detector Exploiting Part-attention and Motion Information in Surveillance Videos ( http://arxiv.org/abs/2203.03796v1 )

ライセンス: CC BY 4.0
Yunhao Du, Zhihang Tong, Junfeng Wan, Binyu Zhang, and Yanyun Zhao(参考訳) 監視ビデオのアクティビティ検出は、小さなオブジェクト、複雑なアクティビティカテゴリ、未解決の性質などによって引き起こされる困難なタスクである。 本研究では,PAMI-ADという未編集監視ビデオにおいて,個人のみおよび車両のみの活動を効果的に検出するシステムを提案する。 マルチオブジェクト追跡、バックグラウンドモデリング、アクティビティ分類器、後処理の4つのモジュールで構成されている。 特に,人間のみのアクティビティのための新しいpart-attentionメカニズムと,車両のみのアクティビティのためのシンプルかつ強固なモーション情報エンコーディング手法を提案する。 提案システムは,VIRATデータセット上で最高の結果を得る。 さらに、私たちのチームはTRECVID 2021 ActEVチャレンジで1位を獲得しました。

Activity detection in surveillance videos is a challenging task caused by small objects, complex activity categories, its untrimmed nature, etc. In this work, we propose an effective activity detection system for person-only and vehicle-only activities in untrimmed surveillance videos, named PAMI-AD. It consists of four modules, i.e., multi-object tracking, background modeling, activity classifier and post-processing. In particular, we propose a novel part-attention mechanism for person-only activities and a simple but strong motion information encoding method for vehicle-only activities. Our proposed system achieves the best results on the VIRAT dataset. Furthermore, our team won the 1st place in the TRECVID 2021 ActEV challenge.
翻訳日:2022-03-10 02:39:12 公開日:2022-03-08
# (参考訳) 視覚実演による逐次操作タスクの学習感覚運動プリミティブ [全文訳有]

Learning Sensorimotor Primitives of Sequential Manipulation Tasks from Visual Demonstrations ( http://arxiv.org/abs/2203.03797v1 )

ライセンス: CC BY 4.0
Junchi Liang, Bowen Wen, Kostas Bekris and Abdeslam Boularias(参考訳) 本研究の目的は,複数の低レベルサブタスクを連続的に実行し,そのタスクの視覚的な実演を入力として,複雑なロボット操作タスクを実行する方法を学ぶことである。 サブタスクは、ロボットのエンドエフェクタをタスク空間のサブゴール領域に到達するまで移動させ、アクションを実行し、前提条件が満たされると次のサブタスクをトリガーする。 この領域のほとんどの先行作業は、ボールを打つ、オブジェクトに到達し、それをつかむといった、低レベルのタスクのみを学ぶことに関心があった。 本稿では,次にどのオブジェクトを選択するか,あるいはシーン内の他のオブジェクトに対してどこに配置するかを決定するような,低レベルのポリシと高レベルのポリシを同時に学習するニューラルネットワークベースの新しいフレームワークについて述べる。 提案手法の主な特徴は,手動のアノテーションや後処理を使わずに,タスクデモの生のビデオから直接ポリシーを学習することである。 ロボットアームを用いた物体操作タスクの実証実験の結果,提案ネットワークは実際の視覚的デモンストレーションから効率よく学習し,一般的な模倣学習アルゴリズムより優れていた。

This work aims to learn how to perform complex robot manipulation tasks that are composed of several, consecutively executed low-level sub-tasks, given as input a few visual demonstrations of the tasks performed by a person. The sub-tasks consist of moving the robot's end-effector until it reaches a sub-goal region in the task space, performing an action, and triggering the next sub-task when a pre-condition is met. Most prior work in this domain has been concerned with learning only low-level tasks, such as hitting a ball or reaching an object and grasping it. This paper describes a new neural network-based framework for learning simultaneously low-level policies as well as high-level policies, such as deciding which object to pick next or where to place it relative to other objects in the scene. A key feature of the proposed approach is that the policies are learned directly from raw videos of task demonstrations, without any manual annotation or post-processing of the data. Empirical results on object manipulation tasks with a robotic arm show that the proposed network can efficiently learn from real visual demonstrations to perform the tasks, and outperforms popular imitation learning algorithms.
翻訳日:2022-03-10 02:29:26 公開日:2022-03-08
# (参考訳) 非負データをもつ非負極角に対する高速スケール不変アルゴリズム

A Fast Scale-Invariant Algorithm for Non-negative Least Squares with Non-negative Data ( http://arxiv.org/abs/2203.03808v1 )

ライセンス: CC BY 4.0
Jelena Diakonikolas, Chenghui Li, Swati Padmanabhan, Chaobing Song(参考訳) 非負(線形)最小二乗問題(non negative (linear) least square problem)は、統計学習においてよく研究され、機械学習コミュニティで使われている標準プログラミング言語の多くで解法が実装されている問題の基本的なクラスである。 既存のオフ・ザ・シェルフ・ソルバは、これらの問題の非ネガティビティ制約を障害とみなし、制約のない最小二乗と比較して、それに対処する追加の努力を行う。 しかし、一般的なアプリケーションの多くでは、データ自体も非負であり、この場合の非負性が問題を容易にすることを示している。 特に、制約のない最小二乗問題のオラクルの複雑性は、データ行列定数の1つ(典型的にはスペクトルノルム)で必ずスケールし、これらの問題は加法誤差に解決されるが、非負のデータの非負の最小二乗問題は乗算誤差や任意の行列定数とは独立な複雑性に対して解けることを示す。 私たちが導入するアルゴリズムは、原始双対の視点に基づいて加速される。 さらに,本手法と組み合わされた適応再スタートによる線形収束を実現する方法を示し,数値実験による大規模データに対する有効性を示す。

Nonnegative (linear) least square problems are a fundamental class of problems that is well-studied in statistical learning and for which solvers have been implemented in many of the standard programming languages used within the machine learning community. The existing off-the-shelf solvers view the non-negativity constraint in these problems as an obstacle and, compared to unconstrained least squares, perform additional effort to address it. However, in many of the typical applications, the data itself is nonnegative as well, and we show that the nonnegativity in this case makes the problem easier. In particular, while the oracle complexity of unconstrained least squares problems necessarily scales with one of the data matrix constants (typically the spectral norm) and these problems are solved to additive error, we show that nonnegative least squares problems with nonnegative data are solvable to multiplicative error and with complexity that is independent of any matrix constants. The algorithm we introduce is accelerated and based on a primal-dual perspective. We further show how to provably obtain linear convergence using adaptive restart coupled with our method and demonstrate its effectiveness on large-scale data via numerical experiments.
翻訳日:2022-03-10 02:08:56 公開日:2022-03-08
# (参考訳) 追加注意構成学習によるテキストフィードバックによる画像検索

Image Search with Text Feedback by Additive Attention Compositional Learning ( http://arxiv.org/abs/2203.03809v1 )

ライセンス: CC BY 4.0
Yuxin Tian, Shawn Newsam, Kofi Boakye(参考訳) テキストフィードバックによる効果的な画像検索は、eコマースのような現実世界のアプリケーションに影響を及ぼす。 その画像に所望の修正を記述したソースイメージとテキストフィードバックが与えられた場合、目標は、マルチモーダル(イメージテキスト)クエリを構成することで、ソースに類似しているが、所定の修正を満足するターゲットイメージを取得することである。 本稿では,マルチモーダルトランスフォーマーアーキテクチャを用いて,画像テキストコンテキストを効果的にモデル化する,付加的注意合成学習(aacl)という新しい解法を提案する。 具体的には,深層ニューラルネットワークにシームレスに接続可能な付加的注意に基づく新しい画像テキスト合成モジュールを提案する。 shopping100kデータセットから派生した,新たな挑戦的ベンチマークも紹介する。 aaclは、3つの大規模データセット(fashioniq, fashion200k, shopping100k)で評価される。 大規模な実験により、AACLは3つのデータセットすべてに対して新しい最先端の結果を達成することが示された。

Effective image retrieval with text feedback stands to impact a range of real-world applications, such as e-commerce. Given a source image and text feedback that describes the desired modifications to that image, the goal is to retrieve the target images that resemble the source yet satisfy the given modifications by composing a multi-modal (image-text) query. We propose a novel solution to this problem, Additive Attention Compositional Learning (AACL), that uses a multi-modal transformer-based architecture and effectively models the image-text contexts. Specifically, we propose a novel image-text composition module based on additive attention that can be seamlessly plugged into deep neural networks. We also introduce a new challenging benchmark derived from the Shopping100k dataset. AACL is evaluated on three large-scale datasets (FashionIQ, Fashion200k, and Shopping100k), each with strong baselines. Extensive experiments show that AACL achieves new state-of-the-art results on all three datasets.
翻訳日:2022-03-10 02:07:54 公開日:2022-03-08
# (参考訳) 影は危険である - 自然現象によるステルス的かつ効果的な物理世界敵の攻撃 [全文訳有]

Shadows can be Dangerous: Stealthy and Effective Physical-world Adversarial Attack by Natural Phenomenon ( http://arxiv.org/abs/2203.03818v1 )

ライセンス: CC BY 4.0
Yiqi Zhong, Xianming Liu, Deming Zhai, Junjun Jiang, Xiangyang Ji(参考訳) 実世界で機械学習モデルを安全にデプロイするには、敵例のリスクレベルの推定が不可欠である。 物理世界の攻撃の1つの一般的なアプローチは「ステッカーパッチ」戦略を採用することであるが、ターゲットへのアクセスの困難や有効色による印刷などいくつかの制限に悩まされている。 レーザービームやプロジェクターなどの光学ベースのツールによって、標的に摂動を投射しようとする新しいタイプの非侵襲的な攻撃が最近現れた。 しかし、追加の光学パターンは人工的だが自然ではない。 このように、それらは依然として目立たしく、注意を払っており、容易に人間に気づくことができる。 そこで本研究では,ブラックボックス環境下での自然現象,シャドーによって摂動が発生し,自然主義的かつステルス的な物理世界対人攻撃を実現する新しいタイプの光対人攻撃事例について検討する。 シミュレーションと実環境の両方において,この新たな攻撃の有効性を広く評価した。 リサとgtsrbのテストセットでそれぞれ98.23%と90.47%の成功率に達し、実世界のシナリオでは95%以上移動中のカメラを誤解させながら、トラヒックサイン認識の実験結果が示されています。 また、この攻撃の制限と防御機構についても議論する。

Estimating the risk level of adversarial examples is essential for safely deploying machine learning models in the real world. One popular approach for physical-world attacks is to adopt the "sticker-pasting" ; strategy, which however suffers from some limitations, including difficulties in access to the target or printing by valid colors. A new type of non-invasive attacks emerged recently, which attempt to cast perturbation onto the target by optics based tools, such as laser beam and projector. However, the added optical patterns are artificial but not natural. Thus, they are still conspicuous and attention-grabbed, and can be easily noticed by humans. In this paper, we study a new type of optical adversarial examples, in which the perturbations are generated by a very common natural phenomenon, shadow, to achieve naturalistic and stealthy physical-world adversarial attack under the black-box setting. We extensively evaluate the effectiveness of this new attack on both simulated and real-world environments. Experimental results on traffic sign recognition demonstrate that our algorithm can generate adversarial examples effectively, reaching 98.23% and 90.47% success rates on LISA and GTSRB test sets respectively, while continuously misleading a moving camera over 95% of the time in real-world scenarios. We also offer discussions about the limitations and the defense mechanism of this attack.
翻訳日:2022-03-10 02:06:54 公開日:2022-03-08
# (参考訳) 粗視トランスフォーマ

Coarse-to-Fine Vision Transformer ( http://arxiv.org/abs/2203.03821v1 )

ライセンス: CC BY 4.0
Mengzhao Chen, Mingbao Lin, Ke Li, Yunhang Shen, Yongjian Wu, Fei Chao, Rongrong Ji(参考訳) Vision Transformers (ViT) はコンピュータビジョンタスクで多くのブレークスルーを行った。 しかし、入力画像の空間次元にかなりの冗長性が生じ、膨大な計算コストが発生する。 そこで本稿では,性能を維持しつつ計算負荷を軽減できる粗視トランス(cf-vit)を提案する。 提案するCF-ViTは,現在のVTモデルにおいて2つの重要な観測結果によって動機付けられている。 2)ほとんどの画像はViTモデルで小さなトークンシーケンスで認識することができる。 したがって、CF-ViTは2段階的にネットワーク推論を実装している。 粗い推論段階では、入力画像を小さなパッチシーケンスに分割し、計算経済的分類を行う。 十分に認識されていない場合は、情報パッチを識別し、さらに細粒度で再散布する。 cf-vitの有効性を示す広範な実験を行った。 例えば、CF-ViTはLV-ViTのFLOPを53%削減し、スループットも2.01倍に向上した。

Vision Transformers (ViT) have made many breakthroughs in computer vision tasks. However, considerable redundancy arises in the spatial dimension of an input image, leading to massive computational costs. Therefore, We propose a coarse-to-fine vision transformer (CF-ViT) to relieve computational burden while retaining performance in this paper. Our proposed CF-ViT is motivated by two important observations in modern ViT models: (1) The coarse-grained patch splitting can locate informative regions of an input image. (2) Most images can be well recognized by a ViT model in a small-length token sequence. Therefore, our CF-ViT implements network inference in a two-stage manner. At coarse inference stage, an input image is split into a small-length patch sequence for a computationally economical classification. If not well recognized, the informative patches are identified and further re-split in a fine-grained granularity. Extensive experiments demonstrate the efficacy of our CF-ViT. For example, without any compromise on performance, CF-ViT reduces 53% FLOPs of LV-ViT, and also achieves 2.01x throughput.
翻訳日:2022-03-10 01:22:49 公開日:2022-03-08
# (参考訳) クロージング領域ギャップ用物体点雲のノイズを考慮した準ベース自己評価

Quasi-Balanced Self-Training on Noise-Aware Synthesis of Object Point Clouds for Closing Domain Gap ( http://arxiv.org/abs/2203.03833v1 )

ライセンス: CC BY 4.0
Yongwei Chen, Zihao Wang, Longkun Zou, Ke Chen, Kui Jia(参考訳) オブジェクトポイントクラウドのセマンティック分析は、主に、オブジェクトCADモデルからインスタンスをサンプリングした合成データを含むベンチマークデータセットのリリースによって行われる。 しかし、合成データから学ぶことは、通常、点雲が不完全で、不均一に分散し、騒がしい、実用的なシナリオに一般化することはない。 このようなシミュレーション・トゥ・リアル(sim2real)ドメインギャップの課題は、ドメイン適応の学習アルゴリズムによって軽減することができるが、より物理的にリアルなレンダリングによる合成点雲の生成は、系統的非一様ノイズパターンをキャプチャできる強力な選択肢であると主張する。 そこで本研究では,cadモデルへのスペックルパターンの投影によるステレオ画像のレンダリングによるオブジェクトポイントクラウドの物理的に現実的な合成と,ロングテールクラスにおける擬似ラベル付きサンプルのスパルシリティによる選択による,よりバランスのとれたデータ分散を実現するための,新たな準バランスセルフトレーニングを提案する。 実験により,本手法の有効性と,制御されていない領域適応をポイントクラウド分類で検証し,最先端の性能を実現する。

Semantic analyses of object point clouds are largely driven by releasing of benchmarking datasets, including synthetic ones whose instances are sampled from object CAD models. However, learning from synthetic data may not generalize to practical scenarios, where point clouds are typically incomplete, non-uniformly distributed, and noisy. Such a challenge of Simulation-to-Real (Sim2Real) domain gap could be mitigated via learning algorithms of domain adaptation; however, we argue that generation of synthetic point clouds via more physically realistic rendering is a powerful alternative, as systematic non-uniform noise patterns can be captured. To this end, we propose an integrated scheme consisting of physically realistic synthesis of object point clouds via rendering stereo images via projection of speckle patterns onto CAD models and a novel quasi-balanced self-training designed for more balanced data distribution by sparsity-driven selection of pseudo labeled samples for long tailed classes. Experiment results can verify the effectiveness of our method as well as both of its modules for unsupervised domain adaptation on point cloud classification, achieving the state-of-the-art performance.
翻訳日:2022-03-10 01:22:00 公開日:2022-03-08
# (参考訳) 超高精度超解像ネットワークのための動的デュアルトレーニングバウンド

Dynamic Dual Trainable Bounds for Ultra-low Precision Super-Resolution Networks ( http://arxiv.org/abs/2203.03844v1 )

ライセンス: CC BY 4.0
Yunshan Zhong, Mingbao Lin, Xunchao Li, Ke Li, Yunhang Shen, Fei Chao, Yongjian Wu, Rongrong Ji(参考訳) 軽量スーパーレゾリューション(SR)モデルは、モバイルデバイスでの利用性に大きな注目を集めている。 多くの努力はsrモデルを圧縮するためにネットワーク量子化を利用している。 しかし、これらの手法は、SRモデルを低コスト層ワイド量子化器で超低精度(2ビット、3ビットなど)に定量化する際に、厳しい性能劣化に悩まされる。 本稿では,SRモデルにおける層次対称量子化器と高非対称活性化分布との矛盾から,性能低下が生じることを確かめる。 この違いは、量子化レベルの無駄や、再構成された画像の詳細な損失につながる。 そこで本研究では,アクティベーションの非対称性に対応するために,動的デュアルトレーニング境界(DDTB)と呼ばれる新しいアクティベーション量子化器を提案する。 具体的には、DDTBは: 1) 高度に非対称なアクティベーションに取り組むために, 上部および下部境界を訓練可能な層状量子化器。 2) 実行時の上限と下限を適応的に調整し, 異なるサンプルに対して大きく変化するアクティベーション範囲を克服する動的ゲートコントローラを, 追加オーバーヘッドを低減するために, 動的ゲートコントローラを2ビットに量子化し, 導入した動的強度に応じてsrネットワークの一部にのみ適用する。 DDTBは超低精度で高い性能向上を示した。 例えば、我々のDDTBは、EDSRを2ビットに量子化し、出力画像をx4にスケールアップする場合、Urban100ベンチマークで0.70dBのPSNRアップを達成する。 コードは \url{https://github.com/z ysxmu/DDTB} にある。

Light-weight super-resolution (SR) models have received considerable attention for their serviceability in mobile devices. Many efforts employ network quantization to compress SR models. However, these methods suffer from severe performance degradation when quantizing the SR models to ultra-low precision (e.g., 2-bit and 3-bit) with the low-cost layer-wise quantizer. In this paper, we identify that the performance drop comes from the contradiction between the layer-wise symmetric quantizer and the highly asymmetric activation distribution in SR models. This discrepancy leads to either a waste on the quantization levels or detail loss in reconstructed images. Therefore, we propose a novel activation quantizer, referred to as Dynamic Dual Trainable Bounds (DDTB), to accommodate the asymmetry of the activations. Specifically, DDTB innovates in: 1) A layer-wise quantizer with trainable upper and lower bounds to tackle the highly asymmetric activations. 2) A dynamic gate controller to adaptively adjust the upper and lower bounds at runtime to overcome the drastically varying activation ranges over different samples.To reduce the extra overhead, the dynamic gate controller is quantized to 2-bit and applied to only part of the SR networks according to the introduced dynamic intensity. Extensive experiments demonstrate that our DDTB exhibits significant performance improvements in ultra-low precision. For example, our DDTB achieves a 0.70dB PSNR increase on Urban100 benchmark when quantizing EDSR to 2-bit and scaling up output images to x4. Code is at \url{https://github.com/z ysxmu/DDTB}.
翻訳日:2022-03-10 01:19:32 公開日:2022-03-08
# (参考訳) パフォーマンス改善はどこから来るのか? -画像テキスト検索に関する再現性に関する考察 [全文訳有]

Where Does the Performance Improvement Come From? - A Reproducibility Concern about Image-Text Retrieval ( http://arxiv.org/abs/2203.03853v1 )

ライセンス: CC0 1.0
Jun Rao, Fei Wang, Liang Ding, Shuhan Qi, Yibing Zhan, Weifeng Liu, Dacheng Tao(参考訳) 本稿では,画像テキスト検索モデルの再現性面の分析を通じて,検索学習の現在の改善を反映した情報検索コミュニティを提案する。 過去10年後半,マルチモーダル・データの普及により,画像テキスト検索は徐々に情報検索分野の主要な研究方向となっている。 多くの研究者がms-cocoやflickr30kなどのベンチマークデータセットを使用して、画像テキスト検索アルゴリズムのパフォーマンスをトレーニングし評価している。 過去の研究は主にパフォーマンスに重点を置いており、様々な方法で最先端の手法が提案されている。 彼らの主張によれば、これらの手法はより良いモーダル相互作用を達成し、より正確なマルチモーダル表現を実現する。 これらの先行研究とは対照的に,提案手法の再現性,および画像やテキスト検索における事前学習と非訓練モデルによる性能向上につながる要素の総合的検証に焦点をあてた。 より具体的には、まず、画像テキスト検索タスクに焦点が当てられている理由と、画像テキスト検索モデルの現在のパラダイムとそれらのアプローチの言及された貢献を体系的に要約する。 第二に,事前学習および未訓練検索モデルの再現について,様々な側面を解析した。 これに基づいてアブレーション実験を行い,元の論文で主張された改善よりも検索リコールに影響を及ぼすいくつかの要因を得た。 最後に,検索コミュニティが今後検討すべき考察や課題についても述べる。 私たちのコードはhttps://github.com/W angFei-2019/Image-te xt-Retrieval.comで無料で利用可能です。

This paper seeks to provide the information retrieval community with some reflections on the current improvements of retrieval learning through the analysis of the reproducibility aspects of image-text retrieval models. For the latter part of the past decade, image-text retrieval has gradually become a major research direction in the field of information retrieval because of the growth of multi-modal data. Many researchers use benchmark datasets like MS-COCO and Flickr30k to train and assess the performance of image-text retrieval algorithms. Research in the past has mostly focused on performance, with several state-of-the-art methods being proposed in various ways. According to their claims, these approaches achieve better modal interactions and thus better multimodal representations with greater precision. In contrast to those previous works, we focus on the repeatability of the approaches and the overall examination of the elements that lead to improved performance by pretrained and nonpretrained models in retrieving images and text. To be more specific, we first examine the related reproducibility concerns and why the focus is on image-text retrieval tasks, and then we systematically summarize the current paradigm of image-text retrieval models and the stated contributions of those approaches. Second, we analyze various aspects of the reproduction of pretrained and nonpretrained retrieval models. Based on this, we conducted ablation experiments and obtained some influencing factors that affect retrieval recall more than the improvement claimed in the original paper. Finally, we also present some reflections and issues that should be considered by the retrieval community in the future. Our code is freely available at https://github.com/W angFei-2019/Image-te xt-Retrieval.
翻訳日:2022-03-10 01:18:25 公開日:2022-03-08
# (参考訳) HyperPELT: 言語と視覚・言語の両方のための統一パラメータ効率言語モデルチューニング [全文訳有]

HyperPELT: Unified Parameter-Efficient Language Model Tuning for Both Language and Vision-and-Language Tasks ( http://arxiv.org/abs/2203.03878v1 )

ライセンス: CC BY 4.0
Zhengkun Zhang, Wenya Guo, Xiaojun Meng, Yasheng Wang, Yadao Wang, Xin Jiang, Qun Liu, Zhenglu Yang(参考訳) プレトレーニングと微調整のワークフローは、様々なNLPおよびV&L(Vision-and-Languag e)下流タスクを解決するための一般的なパラダイムとして登場した。 事前学習モデルの能力が急速に向上するにつれて、パラメータ効率のよい微調整の方法が、迅速な転送学習とデプロイメントにおいて極めて重要になっている。 本稿では、純粋言語とV&Lタスクの両方で効果的に動作する新しいパラメータ効率変換学習フレームワークを設計する。 特に、トレーニング可能なハイパー埋め込みを入力として利用する共有ハイパーネットワークを使用し、マルチヘッドアテンションブロック(プレフィックスチューニング)やフィードフォワードブロック(アダプタチューニング)に挿入されるパラメータをチューニングするなど、事前訓練された言語モデルで異なる小さなモジュールを微調整するための重みを出力する。 我々は、ハイパー埋め込みを計算するための重要なコンポーネントとして、埋め込み(レイヤ、ブロック、タスク、視覚的な埋め込みなど)のセットを定義し、純粋言語とV&Lタスクの両方をサポートする。 提案フレームワークは,マルチタスク学習におけるトレーニング可能なパラメータを少なくし,最先端の手法に比べて優れた性能と伝達能力を実現する。 GLUEベンチマークと複数のV&Lタスクによる実験結果から,テキストと視覚の両面でのフレームワークの有効性が確認された。

The workflow of pretraining and fine-tuning has emerged as a popular paradigm for solving various NLP and V&L (Vision-and-Language ) downstream tasks. With the capacity of pretrained models growing rapidly, how to perform parameter-efficient fine-tuning has become fairly important for quick transfer learning and deployment. In this paper, we design a novel unified parameter-efficient transfer learning framework that works effectively on both pure language and V&L tasks. In particular, we use a shared hypernetwork that takes trainable hyper-embeddings as input, and outputs weights for fine-tuning different small modules in a pretrained language model, such as tuning the parameters inserted into multi-head attention blocks (i.e., prefix-tuning) and feed-forward blocks (i.e., adapter-tuning). We define a set of embeddings (e.g., layer, block, task and visual embeddings) as the key components to calculate hyper-embeddings, which thus can support both pure language and V&L tasks. Our proposed framework adds fewer trainable parameters in multi-task learning while achieving superior performances and transfer ability compared to state-of-the-art methods. Empirical results on the GLUE benchmark and multiple V&L tasks confirm the effectiveness of our framework on both textual and visual modalities.
翻訳日:2022-03-10 01:00:00 公開日:2022-03-08
# (参考訳) 信頼できない擬似ラベルを用いた半教師付き意味セグメンテーション [全文訳有]

Semi-Supervised Semantic Segmentation Using Unreliable Pseudo-Labels ( http://arxiv.org/abs/2203.03884v1 )

ライセンス: CC BY 4.0
Yuchao Wang, Haochen Wang, Yujun Shen, Jingjing Fei, Wei Li, Guoqiang Jin, Liwei Wu, Rui Zhao, Xinyi Le(参考訳) 半教師付きセマンティックセグメンテーションの要点は、ラベルのない画像のピクセルに適切な擬似ラベルを割り当てることである。 一般的な方法は、疑似接地真実として高い自信を持つ予測を選択することであるが、ほとんどの画素が信頼できないために使われていないという問題を引き起こす。 すべてのピクセルがモデルのトレーニングに重要であり、その予測さえ曖昧であると主張する。 直観的には、信頼できない予測は上位クラス(すなわち高い確率を持つクラス)の間で混乱することがあるが、残りのクラスに属していないピクセルに対して自信を持つべきである。 したがって、そのようなピクセルは、最もありそうもないカテゴリに対する負のサンプルとして説得的に扱うことができる。 この知見に基づいて,ラベルのないデータを十分に活用するための効果的なパイプラインを開発する。 具体的には、予測のエントロピーを通じて信頼できない画素を分離し、各信頼できない画素を負のサンプルからなるカテゴリワイドキューにプッシュし、すべての候補画素でモデルをトレーニングする。 予測がより正確になるトレーニングの進化を考えると、信頼できない分割のしきい値を適応的に調整します。 様々なベンチマークとトレーニング設定の実験結果から、最先端の代替案に対するアプローチの優位性を示す。

The crux of semi-supervised semantic segmentation is to assign adequate pseudo-labels to the pixels of unlabeled images. A common practice is to select the highly confident predictions as the pseudo ground-truth, but it leads to a problem that most pixels may be left unused due to their unreliability. We argue that every pixel matters to the model training, even its prediction is ambiguous. Intuitively, an unreliable prediction may get confused among the top classes (i.e., those with the highest probabilities), however, it should be confident about the pixel not belonging to the remaining classes. Hence, such a pixel can be convincingly treated as a negative sample to those most unlikely categories. Based on this insight, we develop an effective pipeline to make sufficient use of unlabeled data. Concretely, we separate reliable and unreliable pixels via the entropy of predictions, push each unreliable pixel to a category-wise queue that consists of negative samples, and manage to train the model with all candidate pixels. Considering the training evolution, where the prediction becomes more and more accurate, we adaptively adjust the threshold for the reliable-unreliable partition. Experimental results on various benchmarks and training settings demonstrate the superiority of our approach over the state-of-the-art alternatives.
翻訳日:2022-03-10 00:34:18 公開日:2022-03-08
# (参考訳) プレセグメンテーションとIoU領域マージを併用した長期・薄型法医学的トレースに対するマスクR-CNNのブースティング性能 [全文訳有]

Boosting Mask R-CNN Performance for Long, Thin Forensic Traces with Pre-Segmentation and IoU Region Merging ( http://arxiv.org/abs/2203.03886v1 )

ライセンス: CC BY 4.0
Moritz Zink, Martin Schiele, Pengcheng Fan, Stephan Gasterst\"adt(参考訳) Mask R-CNNは、最近、インスタンスセグメンテーションの分野で大きな成功を収めた。 しかし、アルゴリズムの弱点は繰り返し指摘され、特に方向が水平でも垂直でもない長いスパース物体のセグメンテーションにおいて指摘されている。 本稿では,まずpspnetアルゴリズムを用いて画像の事前セグメンテーションを行い,アルゴリズムの性能を大幅に向上させる手法を提案する。 予測をさらに改善するため,我々は,いわゆる過度なオーバーフィットを防止し,よりターゲットを絞った収束を実現する訓練戦略という形で,我々のコスト関数とヒューリスティックスを開発した。 さらに,画像のばらつきが大きいため,特にPSPNetでは,高ロバスト性と一般化のための戦略開発を目標としており,これについても述べる。

Mask R-CNN has recently achieved great success in the field of instance segmentation. However, weaknesses of the algorithm have been repeatedly pointed out as well, especially in the segmentation of long, sparse objects whose orientation is not exclusively horizontal or vertical. We present here an approach that significantly improves the performance of the algorithm by first pre-segmenting the images with a PSPNet algorithm. To further improve its prediction, we have developed our own cost functions and heuristics in the form of training strategies, which can prevent so-called (early) overfitting and achieve a more targeted convergence. Furthermore, due to the high variance of the images, especially for PSPNet, we aimed to develop strategies for a high robustness and generalization, which are also presented here.
翻訳日:2022-03-10 00:16:22 公開日:2022-03-08
# (参考訳) ART-Point: 逆回転による点雲分類器の回転ロバスト性向上 [全文訳有]

ART-Point: Improving Rotation Robustness of Point Cloud Classifiers via Adversarial Rotation ( http://arxiv.org/abs/2203.03888v1 )

ライセンス: CC BY 4.0
Robin Wang, Yibo Yang, Dacheng Tao(参考訳) 回転ロバスト性を持つポイントクラウド分類器は3次元ディープラーニングコミュニティで広く議論されている。 提案手法の多くは、入力として回転不変記述子を使用するか、あるいは回転同変ネットワークを設計しようとする。 しかし、これらの手法によって生成されるロバストモデルは、元の分類器や入力空間の変更により、クリーンな整列データセット下での性能が制限される。 本研究では,点群分類器の回転ロバスト性が,回転データとクリーンデータセットの両方において,逆訓練によって獲得可能であることを初めて示す。 具体的には、ART-Pointというフレームワークは、点雲の回転を攻撃とみなし、逆回転を持つ入力に対して分類器を訓練することで回転ロバスト性を向上させる。 本研究では,事前学習モデルの逆伝播勾配を用いた軸方向回転攻撃を効果的に検出する。 逆入力のモデルオーバーフィッティングを避けるために,サンプル間の逆回転の伝達可能性を活用した回転プールを構築し,トレーニングデータの多様性を高める。 さらに,最終ロバストモデルに効率的に到達するための高速ワンステップ最適化を提案する。 実験により,提案する回転攻撃は高い成功率を達成し,既存のほとんどの分類器でart-pointを用いて回転頑健性を改善しつつ,最新手法よりもクリーンなデータセット上での性能を向上できることを示した。

Point cloud classifiers with rotation robustness have been widely discussed in the 3D deep learning community. Most proposed methods either use rotation invariant descriptors as inputs or try to design rotation equivariant networks. However, robust models generated by these methods have limited performance under clean aligned datasets due to modifications on the original classifiers or input space. In this study, for the first time, we show that the rotation robustness of point cloud classifiers can also be acquired via adversarial training with better performance on both rotated and clean datasets. Specifically, our proposed framework named ART-Point regards the rotation of the point cloud as an attack and improves rotation robustness by training the classifier on inputs with Adversarial RoTations. We contribute an axis-wise rotation attack that uses back-propagated gradients of the pre-trained model to effectively find the adversarial rotations. To avoid model over-fitting on adversarial inputs, we construct rotation pools that leverage the transferability of adversarial rotations among samples to increase the diversity of training data. Moreover, we propose a fast one-step optimization to efficiently reach the final robust model. Experiments show that our proposed rotation attack achieves a high success rate and ART-Point can be used on most existing classifiers to improve the rotation robustness while showing better performance on clean datasets than state-of-the-art methods.
翻訳日:2022-03-10 00:08:11 公開日:2022-03-08
# (参考訳) ロバスト微調整のためのマルチモーダルミックスアップ [全文訳有]

Multi-Modal Mixup for Robust Fine-tuning ( http://arxiv.org/abs/2203.03897v1 )

ライセンス: CC BY 4.0
Junhyuk So, Changdae Oh, Minchul Shin, Kyungwoo Song(参考訳) 事前訓練された大規模モデルは、転送可能な埋め込みを提供し、様々な下流タスクで同等のパフォーマンスを示す。 しかし、マルチモーダル学習の伝達性は制限されており、学習埋め込みの分析はよく研究されていない。 本稿では,多モード埋め込みを均一性とアライメントの観点から理解するための視点を提供する。 CLIPのようなマルチモーダル学習モデルで学習した表現は、アライメントの少ない異種データセットごとに2つの分離された表現空間を持つことがわかった。 さらに、2つのモダリティの間には、より均一性の低い大きな中間領域がある。 より堅牢な埋め込みは、下流タスクの表現の転送可能性を制限する可能性がある。 本稿では,統一性とアライメントスコアの向上を促すロバスト表現のための,新しいエンドツーエンドの微調整手法を提案する。 まず、画像とテキストの表現を混合してハードネガティブなサンプルを生成するマルチモーダル・ミックスアップ、$m^{2}$-Mixを提案する。 第二に、強陰性サンプルのマルチモーダルモデルと、対照的な学習を伴う正常な負と正のサンプルを微調整する。 マルチモーダル・ミックスアップはロバストな表現を提供し,分類,検索,構造認識タスクの手法を検証する。

Pre-trained large-scale models provide a transferable embedding, and they show comparable performance on the diverse downstream task. However, the transferability of multi-modal learning is restricted, and the analysis of learned embedding has not been explored well. This paper provides a perspective to understand the multi-modal embedding in terms of uniformity and alignment. We newly find that the representation learned by multi-modal learning models such as CLIP has a two separated representation space for each heterogeneous dataset with less alignment. Besides, there are unexplored large intermediate areas between two modalities with less uniformity. Less robust embedding might restrict the transferability of the representation for the downstream task. This paper provides a new end-to-end fine-tuning method for robust representation that encourages better uniformity and alignment score. First, we propose a multi-modal Mixup, $m^{2}$-Mix that mixes the representation of image and text to generate the hard negative samples. Second, we fine-tune the multi-modal model on a hard negative sample as well as normal negative and positive samples with contrastive learning. Our multi-modal Mixup provides a robust representation, and we validate our methods on classification, retrieval, and structure-awareness task.
翻訳日:2022-03-09 23:49:56 公開日:2022-03-08
# (参考訳) モバイルユーザ向け予測パワーアロケーションのためのグラフ強化学習

Graph Reinforcement Learning for Predictive Power Allocation to Mobile Users ( http://arxiv.org/abs/2203.03906v1 )

ライセンス: CC BY 4.0
Jianyu Zhao and Chenyang Yang(参考訳) 将来的なチャネルにリソースを割り当てることで、ビデオストリーミングの品質を保証するリソースを節約できる。 本稿では,分散単位 (DU) で消費されるエネルギーを,DDPG (Deep Deterministic Policy gradient) を用いて予測電力割り当てを最適化し,最適ポリシと平均チャネルゲインの予測を行う。 トレーニング効率を向上させるために,2種類のリレーショナル先行手法を生かしたグラフDDPGを利用する。 (a)置換同変(PE)と置換不変(PI)の政策関数と作用値関数の性質 (b)ユーザとdus間のトポロジ関係。 グラフDDPGフレームワークをより体系的に設計するために,まず,行列ベースのDDPGをグラフベースのDDPGに変換する方法を示す。 そこで我々は,グラフニューラルネットワークを組込みとエンド・ツー・エンドの手法で使用する場合,アクタネットワークと批評家ネットワークをそれぞれ設計する。 本研究では,アクタと批評家ネットワークのPE/PI特性の破壊を避けるため,バッチ正規化法を提案する。 最後に,各プリミティブを活用することの影響を示す。 シミュレーションの結果、学習した予測ポリシは、完全な将来情報を持つ最適解に近い性能を示し、グラフDDPGアルゴリズムは既存のDDPGアルゴリズムよりもはるかに高速に収束することがわかった。

Allocating resources with future channels can save resource to ensure quality-of-service of video streaming. In this paper, we optimize predictive power allocation to minimize the energy consumed at distributed units (DUs) by using deep deterministic policy gradient (DDPG) to find optimal policy and predict average channel gains. To improve training efficiency, we resort to graph DDPG for exploiting two kinds of relational priors: (a) permutation equivariant (PE) and permutation invariant (PI) properties of policy function and action-value function, (b) topology relation among users and DUs. To design graph DDPG framework more systematically in harnessing the priors, we first demonstrate how to transform matrix-based DDPG into graph-based DDPG. Then, we respectively design the actor and critic networks to satisfy the permutation properties when graph neural networks are used in embedding and end to-end manners. To avoid destroying the PE/PI properties of the actor and critic networks, we conceive a batch normalization method. Finally, we show the impact of leveraging each prior. Simulation results show that the learned predictive policy performs close to the optimal solution with perfect future information, and the graph DDPG algorithms converge much faster than existing DDPG algorithms.
翻訳日:2022-03-09 23:35:38 公開日:2022-03-08
# (参考訳) 言語問題:シーンテキストの検出とスポッティングのための微妙な事前学習アプローチ [全文訳有]

Language Matters: A Weakly Supervised Pre-training Approach for Scene Text Detection and Spotting ( http://arxiv.org/abs/2203.03911v1 )

ライセンス: CC0 1.0
Chuhui Xue, Yu Hao, Shijian Lu, Philip Torr, Song Bai(参考訳) 近年,視覚・言語前訓練(VLP)技術は視覚・テキスト表現を協調的に学習することで,視覚・テキスト画像のリッチな視覚・テキスト情報による光学的文字認識(OCR)タスクを直感的に支援することで,様々な視覚言語タスクに大きな恩恵を受けている。 しかし、これらの手法は、インスタンスレベルのテキストエンコーディングと画像とテキストのペア取得(画像とキャプチャされたテキスト)の両方が困難であるため、OCRタスクにうまく対応できない。 本稿では,視覚情報とテキスト情報の協調学習により,効果的なシーンテキスト表現を得ることのできる,教師付き事前学習手法を提案する。 本ネットワークは,視覚的特徴を抽出する画像エンコーダと文字認識型テキストエンコーダと,効果的なシーンテキスト表現を学習するためのテキスト特徴と視覚的特徴の相互作用をモデル化する視覚的テキストデコーダから構成される。 テキストの特徴を学習することで、事前訓練されたモデルは、文字認識とともに画像中のテキストに出席することができる。 また、これらの設計は、弱い注釈付きテキスト(テキスト境界ボックスのない画像内の部分テキスト)からの学習を可能にし、データアノテーションの制約を大幅に緩和する。 ICDAR2019-LSVTの弱い注釈付き画像に対する実験により、我々の事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。 さらに、提案手法は、複数の公開データセット(Total-Text と CTW1500 の +3.2% と +1.3% など)で既存の事前学習手法を一貫して上回っている。

Recently, Vision-Language Pre-training (VLP) techniques have greatly benefited various vision-language tasks by jointly learning visual and textual representations, which intuitively helps in Optical Character Recognition (OCR) tasks due to the rich visual and textual information in scene text images. However, these methods cannot well cope with OCR tasks because of the difficulty in both instance-level text encoding and image-text pair acquisition (i.e. images and captured texts in them). This paper presents a weakly supervised pre-training method that can acquire effective scene text representations by jointly learning and aligning visual and textual information. Our network consists of an image encoder and a character-aware text encoder that extract visual and textual features, respectively, as well as a visual-textual decoder that models the interaction among textual and visual features for learning effective scene text representations. With the learning of textual features, the pre-trained model can attend texts in images well with character awareness. Besides, these designs enable the learning from weakly annotated texts (i.e. partial texts in images without text bounding boxes) which mitigates the data annotation constraint greatly. Experiments over the weakly annotated images in ICDAR2019-LSVT show that our pre-trained model improves F-score by +2.5% and +4.8% while transferring its weights to other text detection and spotting networks, respectively. In addition, the proposed method outperforms existing pre-training techniques consistently across multiple public datasets (e.g., +3.2% and +1.3% for Total-Text and CTW1500).
翻訳日:2022-03-09 23:34:30 公開日:2022-03-08
# (参考訳) 機械学習を用いた連続変数の介入による平均因果効果の推定 [全文訳有]

Estimating the average causal effect of intervention in continuous variables using machine learning ( http://arxiv.org/abs/2203.03916v1 )

ライセンス: CC BY 4.0
Yoshiaki Kitazawa(参考訳) 平均因果効果/平均治療効果を推定するための最も広く議論されている方法は、介入/非干渉群を表す値を持つ離散二変数への介入である。 一方,データ生成モデルに依存しない連続変数のインターベンション手法は開発されていない。 本研究では,任意の生成モデルのデータに適用可能な連続変数に対する介入に対する平均因果効果を,因果効果を識別できる限り推定する手法を提案する。 提案手法は機械学習アルゴリズムとは無関係であり、データの識別性を保持する。

The most widely discussed methods for estimating the Average Causal Effect / Average Treatment Effect are those for intervention in discrete binary variables whose value represents the intervention / non-intervention groups. On the other hand, methods for intervening in continuous variables independent of the data generating model has not been developed. In this study, we give a method for estimating the average causal effect for intervention in continuous variables that can be applied to data of any generating model as long as the causal effect is identifiable. The proposing method is independent of machine learning algorithms and preserves the identifiability of the data.
翻訳日:2022-03-09 23:17:27 公開日:2022-03-08
# (参考訳) 会員推論攻撃を用いたマスケ言語モデルのプライバシーリスクの定量化 [全文訳有]

Quantifying Privacy Risks of Masked Language Models Using Membership Inference Attacks ( http://arxiv.org/abs/2203.03929v1 )

ライセンス: CC BY 4.0
Fatemehsadat Mireshghallah, Kartik Goyal, Archit Uniyal, Taylor Berg-Kirkpatrick, Reza Shokri(参考訳) Masked Language Model~(MLM)の機密データ(法律から医療まで)への広範な採用と適用は、プライバシーの脆弱性に関する徹底的な定量的調査を必要とします。 メンバーシップ推論攻撃によるMLMの漏洩を測定する以前の試みは決定的ではなく、プライバシー攻撃に対するMLMの潜在的堅牢性を示している。 本研究は,MLMのモデルスコアにのみ基づいているため,以前の試みが不確定であったことを示唆する。 我々は、MLMにおける記憶のプライバシーリスクをより正確に定量化するために、追加参照MLMを含む確率比仮説テストに基づいて、より強力なメンバーシップ推論攻撃を考案する。 我々の実験結果は、医療用ノートでトレーニングされたモデルに基づいて、我々の攻撃が以前のメンバーシップ推論攻撃のaucを0.66から驚くほど高い0.90レベルに改善し、低エラー領域を大幅に改善したことを示している:1%の偽陽性率で、我々の攻撃は以前の仕事よりも51倍強力である。

The wide adoption and application of Masked language models~(MLMs) on sensitive data (from legal to medical) necessitates a thorough quantitative investigation into their privacy vulnerabilities -- to what extent do MLMs leak information about their training data? Prior attempts at measuring leakage of MLMs via membership inference attacks have been inconclusive, implying the potential robustness of MLMs to privacy attacks. In this work, we posit that prior attempts were inconclusive because they based their attack solely on the MLM's model score. We devise a stronger membership inference attack based on likelihood ratio hypothesis testing that involves an additional reference MLM to more accurately quantify the privacy risks of memorization in MLMs. We show that masked language models are extremely susceptible to likelihood ratio membership inference attacks: Our empirical results, on models trained on medical notes, show that our attack improves the AUC of prior membership inference attacks from 0.66 to an alarmingly high 0.90 level, with a significant improvement in the low-error region: at 1% false positive rate, our attack is 51X more powerful than prior work.
翻訳日:2022-03-09 22:43:02 公開日:2022-03-08
# (参考訳) インジェクティブ正規化流れに対する非線形等尺多様体学習 [全文訳有]

Nonlinear Isometric Manifold Learning for Injective Normalizing Flows ( http://arxiv.org/abs/2203.03934v1 )

ライセンス: CC BY 4.0
Eike Cramer, Felix Rauh, Alexander Mitsos, Ra\'ul Tempone, Manuel Dahmen(参考訳) 正規化フローを用いて多様体データをモデル化するために,非線型符号化を明示的逆数で設計する等尺オートエンコーダを提案する。 アイソメトリーにより、多様体の学習と密度推定を分離し、両方の部品を高精度に訓練することができる。 MNISTデータセットに適用すると、組み合わせたアプローチは高品質な画像を生成する。

To model manifold data using normalizing flows, we propose to employ the isometric autoencoder to design nonlinear encodings with explicit inverses. The isometry allows us to separate manifold learning and density estimation and train both parts to high accuracy. Applied to the MNIST data set, the combined approach generates high-quality images.
翻訳日:2022-03-09 22:24:43 公開日:2022-03-08
# (参考訳) EdgeFormer: ビジョントランスフォーマーから学ぶことで軽量なConvNetを改善する [全文訳有]

EdgeFormer: Improving Light-weight ConvNets by Learning from Vision Transformers ( http://arxiv.org/abs/2203.03952v1 )

ライセンス: CC BY 4.0
Haokui Zhang, Wenze Hu, Xiaoyu Wang(参考訳) 近年、視覚トランスフォーマーは大きな畳み込みベースのモデルを大きく上回る印象的な結果を見せ始めた。 しかし、モバイルやリソース制約のあるデバイス向けの小さなモデルでは、convnetはパフォーマンスとモデルの複雑さの両方において独自の利点を持っている。 我々は、視覚トランスフォーマーの利点をconvnetに融合することにより、これらの利点をさらに強化する純粋なconvnetベースのバックボーンモデルedgeformerを提案する。 具体的には,局所的な畳み込みのように位置センシティブな特徴を生成しつつ,グローバル受容場を誇示する軽量畳み込みopであるgcc(global circular convolution)を提案する。 我々は、GCCと圧縮励起OPを組み合わせ、メタフォーマーのようなモデルブロックを形成し、さらにトランスのようなアテンション機構を持つ。 上記のブロックは、コンベネットやトランスフォーマーの関連ブロックを置き換えるために、プラグ・アンド・プレイ方式で使用できる。 実験の結果,提案するエッジフォーマは,一般的な視覚タスクやデータセットにおいて,一般的な軽量コンベネットや視覚トランスフォーマモデルよりも優れた性能を実現し,パラメータも少なく,推論速度も速いことがわかった。 imagenet-1kの分類では、edgeformerは、約5.000のパラメータで78.6%のtop-1精度を達成し、11%のパラメータと13%の計算コストを節約するが、0.2%の精度と23%の高速化(armベースのrockchip rk3288)を達成している。 MS-COCOオブジェクト検出とPASCAL VOCセグメンテーションタスクでは、EdgeFormerのパフォーマンスも向上している。

Recently, vision transformers started to show impressive results which outperform large convolution based models significantly. However, in the area of small models for mobile or resource constrained devices, ConvNet still has its own advantages in both performance and model complexity. We propose EdgeFormer, a pure ConvNet based backbone model that further strengthens these advantages by fusing the merits of vision transformers into ConvNets. Specifically, we propose global circular convolution (GCC) with position embeddings, a light-weight convolution op which boasts a global receptive field while producing location sensitive features as in local convolutions. We combine the GCCs and squeeze-exictation ops to form a meta-former like model block, which further has the attention mechanism like transformers. The aforementioned block can be used in plug-and-play manner to replace relevant blocks in ConvNets or transformers. Experiment results show that the proposed EdgeFormer achieves better performance than popular light-weight ConvNets and vision transformer based models in common vision tasks and datasets, while having fewer parameters and faster inference speed. For classification on ImageNet-1k, EdgeFormer achieves 78.6% top-1 accuracy with about 5.0 million parameters, saving 11% parameters and 13% computational cost but gaining 0.2% higher accuracy and 23% faster inference speed (on ARM based Rockchip RK3288) compared with MobileViT, and uses only 0.5 times parameters but gaining 2.7% accuracy compared with DeIT. On MS-COCO object detection and PASCAL VOC segmentation tasks, EdgeFormer also shows better performance.
翻訳日:2022-03-09 22:11:14 公開日:2022-03-08
# (参考訳) localeをリレーショナルインダクティブバイアスとして用いたグラフネットワークによるマイトショットトラヒック予測 [全文訳有]

Few-Shot Traffic Prediction with Graph Networks using Locale as Relational Inductive Biases ( http://arxiv.org/abs/2203.03965v1 )

ライセンス: CC BY 4.0
Mingxi Li, Yihong Tang, Wei Ma(参考訳) 正確な短期交通予測は、様々なスマートモビリティの運用と管理システムにおいて重要な役割を果たす。 現在、最先端の予測モデルのほとんどはグラフニューラルネットワーク(GNN)に基づいており、必要なトレーニングサンプルはトラフィックネットワークのサイズに比例している。 多くの都市では、データ収集コストのため、利用可能なトラフィックデータの量は最低限の要件以下である。 大規模ネットワーク上でのトレーニングデータが少ないトラフィック予測モデルを開発することは,依然としてオープンな問題である。 近い将来、ノードのトラフィック状態は、その局所化された近傍のトラフィック状態にのみ依存し、グラフ関係帰納バイアスを用いて表現できることに気付く。 本稿では,グラフネットワーク(gn)ベースのディープラーニングモデルであるlocalegnを開発し,局所化データ集約と更新関数とノード毎のリカレントニューラルネットワークを用いたトラヒックダイナミクスを記述する。 LocaleGnは、過度に適合しない少数のサンプルをトレーニングするために設計された軽量モデルである。 提案モデルでは,6つのデータセットによるトラフィック速度とフローの予測について検討し,実験結果から,LocaleGnが既存の最先端ベースラインモデルより優れていることが示された。 また、LocaleGnから学んだ知識を都市間で伝達できることが示されている。 研究成果は、特に歴史的にアーカイブされた交通データに欠けている都市において、軽量な交通予測システムの開発に役立つ。

Accurate short-term traffic prediction plays a pivotal role in various smart mobility operation and management systems. Currently, most of the state-of-the-art prediction models are based on graph neural networks (GNNs), and the required training samples are proportional to the size of the traffic network. In many cities, the available amount of traffic data is substantially below the minimum requirement due to the data collection expense. It is still an open question to develop traffic prediction models with a small size of training data on large-scale networks. We notice that the traffic states of a node for the near future only depend on the traffic states of its localized neighborhoods, which can be represented using the graph relational inductive biases. In view of this, this paper develops a graph network (GN)-based deep learning model LocaleGn that depicts the traffic dynamics using localized data aggregating and updating functions, as well as the node-wise recurrent neural networks. LocaleGn is a light-weighted model designed for training on few samples without over-fitting, and hence it can solve the problem of few-shot traffic prediction. The proposed model is examined on predicting both traffic speed and flow with six datasets, and the experimental results demonstrate that LocaleGn outperforms existing state-of-the-art baseline models. It is also demonstrated that the learned knowledge from LocaleGn can be transferred across cities. The research outcomes can help to develop light-weighted traffic prediction systems, especially for cities lacking in historically archived traffic data.
翻訳日:2022-03-09 21:55:21 公開日:2022-03-08
# (参考訳) コントラスト条件付き神経プロセス [全文訳有]

Contrastive Conditional Neural Processes ( http://arxiv.org/abs/2203.03978v1 )

ライセンス: CC BY 4.0
Zesheng Ye, Lina Yao(参考訳) 条件付きニューラルプロセス~(CNP)は、確率的推論を伴うニューラルネットワークをメタ学習環境下で確率的プロセスの近似関数にブリッジする。 関数インスタンス化のバッチが与えられた場合、CNPは、生成的再構成パイプライン内でのIn-instantiationObse rvation予測とクロス-instantiation Meta-representation適応に共同最適化される。 関数観測の分布が高次元および雑音空間にスケールする場合、そのような2つの目標を結びつけることは困難である。 代わりに、ノイズコントラスト推定は、生成モデルの固有の制限と戦うために分布マッチングの目的を学習することで、より堅牢な表現を提供できるかもしれない。 これを踏まえて、我々はCNPを装備することを提案する。 1)エンコードされた地表面観測と予測の整合 2) 生成的再構成からメタ表現適応を分離する。 具体的には、2つの補助的コントラスト分岐を階層的に設定し、それぞれ局所的な予測アライメントとグローバル関数の整合性を促進するために、インストラクテーション時間的コントラスト学習~({\tt TCL})とクロスストラクテーション関数コントラスト学習~({\tt FCL})である。 実験により, {\tt TCL} が観測の高レベルな抽象化を捉えるのに対して, {\tt FCL} は基底関数の同定に役立ち,より効率的な表現を提供することを示す。 本モデルでは,1次元,2次元,高次元の時系列における関数分布再構成とパラメータ同定を評価する際に,他のCNPよりも優れる。

Conditional Neural Processes~(CNPs) bridge neural networks with probabilistic inference to approximate functions of Stochastic Processes under meta-learning settings. Given a batch of non-{\it i.i.d} function instantiations, CNPs are jointly optimized for in-instantiation observation prediction and cross-instantiation meta-representation adaptation within a generative reconstruction pipeline. There can be a challenge in tying together such two targets when the distribution of function observations scales to high-dimensional and noisy spaces. Instead, noise contrastive estimation might be able to provide more robust representations by learning distributional matching objectives to combat such inherent limitation of generative models. In light of this, we propose to equip CNPs by 1) aligning prediction with encoded ground-truth observation, and 2) decoupling meta-representation adaptation from generative reconstruction. Specifically, two auxiliary contrastive branches are set up hierarchically, namely in-instantiation temporal contrastive learning~({\tt TCL}) and cross-instantiation function contrastive learning~({\tt FCL}), to facilitate local predictive alignment and global function consistency, respectively. We empirically show that {\tt TCL} captures high-level abstraction of observations, whereas {\tt FCL} helps identify underlying functions, which in turn provides more efficient representations. Our model outperforms other CNPs variants when evaluating function distribution reconstruction and parameter identification across 1D, 2D and high-dimensional time-series.
翻訳日:2022-03-09 21:29:41 公開日:2022-03-08
# (参考訳) 部分微分方程式のオンライン弱形式スパース同定 [全文訳有]

Online Weak-form Sparse Identification of Partial Differential Equations ( http://arxiv.org/abs/2203.03979v1 )

ライセンス: CC BY 4.0
Daniel A. Messenger, Emiliano Dall'Anese and David M. Bortz(参考訳) 本稿では,非線形力学アルゴリズム(wsindy)の弱形式スパース同定に基づく偏微分方程式(pdes)のオンライン同定アルゴリズムを提案する。 このアルゴリズムは, 逐次到着するソリューションスナップショットを処理して識別タスクを実行した場合に, オンラインである。 この手法のコアは、候補PDEの弱い形状の離散化と、スパース回帰問題に対するオンライン近位勾配降下法を組み合わせたものである。 特に、$\ell_0$-pseudo-norm を正規化するのではなく、その近位演算子を直接適用することで、ノイズの多いデータから効率的なオンラインシステム識別を実現する。 本研究では, 時間変化の波動速度を持つ非線形波動方程式と, 1次元, 2次元, 3次元の線形波動方程式について実験を行った。 特に,本手法は,時間的に変化する係数を持つシステムの同定と追跡が可能であり,高次元の問題に対するストリーミングの代替手段であることを示す。

This paper presents an online algorithm for identification of partial differential equations (PDEs) based on the weak-form sparse identification of nonlinear dynamics algorithm (WSINDy). The algorithm is online in a sense that if performs the identification task by processing solution snapshots that arrive sequentially. The core of the method combines a weak-form discretization of candidate PDEs with an online proximal gradient descent approach to the sparse regression problem. In particular, we do not regularize the $\ell_0$-pseudo-norm , instead finding that directly applying its proximal operator (which corresponds to a hard thresholding) leads to efficient online system identification from noisy data. We demonstrate the success of the method on the Kuramoto-Sivashinsky equation, the nonlinear wave equation with time-varying wavespeed, and the linear wave equation, in one, two, and three spatial dimensions, respectively. In particular, our examples show that the method is capable of identifying and tracking systems with coefficients that vary abruptly in time, and offers a streaming alternative to problems in higher dimensions.
翻訳日:2022-03-09 21:00:05 公開日:2022-03-08
# (参考訳) 多変量時系列における時空間GNNのスパース化とフィルタリング [全文訳有]

Sparsification and Filtering for Spatial-temporal GNN in Multivariate Time-series ( http://arxiv.org/abs/2203.03991v1 )

ライセンス: CC BY-SA 4.0
Yuanrong Wang, Tomaso Aste(参考訳) 本稿では,空間-時間グラフニューラルネットワークと行列フィルタリングモジュールを統合する多変量時系列予測のためのエンドツーエンドアーキテクチャを提案する。 このモジュールは、GNNに入力する前に、多変量時系列からフィルタ(逆)相関グラフを生成する。 グラフニューラルネットワークで採用されている既存のスパーシフィケーション手法とは対照的に,本モデルは時系列フィルタリングを明示的に活用し,複雑なシステムデータに典型的な低信号対雑音比を克服する。 そこで本研究では,合成時系列販売データセットから将来の販売を予測する実験を行う。 提案した空間時空間グラフニューラルネットワークは、グラフィカルな情報がなく、完全に連結された非連結グラフと未フィルタリンググラフを持つベースラインアプローチに対して優れた性能を示す。

We propose an end-to-end architecture for multivariate time-series prediction that integrates a spatial-temporal graph neural network with a matrix filtering module. This module generates filtered (inverse) correlation graphs from multivariate time series before inputting them into a GNN. In contrast with existing sparsification methods adopted in graph neural network, our model explicitly leverage time-series filtering to overcome the low signal-to-noise ratio typical of complex systems data. We present a set of experiments, where we predict future sales from a synthetic time-series sales dataset. The proposed spatial-temporal graph neural network displays superior performances with respect to baseline approaches, with no graphical information, and with fully connected, disconnected graphs and unfiltered graphs.
翻訳日:2022-03-09 20:25:00 公開日:2022-03-08
# (参考訳) DeltaCNN:ビデオにおけるスパースフレーム差のエンドツーエンドCNN推論 [全文訳有]

DeltaCNN: End-to-End CNN Inference of Sparse Frame Differences in Videos ( http://arxiv.org/abs/2203.03996v1 )

ライセンス: CC BY 4.0
Mathias Parger, Chengcheng Tang, Christopher D. Twigg, Cem Keskin, Robert Wang, Markus Steinberger(参考訳) ビデオデータの畳み込みニューラルネットワーク推論は、リアルタイム処理に強力なハードウェアを必要とする。 連続するフレーム間のコヒーレンスを考えると、ビデオの大部分がほとんど変化しない。 同一の画像領域をスキップし、重要な画素更新をトラッピングすることにより、理論的には計算冗長性を著しく低減することができる。 しかし、これらの理論的な貯蓄は、スパース更新が計算の一貫性とメモリアクセスの一貫性を損なうため、現実のハードウェア上での効率の鍵となるため、実際には変換が困難である。 DeltaCNNでは、スパースフレーム・バイ・フレームの更新を可能にし、実際にビデオ推論を高速化する、スパース畳み込みニューラルネットワークフレームワークを提案する。 典型的なCNNレイヤのスパース実装を提供し、時間とともにエラーを蓄積することなく、スパース機能の更新をエンドツーエンドに伝達します。 DeltaCNNは再トレーニングなしですべての畳み込みニューラルネットワークに適用できる。 我々の知る限りでは、我々は、厳密な参照であるcuDNNを実用的な設定で、精度の限界差で最大7倍のスピードアップを達成し、初めて大幅に上回りました。

Convolutional neural network inference on video data requires powerful hardware for real-time processing. Given the inherent coherence across consecutive frames, large parts of a video typically change little. By skipping identical image regions and truncating insignificant pixel updates, computational redundancy can in theory be reduced significantly. However, these theoretical savings have been difficult to translate into practice, as sparse updates hamper computational consistency and memory access coherence; which are key for efficiency on real hardware. With DeltaCNN, we present a sparse convolutional neural network framework that enables sparse frame-by-frame updates to accelerate video inference in practice. We provide sparse implementations for all typical CNN layers and propagate sparse feature updates end-to-end - without accumulating errors over time. DeltaCNN is applicable to all convolutional neural networks without retraining. To the best of our knowledge, we are the first to significantly outperform the dense reference, cuDNN, in practical settings, achieving speedups of up to 7x with only marginal differences in accuracy.
翻訳日:2022-03-09 20:10:11 公開日:2022-03-08
# (参考訳) スーパーネットワークにおける進化的ニューラルカスケード探索 [全文訳有]

Evolutionary Neural Cascade Search across Supernetworks ( http://arxiv.org/abs/2203.04011v1 )

ライセンス: CC BY-SA 4.0
Alexander Chebykin, Tanja Alderliesten, Peter A. N. Bosman(参考訳) 現代のニューラルネットワークで優れた性能を実現するためには、適切なネットワークアーキテクチャが重要である。 neural architecture search (nas) はタスク固有のネットワークアーキテクチャの自動発見に関するものである。 現代のnasアプローチは、サブネットワークが候補ニューラルネットワークアーキテクチャをエンコードするスーパーネットワークを活用する。 これらのサブネットワークは同時にトレーニングでき、各ネットワークをスクラッチからトレーニングする必要がなくなり、nasの効率が向上する。 ニューラルアーキテクチャトランスファー(NAT)と呼ばれる最近の手法は、多目的進化アルゴリズムを用いてコンピュータビジョンタスクにおけるNASの効率をさらに向上し、ImageNetで事前訓練されたスーパーネットワークの高品質サブネットワークを見つける。 NAT上に構築されたENCASEvolutionary Neural Cascade Searchを紹介する。 ENCASは、複数の事前訓練されたスーパーネットワークを探索して、異なるニューラルネットワークアーキテクチャのカスケードのトレードオフフロントを達成し、FLOPSカウントを最小化しながら精度を最大化するために使用することができる。 我々は、一般的なコンピュータビジョンベンチマーク(CIFAR-10, CIFAR-100, ImageNet)でEMCASをテストし、従来の最先端NASモデルよりも1.5GFLOPSまでのパレート支配を達成した。 さらに、ENCASを518個のパブリックなイメージネット分類器のプールに適用すると、全ての計算系においてパレートが支配的になり、最大精度は88.6%から89.0%に増加し、計算労力は362から296 GFLOPSに18%減少する。 私たちのコードはhttps://github.com/A wesomeLemon/ENCASで利用可能です。

To achieve excellent performance with modern neural networks, having the right network architecture is important. Neural Architecture Search (NAS) concerns the automatic discovery of task-specific network architectures. Modern NAS approaches leverage supernetworks whose subnetworks encode candidate neural network architectures. These subnetworks can be trained simultaneously, removing the need to train each network from scratch, thereby increasing the efficiency of NAS. A recent method called Neural Architecture Transfer (NAT) further improves the efficiency of NAS for computer vision tasks by using a multi-objective evolutionary algorithm to find high-quality subnetworks of a supernetwork pretrained on ImageNet. Building upon NAT, we introduce ENCAS - Evolutionary Neural Cascade Search. ENCAS can be used to search over multiple pretrained supernetworks to achieve a trade-off front of cascades of different neural network architectures, maximizing accuracy while minimizing FLOPS count. We test ENCAS on common computer vision benchmarks (CIFAR-10, CIFAR-100, ImageNet) and achieve Pareto dominance over previous state-of-the-art NAS models up to 1.5 GFLOPS. Additionally, applying ENCAS to a pool of 518 publicly available ImageNet classifiers leads to Pareto dominance in all computation regimes and to increasing the maximum accuracy from 88.6% to 89.0%, accompanied by an 18\% decrease in computation effort from 362 to 296 GFLOPS. Our code is available at https://github.com/A wesomeLemon/ENCAS
翻訳日:2022-03-09 19:55:46 公開日:2022-03-08
# (参考訳) FPGA上でのCNN推論加速器生成のためのコンパイルフロー [全文訳有]

A Compilation Flow for the Generation of CNN Inference Accelerators on FPGAs ( http://arxiv.org/abs/2203.04015v1 )

ライセンス: CC BY 4.0
Seung-Hun Chung and Tarek S. Abdelrahman(参考訳) FPGA上でのCNN推論アクセラレータ生成のためのコンパイルフローを提案する。 このフローは、凍結したモデルをTVMコンパイラでOpenCLカーネルに変換し、Intel OpenCL SDKを使用してFPGAビットストリームにコンパイルする。 我々は,tvm が生成する opencl カーネルを最適化することで,生成ハードウェアの品質を向上させる。 これらの最適化は並列性を高め、メモリアクセス遅延を減らし、並行性を高め、チップ上のリソースを節約する。 我々はこれらの最適化をTVMで自動化し、Intel Stratix~10SX上でLeNet-5、MobileNetV1、ResNet-34のアクセラレータを生成して評価する。 この最適化により,生成したアクセラレータの性能は,ベースアクセラレータよりも最大846倍向上する。 最適化されたアクセラレータのパフォーマンスは、CPU上のTensorFlowよりも4.57倍、シングルスレッドTVMより3.83倍、56スレッドのTVMに比べてわずか0.34倍である。 私たちの最適化されたカーネルは、機能と柔軟性を提供しながら、同様のアプローチ(ハイレベルな合成も使う)によって生成されるものよりも優れています。 しかし、手首に最適化されたデザインを用いるアプローチを弱めている。 したがって,本手法は,ハードウェア設計の専門知識がなくてもFPGAの利点を享受し,性能向上と高速プロトタイピングの恩恵を受けるプリプロダクション環境において有用であると考えている。

We present a compilation flow for the generation of CNN inference accelerators on FPGAs. The flow translates a frozen model into OpenCL kernels with the TVM compiler and uses the Intel OpenCL SDK to compile to an FPGA bitstream. We improve the quality of the generated hardware with optimizations applied to the base OpenCL kernels generated by TVM. These optimizations increase parallelism, reduce memory access latency, increase concurrency and save on-chip resources. We automate these optimizations in TVM and evaluate them by generating accelerators for LeNet-5, MobileNetV1 and ResNet-34 on an Intel Stratix~10SX. We show that the optimizations improve the performance of the generated accelerators by up to 846X over the base accelerators. The performance of the optimized accelerators is up to 4.57X better than TensorFlow on CPU, 3.83X better than single-threaded TVM and is only 0.34X compared to TVM with 56 threads. Our optimized kernels also outperform ones generated by a similar approach (that also uses high-level synthesis) while providing more functionality and flexibility. However, it underperforms an approach that utilizes hand-optimized designs. Thus, we view our approach as useful in pre-production environments that benefit from increased performance and fast prototyping, realizing the benefits of FPGAs without hardware design expertise.
翻訳日:2022-03-09 19:35:35 公開日:2022-03-08
# (参考訳) 暗闇で見るためにバイエルフィルターを消す方法を学ぶ [全文訳有]

Learning to Erase the Bayer-Filter to See in the Dark ( http://arxiv.org/abs/2203.04042v1 )

ライセンス: CC BY 4.0
Xingbo Dong, Wanyan Xu, Zhihui Miao, Lan Ma, Chao Zhang, Jiewen Yang, Zhe Jin, Andrew Beng Jin Teoh, Jiajun Shen(参考訳) 低照度画像の強調 - 広範だが困難な問題であり、照明環境の悪い環境で撮影された画像の可視性を高める上で中心的な役割を果たす。 カラーカメラのセンサ上で全ての光子がバイアフィルタを通過できるわけではないため,本研究ではまず,ディープニューラルネットワークに基づくデバイアフィルタシミュレータを提案し,カラーraw画像からモノクロ生画像を生成する。 次に,色付き生データと合成モノクロ生データを融合して低光度画像強調を実現するために,完全畳み込みネットワークを提案する。 カラー画像とモノクロ画像からの特徴間の相補的な相互作用を確立するため、チャンネル毎の注意が融合プロセスに導入された。 畳み込みネットワークを訓練するために,バイエルフィルタのないモノクロカメラとバイエルフィルタ付きカラーカメラを用いて収集した,モノクロとカラー生ペアのデータセットであるモノカラー生ペアデータセット(mcr)を提案する。 提案するパイプラインは,仮想モノクロームとカラーraw画像の融合の利点を活かし,センサデータとデータ駆動学習の活用により,大幅な改善が達成できることを示す。

Low-light image enhancement - a pervasive but challenging problem, plays a central role in enhancing the visibility of an image captured in a poor illumination environment. Due to the fact that not all photons can pass the Bayer-Filter on the sensor of the color camera, in this work, we first present a De-Bayer-Filter simulator based on deep neural networks to generate a monochrome raw image from the colored raw image. Next, a fully convolutional network is proposed to achieve the low-light image enhancement by fusing colored raw data with synthesized monochrome raw data. Channel-wise attention is also introduced to the fusion process to establish a complementary interaction between features from colored and monochrome raw images. To train the convolutional networks, we propose a dataset with monochrome and color raw pairs named Mono-Colored Raw paired dataset (MCR) collected by using a monochrome camera without Bayer-Filter and a color camera with Bayer-Filter. The proposed pipeline take advantages of the fusion of the virtual monochrome and the color raw images and our extensive experiments indicate that significant improvement can be achieved by leveraging raw sensor data and data-driven learning.
翻訳日:2022-03-09 19:21:17 公開日:2022-03-08
# (参考訳) e2ec:高品質な高速インスタンスセグメンテーションのためのエンドツーエンドの輪郭ベース手法 [全文訳有]

E2EC: An End-to-End Contour-based Method for High-Quality High-Speed Instance Segmentation ( http://arxiv.org/abs/2203.04074v1 )

ライセンス: CC BY 4.0
Tao Zhang, Shiqing Wei, Shunping Ji(参考訳) 輪郭ベースのインスタンスセグメンテーション手法は近年急速に発展しているが, モデル性能を制限した粗面および手作りのフロントエンドの輪郭初期化と, 学習難易度に寄与する実証的, 固定されたバックエンドとラベルの頂点ペアリングが特徴である。 本稿では,高品質なインスタンスセグメンテーションのための新しい輪郭法であるE2ECを紹介する。 まず、E2ECは手作りの輪郭初期化ではなく、学習可能な輪郭初期化アーキテクチャを適用している。 これは、より明示的な学習目標を構築するための輪郭初期化モジュールと、すべての頂点の特徴をうまく活用するためのグローバル輪郭変形モジュールで構成される。 次に,学習難度を低減するために,多方向アライメントと呼ばれる新しいラベルサンプリング手法を提案する。 第三に,境界の細部の品質を向上させるために,予測される最も適切な真理頂点対を動的にマッチングし,動的マッチング損失と呼ばれる対応する損失関数を提案する。 実験の結果、E2ECはKITTI InStance(KINS)データセット、セマンティック境界データセット(SBD)、Cityscapes、COCOデータセットで最先端のパフォーマンスを達成することができた。 E2ECはまた、NVIDIA A6000 GPU上の512*512イメージに対して36fpsの推論速度を持つリアルタイムアプリケーションでの使用にも効率的である。 コードはhttps://github.com/z hang-tao-whu/e2ecでリリースされる。

Contour-based instance segmentation methods have developed rapidly recently but feature rough and hand-crafted front-end contour initialization, which restricts the model performance, and an empirical and fixed backend predicted-label vertex pairing, which contributes to the learning difficulty. In this paper, we introduce a novel contour-based method, named E2EC, for high-quality instance segmentation. Firstly, E2EC applies a novel learnable contour initialization architecture instead of hand-crafted contour initialization. This consists of a contour initialization module for constructing more explicit learning goals and a global contour deformation module for taking advantage of all of the vertices' features better. Secondly, we propose a novel label sampling scheme, named multi-direction alignment, to reduce the learning difficulty. Thirdly, to improve the quality of the boundary details, we dynamically match the most appropriate predicted-ground truth vertex pairs and propose the corresponding loss function named dynamic matching loss. The experiments showed that E2EC can achieve a state-of-the-art performance on the KITTI INStance (KINS) dataset, the Semantic Boundaries Dataset (SBD), the Cityscapes and the COCO dataset. E2EC is also efficient for use in real-time applications, with an inference speed of 36 fps for 512*512 images on an NVIDIA A6000 GPU. Code will be released at https://github.com/z hang-tao-whu/e2ec.
翻訳日:2022-03-09 19:08:54 公開日:2022-03-08
# (参考訳) COLA: 対向学習による一貫性のある学習 [全文訳有]

COLA: Consistent Learning with Opponent-Learning Awareness ( http://arxiv.org/abs/2203.04098v1 )

ライセンス: CC BY 4.0
Timon Willi, Johannes Treutlein, Alistair Letcher, Jakob Foerster(参考訳) 一般のサムゲームでの学習は不安定であり、しばしば社会的に望ましくないパレート支配的な結果をもたらす。 これを軽減するために、Learning with Opponent-Learning Awareness (LOLA)は、他のエージェントの期待する学習ステップに対するエージェントの影響を考慮して、相手のシェーピングを導入した。 しかし、オリジナルのLOLAの定式化(および後続の作業)は、LOLAはLOLAエージェントではなく、ナイーブな学習者として他のエージェントをモデル化するため、矛盾しない。 以前の研究では、この矛盾は、安定な固定点(SFP)を維持するLOLAの失敗の原因として示唆された。 まず、一貫性を形式化し、高次LOLA(HOLA)が収束した場合のLOLAの不整合問題を解くことを示す。 第2に,sch\"afer と anandkumar (2019) とは対照的に,競争勾配降下 (cgd) はホラを級数展開として回復しないことを証明し,文献の主張を訂正する。 したがって、CGDは一貫性の問題も解決しない。 第3に,相互に対向するシェーピング下で一貫性のある更新関数を学習するconsistent lola(cola)という新しい手法を提案する。 2階微分しか必要とせず、HOLAが収束しない場合でも一貫した更新関数を学ぶ。 しかし、一貫性のある更新関数でさえSFPを保存せず、この欠点はLOLAの不整合に起因するという仮説に矛盾する。 最後に、一組の一般ゲームに対する実証的な評価において、COLAは社会的な解を見つけ、HOLAやLOLAよりも幅広い学習率で収束することがわかった。 簡単なゲームに対する理論的結果で後者の発見を支援する。

Learning in general-sum games can be unstable and often leads to socially undesirable, Pareto-dominated outcomes. To mitigate this, Learning with Opponent-Learning Awareness (LOLA) introduced opponent shaping to this setting, by accounting for the agent's influence on the anticipated learning steps of other agents. However, the original LOLA formulation (and follow-up work) is inconsistent because LOLA models other agents as naive learners rather than LOLA agents. In previous work, this inconsistency was suggested as a cause of LOLA's failure to preserve stable fixed points (SFPs). First, we formalize consistency and show that higher-order LOLA (HOLA) solves LOLA's inconsistency problem if it converges. Second, we correct a claim made in the literature, by proving that, contrary to Sch\"afer and Anandkumar (2019), Competitive Gradient Descent (CGD) does not recover HOLA as a series expansion. Hence, CGD also does not solve the consistency problem. Third, we propose a new method called Consistent LOLA (COLA), which learns update functions that are consistent under mutual opponent shaping. It requires no more than second-order derivatives and learns consistent update functions even when HOLA fails to converge. However, we also prove that even consistent update functions do not preserve SFPs, contradicting the hypothesis that this shortcoming is caused by LOLA's inconsistency. Finally, in an empirical evaluation on a set of general-sum games, we find that COLA finds prosocial solutions and that it converges under a wider range of learning rates than HOLA and LOLA. We support the latter finding with a theoretical result for a simple game.
翻訳日:2022-03-09 18:52:24 公開日:2022-03-08
# (参考訳) 効率的なポリプセグメンテーションネットワーク [全文訳有]

An Efficient Polyp Segmentation Network ( http://arxiv.org/abs/2203.04118v1 )

ライセンス: CC BY 4.0
Tugberk Erol and Duygu Sarikaya(参考訳) がんは、制御されていない分裂と細胞の増殖の結果起こる疾患である。 近年、がん患者の数が増加している。 . 大腸癌は世界でも最も一般的ながんの1つである。 大腸で見られるポリープは、早期の介入で除去されないとがんを引き起こすことがある。 深層学習と画像分割技術は、診断中に専門家が気付かないポリプの数を最小限にするために用いられる。 これらの手法は良い結果をもたらすが、パラメータが多すぎる。 我々はこの問題を解くための新しいモデルを提案する。 提案モデルでは,パラメータの削減に加えて,技術モデルの成功率も向上している。 提案モデルでは,部分デコーダを用いてパラメータ数を減らし,メインタンタリングに成功した。 エンコーダ部では、成功した結果と少ないパラメータを必要とするEfficientNetB0が使用される。 ポリプは可変アスペクトとアスペクト比を持つため、古典的な畳み込みブロックの代わりに非対称畳み込みブロックが用いられた。 KvasirとCVC-ClinicDBデータセットはトレーニング、検証、テストとして分離され、CVC-ColonDB、ETIS、Endosceneデータセットがテストに使用された。 diceメトリックによると、このモデルはcolondbテストデータセットでは%71.8、エンドスセンテストデータセットでは%89.3、etisテストデータセットでは%74.8で最高の結果を得た。 我々のモデルは合計2.626.337のパラメータを必要とする。 文献で比較すると、同様の研究によると、最小パラメータを必要とするモデルは9.042.177パラメータを持つU-Net++である。

Cancer is a disease that occurs as a result of uncontrolled division and proliferation of cells. The number of cancer cases has been on the rise over the recent years.. Colon cancer is one of the most common types of cancer in the world. Polyps that can be seen in the large intestine can cause cancer if not removed with early intervention. Deep learning and image segmentation techniques are used to minimize the number of polyps that goes unnoticed by the experts during the diagnosis. Although these techniques give good results, they require too many parameters. We propose a new model to solve this problem. Our proposed model includes less parameters as well as outperforming the success of the state of the art models. In the proposed model, a partial decoder is used to reduce the number of parameters while maintaning success. EfficientNetB0, which gives successfull results as well as requiring few parameters, is used in the encoder part. Since polyps have variable aspect and aspect ratios, an asymetric convolution block was used instead of using classic convolution block. Kvasir and CVC-ClinicDB datasets were seperated as training, validation and testing, and CVC-ColonDB, ETIS and Endoscene datasets were used for testing. According to the dice metric, our model had the best results with %71.8 in the ColonDB test dataset, %89.3 in the EndoScene test dataset and %74.8 in the ETIS test dataset. Our model requires a total of 2.626.337 parameters. When we compare it in the literature, according to similar studies, the model that requires the least parameters is U-Net++ with 9.042.177 parameters.
翻訳日:2022-03-09 18:15:17 公開日:2022-03-08
# (参考訳) NeReF: 流体表面再構成と暗示表現のためのニューラル屈折場 [全文訳有]

NeReF: Neural Refractive Field for Fluid Surface Reconstruction and Implicit Representation ( http://arxiv.org/abs/2203.04130v1 )

ライセンス: CC BY 4.0
Ziyu Wang, Wei Yang, Junming Cao, Lan Xu, Junqing Yu, Jingyi Yu(参考訳) ニューラルレージアンスフィールド(NeRF)のような既存のニューラル再構成スキームは主に不透明物体のモデリングに焦点を当てている。 本研究では, 流体表面の位置と正常度を同時に推定することにより, 透明流体の波面を復元する新しいニューラル屈折場(NeReF)を提案する。 再構成対象を表面の単一層として扱う先行技術とは異なり、NeReFは対応する密度場を持つ体積正規場を復元するために特別に定式化されている。 クエリレイはその蓄積された屈折点と正規値に応じてnerefによって屈折され、neref最適化のためにrefracted rayの対応と一意性を利用する。 我々は,NeReFを大域的最適化手法として,従来の対応マッチング法と相反する屈折歪みに頑健に対処できることを示した。 さらに、波面の連続NeReF表現は、ビュー合成と通常の積分を可能にする。 我々は、合成データと実データの両方にアプローチを検証し、特にスパースマルチビュー獲得に適していることを示す。 そこで我々は, 小型光電場アレイを構築し, 各種表面形状を用いて高忠実度NeReF再構成実験を行った。

Existing neural reconstruction schemes such as Neural Radiance Field (NeRF) are largely focused on modeling opaque objects. We present a novel neural refractive field(NeReF) to recover wavefront of transparent fluids by simultaneously estimating the surface position and normal of the fluid front. Unlike prior arts that treat the reconstruction target as a single layer of the surface, NeReF is specifically formulated to recover a volumetric normal field with its corresponding density field. A query ray will be refracted by NeReF according to its accumulated refractive point and normal, and we employ the correspondences and uniqueness of refracted ray for NeReF optimization. We show NeReF, as a global optimization scheme, can more robustly tackle refraction distortions detrimental to traditional methods for correspondence matching. Furthermore, the continuous NeReF representation of wavefront enables view synthesis as well as normal integration. We validate our approach on both synthetic and real data and show it is particularly suitable for sparse multi-view acquisition. We hence build a small light field array and experiment on various surface shapes to demonstrate high fidelity NeReF reconstruction.
翻訳日:2022-03-09 18:00:30 公開日:2022-03-08
# (参考訳) 歩行による人物識別の理解 [全文訳有]

Understanding person identification via gait ( http://arxiv.org/abs/2203.04179v1 )

ライセンス: CC BY-SA 4.0
Simon Hanisch and Evelyn Muschter and Adamantini Chatzipanagioti and Shu-Chen Li and Thorsten Strufe(参考訳) 歩行認識は、歩行や走行などの二足歩行から人間を識別するプロセスである。 このような歩行データはプライバシーに敏感な情報であり、匿名化されるべきである。 深度カメラやモーションキャプチャスーツなど、より高品質な歩行記録技術が普及するにつれて、匿名化を必要とする高品質の歩行データが増えてきている。 高品質な歩行データのための匿名化技術開発に向けた第一歩として,移動データのさまざまな側面を調査し,歩行認識プロセスへの貢献を定量化する。 まず、人間の歩行知覚に関する文献から特徴のカテゴリを抽出し、その後、歩行認識システムに対して実行するカテゴリごとに計算実験をデザインする。 その結果,データの冗長性と相互依存性が高いため,歩行匿名化は困難なプロセスであることがわかった。

Gait recognition is the process of identifying humans from their bipedal locomotion such as walking or running. As such gait data is privacy sensitive information and should be anonymized. With the rise of more and higher quality gait recording techniques, such as depth cameras or motion capture suits, an increasing amount of high-quality gait data becomes available which requires anonymization. As a first step towards developing anonymization techniques for high-quality gait data, we study different aspects of movement data to quantify their contribution to the gait recognition process. We first extract categories of features from the literature on human gait perception and then design computational experiments for each of the categories which we run against a gait recognition system. Our results show that gait anonymization is a challenging process as the data is highly redundant and interdependent.
翻訳日:2022-03-09 17:49:16 公開日:2022-03-08
# (参考訳) 並列可変密度近似メッセージパッシング(P-VDAMP)を用いた無チューニングマルチコイル圧縮センシングMRI [全文訳有]

Tuning-free multi-coil compressed sensing MRI with Parallel Variable Density Approximate Message Passing (P-VDAMP) ( http://arxiv.org/abs/2203.04180v1 )

ライセンス: CC BY 4.0
Charles Millard, Mark Chiew, Jared Tanner, Aaron T. Hess and Boris Mailhe(参考訳) 目的:最適に調整されたスパースパラメータを持つアルゴリズムと競合するマルチコイル圧縮センシングMRIのチューニング不要な手法を開発すること。 理論: 並列可変密度近似メッセージパッシング(P-VDAMP)アルゴリズムを提案する。 ベルヌーイ確率変数密度サンプリングでは、P-VDAMPは「状態進化」に従っており、中間点ごとの像推定は、ほぼ共分散を持つガウスベクトルによって崩壊した基底真理に従って分布する。 状態の進化は、Stein's Unbiased Risk Estimate (SURE)でスパースパラメータを自動的に調整するために利用される。 方法: p-vdampは加速度係数5,10の脳,膝,血管のデータセットで評価され,文献から2種類のチューニングフリー変異を含むfista(fastly shrinkage-thresholdi ng algorithm)の4つの変種と比較される。 結果: 提案手法はFISTAと同様の再現性と収束時間を持ち, 最適に調整したスパース重み付けを施した。 結論: p-vdampは、最適に調整されたfistaと競合し、競合するチューニングフリーメソッドよりも実質的な堅牢性と再構成品質の改善を提供する、オンザフライパラメータチューニングの効率的でロバストで原則化された方法である。

Purpose: To develop a tuning-free method for multi-coil compressed sensing MRI that performs competitively with algorithms with an optimally tuned sparse parameter. Theory: The Parallel Variable Density Approximate Message Passing (P-VDAMP) algorithm is proposed. For Bernoulli random variable density sampling, P-VDAMP obeys a "state evolution", where the intermediate per-iteration image estimate is distributed according to the ground truth corrupted by a Gaussian vector with approximately known covariance. State evolution is leveraged to automatically tune sparse parameters on-the-fly with Stein's Unbiased Risk Estimate (SURE). Methods: P-VDAMP is evaluated on brain, knee and angiogram datasets at acceleration factors 5 and 10 and compared with four variants of the Fast Iterative Shrinkage-Thresholdi ng algorithm (FISTA), including two tuning-free variants from the literature. Results: The proposed method is found to have a similar reconstruction quality and time to convergence as FISTA with an optimally tuned sparse weighting. Conclusions: P-VDAMP is an efficient, robust and principled method for on-the-fly parameter tuning that is competitive with optimally tuned FISTA and offers substantial robustness and reconstruction quality improvements over competing tuning-free methods.
翻訳日:2022-03-09 17:31:56 公開日:2022-03-08
# (参考訳) 生成モデルに基づく強化トレーニングデータセットによるメカニカルメタモデルの強化 [全文訳有]

Enhancing Mechanical Metamodels with a Generative Model-Based Augmented Training Dataset ( http://arxiv.org/abs/2203.04183v1 )

ライセンス: CC BY-SA 4.0
Hiba Kobeissi, Saeed Mohammadzadeh, Emma Lejeune(参考訳) 生体軟組織をモデル化することは、物質的不均一性のために複雑である。 これらの組織の機械的挙動を定義する上で重要な役割を果たすミクロ組織パターンは、特徴付けが困難であり、シミュレートが困難である。 近年,異種材料の力学挙動を予測するための機械学習手法により,異種材料ブロックに関連する膨大な入力パラメータ空間をより徹底的に探索できるようになった。 具体的には、機械学習モデル(ML)を訓練し、興味のある材料に存在する空間的不均一性の範囲を捉えるシミュレーションのデータセットに基づいて機械学習モデルを訓練する。 しかし、より広い生体組織にこれらの技術を適用するには、大きな制限がある: 関連するミクロ構造パターンは、取得が困難で、分析が難しい。 したがって、研究対象の入力領域を特徴付ける有用な例の数は限られている。 本研究では,限られた入力パターンデータセットを増大させる手段として,MLに基づく生成モデルの有効性を検討する。 適応型識別器拡張機構を備えたスタイルベースジェネレーティブ・アドバーサリアル・ネットワークは,1000パターンのみをうまく活用して,有限要素シミュレーションの入力として使用可能な有意義なパターンを生成し,トレーニングデータセットを増強することができる。 この方法論的貢献を可能にするために,cahn-hilliardパターンに基づく有限要素解析シミュレーションのオープンアクセスデータセットを作成した。 将来の研究者はこのデータセットを活用し、ここでの成果を積み上げることができることを期待している。

Modeling biological soft tissue is complex in part due to material heterogeneity. Microstructural patterns, which play a major role in defining the mechanical behavior of these tissues, are both challenging to characterize, and difficult to simulate. Recently, machine learning-based methods to predict the mechanical behavior of heterogeneous materials have made it possible to more thoroughly explore the massive input parameter space associated with heterogeneous blocks of material. Specifically, we can train machine learning (ML) models to closely approximate computationally expensive heterogeneous material simulations where the ML model is trained on a dataset of simulations that capture the range of spatial heterogeneity present in the material of interest. However, when it comes to applying these techniques to biological tissue more broadly, there is a major limitation: the relevant microstructural patterns are both challenging to obtain and difficult to analyze. Consequently, the number of useful examples available to characterize the input domain under study is limited. In this work, we investigate the efficacy of ML-based generative models as a tool for augmenting limited input pattern datasets. We find that a Style-based Generative Adversarial Network with an adaptive discriminator augmentation mechanism is able to successfully leverage just 1,000 example patterns to create meaningful generated patterns that can be used as inputs to finite element simulations to augment the training dataset. To enable this methodological contribution, we have created an open access dataset of Finite Element Analysis simulations based on Cahn-Hilliard patterns. We anticipate that future researchers will be able to leverage this dataset and build on the work presented here.
翻訳日:2022-03-09 17:16:20 公開日:2022-03-08
# (参考訳) MLSeg:マルチラベル分類と選択ラベル画素分類のための画像とビデオのセグメンテーション

MLSeg: Image and Video Segmentation as Multi-Label Classification and Selected-Label Pixel Classification ( http://arxiv.org/abs/2203.04187v1 )

ライセンス: CC BY 4.0
Haodi He and Yuhui Yuan and Xiangyu Yue and Han Hu(参考訳) 長い間、セグメンテーションの研究は、通常、各ピクセルのクラスを予め定義された固定数のセマンティックカテゴリの集合から予測するピクセル分類としてタスクを定式化してきた。 しかし、この定式化に続く標準的なアーキテクチャは、セマンティックなカテゴリの総数(例えば、$ $1\rm{k}$クラスを超えて)がスケールアップするより現実的な設定下では、必然的に様々な課題に直面する。 一方、標準的な画像やビデオはラベルセット全体から少数の意味カテゴリーしか含まない。 この直感に動機づけられた本論文では,セグメンテーションを2つのサブプロブレムに分解することを提案する。 (i)画像レベル又は映像レベルマルチラベル分類及び (ii)画素レベル選択ラベル分類。 入力画像やビデオが与えられた場合,我々はまず,大規模完全ラベル集合に対して複数ラベルの分類を行い,クラス信頼度スコアに応じて,少数のラベルを選択する。 そして、フォローアップ画素単位の分類は、選択されたラベルサブセット間でのみ実行される。 提案手法は概念的に一般的であり,軽量なマルチラベル分類分岐を追加することで,既存のセグメンテーションフレームワークに適用することができる。 画像意味分割, 画像パノプティクス分割, ビデオインスタンス分割, ビデオセマンティックセマンティックセマンティクスの4つのタスクにまたがる競合実験結果を用いて, 本フレームワークの有効性を実証する。 特に、mlsegでは、2$formerは$0.8\%$/+$0.7\%$/+$0.7\%$ ade$20$k panoptic segmentation/youtube vis 2019$ video instance segmentation/vspw video semantic segmentation benchmarksでそれぞれ$0.8.7\%$を得る。 コードは次の通り。https://github.com/o penseg-group/MLSeg

For a long period of time, research studies on segmentation have typically formulated the task as pixel classification that predicts a class for each pixel from a set of predefined, fixed number of semantic categories. Yet standard architectures following this formulation will inevitably encounter various challenges under more realistic settings where the total number of semantic categories scales up (e.g., beyond $1\rm{k}$ classes). On the other hand, a standard image or video usually contains only a small number of semantic categories from the entire label set. Motivated by this intuition, in this paper, we propose to decompose segmentation into two sub-problems: (i) image-level or video-level multi-label classification and (ii) pixel-level selected-label classification. Given an input image or video, our framework first conducts multi-label classification over the large complete label set and selects a small set of labels according to the class confidence scores. Then the follow-up pixel-wise classification is only performed among the selected subset of labels. Our approach is conceptually general and can be applied to various existing segmentation frameworks by simply adding a lightweight multi-label classification branch. We demonstrate the effectiveness of our framework with competitive experimental results across four tasks including image semantic segmentation, image panoptic segmentation, video instance segmentation, and video semantic segmentation. Especially, with our MLSeg, Mask$2$Former gains +$0.8\%$/+$0.7\%$/+$0.7\%$ on ADE$20$K panoptic segmentation/YouTube VIS $2019$ video instance segmentation/VSPW video semantic segmentation benchmarks respectively. Code will be available at:https://github.co m/openseg-group/MLSe g
翻訳日:2022-03-09 16:52:28 公開日:2022-03-08
# (参考訳) stylegan-2におけるテキスト放送とノイズインジェクションを組み合わせたユニバーサルテクスチャ合成に向けて [全文訳有]

Towards Universal Texture Synthesis by Combining Texton Broadcasting with Noise Injection in StyleGAN-2 ( http://arxiv.org/abs/2203.04221v1 )

ライセンス: CC BY 4.0
Jue Lin, Gaurav Sharma, Thrasyvoulos N. Pappas(参考訳) 本稿では,StyleGAN-2フレームワークにマルチスケールのテキスト配信モジュールを組み込むことにより,汎用テクスチャ合成のための新しいアプローチを提案する。 テキスト放送モジュールは誘導バイアスを導入し、通常の構造を持つものから完全に確率的なものまで幅広いテクスチャを生成できる。 提案手法を訓練し,評価するために,自然テクスチャの多様性と知覚的に均一なテクスチャの確率的変化をキャプチャする包括的高分解能データセットを構築した。 実験の結果,提案手法は芸術の質よりも質の高いテクスチャが得られることがわかった。 この研究の最終的な目標は、テクスチャ空間の包括的理解である。

We present a new approach for universal texture synthesis by incorporating a multi-scale texton broadcasting module in the StyleGAN-2 framework. The texton broadcasting module introduces an inductive bias, enabling generation of broader range of textures, from those with regular structures to completely stochastic ones. To train and evaluate the proposed approach, we construct a comprehensive high-resolution dataset that captures the diversity of natural textures as well as stochastic variations within each perceptually uniform texture. Experimental results demonstrate that the proposed approach yields significantly better quality textures than the state of the art. The ultimate goal of this work is a comprehensive understanding of texture space.
翻訳日:2022-03-09 16:51:18 公開日:2022-03-08
# (参考訳) UAV中継IoTネットワークにおける学習による情報最小化の時代 [全文訳有]

Learning based Age of Information Minimization in UAV-relayed IoT Networks ( http://arxiv.org/abs/2203.04227v1 )

ライセンス: CC BY 4.0
Biplav Choudhury, Prasenjit Karmakar, Vijay K. Shah, Jeffrey H. Reed(参考訳) 無人航空機(UAV)は、IoTデバイスから近くの地上基地局(TBS)にタイムセンシティブなパケットを中継するための航空基地局として使用される。 TBSにおける新しい(あるいは最新の)IoTデバイスのパケットを保証するために、UAVリレーIoT-networks内のパケットのスケジューリングは、2つの同時ステップを伴うため、難しい問題である。 i)UAV[hop-1]によるIoTデバイスで生成されたパケットのサンプリング (ii)uavからtbsへのサンプルパケットの更新 [hop-2]。 これを解決するために,2ホップUAV中継IoTネットワークのためのAOIスケジューリングアルゴリズムを提案する。 まず、UAV(ホップ-1)におけるIoTデバイスのサンプリングに最大AoI First(MAF)ポリシーとUAVからTBS(ホップ-2)へのサンプリングパケットの更新に最大AoI difference(MAD)ポリシーを用いるMAF-MADと呼ばれる低複雑さAoIスケジューラを提案する。 理想的な条件下ではmaf-madが最適なaoiスケジューラであることを証明する(ワイヤレスチャネルの欠如とiotデバイスでのトラフィック生成)。 それとは対照的に、一般的な条件(ロッキーチャネル条件とIoTデバイスにおける様々な周期的トラフィック生成)では、深い強化学習アルゴリズム、すなわちPPOベースのスケジューラが提案されている。 シミュレーションの結果,提案したPPOベースのスケジューラは,MAF-MAD,MAF,ラウンドロビンなど他のスケジューラよりも優れていた。

Unmanned Aerial Vehicles (UAVs) are used as aerial base-stations to relay time-sensitive packets from IoT devices to the nearby terrestrial base-station (TBS). Scheduling of packets in such UAV-relayed IoT-networks to ensure fresh (or up-to-date) IoT devices' packets at the TBS is a challenging problem as it involves two simultaneous steps of (i) sampling of packets generated at IoT devices by the UAVs [hop-1] and (ii) updating of sampled packets from UAVs to the TBS [hop-2]. To address this, we propose Age-of-Information (AoI) scheduling algorithms for two-hop UAV-relayed IoT-networks. First, we propose a low-complexity AoI scheduler, termed, MAF-MAD that employs Maximum AoI First (MAF) policy for sampling of IoT devices at UAV (hop-1) and Maximum AoI Difference (MAD) policy for updating sampled packets from UAV to the TBS (hop-2). We prove that MAF-MAD is the optimal AoI scheduler under ideal conditions (lossless wireless channels and generate-at-will traffic-generation at IoT devices). On the contrary, for general conditions (lossy channel conditions and varying periodic traffic-generation at IoT devices), a deep reinforcement learning algorithm, namely, Proximal Policy Optimization (PPO)-based scheduler is proposed. Simulation results show that the proposed PPO-based scheduler outperforms other schedulers like MAF-MAD, MAF, and round-robin in all considered general scenarios.
翻訳日:2022-03-09 16:38:24 公開日:2022-03-08
# (参考訳) 確率線形帯域における初期ヒントフリー化

Leveraging Initial Hints for Free in Stochastic Linear Bandits ( http://arxiv.org/abs/2203.04274v1 )

ライセンス: CC BY 4.0
Ashok Cutkosky, Chris Dann, Abhimanyu Das, Qiuyi (Richard) Zhang(参考訳) 本研究では,学習者に与えられた事前知識を付加したバンディットフィードバックによる最適化の設定を,最適動作の初期ヒントとして検討する。 我々は、このヒントを用いて、その後悔を$\tilde O(\sqrt{T})$に改善し、そのヒントが正確である場合に、最小値最適化$\tilde O(d\sqrt{T})$後悔を、そのヒントの品質によらず維持する新しいアルゴリズムを提案する。 さらに、ベストケースと最悪のケースの後悔の間の緊密なトレードオフのパレートフロンティアも提供します。 おそらく意外なことに、私たちの研究は、ヒントを活用することで最悪のパフォーマンスを犠牲にすることなく、証明可能な利益が得られることを示している。 また、$m$の初期ヒントの場合にアルゴリズムの拡張を提供し、$\tilde o(m^{2/3}\sqrt{t})$ regret が達成できることを示します。

We study the setting of optimizing with bandit feedback with additional prior knowledge provided to the learner in the form of an initial hint of the optimal action. We present a novel algorithm for stochastic linear bandits that uses this hint to improve its regret to $\tilde O(\sqrt{T})$ when the hint is accurate, while maintaining a minimax-optimal $\tilde O(d\sqrt{T})$ regret independent of the quality of the hint. Furthermore, we provide a Pareto frontier of tight tradeoffs between best-case and worst-case regret, with matching lower bounds. Perhaps surprisingly, our work shows that leveraging a hint shows provable gains without sacrificing worst-case performance, implying that our algorithm adapts to the quality of the hint for free. We also provide an extension of our algorithm to the case of $m$ initial hints, showing that we can achieve a $\tilde O(m^{2/3}\sqrt{T})$ regret.
翻訳日:2022-03-09 16:12:54 公開日:2022-03-08
# ベイズ最適化支援ニューラルネットワークによる電波局所化訓練手法

Bayesian Optimisation-Assiste d Neural Network Training Technique for Radio Localisation ( http://arxiv.org/abs/2203.04032v1 )

ライセンス: Link先を確認
Xingchi Liu, Peizheng Li and Ziming Zhu(参考訳) 無線信号ベースの(屋内)ローカライゼーション技術は、スマートファクトリやウェアハウスといったIoTアプリケーションにとって重要である。 機械学習、特にニューラルネットワークの手法により、信号特徴から目標位置へのより正確なマッピングが達成できる。 しかし、wi-fi、bluetoothなどの異なる無線プロトコルは、送信信号に異なる特徴を持ち、ローカライズのために悪用することができる。 また、ニューラルネットワーク手法は、個々のローカライゼーションシナリオで十分なパフォーマンスを得るために、慎重に設定されたモデルと広範なトレーニングプロセスに依存することが多い。 上記の結果は、ニューラルネットワークのモデル構造やハイパーパラメータを決定するプロセスや、利用可能なデータからトレーニング機能を選択するプロセスにおいて大きな課題となる。 本稿では,ベイズ最適化に基づくニューラルネットワークモデルのハイパーパラメータチューニングとトレーニング手法を提案する。 モデルハイパーパラメータとトレーニング機能の適応的な選択は、手作業によるモデルトレーニング設計の必要最小限で実現できる。 提案手法により、トレーニングプロセスはより自動的で効率的な方法で最適化され、ローカライゼーションにおけるニューラルネットワークの適用性を高める。

Radio signal-based (indoor) localisation technique is important for IoT applications such as smart factory and warehouse. Through machine learning, especially neural networks methods, more accurate mapping from signal features to target positions can be achieved. However, different radio protocols, such as WiFi, Bluetooth, etc., have different features in the transmitted signals that can be exploited for localisation purposes. Also, neural networks methods often rely on carefully configured models and extensive training processes to obtain satisfactory performance in individual localisation scenarios. The above poses a major challenge in the process of determining neural network model structure, or hyperparameters, as well as the selection of training features from the available data. This paper proposes a neural network model hyperparameter tuning and training method based on Bayesian optimisation. Adaptive selection of model hyperparameters and training features can be realised with minimal need for manual model training design. With the proposed technique, the training process is optimised in a more automatic and efficient way, enhancing the applicability of neural networks in localisation.
翻訳日:2022-03-09 16:11:02 公開日:2022-03-08
# AdaPT: PyTorchにおける近似DNN加速器の高速エミュレーション

AdaPT: Fast Emulation of Approximate DNN Accelerators in PyTorch ( http://arxiv.org/abs/2203.04071v1 )

ライセンス: Link先を確認
Dimitrios Danopoulos, Georgios Zervakis, Kostas Siozios, Dimitrios Soudris, J\"org Henkel(参考訳) 現在の最先端技術では、DNN加速器の高度に増大する電力需要に対応するために近似乗数を用いる。 しかし、DNNフレームワークで近似演算が適切にサポートされていないため、近似DNNの精度を評価することは困難である。 我々は、近似推論と近似認識の再トレーニングをサポートするためにpytorchを拡張した高速エミュレーションフレームワークであるadaptを提案することで、この非効率に対処する。 AdaPTはシームレスにデプロイでき、ほとんどのDNNと互換性がある。 ビット幅の異なる多数の近似乗算器に対して, CNN, LSTM, GANを含むいくつかのDNNモデルおよびアプリケーションフィールド上でフレームワークを評価する。 その結果、ベースライン近似実装に関して、近似再訓練による実質的なエラー回復と推論時間を53.9倍に短縮した。

Current state-of-the-art employs approximate multipliers to address the highly increased power demands of DNN accelerators. However, evaluating the accuracy of approximate DNNs is cumbersome due to the lack of adequate support for approximate arithmetic in DNN frameworks. We address this inefficiency by presenting AdaPT, a fast emulation framework that extends PyTorch to support approximate inference as well as approximation-aware retraining. AdaPT can be seamlessly deployed and is compatible with the most DNNs. We evaluate the framework on several DNN models and application fields including CNNs, LSTMs, and GANs for a number of approximate multipliers with distinct bitwidth values. The results show substantial error recovery from approximate re-training and reduced inference time up to 53.9x with respect to the baseline approximate implementation.
翻訳日:2022-03-09 16:10:48 公開日:2022-03-08
# 経路計画のための障害物対応サンプリング

Obstacle Aware Sampling for Path Planning ( http://arxiv.org/abs/2203.04075v1 )

ライセンス: Link先を確認
Murad Tukan and Alaa Maalouf and Dan Feldman and Roi Poranne(参考訳) 多くの経路計画アルゴリズムは状態空間のサンプリングに基づいている。 このアプローチは非常に単純だが、これらの障害にぶつかるサンプルを無駄にするため、障害が不明な場合にはコストがかかる可能性がある。 本研究の目的は,地図内の障害物を効率的に同定し,サンプリング空間から取り除くことである。 そこで本研究では,より効率的なサンプリングを可能にする空間探索のための前処理アルゴリズムを提案する。 また,他の空間サンプリング手法やパスプランナーの性能向上が期待できることを示した。 本手法は, 最小体積包絡楕円体(mvee)によって凸障害物を十分に近似することができ, 非凸障害物を凸形状に分割することができることに基づく。 我々の主な貢献は、コアセットのMVEEが障害物のMVEEに近似するように、メンバシップ・オークルを介して空間を適応的にサンプリングする「emph{active-coreset}」と呼ばれる小さなサンプルを戦略的に見つけるアルゴリズムである。 実験結果から,複数のプランナーにまたがるアプローチの有効性を確認し,時間と経路長の点で有意な改善を示した。

Many path planning algorithms are based on sampling the state space. While this approach is very simple, it can become costly when the obstacles are unknown, since samples hitting these obstacles are wasted. The goal of this paper is to efficiently identify obstacles in a map and remove them from the sampling space. To this end, we propose a pre-processing algorithm for space exploration that enables more efficient sampling. We show that it can boost the performance of other space sampling methods and path planners. Our approach is based on the fact that a convex obstacle can be approximated provably well by its minimum volume enclosing ellipsoid (MVEE), and a non-convex obstacle may be partitioned into convex shapes. Our main contribution is an algorithm that strategically finds a small sample, called the \emph{active-coreset}, that adaptively samples the space via membership-oracle such that the MVEE of the coreset approximates the MVEE of the obstacle. Experimental results confirm the effectiveness of our approach across multiple planners based on Rapidly-exploring random trees, showing significant improvement in terms of time and path length.
翻訳日:2022-03-09 16:10:36 公開日:2022-03-08
# 話者識別のためのディジタル音声アルゴリズム

Digital Speech Algorithms for Speaker De-Identification ( http://arxiv.org/abs/2203.03932v1 )

ライセンス: Link先を確認
Stefano Marinozzi, Marcos Faundez-Zanuy(参考訳) 本研究は,マルチメディアコンテンツの識別のためのCOSTアクションIC1206に基づく。 音声認識器が失敗確率に等しい成功確率を持つ場合、ピッチの修正度を求めるために、音声性認識器における音声修正の4つのアルゴリズムをテストした。 本分析の目的は, 音声のトーン変化の強度, 品質, 可逆性, 変化の可逆性を評価することである。

The present work is based on the COST Action IC1206 for De-identification in multimedia content. It was performed to test four algorithms of voice modifications on a speech gender recognizer to find the degree of modification of pitch when the speech recognizer have the probability of success equal to the probability of failure. The purpose of this analysis is to assess the intensity of the speech tone modification, the quality, the reversibility and not-reversibility of the changes made.
翻訳日:2022-03-09 16:08:02 公開日:2022-03-08
# 水を追う:光度計と機械学習による地球外惑星上の水、雪、雲の発見

Follow the Water: Finding Water, Snow and Clouds on Terrestrial Exoplanets with Photometry and Machine Learning ( http://arxiv.org/abs/2203.04201v1 )

ライセンス: Link先を確認
Dang Pham and Lisa Kaltenegger(参考訳) 地球上のすべての生命には水が必要です。 nasaが水に従おうという試みは、水と宇宙における生命の探索を結びつけるものである。 JWSTやHabEx、LUVOIR、Originsといったミッションの概念は、岩石系外惑星を分光的に特徴付けるように設計されている。 しかし、スペクトロスコピーは時間を要するため、ターゲットの優先順位付けには初期特徴付けが不可欠である。 ここでは,6つの主表面を持つ寒冷な地球型惑星の53,130のスペクトルに基づいて,海,水雲,雪の3つの形態で地球型外惑星に反射した光度フラックスを用いて,水の存在を評価するためのツールとして機械学習を研究する。 有名な機械学習アルゴリズムであるXGBoostは、S/N$\gtrsim 20$、S/N$\gtrsim 30$の液体海水に対する雪や雲の存在を検出する上で、90%以上のバランスの取れた精度を達成する。 最後に,マルコフ鎖モンテカルロを用いたモックベイズ解析を行い,検索可能性をテストするために,正確な表面組成を導出する5つのフィルタを同定した。 その結果、広帯域フィルター光度計による太陽系外惑星表面の水の同定に機械学習を用いることにより、異なる形態の水の有望な初期キャラクタリゼーションツールが得られることがわかった。 計画された小型で大型の望遠鏡のミッションは、これを時間的な追跡観測のための目標の優先順位付けに役立てることができる。

All life on Earth needs water. NASA's quest to follow the water links water to the search for life in the cosmos. Telescopes like JWST and mission concepts like HabEx, LUVOIR and Origins are designed to characterise rocky exoplanets spectroscopically. However, spectroscopy remains time-intensive and therefore, initial characterisation is critical to prioritisation of targets. Here, we study machine learning as a tool to assess water's existence through broadband-filter reflected photometric flux on Earth-like exoplanets in three forms: seawater, water-clouds and snow; based on 53,130 spectra of cold, Earth-like planets with 6 major surfaces. XGBoost, a well-known machine learning algorithm, achieves over 90\% balanced accuracy in detecting the existence of snow or clouds for S/N$\gtrsim 20$, and 70\% for liquid seawater for S/N $\gtrsim 30$. Finally, we perform mock Bayesian analysis with Markov-chain Monte Carlo with five filters identified to derive exact surface compositions to test for retrieval feasibility. The results show that the use of machine learning to identify water on the surface of exoplanets from broadband-filter photometry provides a promising initial characterisation tool of water in different forms. Planned small and large telescope missions could use this to aid their prioritisation of targets for time-intense follow-up observations.
翻訳日:2022-03-09 16:07:53 公開日:2022-03-08
# 二次リチウムイオン電池 : 化学非依存でスケーラブルな健康推定アルゴリズム

Second-life Lithium-ion batteries: A chemistry-agnostic and scalable health estimation algorithm ( http://arxiv.org/abs/2203.04249v1 )

ライセンス: Link先を確認
Aki Takahashi, Anirudh Allam, Simona Onori(参考訳) 健康状態のバッテリ状態は、テストおよび運用中のバッテリ劣化の診断に不可欠な指標である。 設計段階では多くのユニークな測定が可能であるが、実用的な用途では温度、電圧、電流センサーのみが利用できる。 本稿では,従来のガウス過程よりもはるかに高速に正確な予測を行う機械学習技術の組み合わせを提案する。 データ駆動型アプローチでは、単純な数学、機能フィルタリング、バッグングによる機能生成を使用し、200以上のセルで利用可能な老化データセットで検証され、遅くて高速な充電、さまざまなカソード化学、さまざまな操作条件で利用できる。 複数のトレーニング-テスト分割に基づいて, 平均的および中央値の健康予測根平均二乗誤差(RMSE)はそれぞれ1.48%未満, 1.27%未満であり, 入力データと時間に制限がある場合でも, アプローチの能力を示す。 本研究で開発されたプロセスは, 二次的再利用の迅速な分類を可能にするために, 残余の健康状態に基づいて, 老朽化した電池を評価するという現在のオープンな課題に直接適用可能である。

Battery state of health is an essential metric for diagnosing battery degradation during testing and operation. While many unique measurements are possible in the design phase, for practical applications often only temperature, voltage and current sensing are accessible. This paper presents a novel combination of machine learning techniques to produce accurate predictions significantly faster than standard Gaussian processes. The data-driven approach uses feature generation with simple mathematics, feature filtering, and bagging, which is validated with publicly available aging datasets of more than 200 cells with slow and fast charging, across different cathode chemistries, and for various operating conditions. Based on multiple training-test partitions, average and median state of health prediction root mean square error (RMSE) is found to be less than 1.48% and 1.27%, respectively, with a limited amount of input data, showing the capability of the approach even when input data and time are limiting factors. The process developed in this paper has direct applicability to today's incumbent open challenge of assessing retired batteries on the basis of their residual health, and therefore nominal remaining useful life, to allow fast classification for second-life reutilization.
翻訳日:2022-03-09 16:07:27 公開日:2022-03-08
# (参考訳) マニフォールド物体の2次元ワイヤフレーム投影におけるニューラルフェイス同定 [全文訳有]

Neural Face Identification in a 2D Wireframe Projection of a Manifold Object ( http://arxiv.org/abs/2203.04229v1 )

ライセンス: CC BY 4.0
Kehan Wang and Jia Zheng and Zihan Zhou(参考訳) コンピュータ支援設計(cad)システムでは、2d線描画は3dオブジェクト設計の表現によく用いられる。 一つの2d線描画で表される3dモデルを再構築するには、3dオブジェクトの実際の顔に対応する線描画のエッジループを見つけることが重要な鍵となる。 本稿では,新しいデータ駆動視点から顔識別の古典的な問題にアプローチする。 任意のエッジから始めて、人気トランスフォーマーモデルの変種を採用して、同じ顔に関連するエッジを自然な順序で予測します。 これにより、様々な手作りのルールやヒューリスティックで可能なすべてのエッジループの空間を探索することを避け、曲面やネストしたエッジループのような困難なケースに対応し、フェイスタイプのような追加のヒントを活用できます。 さらに,不完全な予測が3次元オブジェクト再構成にどのように役立つかについても論じる。

In computer-aided design (CAD) systems, 2D line drawings are commonly used to illustrate 3D object designs. To reconstruct the 3D models depicted by a single 2D line drawing, an important key is finding the edge loops in the line drawing which correspond to the actual faces of the 3D object. In this paper, we approach the classical problem of face identification from a novel data-driven point of view. We cast it as a sequence generation problem: starting from an arbitrary edge, we adopt a variant of the popular Transformer model to predict the edges associated with the same face in a natural order. This allows us to avoid searching the space of all possible edge loops with various hand-crafted rules and heuristics as most existing methods do, deal with challenging cases such as curved surfaces and nested edge loops, and leverage additional cues such as face types. We further discuss how possibly imperfect predictions can be used for 3D object reconstruction.
翻訳日:2022-03-09 16:04:38 公開日:2022-03-08
# 条件付き注意によるテーブル構造認識

Table Structure Recognition with Conditional Attention ( http://arxiv.org/abs/2203.03819v1 )

ライセンス: Link先を確認
Bin Xiao, Murat Simsek, Burak Kantarci and Ala Abu Alkheir(参考訳) デジタル文書の表データは、読者にとってコンパクトで重要な情報を表現するために広く使われている。 しかし、テーブル構造が複雑でメタ情報の欠如のため、pdfや画像などの構造化されていないデジタル文書からテーブルを機械可読形式に解析することは困難である。 表構造認識(TSR)問題は、テーブルの構造を認識し、非構造化テーブルを構造化および機械可読形式に変換して、セマンティックモデリングや情報検索などの下流タスクによってさらに解析できるようにすることである。 本研究では, 複雑なテーブル構造を, 頂点と辺がそれぞれ細胞を表し, 細胞間の関連を表わすグラフで表すことができると仮定する。 そこで我々は,表構造認識問題をセル関連分類問題として定義し,条件付き注意ネットワーク(CATT-Net)を提案する。 実験により,提案手法が各種データセットの最先端手法よりも優れていることを示す。 さらに,セル境界ボックスのアライメントやテキスト中心のアプローチがモデル性能に与える影響についても検討する。 これらの2つのアプローチに基づいた公開データセットアノテーションが欠如しているため、この分野でメソッドを評価するための新しいベンチマークデータセットである、両方のバウンディングボックスを提供するICDAR2013データセットをさらに注釈付けする。 実験の結果,セル境界ボックスのアライメントは,マイクロ平均F1スコアが0.915から0.963に,マクロ平均F1スコアが0.787から0.923に向上することがわかった。

Tabular data in digital documents is widely used to express compact and important information for readers. However, it is challenging to parse tables from unstructured digital documents, such as PDFs and images, into machine-readable format because of the complexity of table structures and the missing of meta-information. Table Structure Recognition (TSR) problem aims to recognize the structure of a table and transform the unstructured tables into a structured and machine-readable format so that the tabular data can be further analysed by the down-stream tasks, such as semantic modeling and information retrieval. In this study, we hypothesize that a complicated table structure can be represented by a graph whose vertices and edges represent the cells and association between cells, respectively. Then we define the table structure recognition problem as a cell association classification problem and propose a conditional attention network (CATT-Net). The experimental results demonstrate the superiority of our proposed method over the state-of-the-art methods on various datasets. Besides, we investigate whether the alignment of a cell bounding box or a text-focused approach has more impact on the model performance. Due to the lack of public dataset annotations based on these two approaches, we further annotate the ICDAR2013 dataset providing both types of bounding boxes, which can be a new benchmark dataset for evaluating the methods in this field. Experimental results show that the alignment of a cell bounding box can help improve the Micro-averaged F1 score from 0.915 to 0.963, and the Macro-average F1 score from 0.787 to 0.923.
翻訳日:2022-03-09 15:48:32 公開日:2022-03-08
# ClearPose: 大規模透明オブジェクトデータセットとベンチマーク

ClearPose: Large-scale Transparent Object Dataset and Benchmark ( http://arxiv.org/abs/2203.03890v1 )

ライセンス: Link先を確認
Xiaotong Chen, Huijie Zhang, Zeren Yu, Anthony Opipari, Odest Chadwicke Jenkins(参考訳) 透明な物体は家庭の環境においてユビキタスであり、視覚知覚と知覚システムに対して異なる課題を提起する。 透明物体の光学特性は、従来の3Dセンサだけでは物体の深度とポーズ推定に信頼性がない。 これらの課題は、現実世界の設定における透明なオブジェクトに焦点を当てた大規模なRGB-Depthデータセットの不足によって強調される。 本研究では,大規模な実世界のRGB-Depth透明オブジェクトデータセットであるClearPoseを,セグメンテーション,シーンレベルの深度補完,オブジェクト中心のポーズ推定タスクのベンチマークデータセットとして提供する。 ClearPoseデータセットには、実世界のRGB-Depthフレームに350万以上のラベルが付けられ、63の家庭用オブジェクトをカバーする4Mインスタンスアノテーションが含まれている。 このデータセットは、様々な照明や閉塞条件下で日常的に使用されるオブジェクトカテゴリと、不透明または半透明な物体による閉塞、非平面配向、液体の存在などの挑戦的なテストシナリオを含む。 われわれはClearPose上でいくつかの最先端の深度補完とオブジェクトポーズ推定のディープニューラルネットワークをベンチマークした。

Transparent objects are ubiquitous in household settings and pose distinct challenges for visual sensing and perception systems. The optical properties of transparent objects leave conventional 3D sensors alone unreliable for object depth and pose estimation. These challenges are highlighted by the shortage of large-scale RGB-Depth datasets focusing on transparent objects in real-world settings. In this work, we contribute a large-scale real-world RGB-Depth transparent object dataset named ClearPose to serve as a benchmark dataset for segmentation, scene-level depth completion and object-centric pose estimation tasks. The ClearPose dataset contains over 350K labeled real-world RGB-Depth frames and 4M instance annotations covering 63 household objects. The dataset includes object categories commonly used in daily life under various lighting and occluding conditions as well as challenging test scenarios such as cases of occlusion by opaque or translucent objects, non-planar orientations, presence of liquids, etc. We benchmark several state-of-the-art depth completion and object pose estimation deep neural networks on ClearPose.
翻訳日:2022-03-09 15:48:07 公開日:2022-03-08
# 注意に基づく口唇音声・視覚合成による野生の話し顔生成

Attention-Based Lip Audio-Visual Synthesis for Talking Face Generation in the Wild ( http://arxiv.org/abs/2203.03984v1 )

ライセンス: Link先を確認
Ganglai Wang, Peng Zhang, Lei Xie, Wei Huang and Yufei Zha(参考訳) 近年の音声視覚研究において,顔生成の実践的意義が注目されている。 正確な口唇同期を実現するには,さらに検討すべき課題である。 本稿では,リップ同期戦略に空間注意モジュールとチャネル注意モジュールを組み込んだattnwav2lipモデルを提案する。 顔画像の重要でない領域に注目するのではなく、提案されたAttnWav2Lipモデルは唇領域再構成により多くの注意を払うことができる。 限られた知識に対して、これは話し顔生成の仕組みに注意機構を導入する最初の試みである。 提案モデルの有効性を評価するために, 広範囲な実験を行った。 LSE-DとLSE-Cの基準値と比較すると、LRW, LRS2, LRS3を含むベンチマークリップ合成データセットにおいて優れた性能を示した。

Talking face generation with great practical significance has attracted more attention in recent audio-visual studies. How to achieve accurate lip synchronization is a long-standing challenge to be further investigated. Motivated by xxx, in this paper, an AttnWav2Lip model is proposed by incorporating spatial attention module and channel attention module into lip-syncing strategy. Rather than focusing on the unimportant regions of the face image, the proposed AttnWav2Lip model is able to pay more attention on the lip region reconstruction. To our limited knowledge, this is the first attempt to introduce attention mechanism to the scheme of talking face generation. An extensive experiments have been conducted to evaluate the effectiveness of the proposed model. Compared to the baseline measured by LSE-D and LSE-C metrics, a superior performance has been demonstrated on the benchmark lip synthesis datasets, including LRW, LRS2 and LRS3.
翻訳日:2022-03-09 15:47:48 公開日:2022-03-08
# グリオーマ評価のための相互コントラスト学習による全スライド画像表現の分離

Mutual Contrastive Learning to Disentangle Whole Slide Image Representations for Glioma Grading ( http://arxiv.org/abs/2203.04013v1 )

ライセンス: Link先を確認
Lipei Zhang, Yiran Wei, Ying Fu, Stephen Price, Carola-Bibiane Sch\"onlieb and Chao Li(参考訳) whole slide images (wsi)は腫瘍の組織学的評価と悪性度評価に有用な表現型情報を提供する。 WSIベースの計算病理学は、迅速な診断支援とデジタルヘルスの促進を約束している。 最も一般的に使われるwsiは、formalin-fixed paraffin-embedded (ffpe) と frozen section に由来する。 現在, 腫瘍自動評価モデルの大部分はffpe切片に基づいて開発されており, 組織処理によるアーチファクトの影響を受ける可能性がある。 本稿では,ffpeと凍結セクションを統合した相互コントラスト学習手法と,グリオーマ評価のための異角形クロスモダリティ表現を提案する。 まず、FFPEと凍結区間に基づくモデルトレーニングを協調的に最適化する相互学習方式を設計する。 さらに,バックボーンモデルトレーニングにおいて意味的一貫性を保証するマルチモダリティドメインアライメント機構を開発した。 最終的に球状化温度スケールのクロスエントロピー損失 (NT-Xent) を設計し, FFPE と凍結断面積の相互共役表現を促進できることを示した。 実験の結果,提案手法は,各単一モードや混合モードに基づいて学習したモデルよりも優れた性能が得られることがわかった。 球NT-Xent損失は他の典型的なメトリクス損失関数よりも優れる。

Whole slide images (WSI) provide valuable phenotypic information for histological assessment and malignancy grading of tumors. The WSI-based computational pathology promises to provide rapid diagnostic support and facilitate digital health. The most commonly used WSI are derived from formalin-fixed paraffin-embedded (FFPE) and frozen sections. Currently, the majority of automatic tumor grading models are developed based on FFPE sections, which could be affected by the artifacts introduced by tissue processing. Here we propose a mutual contrastive learning scheme to integrate FFPE and frozen sections and disentangle cross-modality representations for glioma grading. We first design a mutual learning scheme to jointly optimize the model training based on FFPE and frozen sections. Further, we develop a multi-modality domain alignment mechanism to ensure semantic consistency in the backbone model training. We finally design a sphere normalized temperature-scaled cross-entropy loss (NT-Xent), which could promote cross-modality representation disentangling of FFPE and frozen sections. Our experiments show that the proposed scheme achieves better performance than the model trained based on each single modality or mixed modalities. The sphere NT-Xent loss outperforms other typical metrics loss functions.
翻訳日:2022-03-09 15:46:37 公開日:2022-03-08
# カメラセンサとしてのライダー画像を用いた汎用ディープラーニング検出とセグメンテーションモデルの解析

Analyzing General-Purpose Deep-Learning Detection and Segmentation Models with Images from a Lidar as a Camera Sensor ( http://arxiv.org/abs/2203.04064v1 )

ライセンス: Link先を確認
Yu Xianjia, Sahar Salimpour, Jorge Pe\~na Queralta, Tomi Westerlund(参考訳) 過去10年間で、ロボット認識アルゴリズムは、ディープラーニング(DL)の急速な進歩から大きな恩恵を受けている。 実際、さまざまな商用および研究プラットフォームの自律的なスタックのかなりの量は、状況認識、特に視覚センサーのためのDLに依存している。 本研究は,高度なライダーセンサのイメージライクな出力を処理するための汎用DL認識アルゴリズム,特に検出とセグメンテーションニューラルネットワークの可能性を探る。 3次元の点雲データを処理するのではなく、画像画素内の奥行き、反射率、近赤外光を符号化することにより、ライダーセンサーで得られる360度視野の低解像度画像に焦点を合わせた最初の研究である。 適切な事前処理を行うことで、汎用的なDLモデルはこれらの画像を処理でき、視覚センサが固有の限界を示す環境条件下での使用への扉を開くことができる。 我々は、様々なニューラルネットワークアーキテクチャの性能を定性的かつ定量的に分析する。 視覚カメラ用に構築されたDLモデルを使用することは、ポイントクラウドベースの認識よりもはるかに可用性と成熟度が高いため、大きなメリットがあると考えています。

Over the last decade, robotic perception algorithms have significantly benefited from the rapid advances in deep learning (DL). Indeed, a significant amount of the autonomy stack of different commercial and research platforms relies on DL for situational awareness, especially vision sensors. This work explores the potential of general-purpose DL perception algorithms, specifically detection and segmentation neural networks, for processing image-like outputs of advanced lidar sensors. Rather than processing the three-dimensional point cloud data, this is, to the best of our knowledge, the first work to focus on low-resolution images with 360\textdegree field of view obtained with lidar sensors by encoding either depth, reflectivity, or near-infrared light in the image pixels. We show that with adequate preprocessing, general-purpose DL models can process these images, opening the door to their usage in environmental conditions where vision sensors present inherent limitations. We provide both a qualitative and quantitative analysis of the performance of a variety of neural network architectures. We believe that using DL models built for visual cameras offers significant advantages due to the much wider availability and maturity compared to point cloud-based perception.
翻訳日:2022-03-09 15:46:17 公開日:2022-03-08
# 誘導復号による軽量単眼深度推定

Lightweight Monocular Depth Estimation through Guided Decoding ( http://arxiv.org/abs/2203.04206v1 )

ライセンス: Link先を確認
Michael Rudolph, Youssef Dawoud, Ronja G\"uldenring, Lazaros Nalpantidis, Vasileios Belagiannis(参考訳) 本稿では,組込みプラットフォーム用に特別に設計された単眼深度推定のための軽量エンコーダデコーダアーチテクチュアを提案する。 私たちの主な貢献は、モデルのデコーダを構築するためのガイド付きアップサンプリングブロック(gub)です。 gubは誘導型イメージフィルタリングの概念に動機づけられ、デコーダに特徴表現と深度マップの再構成のアップサンプリングを誘導し、詳細な詳細で高解像度な結果を得る。 複数のGUBに基づいて、我々のモデルは、精度の観点からNYU Depth V2データセットの関連メソッドよりも優れており、NVIDIA Jetson Nanoでは最大35.1fps、NVIDIA Xavier NXでは最大144.5fpsである。 同様に、KITTIデータセットでは、Jetson Nanoで最大23.7 fps、Xavier NXで最大102.9 fpsの推論が可能である。 私たちのコードとモデルは公開されています。

We present a lightweight encoder-decoder archi- tecture for monocular depth estimation, specifically designed for embedded platforms. Our main contribution is the Guided Upsampling Block (GUB) for building the decoder of our model. Motivated by the concept of guided image filtering, GUB relies on the image to guide the decoder on upsampling the feature representation and the depth map reconstruction, achieving high resolution results with fine-grained details. Based on multiple GUBs, our model outperforms the related methods on the NYU Depth V2 dataset in terms of accuracy while delivering up to 35.1 fps on the NVIDIA Jetson Nano and up to 144.5 fps on the NVIDIA Xavier NX. Similarly, on the KITTI dataset, inference is possible with up to 23.7 fps on the Jetson Nano and 102.9 fps on the Xavier NX. Our code and models are made publicly available.
翻訳日:2022-03-09 15:45:57 公開日:2022-03-08
# AIへの信頼とAEC研究への示唆:文学的分析

Trust in AI and Implications for the AEC Research: A Literature Analysis ( http://arxiv.org/abs/2203.03847v1 )

ライセンス: Link先を確認
Newsha Emaminejad, Alexa Maria North, and Reza Akhavian(参考訳) 技術的に受け入れられ、心理的に受け入れられるシステムに対する信頼の保証には、アプリケーション分野のユニークな特徴を捉えるために、ドメイン固有の研究が必要である。 アーキテクチャ、エンジニアリング、建設(AEC)研究コミュニティは最近、プロジェクトワークフローを改善するために人工知能(AI)によって提供される高度なソリューションを活用している。 AEC産業における仕事、労働者、職場の独特な特徴にもかかわらず、AIに対する信頼の概念は文学においてほとんど注目を集めていない。 本稿では,AECにおけるAIとAIの2つの主要な信頼領域における学術文献の包括的分析を行い,AECプロジェクトのユニークな側面と,AIの信頼につながる社会技術的概念との相互作用について考察する。 本研究は490件の査読付き学術論文を分析した。 AIに対する人間の信頼の主な構成要素は文献から特定され、AECプロジェクトタイプ、プロセス、技術の中で特徴付けられる。

Engendering trust in technically acceptable and psychologically embraceable systems requires domain-specific research to capture unique characteristics of the field of application. The architecture, engineering, and construction (AEC) research community has been recently harnessing advanced solutions offered by artificial intelligence (AI) to improve project workflows. Despite the unique characteristics of work, workers, and workplaces in the AEC industry, the concept of trust in AI has received very little attention in the literature. This paper presents a comprehensive analysis of the academic literature in two main areas of trust in AI and AI in the AEC, to explore the interplay between AEC projects unique aspects and the sociotechnical concepts that lead to trust in AI. A total of 490 peer-reviewed scholarly articles are analyzed in this study. The main constituents of human trust in AI are identified from the literature and are characterized within the AEC project types, processes, and technologies.
翻訳日:2022-03-09 15:45:34 公開日:2022-03-08
# 時間論理に基づく報酬形成による強化学習による分散制御

Distributed Control using Reinforcement Learning with Temporal-Logic-Based Reward Shaping ( http://arxiv.org/abs/2203.04172v1 )

ライセンス: Link先を確認
Ningyuan Zhang, Wenliang Liu, Calin Belta(参考訳) 本研究では,異種ロボットの分散制御戦略を部分的に観測可能な環境下で合成するための計算フレームワークを提案する。 目的は、Truncated Linear Temporal Logic (TLTL) として与えられる仕様を協調的に満たすことである。 本手法は,合成問題を確率ゲームとして定式化し,各エージェントにメモリを持つ制御戦略を見つけるためのポリシーグラフ手法を用いる。 チーム遷移システムと有限状態オートマトン(FSA)の積上での確率ゲームを構築し,TLTL式の満足度を追跡する。 我々はTLTLの量的意味論をゲームの報酬として使用し、さらにFSAを用いて学習プロセスのガイドと高速化を行う。 シミュレーションの結果,課題仕様要求時の提案手法の有効性と,学習速度を著しく向上させる報酬形成の有効性が示された。

We present a computational framework for synthesis of distributed control strategies for a heterogeneous team of robots in a partially observable environment. The goal is to cooperatively satisfy specifications given as Truncated Linear Temporal Logic (TLTL) formulas. Our approach formulates the synthesis problem as a stochastic game and employs a policy graph method to find a control strategy with memory for each agent. We construct the stochastic game on the product between the team transition system and a finite state automaton (FSA) that tracks the satisfaction of the TLTL formula. We use the quantitative semantics of TLTL as the reward of the game, and further reshape it using the FSA to guide and accelerate the learning process. Simulation results demonstrate the efficacy of the proposed solution under demanding task specifications and the effectiveness of reward shaping in significantly accelerating the speed of learning.
翻訳日:2022-03-09 15:45:18 公開日:2022-03-08
# Covid-19データの内在的次元性について:大域的視点

On the intrinsic dimensionality of Covid-19 data: a global perspective ( http://arxiv.org/abs/2203.04165v1 )

ライセンス: Link先を確認
Abhishek Varghese, Edgar Santos-Fernandez, Francesco Denti, Antonietta Mira, Kerrie Mengersen(参考訳) 本稿では,全国のロックダウン政策の厳格性を示す指標である,Covid-19の患者数,死亡数,OxCGRT Covid-19 Stringency Indexとの関連性に関する国際的視点を構築することを目的とする。 目的を達成するために,ヒダルゴと呼ばれるベイズ混合モデルとして実装された異種固有次元推定器を用いる。 我々は、Covid-19データセットが2つの低次元多様体に射影し、重要な情報損失を伴わないことを示す。 この低次元性は、2020-2021年までに国民一人当たりのケースと死亡率の標準化された増加率とOxCGRT Covid-19 Stringency Indexに強い依存があることを示唆している。 低次元構造を考えると、わずかなパラメータで観測可能なコビッド-19力学をモデル化することは可能かもしれない。 重要視されるのは, 世界中の内在次元分布における空間自己相関である。 さらに、高所得国は、高齢化や、コビッド19による一人当たりの死亡率の増大などにより、低次元の多様体に横たわる傾向が強いことを強調した。 最後に,データセットを時間的に階層化し,新型コロナウイルスのパンデミック全体を通じて,本質的な次元をより細かいレベルで検討する。

This paper aims to develop a global perspective of the complexity of the relationship between the standardised per-capita growth rate of Covid-19 cases, deaths, and the OxCGRT Covid-19 Stringency Index, a measure describing a country's stringency of lockdown policies. To achieve our goal, we use a heterogeneous intrinsic dimension estimator implemented as a Bayesian mixture model, called Hidalgo. We identify that the Covid-19 dataset may project onto two low-dimensional manifolds without significant information loss. The low dimensionality suggests strong dependency among the standardised growth rates of cases and deaths per capita and the OxCGRT Covid-19 Stringency Index for a country over 2020-2021. Given the low dimensional structure, it may be feasible to model observable Covid-19 dynamics with few parameters. Importantly, we identify spatial autocorrelation in the intrinsic dimension distribution worldwide. Moreover, we highlight that high-income countries are more likely to lie on low-dimensional manifolds, likely arising from aging populations, comorbidities, and increased per capita mortality burden from Covid-19. Finally, we temporally stratify the dataset to examine the intrinsic dimension at a more granular level throughout the Covid-19 pandemic.
翻訳日:2022-03-09 15:43:21 公開日:2022-03-08
# トポロジカルデータ解析を用いた新しいオンライン変化点検出手法PERCEPT

PERCEPT: a new online change-point detection method using topological data analysis ( http://arxiv.org/abs/2203.04246v1 )

ライセンス: Link先を確認
Xiaojun Zheng, Simon Mak, Liyan Xie, Yao Xie(参考訳) トポロジカルデータ解析(TDA)は、複雑な高次元データセットから埋め込みトポロジカル構造を抽出する一連のデータ解析ツールを提供する。 近年,tdaは信号処理,神経科学,ネットワーク分析など幅広い応用分野において,急速に成長している分野である。 これらのアプリケーションでは、変化のオンライン検出が重要であるが、高次元データストリーム内に低次元の埋め込みでこのような変化がしばしば発生するため、これは非常に困難である。 そこで我々は,TDA から学習したトポロジ構造を利用して変化を逐次検出する PERCEPT (Persistence diagram-based ChangE-PoinT Detection) という新しい手法を提案する。 PERCEPTは2つの重要なステップに従っている。まず、永続化ダイアグラムを通じてポイントクラウドとして組み込みトポロジを学習し、その後、結果のポイントクラウド分布の変化を検出するために非パラメトリックモニタリングアプローチを適用した。 これにより、高次元データストリームからのオンライン変更を効率的に検出できる非パラメトリックトポロジ対応フレームワークが得られる。 本研究では,データストリームが埋め込みトポロジ構造を持つ数値実験において,既存の手法に対するPERCEPTの有効性を検討する。 次に,太陽フレアモニタリングと人間のジェスチャー検出におけるPERCEPTの有用性を示す。

Topological data analysis (TDA) provides a set of data analysis tools for extracting embedded topological structures from complex high-dimensional datasets. In recent years, TDA has been a rapidly growing field which has found success in a wide range of applications, including signal processing, neuroscience and network analysis. In these applications, the online detection of changes is of crucial importance, but this can be highly challenging since such changes often occur in a low-dimensional embedding within high-dimensional data streams. We thus propose a new method, called PERsistence diagram-based ChangE-PoinT detection (PERCEPT), which leverages the learned topological structure from TDA to sequentially detect changes. PERCEPT follows two key steps: it first learns the embedded topology as a point cloud via persistence diagrams, then applies a non-parametric monitoring approach for detecting changes in the resulting point cloud distributions. This yields a non-parametric, topology-aware framework which can efficiently detect online changes from high-dimensional data streams. We investigate the effectiveness of PERCEPT over existing methods in a suite of numerical experiments where the data streams have an embedded topological structure. We then demonstrate the usefulness of PERCEPT in two applications in solar flare monitoring and human gesture detection.
翻訳日:2022-03-09 15:42:56 公開日:2022-03-08
# スパースガウス過程回帰における最悪の誤差最小化のインフォーマティブプランニング

Informative Planning for Worst-Case Error Minimisation in Sparse Gaussian Process Regression ( http://arxiv.org/abs/2203.03828v1 )

ライセンス: Link先を確認
Jennifer Wakulicz, Ki Myung Brian Lee, Chanyeol Yoo, Teresa Vidal-Calleja, Robert Fitch(参考訳) スパースガウス過程(GP)回帰における決定論的最悪のエラーを最小限に抑えるための計画枠組みを提案する。 まず,再生成核ヒルベルト空間(rkhss)の補間理論を用いて,有界雑音を持つsparse gp回帰に対する普遍的最悪ケース境界を求める。 sparse gp回帰中心の条件付き独立性 (ci) 仮定を活用し, 後方エントロピー最小化問題を解くことで, 最悪の場合の誤差最小化を実現できることを示す。 次に、ガウス的信念空間計画アルゴリズムを用いて、後エントロピー最小化問題を解く。 提案する最悪のエラーを単純な1次元例で相関し、複雑な流れ場における2次元車両のシミュレーションにおいて計画枠組みをテストする。 その結果,提案手法は決定論的誤差を最小化し,誘導点が固定された場合の従来の計測エントロピー最大化定式化よりも優れることがわかった。

We present a planning framework for minimising the deterministic worst-case error in sparse Gaussian process (GP) regression. We first derive a universal worst-case error bound for sparse GP regression with bounded noise using interpolation theory on reproducing kernel Hilbert spaces (RKHSs). By exploiting the conditional independence (CI) assumption central to sparse GP regression, we show that the worst-case error minimisation can be achieved by solving a posterior entropy minimisation problem. In turn, the posterior entropy minimisation problem is solved using a Gaussian belief space planning algorithm. We corroborate the proposed worst-case error bound in a simple 1D example, and test the planning framework in simulation for a 2D vehicle in a complex flow field. Our results demonstrate that the proposed posterior entropy minimisation approach is effective in minimising deterministic error, and outperforms the conventional measurement entropy maximisation formulation when the inducing points are fixed.
翻訳日:2022-03-09 15:41:51 公開日:2022-03-08
# 自律運転における移動予測のための占有フロー場

Occupancy Flow Fields for Motion Forecasting in Autonomous Driving ( http://arxiv.org/abs/2203.03875v1 )

ライセンス: Link先を確認
Reza Mahjourian, Jinkyu Kim, Yuning Chai, Mingxing Tan, Ben Sapp, Dragomir Anguelov(参考訳) 本研究では,複数のエージェントの動作予測のための新しい表現である占有フロー場を提案する。 我々の表現は、各格子セルが任意のエージェントによって占有されるセルの確率と、そのセルの運動の方向と大きさを表す2次元フローベクトルの両方を含む時空間格子である。 本手法は,運動予測において最もよく用いられる2つの表現である軌道集合と占有格子の欠点を緩和する。 占有グリッドは、多数のエージェントの確率的位置を効率良く表現するが、エージェントの動きを捉えず、エージェントのアイデンティティを失う。 そこで本研究では,新たなフロートレース損失を生かし,占有率とフロー予測の整合性を確立することによって,Occupancy Flow Fieldsを生成するディープラーニングアーキテクチャを提案する。 提案手法は, 占有率予測, 運動推定, エージェントid復元の3つの指標を用いて有効性を示す。 また,現在排除されている投機エージェントである投機エージェントが,隠蔽や視野に入ることによって将来現れる可能性があるという問題も紹介する。 我々は,大規模自動運転データセットと公開インタラクションデータセットを用いた実験結果を報告し,そのモデルが最先端モデルよりも優れていることを示す。

We propose Occupancy Flow Fields, a new representation for motion forecasting of multiple agents, an important task in autonomous driving. Our representation is a spatio-temporal grid with each grid cell containing both the probability of the cell being occupied by any agent, and a two-dimensional flow vector representing the direction and magnitude of the motion in that cell. Our method successfully mitigates shortcomings of the two most commonly-used representations for motion forecasting: trajectory sets and occupancy grids. Although occupancy grids efficiently represent the probabilistic location of many agents jointly, they do not capture agent motion and lose the agent identities. To this end, we propose a deep learning architecture that generates Occupancy Flow Fields with the help of a new flow trace loss that establishes consistency between the occupancy and flow predictions. We demonstrate the effectiveness of our approach using three metrics on occupancy prediction, motion estimation, and agent ID recovery. In addition, we introduce the problem of predicting speculative agents, which are currently-occluded agents that may appear in the future through dis-occlusion or by entering the field of view. We report experimental results on a large in-house autonomous driving dataset and the public INTERACTION dataset, and show that our model outperforms state-of-the-art models.
翻訳日:2022-03-09 15:41:34 公開日:2022-03-08
# オンライン手書きの老化に関する予備的研究

A Preliminary Study on Aging Examining Online Handwriting ( http://arxiv.org/abs/2203.03933v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Enric Sesa-Nogueras, Josep Roure-Alcob\'e, Anna Esposito, Jiri Mekyska and Karmele L\'opez-de-Ipi\~na(参考訳) 人間の脳の能力があらゆる認知システムの能力と相互作用するように情報通信装置を開発するためには、老化に関する深い知識が必要である。 特に、高齢者を排除したくない社会が、この集団の生活の質を高め、改善できる自動システムを開発したい場合、健康な個人は、認知の低下やその他の病状を持つ人々と同様である。 本稿では,手書き作業のバリエーションを,老化に関するより深い知識を得るために確立しようとする。 本稿では,オンライン手書きから抽出したパラメータと著者年齢との相関結果について述べる。 バイオセキュリドデータベース(biosecurid database)は、オンライン手書きを含む複数の生体認証特性を提供する400人からなるデータベースである。 主なアイデアは、より安定で年齢に依存したパラメータを特定することである。 疾患診断の課題の1つは、健康と病的老化の区別である。 この目的のためには、一般的に老化の影響を受けない手書きのパラメータや、変化を実験したり、値を増やしたり減らせたりする人たちに注意する必要がある。 本研究は18歳から70歳までの健康な集団が提供したオンライン手書きパラメータの集合を分析した結果に寄与する。 予備的な結果は、これらのパラメータが加齢に影響されないことを示し、その値の変化は運動障害や認知障害にのみ起因していることを示している。

In order to develop infocommunications devices so that the capabilities of the human brain may interact with the capabilities of any artificially cognitive system a deeper knowledge of aging is necessary. Especially if society does not want to exclude elder people and wants to develop automatic systems able to help and improve the quality of life of this group of population, healthy individuals as well as those with cognitive decline or other pathologies. This paper tries to establish the variations in handwriting tasks with the goal to obtain a better knowledge about aging. We present the correlation results between several parameters extracted from online handwriting and the age of the writers. It is based on BIOSECURID database, which consists of 400 people that provided several biometric traits, including online handwriting. The main idea is to identify those parameters that are more stable and those more age dependent. One challenging topic for disease diagnose is the differentiation between healthy and pathological aging. For this purpose, it is necessary to be aware of handwriting parameters that are, in general, not affected by aging and those who experiment changes, increase or decrease their values, because of it. This paper contributes to this research line analyzing a selected set of online handwriting parameters provided by a healthy group of population aged from 18 to 70 years. Preliminary results show that these parameters are not affected by aging and therefore, changes in their values can only be attributed to motor or cognitive disorders.
翻訳日:2022-03-09 15:41:15 公開日:2022-03-08
# (参考訳) 適応摂動パターン:ロバストNIDSの現実的逆学習 [全文訳有]

Adaptative Perturbation Patterns: Realistic Adversarial Learning for Robust NIDS ( http://arxiv.org/abs/2203.04234v1 )

ライセンス: CC BY 4.0
Jo\~ao Vitorino, Nuno Oliveira, Isabel Pra\c{c}a(参考訳) 敵対的攻撃は、機械学習とそれに依存するシステムにとって大きな脅威となる。 それでも、サイバーセキュリティのような表データを持つドメインに対して、敵の例を自由に生成することはできない。 この研究は現実主義を実現するために必要な基本的な制約レベルを確立し、グレーボックス設定でこれらの制約を満たすための適応摂動パターン法(A2PM)を導入する。 A2PMは、各クラスの特性に独立して適応し、有効で一貫性のあるデータ摂動を生成するパターン配列に依存している。 開発した手法は,企業とIoT(Internet of Things)ネットワークという2つのシナリオを用いたサイバーセキュリティケーススタディで評価された。 マルチレイヤパーセプトロン(MLP)とランダムフォレスト(RF)の分類器は、CIC-IDS2017とIoT-23データセットを使用して、正規および逆のトレーニングによって作成された。 各シナリオにおいて、ターゲットと未ターゲットの攻撃を分類器に対して行い、生成した例を元のネットワークトラフィックフローと比較して現実性を評価した。 その結果,A2PMは現実的な実例を時間効率よく生成し,敵の訓練と攻撃の双方に有利であることがわかった。

Adversarial attacks pose a major threat to machine learning and to the systems that rely on it. Nonetheless, adversarial examples cannot be freely generated for domains with tabular data, such as cybersecurity. This work establishes the fundamental constraint levels required to achieve realism and introduces the Adaptative Perturbation Pattern Method (A2PM) to fulfill these constraints in a gray-box setting. A2PM relies on pattern sequences that are independently adapted to the characteristics of each class to create valid and coherent data perturbations. The developed method was evaluated in a cybersecurity case study with two scenarios: Enterprise and Internet of Things (IoT) networks. Multilayer Perceptron (MLP) and Random Forest (RF) classifiers were created with regular and adversarial training, using the CIC-IDS2017 and IoT-23 datasets. In each scenario, targeted and untargeted attacks were performed against the classifiers, and the generated examples were compared with the original network traffic flows to assess their realism. The obtained results demonstrate that A2PM provides a time efficient generation of realistic adversarial examples, which can be advantageous for both adversarial training and attacks.
翻訳日:2022-03-09 15:39:12 公開日:2022-03-08
# bevsegformer: 任意のカメラリグからの鳥の目視意味セグメンテーション

BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary Camera Rigs ( http://arxiv.org/abs/2203.04050v1 )

ライセンス: Link先を確認
Lang Peng, Zhirong Chen, Zhangjie Fu, Pengpeng Liang, Erkang Cheng(参考訳) 鳥眼ビュー(BEV)におけるセマンティックセグメンテーションは自律運転において重要な課題である。 このタスクは多くの研究努力を惹きつけているが、自動運転車に搭載された任意の(単一のまたは複数の)カメラセンサーに柔軟に対応することは依然として困難である。 本稿では、任意のカメラリグからBEVセマンティックセマンティックセグメンテーションを効果的に変換するBEVSegFormerを提案する。 具体的には、まず任意のカメラから画像の特徴を共有バックボーンで符号化する。 これらの画像機能は、変形可能なトランスフォーマベースのエンコーダによって拡張される。 さらに,BEVセマンティックセグメンテーション結果を解析するために,BEVトランスフォーマーデコーダモジュールを導入する。 BEV-to-imageビュー変換を行うために、効率的なマルチカメラ変形型アテンションユニットを設計する。 最後に、クエリは、BEV内のグリッドのレイアウトに従ってリフォームされ、セマンティックセグメンテーションを生成するためにアップサンプリングされる。 提案アルゴリズムは,公開nuScenesデータセットと自己コンパイルデータセットを用いて評価する。 実験結果から,任意のカメラリグからのBEVセマンティックセグメンテーションにおける有望な性能が得られた。 また,各成分のアブレーション試験による有効性を示す。

Semantic segmentation in bird's eye view (BEV) is an important task for autonomous driving. Though this task has attracted a large amount of research efforts, it is still challenging to flexibly cope with arbitrary (single or multiple) camera sensors equipped on the autonomous vehicle. In this paper, we present BEVSegFormer, an effective transformer-based method for BEV semantic segmentation from arbitrary camera rigs. Specifically, our method first encodes image features from arbitrary cameras with a shared backbone. These image features are then enhanced by a deformable transformer-based encoder. Moreover, we introduce a BEV transformer decoder module to parse BEV semantic segmentation results. An efficient multi-camera deformable attention unit is designed to carry out the BEV-to-image view transformation. Finally, the queries are reshaped according the layout of grids in the BEV, and upsampled to produce the semantic segmentation result in a supervised manner. We evaluate the proposed algorithm on the public nuScenes dataset and a self-collected dataset. Experimental results show that our method achieves promising performance on BEV semantic segmentation from arbitrary camera rigs. We also demonstrate the effectiveness of each component via ablation study.
翻訳日:2022-03-09 15:22:18 公開日:2022-03-08
# 適応補助学習による計数

Counting with Adaptive Auxiliary Learning ( http://arxiv.org/abs/2203.04061v1 )

ライセンス: Link先を確認
Yanda Meng, Joshua Bridge, Meng Wei, Yitian Zhao, Yihong Qiao, Xiaoyun Yang, Xiaowei Huang, Yalin Zheng(参考訳) 本稿では,オブジェクトカウント問題に対する適応型補助タスク学習手法を提案する。 既存のタスク学習手法とは異なり,タスク共有機能とタスクカスタマイズ機能の両方をエンドツーエンドで学習できる適応型バックボーンネットワークを開発した。 このネットワークは標準畳み込みニューラルネットワーク(cnn)とグラフ畳み込みネットワーク(gcn)をシームレスに組み合わせ、異なるタスク領域間の特徴抽出と特徴推論を行う。 適応型cnnバックボーンの異なるタスクブランチにまたがる機能を反復的かつ階層的に融合することにより,コンテキスト情報の向上を図る。 フレームワーク全体は、オブジェクトの空間的位置と様々な密度レベルに特別な注意を払っており、オブジェクト(または群衆)のセグメンテーションと密度レベルセグメンテーションの補助タスクによって通知される。 特に、拡張されたコントラスト密度損失関数により、ネットワークは、強化された堅牢性とともに、画素非依存および画素依存の特徴学習機構の点において、個々のコンテキストと地域コンテキストの監視から恩恵を受ける。 7つの挑戦的マルチドメインデータセットに対する実験により,本手法は最先端のタスク学習に基づくカウント法よりも優れた性能を発揮することが示された。 私たちのコードは、https://github.com/s mallmax00/Counting_W ith_Adaptive_Auxilia ryで公開されています。

This paper proposes an adaptive auxiliary task learning based approach for object counting problems. Unlike existing auxiliary task learning based methods, we develop an attention-enhanced adaptively shared backbone network to enable both task-shared and task-tailored features learning in an end-to-end manner. The network seamlessly combines standard Convolution Neural Network (CNN) and Graph Convolution Network (GCN) for feature extraction and feature reasoning among different domains of tasks. Our approach gains enriched contextual information by iteratively and hierarchically fusing the features across different task branches of the adaptive CNN backbone. The whole framework pays special attention to the objects' spatial locations and varied density levels, informed by object (or crowd) segmentation and density level segmentation auxiliary tasks. In particular, thanks to the proposed dilated contrastive density loss function, our network benefits from individual and regional context supervision in terms of pixel-independent and pixel-dependent feature learning mechanisms, along with strengthened robustness. Experiments on seven challenging multi-domain datasets demonstrate that our method achieves superior performance to the state-of-the-art auxiliary task learning based counting methods. Our code is made publicly available at: https://github.com/s mallmax00/Counting_W ith_Adaptive_Auxilia ry
翻訳日:2022-03-09 15:22:00 公開日:2022-03-08
# 人間の3次元姿勢推定フレームワークの閉塞処理能力の定量化

Quantification of Occlusion Handling Capability of a 3D Human Pose Estimation Framework ( http://arxiv.org/abs/2203.04113v1 )

ライセンス: Link先を確認
Mehwish Ghafoor, Arif Mahmood(参考訳) 単眼画像を用いた3次元人物ポーズ推定は重要な課題である。 既存の3次元ポーズ検出法は正常条件下では優れた性能を示すが, 咬合により性能が低下する可能性がある。 近年,隠蔽認識手法もいくつか提案されているが,これらのネットワークの隠蔽処理能力は十分には研究されていない。 本研究は,オクルージョン誘導型3次元ポーズ推定フレームワークを提案し,そのオクルージョンハンドリング能力を異なるプロトコルを用いて定量化する。 提案手法は,関節を欠いた2次元骨格を入力として,より正確な3次元ポーズを推定する。 欠損関節は、関節の不在または存在に関する追加情報を提供する咬合指導の導入によって処理される。 時間的情報も、行方不明の関節をより正確に推定するために活用されている。 提案手法のオクルージョンハンドリング能力の定量化のために, ランダムな関節欠失, 固定体部分欠失, 完全フレーム欠失を含む3つの公用データセットに対して, 関節位置誤差平均を用いて多数の実験を行った。 さらに,動作分類性能を基準として,予測された3Dポーズの品質を評価する。 提案手法により推定した3次元ポーズは, 欠損継手の存在下での動作認識性能を著しく向上させた。 提案手法の有効性を実験的に検証し,提案手法の有効性と深部ニューラルネットワークの閉塞処理能力の定量化について検討した。

3D human pose estimation using monocular images is an important yet challenging task. Existing 3D pose detection methods exhibit excellent performance under normal conditions however their performance may degrade due to occlusion. Recently some occlusion aware methods have also been proposed, however, the occlusion handling capability of these networks has not yet been thoroughly investigated. In the current work, we propose an occlusion-guided 3D human pose estimation framework and quantify its occlusion handling capability by using different protocols. The proposed method estimates more accurate 3D human poses using 2D skeletons with missing joints as input. Missing joints are handled by introducing occlusion guidance that provides extra information about the absence or presence of a joint. Temporal information has also been exploited to better estimate the missing joints. A large number of experiments are performed for the quantification of occlusion handling capability of the proposed method on three publicly available datasets in various settings including random missing joints, fixed body parts missing, and complete frames missing, using mean per joint position error criterion. In addition to that, the quality of the predicted 3D poses is also evaluated using action classification performance as a criterion. 3D poses estimated by the proposed method achieved significantly improved action recognition performance in the presence of missing joints. Our experiments demonstrate the effectiveness of the proposed framework for handling the missing joints as well as quantification of the occlusion handling capability of the deep neural networks.
翻訳日:2022-03-09 15:21:40 公開日:2022-03-08
# 簡単なアンサンブル:センサに基づく人間行動認識のための簡単なディープアンサンブル学習

Easy Ensemble: Simple Deep Ensemble Learning for Sensor-Based Human Activity Recognition ( http://arxiv.org/abs/2203.04153v1 )

ライセンス: Link先を確認
Tatsuhito Hasegawa, Kazuma Kondo(参考訳) センサベースのヒューマンアクティビティ認識(HAR)は、モノのインターネットにおける最重要技術である。 生データから特徴表現を自動的に学習する表現学習(har)は、生のセンサデータから関連する情報を解釈し有意義な特徴を設計することが難しいため、主流の手法である。 アンサンブル学習は一般化性能を向上させるための堅牢なアプローチであるが、深層アンサンブル学習にはデータ分割や複数のモデルのトレーニングといった、時間を要する計算コストの高い様々な手順が必要である。 本研究では,単一のモデルにおいて深層アンサンブル学習を容易に実装できるharのためのイージーアンサンブル(ee)を提案する。 さらに,eeの入力を多様化する手段として,入力マスキングを提案する。 HARのためのベンチマークデータセットの実験では、従来のアンサンブル学習法と比較して、EEと入力マスキングの有効性とその特性が示された。

Sensor-based human activity recognition (HAR) is a paramount technology in the Internet of Things services. HAR using representation learning, which automatically learns a feature representation from raw data, is the mainstream method because it is difficult to interpret relevant information from raw sensor data to design meaningful features. Ensemble learning is a robust approach to improve generalization performance; however, deep ensemble learning requires various procedures, such as data partitioning and training multiple models, which are time-consuming and computationally expensive. In this study, we propose Easy Ensemble (EE) for HAR, which enables the easy implementation of deep ensemble learning in a single model. In addition, we propose input masking as a method for diversifying the input for EE. Experiments on a benchmark dataset for HAR demonstrated the effectiveness of EE and input masking and their characteristics compared with conventional ensemble learning methods.
翻訳日:2022-03-09 15:21:18 公開日:2022-03-08
# 対向領域適応のためのロバストな局所保存とグローバルアライニングネットワーク

Robust Local Preserving and Global Aligning Network for Adversarial Domain Adaptation ( http://arxiv.org/abs/2203.04156v1 )

ライセンス: Link先を確認
Wenwen Qiang, Jiangmeng Li, Changwen Zheng, Bing Su, Hui Xiong(参考訳) 教師なしドメイン適応(UDA)は、トレーニング中にクリーングラウンドの真理ラベルを持つソースドメインサンプルを必要とする。 大量のソースドメインサンプルを正確にラベル付けすることは、時間と労力を要する。 もうひとつの方法は、ノイズの多いラベルを持つサンプルをトレーニングに使用することだ。 しかし,ノイズラベルによるトレーニングは,UDAの性能を大幅に低下させる可能性がある。 本稿では,ノイズラベルへのアクセスのみでudaモデルを学ぶという課題に対処し,rlpga(ロバストローカル保存・グローバルアライメントネットワーク)と呼ばれる新しい手法を提案する。 RLPGAは2つの側面からラベルノイズの堅牢性を改善する。 一つは、堅牢な情報理論に基づく損失関数による分類器の学習である。 もう1つは、入力データの局所トポロジ構造を保存するために、提案する局所保存モジュールにより2つの隣接重み行列と2つの負重み行列を構築することである。 提案するrlpgaのロバスト性に関する理論的解析を行い,ロバストな情報理論に基づく損失と局所保存モジュールが,対象領域における経験的リスクの低減に有効であることを証明した。 今回提案した RLPGA の有効性について検討した。

Unsupervised domain adaptation (UDA) requires source domain samples with clean ground truth labels during training. Accurately labeling a large number of source domain samples is time-consuming and laborious. An alternative is to utilize samples with noisy labels for training. However, training with noisy labels can greatly reduce the performance of UDA. In this paper, we address the problem that learning UDA models only with access to noisy labels and propose a novel method called robust local preserving and global aligning network (RLPGA). RLPGA improves the robustness of the label noise from two aspects. One is learning a classifier by a robust informative-theoreti c-based loss function. The other is constructing two adjacency weight matrices and two negative weight matrices by the proposed local preserving module to preserve the local topology structures of input data. We conduct theoretical analysis on the robustness of the proposed RLPGA and prove that the robust informative-theoreti c-based loss and the local preserving module are beneficial to reduce the empirical risk of the target domain. A series of empirical studies show the effectiveness of our proposed RLPGA.
翻訳日:2022-03-09 15:21:02 公開日:2022-03-08
# assistq: egocentric assistantのためのアプライアンス中心の質問駆動タスク補完

AssistQ: Affordance-centric Question-driven Task Completion for Egocentric Assistant ( http://arxiv.org/abs/2203.04203v1 )

ライセンス: Link先を確認
Benita Wong, Joya Chen, You Wu, Stan Weixian Lei, Dongxing Mao, Difei Gao, Mike Zheng Shou(参考訳) ARグラスやロボットのようなインテリジェントアシスタントの長年の目標は、“電子レンジを1分間どのように動作させるのか? しかし、明確なタスク定義と適切なベンチマークはまだ存在しない。 本稿では,AIアシスタントが指導ビデオやスクリプトから学習してユーザのステップバイステップをガイドする,Affordance-centric Question-driven Task Completionというタスクを定義する。 このタスクを支援するために,100本のビデオから抽出した529個の質問応答サンプルからなるAssistQを構築した。 各質問は、視覚的詳細(ボタンの位置など)とテクスト的詳細(例えば、プレス/ターンのようなアクション)から推測することで、多段階のガイダンスで完了するべきである。 このユニークなタスクに対処するために、我々はいくつかのベースラインメソッドを大幅に上回りながら改善の余地が大きいq2aモデルを開発した。 タスクとデータセットは、Egocentric AI Assistantの開発を前進させることを期待しています。 私たちのプロジェクトページは以下の通りです。

A long-standing goal of intelligent assistants such as AR glasses/robots has been to assist users in affordance-centric real-world scenarios, such as "how can I run the microwave for 1 minute?". However, there is still no clear task definition and suitable benchmarks. In this paper, we define a new task called Affordance-centric Question-driven Task Completion, where the AI assistant should learn from instructional videos and scripts to guide the user step-by-step. To support the task, we constructed AssistQ, a new dataset comprising 529 question-answer samples derived from 100 newly filmed first-person videos. Each question should be completed with multi-step guidances by inferring from visual details (e.g., buttons' position) and textural details (e.g., actions like press/turn). To address this unique task, we developed a Question-to-Actions (Q2A) model that significantly outperforms several baseline methods while still having large room for improvement. We expect our task and dataset to advance Egocentric AI Assistant's development. Our project page is available at: https://showlab.gith ub.io/assistq
翻訳日:2022-03-09 15:20:45 公開日:2022-03-08
# 点雲上の軽量で検出器不要な3d単一物体追跡装置

A Lightweight and Detector-free 3D Single Object Tracker on Point Clouds ( http://arxiv.org/abs/2203.04232v1 )

ライセンス: Link先を確認
Yan Xia, Qiangqiang Wu, Tianyu Yang, Wei Li, Antoni B. Chan, Uwe Stilla(参考訳) 最近の3D単体追跡の研究は、追跡を目標固有の3D検出タスクとして扱い、オフザシェルフの3D検出器が一般的に追跡に使用される。 しかし、生のLiDARスキャンにおける物体の点雲は、通常、希少で不完全であるため、正確な目標固有検出を行うのは簡単ではない。 本稿では,時間的動きの手がかりを明示的に活用し,従来のトラッカーよりも軽量で高速で高精度な複雑な3d検出器の使用を完全に排除する,検出器フリーモーション予測ベースの3dトラッキングネットワークdmtを提案する。 具体的には、まず動き予測モジュールを導入し、現在のフレームの潜在的目標中心をポイントクラウドフリーな方法で推定する。 そして、推定対象中心から3Dボックスを直接回帰するために、明示的な投票モジュールを提案する。 KITTIとNuScenesデータセットに関する大規模な実験は、複雑な3D検出器を適用せずに、DMTが最先端のアプローチよりも優れたパフォーマンス(NuScenesデータセットで約10%改善)と高速な追跡速度(72FPS)を達成することを示した。 私たちのコードは公開されます。

Recent works on 3D single object tracking treat the tracking as a target-specific 3D detection task, where an off-the-shelf 3D detector is commonly employed for tracking. However, it is non-trivial to perform accurate target-specific detection since the point cloud of objects in raw LiDAR scans is usually sparse and incomplete. In this paper, we address this issue by explicitly leveraging temporal motion cues and propose DMT, a Detector-free Motion prediction based 3D Tracking network that totally removes the usage of complicated 3D detectors, which is lighter, faster, and more accurate than previous trackers. Specifically, the motion prediction module is firstly introduced to estimate a potential target center of the current frame in a point-cloud free way. Then, an explicit voting module is proposed to directly regress the 3D box from the estimated target center. Extensive experiments on KITTI and NuScenes datasets demonstrate that our DMT, without applying any complicated 3D detectors, can still achieve better performance (~10% improvement on the NuScenes dataset) and faster tracking speed (i.e., 72 FPS) than state-of-the-art approaches. Our codes will be released publicly.
翻訳日:2022-03-09 15:19:09 公開日:2022-03-08
# 映像動作検出のためのエンド・ツー・エンド半教師付き学習

End-to-End Semi-Supervised Learning for Video Action Detection ( http://arxiv.org/abs/2203.04251v1 )

ライセンス: Link先を確認
Akash Kumar and Yogesh Singh Rawat(参考訳) 本研究では,ラベル付きデータとラベル付きデータの両方を利用するビデオアクション検出のための半教師付き学習に着目した。 ラベルのないデータを効果的に活用するシンプルなエンドツーエンド整合性に基づくアプローチを提案する。 ビデオアクション検出は、アクションクラスの予測と、アクションの時空間的局在の両方を必要とする。 そこで,2種類の制約,分類整合性,時空間整合性について検討した。 ビデオにおける背景領域と静的領域の存在は、時空間一貫性をアクション検出に利用することを困難にしている。 これを解決するために,時空間整合性に対する2つの新しい規則化制約を提案する。 1)時間的整合性、及び 2) 勾配の滑らかさ。 これら2つの側面は、ビデオにおける動作の時間的連続性を利用しており、未ラベルの動画をアクション検出に利用するのに有効である。 提案手法が,2つの異なるアクション検出ベンチマークデータセット ucf101-24 と jhmdb-21 に対して有効であることを示す。 また,Youtube-VOSデータセット上での映像オブジェクトのセグメンテーションに対する提案手法の有効性を示す。 提案手法は,最近の完全教師付き手法と比較して,UCF101-24のアノテーションの20%しか使用していない。 UCF101-24では、監督的アプローチと比較して、0.5 f-mAP と v-mAP で +8.9% と +11% のスコアを改善する。

In this work, we focus on semi-supervised learning for video action detection which utilizes both labeled as well as unlabeled data. We propose a simple end-to-end consistency based approach which effectively utilizes the unlabeled data. Video action detection requires both, action class prediction as well as a spatio-temporal localization of actions. Therefore, we investigate two types of constraints, classification consistency, and spatio-temporal consistency. The presence of predominant background and static regions in a video makes it challenging to utilize spatio-temporal consistency for action detection. To address this, we propose two novel regularization constraints for spatio-temporal consistency; 1) temporal coherency, and 2) gradient smoothness. Both these aspects exploit the temporal continuity of action in videos and are found to be effective for utilizing unlabeled videos for action detection. We demonstrate the effectiveness of the proposed approach on two different action detection benchmark datasets, UCF101-24 and JHMDB-21. In addition, we also show the effectiveness of the proposed approach for video object segmentation on the Youtube-VOS dataset which demonstrates its generalization capability to other tasks. The proposed approach achieves competitive performance by using merely 20% of annotations on UCF101-24 when compared with recent fully supervised methods. On UCF101-24, it improves the score by +8.9% and +11% at 0.5 f-mAP and v-mAP respectively, compared to supervised approach.
翻訳日:2022-03-09 15:18:46 公開日:2022-03-08
# 弱教師付きセマンティック対応のための確率的ワープ整合性

Probabilistic Warp Consistency for Weakly-Supervised Semantic Correspondences ( http://arxiv.org/abs/2203.04279v1 )

ライセンス: Link先を確認
Prune Truong and Martin Danelljan and Fisher Yu and Luc Van Gool(参考訳) セマンティックマッチングのための弱教師付き学習目標である確率ワープ一貫性を提案する。 提案手法は,条件付き確率分布として符号化されたネットワークによって予測される密マッチングスコアを直接監督する。 まず、同じオブジェクトクラスの異なるインスタンスを表すペアで、既知のワープを画像の1つに適用することで、画像トリプルを構築する。 得られた画像三重項から生じる制約を用いて確率論的学習目標を導出する。 さらに、確率的出力空間を学習不能な状態に拡張することにより、実画像対に存在するオクルージョンと背景クラッタを更に説明します。 そこで我々は,異なるオブジェクトクラスを表現した画像ペア間の目的を設計する。 提案手法を最近の4つの意味マッチングアーキテクチャに適用して検証する。 弱い教師付きアプローチは、4つの挑戦的なセマンティックマッチングベンチマークに新しい最先端のアプローチを設定します。 最後に、キーポイントアノテーションと組み合わせることで、当社の目的が、強く監督されたレシエーションに大きな改善をもたらすことを実証する。

We propose Probabilistic Warp Consistency, a weakly-supervised learning objective for semantic matching. Our approach directly supervises the dense matching scores predicted by the network, encoded as a conditional probability distribution. We first construct an image triplet by applying a known warp to one of the images in a pair depicting different instances of the same object class. Our probabilistic learning objectives are then derived using the constraints arising from the resulting image triplet. We further account for occlusion and background clutter present in real image pairs by extending our probabilistic output space with a learnable unmatched state. To supervise it, we design an objective between image pairs depicting different object classes. We validate our method by applying it to four recent semantic matching architectures. Our weakly-supervised approach sets a new state-of-the-art on four challenging semantic matching benchmarks. Lastly, we demonstrate that our objective also brings substantial improvements in the strongly-supervised regime, when combined with keypoint annotations.
翻訳日:2022-03-09 15:18:25 公開日:2022-03-08
# 手話翻訳のための簡易マルチモダリティトランスファー学習ベースライン

A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation ( http://arxiv.org/abs/2203.04287v1 )

ライセンス: Link先を確認
Yutong Chen, Fangyun Wei, Xiao Sun, Zhirong Wu, Stephen Lin(参考訳) 本論文では,手話翻訳のための簡単なトランスファー学習ベースラインを提案する。 既存の手話データセット(例えばphoenix-2014t、csl-daily)は、音声翻訳モデルのトレーニングのために典型的な並列データよりも桁違いに小さい手話ビデオ、注釈、テキストの約10k-20kペアしか含まない。 したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。 この問題を軽減するため、我々は、大量の外部監視を含む汎用ドメインデータセットからドメイン内データセットへのモデルを段階的に事前訓練することを提案する。 具体的には、人間のアクションの一般的なドメインと、sign-to-glossデータセットのinsideドメインについてsign-to-gloss視覚ネットワークを事前学習し、多言語コーパスの一般ドメインとgloss-to-textコーパスのinside-domainに対してgloss-to-text翻訳ネットワークを事前学習する。 ジョイントモデルは、2つのネットワークを接続する視覚言語マッパーと呼ばれる追加モジュールで微調整される。 この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端結果を上回っ、転送学習の有効性を実証する。 その単純さと強力な性能により、このアプローチは将来の研究の確かなベースラインとなる。

This paper proposes a simple transfer learning baseline for sign language translation. Existing sign language datasets (e.g. PHOENIX-2014T, CSL-Daily) contain only about 10K-20K pairs of sign videos, gloss annotations and texts, which are an order of magnitude smaller than typical parallel data for training spoken language translation models. Data is thus a bottleneck for training effective sign language translation models. To mitigate this problem, we propose to progressively pretrain the model from general-domain datasets that include a large amount of external supervision to within-domain datasets. Concretely, we pretrain the sign-to-gloss visual network on the general domain of human actions and the within-domain of a sign-to-gloss dataset, and pretrain the gloss-to-text translation network on the general domain of a multilingual corpus and the within-domain of a gloss-to-text corpus. The joint model is fine-tuned with an additional module named the visual-language mapper that connects the two networks. This simple baseline surpasses the previous state-of-the-art results on two sign language translation benchmarks, demonstrating the effectiveness of transfer learning. With its simplicity and strong performance, this approach can serve as a solid baseline for future research.
翻訳日:2022-03-09 15:18:11 公開日:2022-03-08
# Pivot Translation と Semantic-Aware Bins 符号化による意味保存型言語ステレオグラフィ

Semantic-Preserving Linguistic Steganography by Pivot Translation and Semantic-Aware Bins Coding ( http://arxiv.org/abs/2203.03795v1 )

ライセンス: Link先を確認
Tianyu Yang, Hanzhou Wu, Biao Yi, Guorui Feng and Xinpeng Zhang(参考訳) 言語性ステガノグラフィ(ls)は、秘密情報を高度に符号化されたテキストに埋め込むことを目的としている。 それは大まかに2つの主要なカテゴリ、すなわち修正ベースLS(MLS)と生成ベースLS(GLS)に分けられる。 テキストの意味を損なうことなく、与えられたテキストをわずかに修正することで秘密データを隠蔽するMLSとは異なり、GLSは訓練された言語モデルを使用して秘密データを直接生成する。 MLS手法の一般的な欠点は、埋め込みペイロードが非常に低く、その戻り値がテキストのセマンティックな品質を十分に保っていることである。 対照的に、GLSはデータハイカーに高いペイロードを埋め込むことを可能にするため、制御不能なセマンティクスの高コストを支払わなければならない。 本稿では,2つの異なる言語間をピボットし,glsライクな情報エンコーディング戦略を適用して秘密データを埋め込み,与えられたテキストを修正する新しいls法を提案する。 我々の目的は、与えられたテキストの表現を変更することで、意味情報を変更せずに高いペイロードを埋め込めるようにすることです。 実験の結果,提案手法は高い埋め込みペイロードを達成するだけでなく,意味的一貫性を維持し,言語性ステグアナリシスに抵抗する優れた性能を示すことがわかった。

Linguistic steganography (LS) aims to embed secret information into a highly encoded text for covert communication. It can be roughly divided to two main categories, i.e., modification based LS (MLS) and generation based LS (GLS). Unlike MLS that hides secret data by slightly modifying a given text without impairing the meaning of the text, GLS uses a trained language model to directly generate a text carrying secret data. A common disadvantage for MLS methods is that the embedding payload is very low, whose return is well preserving the semantic quality of the text. In contrast, GLS allows the data hider to embed a high payload, which has to pay the high price of uncontrollable semantics. In this paper, we propose a novel LS method to modify a given text by pivoting it between two different languages and embed secret data by applying a GLS-like information encoding strategy. Our purpose is to alter the expression of the given text, enabling a high payload to be embedded while keeping the semantic information unchanged. Experimental results have shown that the proposed work not only achieves a high embedding payload, but also shows superior performance in maintaining the semantic consistency and resisting linguistic steganalysis.
翻訳日:2022-03-09 15:17:46 公開日:2022-03-08
# 人文テキストからの反復的改訂の理解

Understanding Iterative Revision from Human-Written Text ( http://arxiv.org/abs/2203.03802v1 )

ライセンス: Link先を確認
Wanyu Du, Vipul Raheja, Dhruv Kumar, Zae Myung Kim, Melissa Lopez, Dongyeop Kang(参考訳) 書き込みは本質的に、戦略的で適応的で、さらに重要なことに、反復的なプロセスです。 執筆の重要な部分は、テキストの編集と改訂である。 テキスト改訂に関する以前の研究では、単一のドメイン内で編集意図の分類を定義することや、人間の修正サイクルとは異なる文レベルの編集など、単一のレベルの編集粒度を持つ計算モデルを開発することに重点を置いてきた。 この本はiteraterについて説明している: 反復改訂されたテキストの注釈付きコーパスの最初の大規模、マルチドメイン、編集-インテンションである。 特に、IeraTeRは、形式的な文章、編集意図、修正深度、粒度の様々な領域に一般化する反復的テキストリビジョンを包括的にモデル化する新しいフレームワークに基づいて収集される。 注釈付き編集意図を組み込むと、生成的および編集的テキスト修正モデルの両方が自動評価を大幅に改善する。 本研究により,編集意図と書字品質との間に重要な関係を築いており,反復的テキスト修正の計算モデルを支援する多種多様なコーパスの作成が可能となった。

Writing is, by nature, a strategic, adaptive, and more importantly, an iterative process. A crucial part of writing is editing and revising the text. Previous works on text revision have focused on defining edit intention taxonomies within a single domain or developing computational models with a single level of edit granularity, such as sentence-level edits, which differ from human's revision cycles. This work describes IteraTeR: the first large-scale, multi-domain, edit-intention annotated corpus of iteratively revised text. In particular, IteraTeR is collected based on a new framework to comprehensively model the iterative text revisions that generalize to various domains of formal writing, edit intentions, revision depths, and granularities. When we incorporate our annotated edit intentions, both generative and edit-based text revision models significantly improve automatic evaluations. Through our work, we better understand the text revision process, making vital connections between edit intentions and writing quality, enabling the creation of diverse corpora to support computational modeling of iterative text revisions.
翻訳日:2022-03-09 15:17:21 公開日:2022-03-08
# yono: 複数のヘテロジニアスニューラルネットワークをマイクロコントローラ上でモデリングする

YONO: Modeling Multiple Heterogeneous Neural Networks on Microcontrollers ( http://arxiv.org/abs/2203.03794v1 )

ライセンス: Link先を確認
Young D. Kwon, Jagmohan Chauhan, and Cecilia Mascolo(参考訳) ディープニューラルネットワーク(DNN)の進歩とIoT(Internet of Things)システムからの大量のセンサデータにより、研究コミュニティは、低リソースのマイクロコントローラ(MCU)上で計算するDNNの計算とリソース要求の削減に取り組んでいる。 しかし、組み込みディープラーニングにおける現在の作業の多くは、1つのタスクを効率的に解決することに集中しているが、IoTデバイスのマルチタスクの性質と応用は、さまざまなセンサーからの入力でさまざまなタスク(アクティビティ、音声、コンテキスト認識)を同時に処理できるシステムを必要とする。 本稿では,複数の異種モデルを圧縮し,メモリ内モデルの実行と切り替えが可能な製品量子化(PQ)ベースのアプローチであるYONOを提案する。 まずpqを使って、異なるモデルの重みを格納するコードブックを学習します。 また,圧縮速度を最大化し,精度損失を最小化するネットワーク最適化とヒューリスティックスを提案する。 そこで我々は,外部記憶装置を使わずに,MCU上での複数のタスクの切り替えを効率的に行うためのYONOのオンラインコンポーネントを開発した。 yonoは12.37$\times$の精度を損なうことなく、複数の異種モデルを圧縮できるという驚くべき性能を示している。 さらに、YONOのオンラインコンポーネントは効率的な実行(動作当たり16-159ミリ秒のレイテンシ)を可能にし、外部ストレージアクセスと比較して、モデルロード/スイッチング遅延とエネルギー消費をそれぞれ93.3-94.5%、93.9-95.0%削減する。 興味深いことに、Yonoのオフラインコードブック学習期間中に表示されなかったデータセットで訓練された様々なアーキテクチャを圧縮できる。 要約すると、YONOは大きな可能性を示し、非常にリソースに制約のあるデバイス上でマルチタスク学習システムを実現するためのさらなる扉を開く。

With the advancement of Deep Neural Networks (DNN) and large amounts of sensor data from Internet of Things (IoT) systems, the research community has worked to reduce the computational and resource demands of DNN to compute on low-resourced microcontrollers (MCUs). However, most of the current work in embedded deep learning focuses on solving a single task efficiently, while the multi-tasking nature and applications of IoT devices demand systems that can handle a diverse range of tasks (activity, voice, and context recognition) with input from a variety of sensors, simultaneously. In this paper, we propose YONO, a product quantization (PQ) based approach that compresses multiple heterogeneous models and enables in-memory model execution and switching for dissimilar multi-task learning on MCUs. We first adopt PQ to learn codebooks that store weights of different models. Also, we propose a novel network optimization and heuristics to maximize the compression rate and minimize the accuracy loss. Then, we develop an online component of YONO for efficient model execution and switching between multiple tasks on an MCU at run time without relying on an external storage device. YONO shows remarkable performance as it can compress multiple heterogeneous models with negligible or no loss of accuracy up to 12.37$\times$. Besides, YONO's online component enables an efficient execution (latency of 16-159 ms per operation) and reduces model loading/switching latency and energy consumption by 93.3-94.5% and 93.9-95.0%, respectively, compared to external storage access. Interestingly, YONO can compress various architectures trained with datasets that were not shown during YONO's offline codebook learning phase showing the generalizability of our method. To summarize, YONO shows great potential and opens further doors to enable multi-task learning systems on extremely resource-constrained devices.
翻訳日:2022-03-09 15:15:15 公開日:2022-03-08
# 政策グラディエントに対する測定値誘導体の分析

An Analysis of Measure-Valued Derivatives for Policy Gradients ( http://arxiv.org/abs/2203.03917v1 )

ライセンス: Link先を確認
Joao Carvalho and Jan Peters(参考訳) ロボット工学の強化学習法は、より良い方針勾配技術の開発が絶え間なく進んでいるため、ますます成功している。 複雑なタスクに直面するためには、正確な(低分散)と正確な(低バイアス)勾配推定器が不可欠である。 従来のポリシー勾配アルゴリズムは、偏りのないが分散度の高い推定を生成することで知られているラピス・レイショ・トリックを用いる。 より現代的なアプローチでは、分散勾配の推定は低いが微分可能値関数近似子を必要とする再パラメータ化トリックを利用する。 本研究では,異なる種類の確率勾配推定器(測定値導関数)について検討する。 この推定器は偏りがなく、分散が低く、微分可能かつ微分不能な関数近似器で使用できる。 我々は,この推定器をアクタ・クリティック・ポリシー・グラデーションの設定において実験的に評価し,低次元と高次元の両方のアクション空間において,確率比や再パラメトリゼーションに基づく手法と同等の性能が得られることを示した。 この研究により、測定値導関数推定器が他の政策勾配推定器の代替として有用であることを示す。

Reinforcement learning methods for robotics are increasingly successful due to the constant development of better policy gradient techniques. A precise (low variance) and accurate (low bias) gradient estimator is crucial to face increasingly complex tasks. Traditional policy gradient algorithms use the likelihood-ratio trick, which is known to produce unbiased but high variance estimates. More modern approaches exploit the reparametrization trick, which gives lower variance gradient estimates but requires differentiable value function approximators. In this work, we study a different type of stochastic gradient estimator - the Measure-Valued Derivative. This estimator is unbiased, has low variance, and can be used with differentiable and non-differentiable function approximators. We empirically evaluate this estimator in the actor-critic policy gradient setting and show that it can reach comparable performance with methods based on the likelihood-ratio or reparametrization tricks, both in low and high-dimensional action spaces. With this work, we want to show that the Measure-Valued Derivative estimator can be a useful alternative to other policy gradient estimators.
翻訳日:2022-03-09 15:14:41 公開日:2022-03-08
# 二重抽選券仮説

Dual Lottery Ticket Hypothesis ( http://arxiv.org/abs/2203.04248v1 )

ライセンス: Link先を確認
Yue Bai, Huan Wang, Zhiqiang Tao, Kunpeng Li, Yun Fu(参考訳) ニューラルネットワークの学習能力を完全に活用するには、過パラメータの高密度ネットワークが必要である。 一方、スパースニューラルネットワークを直接トレーニングすると、通常は不十分なパフォーマンスになる。 Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。 具体的には、ランダムに初期化されたネットワークから、反復的なマグニチュードの刈り取りと、有望なトレーサビリティ(つまり訓練可能な状態にある)の維持によって、入賞チケットが存在すると主張している。 本稿では, LTH の当選チケットを, トレーニング可能な状態にあるサブネットワークであり, その性能をベンチマークとして, 補完的な方向から, ランダムに初期化された高密度ネットワークからランダムに選択されたサブネットワークをトレーニング可能な状態に変換し, LTH と比較して有意な性能を達成することができる。 具体的には,一様ランダムに選択したサブネットワークを用いて汎用ケースを表現することにより,単純なスパースネットワークトレーニング戦略である乱数スパースネットワークトランスフォーメーション(rst)を提案する。 具体的には,学習能力を借りる正規化用語を導入し,マスクする重みからの情報押出を実現する。 ランダムに選択されたサブネットの変換を完了した後、LTHや他の強いベースラインと公正に比較してモデルの評価を行う。 いくつかのパブリックデータセットに関する広範囲な実験と競合アプローチとの比較により,提案モデルrstの有効性とdlthの有効性が検証された。 我々の研究は、将来、スパースネットワークトレーニングの新しい研究方向性を刺激する道を開くことが期待されている。 私たちのコードはhttps://github.com/y ueb17/dlthで利用可能です。

Fully exploiting the learning capacity of neural networks requires overparameterized dense networks. On the other side, directly training sparse neural networks typically results in unsatisfactory performance. Lottery Ticket Hypothesis (LTH) provides a novel view to investigate sparse network training and maintain its capacity. Concretely, it claims there exist winning tickets from a randomly initialized network found by iterative magnitude pruning and preserving promising trainability (or we say being in trainable condition). In this work, we regard the winning ticket from LTH as the subnetwork which is in trainable condition and its performance as our benchmark, then go from a complementary direction to articulate the Dual Lottery Ticket Hypothesis (DLTH): Randomly selected subnetworks from a randomly initialized dense network can be transformed into a trainable condition and achieve admirable performance compared with LTH -- random tickets in a given lottery pool can be transformed into winning tickets. Specifically, by using uniform-randomly selected subnetworks to represent the general cases, we propose a simple sparse network training strategy, Random Sparse Network Transformation (RST), to substantiate our DLTH. Concretely, we introduce a regularization term to borrow learning capacity and realize information extrusion from the weights which will be masked. After finishing the transformation for the randomly selected subnetworks, we conduct the regular finetuning to evaluate the model using fair comparisons with LTH and other strong baselines. Extensive experiments on several public datasets and comparisons with competitive approaches validate our DLTH as well as the effectiveness of the proposed model RST. Our work is expected to pave a way for inspiring new research directions of sparse network training in the future. Our code is available at https://github.com/y ueb17/DLTH.
翻訳日:2022-03-09 15:14:23 公開日:2022-03-08
# unixcoder:コード表現のための統一クロスモーダル事前トレーニング

UniXcoder: Unified Cross-Modal Pre-training for Code Representation ( http://arxiv.org/abs/2203.03850v1 )

ライセンス: Link先を確認
Daya Guo, Shuai Lu, Nan Duan, Yanlin Wang, Ming Zhou, and Jian Yin(参考訳) プログラミング言語の事前学習モデルは、最近コードインテリジェンスで大きな成功を収めた。 コード関連理解と生成タスクの両方をサポートするため、最近の研究は統合エンコーダデコーダモデルの事前訓練を試みる。 しかし、このようなエンコーダ-デコーダフレームワークは自動回帰タスク、特に効率的な推論のためにデコーダのみの方法を必要とするコード補完に最適化されている。 本稿では,プログラミング言語のための統合クロスモーダル事前学習モデルunixcoderを提案する。 このモデルは、マスクアテンション行列とプレフィックスアダプタを使ってモデルの振る舞いを制御し、ASTやコードコメントのようなクロスモーダルなコンテンツを利用してコード表現を強化する。 木として表現されるASTを並列に符号化するために,木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。 さらに,マルチモーダルコンテンツを用いてコードフラグメントの表現をコントラスト学習で学習し,クロスモーダル生成タスクを用いてプログラミング言語間の表現を整合させる手法を提案する。 我々はUnixcoderを9つのデータセット上で5つのコード関連タスクで評価する。 コードフラグメント表現の性能をさらに評価するために,ゼロショットコードからコードへの検索と呼ばれる新しいタスクのためのデータセットを構築する。 その結果,本モデルがほとんどのタスクにおいて最先端のパフォーマンスを達成し,コメントとASTがUniXcoderを拡張できることが判明した。

Pre-trained models for programming languages have recently demonstrated great success on code intelligence. To support both code-related understanding and generation tasks, recent works attempt to pre-train unified encoder-decoder models. However, such encoder-decoder framework is sub-optimal for auto-regressive tasks, especially code completion that requires a decoder-only manner for efficient inference. In this paper, we present UniXcoder, a unified cross-modal pre-trained model for programming language. The model utilizes mask attention matrices with prefix adapters to control the behavior of the model and leverages cross-modal contents like AST and code comment to enhance code representation. To encode AST that is represented as a tree in parallel, we propose a one-to-one mapping method to transform AST in a sequence structure that retains all structural information from the tree. Furthermore, we propose to utilize multi-modal contents to learn representation of code fragment with contrastive learning, and then align representations among programming languages using a cross-modal generation task. We evaluate UniXcoder on five code-related tasks over nine datasets. To further evaluate the performance of code fragment representation, we also construct a dataset for a new task, called zero-shot code-to-code search. Results show that our model achieves state-of-the-art performance on most tasks and analysis reveals that comment and AST can both enhance UniXcoder.
翻訳日:2022-03-09 15:13:53 公開日:2022-03-08
# (参考訳) YouTube-GDD: 豊富な文脈情報を備えた銃検出データセット [全文訳有]

YouTube-GDD: A challenging gun detection dataset with rich contextual information ( http://arxiv.org/abs/2203.04129v1 )

ライセンス: CC BY 4.0
Yongxiang Gu, Xingbin Liao and Xiaolin Qin(参考訳) 自動銃検知システムは、市民の安全にとって最重要となる早期の銃関連暴力を検出することができる。 システム全体では、ピストルやライフルなどの危険な物体をシステムが検出できるように、物体検出アルゴリズムが環境を知覚する鍵となる。 しかし、主流のディープラーニングに基づくオブジェクト検出アルゴリズムは、大規模な高品質な注釈付きサンプルに大きく依存しており、既存の銃のデータセットは解像度が低く、文脈情報がほとんどなく、データ量が少ない。 セキュリティの発展を促進するために、この研究はYouTube Gun Detection Dataset (YouTube-GDD)と呼ばれる新しい挑戦的なデータセットを提示する。 私たちのデータセットは、343の高精細度YouTubeビデオから収集され、5,000の精巧な画像が含まれています。 他のデータセットと比較すると、youtube-gddは「ダイナミック」であり、射撃中に銃の形状変化を記録する。 銃検出のベースラインを構築するために,youtube-gddのyolov5を評価し,銃検出に対する付加的な注釈情報の影響を分析する。 YouTube-GDD以降のアップデートはhttps://github.com/U CAS-GYX/YouTube-GDDで公開される。

An automatic gun detection system can detect potential gun-related violence at an early stage that is of paramount importance for citizens security. In the whole system, object detection algorithm is the key to perceive the environment so that the system can detect dangerous objects such as pistols and rifles. However, mainstream deep learning-based object detection algorithms depend heavily on large-scale high-quality annotated samples, and the existing gun datasets are characterized by low resolution, little contextual information and little data volume. To promote the development of security, this work presents a new challenging dataset called YouTube Gun Detection Dataset (YouTube-GDD). Our dataset is collected from 343 high-definition YouTube videos and contains 5000 well-chosen images, in which 16064 instances of gun and 9046 instances of person are annotated. Compared to other datasets, YouTube-GDD is "dynamic", containing rich contextual information and recording shape changes of the gun during shooting. To build a baseline for gun detection, we evaluate YOLOv5 on YouTube-GDD and analyze the influence of additional related annotated information on gun detection. YouTube-GDD and subsequent updates will be released at https://github.com/U CAS-GYX/YouTube-GDD.
翻訳日:2022-03-09 15:11:39 公開日:2022-03-08
# 未知の物体検出:野生の動画から知らないものを学ぶ

Unknown-Aware Object Detection: Learning What You Don't Know from Videos in the Wild ( http://arxiv.org/abs/2203.03800v1 )

ライセンス: Link先を確認
Xuefeng Du, Xin Wang, Gabriel Gozum, Yixuan Li(参考訳) out-of-distribution (ood) オブジェクトを検出できる信頼性の高いオブジェクト検出器の構築は、まだ未検討である。 重要な課題の1つは、モデルは未知のデータからの監視信号が欠如していることであり、OODオブジェクトに対する過信的な予測を生成する。 本研究では,未知の物体を野生の動画から蒸留し,モデル決定境界を有意義に定式化する空間-時間的未知蒸留(stud)による未知物体検出フレームワークを提案する。 STUDはまず、空間次元における未知の候補オブジェクトの提案を特定し、次に複数のビデオフレームにまたがって候補を集約し、決定境界付近で未知のオブジェクトの多様な集合を形成する。 また, 分布と蒸留未知物間の不確かさ空間を対比的に形作るエネルギーベースの不確かさ正規化損失を用いる。 STUDは、オブジェクト検出のためのOOD検出タスクの最先端性能を確立し、以前のベストメソッドと比較してFPR95スコアを10%以上削減する。 コードはhttps://github.com/d eeplearning-wisc/stu dで入手できる。

Building reliable object detectors that can detect out-of-distribution (OOD) objects is critical yet underexplored. One of the key challenges is that models lack supervision signals from unknown data, producing overconfident predictions on OOD objects. We propose a new unknown-aware object detection framework through Spatial-Temporal Unknown Distillation (STUD), which distills unknown objects from videos in the wild and meaningfully regularizes the model's decision boundary. STUD first identifies the unknown candidate object proposals in the spatial dimension, and then aggregates the candidates across multiple video frames to form a diverse set of unknown objects near the decision boundary. Alongside, we employ an energy-based uncertainty regularization loss, which contrastively shapes the uncertainty space between the in-distribution and distilled unknown objects. STUD establishes the state-of-the-art performance on OOD detection tasks for object detection, reducing the FPR95 score by over 10% compared to the previous best method. Code is available at https://github.com/d eeplearning-wisc/stu d.
翻訳日:2022-03-09 15:02:22 公開日:2022-03-08
# 画像ストレッチのためのDeep Rectangling:学習ベースライン

Deep Rectangling for Image Stitching: A Learning Baseline ( http://arxiv.org/abs/2203.03831v1 )

ライセンス: Link先を確認
Lang Nie, Chunyu Lin, Kang Liao, Shuaicheng Liu, Yao Zhao(参考訳) ステッチ画像は広い視野(fov)を提供するが、不規則な境界に苦しむ。 この問題に対処するため、既存の画像リクタング手法では、初期メッシュを探索し、ターゲットメッシュを最適化して2段階のメッシュ変形を形成する。 そして、ステッチ画像に干渉して矩形画像を生成することができる。 しかし、これらの解はリッチな線形構造を持つ画像に対してのみ有効であり、非線型オブジェクトを持つポートレートやランドスケープに対して顕著な歪みをもたらす。 本稿では、画像のリタングに対する最初のディープラーニングソリューションを提案することで、これらの問題に対処する。 具体的には,硬い対象メッシュを事前に定義し,メッシュ変形を形成するための初期メッシュのみを推定し,コンパクトな一段階ソリューションに寄与する。 初期メッシュは、残差進行回帰戦略を持つ完全畳み込みネットワークを用いて予測される。 コンテンツ忠実度の高い結果を得るため,境界長方形,メッシュ形状保存,コンテンツ知覚自然を同時に促進する包括的目的関数が提案されている。 さらに、不規則な境界やシーンに大きな多様性を持つ最初の画像縫合整形データセットを構築した。 実験は従来の手法よりも定量的にも質的にも優位性を示す。

Stitched images provide a wide field-of-view (FoV) but suffer from unpleasant irregular boundaries. To deal with this problem, existing image rectangling methods devote to searching an initial mesh and optimizing a target mesh to form the mesh deformation in two stages. Then rectangular images can be generated by warping stitched images. However, these solutions only work for images with rich linear structures, leading to noticeable distortions for portraits and landscapes with non-linear objects. In this paper, we address these issues by proposing the first deep learning solution to image rectangling. Concretely, we predefine a rigid target mesh and only estimate an initial mesh to form the mesh deformation, contributing to a compact one-stage solution. The initial mesh is predicted using a fully convolutional network with a residual progressive regression strategy. To obtain results with high content fidelity, a comprehensive objective function is proposed to simultaneously encourage the boundary rectangular, mesh shape-preserving, and content perceptually natural. Besides, we build the first image stitching rectangling dataset with a large diversity in irregular boundaries and scenes. Experiments demonstrate our superiority over traditional methods both quantitatively and qualitatively.
翻訳日:2022-03-09 15:02:05 公開日:2022-03-08
# 人間集団検出のための自己教師付き社会関係表現

Self-supervised Social Relation Representation for Human Group Detection ( http://arxiv.org/abs/2203.03843v1 )

ライセンス: Link先を確認
Jiacheng Li, Ruize Han, Haomin Yan, Zekun Qian, Wei Feng, Song Wang(参考訳) 人々の集団をグループに分割するヒューマングループ検出は、ビデオに基づく人間の社会的活動分析にとって重要なステップである。 本稿では,人間集団検出のための新しい2段階のマルチヘッドフレームワークを提案する。 第1段階では,人間行動シミュレータヘッドを提案し,社会的接地された多人数行動関係を利用して自己教師あり訓練を行う社会関係特徴埋め込みを学習する。 第2段階では,社会関係の埋め込みに基づいて,人間集団検出のための自己注意型ネットワークを開発する。 PANDAとJRDB-Groupの2つの大規模ベンチマークにおいて,提案手法の有効性を検証した。 自己教師付き社会関係埋め込みの恩恵を受け、非常に少ない(ラベル付き)トレーニングデータで有望な結果を提供できる。 ソースコードを一般向けに公開します。

Human group detection, which splits crowd of people into groups, is an important step for video-based human social activity analysis. The core of human group detection is the human social relation representation and division.In this paper, we propose a new two-stage multi-head framework for human group detection. In the first stage, we propose a human behavior simulator head to learn the social relation feature embedding, which is self-supervisely trained by leveraging the socially grounded multi-person behavior relationship. In the second stage, based on the social relation embedding, we develop a self-attention inspired network for human group detection. Remarkable performance on two state-of-the-art large-scale benchmarks, i.e., PANDA and JRDB-Group, verifies the effectiveness of the proposed framework. Benefiting from the self-supervised social relation embedding, our method can provide promising results with very few (labeled) training data. We will release the source code to the public.
翻訳日:2022-03-09 15:01:45 公開日:2022-03-08
# 173人から収集した新しい27種類の手話データセット

A New 27 Class Sign Language Dataset Collected from 173 Individuals ( http://arxiv.org/abs/2203.03859v1 )

ライセンス: Link先を確認
Arda Mavi and Zeynep Dikle(参考訳) インタビューの後、手話を使う言語障害の個人は手話が知らない人とのコミュニケーションが困難であることを理解している。 コミュニケーションの問題により、言語障害のある個人の自立感が損なわれ、社会との社交性が低下する可能性がある。 音声障害者のコミュニケーション問題を軽減できる技術開発に寄与するため,本論文では新たなデータセットを提示する。 データセットは、Kaggle DatasetsのWebページで27 Class Sign Language Datasetとして公開された173人のボランティアから収集されたアメリカ手話ベースの写真を処理することで作成されました。

After the interviews, it has been comprehended that speech-impaired individuals who use sign languages have difficulty communicating with other people who do not know sign language. Due to the communication problems, the sense of independence of speech-impaired individuals could be damaged and lead them to socialize less with society. To contribute to the development of technologies, that can reduce the communication problems of speech-impaired persons, a new dataset was presented with this paper. The dataset was created by processing American Sign Language-based photographs collected from 173 volunteers, published as 27 Class Sign Language Dataset on the Kaggle Datasets web page.
翻訳日:2022-03-09 15:01:29 公開日:2022-03-08
# アウト・オブ・ディストリビューションデータを用いた弱教師付きセマンティックセグメンテーション

Weakly Supervised Semantic Segmentation using Out-of-Distribution Data ( http://arxiv.org/abs/2203.03860v1 )

ライセンス: Link先を確認
Jungbeom Lee, Seong Joon Oh, Sangdoo Yun, Junsuk Choe, Eunji Kim, Sungroh Yoon(参考訳) 弱教師付きセマンティックセグメンテーション(WSSS)法は、しばしば分類器から得られるピクセルレベルのローカライゼーションマップ上に構築される。 しかし、クラスラベルのみのトレーニングでは、分類器は前景と背景(列車や鉄道など)の急激な相関に悩まされ、WSSSの性能を根本的に制限する。 この問題にさらなる監督で対処する以前の取り組みがあった。 本稿では,フォアグラウンドと背景を区別する新たな情報源を提案する。 特に、分類器が偽陽性の予測をする可能性が高いハードオードを利用する。 これらのサンプルは、典型的には背景(レールなど)に重要な視覚的特徴を持ち、分類器は前景(列車など)として混同されることが多い。 このようなハードなoodを取得するには、大量のアノテーションの労力は必要ありません。 ハードオードを利用したw-ood法を提案する。 W-OoDはPascal VOC 2012で最先端のパフォーマンスを達成した。

Weakly supervised semantic segmentation (WSSS) methods are often built on pixel-level localization maps obtained from a classifier. However, training on class labels only, classifiers suffer from the spurious correlation between foreground and background cues (e.g. train and rail), fundamentally bounding the performance of WSSS. There have been previous endeavors to address this issue with additional supervision. We propose a novel source of information to distinguish foreground from the background: Out-of-Distribution (OoD) data, or images devoid of foreground object classes. In particular, we utilize the hard OoDs that the classifier is likely to make false-positive predictions. These samples typically carry key visual features on the background (e.g. rail) that the classifiers often confuse as foreground (e.g. train), so these cues let classifiers correctly suppress spurious background cues. Acquiring such hard OoDs does not require an extensive amount of annotation efforts; it only incurs a few additional image-level labeling costs on top of the original efforts to collect class labels. We propose a method, W-OoD, for utilizing the hard OoDs. W-OoD achieves state-of-the-art performance on Pascal VOC 2012.
翻訳日:2022-03-09 15:01:18 公開日:2022-03-08
# サブサンプリングレーダデータからの物体検出のためのエンドツーエンドシステム

End-to-end system for object detection from sub-sampled radar data ( http://arxiv.org/abs/2203.03905v1 )

ライセンス: Link先を確認
Madhumitha Sakthi, Ahmed Tewfik, Marius Arvinte, Haris Vikalo(参考訳) 自律走行システムにおいて、ロバストで正確なセンシングが重要である。 レーダなどのセンサを用いた複雑な都市環境における状況把握の必要性は、電力と遅延効率のよい信号取得方法の研究の動機となっている。 本稿では,極端に気象条件下で動作可能なエンドツーエンドの信号処理パイプラインを提案する。 オブジェクト検出の結果は、サブサンプルのレーダーデータにさらに活用され、サブサンプルが画像情報に依存する以前の作業とは対照的である。 降雪や霧などの極端な気象条件下で20%の試料と低照度夜間に再構成されたレーダーデータに基づいてロバストな検出を行う。 さらに,20%のサンプルレーダデータを微調整セットで生成し,シーン間におけるap50の1.1%の利得と高速道路条件における3%のap50利得を示す。

Robust and accurate sensing is of critical importance for advancing autonomous automotive systems. The need to acquire situational awareness in complex urban conditions using sensors such as radar has motivated research on power and latency-efficient signal acquisition methods. In this paper, we present an end-to-end signal processing pipeline, capable of operating in extreme weather conditions, that relies on sub-sampled radar data to perform object detection in vehicular settings. The results of the object detection are further utilized to sub-sample forthcoming radar data, which stands in contrast to prior work where the sub-sampling relies on image information. We show robust detection based on radar data reconstructed using 20% of samples under extreme weather conditions such as snow or fog, and on low-illuminated nights. Additionally, we generate 20% sampled radar data in a fine-tuning set and show 1.1% gain in AP50 across scenes and 3% AP50 gain in motorway condition.
翻訳日:2022-03-09 14:59:24 公開日:2022-03-08
# グローバル最適イベントカメラモーション推定

Globally-Optimal Event Camera Motion Estimation ( http://arxiv.org/abs/2203.03914v1 )

ライセンス: Link先を確認
Xin Peng, Yifu Wang, Ling Gao, Laurent Kneip(参考訳) イベントカメラは、HDR条件でよく機能し、時間分解能の高いバイオインスパイアされたセンサーである。 しかし、従来のフレームベースのカメラとは異なり、イベントカメラは非同期ピクセルレベルの明るさ変化を測定し、高度に離散化されたフォーマットでそれらを返すため、新しいアルゴリズムが必要である。 本稿では,イベントカメラの正面並列動作推定について述べる。 事象の流れは、時空体積内の一般のホモグラフィックウォーピングによってモデル化され、その目的は、無秩序な事象のイメージ内のコントラストの最大化として定式化される。 しかし、先行技術とは対照的に、この一般的な非凸問題に対する世界的最適解を導出し、良い初期推定への依存性を取り除く。 提案手法は,6つの異なるコントラスト推定関数に対する新奇,再帰的,下位境界を導出する分岐・境界最適化に依拠する。 提案手法の実用的妥当性は,下向きのイベントカメラを用いたAGV運動推定への高い成功例によって裏付けられている。

Event cameras are bio-inspired sensors that perform well in HDR conditions and have high temporal resolution. However, different from traditional frame-based cameras, event cameras measure asynchronous pixel-level brightness changes and return them in a highly discretised format, hence new algorithms are needed. The present paper looks at fronto-parallel motion estimation of an event camera. The flow of the events is modeled by a general homographic warping in a space-time volume, and the objective is formulated as a maximisation of contrast within the image of unwarped events. However, in stark contrast to prior art, we derive a globally optimal solution to this generally non-convex problem, and thus remove the dependency on a good initial guess. Our algorithm relies on branch-and-bound optimisation for which we derive novel, recursive upper and lower bounds for six different contrast estimation functions. The practical validity of our approach is supported by a highly successful application to AGV motion estimation with a downward facing event camera, a challenging scenario in which the sensor experiences fronto-parallel motion in front of noisy, fast moving textures.
翻訳日:2022-03-09 14:59:08 公開日:2022-03-08
# 個人再識別のための部分的自己監督型事前訓練

Part-Aware Self-Supervised Pre-Training for Person Re-Identification ( http://arxiv.org/abs/2203.03931v1 )

ライセンス: Link先を確認
Kuan Zhu, Haiyun Guo, Tianyi Yan, Yousong Zhu, Jinqiao Wang, Ming Tang(参考訳) 人物再識別(ReID)において、最近の研究は、未認識の人物画像上でモデルを事前訓練することが、ImageNetよりもはるかに優れていることを実証している。 しかし、これらの研究は、画像分類用に設計された既存の自己教師あり学習(SSL)手法を直接ReIDに適用する。 これらのSSLメソッドは、ローカルビュー(例えば、赤いTシャツ、青いショートパンツ)の出力とグローバルビューの出力を同時に一致させ、多くの詳細を失う。 本稿では,ReID固有の事前学習手法であるPart-Aware Self-Supervised Pre-training (PASS)を提案する。 passは画像をいくつかのローカル領域に分割し、各領域からランダムに切り抜かれたローカルビューに特定の学習可能な[part]トークンを割り当てる。 一方,全地域の[一部]がグローバルビューに付加されている。 PASSは同じ[PART]上のローカルビューとグローバルビューの出力に一致することを学習する。 すなわち、地域からのローカルビューの学習[一部]は、グローバルビューから学んだ対応する[一部]としか一致しない。 その結果、各[PART]は画像の特定の局所領域に集中し、その領域のきめ細かい情報を抽出することができる。 実験の結果、PASSはMarket1501とMSMT17の様々なReIDタスク(例えば、PASSが事前訓練したバニラVT-S/16では、Market1501の92.2\%/90.2\%/88.5\% mAP精度を監督/UDA/USL ReIDに設定している。 私たちのコードはhttps://github.com/C ASIA-IVA-Lab/PASS-re IDで公開されています。

In person re-identification (ReID), very recent researches have validated pre-training the models on unlabelled person images is much better than on ImageNet. However, these researches directly apply the existing self-supervised learning (SSL) methods designed for image classification to ReID without any adaption in the framework. These SSL methods match the outputs of local views (e.g., red T-shirt, blue shorts) to those of the global views at the same time, losing lots of details. In this paper, we propose a ReID-specific pre-training method, Part-Aware Self-Supervised pre-training (PASS), which can generate part-level features to offer fine-grained information and is more suitable for ReID. PASS divides the images into several local areas, and the local views randomly cropped from each area are assigned with a specific learnable [PART] token. On the other hand, the [PART]s of all local areas are also appended to the global views. PASS learns to match the output of the local views and global views on the same [PART]. That is, the learned [PART] of the local views from a local area is only matched with the corresponding [PART] learned from the global views. As a result, each [PART] can focus on a specific local area of the image and extracts fine-grained information of this area. Experiments show PASS sets the new state-of-the-art performances on Market1501 and MSMT17 on various ReID tasks, e.g., vanilla ViT-S/16 pre-trained by PASS achieves 92.2\%/90.2\%/88.5\% mAP accuracy on Market1501 for supervised/UDA/USL ReID. Our codes are available at https://github.com/C ASIA-IVA-Lab/PASS-re ID.
翻訳日:2022-03-09 14:58:48 公開日:2022-03-08
# Dynamic Group Transformer: Dynamic Group Attention を備えた汎用視覚変換器バックボーン

Dynamic Group Transformer: A General Vision Transformer Backbone with Dynamic Group Attention ( http://arxiv.org/abs/2203.03937v1 )

ライセンス: Link先を確認
Kai Liu, Tianyi Wu, Cong Liu, Guodong Guo(参考訳) 近年、トランスフォーマーは様々な視覚タスクにおいて有望な性能を示している。 各クエリがすべてのキー/値に従属することによる二次計算の複雑さを低減するため、各クエリが手作りウィンドウ内のキー/値にのみ従うローカル領域内の注意の範囲を様々な方法で制限した。 しかし、これらの手作りウィンドウ分割機構は、データに依存しず、入力内容を無視しているため、あるクエリが無関係なキー/値に対応する可能性がある。 本稿では,すべての問合せを複数のグループに動的に分割し,各グループに対して最も関連するキー/値を選択する動的グループアテンション(dgアテンション)を提案する。 我々のDG-Attentionは、手作りウィンドウベースの注意に使用される空間的制約なしに、柔軟により関連する依存関係をモデル化できる。 dg-attentionを基盤として,dynamic group transformer (dgt) という一般ビジョントランスフォーマーを開発した。 画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションなど,複数の共通ビジョンタスクにおいて,我々のモデルが最先端の手法より優れていることを示す。

Recently, Transformers have shown promising performance in various vision tasks. To reduce the quadratic computation complexity caused by each query attending to all keys/values, various methods have constrained the range of attention within local regions, where each query only attends to keys/values within a hand-crafted window. However, these hand-crafted window partition mechanisms are data-agnostic and ignore their input content, so it is likely that one query maybe attends to irrelevant keys/values. To address this issue, we propose a Dynamic Group Attention (DG-Attention), which dynamically divides all queries into multiple groups and selects the most relevant keys/values for each group. Our DG-Attention can flexibly model more relevant dependencies without any spatial constraint that is used in hand-crafted window based attention. Built on the DG-Attention, we develop a general vision transformer backbone named Dynamic Group Transformer (DGT). Extensive experiments show that our models can outperform the state-of-the-art methods on multiple common vision tasks, including image classification, semantic segmentation, object detection, and instance segmentation.
翻訳日:2022-03-09 14:58:17 公開日:2022-03-08
# RC-MVSNet:ニューラルレンダリングによる教師なしマルチビューステレオ

RC-MVSNet: Unsupervised Multi-View Stereo with Neural Rendering ( http://arxiv.org/abs/2203.03949v1 )

ライセンス: Link先を確認
Di Chang, Alja\v{z} Bo\v{z}i\v{c}, Tong Zhang, Qingsong Yan, Yingcong Chen, Sabine S\"usstrunk, Matthias Nie{\ss}ner(参考訳) 異なるビュー間で正確な対応を見つけることは、教師なしマルチビューステレオ(MVS)のアキレスのヒールである。 既存の方法は、対応するピクセルが同様の測光機能を持つという仮定に基づいている。 しかし、現実のシナリオにおけるマルチビュー画像は非ランベルト曲面を観察し、オクルージョンを経験する。 本研究では、ビュー間の対応のあいまいさを解決するために、ニューラルネットワーク(RC-MVSNet)を用いた新しいアプローチを提案する。 具体的には,物体表面近傍の幾何学的特徴を制約して咬合を緩和するために,奥行きレンダリングの一貫性損失を課す。 同時に、非ランベルト面においても一貫した監督を生成するために参照ビュー合成損失を導入する。 dtu と tanks\& temples のベンチマークに関する広範な実験により、我々の rc-mvsnet のアプローチは、教師なしmvs フレームワークよりも最先端のパフォーマンスを達成し、多くの教師付きメソッドと競合するパフォーマンスを実現していることが示された。

Finding accurate correspondences among different views is the Achilles' heel of unsupervised Multi-View Stereo (MVS). Existing methods are built upon the assumption that corresponding pixels share similar photometric features. However, multi-view images in real scenarios observe non-Lambertian surfaces and experience occlusions. In this work, we propose a novel approach with neural rendering (RC-MVSNet) to solve such ambiguity issues of correspondences among views. Specifically, we impose a depth rendering consistency loss to constrain the geometry features close to the object surface to alleviate occlusions. Concurrently, we introduce a reference view synthesis loss to generate consistent supervision, even for non-Lambertian surfaces. Extensive experiments on DTU and Tanks\&Temples benchmarks demonstrate that our RC-MVSNet approach achieves state-of-the-art performance over unsupervised MVS frameworks and competitive performance to many supervised methods.The trained models and code will be released at https://github.com/B oese0601/RC-MVSNet.
翻訳日:2022-03-09 14:57:54 公開日:2022-03-08
# 3次元ボリュームネットと2.5次元テクスチャ転送を用いた高効率・高精度ハイパースペクトルパンシャーピング

Efficient and Accurate Hyperspectral Pansharpening Using 3D VolumeNet and 2.5D Texture Transfer ( http://arxiv.org/abs/2203.03951v1 )

ライセンス: Link先を確認
Yinao Li, Yutaro Iwamoto, Ryousuke Nakamura, Lanfen Lin, Ruofeng Tong, Yen-Wei Chen(参考訳) 近年、畳み込みニューラルネットワーク(CNN)は、高スペクトルパンシャーピングのための単一像SRにおいて有望な結果を得た。 しかし、より少ないパラメータと短い予測時間でCNNの表現能力を向上することは困難で重要な課題である。 本稿では,前述した3次元cnnモデルボリュームネットと2.5次元テクスチャ転送法を組み合わせて,他のモード分解能(hr)画像を用いたマルチスペクトル画像融合法を提案する。 マルチスペクトル(MS)画像は複数のバンドで構成され、各バンドは2D画像スライスであるため、MS画像は3Dデータとして見ることができる。 そこで,提案したVolumeNetを用いて,HRパンクロマティック(PAN)画像とバイキュビック補間MS画像とを融合する。 提案する3次元ボリュームネットは,モデルの受容領域を拡大することにより,精度を効果的に向上できるため,その軽量な構造により,多数のリモートセンシング画像を購入することなく,既存の手法よりも優れた性能を実現することができる。 さらに、VolumeNetはHR MR画像で失われた高周波情報を可能な限り復元することができ、次のステップで特徴抽出の困難さを軽減することができる。 最新の技術の一つとして、画像再構成の視覚的性能と品質評価指標を効果的かつ効率的に改善する深層学習に基づくテクスチャ転送が実証されている。 RGB画像のテクスチャ転送処理とは異なり、HR PAN画像を基準画像として使用し、2.5Dテクスチャ転送と呼ばれるMS画像の各周波数帯域に対してテクスチャ転送を行う。 実験の結果,提案手法は客観的精度評価,手法効率,視覚的主観的評価において,既存手法よりも優れていた。

Recently, convolutional neural networks (CNN) have obtained promising results in single-image SR for hyperspectral pansharpening. However, enhancing CNNs' representation ability with fewer parameters and a shorter prediction time is a challenging and critical task. In this paper, we propose a novel multi-spectral image fusion method using a combination of the previously proposed 3D CNN model VolumeNet and 2.5D texture transfer method using other modality high resolution (HR) images. Since a multi-spectral (MS) image consists of several bands and each band is a 2D image slice, MS images can be seen as 3D data. Thus, we use the previously proposed VolumeNet to fuse HR panchromatic (PAN) images and bicubic interpolated MS images. Because the proposed 3D VolumeNet can effectively improve the accuracy by expanding the receptive field of the model, and due to its lightweight structure, we can achieve better performance against the existing method without purchasing a large number of remote sensing images for training. In addition, VolumeNet can restore the high-frequency information lost in the HR MR image as much as possible, reducing the difficulty of feature extraction in the following step: 2.5D texture transfer. As one of the latest technologies, deep learning-based texture transfer has been demonstrated to effectively and efficiently improve the visual performance and quality evaluation indicators of image reconstruction. Different from the texture transfer processing of RGB image, we use HR PAN images as the reference images and perform texture transfer for each frequency band of MS images, which is named 2.5D texture transfer. The experimental results show that the proposed method outperforms the existing methods in terms of objective accuracy assessment, method efficiency, and visual subjective evaluation.
翻訳日:2022-03-09 14:57:35 公開日:2022-03-08
# 教師なしビデオ異常検出のための生成協調学習

Generative Cooperative Learning for Unsupervised Video Anomaly Detection ( http://arxiv.org/abs/2203.03962v1 )

ライセンス: Link先を確認
Muhammad Zaigham Zaheer, Arif Mahmood, Muhammad Haris Khan, Mattia Segu, Fisher Yu, Seung-Ik Lee(参考訳) ビデオ異常検出はocc(weakly supervised and one-class classification)設定においてよく研究されている。 しかし、非教師なしビデオ異常検出法は、多くの場合、発生頻度が低く、通常は明確に定義されていないため、基礎的な真実の監督がない場合には、学習アルゴリズムの性能に悪影響を及ぼす可能性がある。 この問題は、退屈なアノテーションを入手し、人間の介入なしにそのようなシステムをデプロイするコストを完全に根絶できるため、難しいが報われている。 そこで本研究では,ジェネレータと判別器のクロススーパービジョンを構築するために,異常の頻度が低いビデオ異常検出のための,教師なし生成協調学習(gcl)手法を提案する。 基本的に、両方のネットワークは協調的に訓練され、教師なしの学習が可能になる。 2つの大規模ビデオ異常検出データセット、UCF犯罪、上海技術について広範な実験を行った。 既存の最先端の教師なし手法とOCC手法との整合性の改善は,我々のアプローチの有効性を裏付けるものである。

Video anomaly detection is well investigated in weakly-supervised and one-class classification (OCC) settings. However, unsupervised video anomaly detection methods are quite sparse, likely because anomalies are less frequent in occurrence and usually not well-defined, which when coupled with the absence of ground truth supervision, could adversely affect the performance of the learning algorithms. This problem is challenging yet rewarding as it can completely eradicate the costs of obtaining laborious annotations and enable such systems to be deployed without human intervention. To this end, we propose a novel unsupervised Generative Cooperative Learning (GCL) approach for video anomaly detection that exploits the low frequency of anomalies towards building a cross-supervision between a generator and a discriminator. In essence, both networks get trained in a cooperative fashion, thereby allowing unsupervised learning. We conduct extensive experiments on two large-scale video anomaly detection datasets, UCF crime, and ShanghaiTech. Consistent improvement over the existing state-of-the-art unsupervised and OCC methods corroborate the effectiveness of our approach.
翻訳日:2022-03-09 14:57:03 公開日:2022-03-08
# GaitStrip: 効果的なストリップ型特徴表現とマルチレベルフレームワークによる歩行認識

GaitStrip: Gait Recognition via Effective Strip-based Feature Representations and Multi-Level Framework ( http://arxiv.org/abs/2203.03966v1 )

ライセンス: Link先を確認
Ming Wang, Beibei Lin, Xianda Guo, Lincheng Li, Zheng Zhu, Jiande Sun, Shunli Zhang and Xin Yu(参考訳) 多くの歩行認識法は、まず人間の歩行をN部分に分割し、それらを結合して部分ベースの特徴表現を確立する。 彼らの歩行認識性能は、異なるデータセットで経験的に選択される分割戦略によってしばしば影響を受ける。 しかし, 部品の基本成分としてのストリップは, 異なる分割戦略に対して非依存であることがわかった。 そこで本研究では,GaitStripというストリップベースのマルチレベル歩行認識ネットワークを提案し,様々なレベルの歩行情報を抽出する。 具体的には、私たちの高レベルブランチは歩行シーケンスのコンテキストを探求し、低レベルブランチは詳細な姿勢変化に焦点を当てています。 本稿では、人体の各ストリップを基本単位として、ストリップ型特徴表現を学習するための新しいストリップ型特徴抽出器(spb)を提案する。 さらに,異なる歩行表現を抽出するために,拡張畳み込みモジュール (ECM) と呼ばれる新しいマルチブランチ構造を提案する。 ecmは、spatial-temporal feature extractor (st)、frame-level feature extractor (fl)、spabの2つで構成されており、それぞれのブランチは、ネットワークの堅牢性を改善するために使用できる特定の表現に焦点を当てている。 具体的には、STは歩数列の時空間的特徴を抽出し、FLは各フレームの特徴表現を生成する。 第2に、構造的再パラメータ化手法を導入することにより、ECMのパラメータをテストで削減することができる。 我々のGaitStripは,正常歩行と複雑歩行の両条件で最先端の歩行性能を達成できることを示した。

Many gait recognition methods first partition the human gait into N-parts and then combine them to establish part-based feature representations. Their gait recognition performance is often affected by partitioning strategies, which are empirically chosen in different datasets. However, we observe that strips as the basic component of parts are agnostic against different partitioning strategies. Motivated by this observation, we present a strip-based multi-level gait recognition network, named GaitStrip, to extract comprehensive gait information at different levels. To be specific, our high-level branch explores the context of gait sequences and our low-level one focuses on detailed posture changes. We introduce a novel StriP-Based feature extractor (SPB) to learn the strip-based feature representations by directly taking each strip of the human body as the basic unit. Moreover, we propose a novel multi-branch structure, called Enhanced Convolution Module (ECM), to extract different representations of gaits. ECM consists of the Spatial-Temporal feature extractor (ST), the Frame-Level feature extractor (FL) and SPB, and has two obvious advantages: First, each branch focuses on a specific representation, which can be used to improve the robustness of the network. Specifically, ST aims to extract spatial-temporal features of gait sequences, while FL is used to generate the feature representation of each frame. Second, the parameters of the ECM can be reduced in test by introducing a structural re-parameterization technique. Extensive experimental results demonstrate that our GaitStrip achieves state-of-the-art performance in both normal walking and complex conditions.
翻訳日:2022-03-09 14:56:48 公開日:2022-03-08
# ゼロショット行動認識と局所化のためのユニバーサルプロトタイプトランスポート

Universal Prototype Transport for Zero-Shot Action Recognition and Localization ( http://arxiv.org/abs/2203.03971v1 )

ライセンス: Link先を確認
Pascal Mettes(参考訳) この研究は、トレーニング例が存在しないビデオにおけるアクションカテゴリを認識する問題に対処する。 現在の最先端技術は、ビデオから共有セマンティクス空間への普遍的なマッピングを学習することで、このようなゼロショット認識を可能にする。 効果はあるものの、普遍的なアクションとオブジェクトマッピングはそれらのカテゴリに偏っている。 このようなバイアスは、意味空間における見かけと見えないカテゴリーの間のバイアスによってさらに増幅される。 複合バイアスは、多くの目に見えないアクションカテゴリを推論中に選択しないだけで、ゼロショット進行を阻害する。 我々はこの制限に対処し,ゼロショット動作認識のためのユニバーサルプロトタイプトランスポートを導入する。 主なアイデアは、無意味な動作の意味的プロトタイプを変換、すなわち、無ラベルテストセットの分布を用いて再配置することである。 ユニバーサルアクションモデルでは、まず、目に見えないアクションプロトタイプから全ての投影されたテストビデオの集合への超球面の最適トランスポートマッピングを求める。 次に、各未確認動作に対する目標プロトタイプを、輸送結合に対する重み付きFr'echet平均として定義する。 対象のプロトタイプを具備し,原型および対象のプロトタイプにまたがる測地線に沿って未知のアクションプロトタイプを再配置し,意味的正則化の一形態として機能することを提案する。 汎用オブジェクトモデルでは、目に見えないアクションプロトタイプとセマンティックオブジェクトプロトタイプ間の最適な移動に基づいてターゲットプロトタイプを定義する。 実験により、ユニバーサルプロトタイプトランスポートは、目に見えないアクションプロトタイプのバイアス選択を減らし、ユニバーサルアクションとオブジェクトモデルの両方を向上し、ゼロショット分類と時空間局所化の最先端性能をもたらすことを示す。

This work addresses the problem of recognizing action categories in videos for which no training examples are available. The current state-of-the-art enables such a zero-shot recognition by learning universal mappings from videos to a shared semantic space, either trained on large-scale seen actions or on objects. While effective, we find that universal action and object mappings are biased to their seen categories. Such biases are further amplified due to biases between seen and unseen categories in the semantic space. The compounding biases result in many unseen action categories simply never being selected during inference, hampering zero-shot progress. We seek to address this limitation and introduce universal prototype transport for zero-shot action recognition. The main idea is to re-position the semantic prototypes of unseen actions through transduction, i.e. by using the distribution of the unlabelled test set. For universal action models, we first seek to find a hyperspherical optimal transport mapping from unseen action prototypes to the set of all projected test videos. We then define a target prototype for each unseen action as the weighted Fr\'echet mean over the transport couplings. Equipped with a target prototype, we propose to re-position unseen action prototypes along the geodesic spanned by the original and target prototypes, acting as a form of semantic regularization. For universal object models, we outline a variant that defines target prototypes based on an optimal transport between unseen action prototypes and semantic object prototypes. Empirically, we show that universal prototype transport diminishes the biased selection of unseen action prototypes and boosts both universal action and object models, resulting in state-of-the-art performance for zero-shot classification and spatio-temporal localization.
翻訳日:2022-03-09 14:55:15 公開日:2022-03-08
# GaitEdge: エンド・ツー・エンドの歩行認識を超越して実用性向上

GaitEdge: Beyond Plain End-to-end Gait Recognition for Better Practicality ( http://arxiv.org/abs/2203.03972v1 )

ライセンス: Link先を確認
Junhao Liang, Chao Fan, Saihui Hou, Chuanfu Shen, Yongzhen Huang, Shiqi Yu(参考訳) 歩行は、長距離で個人を特定する最も有望なバイオメトリックスの一つである。 従来の手法はシルエットの認識に重点を置いていたが、RGB画像から直接歩行特徴を抽出するエンドツーエンドの手法は改善されている。 しかし,これらの手法は必然的に歩行関連ノイズ,すなわち低レベルのテクスチャやカラフルな情報に悩まされている。 実験により,この視点に対応するために,ドメイン間評価と可視化の両方を設計する。 本研究では,歩行非関連情報を効果的にブロックし,エンドツーエンドトレーニングの可能性をリリースできるGaitEdgeという新しいエンドツーエンドフレームワークを提案する。 具体的には、gaitedgeは歩行者セグメンテーションネットワークの出力を合成し、それに続く認識ネットワークに供給し、そこで合成シルエットはトレーニング可能な体のエッジと固定された内部で構成され、認識ネットワークが受信する情報を制限する。 さらに、シルエットの整列のためのGaitAlignは、差別性を失うことなくGaitEdgeに埋め込まれる。 casia-bと新たに構築したttg-200の実験結果から,gaitedgeは従来の手法を大きく上回っており,rgbノイズを効果的にブロックするためのより実用的なエンドツーエンドパラダイムを提供する。 すべてのソースコードがリリースされます。

Gait is one of the most promising biometrics to identify individuals at a long distance. Although most previous methods have focused on recognizing the silhouettes, several end-to-end methods that extract gait features directly from RGB images perform better. However, we argue that these end-to-end methods inevitably suffer from the gait-unrelated noises, i.e., low-level texture and colorful information. Experimentally, we design both the cross-domain evaluation and visualization to stand for this view. In this work, we propose a novel end-to-end framework named GaitEdge which can effectively block gait-unrelated information and release end-to-end training potential. Specifically, GaitEdge synthesizes the output of the pedestrian segmentation network and then feeds it to the subsequent recognition network, where the synthetic silhouettes consist of trainable edges of bodies and fixed interiors to limit the information that the recognition network receives. Besides, GaitAlign for aligning silhouettes is embedded into the GaitEdge without loss of differentiability. Experimental results on CASIA-B and our newly built TTG-200 indicate that GaitEdge significantly outperforms the previous methods and provides a more practical end-to-end paradigm for blocking RGB noises effectively. All the source code will be released.
翻訳日:2022-03-09 14:54:43 公開日:2022-03-08
# SimpleTrack: マルチオブジェクト追跡のためのJDEアプローチの再考と改善

SimpleTrack: Rethinking and Improving the JDE Approach for Multi-Object Tracking ( http://arxiv.org/abs/2203.03985v1 )

ライセンス: Link先を確認
Jiaxin Li and Yan Ding and Hualiang Wei(参考訳) 共同検出と埋め込み(JDE)に基づく手法は、通常、マルチオブジェクト追跡(MOT)において単一のネットワークを持つオブジェクトのバウンディングボックスと埋め込み機能を推定する。 追跡段階において、JDEベースの手法は、目標が一時的に失われたりブロックされたりした場合に失敗する同じルールを適用して、目標の動作情報と外観情報を融合する。 この問題を克服するために,埋め込みコサイン距離と物体のgiou距離を組み合わせた新しい結合行列であるembeding and giou matrixを提案する。 データアソシエイトの性能をさらに向上させるためにSimpleTrackというシンプルなトラッカーを開発し、リアイデンティティのためのボトムアップ融合法を設計し、EG行列に基づく新しいトラッカー戦略を提案する。 実験の結果、SimpleTrackは61.6 HOTAや76.3 IDF1といった強力なデータアソシエーション能力を持つことがわかった。 さらに, EG行列を5種類のJDE手法に適用し, IDF1, HOTA, IDswメトリクスの大幅な改善を実現し, これらの手法の追跡速度を約20%向上させる。

Joint detection and embedding (JDE) based methods usually estimate bounding boxes and embedding features of objects with a single network in Multi-Object Tracking (MOT). In the tracking stage, JDE-based methods fuse the target motion information and appearance information by applying the same rule, which could fail when the target is briefly lost or blocked. To overcome this problem, we propose a new association matrix, the Embedding and Giou matrix, which combines embedding cosine distance and Giou distance of objects. To further improve the performance of data association, we develop a simple, effective tracker named SimpleTrack, which designs a bottom-up fusion method for Re-identity and proposes a new tracking strategy based on our EG matrix. The experimental results indicate that SimpleTrack has powerful data association capability, e.g., 61.6 HOTA and 76.3 IDF1 on MOT17. In addition, we apply the EG matrix to 5 different state-of-the-art JDE-based methods and achieve significant improvements in IDF1, HOTA and IDsw metrics, and increase the tracking speed of these methods by about 20%.
翻訳日:2022-03-09 14:54:15 公開日:2022-03-08
# Skating-Mixer: フィギュアスケートのためのマルチモーダルMLP

Skating-Mixer: Multimodal MLP for Scoring Figure Skating ( http://arxiv.org/abs/2203.03990v1 )

ライセンス: Link先を確認
Jingfei Xia, Mingchen Zhuge, Tiantian Geng, Shun Fan, Yuantai Wei, Zhenyu He and Feng Zheng(参考訳) フィギュアスケートのスコアリングは、プレーヤーの技術的な動きを判断し、バックグラウンドミュージックとの調整を必要とするため、難しい作業である。 事前学習に基づく作業は2つの理由からうまく解決できない。 1) フィギュアスケートにおける各動きは急速に変化するため、従来のフレームサンプリングを単純に適用すれば、特に3~5分間の持続ビデオにおいて多くの貴重な情報を失うため、極端に長距離表現学習が必要である。 2) 先行手法では, モデルにおける音声と視覚の関係をほとんど考慮しない。 そこで我々はSkating-MixerというマルチモーダルMLPアーキテクチャを導入する。 MLP-Mixerベースのフレームワークをマルチモーダルなスタイルに拡張し,設計したメモリリカレントユニット(MRU)を通じて長期的表現を効果的に学習する。 このモデルとは別に、私たちは高品質なオーディオビジュアルfs1000データセットも収集しました。このデータセットには、8種類のプログラムで1000以上のビデオが7つの異なる評価指標で表示され、数量と多様性の両方で他のデータセットを上回っています。 実験により、提案手法は、公開Fis-VおよびFS1000データセット上のすべての主要な指標に対してSOTAよりも優れていることが示された。 また,本手法を北京オリンピックにおける最近の大会に適用する分析を行い,強固性があることを実証した。

Figure skating scoring is a challenging task because it requires judging players' technical moves as well as coordination with the background music. Prior learning-based work cannot solve it well for two reasons: 1) each move in figure skating changes quickly, hence simply applying traditional frame sampling will lose a lot of valuable information, especially in a 3-5 minutes lasting video, so an extremely long-range representation learning is necessary; 2) prior methods rarely considered the critical audio-visual relationship in their models. Thus, we introduce a multimodal MLP architecture, named Skating-Mixer. It extends the MLP-Mixer-based framework into a multimodal fashion and effectively learns long-term representations through our designed memory recurrent unit (MRU). Aside from the model, we also collected a high-quality audio-visual FS1000 dataset, which contains over 1000 videos on 8 types of programs with 7 different rating metrics, overtaking other datasets in both quantity and diversity. Experiments show the proposed method outperforms SOTAs over all major metrics on the public Fis-V and our FS1000 dataset. In addition, we include an analysis applying our method to recent competitions that occurred in Beijing 2022 Winter Olympic Games, proving our method has strong robustness.
翻訳日:2022-03-09 14:53:53 公開日:2022-03-08
# ストリートシーンのリアルタイム意味セマンティクスセグメンテーションのためのステージアウェア特徴アライメントネットワーク

Stage-Aware Feature Alignment Network for Real-Time Semantic Segmentation of Street Scenes ( http://arxiv.org/abs/2203.04031v1 )

ライセンス: Link先を確認
Xi Weng, Yan Yan, Si Chen, Jing-Hao Xue, Hanzi Wang(参考訳) 過去数年間、深い畳み込みニューラルネットワークに基づく手法は、ストリートシーンのセマンティックセグメンテーションにおいて大きな進歩を遂げてきた。 近年の手法では,特徴マップを協調して意味的ギャップを緩和し,高いセグメンテーション精度を実現する。 しかし、通常はデコーダに同じネットワーク構成を持つ機能アライメントモジュールを採用するため、機能アグリゲーション中にデコーダの異なるステージの役割を無視し、複雑なデコーダ構造に繋がる。 このような方法は推論速度に大きな影響を及ぼす。 本稿では,街路シーンのリアルタイムセマンティックセマンティックセグメンテーションのためのエンコーダ・デコーダ構造に基づくSFANet(Stage-Aware Feature Alignment Network)を提案する。 具体的には、2つの隣接する特徴マップのレベルを効果的に調整・集約するために、ステージアウェア機能アライメントモジュール(sfa)を提案する。 SFAでは、デコーダにおける各ステージのユニークな役割を考慮し、新しいステージ認識機能拡張ブロック(FEB)を設計し、エンコーダからの特徴マップの空間的詳細と文脈的情報を強化する。 このようにして、非常にシンプルで効率的なマルチブランチデコーダ構造で、不整合問題に対処することができる。 さらに、推論フェーズ中に計算コストを増すことなく、マルチスケール対象問題を明確に緩和する補助訓練戦略を開発した。 実験の結果,提案するsfanetは,道路シーンのリアルタイムセマンティクスセグメンテーションにおいて,精度と速度のバランスが良好であることが判明した。 特に、ResNet-18に基づいて、SFANetは、GTX 1080Ti GPUを1つだけ使用して、挑戦的なCityscapesとCamVidテストデータセット上で、37 FPSと96 FPSの推論速度で、クラスワイドのIntersection-over-Un ion(mIoU)の平均78.1%と74.7%を取得する。

Over the past few years, deep convolutional neural network-based methods have made great progress in semantic segmentation of street scenes. Some recent methods align feature maps to alleviate the semantic gap between them and achieve high segmentation accuracy. However, they usually adopt the feature alignment modules with the same network configuration in the decoder and thus ignore the different roles of stages of the decoder during feature aggregation, leading to a complex decoder structure. Such a manner greatly affects the inference speed. In this paper, we present a novel Stage-aware Feature Alignment Network (SFANet) based on the encoder-decoder structure for real-time semantic segmentation of street scenes. Specifically, a Stage-aware Feature Alignment module (SFA) is proposed to align and aggregate two adjacent levels of feature maps effectively. In the SFA, by taking into account the unique role of each stage in the decoder, a novel stage-aware Feature Enhancement Block (FEB) is designed to enhance spatial details and contextual information of feature maps from the encoder. In this way, we are able to address the misalignment problem with a very simple and efficient multi-branch decoder structure. Moreover, an auxiliary training strategy is developed to explicitly alleviate the multi-scale object problem without bringing additional computational costs during the inference phase. Experimental results show that the proposed SFANet exhibits a good balance between accuracy and speed for real-time semantic segmentation of street scenes. In particular, based on ResNet-18, SFANet respectively obtains 78.1% and 74.7% mean of class-wise Intersection-over-Un ion (mIoU) at inference speeds of 37 FPS and 96 FPS on the challenging Cityscapes and CamVid test datasets by using only a single GTX 1080Ti GPU.
翻訳日:2022-03-09 14:53:32 公開日:2022-03-08
# StyleHEAT: 事前学習したStyleGANによるワンショット高分解能音声生成

StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via Pretrained StyleGAN ( http://arxiv.org/abs/2203.04036v1 )

ライセンス: Link先を確認
Fei Yin and Yong Zhang and Xiaodong Cun and Mingdeng Cao and Yanbo Fan and Xuan Wang and Qingyan Bai and Baoyuan Wu and Jue Wang and Yujiu Yang(参考訳) ワンショットの会話顔生成は、ビデオまたはオーディオセグメントによって駆動される任意のポートレート画像から高品質な会話顔映像を合成することを目的としている。 難しい品質要因の1つは、出力されたビデオの解像度である。 本研究では,事前学習されたスタイルガンの特徴空間を調査し,優れた空間変換特性を見出す。 そこで本研究では,事前学習したStyleGANを用いて,トレーニングデータセットの解像度限界を突破する可能性を探る。 本稿では,事前学習されたスタイルガンに基づく新しい統一フレームワークを提案し,高分解能映像生成,映像や音声の駆動による不連続制御,フレキシブルな顔編集を実現する。 私たちのフレームワークは、トレーニングデータセットの解像度が低くても、合成されたトーキングフェイスの解像度を初めて1024*1024に向上させる。 ビデオベースのモーション生成モジュールとオーディオベースのモジュールを設計し、映像生成を個別または共同で行うことができる。 予測された動きは、視覚的アニメーションのためのStyleGANの潜伏した特徴を変換するために使用される。 変換歪みを補正するために,キャリブレーションネットワークと,特徴を洗練するためのドメイン損失を提案する。 さらに,gan インバージョンによるグローバル編集と,3d morphable モデルに基づく直感的編集という,2種類の顔編集を可能にする。 総合的な実験は、最先端の手法よりも優れた映像品質、フレキシブルな制御性、および編集性を示す。

One-shot talking face generation aims at synthesizing a high-quality talking face video from an arbitrary portrait image, driven by a video or an audio segment. One challenging quality factor is the resolution of the output video: higher resolution conveys more details. In this work, we investigate the latent feature space of a pre-trained StyleGAN and discover some excellent spatial transformation properties. Upon the observation, we explore the possibility of using a pre-trained StyleGAN to break through the resolution limit of training datasets. We propose a novel unified framework based on a pre-trained StyleGAN that enables a set of powerful functionalities, i.e., high-resolution video generation, disentangled control by driving video or audio, and flexible face editing. Our framework elevates the resolution of the synthesized talking face to 1024*1024 for the first time, even though the training dataset has a lower resolution. We design a video-based motion generation module and an audio-based one, which can be plugged into the framework either individually or jointly to drive the video generation. The predicted motion is used to transform the latent features of StyleGAN for visual animation. To compensate for the transformation distortion, we propose a calibration network as well as a domain loss to refine the features. Moreover, our framework allows two types of facial editing, i.e., global editing via GAN inversion and intuitive editing based on 3D morphable models. Comprehensive experiments show superior video quality, flexible controllability, and editability over state-of-the-art methods.
翻訳日:2022-03-09 14:52:53 公開日:2022-03-08
# ストリートシーンにおけるリアルタイム意味セマンティクスセグメンテーションのためのディープマルチブランチアグリゲーションネットワーク

Deep Multi-Branch Aggregation Network for Real-Time Semantic Segmentation in Street Scenes ( http://arxiv.org/abs/2203.04037v1 )

ライセンス: Link先を確認
Xi Weng, Yan Yan, Genshun Dong, Chang Shu, Biao Wang, Hanzi Wang, Ji Zhang(参考訳) リアルタイムセマンティクスセグメンテーション(semantic segmentation)は、リアルタイムな推論速度で高いセグメンテーション精度を達成することを目的としている。 しかしながら、最先端のリアルタイムセマンティクスセグメンテーション手法の多くは、高速な推論のために空間的詳細や文脈情報を犠牲にする傾向があるため、セグメンテーションの品質が低下する。 本稿では,エンコーダ・デコーダ構造に基づく新しいディープ・マルチブランチ・アグリゲーション・ネットワーク(DMA-Net)を提案する。 具体的には、まずResNet-18をエンコーダとして採用し、コンボリューションの異なる段階から様々なレベルの特徴マップを効率的に生成する。 次に,マルチブランチアグリゲーションネットワーク(man)をデコーダとして開発し,機能マップの異なるレベルを効果的に集約し,マルチスケール情報をキャプチャする。 MANでは、格子構造を利用してネットワークの特徴表現を強化するために、格子強化残差ブロックを設計する。 一方、フィーチャーアグリゲーションの前に隣接するブランチからフィーチャーマップを明示的に変換するために、フィーチャートランスフォーメーションブロックが導入される。 さらに、グローバルコンテキスト情報を利用するためにグローバルコンテキストブロックが使用される。 これらのキーコンポーネントは密結合され、統合ネットワーク内で協調的に最適化される。 CityscapesとCamVidデータセットの大規模な実験結果から、提案したDMA-Netは、単一のNVIDIA GTX 1080Ti GPUのみを用いることで、46.7 FPSと119.8 FPSの推論速度で、それぞれ77.0%と73.6%の平均的Union(mIoU)が得られることが示された。 これはdma-netがストリートシーンにおけるセグメンテーションの品質とセグメンテーションのスピードとの間に良いトレードオフをもたらすことを示している。

Real-time semantic segmentation, which aims to achieve high segmentation accuracy at real-time inference speed, has received substantial attention over the past few years. However, many state-of-the-art real-time semantic segmentation methods tend to sacrifice some spatial details or contextual information for fast inference, thus leading to degradation in segmentation quality. In this paper, we propose a novel Deep Multi-branch Aggregation Network (called DMA-Net) based on the encoder-decoder structure to perform real-time semantic segmentation in street scenes. Specifically, we first adopt ResNet-18 as the encoder to efficiently generate various levels of feature maps from different stages of convolutions. Then, we develop a Multi-branch Aggregation Network (MAN) as the decoder to effectively aggregate different levels of feature maps and capture the multi-scale information. In MAN, a lattice enhanced residual block is designed to enhance feature representations of the network by taking advantage of the lattice structure. Meanwhile, a feature transformation block is introduced to explicitly transform the feature map from the neighboring branch before feature aggregation. Moreover, a global context block is used to exploit the global contextual information. These key components are tightly combined and jointly optimized in a unified network. Extensive experimental results on the challenging Cityscapes and CamVid datasets demonstrate that our proposed DMA-Net respectively obtains 77.0% and 73.6% mean Intersection over Union (mIoU) at the inference speed of 46.7 FPS and 119.8 FPS by only using a single NVIDIA GTX 1080Ti GPU. This shows that DMA-Net provides a good tradeoff between segmentation quality and speed for semantic segmentation in street scenes.
翻訳日:2022-03-09 14:52:27 公開日:2022-03-08
# マスクベース正則化による歩行認識

Gait Recognition with Mask-based Regularization ( http://arxiv.org/abs/2203.04038v1 )

ライセンス: Link先を確認
Chuanfu Shen, Beibei Lin, Shunli Zhang, George Q. Huang, Shiqi Yu, Xin Yu(参考訳) ほとんどの歩行認識法は静的な外見や動的歩行パターンから時空間表現を利用する。 しかし,多くの部分的手法は境界における表現を無視している。 加えて、トレーニングデータへの過剰フィッティング現象は、おそらく不十分なデータと低インフォーメーションなガイトシルエットによって引き起こされるため、歩行認識において比較的一般的である。 そこで本研究では,ReverseMaskというマスクを用いた新しい正規化手法を提案する。 特徴写像に摂動を注入することにより、畳み込みアーキテクチャが識別表現を学習し、一般化を促進するのに役立つ。 また、インセプションのようなReverseMask Blockを設計し、グローバルブランチ、フィーチャードロップブランチ、フィーチャースケーリングブランチの3つのブランチを持つ。 正確には、ドロップブランチは、部分的なアクティベーションがゼロになったときにきめ細かい表現を抽出することができる。 一方、スケーリングブランチは、機能マップをランダムにスケーリングし、アクティベーションの構造情報を保持し、オーバーフィッティングを防止する。 プラグアンドプレイのインセプションライクなReverseMaskブロックは、ネットワークの一般化にシンプルで効果的であり、また、多くの最先端メソッドの性能を向上させる。 大規模な実験により、ReverseMask正則化がベースラインの精度の向上と一般化の促進に役立つことが示されている。 さらに、InceptionライクなBlockによるベースラインは、最も人気のある2つのデータセットであるCASIA-BとOUMVLPの最先端メソッドよりも大幅に優れています。 ソースコードはリリースされます。

Most gait recognition methods exploit spatial-temporal representations from static appearances and dynamic walking patterns. However, we observe that many part-based methods neglect representations at boundaries. In addition, the phenomenon of overfitting on training data is relatively common in gait recognition, which is perhaps due to insufficient data and low-informative gait silhouettes. Motivated by these observations, we propose a novel mask-based regularization method named ReverseMask. By injecting perturbation on the feature map, the proposed regularization method helps convolutional architecture learn the discriminative representations and enhances generalization. Also, we design an Inception-like ReverseMask Block, which has three branches composed of a global branch, a feature dropping branch, and a feature scaling branch. Precisely, the dropping branch can extract fine-grained representations when partial activations are zero-outed. Meanwhile, the scaling branch randomly scales the feature map, keeping structural information of activations and preventing overfitting. The plug-and-play Inception-like ReverseMask block is simple and effective to generalize networks, and it also improves the performance of many state-of-the-art methods. Extensive experiments demonstrate that the ReverseMask regularization help baseline achieves higher accuracy and better generalization. Moreover, the baseline with Inception-like Block significantly outperforms state-of-the-art methods on the two most popular datasets, CASIA-B and OUMVLP. The source code will be released.
翻訳日:2022-03-09 14:51:54 公開日:2022-03-08
# 形状不変3次元逆点雲

Shape-invariant 3D Adversarial Point Clouds ( http://arxiv.org/abs/2203.04041v1 )

ライセンス: Link先を確認
Qidong Huang and Xiaoyi Dong and Dongdong Chen and Hang Zhou and Weiming Zhang and Nenghai Yu(参考訳) 敵意と不可視性は、敵意の摂動の2つの基本的だが対立的な特徴である。 3dポイントクラウド認識に対する以前の敵対的攻撃は、生成されたノイズを制限するための時間消費最適化における大域的距離損失のような「簡単な制約」を伴っているため、その注目すべきポイント外れ値についてしばしば批判されている。 ポイントクラウドは高度に構造化されたデータフォーマットであるが、メトリックスやその摂動を適切に制限することは困難である。 本稿では,点摂動の効率性と可視性を高めるための,新しい点雲感度マップを提案する。 このマップは、形状不変の逆向きノイズに遭遇する際のポイントクラウド認識モデルの脆弱性を明らかにする。 これらのノイズは形状面に沿って設計され、余分な距離損失の代わりに「拡張制約」がある。 具体的には、まず点クラウド入力の各点に対して可逆座標変換を適用し、点の自由度を1度削減し、接平面上での動きを制限する。 そして,ホワイトボックスモデルで得られた変質点雲の勾配を用いて,最善の攻撃方向を計算する。 最後に、各点に非負のスコアを割り当てて感度マップを構築することで、ホワイトボックスの逆視性とブラックボックスのクエリ効率を両立させる。 提案手法は, 各種点雲認識モデルにおいて, 対角的非受容性と異なる点雲防御条件に対する強い抵抗性を満足して, 優れた性能が得られることを示す。 私たちのコードは、https://github.com/s hikiw/SI-Adv.comで利用可能です。

Adversary and invisibility are two fundamental but conflict characters of adversarial perturbations. Previous adversarial attacks on 3D point cloud recognition have often been criticized for their noticeable point outliers, since they just involve an "implicit constrain" like global distance loss in the time-consuming optimization to limit the generated noise. While point cloud is a highly structured data format, it is hard to metric and constrain its perturbation with a simple loss properly. In this paper, we propose a novel Point-Cloud Sensitivity Map to boost both the efficiency and imperceptibility of point perturbations. This map reveals the vulnerability of point cloud recognition models when encountering shape-invariant adversarial noises. These noises are designed along the shape surface with an "explicit constrain" instead of extra distance loss. Specifically, we first apply a reversible coordinate transformation on each point of the point cloud input, to reduce one degree of point freedom and limit its movement on the tangent plane. Then we calculate the best attacking direction with the gradients of the transformed point cloud obtained on the white-box model. Finally we assign each point with a non-negative score to construct the sensitivity map, which benefits both white-box adversarial invisibility and black-box query-efficiency extended in our work. Extensive evaluations prove that our method can achieve the superior performance on various point cloud recognition models, with its satisfying adversarial imperceptibility and strong resistance to different point cloud defense settings. Our code is available at: https://github.com/s hikiw/SI-Adv.
翻訳日:2022-03-09 14:51:30 公開日:2022-03-08
# グラフ注意トランスフォーマネットワークによるマルチラベル画像分類

Graph Attention Transformer Network for Multi-Label Image Classification ( http://arxiv.org/abs/2203.04049v1 )

ライセンス: Link先を確認
Jin Yuan, Shikai Chen, Yao Zhang, Zhongchao Shi, Xin Geng, Jianping Fan, Yong Rui(参考訳) マルチラベル分類は、画像から複数のオブジェクトや属性を認識することを目的としている。 しかし、ラベル間の相関や依存関係を効果的に特徴付けるために、適切なラベルグラフから学ぶことは困難である。 現在の手法では、データセットによって大幅に制限され、モデルの一般化能力に影響を与える相関関係をモデル化するために、トレーニングセットを隣接行列としてラベルの共起確率を使用することが多い。 本稿では,複雑なラベル間関係を効果的にマイニングできる多ラベル画像分類のための汎用フレームワークであるグラフ注意変換ネットワーク(GATN)を提案する。 まず、ラベル単語埋め込みに基づくコサイン類似度を、リッチな意味情報を表現するための初期相関行列として用いる。 その後、グラフアテンショントランスフォーマー層を設計、この隣接行列を現在の領域に適応させるために転送する。 提案手法は3つのデータセット上で最先端の性能を実現することができることを示した。

Multi-label classification aims to recognize multiple objects or attributes from images. However, it is challenging to learn from proper label graphs to effectively characterize such inter-label correlations or dependencies. Current methods often use the co-occurrence probability of labels based on the training set as the adjacency matrix to model this correlation, which is greatly limited by the dataset and affects the model's generalization ability. In this paper, we propose a Graph Attention Transformer Network (GATN), a general framework for multi-label image classification that can effectively mine complex inter-label relationships. First, we use the cosine similarity based on the label word embedding as the initial correlation matrix, which can represent rich semantic information. Subsequently, we design the graph attention transformer layer to transfer this adjacency matrix to adapt to the current domain. Our extensive experiments have demonstrated that our proposed methods can achieve state-of-the-art performance on three datasets.
翻訳日:2022-03-09 14:51:06 公開日:2022-03-08
# (参考訳) Motron:マルチモーダルな確率的人間の動き予測 [全文訳有]

Motron: Multimodal Probabilistic Human Motion Forecasting ( http://arxiv.org/abs/2203.04132v1 )

ライセンス: CC BY 4.0
Tim Salzmann, Marco Pavone, Markus Ryll(参考訳) 自律システムと人間は同じ空間を共有している。 ロボットは、お互いの限界のバランスをとるために、人間と手を組んで作業する。 このような協調的な相互作用はより洗練されたものである。 したがって、人間の重心位置だけでなく、その粒状運動を推論する能力は、人間とロボットの相互作用にとって重要な前提条件である。 しかし、多くのアルゴリズムは人間のマルチモーダル性を無視したり、運動予測の不確実性を無視する。 本稿では,確率的手法を用いて人間のマルチモーダリティをキャプチャし,各モードに対して決定論的動作と対応する信頼値を出力できるマルチモーダル,確率,グラフ構造モデルであるmotronを提案する。 我々のモデルは、物理的に実現可能な人間の動きを出力し、計算効率の良いロボット計画制御-相互作用ループと密に統合することを目的としている。 実世界の動き予測データセットにおいて,本モデルの性能を実証し,必要に応じて最先端の決定論的動作を提供しながら,多種多様な生成手法を上回った。 どちらも最先端のアルゴリズムよりも計算能力が低い。

Autonomous systems and humans are increasingly sharing the same space. Robots work side by side or even hand in hand with humans to balance each other's limitations. Such cooperative interactions are ever more sophisticated. Thus, the ability to reason not just about a human's center of gravity position, but also its granular motion is an important prerequisite for human-robot interaction. Though, many algorithms ignore the multimodal nature of humans or neglect uncertainty in their motion forecasts. We present Motron, a multimodal, probabilistic, graph-structured model, that captures human's multimodality using probabilistic methods while being able to output deterministic motions and corresponding confidence values for each mode. Our model aims to be tightly integrated with the robotic planning-control-int eraction loop; outputting physically feasible human motions and being computationally efficient. We demonstrate the performance of our model on several challenging real-world motion forecasting datasets, outperforming a wide array of generative methods while providing state-of-the-art deterministic motions if required. Both using significantly less computational power than state-of-the art algorithms.
翻訳日:2022-03-09 14:50:21 公開日:2022-03-08
# テキストエンコーダへの階層化:階層型テキスト分類のためのコントラスト学習アプローチ

Incorporating Hierarchy into Text Encoder: a Contrastive Learning Approach for Hierarchical Text Classification ( http://arxiv.org/abs/2203.03825v1 )

ライセンス: Link先を確認
Zihan Wang, Peiyi Wang, Lianzhe Huang, Xin Sun, Houfeng Wang(参考訳) 階層的テキスト分類は、複雑なラベル階層のため、マルチラベル分類の難しいサブタスクである。 既存の方法では、テキストとラベルの階層を別々にエンコードし、それらの表現を分類するために混合する。 本研究では,これらを別々にモデル化する代わりに,階層構造をテキストエンコーダに直接組み込む階層構造誘導型コントラスト学習(hgclr)を提案する。 トレーニング中、HGCLRはラベル階層のガイダンスの下で入力テキストの正のサンプルを構築する。 入力テキストとその正のサンプルをプルすることで、テキストエンコーダは階層認識されたテキスト表現を独立して生成することを学ぶことができる。 したがって、訓練後、HGCLR拡張テキストエンコーダは冗長な階層を不要にすることができる。 3つのベンチマークデータセットに対する大規模な実験は、HGCLRの有効性を検証する。

Hierarchical text classification is a challenging subtask of multi-label classification due to its complex label hierarchy. Existing methods encode text and label hierarchy separately and mix their representations for classification, where the hierarchy remains unchanged for all input text. Instead of modeling them separately, in this work, we propose Hierarchy-guided Contrastive Learning (HGCLR) to directly embed the hierarchy into a text encoder. During training, HGCLR constructs positive samples for input text under the guidance of the label hierarchy. By pulling together the input text and its positive sample, the text encoder can learn to generate the hierarchy-aware text representation independently. Therefore, after training, the HGCLR enhanced text encoder can dispense with the redundant hierarchy. Extensive experiments on three benchmark datasets verify the effectiveness of HGCLR.
翻訳日:2022-03-09 14:30:39 公開日:2022-03-08
# インターネットを取り入れたオープンドメイン対話システムの構築に向けて

Towards Building an Open-Domain Dialogue System Incorporated with Internet Memes ( http://arxiv.org/abs/2203.03835v1 )

ライセンス: Link先を確認
Hua Lu, Zhen Guo, Chanjuan Li, Yunyi Yang, Huang He, Siqi Bao(参考訳) 近年、インターネットのミームはオンラインチャットで広く使われている。 テキストベースのコミュニケーションと比較すると、インターネットのミームが組み込まれると会話はより表現豊かで魅力的になる。 本稿では,dstc10において,テキスト応答モデリング,ミーム検索,ミーム感情分類という3つのタスクが関与するミーム組込みオープンドメイン対話(mod)チャレンジのソリューションを提案する。 まず,協調的かつ情報的応答生成のための大規模事前学習対話モデルを利用する。 第2に,対話ベースのテキストマッチングに基づいて,適切なミームを一般化能力で検索する手法を提案する。 第3に,会話における情動フロー(EF)をモデル化し,感情記述予測(EDP)の補助的タスクを導入して,感情分類の性能を高めることを提案する。 MODデータセットによる実験結果から,インターネットミームを対話システムに効果的に組み込むことができることが示された。

In recent years, Internet memes have been widely used in online chatting. Compared with text-based communication, conversations become more expressive and attractive when Internet memes are incorporated. This paper presents our solutions for the Meme incorporated Open-domain Dialogue (MOD) Challenge of DSTC10, where three tasks are involved: text response modeling, meme retrieval, and meme emotion classification. Firstly, we leverage a large-scale pre-trained dialogue model for coherent and informative response generation. Secondly, based on interaction-based text-matching, our approach can retrieve appropriate memes with good generalization ability. Thirdly, we propose to model the emotion flow (EF) in conversations and introduce an auxiliary task of emotion description prediction (EDP) to boost the performance of meme emotion classification. Experimental results on the MOD dataset demonstrate that our methods can incorporate Internet memes into dialogue systems effectively.
翻訳日:2022-03-09 14:30:25 公開日:2022-03-08
# DARER:デュアルタスク時空間リレーショナルリカレント推論ネットワークによる共同対話感覚分類とアクト認識

DARER: Dual-task Temporal Relational Recurrent Reasoning Network for Joint Dialog Sentiment Classification and Act Recognition ( http://arxiv.org/abs/2203.03856v1 )

ライセンス: Link先を確認
Bowen Xing and Ivor W. Tsang(参考訳) 共同ダイアログ感情分類(DSC)と行動認識(DAR)の課題は、ダイアログの各発話に対する感情ラベルと行動ラベルを同時に予測することである。 本稿では,人間の直感とより整合したセマンティクスレベルのインタラクション以外の,‘textit{prediction-level interaction’を統合することによって,明示的な依存関係をモデル化する新たなフレームワークを提案する。 さらに,話者対応時間グラフ (satg) とdual-task relational temporal graph (drtg) を提案し,対話理解とデュアルタスク推論に \textit{temporal relations} を導入する。 提案手法を実装するために,まずモデルsatgを用いて文脈,話者,時間に敏感な発話表現を生成し,その後,推定されたラベル分布を予測レベル相互作用の重要な手がかりとして,drtg上で再帰的2タスク関係推論を行う,darerと呼ばれる新しいモデルを提案する。 実験結果から、DARERは既存のモデルよりも大きなマージンで性能が向上し、計算リソースが大幅に削減され、トレーニング時間の短縮が図られた。 注目すべきは、MastodonのDSCタスクにおいて、DARERはF1の観点で以前の最高のモデルよりも25%改善されており、パラメータは50%未満、GPUメモリは60%程度である。

The task of joint dialog sentiment classification (DSC) and act recognition (DAR) aims to simultaneously predict the sentiment label and act label for each utterance in a dialog. In this paper, we put forward a new framework which models the explicit dependencies via integrating \textit{prediction-level interactions} other than semantics-level interactions, more consistent with human intuition. Besides, we propose a speaker-aware temporal graph (SATG) and a dual-task relational temporal graph (DRTG) to introduce \textit{temporal relations} into dialog understanding and dual-task reasoning. To implement our framework, we propose a novel model dubbed DARER, which first generates the context-, speaker- and temporal-sensitive utterance representations via modeling SATG, then conducts recurrent dual-task relational reasoning on DRTG, in which process the estimated label distributions act as key clues in prediction-level interactions. Experiment results show that DARER outperforms existing models by large margins while requiring much less computation resource and costing less training time. Remarkably, on DSC task in Mastodon, DARER gains a relative improvement of about 25% over previous best model in terms of F1, with less than 50% parameters and about only 60% required GPU memory.
翻訳日:2022-03-09 14:30:12 公開日:2022-03-08
# InstructionNER:Few-s hot NERのためのマルチタスク命令ベースの生成フレームワーク

InstructionNER: A Multi-Task Instruction-Based Generative Framework for Few-shot NER ( http://arxiv.org/abs/2203.03903v1 )

ライセンス: Link先を確認
Liwen Wang, Rumei Li, Yang Yan, Yuanmeng Yan, Sirui Wang, Wei Wu, Weiran Xu(参考訳) 近年,言語モデルの事前学習と下流タスクの微調整のギャップを橋渡しすることで,プロンプトベースの手法が少数の学習シナリオにおいて有意な性能を発揮している。 しかし、既存のプロンプトテンプレートは主に文レベルのタスク用に設計されており、シーケンスラベリングの目的には不適切である。 上記の課題に対処するため、低リソースなエンティティ認識のためのマルチタスク命令ベースの生成フレームワークInstructionNERを提案する。 具体的には、NERタスクを生成問題として再構成し、タスク固有の命令と回答オプションでソース文を豊かにし、自然言語のエンティティと型を推論する。 さらに,エンティティ抽出とエンティティ型付けという2つの補助タスクを提案し,エンティティの境界情報をキャプチャし,エンティティタイプの意味の理解を深める。 実験の結果,本手法は5つのデータセットのベースラインを数ショット設定で一貫して上回ることがわかった。

Recently, prompt-based methods have achieved significant performance in few-shot learning scenarios by bridging the gap between language model pre-training and fine-tuning for downstream tasks. However, existing prompt templates are mostly designed for sentence-level tasks and are inappropriate for sequence labeling objectives. To address the above issue, we propose a multi-task instruction-based generative framework, named InstructionNER, for low-resource named entity recognition. Specifically, we reformulate the NER task as a generation problem, which enriches source sentences with task-specific instructions and answer options, then inferences the entities and types in natural language. We further propose two auxiliary tasks, including entity extraction and entity typing, which enable the model to capture more boundary information of entities and deepen the understanding of entity type semantics, respectively. Experimental results show that our method consistently outperforms other baselines on five datasets in few-shot settings.
翻訳日:2022-03-09 14:29:46 公開日:2022-03-08
# タスク指向対話モデルのための一般化モデルの構築

Towards Generalized Models for Task-oriented Dialogue Modeling on Spoken Conversations ( http://arxiv.org/abs/2203.04045v1 )

ライセンス: Link先を確認
Ruijie Yan, Shuang Peng, Haitao Mi, Liang Jiang, Shihui Yang, Yuchi Zhang, Jiajun Li, Liangrui Peng, Yongliang Wang, Zujie Wen(参考訳) 音声対話のための頑健で一般的な対話モデルの構築は,音声・音声データの分散の欠如により困難である。 本稿では,dstc-10の音声対話課題における知識基盤型タスク指向対話モデリングのための一般化モデル構築手法を提案する。 テキストと音声の差異を軽減するため,手書きデータに対して,人工的エラーインジェクションやラウンドトリップによるテキスト変換など,広範なデータ拡張戦略を主に採用する。 音声対話のための頑健なモデルを訓練するために,事前学習された言語モデルを改善し,各サブタスクに対してアンサンブルアルゴリズムを適用した。 通常、検出タスクでは、 \roberta と ELECTRA を微調整し、エラー修正アンサンブルアルゴリズムを実行する。 選択タスクでは,エンティティトラッキングと知識ランキングからなる2段階のフレームワークを採用し,ドメイン分類とエンティティ選択による多段階意味情報学習のためのマルチタスク学習手法を提案する。 生成タスクには、事前学習された生成言語モデルを改善するために、相互評価データプロセスを採用し、さらに、相対的ルージュ計量のような任意の機能を追加し、関連する特徴重みを直接 \bleu にチューニングできるコンセンサス復号アルゴリズムを適用する。 客観的評価では第3位,人的評価では第2位である。

Building robust and general dialogue models for spoken conversations is challenging due to the gap in distributions of spoken and written data. This paper presents our approach to build generalized models for the Knowledge-grounded Task-oriented Dialogue Modeling on Spoken Conversations Challenge of DSTC-10. In order to mitigate the discrepancies between spoken and written text, we mainly employ extensive data augmentation strategies on written data, including artificial error injection and round-trip text-speech transformation. To train robust models for spoken conversations, we improve pre-trained language models, and apply ensemble algorithms for each sub-task. Typically, for the detection task, we fine-tune \roberta and ELECTRA, and run an error-fixing ensemble algorithm. For the selection task, we adopt a two-stage framework that consists of entity tracking and knowledge ranking, and propose a multi-task learning method to learn multi-level semantic information by domain classification and entity selection. For the generation task, we adopt a cross-validation data process to improve pre-trained generative language models, followed by a consensus decoding algorithm, which can add arbitrary features like relative \rouge metric, and tune associated feature weights toward \bleu directly. Our approach ranks third on the objective evaluation and second on the final official human evaluation.
翻訳日:2022-03-09 14:29:28 公開日:2022-03-08
# 変圧器における文脈情報の混合の測定

Measuring the Mixing of Contextual Information in the Transformer ( http://arxiv.org/abs/2203.04212v1 )

ライセンス: Link先を確認
Javier Ferrando, Gerard I. G\'allego and Marta R. Costa-juss\`a(参考訳) トランスフォーマーアーキテクチャは、セルフアテンション機構を通じて入力情報を集約するが、この情報がモデル全体にどのように混ざっているかを明確に理解していない。 さらに、近年の研究では、注意重みだけでは情報の流れを記述するのに十分でないことが示されている。 本稿では, 各層におけるトークン間相互作用を測定するための指標を, 表現空間の特性を考慮し, マルチヘッド・アテンション, 残差接続, レイヤ正規化の全体について考察する。 次に,階層的な解釈を集約し,モデル予測のための入力属性スコアを提供する。 実験により,本手法であるalti ( layer-wise token-token interaction の集約) が,忠実な説明を提供し,類似の凝集法を上回ることを示した。

The Transformer architecture aggregates input information through the self-attention mechanism, but there is no clear understanding of how this information is mixed across the entire model. Additionally, recent works have demonstrated that attention weights alone are not enough to describe the flow of information. In this paper, we consider the whole attention block --multi-head attention, residual connection, and layer normalization-- and define a metric to measure token-to-token interactions within each layer, considering the characteristics of the representation space. Then, we aggregate layer-wise interpretations to provide input attribution scores for model predictions. Experimentally, we show that our method, ALTI (Aggregation of Layer-wise Token-to-token Interactions), provides faithful explanations and outperforms similar aggregation methods.
翻訳日:2022-03-09 14:29:05 公開日:2022-03-08
# (参考訳) Reward-Biased Maximum Likelihood Estimationによる神経コンテキスト帯域の推定

Neural Contextual Bandits via Reward-Biased Maximum Likelihood Estimation ( http://arxiv.org/abs/2203.04192v1 )

ライセンス: CC BY 4.0
Yu-Heng Hung, Ping-Chun Hsieh(参考訳) rbmle(reward-biased maximum likelihood estimation)は、探索-爆発的トレードオフに取り組む適応制御文学における古典的な原理である。 本稿では,一般有界報酬関数を用いた確率的文脈的帯域幅問題について検討し,RBMLEの原理を適用したNeuralRBMLEを提案する。 neuralrbmleはニューラルネットワークの表現力を活用し、推定報酬の信頼区間を構築することなく、パラメータ空間での探索行動を直接エンコードする。 本稿では,2種類のNeuralRBMLEアルゴリズムを提案する。第1の変種は勾配上昇によるRBMLE推定器を直接取得し,第2の変種は近似による単純な指標ポリシへのRBMLEの単純化を行う。 両アルゴリズムが $\widetilde{\mathcal{O}}(\sqrt{T})$ regret を達成することを示す。 広範な実験を通じて,neuralrbmleアルゴリズムは,非線形報酬関数を持つ実世界のデータセットにおける最先端の手法よりも,同等あるいは優れた経験的後悔を達成できることを実証した。

Reward-biased maximum likelihood estimation (RBMLE) is a classic principle in the adaptive control literature for tackling explore-exploit trade-offs. This paper studies the stochastic contextual bandit problem with general bounded reward functions and proposes NeuralRBMLE, which adapts the RBMLE principle by adding a bias term to the log-likelihood to enforce exploration. NeuralRBMLE leverages the representation power of neural networks and directly encodes exploratory behavior in the parameter space, without constructing confidence intervals of the estimated rewards. We propose two variants of NeuralRBMLE algorithms: The first variant directly obtains the RBMLE estimator by gradient ascent, and the second variant simplifies RBMLE to a simple index policy through an approximation. We show that both algorithms achieve $\widetilde{\mathcal{O}}(\sqrt{T})$ regret. Through extensive experiments, we demonstrate that the NeuralRBMLE algorithms achieve comparable or better empirical regrets than the state-of-the-art methods on real-world datasets with non-linear reward functions.
翻訳日:2022-03-09 14:27:39 公開日:2022-03-08
# Visual SLAMの拡張と強化のためのオンライン意味マッピングシステム

An Online Semantic Mapping System for Extending and Enhancing Visual SLAM ( http://arxiv.org/abs/2203.03944v1 )

ライセンス: Link先を確認
Thorsten Hempel and Ayoub Al-Hamadi(参考訳) 本研究では,2次元から3次元の物体検出パイプラインと,生成されたランドマークに対する高速データアソシエーションを用いた,モバイルビジョンシステムのためのリアルタイム意味マッピング手法を提案する。 意味マップエンリッチメントに加えて、関連する検出は、ポーズ補正のための同時ローカライゼーションマッピング(slam)システムへの意味的制約としてさらに導入される。 これにより,高レベルなタスクを実現するための付加有意義な情報を生成でき,同時に物体検出の視点非分散を利用して,オドメトリ推定の精度とロバスト性を向上させることができる。 本研究では,不明瞭かつ誤った予測を扱うために,局所的に関連付けられた物体観測のトラックレットを提案する。 我々のシステムは,65~msの平均反復時間でリアルタイムに到達し,公開データセット上での最先端SLAMのポーズ推定を最大68%向上させることができる。 さらに、任意のグラフベースのSLAMメソッドとの統合を簡単にするモジュール型ROSパッケージとして、我々のアプローチを実装しました。

We present a real-time semantic mapping approach for mobile vision systems with a 2D to 3D object detection pipeline and rapid data association for generated landmarks. Besides the semantic map enrichment the associated detections are further introduced as semantic constraints into a simultaneous localization and mapping (SLAM) system for pose correction purposes. This way, we are able generate additional meaningful information that allows to achieve higher-level tasks, while simultaneously leveraging the view-invariance of object detections to improve the accuracy and the robustness of the odometry estimation. We propose tracklets of locally associated object observations to handle ambiguous and false predictions and an uncertainty-based greedy association scheme for an accelerated processing time. Our system reaches real-time capabilities with an average iteration duration of 65~ms and is able to improve the pose estimation of a state-of-the-art SLAM by up to 68% on a public dataset. Additionally, we implemented our approach as a modular ROS package that makes it straightforward for integration in arbitrary graph-based SLAM methods.
翻訳日:2022-03-09 14:25:14 公開日:2022-03-08
# 雑音を用いた効率的なデータ中心ロバスト機械学習を目指して

Towards Efficient Data-Centric Robust Machine Learning with Noise-based Augmentation ( http://arxiv.org/abs/2203.03810v1 )

ライセンス: Link先を確認
Xiaogeng Liu, Haoyu Wang, Yechao Zhang, Fangzhou Wu, Shengshan Hu(参考訳) データ中心の機械学習は、aiモデルのパフォーマンスを改善する適切なデータセットを構築する効果的な方法を見つけることを目的としている。 本稿では,ブラックボックステスト設定における悪意のない入力に対するモデルのロバスト性を改善するための,効率的なデータ中心スキームの設計に主眼を置きます。 具体的には,gaussian noise, salt-and-pepper noise, pgd adversarial perturbationからなるノイズベースデータ拡張法を提案する。 提案手法は軽量アルゴリズムを基盤とし,包括的評価により高い有効性を示し,計算コストとロバスト性向上に優れた効率性を示した。 さらに、実験から得られたデータ中心の堅牢な機械学習に関する洞察を共有します。

The data-centric machine learning aims to find effective ways to build appropriate datasets which can improve the performance of AI models. In this paper, we mainly focus on designing an efficient data-centric scheme to improve robustness for models towards unforeseen malicious inputs in the black-box test settings. Specifically, we introduce a noised-based data augmentation method which is composed of Gaussian Noise, Salt-and-Pepper noise, and the PGD adversarial perturbations. The proposed method is built on lightweight algorithms and proved highly effective based on comprehensive evaluations, showing good efficiency on computation cost and robustness enhancement. In addition, we share our insights about the data-centric robust machine learning gained from our experiments.
翻訳日:2022-03-09 14:24:51 公開日:2022-03-08
# コミュニティ検出のための高次近接結合対称性とグラフ正規化非負行列因子化

High-order Order Proximity-Incorporat ed, Symmetry and Graph-Regularized Nonnegative Matrix Factorization for Community Detection ( http://arxiv.org/abs/2203.03876v1 )

ライセンス: Link先を確認
Zhigang Liu and Xin Luo(参考訳) コミュニティはネットワークの機能的メカニズムを説明し、コミュニティ検出をソーシャルサークルの発見など、さまざまな実アプリケーションのための基本的なグラフツールとして機能させる。 これまで、SNMF(Symmetric and Non- negative Matrix Factorization)モデルは、高い解釈性とスケーラビリティのため、この問題に対処するために頻繁に採用されてきた。 しかし、既存のSNMFベースのコミュニティ検出手法のほとんどは、ネットワーク内の高次接続パターンを無視している。 この発見に動機づけられた本論文では、次の3つのアイデアを取り入れた高次近似(HOP)、対称性、グラフ規則化NMF(HSGN)モデルを提案する。 a) ネットワーク内のノード間のHOP指標を測定するために、重み付きポイントワイド相互情報(PMI)に基づくアプローチを採用すること b) 取得したHOPをネットワークにエンコードする反復的再構成方式の活用 c) 対称性とグラフ規則化NMFアルゴリズムを導入してコミュニティを正確に検出する。 8つの実世界のネットワークに関する大規模な実証研究により、HSGNベースのコミュニティ検出器は、高い精度のコミュニティ検出結果を提供するために、ベンチマークと最先端のコミュニティ検出器の両方を著しく上回っていることが示された。

Community describes the functional mechanism of a network, making community detection serve as a fundamental graph tool for various real applications like discovery of social circle. To date, a Symmetric and Non-negative Matrix Factorization (SNMF) model has been frequently adopted to address this issue owing to its high interpretability and scalability. However, most existing SNMF-based community detection methods neglect the high-order connection patterns in a network. Motivated by this discovery, in this paper, we propose a High-Order Proximity (HOP)-incorporated, Symmetry and Graph-regularized NMF (HSGN) model that adopts the following three-fold ideas: a) adopting a weighted pointwise mutual information (PMI)-based approach to measure the HOP indices among nodes in a network; b) leveraging an iterative reconstruction scheme to encode the captured HOP into the network; and c) introducing a symmetry and graph-regularized NMF algorithm to detect communities accurately. Extensive empirical studies on eight real-world networks demonstrate that an HSGN-based community detector significantly outperforms both benchmark and state-of-the-art community detectors in providing highly-accurate community detection results.
翻訳日:2022-03-09 14:24:38 公開日:2022-03-08
# 到達性を考慮した移動操作のロボット学習

Robot Learning of Mobile Manipulation with Reachability Behavior Priors ( http://arxiv.org/abs/2203.04051v1 )

ライセンス: Link先を確認
Snehal Jauhri, Jan Peters, Georgia Chalvatzaki(参考訳) モバイルマニピュレーション(MM)システムは、非構造化現実環境におけるパーソナルアシスタントの役割を引き継ぐ上で理想的な候補である。 その他の課題として、MMは移動と操作の両方を必要とするタスクを実行するために、ロボットの実施形態を効果的に調整する必要がある。 強化学習(Reinforcement Learning, RL)は、ロボットに適応的な行動を与えるという約束を持っているが、ほとんどの方法は、有用な制御ポリシーを学ぶために、違法に大量のデータを必要とする。 本研究では,アクタクリティカルなRL手法におけるロボットの到達可能性の先行性の統合について検討し,MMの学習を高速化し,タスクの到達とフェッチを促進させる。 すなわち、最適なベース配置の問題と、6D目標に到達するためのアームを活性化するかというその後の決定について考察する。 そこで我々は,Gumbel-Softmax再パラメータ化を利用して,離散的かつ連続的な動作を共同で扱うハイブリッドRL法を提案する。 次に,従来の手法にインスパイアされた操作ロボットワークスペースのデータを用いて,リーチビリティをトレーニングする。 次に、残差近似器の和としてモデル化してQ関数を学習する新しいアルゴリズムであるBoosted Hybrid RL(BHyRL)を導出する。 新しいタスクを学習するたびに、学習した残余を転送し、タスク固有のQ関数のコンポーネントを学ぶことができ、従ってタスク構造を以前の動作から維持することができます。 さらに, 対象政策を事前方針で規則化すると, より表現力のある行動が生じることが判明した。 本手法は,難易度を増大させるタスクの到達と取得のシミュレーションにおいて評価し,ベースライン法に対するbhyrlの優れた性能を示す。 最後に、学習したBHyRLによる6DフェッチポリシーをMMロボットTIAGo++にゼロ転送する。 詳細とコードのリリースについては、プロジェクトサイトを参照してください。

Mobile Manipulation (MM) systems are ideal candidates for taking up the role of a personal assistant in unstructured real-world environments. Among other challenges, MM requires effective coordination of the robot's embodiments for executing tasks that require both mobility and manipulation. Reinforcement Learning (RL) holds the promise of endowing robots with adaptive behaviors, but most methods require prohibitively large amounts of data for learning a useful control policy. In this work, we study the integration of robotic reachability priors in actor-critic RL methods for accelerating the learning of MM for reaching and fetching tasks. Namely, we consider the problem of optimal base placement and the subsequent decision of whether to activate the arm for reaching a 6D target. For this, we devise a novel Hybrid RL method that handles discrete and continuous actions jointly, resorting to the Gumbel-Softmax reparameterization. Next, we train a reachability prior using data from the operational robot workspace, inspired by classical methods. Subsequently, we derive Boosted Hybrid RL (BHyRL), a novel algorithm for learning Q-functions by modeling them as a sum of residual approximators. Every time a new task needs to be learned, we can transfer our learned residuals and learn the component of the Q-function that is task-specific, hence, maintaining the task structure from prior behaviors. Moreover, we find that regularizing the target policy with a prior policy yields more expressive behaviors. We evaluate our method in simulation in reaching and fetching tasks of increasing difficulty, and we show the superior performance of BHyRL against baseline methods. Finally, we zero-transfer our learned 6D fetching policy with BHyRL to our MM robot TIAGo++. For more details and code release, please refer to our project site: irosalab.com/rlmmbp
翻訳日:2022-03-09 14:24:20 公開日:2022-03-08
# 混合整数プログラムを用いたグラフベース強化学習:3次元ロボット集合発見への応用

Graph-based Reinforcement Learning meets Mixed Integer Programs: An application to 3D robot assembly discovery ( http://arxiv.org/abs/2203.04120v1 )

ライセンス: Link先を確認
Niklas Funk, Svenja Menzenbach, Georgia Chalvatzaki, Jan Peters(参考訳) ロボットの組み立て発見は、リソース割り当てと動き計画の交点にある難しい問題である。 目的は、事前に定義されたオブジェクトのセットを組み合わせて、タスクの実行とループ内のロボットを考慮しながら、何か新しいものを作ることです。 本研究では,テトリスのようなビルディングブロックとロボットマニピュレータのセットを用いて,任意の目標構造をスクラッチから構築する問題に取り組む。 我々の新しい階層的アプローチは、タスク全体を相互に利益をもたらす3つの実行可能なレベルに効率的に分解することを目的としています。 高レベルでは、ブロック型選択のグローバル最適化のための古典的な混合整数プログラムとブロックの最終ポーズを実行し、所望の形状を再現する。 その出力を利用して、基礎となる強化学習(RL)政策の探索を効率的に導く。 このRLポリシは、Qラーニングを通じて学習され、検索によって洗練されるフレキシブルグラフベースの表現から一般化特性を引き出す。 さらに、前層では効果的に反映できない構造安定性とロボット実現性に必要な条件も考慮している。 最後に、把持及び移動プランナーは、所望の組立コマンドをロボット関節運動に変換する。 提案手法は, ロボット集合探索環境の競争シミュレーションにおいて, 非構造的アプローチと比較して, 性能とロバスト性の向上を報告し, 性能を実証する。 ビデオはhttps://sites.google .com/view/rl-meets-m ilpで閲覧できる。

Robot assembly discovery is a challenging problem that lives at the intersection of resource allocation and motion planning. The goal is to combine a predefined set of objects to form something new while considering task execution with the robot-in-the-loop. In this work, we tackle the problem of building arbitrary, predefined target structures entirely from scratch using a set of Tetris-like building blocks and a robotic manipulator. Our novel hierarchical approach aims at efficiently decomposing the overall task into three feasible levels that benefit mutually from each other. On the high level, we run a classical mixed-integer program for global optimization of block-type selection and the blocks' final poses to recreate the desired shape. Its output is then exploited to efficiently guide the exploration of an underlying reinforcement learning (RL) policy. This RL policy draws its generalization properties from a flexible graph-based representation that is learned through Q-learning and can be refined with search. Moreover, it accounts for the necessary conditions of structural stability and robotic feasibility that cannot be effectively reflected in the previous layer. Lastly, a grasp and motion planner transforms the desired assembly commands into robot joint movements. We demonstrate the performance of the proposed method on a set of competitive simulated robot assembly discovery environments and report performance and robustness gains compared to an unstructured end-to-end approach. Videos are available at https://sites.google .com/view/rl-meets-m ilp .
翻訳日:2022-03-09 14:22:04 公開日:2022-03-08
# 毒殺事件で無防備な学習者

Robustly-reliable learners under poisoning attacks ( http://arxiv.org/abs/2203.04160v1 )

ライセンス: Link先を確認
Maria-Florina Balcan, Avrim Blum, Steve Hanneke, Dravyansh Sharma(参考訳) データ中毒攻撃(Data poisoning attack)とは、特定の所望の誤りを誘発する目的でトレーニングセットを破損させる攻撃であり、そのような攻撃の可能性さえも、学習システムの結果を信頼できなくなる。 本稿では,複数の軸にまたがる攻撃に対して,強固なロバスト性を保証する方法を示す。 我々は、敵が所定の汚職予算を超えない限り、敵が事前にテスト例を知っており、その例に特定の失敗を起こそうとしている場合であっても、予測されたラベルが正しいことが保証されるロバストで信頼性の高い予測を提供する。 我々の保証は、我々の研究で達成できるように、予測が正しいことを証明するのとは対照的に、学習アルゴリズムの予測が変化しない証明書しか提供できなかった以前のアプローチよりも大幅に強力である。 注目すべきは、この設定における学習可能性の完全な特徴付け、特に、認証可能な領域の上と下の境界をほぼ整合させ、ERMオラクルを与えられた領域を計算するための効率的なアルゴリズムを提供することである。 さらに、対数凹分布上の線形セパレータの場合、そのような堅牢な信頼性のある予測に対して効率的な真の多項式時間アルゴリズム(非オラクルアルゴリズム)を提供する。 また,アルゴリズムが特定の情報的サンプルのラベルを適応的に求めているアクティブな設定にまで拡張する。また,この相互作用に敵が適応している可能性や,不正確なデータでも完全分類器が存在しないような不可知学習環境にも,困難が伴う。

Data poisoning attacks, in which an adversary corrupts a training set with the goal of inducing specific desired mistakes, have raised substantial concern: even just the possibility of such an attack can make a user no longer trust the results of a learning system. In this work, we show how to achieve strong robustness guarantees in the face of such attacks across multiple axes. We provide robustly-reliable predictions, in which the predicted label is guaranteed to be correct so long as the adversary has not exceeded a given corruption budget, even in the presence of instance targeted attacks, where the adversary knows the test example in advance and aims to cause a specific failure on that example. Our guarantees are substantially stronger than those in prior approaches, which were only able to provide certificates that the prediction of the learning algorithm does not change, as opposed to certifying that the prediction is correct, as we are able to achieve in our work. Remarkably, we provide a complete characterization of learnability in this setting, in particular, nearly-tight matching upper and lower bounds on the region that can be certified, as well as efficient algorithms for computing this region given an ERM oracle. Moreover, for the case of linear separators over logconcave distributions, we provide efficient truly polynomial time algorithms (i.e., non-oracle algorithms) for such robustly-reliable predictions. We also extend these results to the active setting where the algorithm adaptively asks for labels of specific informative examples, and the difficulty is that the adversary might even be adaptive to this interaction, as well as to the agnostic learning setting where there is no perfect classifier even over the uncorrupted data.
翻訳日:2022-03-09 14:21:41 公開日:2022-03-08
# class-conditioned sound event doa estimation (英語)

Locate This, Not That: Class-Conditioned Sound Event DOA Estimation ( http://arxiv.org/abs/2203.04197v1 )

ライセンス: Link先を確認
Olga Slizovskaia, Gordon Wichern, Zhong-Qiu Wang, Jonathan Le Roux(参考訳) 既存のseld(sound event localization and detection)システムは、通常、すべてのクラスのソース位置を瞬時に推定することで動作する。 本稿では,すべてのクラスを常にローカライズすることに関心が持たない状況に対して,別のクラス条件付きsuldモデルを提案する。 このクラス条件付きsuldモデルは、サウンドファイルから空間的およびスペクトル的特徴を入力とし、また、現在ローカライズに興味があるクラスを示す1つのホットベクターを入力します。 特徴量線形変調 (FiLM) 層を用いて, モデル内の複数の点で条件情報を注入する。 提案したクラス条件SELDモデルでは,DCASE 2020 Task 3データセットを用いた実験により,すべてのクラスを同時に検出するベースラインモデルよりも,共通のSELDメトリクスの点で優れた性能を示し,また,単一のクラスのみを識別するように訓練されたスペシャリストモデルよりも優れていた。 また,DCASE 2021 Task 3 データセットの性能評価を行った。このデータセットには,指向性干渉(ローカライズに興味のないクラスからの音声イベント)が含まれており,特にクラス条件モデルによる改善が顕著である。

Existing systems for sound event localization and detection (SELD) typically operate by estimating a source location for all classes at every time instant. In this paper, we propose an alternative class-conditioned SELD model for situations where we may not be interested in localizing all classes all of the time. This class-conditioned SELD model takes as input the spatial and spectral features from the sound file, and also a one-hot vector indicating the class we are currently interested in localizing. We inject the conditioning information at several points in our model using feature-wise linear modulation (FiLM) layers. Through experiments on the DCASE 2020 Task 3 dataset, we show that the proposed class-conditioned SELD model performs better in terms of common SELD metrics than the baseline model that locates all classes simultaneously, and also outperforms specialist models that are trained to locate only a single class of interest. We also evaluate performance on the DCASE 2021 Task 3 dataset, which includes directional interference (sound events from classes we are not interested in localizing) and notice especially strong improvement from the class-conditioned model.
翻訳日:2022-03-09 14:21:12 公開日:2022-03-08
# 非微分可能暗黙モデルに対するポリシーベースベイズ実験設計

Policy-Based Bayesian Experimental Design for Non-Differentiable Implicit Models ( http://arxiv.org/abs/2203.04272v1 )

ライセンス: Link先を確認
Vincent Lim, Ellen Novoseller, Jeffrey Ichnowski, Huang Huang, Ken Goldberg(参考訳) 医療、物理学、エネルギー、ロボティクス、その他多くの分野の応用において、特に実験が高価、時間がかかり、安全上の危険にさらされる場合、最大限に有益な実験を設計することは重要である。 既存のアプローチは事前の観測履歴に基づいて実験を逐次設計することができるが、これらの手法の多くは暗黙のモデルに拡張されない。 さらに、デプロイ時に重要なオンライン計算や、差別化可能なシミュレーションシステムを必要とすることが多い。 本稿では,非微分型暗黙モデルに対するシミュレーションに基づく最適実験設計手法であるReinforcement Learning for Deep Adaptive Design (RL-DAD)を紹介する。 RL-DADは、政策に基づくベイズ最適実験設計(BOED)における先行研究を拡張し、それを、確率自由情報下限に基づく報酬関数付きマルコフ決定プロセスとして再構成し、深い強化学習を通じてポリシーを学ぶために用いられる。 学習したデザインポリシーは、過去の履歴をオフラインで実験するためにマップし、オンライン実行中に素早くデプロイできる。 我々はRL-DADを評価し、3つのベンチマークでベースラインと競合する性能を示した。

For applications in healthcare, physics, energy, robotics, and many other fields, designing maximally informative experiments is valuable, particularly when experiments are expensive, time-consuming, or pose safety hazards. While existing approaches can sequentially design experiments based on prior observation history, many of these methods do not extend to implicit models, where simulation is possible but computing the likelihood is intractable. Furthermore, they often require either significant online computation during deployment or a differentiable simulation system. We introduce Reinforcement Learning for Deep Adaptive Design (RL-DAD), a method for simulation-based optimal experimental design for non-differentiable implicit models. RL-DAD extends prior work in policy-based Bayesian Optimal Experimental Design (BOED) by reformulating it as a Markov Decision Process with a reward function based on likelihood-free information lower bounds, which is used to learn a policy via deep reinforcement learning. The learned design policy maps prior histories to experiment designs offline and can be quickly deployed during online execution. We evaluate RL-DAD and find that it performs competitively with baselines on three benchmarks.
翻訳日:2022-03-09 14:20:49 公開日:2022-03-08
# 雑音の多い低ランク行列最適化:局所最小値と収束速度の幾何学

Noisy Low-rank Matrix Optimization: Geometry of Local Minima and Convergence Rate ( http://arxiv.org/abs/2203.03899v1 )

ライセンス: Link先を確認
Ziye Ma, Somayeh Sojoudi(参考訳) 本稿では,機械学習における多種多様な応用を見出した低ランク行列最適化について述べる。 行列感覚の特別な場合におけるこの問題は、制限等長性(rip)の概念を通じて広く研究され、問題の幾何学的景観と一般的なアルゴリズムの収束率に多くの結果をもたらした。 しかし,既存の結果ではノイズデータに基づく汎用関数では問題に対処できない。 本稿では,雑音モデルが任意である一般目的関数に対するランダムな汚職に対処できる数学的枠組みを開発することにより,この問題に対処する。 雑音のない対象の RIP 定数が 1/3$ 未満である限り、雑音の多い最適化問題の任意の急激な局所解は、基底真理解に近くなければならない。 また,厳密な鞍の性質を通すことにより,近似解が多項式時間で見つかることを示した。 我々は RIP 定数が 1/3$ を超える場合において, 基底真理付近の局所領域における問題の急激な局所最小値の幾何学を特徴付ける。 本稿では,ランダムな腐敗下での一般低ランク最適化問題に対する大域的および局所的最適化の展望に関する最初の結果について述べる。

This paper is concerned with low-rank matrix optimization, which has found a wide range of applications in machine learning. This problem in the special case of matrix sense has been studied extensively through the notion of Restricted Isometry Property (RIP), leading to a wealth of results on the geometric landscape of the problem and the convergence rate of common algorithms. However, the existing results are not able to handle the problem with a general objective function subject to noisy data. In this paper, we address this problem by developing a mathematical framework that can deal with random corruptions to general objective functions, where the noise model is arbitrary. We prove that as long as the RIP constant of the noiseless objective is less than $1/3$, any spurious local solution of the noisy optimization problem must be close to the ground truth solution. By working through the strict saddle property, we also show that an approximate solution can be found in polynomial time. We characterize the geometry of the spurious local minima of the problem in a local region around the ground truth in the case when the RIP constant is greater than $1/3$. This paper offers the first set of results on the global and local optimization landscapes of general low-rank optimization problems under arbitrary random corruptions.
翻訳日:2022-03-09 14:20:28 公開日:2022-03-08
# ほぼ線形時間における半ランダムスパース回復

Semi-Random Sparse Recovery in Nearly-Linear Time ( http://arxiv.org/abs/2203.04002v1 )

ライセンス: Link先を確認
Jonathan A. Kelner, Jerry Li, Allen Liu, Aaron Sidford, Kevin Tian(参考訳) スパース・リカバリは最も基本的でよく研究された逆問題の一つである。 この問題の標準的な統計的定式化は、一般的な凸計画法とより実用的で速い(近線形時間)反復法によって証明できる。 しかし、これらの後者の「高速アルゴリズム」は、様々な実世界の環境では不安定である。 アルゴリズムが入力仮定に過剰に適合するかどうかをテストするフレームワークである"helpful" semi-random adversaryへのロバスト性を調べるレンズを通して、高速スパースリカバリアルゴリズムの不安定性を調査した。 以下の基本的なモデルを考える: $\mathbf{a} \in \mathbb{r}^{n \times d}$ を列の未知の部分集合を含む測定行列とする。 x^\star \in \mathbb{R}^d$ を $s$-sparse とし、正確な測定値 $b = \mathbf{A} x^\star$ またはノイズ測定値 $b = \mathbf{A} x^\star + \xi$ を与えられると、ほぼ線形時間で$x^\star$ 情報を最適に復元するアルゴリズムを設計する。 提案手法は,RIP仮定を自然重み付き変種に緩和する弱い生成モデルを保持するためにアルゴリズムを拡張し,測定行列の品質を自然に補間し,パラメータ状態によってはサブ線形時間で実行することを示す。 本手法は,半ランダム生成モデル下での証明可能な保証付き高速反復法と異なり,スパースリカバリを抽出可能なサブマトリクス上の自然条件はNPハードである。 半ランダムモデルに対して確実に堅牢なスパースリカバリの幾何学に適合した新しい反復法を設計する。 我々のアプローチが、自然統計逆問題に対する新しい堅牢で効率的なアルゴリズムの扉を開くことを願っている。

Sparse recovery is one of the most fundamental and well-studied inverse problems. Standard statistical formulations of the problem are provably solved by general convex programming techniques and more practical, fast (nearly-linear time) iterative methods. However, these latter "fast algorithms" have previously been observed to be brittle in various real-world settings. We investigate the brittleness of fast sparse recovery algorithms to generative model changes through the lens of studying their robustness to a "helpful" semi-random adversary, a framework which tests whether an algorithm overfits to input assumptions. We consider the following basic model: let $\mathbf{A} \in \mathbb{R}^{n \times d}$ be a measurement matrix which contains an unknown subset of rows $\mathbf{G} \in \mathbb{R}^{m \times d}$ which are bounded and satisfy the restricted isometry property (RIP), but is otherwise arbitrary. Letting $x^\star \in \mathbb{R}^d$ be $s$-sparse, and given either exact measurements $b = \mathbf{A} x^\star$ or noisy measurements $b = \mathbf{A} x^\star + \xi$, we design algorithms recovering $x^\star$ information-theoreti cally optimally in nearly-linear time. We extend our algorithm to hold for weaker generative models relaxing our planted RIP assumption to a natural weighted variant, and show that our method's guarantees naturally interpolate the quality of the measurement matrix to, in some parameter regimes, run in sublinear time. Our approach differs from prior fast iterative methods with provable guarantees under semi-random generative models: natural conditions on a submatrix which make sparse recovery tractable are NP-hard to verify. We design a new iterative method tailored to the geometry of sparse recovery which is provably robust to our semi-random model. We hope our approach opens the door to new robust, efficient algorithms for natural statistical inverse problems.
翻訳日:2022-03-09 14:20:04 公開日:2022-03-08
# 糖尿病性足部潰瘍に対する創傷切片と再建を用いた3次元バイオプリントパッチの作成

Generating 3D Bio-Printable Patches Using Wound Segmentation and Reconstruction to Treat Diabetic Foot Ulcers ( http://arxiv.org/abs/2203.03814v1 )

ライセンス: Link先を確認
Han Joo Chae, Seunghwan Lee, Hyewon Son, Seungyeob Han, Taebin Lim(参考訳) AiD Regenは,糖尿病性足部潰瘍(DFU)の治療中に3Dバイオプリンダーを介してプリントできるように,2Dセマンティックセグメンテーションと3D再構成を組み合わせた3D創傷モデルを生成する新しいシステムである。 AiD Regenは、RGB-D画像キャプチャ、セマンティックセグメンテーション、バウンダリ誘導ポイントクラウド処理、3Dモデル再構成、および3Dプリント可能なGコード生成を含む全パイプラインを、ボックスから使用できる単一のシステムにシームレスに結合する。 小型で不均衡なdfu画像データセットを扱う多段データ前処理法を開発した。 AiD Regenのヒューマン・イン・ザ・ループ・機械学習インターフェースにより、臨床医はほんのわずかなタッチ操作で3D再生パッチを作成できるだけでなく、傷の境界をカスタマイズし、確認することができる。 実験で証明されたように, 従来の創傷セグメンテーションモデルよりも優れており, 復元アルゴリズムは説得力のある3次元創傷モデルを生成することができる。 さらに,DFU患者に対する症例スタディを行い,DFU創の治療におけるAiD Regenの有効性を実証した。

We introduce AiD Regen, a novel system that generates 3D wound models combining 2D semantic segmentation with 3D reconstruction so that they can be printed via 3D bio-printers during the surgery to treat diabetic foot ulcers (DFUs). AiD Regen seamlessly binds the full pipeline, which includes RGB-D image capturing, semantic segmentation, boundary-guided point-cloud processing, 3D model reconstruction, and 3D printable G-code generation, into a single system that can be used out of the box. We developed a multi-stage data preprocessing method to handle small and unbalanced DFU image datasets. AiD Regen's human-in-the-loop machine learning interface enables clinicians to not only create 3D regenerative patches with just a few touch interactions but also customize and confirm wound boundaries. As evidenced by our experiments, our model outperforms prior wound segmentation models and our reconstruction algorithm is capable of generating 3D wound models with compelling accuracy. We further conducted a case study on a real DFU patient and demonstrated the effectiveness of AiD Regen in treating DFU wounds.
翻訳日:2022-03-09 14:18:14 公開日:2022-03-08
# 充填レベル分類のための最大エントロピー変換の混合によるデータ拡張

Data augmentation with mixtures of max-entropy transformations for filling-level classification ( http://arxiv.org/abs/2203.04027v1 )

ライセンス: Link先を確認
Apostolos Modas and Andrea Cavallaro and Pascal Frossard(参考訳) 本稿では,コンテンツレベルの分類作業のための基本データ拡張スキームを用いて,テスト時間データにおける分散シフトの問題に対処する。 このようなタスクでは、テスト時容器(カップやグラス)の形状や透明度などの特性が、トレーニングデータで表されるものと異なる場合がある。 このような分散シフトを標準拡張方式で処理することは困難であり、テスト時間インスタンスの特性をカバーするためにトレーニングイメージを変換するには洗練された画像操作が必要である。 したがって、新しい形状、色、スペクトル特性を持つサンプルを生成するマックスエントロピー変換の族を用いて、多様な拡張を生成する。 このような原則拡張スキームだけで、トランスファー学習を使用する現在のアプローチを置き換えたり、あるいはトランスファー学習と組み合わせてパフォーマンスを向上させることが可能であることを示す。

We address the problem of distribution shifts in test-time data with a principled data augmentation scheme for the task of content-level classification. In such a task, properties such as shape or transparency of test-time containers (cup or drinking glass) may differ from those represented in the training data. Dealing with such distribution shifts using standard augmentation schemes is challenging and transforming the training images to cover the properties of the test-time instances requires sophisticated image manipulations. We therefore generate diverse augmentations using a family of max-entropy transformations that create samples with new shapes, colors and spectral characteristics. We show that such a principled augmentation scheme, alone, can replace current approaches that use transfer learning or can be used in combination with transfer learning to improve its performance.
翻訳日:2022-03-09 14:17:51 公開日:2022-03-08
# vovit:低レイテンシグラフに基づく音声・視覚音声分離トランス

VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer ( http://arxiv.org/abs/2203.04099v1 )

ライセンス: Link先を確認
Juan F. Montesinos, Venkatesh S. Kadandale, Gloria Haro(参考訳) 本稿では,音声と歌声の2つのシナリオにおいて,低レイテンシで最先端手法よりも優れた音声分離手法を提案する。 モデルは2段階のネットワークに基づいている。 動きの手がかりは、顔のランドマークを処理する軽量なグラフ畳み込みネットワークで得られる。 そして、音声と動きの両特徴をオーディオ・視覚変換器に供給し、孤立したターゲット源をかなりよく推定する。 第2段階では、主声は音声のみのネットワークで拡張される。 アブレーション研究と最先端手法との比較を行った。 最後に,歌声分離作業における音声分離訓練モデルの伝達可能性について検討する。 デモ、コード、重み付けはhttps://ipcv.github. io/VoViT/で公開されます。

This paper presents an audio-visual approach for voice separation which outperforms state-of-the-art methods at a low latency in two scenarios: speech and singing voice. The model is based on a two-stage network. Motion cues are obtained with a lightweight graph convolutional network that processes face landmarks. Then, both audio and motion features are fed to an audio-visual transformer which produces a fairly good estimation of the isolated target source. In a second stage, the predominant voice is enhanced with an audio-only network. We present different ablation studies and comparison to state-of-the-art methods. Finally, we explore the transferability of models trained for speech separation in the task of singing voice separation. The demos, code, and weights will be made publicly available at https://ipcv.github. io/VoViT/
翻訳日:2022-03-09 14:17:40 公開日:2022-03-08
# ニューラルクロスリンガル要約のための変分階層モデル

A Variational Hierarchical Model for Neural Cross-Lingual Summarization ( http://arxiv.org/abs/2203.03820v1 )

ライセンス: Link先を確認
Yunlong Liang, Fandong Meng, Chulun Zhou, Jinan Xu, Yufeng Chen, Jinsong Su and Jie Zhou(参考訳) 言語間要約(CLS)の目標は、ある言語(例えば、英語)の文書を別の言語(例えば、中国語)の要約に変換することである。 基本的に、CLSタスクは機械翻訳(MT)と単言語要約(MS)の組み合わせであり、MT\&MSとCLSの間に階層的な関係がある。 clsに関する既存の研究は、主にパイプラインメソッドの利用や、補助mtまたはms目的を介してエンドツーエンドモデルの共同トレーニングに焦点を当てている。 しかし、翻訳と要約の両方の能力を必要とするため、モデルが直接CLSを実行することは極めて困難である。 この問題に対処するために,条件付き変分自動エンコーダに基づくCLSタスクの階層モデルを提案する。 階層モデルは、それぞれローカルレベルとグローバルレベルに2種類の潜在変数を含む。 局所レベルでは、2つの潜伏変数があり、1つは翻訳用、もう1つは要約用である。 グローバルレベルについては、2つの局所レベル変数に条件付き言語間要約のための潜在変数が存在する。 2つの言語方向(英語-中国語)の実験は、提案手法の有効性と優位性を検証する。 さらに,我々のモデルでは,小数点設定で比較モデルと比較して,言語横断的な要約を生成できることが示される。

The goal of the cross-lingual summarization (CLS) is to convert a document in one language (e.g., English) to a summary in another one (e.g., Chinese). Essentially, the CLS task is the combination of machine translation (MT) and monolingual summarization (MS), and thus there exists the hierarchical relationship between MT\&MS and CLS. Existing studies on CLS mainly focus on utilizing pipeline methods or jointly training an end-to-end model through an auxiliary MT or MS objective. However, it is very challenging for the model to directly conduct CLS as it requires both the abilities to translate and summarize. To address this issue, we propose a hierarchical model for the CLS task, based on the conditional variational auto-encoder. The hierarchical model contains two kinds of latent variables at the local and global levels, respectively. At the local level, there are two latent variables, one for translation and the other for summarization. As for the global level, there is another latent variable for cross-lingual summarization conditioned on the two local-level variables. Experiments on two language directions (English-Chinese) verify the effectiveness and superiority of the proposed approach. In addition, we show that our model is able to generate better cross-lingual summaries than comparison models in the few-shot setting.
翻訳日:2022-03-09 14:17:17 公開日:2022-03-08
# 中国語臨床テキストにおける医用情報アノテーションと抽出の統一的枠組み

A Unified Framework of Medical Information Annotation and Extraction for Chinese Clinical Text ( http://arxiv.org/abs/2203.03823v1 )

ライセンス: Link先を確認
Enwei Zhu, Qilin Sheng, Huanwan Yang, Jinpeng Li(参考訳) 医療情報抽出は自然言語処理(NLP)タスクのグループから構成されており、臨床テキストを予め定義された構造化形式に変換する。 現在のSOTA(State-of-the-ar t)NLPモデルは、ディープラーニング技術と高度に統合されており、大量の注釈付き言語データを必要とする。 本研究では,アノテーション,モデリング,評価に統一された医療エンティティ認識,関係抽出,属性抽出に関する工学的枠組みを提案する。 具体的には、アノテーションスキームは包括的で、特に医療関係においてタスク間で互換性がある。 その結果得られた注釈付きコーパスは1,200の完全な医療記録(または18,039の文書)を含み、3つのタスクでアノテーション間合意(iaas)を94.53%、73.73%、91.98%のf1スコアで達成した。 3つのタスク固有ニューラルネットワークモデルが共有構造内で開発され、SOTA NLP技術によって強化される。 実験の結果,F1スコアが93.47%,67.14%,90.89% の医療機関,関係,属性を検索できることがわかった。 本研究は,公表されたアノテーション・スキームとコードに加えて,総合的な医療情報抽出システムを開発するための堅牢かつ実用的な工学的経験を提供する。

Medical information extraction consists of a group of natural language processing (NLP) tasks, which collaboratively convert clinical text to pre-defined structured formats. Current state-of-the-art (SOTA) NLP models are highly integrated with deep learning techniques and thus require massive annotated linguistic data. This study presents an engineering framework of medical entity recognition, relation extraction and attribute extraction, which are unified in annotation, modeling and evaluation. Specifically, the annotation scheme is comprehensive, and compatible between tasks, especially for the medical relations. The resulted annotated corpus includes 1,200 full medical records (or 18,039 broken-down documents), and achieves inter-annotator agreements (IAAs) of 94.53%, 73.73% and 91.98% F 1 scores for the three tasks. Three task-specific neural network models are developed within a shared structure, and enhanced by SOTA NLP techniques, i.e., pre-trained language models. Experimental results show that the system can retrieve medical entities, relations and attributes with F 1 scores of 93.47%, 67.14% and 90.89%, respectively. This study, in addition to our publicly released annotation scheme and code, provides solid and practical engineering experience of developing an integrated medical information extraction system.
翻訳日:2022-03-09 14:16:58 公開日:2022-03-08
# (参考訳) 領域ギャップを越えた宇宙空間推定のためのロバストマルチタスク学習とオンラインリファインメント [全文訳有]

Robust Multi-Task Learning and Online Refinement for Spacecraft Pose Estimation across Domain Gap ( http://arxiv.org/abs/2203.04275v1 )

ライセンス: CC BY 4.0
Tae Ha Park and Simone D'Amico(参考訳) 本研究は,非協力型宇宙船のポーズ推定のための畳み込みニューラルネットワーク(cnn)であるspaces pose network v2(spnv2)を提案する。 SPNv2はマルチスケールのマルチタスクCNNであり、共有機能出力で異なるタスクを実行する複数の予測ヘッドと共有機能エンコーダで構成される。 これらのタスクはすべて、予め定義された衛星キーポイントの予測、直接ポーズ回帰、衛星の前景のバイナリセグメンテーションなど、画像からのターゲット宇宙船の検出とポーズ推定に関連する。 共有エンコーダは、合成画像のみに広範なデータ拡張を施した異なる関連タスクを共同で訓練することにより、合成画像と根本的に異なる視覚的特徴を持つ画像領域に共通する特徴を学習する。 この作業は、デプロイ時にオンラインのターゲットドメインイメージ上のSPNv2の正規化レイヤのパラメータを洗練するオンラインドメインリファインメント(ODR)も導入している。 具体的には、ODRは予測衛星フォアグラウンドの自己監督エントロピー最小化を行い、ポーズラベルを使わずに、最小の計算努力で、ターゲット領域画像上でのCNNの性能を向上させる。 SPNv2のGitHubリポジトリは近い将来利用可能になる予定だ。

This work presents Spacecraft Pose Network v2 (SPNv2), a Convolutional Neural Network (CNN) for pose estimation of noncooperative spacecraft across domain gap. SPNv2 is a multi-scale, multi-task CNN which consists of a shared multi-scale feature encoder and multiple prediction heads that perform different tasks on a shared feature output. These tasks are all related to detection and pose estimation of a target spacecraft from an image, such as prediction of pre-defined satellite keypoints, direct pose regression, and binary segmentation of the satellite foreground. It is shown that by jointly training on different yet related tasks with extensive data augmentations on synthetic images only, the shared encoder learns features that are common across image domains that have fundamentally different visual characteristics compared to synthetic images. This work also introduces Online Domain Refinement (ODR) which refines the parameters of the normalization layers of SPNv2 on the target domain images online at deployment. Specifically, ODR performs self-supervised entropy minimization of the predicted satellite foreground, thereby improving the CNN's performance on the target domain images without their pose labels and with minimal computational efforts. The GitHub repository for SPNv2 will be made available in the near future.
翻訳日:2022-03-09 14:14:47 公開日:2022-03-08
# (参考訳) オフライン政策評価のための線形推定器のシャープ特性

A Sharp Characterization of Linear Estimators for Offline Policy Evaluation ( http://arxiv.org/abs/2203.04236v1 )

ライセンス: CC BY 4.0
Juan C. Perdomo, Akshay Krishnamurthy, Peter Bartlett, Sham Kakade(参考訳) オフライン政策評価は強化学習における基本的な統計問題であり、潜在的に異なる方針によって収集されたデータから意思決定方針の価値関数を推定することを含む。 複雑で高次元の観察で問題に取り組むために、強化学習における関数近似の可能性を理解することに、理論家や実践家からも大きな関心が寄せられている。 重要な研究にもかかわらず、線形関数近似の最も単純な設定であっても、オフライン政策評価がいつ取り扱えると期待できるかという鋭い特徴は、これまでも解明され続けており、近年では驚くほど多くの否定的な結果が出回っている。 本研究では,古典的手法,特にq-iteration (fqi) と最小二乗時間差学習 (lstd) がオフライン政策評価に成功するために必要な,単純な制御理論および線形代数的条件を明らかにする。 この特徴を用いて,これらの推定者が成功する体制の正確な階層を確立する。 我々はLSTDがFQIよりも厳密に弱い条件下で機能することを証明した。 さらに, lstd で解くことができない場合, 無限データの極限であっても, 線形推定器の幅広いクラスでは解くことができないことを確かめた。 そこで本研究では,オフライン政策評価 (ope) における線形推定器の挙動の全体像と,従来と異なる正準アルゴリズムの解析を統一し,その基礎となる統計複雑性のより鋭い概念を提供する。

Offline policy evaluation is a fundamental statistical problem in reinforcement learning that involves estimating the value function of some decision-making policy given data collected by a potentially different policy. In order to tackle problems with complex, high-dimensional observations, there has been significant interest from theoreticians and practitioners alike in understanding the possibility of function approximation in reinforcement learning. Despite significant study, a sharp characterization of when we might expect offline policy evaluation to be tractable, even in the simplest setting of linear function approximation, has so far remained elusive, with a surprising number of strong negative results recently appearing in the literature. In this work, we identify simple control-theoretic and linear-algebraic conditions that are necessary and sufficient for classical methods, in particular Fitted Q-iteration (FQI) and least squares temporal difference learning (LSTD), to succeed at offline policy evaluation. Using this characterization, we establish a precise hierarchy of regimes under which these estimators succeed. We prove that LSTD works under strictly weaker conditions than FQI. Furthermore, we establish that if a problem is not solvable via LSTD, then it cannot be solved by a broad class of linear estimators, even in the limit of infinite data. Taken together, our results provide a complete picture of the behavior of linear estimators for offline policy evaluation (OPE), unify previously disparate analyses of canonical algorithms, and provide significantly sharper notions of the underlying statistical complexity of OPE.
翻訳日:2022-03-09 13:52:45 公開日:2022-03-08
# Versatile AtrousFormerによる車線検出と局所意味誘導

Lane Detection with Versatile AtrousFormer and Local Semantic Guidance ( http://arxiv.org/abs/2203.04067v1 )

ライセンス: Link先を確認
Jiaxing Yang, Lihe Zhang, Huchuan Lu(参考訳) レーン検出は自動運転における中核機能の一つであり、近年広く注目を集めている。 レーンインスタンスをセグメント化するネットワークは、特に外観が悪い場合には、レーンの分布特性を探索できなければならない。 既存のほとんどの手法はCNNベースの手法に頼っている。 最近の愛らしいseq2seq Transformer \cite{transformer}を組み込む試みもいくつかある。 しかし、グローバルな情報収集能力の弱点と外乱計算のオーバーヘッドにより、より広範囲の応用が禁止されている。 本研究では,この問題を解決するためにAtrous Transformer (AtrousFormer)を提案する。 その変異型ローカルアトルフォーマーは、抽出を促進するために特徴抽出器にインターリーブされる。 まず行単位で情報を収集し、次にカラムによって専用の方法で情報を収集し、最終的により強力な情報収集能力とより良い計算効率をネットワークに供給します。 さらに,さらに性能を向上させるために,各レーンの開始点のガウス写像が処理の導出に役立ち,レーンの識別性と形状をより正確に示す局所意味的導出デコーダを提案する。 3つの挑戦的なベンチマーク(culane、tusimple、bdd100k)に関する広範な結果は、私たちのネットワークが最先端の芸術に対して好成績を示している。

Lane detection is one of the core functions in autonomous driving and has aroused widespread attention recently. The networks to segment lane instances, especially with bad appearance, must be able to explore lane distribution properties. Most existing methods tend to resort to CNN-based techniques. A few have a try on incorporating the recent adorable, the seq2seq Transformer \cite{transformer}. However, their innate drawbacks of weak global information collection ability and exorbitant computation overhead prohibit a wide range of the further applications. In this work, we propose Atrous Transformer (AtrousFormer) to solve the problem. Its variant local AtrousFormer is interleaved into feature extractor to enhance extraction. Their collecting information first by rows and then by columns in a dedicated manner finally equips our network with stronger information gleaning ability and better computation efficiency. To further improve the performance, we also propose a local semantic guided decoder to delineate the identities and shapes of lanes more accurately, in which the predicted Gaussian map of the starting point of each lane serves to guide the process. Extensive results on three challenging benchmarks (CULane, TuSimple, and BDD100K) show that our network performs favorably against the state of the arts.
翻訳日:2022-03-09 13:50:39 公開日:2022-03-08
# 少数ショットセグメンテーションのための潜在プロトタイプを用いたコントラスト強調

Contrastive Enhancement Using Latent Prototype for Few-Shot Segmentation ( http://arxiv.org/abs/2203.04095v1 )

ライセンス: Link先を確認
Xiaoyu Zhao, Xiaoqian Chen, Zhiqiang Gong, Wen Yao, Yunyang Zhang, Xiaohu Zheng(参考訳) ほとんどショットのセグメンテーションにより、アノテーションのない例で未確認のクラスを認識できる。 既存のほとんどのメソッドはプロトタイプ学習アーキテクチャを採用しており、サポート対象ベクトルを拡張し、クエリ機能と結合して条件付きセグメンテーションを実行する。 しかし、このようなフレームワークは、サポートとクエリ機能の類似性を無視しながら、クエリ機能に重点を置く可能性がある。 本稿では,潜在クラスの活用と,プロトタイプと問合せ機能との類似性情報の利用性を高めるために,潜在プロトタイプを用いた対比的拡張手法を提案する。 具体的には、擬似マスクと特徴類似性に基づく新しいプロトタイプを生成するために、潜伏プロトタイプサンプリングモジュールを提案する。 このモジュールはエンドツーエンドの学習を便利に行い、クラスタベースの手法のようなクラスタ番号に依存しない。 さらに、異なる予測を同じクエリ機能で提供するために、モデルを駆動するコントラスト拡張モジュールも開発されている。 本手法は,セグメンテーション性能を向上させるために,他のベースラインと柔軟に統合するための補助モジュールとして使用できる。 広範な実験により,pascal-5^iおよびcoco-20^iのベースラインを5.9%,7.3%上回る1ショットおよび5ショットセグメンテーションの最先端手法の性能が著しく向上した。 ソースコードはhttps://github.com/z haoxiaoyu1995/celp-p ytorchで入手できる。

Few-shot segmentation enables the model to recognize unseen classes with few annotated examples. Most existing methods adopt prototype learning architecture, where support prototype vectors are expanded and concatenated with query features to perform conditional segmentation. However, such framework potentially focuses more on query features while may neglect the similarity between support and query features. This paper proposes a contrastive enhancement approach using latent prototypes to leverage latent classes and raise the utilization of similarity information between prototype and query features. Specifically, a latent prototype sampling module is proposed to generate pseudo-mask and novel prototypes based on features similarity. The module conveniently conducts end-to-end learning and has no strong dependence on clustering numbers like cluster-based method. Besides, a contrastive enhancement module is developed to drive models to provide different predictions with the same query features. Our method can be used as an auxiliary module to flexibly integrate into other baselines for a better segmentation performance. Extensive experiments show our approach remarkably improves the performance of state-of-the-art methods for 1-shot and 5-shot segmentation, especially outperforming baseline by 5.9% and 7.3% for 5-shot task on Pascal-5^i and COCO-20^i. Source code is available at https://github.com/z haoxiaoyu1995/CELP-P ytorch
翻訳日:2022-03-09 13:50:20 公開日:2022-03-08
# オンライン連続学習における急激な表現変化の低減に関する新しい視点

New Insights on Reducing Abrupt Representation Change in Online Continual Learning ( http://arxiv.org/abs/2203.03798v1 )

ライセンス: Link先を確認
Lucas Caccia, Rahaf Aljundi, Nader Asadi, Tinne Tuytelaars, Joelle Pineau, Eugene Belilovsky(参考訳) オンライン連続学習パラダイムでは、エージェントは記憶と計算の制約を尊重しながら、変化する分布から学ぶ必要がある。 過去のデータの小さなサブセットを新しいデータと一緒に保存して再生するexperience replay(er)が、シンプルで効果的な学習戦略として登場した。 本研究では,以前に観測されていないクラスが入ってくるデータストリームに現れる際に発生する観測データの表現の変化に注目し,新しいクラスを以前のクラスと区別しなければならない。 我々は、ERを適用することで、新たに追加されたクラスの表現が以前のクラスと大幅に重複し、非常に破壊的なパラメータ更新をもたらすことを示すことで、この問題に新たな光を当てた。 この経験的分析に基づいて,新しいクラスに対応するために,学習した表現を劇的な適応から保護することで,この問題を緩和する手法を提案する。 非対称な更新規則を用いることで、新しいクラスを(逆ではなく)古いクラスに適応させることができ、特にタスク境界において、その多くが通常発生する場合、より効果的であることを示す。 標準連続学習ベンチマークにおける強力なベースラインよりも有意な向上を示す実験結果

In the online continual learning paradigm, agents must learn from a changing distribution while respecting memory and compute constraints. Experience Replay (ER), where a small subset of past data is stored and replayed alongside new data, has emerged as a simple and effective learning strategy. In this work, we focus on the change in representations of observed data that arises when previously unobserved classes appear in the incoming data stream, and new classes must be distinguished from previous ones. We shed new light on this question by showing that applying ER causes the newly added classes' representations to overlap significantly with the previous classes, leading to highly disruptive parameter updates. Based on this empirical analysis, we propose a new method which mitigates this issue by shielding the learned representations from drastic adaptation to accommodate new classes. We show that using an asymmetric update rule pushes new classes to adapt to the older ones (rather than the reverse), which is more effective especially at task boundaries, where much of the forgetting typically occurs. Empirical results show significant gains over strong baselines on standard continual learning benchmarks
翻訳日:2022-03-09 13:49:55 公開日:2022-03-08
# シミュレーションに基づく推論のための変分法

Variational methods for simulation-based inference ( http://arxiv.org/abs/2203.04176v1 )

ライセンス: Link先を確認
Manuel Gl\"ockler, Michael Deistler, Jakob H. Macke(参考訳) 我々は,難解な確率を持つモデルにおいてベイズ推論を行う手法であるシーケンシャルニューラル変分推論(snvi)を提案する。 SNVIは、確率推定(または確率比推定)と変分推論を組み合わせて、スケーラブルなシミュレーションベースの推論アプローチを実現する。 SNVIは確率(比)推定の柔軟性を維持し、シミュレーションの任意の提案を可能にすると同時に、MCMCサンプリングを必要とせずに後部分布の関数的推定を提供する。 SNVIの変種をいくつか提示し,ベンチマークの精度を損なうことなく,従来のアルゴリズムよりも計算効率が高いことを示した。 本研究では, カニのピロリックネットワークの神経科学モデルにSNVIを適用し, これまでに報告されたシミュレーションよりも1桁少ないシミュレーションで後部分布を推定できることを実証した。 SNVIは精度と柔軟性を維持しながらシミュレーションベースの推論の計算コストを大幅に削減し、これまでアクセスできなかった問題に対処できるようにする。

We present Sequential Neural Variational Inference (SNVI), an approach to perform Bayesian inference in models with intractable likelihoods. SNVI combines likelihood-estimatio n (or likelihood-ratio-est imation) with variational inference to achieve a scalable simulation-based inference approach. SNVI maintains the flexibility of likelihood(-ratio) estimation to allow arbitrary proposals for simulations, while simultaneously providing a functional estimate of the posterior distribution without requiring MCMC sampling. We present several variants of SNVI and demonstrate that they are substantially more computationally efficient than previous algorithms, without loss of accuracy on benchmark tasks. We apply SNVI to a neuroscience model of the pyloric network in the crab and demonstrate that it can infer the posterior distribution with one order of magnitude fewer simulations than previously reported. SNVI vastly reduces the computational cost of simulation-based inference while maintaining accuracy and flexibility, making it possible to tackle problems that were previously inaccessible.
翻訳日:2022-03-09 13:47:10 公開日:2022-03-08
# クロスドメイン連続学習におけるbeyond domainの一般化について

On Generalizing Beyond Domains in Cross-Domain Continual Learning ( http://arxiv.org/abs/2203.03970v1 )

ライセンス: Link先を確認
Christian Simon, Masoud Faraki, Yi-Hsuan Tsai, Xiang Yu, Samuel Schulter, Yumin Suh, Mehrtash Harandi, Manmohan Chandraker(参考訳) 人間は様々な条件で新しいタスクの知識を蓄積する能力を持っているが、ディープニューラルネットワークは、新しいタスクを学んだ後に学習した知識を破滅的に忘れてしまう。 最近の多くの手法は、同様の分布に従う列車や試験データの仮定下での壊滅的な忘れることを防ぐことに重点を置いている。 本研究では,モデルが未知の領域に推論を一般化しなければならない領域シフト下での連続学習のより現実的なシナリオを考える。 そこで本研究では,Mahalanobisの類似性計算によって得られた学習パラメータとして,分類器にクラス類似度指標を組み込むことにより,意味論的特徴の学習を奨励する。 これらの追加パラメータとともにバックボーン表現の学習は、エンドツーエンドでシームレスに行われる。 さらに,より優れた知識蒸留を行うために,パラメータの指数移動平均に基づくアプローチを提案する。 提案手法では,ドメインシフトの下で新しいタスクを学習し,精度を最大10%向上させることで,DomainNetやOfficeHomeなどの挑戦的なデータセット上でのタスクを最大10%高速化する。

Humans have the ability to accumulate knowledge of new tasks in varying conditions, but deep neural networks often suffer from catastrophic forgetting of previously learned knowledge after learning a new task. Many recent methods focus on preventing catastrophic forgetting under the assumption of train and test data following similar distributions. In this work, we consider a more realistic scenario of continual learning under domain shifts where the model must generalize its inference to an unseen domain. To this end, we encourage learning semantically meaningful features by equipping the classifier with class similarity metrics as learning parameters which are obtained through Mahalanobis similarity computations. Learning of the backbone representation along with these extra parameters is done seamlessly in an end-to-end manner. In addition, we propose an approach based on the exponential moving average of the parameters for better knowledge distillation. We demonstrate that, to a great extent, existing continual learning algorithms fail to handle the forgetting issue under multiple distributions, while our proposed approach learns new tasks under domain shift with accuracy boosts up to 10% on challenging datasets such as DomainNet and OfficeHome.
翻訳日:2022-03-09 13:46:54 公開日:2022-03-08
# 勾配蓄積によるエンドツーエンド複数インスタンス学習

End-to-end Multiple Instance Learning with Gradient Accumulation ( http://arxiv.org/abs/2203.03981v1 )

ライセンス: Link先を確認
Axel Andersson, Nadezhda Koriakina, Nata\v{s}a Sladoje and Joakim Lindblad(参考訳) 弱いラベル付きデータで学習し、解釈可能性を提供することができることは、注意に基づく深層多点学習(ABMIL)法が病理画像の分類において特に人気になった主な理由の1つである。 このような画像データは、通常、小さなパッチ(インスタンス)にトリミングされるギガピクセルサイズの全スライディングイメージ(WSI)の形になる。 しかし、データの大きさは、AMMILモデルのトレーニングを困難にしている。 1つのWSIのインスタンスはすべて、従来のGPUでは一度に処理できない。 既存のソリューションは、事前訓練されたモデル、戦略的サンプリングやインスタンスの選択、あるいは自己教師型学習に頼ることで、トレーニングを損なう。 本稿では、GPUメモリに制限されることなくAMMILモデルのエンドツーエンドのトレーニングを可能にする勾配蓄積に基づくトレーニング戦略を提案する。 qmnistとimagenetteの両方で実験を行い、パフォーマンスとトレーニング時間を調査し、従来のメモリ拡張ベースラインと最近のサンプルベースアプローチとの比較を行った。 このメモリ効率のアプローチは遅いが、メモリ拡張ベースラインと区別できないパフォーマンスに達する。

Being able to learn on weakly labeled data, and provide interpretability, are two of the main reasons why attention-based deep multiple instance learning (ABMIL) methods have become particularly popular for classification of histopathological images. Such image data usually come in the form of gigapixel-sized whole-slide-images (WSI) that are cropped into smaller patches (instances). However, the sheer size of the data makes training of ABMIL models challenging. All the instances from one WSI cannot be processed at once by conventional GPUs. Existing solutions compromise training by relying on pre-trained models, strategic sampling or selection of instances, or self-supervised learning. We propose a training strategy based on gradient accumulation that enables direct end-to-end training of ABMIL models without being limited by GPU memory. We conduct experiments on both QMNIST and Imagenette to investigate the performance and training time, and compare with the conventional memory-expensive baseline and a recent sampled-based approach. This memory-efficient approach, although slower, reaches performance indistinguishable from the memory-expensive baseline.
翻訳日:2022-03-09 13:46:32 公開日:2022-03-08
# 一般ゼロショット学習におけるバイアス校正のためのゲーティングモデル

A Gating Model for Bias Calibration in Generalized Zero-shot Learning ( http://arxiv.org/abs/2203.04195v1 )

ライセンス: Link先を確認
Gukyeong Kwon, Ghassan AlRegib(参考訳) 汎用ゼロショット学習(GZSL)は,補助情報のみを用いてクラスデータに一般化可能なモデルを訓練することを目的としている。 GZSLの主な課題の1つは、トレーニング中に利用可能なクラスデータのみに過度に適合することに起因する、見かけたクラスに対するバイアス付きモデル予測である。 本稿では,GZSLのための2ストリームオートエンコーダを用いたゲーティングモデルを提案する。 このゲーティングモデルでは,クエリデータが既見のクラスか未見のクラスかを予測するとともに,別途見当たっている専門家と未見のエキスパートを使用して,互いに独立してクラスを予測する。 このフレームワークは、見知らぬクラスの予測スコアと見つからないクラスの予測スコアを比較することを避ける。 特に、潜在空間における視覚的表現と属性表現の間の距離とオートエンコーダのクロスコンストラクション空間を測定する。 これらの距離は、異なるレベルのデータ抽象化で見えないクラスを特徴付ける補完的特徴として利用されます。 また、2-stream autoencoderはゲーティングモデルとunseenエキスパートの統一フレームワークとして動作し,提案手法の計算効率が向上する。 提案手法を4つのベンチマーク画像認識データセットで検証する。 他の最先端手法と比較して、SUNとAWA2で最高の高調波平均精度が得られ、CUBとAWA1では2番目に良い。 さらに、ベースモデルでは生成モデルに依存する最先端のメソッドよりも少なくとも20%少ないモデルパラメータを必要とする。

Generalized zero-shot learning (GZSL) aims at training a model that can generalize to unseen class data by only using auxiliary information. One of the main challenges in GZSL is a biased model prediction toward seen classes caused by overfitting on only available seen class data during training. To overcome this issue, we propose a two-stream autoencoder-based gating model for GZSL. Our gating model predicts whether the query data is from seen classes or unseen classes, and utilizes separate seen and unseen experts to predict the class independently from each other. This framework avoids comparing the biased prediction scores for seen classes with the prediction scores for unseen classes. In particular, we measure the distance between visual and attribute representations in the latent space and the cross-reconstruction space of the autoencoder. These distances are utilized as complementary features to characterize unseen classes at different levels of data abstraction. Also, the two-stream autoencoder works as a unified framework for the gating model and the unseen expert, which makes the proposed method computationally efficient. We validate our proposed method in four benchmark image recognition datasets. In comparison with other state-of-the-art methods, we achieve the best harmonic mean accuracy in SUN and AWA2, and the second best in CUB and AWA1. Furthermore, our base model requires at least 20% less number of model parameters than state-of-the-art methods relying on generative models.
翻訳日:2022-03-09 13:45:57 公開日:2022-03-08
# (参考訳) Adapt$\mathcal{O}$r:言語モデルのためのObjective-Centric Adaptation Framework [全文訳有]

Adapt$\mathcal{O}$r: Objective-Centric Adaptation Framework for Language Models ( http://arxiv.org/abs/2203.03989v1 )

ライセンス: CC BY 4.0
Michal \v{S}tef\'anik, V\'it Novotn\'y, Nikola Groverov\'a and Petr Sojka(参考訳) 自然言語処理研究の進展は、広範囲にわたるソフトウェアフレームワークによってもたらされる可能性によって触媒される。 本稿では,事前学習と微調整からなる従来のモデル中心のアプローチを客観的中心のアプローチに転換する適応型ライブラリを提案する。 マルチタスクトレーニング、カスタム目標開発、動的トレーニングカリキュラム、ドメイン適応において、目的中心の実験の強化の恩恵を受けることができる研究の方向性を調査する。 Adaptorは、これらの研究の方向性を再現しやすくすることを目的としている。 最後に、選択された教師なしドメイン適応シナリオにおけるアダプタの実用的適用性を示す。

Progress in natural language processing research is catalyzed by the possibilities given by the widespread software frameworks. This paper introduces Adaptor library that transposes the traditional model-centric approach composed of pre-training + fine-tuning steps to objective-centric approach, composing the training process by applications of selected objectives. We survey research directions that can benefit from enhanced objective-centric experimentation in multitask training, custom objectives development, dynamic training curricula, or domain adaptation. Adaptor aims to ease reproducibility of these research directions in practice. Finally, we demonstrate the practical applicability of Adaptor in selected unsupervised domain adaptation scenarios.
翻訳日:2022-03-09 13:44:16 公開日:2022-03-08
# 継続的学習を超えた破滅的な忘れを克服する: ニューラルマシン翻訳のためのバランスのとれたトレーニング

Overcoming Catastrophic Forgetting beyond Continual Learning: Balanced Training for Neural Machine Translation ( http://arxiv.org/abs/2203.03910v1 )

ライセンス: Link先を確認
Chenze Shao, Yang Feng(参考訳) ニューラルネットワークは、動的データ分布から複数のタスクを逐次学習する際に、学習した知識を徐々に忘れる傾向にある。 この問題は 'textit{catastrophic forgetting' と呼ばれ、ニューラルネットワークの継続的な学習における根本的な課題である。 本研究では,連続的な学習だけでなく,従来の静的学習にも大きな影響があることを観察する。 ニューラルネットワーク、特にニューラルマシン翻訳モデルは、静的トレーニングセットから学習しても破滅的な忘れがちである。 具体的に言うと、最終モデルはトレーニングサンプルに不均衡な注意を払っており、最近露出したサンプルは以前のサンプルよりも多くの注意を引き付けている。 根本的な原因は、トレーニングサンプルが各モデル更新でバランスのとれたトレーニングを受けていないため、この問題をtextit{imbalanced training}と命名する。 そこで本研究では,特定のデータ順に学習した教師モデルを用いて,学生モデルに相補的知識を反復的に提供するための補足的オンライン知識蒸留(cokd)を提案する。 複数の機械翻訳タスクの実験結果から,本手法は不均衡学習の問題を軽減し,強力なベースラインシステムに対する大幅な改善を実現する。

Neural networks tend to gradually forget the previously learned knowledge when learning multiple tasks sequentially from dynamic data distributions. This problem is called \textit{catastrophic forgetting}, which is a fundamental challenge in the continual learning of neural networks. In this work, we observe that catastrophic forgetting not only occurs in continual learning but also affects the traditional static training. Neural networks, especially neural machine translation models, suffer from catastrophic forgetting even if they learn from a static training set. To be specific, the final model pays imbalanced attention to training samples, where recently exposed samples attract more attention than earlier samples. The underlying cause is that training samples do not get balanced training in each model update, so we name this problem \textit{imbalanced training}. To alleviate this problem, we propose Complementary Online Knowledge Distillation (COKD), which uses dynamically updated teacher models trained on specific data orders to iteratively provide complementary knowledge to the student model. Experimental results on multiple machine translation tasks show that our method successfully alleviates the problem of imbalanced training and achieves substantial improvements over strong baseline systems.
翻訳日:2022-03-09 13:31:03 公開日:2022-03-08
# プロンプト型環境自己探索による視覚言語ナビゲーション事前学習

Visual-Language Navigation Pretraining via Prompt-based Environmental Self-exploration ( http://arxiv.org/abs/2203.04006v1 )

ライセンス: Link先を確認
Xiwen Liang, Fengda Zhu, Lingling Li, Hang Xu, Xiaodan Liang(参考訳) 視覚言語ナビゲーション(VLN)は、環境の大きな探索空間のため難しい課題である。 この問題に対処するため,従来の研究では,大規模データセット上で事前学習した大規模モデルを微調整する方法が提案されている。 しかし、従来の微調整方法は、追加の人間ラベルのナビゲーションデータを必要とし、環境における自己探索能力が欠如しており、見えないシーンの一般化を妨げている。 高速クロスドメイン適応の能力を向上させるために,トラジェクタをサンプリングし,大規模クロスモーダル事前学習モデル (clip) による構造化命令を自動的に生成することにより,環境を自発的に探索できるプロンプトベース環境自己探索 (probes) を提案する。 提案手法は,CLIPから学んだ知識をフル活用して,自己探索によるドメイン内データセットの構築を行う。 従来の微調整手法と異なり,事前知識の活用により学習効率が大幅に向上する言語組込みの高速適応を実現するために,プロンプトベースの学習を導入する。 VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに,人間の監督や効率的なプロンプトベースの学習を伴わずに,任意の環境における軌道指示ペアの自動合成を行うことにより,我々のモデルは適応できる。 定性的かつ定量的な結果は,我々のProbESがナビゲーションモデルの一般化能力を大幅に向上させることを示している。

Vision-language navigation (VLN) is a challenging task due to its large searching space in the environment. To address this problem, previous works have proposed some methods of fine-tuning a large model that pretrained on large-scale datasets. However, the conventional fine-tuning methods require extra human-labeled navigation data and lack self-exploration capabilities in environments, which hinders their generalization of unseen scenes. To improve the ability of fast cross-domain adaptation, we propose Prompt-based Environmental Self-exploration (ProbES), which can self-explore the environments by sampling trajectories and automatically generates structured instructions via a large-scale cross-modal pretrained model (CLIP). Our method fully utilizes the knowledge learned from CLIP to build an in-domain dataset by self-exploration without human labeling. Unlike the conventional approach of fine-tuning, we introduce prompt-based learning to achieve fast adaptation for language embeddings, which substantially improves the learning efficiency by leveraging prior knowledge. By automatically synthesizing trajectory-instructi on pairs in any environment without human supervision and efficient prompt-based learning, our model can adapt to diverse vision-language navigation tasks, including VLN and REVERIE. Both qualitative and quantitative results show that our ProbES significantly improves the generalization ability of the navigation model.
翻訳日:2022-03-09 13:30:42 公開日:2022-03-08
# セマンティック蒸留ガイドによる塩物検出

Semantic Distillation Guided Salient Object Detection ( http://arxiv.org/abs/2203.04076v1 )

ライセンス: Link先を確認
Bo Xu and Guanze Liu and Han Huang and Cheng Lu and Yandong Guo(参考訳) 既存のCNNベースのサルエントオブジェクト検出手法の多くは、毛髪や動物の毛皮のような局所的なセグメンテーションの詳細を識別することができるが、SODタスクの主観性と畳み込み層の局所性によって引き起こされるグローバルな文脈情報の欠如により、実際のサリエンシを誤解することが多い。 さらに、非現実的に高価なラベリングコストのため、既存のSODデータセットは実際のデータ分布をカバーするには不十分である。 トレーニングデータの制限とバイアスは、与えられた画像におけるオブジェクト間オブジェクトとオブジェクト間環境間のセマンティックな関係を十分に探求する上でさらに困難となる。 本稿では,生成した画像キャプションから意味蒸留された知識をVision-TransformerベースのSODフレームワークに融合させることにより,意味蒸留誘導型SOD(SDG-SOD)法を提案する。 SDG-SODは、オブジェクト間およびオブジェクト間サリバンスをよりよく発見し、SODの主観的性質と高価なラベリングとのギャップをカバーできる。 5つのベンチマークデータセットに関する総合的な実験により、SDG-SODは4つの評価指標に対する最先端のアプローチよりも優れており、DUTS、ECSSD、DUT、HKU-IS、PASCAL-Sデータセットのモデルパフォーマンスを大きく改善している。

Most existing CNN-based salient object detection methods can identify local segmentation details like hair and animal fur, but often misinterpret the real saliency due to the lack of global contextual information caused by the subjectiveness of the SOD task and the locality of convolution layers. Moreover, due to the unrealistically expensive labeling costs, the current existing SOD datasets are insufficient to cover the real data distribution. The limitation and bias of the training data add additional difficulty to fully exploring the semantic association between object-to-object and object-to-environmen t in a given image. In this paper, we propose a semantic distillation guided SOD (SDG-SOD) method that produces accurate results by fusing semantically distilled knowledge from generated image captioning into the Vision-Transformer-b ased SOD framework. SDG-SOD can better uncover inter-objects and object-to-environmen t saliency and cover the gap between the subjective nature of SOD and its expensive labeling. Comprehensive experiments on five benchmark datasets demonstrate that the SDG-SOD outperforms the state-of-the-art approaches on four evaluation metrics, and largely improves the model performance on DUTS, ECSSD, DUT, HKU-IS, and PASCAL-S datasets.
翻訳日:2022-03-09 13:30:17 公開日:2022-03-08
# パノラマ性ヒト活動認識

Panoramic Human Activity Recognition ( http://arxiv.org/abs/2203.03806v1 )

ライセンス: Link先を確認
Ruize Han, Haomin Yan, Jiacheng Li, Songmiao Wang, Wei Feng, Song Wang(参考訳) そこで本研究では,パノラマ的人間行動認識(PAR)の課題として,個人行動,社会集団活動,グローバル活動認識の同時実現を目的とした,より包括的活動理解手法を提案する。 これは現実世界のアプリケーションでは難しいが実用的な問題である。 そこで本研究では,多粒性人間活動と集団の相互関係を段階的に表現し,モデル化する階層型グラフニューラルネットワークを開発した。 さらに,提案手法および他の既存手法を評価するベンチマークを構築した。 提案するpar問題の合理性,提案手法の有効性,ベンチマークの有用性を実験的に検証した。 この問題の研究を促進するため、ソースコードとベンチマークを一般向けに公開します。

To obtain a more comprehensive activity understanding for a crowded scene, in this paper, we propose a new problem of panoramic human activity recognition (PAR), which aims to simultaneous achieve the individual action, social group activity, and global activity recognition. This is a challenging yet practical problem in real-world applications. For this problem, we develop a novel hierarchical graph neural network to progressively represent and model the multi-granularity human activities and mutual social relations for a crowd of people. We further build a benchmark to evaluate the proposed method and other existing related methods. Experimental results verify the rationality of the proposed PAR problem, the effectiveness of our method and the usefulness of the benchmark. We will release the source code and benchmark to the public for promoting the study on this problem.
翻訳日:2022-03-09 13:29:50 公開日:2022-03-08
# 識別可能性-移動可能性トレードオフ:情報理論的な視点

Discriminability-Tra nsferability Trade-Off: An Information-Theoreti c Perspective ( http://arxiv.org/abs/2203.03871v1 )

ライセンス: Link先を確認
Quan Cui, Bingchen Zhao, Zhao-Min Chen, Borui Zhao, Renjie Song, Jiajun Liang, Boyan Zhou, Osamu Yoshie(参考訳) 本研究は,教師付き学習タスク,すなわち画像分類における深層表現の識別性と伝達性を同時に検討する。 包括的な時間的分析により、これらの2つの性質の間のトレードオフを観察する。 訓練が進むにつれて差別性は増加し続け、移行性は後期の訓練期間で著しく低下する。 情報ボトルネック理論の観点から, 識別可能性と伝達可能性の不一致は, 入力情報の過剰圧縮に起因することが明らかとなった。 さらに,情報損失が過大圧縮を緩和する理由と方法について検討し,さらに,過大圧縮を防止し,非可逆性を緩和するために,コントラスト時間符号化(ctc)と呼ばれる学習フレームワークを提案する。 広範囲な実験により、CTCは不適合性を緩和し、差別的かつ伝達可能な表現をもたらすことが検証された。 画像分類タスクと転帰学習タスクにおいて顕著な改善が達成される。 本研究は,従来の教師付き学習環境における伝達可能性特性の意義を高めることを期待する。 コードは公開されます。

This work simultaneously considers the discriminability and transferability properties of deep representations in the typical supervised learning task, i.e., image classification. By a comprehensive temporal analysis, we observe a trade-off between these two properties. The discriminability keeps increasing with the training progressing while the transferability intensely diminishes in the later training period. From the perspective of information-bottlene ck theory, we reveal that the incompatibility between discriminability and transferability is attributed to the over-compression of input information. More importantly, we investigate why and how the InfoNCE loss can alleviate the over-compression, and further present a learning framework, named contrastive temporal coding~(CTC), to counteract the over-compression and alleviate the incompatibility. Extensive experiments validate that CTC successfully mitigates the incompatibility, yielding discriminative and transferable representations. Noticeable improvements are achieved on the image classification task and challenging transfer learning tasks. We hope that this work will raise the significance of the transferability property in the conventional supervised learning setting. Code will be publicly available.
翻訳日:2022-03-09 13:29:39 公開日:2022-03-08
# 変分オートエンコーダによる映像の視覚異常検出

Visual anomaly detection in video by variational autoencoder ( http://arxiv.org/abs/2203.03872v1 )

ライセンス: Link先を確認
Faraz Waseem (yahoo), Rafael Perez Martinez (Stanford University), Chris Wu (Stanford University)(参考訳) ビデオ異常検出は、異常検出と視覚知性の交点である。 監視、セキュリティ、自動運転車、作物のモニタリングに商業的応用がある。 ビデオはさまざまな異常をキャプチャできる。 トレーニングデータのラベル付けが必要なため、ビデオの異常検出モデルをトレーニングするための教師なしのアプローチの方がより実用的です。autoencoderは、ボトルネック層とも呼ばれる入力の潜在表現を使用して入力を再生成するようにトレーニングされたニューラルネットワークです。 変分オートエンコーダは分散(平均と分散)をボトルネック層として潜在ベクトルと比較し、より良い正規化効果を発揮することができる。 本稿では,畳み込みLSTMと変し畳み込みLSTMオートエンコーダの性能の比較を行った。

Video anomalies detection is the intersection of anomaly detection and visual intelligence. It has commercial applications in surveillance, security, self-driving cars and crop monitoring. Videos can capture a variety of anomalies. Due to efforts needed to label training data, unsupervised approaches to train anomaly detection models for videos is more practical An autoencoder is a neural network that is trained to recreate its input using latent representation of input also called a bottleneck layer. Variational autoencoder uses distribution (mean and variance) as compared to latent vector as bottleneck layer and can have better regularization effect. In this paper we have demonstrated comparison between performance of convolutional LSTM versus a variation convolutional LSTM autoencoder
翻訳日:2022-03-09 13:29:24 公開日:2022-03-08
# DuMLP-Pin:設定特徴抽出のためのDual-MLP-dot-product Permutation-invarian t Network

DuMLP-Pin: A Dual-MLP-dot-product Permutation-invarian t Network for Set Feature Extraction ( http://arxiv.org/abs/2203.04007v1 )

ライセンス: Link先を確認
Jiajun Fei, Ziyu Zhu, Wenlei Liu, Zhidong Deng, Mingyang Li, Huanjun Deng, Shuo Zhang(参考訳) 既存の置換不変法は、アグリゲーションスコープ、すなわちグローバルアグリゲーションと局所アグリゲーションの2つのカテゴリに分けられる。 しかし、グローバルアグリゲーションメソッドは、例えば、 g. PointNet++やPoint Transformerのようなローカルアグリゲーションよりもパフォーマンスが劣っている。 単純な構造、競合性能、さらにはパラメータの少ないグローバルアグリゲーション方法が存在するかどうかは、まだ未解決の問題である。 本稿では,DuMLP-Pinと呼ばれる2つのMLPドット積に基づく新しいグローバルアグリゲーション・不変ネットワークを提案する。 我々は、DuMLP-Pinによって実装された任意の置換不変関数が、与えられた入力集合の濃度がしきい値より大きいため、ドット積的な方法で2つ以上の置換不変関数に分解できることを厳密に証明する。 また、DuMLP-Pinは特定の条件下で強い制約を持つディープセットと見なせることを示す。 DuMLP-Pinの性能は多様なデータセットを持つ複数のタスクで評価される。 実験により,DuMLP-Pinは画素集合と属性集合の2つの分類問題において最良の結果が得られることが示された。 点群分類と部分分節化の両方において,dumlp-pinの精度は1~2%の差しか持たない極端に優れた局所集計法に非常に近いが,必要なパラメータの数が85%以上,セグメント化が69%減少した。 コードはhttps://github.com/J aronTHU/DuMLP-Pin.co mで公開されている。

Existing permutation-invarian t methods can be divided into two categories according to the aggregation scope, i.e. global aggregation and local one. Although the global aggregation methods, e. g., PointNet and Deep Sets, get involved in simpler structures, their performance is poorer than the local aggregation ones like PointNet++ and Point Transformer. It remains an open problem whether there exists a global aggregation method with a simple structure, competitive performance, and even much fewer parameters. In this paper, we propose a novel global aggregation permutation-invarian t network based on dual MLP dot-product, called DuMLP-Pin, which is capable of being employed to extract features for set inputs, including unordered or unstructured pixel, attribute, and point cloud data sets. We strictly prove that any permutation-invarian t function implemented by DuMLP-Pin can be decomposed into two or more permutation-equivari ant ones in a dot-product way as the cardinality of the given input set is greater than a threshold. We also show that the DuMLP-Pin can be viewed as Deep Sets with strong constraints under certain conditions. The performance of DuMLP-Pin is evaluated on several different tasks with diverse data sets. The experimental results demonstrate that our DuMLP-Pin achieves the best results on the two classification problems for pixel sets and attribute sets. On both the point cloud classification and the part segmentation, the accuracy of DuMLP-Pin is very close to the so-far best-performing local aggregation method with only a 1-2% difference, while the number of required parameters is significantly reduced by more than 85% in classification and 69% in segmentation, respectively. The code is publicly available on https://github.com/J aronTHU/DuMLP-Pin.
翻訳日:2022-03-09 13:29:13 公開日:2022-03-08
# (参考訳) semeval-2022タスク6: トランスフォーマーとデータ拡張を用いた英語とアラビア語のサーカズム検出のためのロバストなアプローチ [全文訳有]

Plumeria at SemEval-2022 Task 6: Robust Approaches for Sarcasm Detection for English and Arabic Using Transformers and Data Augmentation ( http://arxiv.org/abs/2203.04111v1 )

ライセンス: CC BY 4.0
Shubham Kumar Nigam and Mosab Shaheen(参考訳) 本稿では,サルカズム検出に関するSemEval-2022タスク6と,英語とアラビア語の5つのサブタスクについて述べる。 サルカズムは文字通りの意味と矛盾する意味を伝えており、主にソーシャルネットワークで見られる。 ユーザの意図を理解する上で重要な役割を担っている。 サルカズムの検出には,自然言語処理(NLP)分野において,特徴工学を必要とせず,トランスフォーマに基づく深層学習技術を用いた。 データセットはツイートから取られた。 外部データを拡張したり、ワード埋め込みやインスタンスの繰り返しを使って新しいデータセットを作成しました。 このタスクでは重要なので、さまざまなプリプロセッシングタイプのデータセットで実験が行われた。 私たちのチームのランクは4つのサブタスク(3つのサブタスクの第4位と1つのサブタスクの第6位)で一貫しています。 これはモデルと私たちが使ったテクニックの堅牢性と安定性を意味します。

This paper describes our submission to SemEval-2022 Task 6 on sarcasm detection and its five subtasks for English and Arabic. Sarcasm conveys a meaning which contradicts the literal meaning, and it is mainly found on social networks. It has a significant role in understanding the intention of the user. For detecting sarcasm, we used deep learning techniques based on transformers due to its success in the field of Natural Language Processing (NLP) without the need for feature engineering. The datasets were taken from tweets. We created new datasets by augmenting with external data or by using word embeddings and repetition of instances. Experiments were done on the datasets with different types of preprocessing because it is crucial in this task. The rank of our team was consistent across four subtasks (fourth rank in three subtasks and sixth rank in one subtask); whereas other teams might be in the top ranks for some subtasks but rank drastically less in other subtasks. This implies the robustness and stability of the models and the techniques we used.
翻訳日:2022-03-09 13:27:13 公開日:2022-03-08
# 小ペアデータによる記述と動作の双方向翻訳の学習

Learning Bidirectional Translation between Descriptions and Actions with Small Paired Data ( http://arxiv.org/abs/2203.04218v1 )

ライセンス: Link先を確認
Minori Toyoda, Kanata Suzuki, Yoshihiko Hayashi, Tetsuya Ogata(参考訳) この研究は、小さなペアデータを用いた記述と行動の双方向翻訳を実現した。 ロボットが人間と日常的に協働するためには、説明や行動の相互生成が不可欠である。 ロボットは現実世界のオブジェクトと言語表現を関連付ける必要があり、機械学習のアプローチには大規模なペアデータが必要である。 しかし、ペアデータセットの構築は高価であり、収集は困難である。 本研究では双方向翻訳のための二段階学習法を提案する。 提案手法では,大量の非ペアデータを用いた記述と動作のための繰り返しオートエンコーダ(RAE)を訓練する。 そして、小さなペアデータを用いてモデル全体を微調整し、その中間表現を結合する。 事前トレーニングに使用するデータはペアリングを必要としないため、振る舞いのみのデータや大きな言語コーパスが使用できる。 モーションキャプチャされた動作と記述からなるペアデータセットを用いて,提案手法を実験的に評価した。 その結果,電車のペアデータ量が少なかった場合でも,本手法は良好に動作したことがわかった。 各RAEの中間表現の可視化により、類似した動作がクラスタ化された位置に符号化され、対応する特徴ベクトルが適切に整列された。

This study achieved bidirectional translation between descriptions and actions using small paired data. The ability to mutually generate descriptions and actions is essential for robots to collaborate with humans in their daily lives. The robot is required to associate real-world objects with linguistic expressions, and large-scale paired data are required for machine learning approaches. However, a paired dataset is expensive to construct and difficult to collect. This study proposes a two-stage training method for bidirectional translation. In the proposed method, we train recurrent autoencoders (RAEs) for descriptions and actions with a large amount of non-paired data. Then, we fine-tune the entire model to bind their intermediate representations using small paired data. Because the data used for pre-training do not require pairing, behavior-only data or a large language corpus can be used. We experimentally evaluated our method using a paired dataset consisting of motion-captured actions and descriptions. The results showed that our method performed well, even when the amount of paired data to train was small. The visualization of the intermediate representations of each RAE showed that similar actions were encoded in a clustered position and the corresponding feature vectors well aligned.
翻訳日:2022-03-09 13:14:26 公開日:2022-03-08
# 弱改良クエリに基づくビデオグラウンドニングのためのハードネガティブマイニングによるマルチスケールセルフコントラスト学習

Multi-Scale Self-Contrastive Learning with Hard Negative Mining for Weakly-Supervised Query-based Video Grounding ( http://arxiv.org/abs/2203.03838v1 )

ライセンス: Link先を確認
Shentong Mo, Daizong Liu, Wei Hu(参考訳) 問合せに基づくビデオグラウンドイングは、ビデオ理解において重要な課題であるが、文クエリに従って、未編集のビデオにターゲットセグメントをローカライズすることを目的としている。 以前の作品の多くは、セグメントレベルのラベルで完全に監督された方法でこの課題に対処し、高いラベリングコストを必要としている。 近年では、ビデオレベルの知識のみを必要とする弱い教師付き手法が開発されているが、一般的には、事前定義された複数のセグメント提案とクエリとベストセグメントの選択にマッチする。 上記の制約を緩和するため,我々は,弱教師付き環境下での問合せ型ビデオグラウンドングタスクに対処するための自己結合型学習フレームワークを提案する。 まず,冗長セグメント提案を利用する代わりに,問合せセマンティクスを参照してフレーム毎のマッチングスコアを学習し,ビデオレベルのアノテーションのみを用いてフォアグラウンドフレームを予測できる新しいグラウンド方式を提案する。 第二に、予測フレーム(境界フレーム)は比較的粗いので、隣接するフレームに類似した外観を示すため、偽陽性フレームを識別するためのより識別的なフレームワイド表現を学習するための粗いから微細なコントラスト学習パラダイムを提案する。 特に、細粒度フレームの細部を識別するために、表現空間の正のサンプルに近いマルチスケールのハードネガティブサンプルを反復的に探索し、より正確なセグメントグラウンドを強制する。 2つの挑戦的ベンチマークによる大規模な実験により,提案手法が最先端手法よりも優れていることを示す。

Query-based video grounding is an important yet challenging task in video understanding, which aims to localize the target segment in an untrimmed video according to a sentence query. Most previous works achieve significant progress by addressing this task in a fully-supervised manner with segment-level labels, which require high labeling cost. Although some recent efforts develop weakly-supervised methods that only need the video-level knowledge, they generally match multiple pre-defined segment proposals with query and select the best one, which lacks fine-grained frame-level details for distinguishing frames with high repeatability and similarity within the entire video. To alleviate the above limitations, we propose a self-contrastive learning framework to address the query-based video grounding task under a weakly-supervised setting. Firstly, instead of utilizing redundant segment proposals, we propose a new grounding scheme that learns frame-wise matching scores referring to the query semantic to predict the possible foreground frames by only using the video-level annotations. Secondly, since some predicted frames (i.e., boundary frames) are relatively coarse and exhibit similar appearance to their adjacent frames, we propose a coarse-to-fine contrastive learning paradigm to learn more discriminative frame-wise representations for distinguishing the false positive frames. In particular, we iteratively explore multi-scale hard negative samples that are close to positive samples in the representation space for distinguishing fine-grained frame-wise details, thus enforcing more accurate segment grounding. Extensive experiments on two challenging benchmarks demonstrate the superiority of our proposed method compared with the state-of-the-art methods.
翻訳日:2022-03-09 13:13:42 公開日:2022-03-08
# 雑音ラベルを用いた選択的教師付きコントラスト学習

Selective-Supervised Contrastive Learning with Noisy Labels ( http://arxiv.org/abs/2203.04181v1 )

ライセンス: Link先を確認
Shikun Li, Xiaobo Xia, Shiming Ge, Tongliang Liu(参考訳) ディープネットワークは、データを潜在表現に埋め込み、次のタスクを終える能力を持っている。 しかし、そのキャパシティは主に高品質なアノテートラベルであり、収集には高価である。 ノイズラベルはより手頃な価格だが、結果として表現が腐敗し、一般化性能が低下する。 本稿では,頑健な表現を学習し,雑音ラベルを扱うために,選択教師付きコントラスト学習(sel-cl)を提案する。 具体的には、sel-clは表現学習において強力な教師付きコントラスト学習(sup-cl)を拡張するが、ノイズラベルが存在すると劣化する。 セル-CLはSup-CLの問題の直接的な原因に取り組む。 つまり、sup-cl は \textit{pair-wise} 方式で動作し、ノイズラベルによって構築されるノイズペアは、誤解を招く表現学習である。 この問題を軽減するために,ノイズ率を知らずにsup-clに対して,雑音から自信のあるペアを選択する。 選択過程において、学習した表現と与えられたラベルの一致を測定することにより、まず、自信あるペアを構築するために利用される自信ある例を識別する。 次に、構築された自信ペアにおける表現類似性分布を利用して、ノイズペアからより自信のあるペアを識別する。 得られた信頼対はすべて最終的にSup-CLで表現を強化するために使用される。 複数のノイズデータセットに対する実験は、最先端の性能に従って、我々の手法による学習された表現の堅牢性を示す。 ソースコードはhttps://github.com/S hikunLi/Sel-CLで入手できる。

Deep networks have strong capacities of embedding data into latent representations and finishing following tasks. However, the capacities largely come from high-quality annotated labels, which are expensive to collect. Noisy labels are more affordable, but result in corrupted representations, leading to poor generalization performance. To learn robust representations and handle noisy labels, we propose selective-supervised contrastive learning (Sel-CL) in this paper. Specifically, Sel-CL extend supervised contrastive learning (Sup-CL), which is powerful in representation learning, but is degraded when there are noisy labels. Sel-CL tackles the direct cause of the problem of Sup-CL. That is, as Sup-CL works in a \textit{pair-wise} manner, noisy pairs built by noisy labels mislead representation learning. To alleviate the issue, we select confident pairs out of noisy ones for Sup-CL without knowing noise rates. In the selection process, by measuring the agreement between learned representations and given labels, we first identify confident examples that are exploited to build confident pairs. Then, the representation similarity distribution in the built confident pairs is exploited to identify more confident pairs out of noisy pairs. All obtained confident pairs are finally used for Sup-CL to enhance representations. Experiments on multiple noisy datasets demonstrate the robustness of the learned representations by our method, following the state-of-the-art performance. Source codes are available at https://github.com/S hikunLi/Sel-CL
翻訳日:2022-03-09 13:13:05 公開日:2022-03-08
# 複数のノイズアノテータからの信頼できるコラボラーニング

Trustable Co-label Learning from Multiple Noisy Annotators ( http://arxiv.org/abs/2203.04199v1 )

ライセンス: Link先を確認
Shikun Li, Tongliang Liu, Jiyong Tan, Dan Zeng, Shiming Ge(参考訳) 監視されたディープラーニングは、多くの実世界のシナリオで通常非現実的な大量の注釈付き例に依存する。 典型的な選択肢は、複数のノイズアノテータから学ぶことだ。 初期の多くの研究は、全てのラベルがうるさいと仮定しているが、クリーンなラベルを持ついくつかの信頼できるサンプルが利用可能である。 少数の信頼できるデータを効果的に利用して、複数のアノテーションから堅牢な分類器の学習を容易にするにはどうすればよいのか? 本稿では,複数のノイズアノテータからの深層分類器を,信頼度の高いデータ集合が利用可能である場合に学習するための,データ効率のよい手法である「emph{Trustable Co-label Learning} (TCL)」を提案する。 このアプローチは、データ分類器とラベル集約器を共同で学習する複合ビュー学習法に従う。 信頼されたデータをガイドとして効果的に利用し、信頼できるソフトラベル(ラベル付きラベル)を生成する。 そして、擬似ラベルを交互に注釈付けし、分類器を書き換えることで、共同ラベル学習を行うことができる。 さらに,各インスタンスをすべてのアノテータでラベル付けし,ラベルアグリゲータを多層ニューラルネットワークで表現し,モデルキャパシティを向上させる,特別な完全データケースのTCLをさらに改善する。 合成および実データセットに関する大規模な実験は、提案手法の有効性と堅牢性を明確に示している。 ソースコードはhttps://github.com/S hikunLi/TCLで入手できる。

Supervised deep learning depends on massive accurately annotated examples, which is usually impractical in many real-world scenarios. A typical alternative is learning from multiple noisy annotators. Numerous earlier works assume that all labels are noisy, while it is usually the case that a few trusted samples with clean labels are available. This raises the following important question: how can we effectively use a small amount of trusted data to facilitate robust classifier learning from multiple annotators? This paper proposes a data-efficient approach, called \emph{Trustable Co-label Learning} (TCL), to learn deep classifiers from multiple noisy annotators when a small set of trusted data is available. This approach follows the coupled-view learning manner, which jointly learns the data classifier and the label aggregator. It effectively uses trusted data as a guide to generate trustable soft labels (termed co-labels). A co-label learning can then be performed by alternately reannotating the pseudo labels and refining the classifiers. In addition, we further improve TCL for a special complete data case, where each instance is labeled by all annotators and the label aggregator is represented by multilayer neural networks to enhance model capacity. Extensive experiments on synthetic and real datasets clearly demonstrate the effectiveness and robustness of the proposed approach. Source code is available at https://github.com/S hikunLi/TCL
翻訳日:2022-03-09 13:12:40 公開日:2022-03-08
# (参考訳) covariate-balancing- aware cognitable deep learning modelによる治療効果評価 [全文訳有]

Covariate-Balancing- Aware Interpretable Deep Learning models for Treatment Effect Estimation ( http://arxiv.org/abs/2203.03185v2 )

ライセンス: CC BY 4.0
Kan Chen, Qishuo Yin, Qi Long(参考訳) 治療効果の推定は、観察データを用いた多くの生体医学的応用において非常に重要である。 特に、多くの生物医学研究者にとって治療効果の解釈性が望ましい。 本稿では,まず理論解析を行い,強い無知性仮定の下での平均処理効果推定のバイアスの上限について提案する。 提案する上限は, 実測結果のトレーニング誤差と, 処理分布と制御分布との距離の2つの部分から構成される。 重み付きエネルギー距離(wed)を用いて2つの分布間の距離を測定する。 本稿では, ニューラルネットワークの表現性, 一般化された加法モデルの解釈可能性, 推定調整のためのバランススコアの充足性, および, 処理および制御分布の共変量バランス特性を組み合わせ, 観測データからの平均処理効果を推定する。 さらに、非パラメトリック理論に基づくいわゆる重み付け正規化手順を課し、いくつかの望ましい漸近特性を得る。 提案手法は,因果推論のためのベンチマークデータセットを再検討し,最先端よりも優れることを示す。

Estimating treatment effects is of great importance for many biomedical applications with observational data. Particularly, interpretability of the treatment effects is preferable for many biomedical researchers. In this paper, we first give a theoretical analysis and propose an upper bound for the bias of average treatment effect estimation under the strong ignorability assumption. The proposed upper bound consists of two parts: training error for factual outcomes, and the distance between treated and control distributions. We use the Weighted Energy Distance (WED) to measure the distance between two distributions. Motivated by the theoretical analysis, we implement this upper bound as an objective function being minimized by leveraging a novel additive neural network architecture, which combines the expressivity of deep neural network, the interpretability of generalized additive model, the sufficiency of the balancing score for estimation adjustment, and covariate balancing properties of treated and control distributions, for estimating average treatment effects from observational data. Furthermore, we impose a so-called weighted regularization procedure based on non-parametric theory, to obtain some desirable asymptotic properties. The proposed method is illustrated by re-examining the benchmark datasets for causal inference, and it outperforms the state-of-art.
翻訳日:2022-03-09 12:10:15 公開日:2022-03-08
# グラフ表現を用いた画像分類と強化学習のためのグラフニューラルネットワーク

Graph Neural Networks for Image Classification and Reinforcement Learning using Graph representations ( http://arxiv.org/abs/2203.03457v2 )

ライセンス: Link先を確認
Naman Goyal, David Steiner(参考訳) 本稿では,コンピュータビジョンと強化学習の2つの分野において,グラフニューラルネットワークの性能を評価する。 コンピュータビジョンのセクションでは、グラフとしての画像に対する新しい非冗長表現が、グラフレベルの予測グラフ、特に画像分類において、自明なピクセルからノードマッピングへの性能向上を図っている。 強化学習部では,グラフ問題としてルービックキューブの解法を明示的にモデル化することで,帰納バイアスのない標準モデルフリー手法の性能向上を図っている。

In this paper, we will evaluate the performance of graph neural networks in two distinct domains: computer vision and reinforcement learning. In the computer vision section, we seek to learn whether a novel non-redundant representation for images as graphs can improve performance over trivial pixel to node mapping on a graph-level prediction graph, specifically image classification. For the reinforcement learning section, we seek to learn if explicitly modeling solving a Rubik's cube as a graph problem can improve performance over a standard model-free technique with no inductive bias.
翻訳日:2022-03-09 11:34:11 公開日:2022-03-08
# TIGGER: 時間的相互作用グラフのためのスケーラブルな生成モデル

TIGGER: Scalable Generative Modelling for Temporal Interaction Graphs ( http://arxiv.org/abs/2203.03564v2 )

ライセンス: Link先を確認
Shubham Gupta, Sahil Manchanda, Srikanta Bedathur and Sayan Ranu(参考訳) 近年,グラフ生成モデルの学習が急増している。 静的グラフ上では目覚ましい進歩があったが、時間グラフの生成モデリングの研究は、改善のための大きなスコープを持つ初期段階にある。 まず、既存の生成モデルは、時間軸とノード数の両方でスケールしない。 第二に、既存の技術は本質的にトランスダクティブであり、そのため知識の伝達が容易ではない。 最後に、ソースから生成されたグラフへの1対1のノードマッピングに依存するため、既存のモデルではノード識別情報が漏洩し、ソースグラフサイズをアップスケーリング/ダウンスケーリングすることができない。 本稿では,このギャップをTIGGERと呼ばれる新しい生成モデルで埋める。 TIGGERは、時間点過程と自己回帰モデリングを組み合わせることで、トランスダクティブとインダクティブの両方の変形を可能にする。 実際のデータセットに関する広範な実験を通じて、TIGGERは優れた忠実度のグラフを生成すると同時に、最先端技術よりも最大3桁高速であることを示す。

There has been a recent surge in learning generative models for graphs. While impressive progress has been made on static graphs, work on generative modeling of temporal graphs is at a nascent stage with significant scope for improvement. First, existing generative models do not scale with either the time horizon or the number of nodes. Second, existing techniques are transductive in nature and thus do not facilitate knowledge transfer. Finally, due to relying on one-to-one node mapping from source to the generated graph, existing models leak node identity information and do not allow up-scaling/down-scal ing the source graph size. In this paper, we bridge these gaps with a novel generative model called TIGGER. TIGGER derives its power through a combination of temporal point processes with auto-regressive modeling enabling both transductive and inductive variants. Through extensive experiments on real datasets, we establish TIGGER generates graphs of superior fidelity, while also being up to 3 orders of magnitude faster than the state-of-the-art.
翻訳日:2022-03-09 11:34:01 公開日:2022-03-08
# 代表的スニペット知識伝播による時間的行動局在の弱化

Weakly Supervised Temporal Action Localization via Representative Snippet Knowledge Propagation ( http://arxiv.org/abs/2203.02925v2 )

ライセンス: Link先を確認
Linjiang Huang, Liang Wang, Hongsheng Li(参考訳) 微弱に監督された時間的行動局所化は、行動の時間的境界をローカライズすることを目的としており、同時にビデオレベルのカテゴリラベルのみを用いてカテゴリを識別する。 既存の多くの手法は、分類とローカライゼーションの相違をブリッジするために擬似ラベルを生成するが、通常は擬似ラベル生成に限定した文脈情報のみを使用する。 この問題を軽減するために,代表的要約・伝播フレームワークを提案する。 提案手法では,ビデオスニペット間で情報を伝達し,より優れた擬似ラベルを生成するために,各ビデオ中の代表スニペットをマイニングする。 各ビデオに対して、それぞれの代表スニペットとメモリバンクの代表スニペットが伝播して、イントラおよびイントラビデオ方式で入力機能を更新する。 更新された特徴の時間クラス活性化マップから擬似ラベルを生成し、メインブランチの予測を是正する。 提案手法は,THUMOS14とActivityNet1.3の2つのベンチマークにおける既存手法と比較して優れた性能を示し,THUMOS14の平均mAPは1.2%向上した。

Weakly supervised temporal action localization aims to localize temporal boundaries of actions and simultaneously identify their categories with only video-level category labels. Many existing methods seek to generate pseudo labels for bridging the discrepancy between classification and localization, but usually only make use of limited contextual information for pseudo label generation. To alleviate this problem, we propose a representative snippet summarization and propagation framework. Our method seeks to mine the representative snippets in each video for propagating information between video snippets to generate better pseudo labels. For each video, its own representative snippets and the representative snippets from a memory bank are propagated to update the input features in an intra- and inter-video manner. The pseudo labels are generated from the temporal class activation maps of the updated features to rectify the predictions of the main branch. Our method obtains superior performance in comparison to the existing methods on two benchmarks, THUMOS14 and ActivityNet1.3, achieving gains as high as 1.2% in terms of average mAP on THUMOS14.
翻訳日:2022-03-09 11:33:33 公開日:2022-03-08
# 物理世界の人物検出器を騙すための逆テクスチャ

Adversarial Texture for Fooling Person Detectors in the Physical World ( http://arxiv.org/abs/2203.03373v2 )

ライセンス: Link先を確認
Zhanhao Hu, Siyuan Huang, Xiaopei Zhu, Xiaolin Hu, Fuchun Sun, Bo Zhang(参考訳) 今日では、AIシステムを搭載したカメラが、画像をキャプチャして分析して人を自動的に検出できる。 しかし、AIシステムは現実世界で故意に設計されたパターン、すなわち物理的敵の例を受け取る際に間違いを犯すことがある。 以前の研究では、DNNベースの人検知器を避けるために、服に敵のパッチを印刷できることが示されている。 しかし、これらの対向的な例は、視角(カメラの物体に対する角度)が変化すると、攻撃成功率に壊滅的な低下をもたらす可能性がある。 マルチアングル攻撃を行うために,Adversarial Texture(AdvTexture)を提案する。 AdvTextureは、任意の形状の衣服をカバーできるので、そのような服を着ている人は、さまざまな角度から人検知器から隠れることができる。 本稿では,反復構造を持つAdvTextureを構築するために,Toroidal-Cropping-b ased Expandable Generative Attack (TC-EGA) という生成手法を提案する。 私たちはAdvTexureでいくつかの布を印刷し、物理世界でTシャツ、スカート、ドレスを作りました。 実験により、この服は物理的世界の人物検出器を騙すことができることがわかった。

Nowadays, cameras equipped with AI systems can capture and analyze images to detect people automatically. However, the AI system can make mistakes when receiving deliberately designed patterns in the real world, i.e., physical adversarial examples. Prior works have shown that it is possible to print adversarial patches on clothes to evade DNN-based person detectors. However, these adversarial examples could have catastrophic drops in the attack success rate when the viewing angle (i.e., the camera's angle towards the object) changes. To perform a multi-angle attack, we propose Adversarial Texture (AdvTexture). AdvTexture can cover clothes with arbitrary shapes so that people wearing such clothes can hide from person detectors from different viewing angles. We propose a generative method, named Toroidal-Cropping-ba sed Expandable Generative Attack (TC-EGA), to craft AdvTexture with repetitive structures. We printed several pieces of cloth with AdvTexure and then made T-shirts, skirts, and dresses in the physical world. Experiments showed that these clothes could fool person detectors in the physical world.
翻訳日:2022-03-09 11:33:14 公開日:2022-03-08
# 専門的学習によるオンライン健康フォーラムの博士勧告

Doctor Recommendation in Online Health Forums via Expertise Learning ( http://arxiv.org/abs/2203.02932v2 )

ライセンス: Link先を確認
Xiaoxin Lu, Yubo Zhang, Jing Li, Shi Zong(参考訳) 大量の患者クエリがオンラインヘルスフォーラムで毎日生成され、手動の医師が労働集約的なタスクを割り当てる。 そこで本論文では,患者を医師に自動的にペア化するための,医師推薦の新たな課題について検討する。 これまでの推奨作業のほとんどは、過去の行動からターゲットユーザをモデル化することに焦点を当てていますが、プライバシ上の理由から患者のニーズを推測するために、クエリ内の限られた単語のみに依存することができます。 医師モデルでは, 他患者とのプロフィールと過去の対話の併用効果について検討し, 自己学習による対話を探求する。 学習した医師の埋め込みは、患者クエリをマルチヘッドアテンションメカニズムで処理する能力を推定するためにさらに使用される。 実験では、中国のオンライン健康フォーラム「中入義宗」から大規模なデータセットを収集し、私たちのモデルは最先端の結果を示し、医師を特徴づけるためにプロファイルと過去の対話のみを上回ります。

Huge volumes of patient queries are daily generated on online health forums, rendering manual doctor allocation a labor-intensive task. To better help patients, this paper studies a novel task of doctor recommendation to enable automatic pairing of a patient to a doctor with relevant expertise. While most prior work in recommendation focuses on modeling target users from their past behavior, we can only rely on the limited words in a query to infer a patient's needs for privacy reasons. For doctor modeling, we study the joint effects of their profiles and previous dialogues with other patients and explore their interactions via self-learning. The learned doctor embeddings are further employed to estimate their capabilities of handling a patient query with a multi-head attention mechanism. For experiments, a large-scale dataset is collected from Chunyu Yisheng, a Chinese online health forum, where our model exhibits the state-of-the-art results, outperforming baselines only consider profiles and past dialogues to characterize a doctor.
翻訳日:2022-03-09 11:32:56 公開日:2022-03-08
# 混合モデルにおける偽クラスタリング率制御

False clustering rate control in mixture models ( http://arxiv.org/abs/2203.02597v2 )

ライセンス: Link先を確認
Ariane Marandon, Tabea Rebafka, Etienne Roquain, Nataliya Sokolovska(参考訳) クラスタリングタスクは、サンプルメンバーにラベルを配信することで構成される。 ほとんどのデータセットでは、いくつかの個人は曖昧で、あるクラスタに属性を付けるのが本質的に難しい。 しかし、実際的な応用では、個人を誤分類することは破滅的な可能性がある。 この難しさを克服するために、以下のアイデアはサンプルの一部だけを分類し、小さな誤分類率を得るというものである。 このアプローチは教師付き設定でよく知られており、棄却オプション付き分類 (classification with a abstention option) と呼ばれる。 本論文の目的は、このアプローチを教師なし混合モデルフレームワークで再検討することである。 この問題は、分類項目の数を最大化しながら、所定のレベル {\alpha} 以下の偽クラスタリング率(fcr)を制御するという観点で定式化される。 理論的な結果を確立し, 数値実験を行うことにより, 新しい手法を導入し, その挙動が最適手法に近いことを示した。 乳がんデータへの応用は、実用的な観点から新しいアプローチの利点を示している。

The clustering task consists in delivering labels to the members of a sample. For most data sets, some individuals are ambiguous and intrinsically difficult to attribute to one or another cluster. However, in practical applications, misclassifying individuals is potentially disastrous. To overcome this difficulty, the idea followed here is to classify only a part of the sample in order to obtain a small misclassification rate. This approach is well known in the supervised setting, and referred to as classification with an abstention option. The purpose of this paper is to revisit this approach in an unsupervised mixture-model framework. The problem is formalized in terms of controlling the false clustering rate (FCR) below a prescribed level {\alpha}, while maximizing the number of classified items. New procedures are introduced and their behavior is shown to be close to the optimal one by establishing theoretical results and conducting numerical experiments. An application to breast cancer data illustrates the benefits of the new approach from a practical viewpoint.
翻訳日:2022-03-09 11:32:37 公開日:2022-03-08
# シングルタイムスケールアクター批判の小さなゲイン分析

A Small Gain Analysis of Single Timescale Actor Critic ( http://arxiv.org/abs/2203.02591v2 )

ライセンス: Link先を確認
Alex Olshevsky, Bahman Gharesifard(参考訳) 我々は,1ステップあたりの定常分布から1つのサンプルを用いて,比例したステップサイズと1つの批評家更新のみを使用するアクタ-クリティックの1バージョンについて検討する。 本手法は,小利得定理を用いて解析する。 具体的には,本手法が定常点を見つけるのに有効であることが証明され,結果として得られたサンプルの複雑さがアクター批判手法のテクニックの状態を$O \left(\mu^{-2} \epsilon^{-2} \right)$に改善し,批判に関連付けられた条件数である$\epsilon$-approxima teの定常点を求める。

We consider a version of actor-critic which uses proportional step-sizes and only one critic update with a single sample from the stationary distribution per actor step. We provide an analysis of this method using the small-gain theorem. Specifically, we prove that this method can be used to find a stationary point, and that the resulting sample complexity improves the state of the art for actor-critic methods to $O \left(\mu^{-2} \epsilon^{-2} \right)$ to find an $\epsilon$-approxima te stationary point where $\mu$ is the condition number associated with the critic.
翻訳日:2022-03-09 11:32:20 公開日:2022-03-08