このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220717となっている論文です。

PDF登録状況(公開日: 20220717)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子プロトコルのベンチマーク

Benchmarking of Quantum Protocols ( http://arxiv.org/abs/2111.02527v2 )

ライセンス: Link先を確認
Chin-Te Liao, Sima Bahrani, Francisco Ferreira da Silva, Elham Kashefi(参考訳) 量子ネットワークプロトコルは、通信や計算システムに対するセキュリティ強化などの新しい機能を提供する。 量子ハードウェアの急速な進歩にもかかわらず、実用環境で多くの量子プロトコルの実行を可能にする成熟レベルに達していない。 実世界で量子プロトコルを開発するためには,シミュレーションプラットフォームを用いた実運用における不完全性を考慮する必要がある。 本稿では,近未来の量子ネットワークにおいて,有望な機能やサービスを実現するいくつかの量子プロトコルについて考察する。 プロトコルは量子通信と量子計算の両方の領域から選択される:量子マネー、W状態ベースの匿名送信、検証可能なブラインド量子計算、量子デジタル署名。 我々は,netsquidシミュレーションプラットフォームを用いて,様々なノイズ源がこれらのプロトコルの性能に与える影響を評価する。 量子マネープロトコルを有効にするには、量子メモリのデコヒーレンスタイム定数は、キュービットのストレージタイムの少なくとも3倍でなければならない。 さらに, このプロトコルにおいて, w-state を用いた匿名伝送プロトコルのシミュレーション結果から, 送信側粒子と受信側粒子の量子メモリにおける保存時間は, 量子メモリのデコヒーレンス時間定数の半分以下でなければならないことがわかった。 また,検証可能なブラインド量子計算の性能に及ぼすゲート欠陥の影響についても検討した。 我々の選択したパラメータでは、量子ゲートの非分極確率が 0.05 以上であれば、プロトコルのセキュリティは保証されない。 最後に,量子デジタル署名プロトコルのシミュレーション結果から,チャネル損失が拒否の確率に有意な影響を与えていることが示された。

Quantum network protocols offer new functionalities such as enhanced security to communication and computational systems. Despite the rapid progress in quantum hardware, it has not yet reached a level of maturity that enables execution of many quantum protocols in practical settings. To develop quantum protocols in real world, it is necessary to examine their performance considering the imperfections in their practical implementation using simulation platforms. In this paper, we consider several quantum protocols that enable promising functionalities and services in near-future quantum networks. The protocols are chosen from both areas of quantum communication and quantum computation as follows: quantum money, W-state based anonymous transmission, verifiable blind quantum computation, and quantum digital signature. We use NetSquid simulation platform to evaluate the effect of various sources of noise on the performance of these protocols, considering different figures of merit. We find that to enable quantum money protocol, the decoherence time constant of the quantum memory must be at least three times the storage time of qubits. Furthermore, our simulation results for the w-state based anonymous transmission protocol show that to achieve an average fidelity above 0.8 in this protocol, the storage time of sender's and receiver's particles in the quantum memory must be less than half of the decoherence time constant of the quantum memory. We have also investigated the effect of gate imperfections on the performance of verifiable blind quantum computation. We find that with our chosen parameters, if the depolarizing probability of quantum gates is equal to or greater than 0.05, the security of the protocol cannot be guaranteed. Lastly, our simulation results for quantum digital signature protocol show that channel loss has a significant effect on the probability of repudiation.
翻訳日:2023-03-09 06:31:25 公開日:2022-07-17
# 一次元光学格子における双極子ボソンの量子位相

Quantum phases of dipolar bosons in one-dimensional optical lattices ( http://arxiv.org/abs/2112.10386v3 )

ライセンス: Link先を確認
Rebecca Kraus, Titas Chanda, Jakub Zakrzewski, Giovanna Morigi(参考訳) 理論的には、反発的双極子相互作用を介して相互作用するボソンの量子ガスの相図を解析する。 ボソンは、準1次元幾何学における光学格子によって強く閉じ込められている。 単バンド近似では、それらのダイナミクスは拡張ボース・ハバードモデルによって記述され、双極子相互作用の関連する寄与は密度密度-密度反発と相関トンネル項からなる。 密度行列再正規化群アルゴリズムに基づく数値手法を用いて,単位密度の位相図を評価する。 その結果,相関トンネルは位相絶縁体相のパラメータ範囲を大きく変えることができると予測した。 オンサイト相互作用の消失値において、相関トンネルは、多数の低エネルギー準安定配置を持つ相の開始を促進する。

We theoretically analyze the phase diagram of a quantum gas of bosons that interact via repulsive dipolar interactions. The bosons are tightly confined by an optical lattice in a quasi one-dimensional geometry. In the single-band approximation, their dynamics is described by an extended Bose-Hubbard model where the relevant contributions of the dipolar interactions consist of density-density repulsion and correlated tunneling terms. We evaluate the phase diagram for unit density using numerical techniques based on the density-matrix renormalization group algorithm. Our results predict that correlated tunneling can significantly modify the parameter range of the topological insulator phase. At vanishing values of the onsite interactions, moreover, correlated tunneling promotes the onset of a phase with a large number of low energy metastable configurations.
翻訳日:2023-03-04 01:15:51 公開日:2022-07-17
# イジングエノンを用いた量子テレポーテーション

Quantum teleportation using Ising anyons ( http://arxiv.org/abs/2201.11923v3 )

ライセンス: Link先を確認
Cheng-Qian Xu and D. L. Zhou(参考訳) トポロジカル量子計算において情報キャリアとして広く研究されている。 しかし、オンからなる量子ネットワークにおける情報の流れをどう特徴づけるかは理解されていないため、いかなるシステムでも量子通信プロトコルを研究する動機となる。 ここでは、イジング・エノンモデルに基づく量子テレポーテーションのための一般トポロジカル保護プロトコルを提案し、我々のプロトコルでは、任意の数のイジング・エノンの未知のエノン状態がアリスからボブへテレポーテーション可能であることを証明する。 我々のプロトコルは、局所的に区別可能な粒子の系からイジング・エノンの系への量子状態のテレポーテーションを自然に一般化し、量子資源としての正準量子絡みの理解を促進する可能性がある。 さらに,本プロトコルは実験におけるイジング・エニオンの物理的実現可能性の一つであるマヨラナゼロモードで実現されることが期待されている。

Anyons have been extensively investigated as information carriers in topological quantum computation. However, how to characterize the information flow in quantum networks composed of anyons is less understood, which motivates us to study quantum communication protocols in anyonic systems. Here we propose a general topologically protected protocol for quantum teleportation based on the Ising anyon model and prove that with our protocol an unknown anyonic state of any number of Ising anyons can be teleported from Alice to Bob. Our protocol naturally generalizes quantum state teleportation from systems of locally distinguishable particles to systems of Ising anyons, which may promote our understandings of anyonic quantum entanglement as a quantum resource. In addition, our protocol is expected to be realized with the Majorana zero modes, one of the possible physical realizations for the Ising anyon in experiments.
翻訳日:2023-02-27 16:11:10 公開日:2022-07-17
# 量子ゼノダイナミクス凍結運動量方向における強化量子トンネル

Enhanced quantum tunneling in quantum Zeno dynamics freezing momentum direction ( http://arxiv.org/abs/2202.10150v3 )

ライセンス: Link先を確認
Miguel A. Porras, Nilo Mata, Isabel Gonzalo(参考訳) 量子トンネルは、多くの物理現象に関わる基本的な量子力学的効果である。 その制御はこれらの現象とそれらに基づく技術に影響を与える。 本研究では、ポテンシャル障壁による量子トンネルの確率を増大させ、運動量の方向を頻繁に監視するトンネル粒子によって導かれる量子ゼノ力学のユニタリに近づくことを示す。 まず、運動量方向の測定を選択的フォン・ノイマン射影としてモデル化し、次に粒子とプローブ粒子の非選択的方向感受性相互作用としてモデル化した。 非選択的測定は、量子トンネルの確率を高めるための選択的な測定よりも効率的である。

Quantum tunneling is a fundamental quantum mechanical effect involved in plenty of physical phenomena. Its control would impact these phenomena and the technologies based on them. We show that the quantum tunneling probability through a potential barrier can be increased to approach unity in a quantum Zeno dynamics undergone by the tunneling particle in which the direction of the momentum is frequently monitored. We first model the measurements of the momentum direction as selective von Neumann projections, and then as nonselective, direction-sensitive interactions of the particle with probe particles. Nonselective measurements are more efficient than selective measurements in enhancing the quantum tunneling probability.
翻訳日:2023-02-24 08:14:21 公開日:2022-07-17
# 太陽電池展開の空間分布 : 領域型畳み込みニューラルネットワークの応用

Spatial Distribution of Solar PV Deployment: An Application of the Region-Based Convolutional Neural Network ( http://arxiv.org/abs/2207.08287v1 )

ライセンス: Link先を確認
Serena Y. Kim, Koushik Ganesan, Crystal Soderman, Raven O'Rourke(参考訳) 本稿では,米国コロラド州における太陽光発電(PV)導入率の社会的および環境決定要因の包括的分析を行う。 畳み込みニューラルネットワークに基づく652,795の衛星画像とコンピュータビジョンの枠組みを用いて、太陽太陽光発電システムとソーラーパネルで覆われた屋根面積の世帯の割合を推定した。 クロラダンの世帯の7%は屋上太陽光発電システムを持っており、コロラド州の屋根面積の2.5%は2021年の時点でソーラーパネルで覆われている。 我々の機械学習モデルは、近隣地域の43の自然・社会的特性に基づいてソーラーPVの展開を予測する。 4つのアルゴリズム (Random Forest, CATBoost, LightGBM, XGBoost) を用いて, 世帯ごとの太陽光発電数予測には, 民主党の票率, 被害リスク, 強風リスク, 中央値, 太陽光発電許可期間の4つが重要となる。 住宅の大きさに加えて、太陽光発電と屋根面積の比率は、日時、賃貸者の割合、多世帯住宅、冬季の気象リスクに大きく依存している。 また、屋上ソーラーの配備では人種や民族の格差も見つかります。 平均的な世帯所得が太陽の展開に与える影響は、アフリカ系アメリカ人とヒスパニック系住民の比率が高い地域社会において低く、白人とアジア系住民の比率が高い地域社会では高い。 進行中のエネルギー移行において、ソーラー展開の鍵となる予測因子を知ることは、より効率的で公平なグリッドインフラ投資と分散エネルギー資源管理のためにビジネスや政策決定により良い情報を与えることができる。

This paper presents a comprehensive analysis of the social and environmental determinants of solar photovoltaic (PV) deployment rates in Colorado, USA. Using 652,795 satellite imagery and computer vision frameworks based on a convolutional neural network, we estimated the proportion of households with solar PV systems and the roof areas covered by solar panels. At the census block group level, 7% of Coloradan households have a rooftop PV system, and 2.5% of roof areas in Colorado are covered by solar panels as of 2021. Our machine learning models predict solar PV deployment based on 43 natural and social characteristics of neighborhoods. Using four algorithms (Random Forest, CATBoost, LightGBM, XGBoost), we find that the share of Democratic party votes, hail risks, strong wind risks, median home value, and solar PV permitting timelines are the most important predictors of solar PV count per household. In addition to the size of the houses, PV-to-roof area ratio is highly dependent on solar PV permitting timelines, proportion of renters and multifamily housing, and winter weather risks. We also find racial and ethnic disparities in rooftop solar deployment. The average marginal effects of median household income on solar deployment are lower in communities with a greater proportion of African American and Hispanic residents and are higher in communities with a greater proportion of White and Asian residents. In the ongoing energy transition, knowing the key predictors of solar deployment can better inform business and policy decision making for more efficient and equitable grid infrastructure investment and distributed energy resource management.
翻訳日:2023-02-19 09:55:43 公開日:2022-07-17
# ネットワーク上でのエージェント・ベース・シミュレーションによるタバコ社会感染モデルの改善

Improving tobacco social contagion models using agent-based simulations on networks ( http://arxiv.org/abs/2207.08254v1 )

ライセンス: Link先を確認
Adarsh Prabhakaran, Valerio Restocchi and Benjamin D. Goddard(参考訳) 長年にわたって、人口レベルのタバコ規制政策は世界中で喫煙率をかなり減らしてきた。 しかし、喫煙率の低下率は低下している。 したがって、喫煙の流行の完全な複雑さを捉えたモデルが必要である。 これらのモデルは、喫煙の拡散を制限する新しいポリシーを開発するためのテストベッドとして使用できる。 喫煙力学の現在のモデルは主に通常の微分方程式(ODE)モデルを使用し、個人の接触ネットワークの効果を研究することは困難である。 また、喫煙行動の変化につながる個人間のすべての相互作用を考慮せず、喫煙行動の拡散に関する貴重な情報を考慮していないことを示唆している。 この文脈において,我々はエージェントベースモデル(abm)を開発し,米国と英国で観測された歴史的傾向を校正し,検証する。 我々のABMは自発的な用語、エージェント間の相互作用、エージェントの接触ネットワークを考える。 基礎となるネットワークが喫煙動態に与える影響を調べるため,ABMを合成および実世界の6つの異なるネットワーク上で試験する。 さらに、ABMをODEモデルと比較する。 その結果,ネットワーク構造が完全に接続された場合のみ,ODEモデルからのダイナミクスがABMと類似していることが示唆された。 FCネットワークはデータの経験的傾向を再現する上で、現実のネットワークはそれを6つのネットワーク間で最もよく複製する。 さらに、実世界のネットワークに関する情報が得られない場合、我々のABM on Lancichinetti-Fortunato-Radicchiベンチマークネットワーク(または実世界のネットワークと同等の平均的なネットワーク)は喫煙行動のモデル化に利用できる。 これらの結果から, 喫煙行動のモデル化にはネットワークが不可欠であり, 喫煙管理のためのネットワークベースの介入戦略やポリシーの開発にも, 当社のabmが有効であることが示唆された。

Over the years, population-level tobacco control policies have considerably reduced smoking prevalence worldwide. However, the rate of decline of smoking prevalence is slowing down. Therefore, there is a need for models that capture the full complexity of the smoking epidemic. These models can then be used as test-beds to develop new policies to limit the spread of smoking. Current models of smoking dynamics mainly use ordinary differential equation (ODE) models, where studying the effect of an individual's contact network is challenging. They also do not consider all the interactions between individuals that can lead to changes in smoking behaviour, implying that they do not consider valuable information on the spread of smoking behaviour. In this context, we develop an agent-based model (ABM), calibrate and then validate it on historical trends observed in the US and UK. Our ABM considers spontaneous terms, interactions between agents, and the agent's contact network. To explore the effect of the underlying network on smoking dynamics, we test the ABM on six different networks, both synthetic and real-world. In addition, we also compare the ABM with an ODE model. Our results suggest that the dynamics from the ODE model are similar to the ABM only when the network structure is fully connected (FC). The FC network performs poorly in replicating the empirical trends in the data, while the real-world network best replicates it amongst the six networks. Further, when information on the real-world network is unavailable, our ABM on Lancichinetti-Fortunato-Radicchi benchmark networks (or networks with a similar average degree as the real-world network) can be used to model smoking behaviour. These results suggest that networks are essential for modelling smoking behaviour and that our ABM can be used to develop network-based intervention strategies and policies for tobacco control.
翻訳日:2023-02-19 09:55:15 公開日:2022-07-17
# 商業映画ポスターの民族表現分析

Ethnic Representation Analysis of Commercial Movie Posters ( http://arxiv.org/abs/2207.08169v1 )

ライセンス: Link先を確認
Dima Kagan, Mor Levy, Michael Fire, and Galit Fuhrmann Alpert(参考訳) 近年,多様な表現の重要性に対する世界的な意識が高まっている。 マイノリティに対する多様性と差別の欠如は映画産業をスキップしなかった。 ここでは,何十年にもわたって映画業界の主要な広告媒体であるコマーシャルポスターを通して,映画産業における民族バイアスを考察する。 映画のポスターは視聴者の最初の印象を確立するように設計されている。 最新のディープラーニングモデルを用いて,約125,000枚のポスターを解析し,映画産業における民族バイアスの評価手法を開発した。 分析の結果、民族バイアスは依然として存在するものの、いくつかのパラメータに見られるようにバイアス減少の傾向が示されている。 特に英語圏の映画では、過去2年間のポスターのキャラクターの民族分布が、アメリカ国民の実際の民族構成に近づいている。 映画産業における民族の多様性を監視するための自動的なアプローチは、金融価値と統合される可能性があり、生産者や政策立案者にとって重要な用途である。

In the last decades, global awareness towards the importance of diverse representation has been increasing. Lack of diversity and discrimination toward minorities did not skip the film industry. Here, we examine ethnic bias in the film industry through commercial posters, the industry's primary advertisement medium for decades. Movie posters are designed to establish the viewer's initial impression. We developed a novel approach for evaluating ethnic bias in the film industry by analyzing nearly 125,000 posters using state-of-the-art deep learning models. Our analysis shows that while ethnic biases still exist, there is a trend of reduction of bias, as seen by several parameters. Particularly in English-speaking movies, the ethnic distribution of characters on posters from the last couple of years is reaching numbers that are approaching the actual ethnic composition of US population. An automatic approach to monitor ethnic diversity in the film industry, potentially integrated with financial value, may be of significant use for producers and policymakers.
翻訳日:2023-02-19 09:54:48 公開日:2022-07-17
# 現代のCEOのためのモバイルセキュリティ - 攻撃、緩和、今後のトレンド

Mobile Security for the modern CEO: Attacks, Mitigations, and Future Trends ( http://arxiv.org/abs/2207.08105v1 )

ライセンス: Link先を確認
Marc Schmitt(参考訳) 今日の世界はデジタルでグローバルで相互接続され、モバイル機器はビジネス、政治、市民社会における現代のコミュニケーションの中心である。 しかし、サイバー脅威は、ハイパーコネクテッド・ワールドにおける全社的な現実である。 世界経済フォーラムは、サイバー脅威を世界トップのセキュリティリスクに一貫してランク付けしている。 モバイルデバイスへの攻撃は年々大きくなり、大きな被害をもたらしている。 本稿では,マルウェア,フィッシング,通信,サプライチェーン,物理的および認証攻撃に分類された現代のモバイル攻撃の概要について述べる。 また、モバイルのセットアップをセキュアにするためのセキュリティ設計ヒントや、入ってくる攻撃が成功するのを防ぐための一般的な推奨も提供する。 最後のセクションでは、将来の技術動向と、将来モバイルセキュリティの状況にどのように影響し、変化していくかを強調している。

Todays world is digital, global, and interconnected and mobile devices are at the heart of modern communications in business, politics, and civil society. However, cyber threats are an omnipresent reality in our hyper-connected world. The world economic forum ranks cyber threats consistently among the global top security risks. Attacks on mobile devices grow yearly in volume and magnitude causing severe damage. This paper offers a comprehensive overview of modern mobile attacks categorized into malware, phishing, communication, supply chain, physical, and authentication attacks, including a section on mitigations and limitations. It also provides security design tips to secure the mobile setup and general recommendations to prevent the successful execution of an incoming attack. The last section highlights future technology trends and how those will impact and change the mobile security landscape in the future.
翻訳日:2023-02-19 09:54:33 公開日:2022-07-17
# 木に基づくアンサンブルのロバストな反事実説明

Robust Counterfactual Explanations for Tree-Based Ensembles ( http://arxiv.org/abs/2207.02739v2 )

ライセンス: Link先を確認
Sanghamitra Dutta, Jason Long, Saumitra Mishra, Cecilia Tilli, Daniele Magazzeni(参考訳) カウンターファクトの説明は、機械学習モデルから望ましい結果を得る方法を伝える。 しかし、そのような説明は、基礎となるモデル(例えば、モデルの再トレーニング、ハイパーパラメータの変更など)における特定の現実世界の変化に対して堅牢ではない。 本稿では、木ベースのアンサンブル(例えばxgboost)に対してロバストな反事実を生成するための新しい戦略を提案する。 木に基づくアンサンブルは、堅牢な反ファクト生成において、例えば、非滑らかで微分不可能な目的関数を持ち、非常に類似したデータで再訓練されたパラメータ空間において多くの変更を行うことができる。 まず最初に、再トレーニング下での変化をモデル化するために、反事実がどれほど頑健であるかを定量化しようとする、反事実安定性と呼ばれる新しいメトリックを導入し、望ましい理論的特性を伴います。 提案手法は,任意の反ファクト生成法(ベース法)で動作し,基準法で生成した反ファクトを基準法で反復的に改善することにより,堅牢な反ファクト生成を探索する。 我々は,RobXの性能を,ベンチマークデータセット間で(木に基づくアンサンブルのための)一般的な反ファクト生成手法と比較する。 その結果,提案手法は,既存手法よりもかなり頑健(実モデル変更後ほぼ100%有効)で,かつ現実的(局所的外れ要因の観点で)な偽物を生成することがわかった。

Counterfactual explanations inform ways to achieve a desired outcome from a machine learning model. However, such explanations are not robust to certain real-world changes in the underlying model (e.g., retraining the model, changing hyperparameters, etc.), questioning their reliability in several applications, e.g., credit lending. In this work, we propose a novel strategy -- that we call RobX -- to generate robust counterfactuals for tree-based ensembles, e.g., XGBoost. Tree-based ensembles pose additional challenges in robust counterfactual generation, e.g., they have a non-smooth and non-differentiable objective function, and they can change a lot in the parameter space under retraining on very similar data. We first introduce a novel metric -- that we call Counterfactual Stability -- that attempts to quantify how robust a counterfactual is going to be to model changes under retraining, and comes with desirable theoretical properties. Our proposed strategy RobX works with any counterfactual generation method (base method) and searches for robust counterfactuals by iteratively refining the counterfactual generated by the base method using our metric Counterfactual Stability. We compare the performance of RobX with popular counterfactual generation methods (for tree-based ensembles) across benchmark datasets. The results demonstrate that our strategy generates counterfactuals that are significantly more robust (nearly 100% validity after actual model changes) and also realistic (in terms of local outlier factor) over existing state-of-the-art methods.
翻訳日:2023-02-19 09:45:20 公開日:2022-07-17
# 熱雑音損失ボソニック多重アクセスチャンネルの基本限界

Fundamental Limits of Thermal-noise Lossy Bosonic Multiple Access Channel ( http://arxiv.org/abs/2207.00139v2 )

ライセンス: Link先を確認
Evan J.D. Anderson and Boulat A. Bash(参考訳) ボソニックチャネルは、光学、マイクロ波、電波といった多くの実用的な通信リンクを量子力学的に記述する。 本研究では,環境が付加する熱雑音の存在下でのボソニック多重アクセスチャネル(MAC)の最大速度と,ガウス状態入力を利用した送信機について検討する。 我々は,熱ノイズ損失ボソニックmacの容量領域の外側境界を開発した。 さらに、送信機におけるコヒーレントな状態の使用は、高い平均光子数と低い平均光子数の限界において、キャパシティを実現する。 さらに,コヒーレント状態がチャネルの総和率の容量特性であることを検証した。 非漸近的状態において、グローバル平均光子数制約が送信機に課されるとき、コヒーレント状態は最適ガウス状態である。 しかし驚くべきことに、シングルモードのスクイーズ状態を使用することで、各送信機が光子数を個々に制限した場合、コヒーレントな状態エンコーディングによって与えられる容量を増加させることができる。

Bosonic channels describe quantum-mechanically many practical communication links such as optical, microwave, and radiofrequency. We investigate the maximum rates for the bosonic multiple access channel (MAC) in the presence of thermal noise added by the environment and when the transmitters utilize Gaussian state inputs. We develop an outer bound for the capacity region for the thermal-noise lossy bosonic MAC. We additionally find that the use of coherent states at the transmitters is capacity-achieving in the limits of high and low mean input photon numbers. Furthermore, we verify that coherent states are capacity-achieving for the sum rate of the channel. In the non-asymptotic regime, when a global mean photon-number constraint is imposed on the transmitters, coherent states are the optimal Gaussian state. Surprisingly however, the use of single-mode squeezed states can increase the capacity over that afforded by coherent state encoding when each transmitter is photon number constrained individually.
翻訳日:2023-02-07 02:07:32 公開日:2022-07-17
# 光双極子トラップにおける$^{171}$Yb原子の電気双極子モーメントの測定

Measurement of the Electric Dipole Moment of $^{171}$Yb Atoms in an Optical Dipole Trap ( http://arxiv.org/abs/2207.08140v1 )

ライセンス: Link先を確認
T. A. Zheng, Y. A. Yang, S.-Z. Wang, J. T. Singh, Z.-X. Xiong, T. Xia, Z.-T. Lu(参考訳) 光双極子トラップ(ODT)に保持された原子で、$^{171}$Yb$(I=1/2)$原子の永久電気双極子モーメント(EDM)を測定する。 スピン選択性とスピン保存を同時に行うサイクリング遷移を有効にすることにより、スピン検出効率50$\%の量子非破壊測定を実現する。 静的E場によって誘導されるパリティ混合による系統的効果を観察し,ODTの測定値の逆方向平均化により抑制する。 コヒーレントスピンの歳差時間は300秒よりもずっと長いことが判明した。 EDMは$d({\rm^{171}Yb})={\color{black}(-6.8\pm5.1_{\rm stat}\pm1.2_{\rm syst})\times10^{-27}\e\ \rm cm}$と判定され、上限は$|d({\rm^{171}Yb})|<{\color{black}1.5\times10^{-26}\e\\rm cm}$$$$95\%$C.Lとなる。 これらの測定技術は、$^{225}$RaのEDMの探索に適応することができる。

The permanent electric dipole moment (EDM) of the $^{171}$Yb $(I=1/2)$ atom is measured with atoms held in an optical dipole trap (ODT). By enabling a cycling transition that is simultaneously spin-selective and spin-preserving, a quantum non-demolition measurement with a spin-detection efficiency of 50$\%$ is realized. A systematic effect due to parity mixing induced by a static E field is observed, and is suppressed by averaging between measurements with ODTs in opposite directions. The coherent spin precession time is found to be much longer than 300 s. The EDM is determined to be $d({\rm^{171}Yb})={\color{black}(-6.8\pm5.1_{\rm stat}\pm1.2_{\rm syst})\times10^{-27}\ e\ \rm cm}$, leading to an upper limit of $|d({\rm^{171}Yb})|<{\color{black}1.5\times10^{-26}\ e\ \rm cm}$ ($95\%$ C.L.). These measurement techniques can be adapted to search for the EDM of $^{225}$Ra.
翻訳日:2023-02-04 18:19:57 公開日:2022-07-17
# 相対gエントロピーの展開とモノトン計量

Unfolding of relative g-entropies and monotone metrics ( http://arxiv.org/abs/2207.08118v1 )

ライセンス: Link先を確認
Fabio Di Nocera(参考訳) 我々は最近記述された展開手順の幾何学的側面について議論し、展開空間における量子情報幾何学の分野に関連する物体の形状を示す。 特に、ペッツとレトラスによって特徴づけられる量子単調計量テンソルの形式を、最近導入された相対的な$g$エントロピーから共変テンソルを抽出する手順として示す。

We discuss the geometric aspects of a recently described unfolding procedure and show the form of objects relevant in the field of Quantum Information Geometry in the unfolding space. In particular, we show the form of the quantum monotone metric tensors characterized by Petz and retrace in this unfolded perspective a recently introduced procedure of extracting a covariant tensor from a relative $g$-entropy.
翻訳日:2023-02-04 18:19:26 公開日:2022-07-17
# 因果ダイヤモンドにおける熱効果--オープン量子システムによるアプローチ

Thermal effect in a causal diamond: open quantum systems approach ( http://arxiv.org/abs/2207.08086v1 )

ライセンス: Link先を確認
Abhijit Chakraborty, Horacio Camblong, Carlos Ordonez(参考訳) 有限寿命の静的観測者は、因果ダイヤモンドとして知られる時空の限られた領域にのみ因果アクセスを持つ。 因果ダイヤモンドの見かけの地平線の存在は、観測者の寿命が有限であることから、ウンルーのような熱効果の起源である。 したがって、観測者は静止しており、背景は平坦であるが、有限寿命観測者はミンコフスキー真空の熱浴を経験する。 本稿では,その寿命に反比例した温度で熱であることを示す,観測者の定常密度行列を通した完全な熱特性を与えるオープン量子システムを提案する。 このダイヤモンド温度は、他の方法に由来する確立された結果と一致する。 さらに,本手法は,因果ダイヤモンドにおける絡み合い収穫プロトコルの設計に特に有用である。 さらに,コンフォメーション変換を用いてダイヤモンド座標を定義し,熱的性質をより直接的に導出する洞察に富んだ手順を提案する。

A static observer with a finite lifetime has causal access to only a limited region of spacetime known as the causal diamond. The presence of an apparent horizon in the causal diamond, due to the observer's finite lifetime, is the origin of an Unruh-like thermal effect. Thus, even though the observer is static and the background is flat, the finite-lifetime observer experiences a thermal bath in the Minkowski vacuum. In this article, we provide an open quantum systems approach that yields a complete thermal characterization via the observer's steady-state density matrix, which is shown to be thermal with a temperature inversely proportional to its lifetime. This associated diamond temperature agrees with the established result derived from other methods. Moreover, our approach is particularly useful for designing entanglement harvesting protocols in the causal diamond. In addition, we introduce an insightful procedure that defines diamond coordinates using conformal transformations, and which leads to a more direct derivation of the thermal properties.
翻訳日:2023-02-04 18:18:37 公開日:2022-07-17
# 技術と意識

Technology and Consciousness ( http://arxiv.org/abs/2209.03956v1 )

ライセンス: Link先を確認
John Rushby and Daniel Sanchez(参考訳) 我々は,2017年夏に開催された8つのワークショップ「技術と意識」について報告する。 ワークショップは多くのテーマをカバーしたが、全体的な目標は機械意識の可能性とその可能性を評価することだった。 本報告では,脳の構造と機能,意識の理論,意識機械構築の明示的試み,意識の検出と測定,意識技術の出現の可能性,そのような技術を制御するための方法,それに負う可能性のある倫理的考察など,議論された基本的なテーマのほとんどを要約する。 付録には各ワークショップのトピックの概要と講演の要約が掲載されている。 アップデート: このレポートは2018年に公開され、ワークショップは2017年に開催されたが、最近のイベントは前進する価値があることを示唆している。 特に2022年の春、Googleのエンジニアは、LaMDAは「大きな言語モデル」の一つであり、センシティブか、あるいは意識的であると主張した。 このことは科学雑誌と大衆紙の両方で激しい論評を呼び起こし、興味深く洞察に富んだものもいくつかあったが、これらの話題や機械意識の研究の歴史に対する事前の考察にほとんど無関心であった。 したがって、我々は、このレポートの軽くリフレッシュされたバージョンを、現在の議論に有用な背景を提供し、よりインフォームドなコメントを可能にすることを期待して公開します。 この素材は5年が経ちますが、その技術的ポイントは現在も有効で最新ですが、最近の開発を強調する脚注をいくつか追加して、それを"再定義"しています。

We report on a series of eight workshops held in the summer of 2017 on the topic "technology and consciousness." The workshops covered many subjects but the overall goal was to assess the possibility of machine consciousness, and its potential implications. In the body of the report, we summarize most of the basic themes that were discussed: the structure and function of the brain, theories of consciousness, explicit attempts to construct conscious machines, detection and measurement of consciousness, possible emergence of a conscious technology, methods for control of such a technology and ethical considerations that might be owed to it. An appendix outlines the topics of each workshop and provides abstracts of the talks delivered. Update: Although this report was published in 2018 and the workshops it is based on were held in 2017, recent events suggest that it is worth bringing forward. In particular, in the Spring of 2022, a Google engineer claimed that LaMDA, one of their "large language models" is sentient or even conscious. This provoked a flurry of commentary in both the scientific and popular press, some of it interesting and insightful, but almost all of it ignorant of the prior consideration given to these topics and the history of research into machine consciousness. Thus, we are making a lightly refreshed version of this report available in the hope that it will provide useful background to the current debate and will enable more informed commentary. Although this material is five years old, its technical points remain valid and up to date, but we have "refreshed" it by adding a few footnotes highlighting recent developments.
翻訳日:2023-02-04 18:16:00 公開日:2022-07-17
# RISKの導入

Introducing RISK ( http://arxiv.org/abs/2208.07306v1 )

ライセンス: Link先を確認
Christopher D. Wallbridge and Qiyuan Zhang(参考訳) この拡張抽象化は、知識の迅速内部シミュレーション(RISK)システムを開発するための最初のステップを紹介する。 RISKは、人工知能システム、特にディープラーニングネットワークによって作成されたシステムにおいて、システムが知っていることのリアルタイムシミュレーションを可能にすることを目的としている。 これらのシミュレーションに基づいて仮説的状況を調べることで、システムはより情報的な決定を行い、専門家でない観察者が与えられた行動の背後にある推論を理解するためにそれらを生成することができる。

This extended abstract introduces the initial steps taken to develop a system for Rapid Internal Simulation of Knowledge (RISK). RISK aims to enable more transparency in artificial intelligence systems, especially those created by deep learning networks by allowing real-time simulation of what the system knows. By looking at hypothetical situations based on these simulations a system may make more informed decisions, and produce them for non-expert observers to understand the reasoning behind a given action.
翻訳日:2023-02-04 18:15:28 公開日:2022-07-17
# 変位電流をもつキルヒホフの電流則

Kirchhoff's Current Law with Displacement Current ( http://arxiv.org/abs/2207.08277v1 )

ライセンス: Link先を確認
Robert Eisenberg, Xavier Oriols, David K. Ferry(参考訳) キルヒホフの電流法則は、ナノ秒よりも高速で高速に動作する回路の設計に欠かせない道具である。 しかし、キルヒホフの電流はしばしば粒子の流れとして同定される。 連続性方程式あるいはマクスウェル・アンペア法則は、変位電流$\textbf{plus}$粒子電流の和がマクスウェルの方程式とキルヒホフの法則によって保存されることを示している。 キルホフは法の流れの変位電流を早くから含んでいた。 このキルヒホフ電流(変位電流を含む)は、生物学のイオンチャネルの空間的位置によっては変化しない。 粒子と変位電流を含む量子力学のボーム表現を用いて、ナノ秒でスイッチする電子回路を解析する。

Kirchhoff's Current Law is an essential tool in the design of circuits that operate very quickly, faster than nanoseconds. But Kirchhoff's current is often identified as the flow of particles. The continuity equation or the Maxwell-Ampere law shows that the sum of displacement current $\textbf{plus}$ particle current is conserved by Maxwell's equations and Kirchhoff's law. Kirchoff included the displacement current in the current of his law, from early on. This Kirchhoff current (including the displacement current) does not vary with spatial location in the ionic channels of biology. Electronic circuits switching in nanoseconds are analyzed using the Bohm representation of quantum mechanics including particle and displacement current.
翻訳日:2023-02-04 18:14:52 公開日:2022-07-17
# 高温におけるエコー強調分子配向

Echo-enhanced molecular orientation at high temperatures ( http://arxiv.org/abs/2207.08274v1 )

ライセンス: Link先を確認
Ilia Tutunnikov, Long Xu, Yehiam Prior, and Ilya Sh. Averbukh(参考訳) 超短パルスは、過渡的な磁場のない分子配向に広く使われ、化学反応力学、超高速分子イメージング、高調波発生、アト秒科学において重要な現象である。 しかし、有意な分子配向は通常、規則化された分子ビームのように回転的に冷たい分子を必要とする。 ここでは, ハドロン加速器, 自由電子レーザー, レーザー励起分子で以前に観測されたエコー現象の機構を用いて, 破壊的熱効果を克服し, 高速で効率的な電界自由分子配向を実現することを提案する。 本方式では, 線形偏光短レーザーパルスにより, 分子回転相空間の広い熱分布を, パルス後自由発展中の非線形相混合により, 多数の細径フィラメントに変換する。 個々のフィラメントに属する分子サブグループは、角速度の分散が大きい。 それらは回転的に冷えており、それに続く適度なテラヘルツ(thz)パルスはそれらを容易に向き付けることができる。 分子気体の全体的な強化配向は、異なるフィラメントの寄与を結合したエコー過程の過程である程度遅れて達成される。 以上の結果から、エコー強調方向はTHzパルス単独の方向よりも桁違いに高いことがわかった。 この機構はロバストであり、異なる種類の分子に適用でき、配向度は比較的温度に敏感である。 この方式で使用されるレーザーとTHzパルスは容易に利用でき、様々なアプリケーションですばやく実験と試験を行うことができる。 相空間を個々のフィラメントに分解して、熱条件の障害を克服することは、分子の配向を超えた幅広い応用を見出すことができる。

Ultrashort laser pulses are widely used for transient field-free molecular orientation -- a phenomenon important in chemical reaction dynamics, ultrafast molecular imaging, high harmonics generation, and attosecond science. However, significant molecular orientation usually requires rotationally cold molecules, like in rarified molecular beams, because chaotic thermal motion is detrimental to the orientation process. Here we propose to use the mechanism of the echo phenomenon previously observed in hadron accelerators, free-electron lasers, and laser-excited molecules to overcome the destructive thermal effects and achieve efficient field-free molecular orientation at high temperatures. In our scheme, a linearly polarized short laser pulse transforms a broad thermal distribution in the molecular rotational phase space into many separated narrow filaments due to the nonlinear phase mixing during the post-pulse free evolution. Molecular subgroups belonging to individual filaments have much-reduced dispersion of angular velocities. They are rotationally cold, and a subsequent moderate terahertz (THz) pulse can easily orient them. The overall enhanced orientation of the molecular gas is achieved with some delay, in the course of the echo process combining the contributions of different filaments. Our results demonstrate that the echo-enhanced orientation is an order of magnitude higher than that of the THz pulse alone. The mechanism is robust -- it applies to different types of molecules, and the degree of orientation is relatively insensitive to the temperature. The laser and THz pulses used in the scheme are readily available, allowing quick experimental demonstration and testing in various applications. Breaking the phase space to individual filaments to overcome hindering thermal conditions may find a wide range of applications beyond molecular orientation.
翻訳日:2023-02-04 18:14:39 公開日:2022-07-17
# 散逸ハバード・ホルシュタイン模型の金属性:開量子多体系に対するマルコフおよび非マルコフテンソルネットワーク法

Metallicity in the Dissipative Hubbard-Holstein Model: Markovian and Non-Markovian Tensor-Network Methods for Open Quantum Many-Body Systems ( http://arxiv.org/abs/2207.08243v1 )

ライセンス: Link先を確認
Mattia Moroder, Martin Grundner, Fran\c{c}ois Damanet, Ulrich Schollw\"ock, Sam Mardazad, Stuart Flannigan, Thomas K\"ohler, Sebastian Paeckel(参考訳) ハバード=ホルシュタイン・ハミルトニアン(Hubbard-Holstein Hamiltonian)は、強い電子-フォノン結合によって特徴づけられる大きな物質の輸送特性を研究するための原型モデルを記述する。 1次元の場合でさえ、そのようなシステムの量子力学を高精度にシミュレーションすることは、フォノニックヒルベルト空間の無限次元性のために非常に困難である。 この困難は、事実上避けられない環境へのフォノン系の非一貫性結合を考えるとさらに深刻になる傾向がある。 そのため, これまでのシステムでは, 消散が金属性に及ぼす影響は研究されていない。 本稿では、純粋状態法の非マルコフ階層とマルコフ量子ジャンプ法と、新たに導入された射影純化密度行列再正規化群を組み合わせることにより、このギャップを解消し、散逸量子多体系に対する強力なテンソルネットワーク法を作成する。 その数値的性質を調べると、従来のテンソルネットワーク技術と比較して、最大で$\sim 30$という大きなスピードアップが見出される。 これらの手法をハバード・ホルシュタイン模型のクエンチの研究に応用し,バイポーラロンの形成,安定性,準粒子特性の深い理解を目指している。 以上の結果から,金属相では散逸がバイポーラロンの局在を示す。 しかし、バイポーラロン結合エネルギーは強い散逸の存在下でも主に影響を受けておらず、顕著なバイポーラロン安定性を示す。 これらの結果は、フォノンを媒介とする超伝導の高-$t_\mathrm{c}$を実材料として設計する問題に新たな光を当てた。

The Hubbard-Holstein Hamiltonian describes a prototypical model to study the transport properties of a large class of materials characterized by strong electron-phonon coupling. Even in the one-dimensional case, simulating the quantum dynamics of such a system with high accuracy is very challenging due to the infinite-dimensionality of the phononic Hilbert spaces. The difficulties tend to become even more severe when considering the incoherent coupling of the phonon-system to a practically inevitable environment. For this reason, the effects of dissipation on the metallicity of such systems have not been investigated systematically so far. In this article, we close this gap by combining the non-Markovian hierarchy of pure states method and the Markovian quantum jumps method with the newly introduced projected purified density-matrix renormalization group, creating powerful tensor network methods for dissipative quantum many-body systems. Investigating their numerical properties, we find a significant speedup up to a factor $\sim 30$ compared to conventional tensor-network techniques. We apply these methods to study quenches of the Hubbard-Holstein model, aiming for an in-depth understanding of the formation, stability, and quasi-particle properties of bipolarons. Our results show that in the metallic phase, dissipation localizes the bipolarons. However, the bipolaronic binding energy remains mainly unaffected, even in the presence of strong dissipation, exhibiting remarkable bipolaron stability. These findings shed new light on the problem of designing real materials exhibiting phonon-mediated high-$T_\mathrm{C}$ superconductivity.
翻訳日:2023-02-04 18:13:58 公開日:2022-07-17
# 局所現実的ボヘミア軌道:波動-粒子双対性に対する非ボヘミア的アプローチ

Local-realistic Bohmian trajectories: a non-Bohmian approach to wave-particle duality ( http://arxiv.org/abs/2207.08222v1 )

ライセンス: Link先を確認
F. De Zela(参考訳) 本稿では,波動粒子双対性とボーム軌道の局所実数的記述について述べる。 我々のアプローチは相対論的であり、ハミルトンの古典力学の原理に基づいているが、2つの点で標準設定から外れている。 まず、一つの極大曲線に焦点をあてるのではなく、いわゆるマイヤー場と呼ばれる極大曲線のアンサンブルに対処する。 第二に、アンサンブルのどの極値曲線が実際に実現されているのかを確率的に評価できるスケールが存在すると仮定する。 確率の保存を規定する連続性方程式はハミルトンの原理の補助条件を表す。 その結果、極小のアンサンブルはマクスウェル方程式によって支配されるダイナミクスを取得する。 したがって、これらの方程式はいくつかの非電磁現象も支配する。 粒子はよく定義された軌道に従うが、極値場は波の挙動を示すことができる。

We present a local-realistic description of both wave-particle duality and Bohmian trajectories. Our approach is relativistic and based on Hamilton's principle of classical mechanics, but departs from its standard setting in two respects. First, we address an ensemble of extremal curves, the so-called Mayer field, instead of focusing on a single extremal curve. Second, we assume that there is a scale, below which we can only probabilistically assess which extremal curve in the ensemble is actually realized. The continuity equation ruling the conservation of probability represents a subsidiary condition for Hamilton's principle. As a consequence, the ensemble of extremals acquires a dynamics that is ruled by Maxwell equations. These equations are thus shown to also rule some non-electromagnetic phenomena. While particles follow well-defined trajectories, the field of extremals can display wave behavior.
翻訳日:2023-02-04 18:13:28 公開日:2022-07-17
# 変分量子最適化のためのキャリブレーションアウェア変換

Calibration-Aware Transpilation for Variational Quantum Optimization ( http://arxiv.org/abs/2207.08205v1 )

ライセンス: Link先を確認
Yanjun Ji, Sebastian Brandhofer and Ilia Polian(参考訳) 今日のうるさい中間スケール量子(nisq)コンピュータは利用可能な量子ゲートの限られたセットと制限された接続しかサポートしていない。 したがって、量子アルゴリズムは、所定の nisq コンピュータ上で実行可能になるためには、トランスパイルされなければならない。 さらに、nisqコンピュータは時間とともに変化するノイズに影響を受け、周期的校正はトランスパイル時に考慮すべき関連するエラー率を提供する。 NISQプラットフォーム上の計算の1つの主要なクラスを形成する変分アルゴリズムは、類似しているが同一でない多くの量子 ' 'ansatz''' 回路を生成する。 本研究では,可変アルゴリズムに最適化したトランスパイル化手法を提案する。 トランスパイル化は,(1)ノイズを認識せず,計算量的に重いプリトランスパイル化,(2)高速ノイズアウェアマッチング、(3)高速分解、およびヒューリスティック最適化の3つのステップに分けられる。 一定の誤差率の下で変分アルゴリズムを完全実行するためには、新しいアンサッツ回路ごとにステップ(3)だけを実行する必要がある。 ステップ (2) は、計算開始時からキャリブレーションによって報告されたエラー率が大きく変化した場合にのみ必要となる。 最も高価な Step (1) は実行全体に対して1回だけ実行される。 この分布は、変分アルゴリズムが自身の実行を誤り率の変化に適応させるとき、漸進的かつ校正対応のトランスパイレーションに役立つ。 IBMの量子コンピュータの実験結果は、キャリブレーション対応のトランスパイレーションによって得られる低レイテンシとロバストな結果を示している。

Today's Noisy Intermediate-Scale Quantum (NISQ) computers support only limited sets of available quantum gates and restricted connectivity. Therefore, quantum algorithms must be transpiled in order to become executable on a given NISQ computer; transpilation is a complex and computationally heavy process. Moreover, NISQ computers are affected by noise that changes over time, and periodic calibration provides relevant error rates that should be considered during transpilation. Variational algorithms, which form one main class of computations on NISQ platforms, produce a number of similar yet not identical quantum ``ansatz'' circuits. In this work, we present a transpilation methodology optimized for variational algorithms under potentially changing error rates. We divide transpilation into three steps: (1) noise-unaware and computationally heavy pre-transpilation; (2) fast noise-aware matching; and (3) fast decomposition followed by heuristic optimization. For a complete run of a variational algorithm under constant error rates, only step (3) needs to be executed for each new ansatz circuit. Step (2) is required only if the error rates reported by calibration have changed significantly since the beginning of the computation. The most expensive Step (1) is executed only once for the whole run. This distribution is helpful for incremental, calibration-aware transpilation when the variational algorithm adapts its own execution to changing error rates. Experimental results on IBM's quantum computer show the low latency and robust results obtained by calibration-aware transpilation.
翻訳日:2023-02-04 18:13:14 公開日:2022-07-17
# 暗黙的空間領域ノッチフィルタリングによるディープフェイク検出

Dodging DeepFake Detection via Implicit Spatial-Domain Notch Filtering ( http://arxiv.org/abs/2009.09213v3 )

ライセンス: Link先を確認
Yihao Huang, Felix Juefei-Xu, Qing Guo, Yang Liu, Geguang Pu(参考訳) 現在、DeepFake画像の高忠実度生成と高精度検出は、軍備競争の最中である。 DeepFakeを極めて現実的で‘検出回避’した製品は,次世代のDeepFake検出機能を改善するという究極の目標を達成できると考えています。 本稿では,暗黙的な空間領域ノッチフィルタリングを行うことで,画像品質を損なうことなく偽画像のアーティファクトパターンを低減できる簡易かつ強力なパイプラインを提案する。 まず, 周波数領域のノッチフィルタは, 空間領域の周期ノイズ除去に有効であることが知られているが, ノッチフィルタの手動設計により手作業では実現不可能であることを示す。 そこで我々は,ノッチフィルタリング効果を再現する学習ベースの手法を用いるが,空間領域のみに適応する。 そこで我々は,周期的ノイズパターンを分解するために過大な空間雑音を付加する手法と,ノイズのない偽画像を再構成する深部画像フィルタリング法を組み合わせて,deepnotch法と命名する。 ディープイメージフィルタリングは、ノイズ画像の各画素に対して特別なフィルタを提供し、ディープフェイク画像に比べて高い忠実度でフィルタ画像を生成する。 さらに、画像の意味情報を用いて、敵対的な誘導マップを生成し、ノイズをインテリジェントに付加する。 最先端3種類のDeepFake検出手法(16種類のDeepFakeで検証)を大規模に評価した結果,これら3種類の偽画像検出手法の精度は,平均36.79%,最高97.02%と有意に低下した。

The current high-fidelity generation and high-precision detection of DeepFake images are at an arms race. We believe that producing DeepFakes that are highly realistic and ``detection evasive'' can serve the ultimate goal of improving future generation DeepFake detection capabilities. In this paper, we propose a simple yet powerful pipeline to reduce the artifact patterns of fake images without hurting image quality by performing implicit spatial-domain notch filtering. We first demonstrate that frequency-domain notch filtering, although famously shown to be effective in removing periodic noise in the spatial domain, is infeasible for our task at hand due to manual designs required for the notch filters. We, therefore, resort to a learning-based approach to reproduce the notch filtering effects, but solely in the spatial domain. We adopt a combination of adding overwhelming spatial noise for breaking the periodic noise pattern and deep image filtering to reconstruct the noise-free fake images, and we name our method DeepNotch. Deep image filtering provides a specialized filter for each pixel in the noisy image, producing filtered images with high fidelity compared to their DeepFake counterparts. Moreover, we also use the semantic information of the image to generate an adversarial guidance map to add noise intelligently. Our large-scale evaluation on 3 representative state-of-the-art DeepFake detection methods (tested on 16 types of DeepFakes) has demonstrated that our technique significantly reduces the accuracy of these 3 fake image detection methods, 36.79% on average and up to 97.02% in the best case.
翻訳日:2022-10-16 21:11:25 公開日:2022-07-17
# 高次元ノイズ点雲のグラフラプラシアンスペクトルに及ぼす信号対雑音比と帯域幅の影響

Impact of signal-to-noise ratio and bandwidth on graph Laplacian spectrum from high-dimensional noisy point cloud ( http://arxiv.org/abs/2011.10725v3 )

ライセンス: Link先を確認
Xiucai Ding and Hau-Tieng Wu(参考訳) カーネルベースのグラフ Laplacian (GL) のスペクトルを非ヌルなセットアップで高次元および雑音のランダムな点群から構築し、そこで点群は多様体のような低次元幾何学的対象からサンプリングされ、高次元ノイズによって劣化する。 信号と雑音の相互作用をsnr(signal-to-noise ratio)の異なる領域で定量化し,glの固有スペクトル挙動を報告した。 さらに,SNRの異なる規則に対して,GLのスペクトル上でのカーネル帯域幅の選択について検討し,実データに共通する帯域幅の適応的選択を導いた。 この結果は、データセットが騒がしいときに実践者が行うことに対する理論的サポートを提供する。

We systematically {study the spectrum} of kernel-based graph Laplacian (GL) constructed from high-dimensional and noisy random point cloud in the nonnull setup, where the point cloud is sampled from a low-dimensional geometric object, like a manifold, and corrupted by high-dimensional noise. We quantify how the signal and noise interact over different regimes of signal-to-noise ratio (SNR), and report {the resulting peculiar spectral behavior} of GL. In addition, we explore the choice of kernel bandwidth on the spectrum of GL over different regimes of SNR, which leads to an adaptive choice of bandwidth that coincides with the common practice in real data. This result provides a theoretical support for what practitioner do when the dataset is noisy.
翻訳日:2022-09-22 23:41:29 公開日:2022-07-17
# 文脈系列理論:多種類の学習のための一般的な説明

Context sequence theory: a common explanation for multiple types of learning ( http://arxiv.org/abs/2208.04707v1 )

ライセンス: Link先を確認
Yu Mingcan and Wang Junying(参考訳) 強化学習、視覚知覚、注意といった神経科学の原則は機械学習モデルに応用されてきたが、機械学習と哺乳類学習の間には大きなギャップがある。 ニューロサイエンスの進歩に基づき、哺乳類における複数の種類の学習について共通の説明を与えるコンテキストシーケンス理論を提案し、機械学習モデルの構築に新たな洞察を与えることを期待している。

Although principles of neuroscience like reinforcement learning, visual perception and attention have been applied in machine learning models, there is a huge gap between machine learning and mammalian learning. Based on the advances in neuroscience, we propose the context sequence theory to give a common explanation for multiple types of learning in mammals and hope that can provide a new insight into the construct of machine learning models.
翻訳日:2022-08-14 18:25:35 公開日:2022-07-17
# 不確実性下における農業経営のリスク-逆確率最適化と品種選択

Risk-averse Stochastic Optimization for Farm Management Practices and Cultivar Selection Under Uncertainty ( http://arxiv.org/abs/2208.04840v1 )

ライセンス: Link先を確認
Faezeh Akhavizadegan, Javad Ansarifar, Lizhi Wang, and Sotirios V. Archontoulis(参考訳) 経営の最適化と植林に適した品種の選択は、農業食糧生産の増加と環境フットプリントの減少に重要な役割を果たしている。 本研究では,確率的プログラミング対象関数における条件付きリスクを用いた不確実性を考慮した最適化フレームワークを開発する。 我々は, 作物モデル, apsim, 並列ベイズ最適化アルゴリズムを統合し, 経営慣行を最適化し, 異なるリスク回避レベルで最高の品種を選択する。 このアプローチは、最適決定を決定する際の最適化の力と、様々な決定に対応する自然の出力をシミュレートする作物モデルを統合する。 ケーススタディとして,米国トウモロコシベルトの25箇所を対象に,作物モデルを構築した。 管理オプション(栽培日数,n施肥量,施肥日数,栽培密度)と品種オプション(熟成日が異なる栽培日数)を3回最適化した。 a) 前 b) 植え付けについて c) 既知の天候で成長する季節の後。 その結果,提案モデルは気象と光度決定の間に有意義な関連を生じさせた。 また,湿潤気候や非湿潤気候では,農業従事者の方がリスク回避率が高いことが判明した。

Optimizing management practices and selecting the best cultivar for planting play a significant role in increasing agricultural food production and decreasing environmental footprint. In this study, we develop optimization frameworks under uncertainty using conditional value-at-risk in the stochastic programming objective function. We integrate the crop model, APSIM, and a parallel Bayesian optimization algorithm to optimize the management practices and select the best cultivar at different levels of risk aversion. This approach integrates the power of optimization in determining the best decisions and crop model in simulating nature's output corresponding to various decisions. As a case study, we set up the crop model for 25 locations across the US Corn Belt. We optimized the management options (planting date, N fertilizer amount, fertilizing date, and plant density in the farm) and cultivar options (cultivars with different maturity days) three times: a) before, b) at planting and c) after a growing season with known weather. Results indicated that the proposed model produced meaningful connections between weather and optima decisions. Also, we found risk-tolerance farmers get more expected yield than risk-averse ones in wet and non-wet weathers.
翻訳日:2022-08-14 18:24:36 公開日:2022-07-17
# データアノテーションによる医用画像分割のためのセルフ・スーパービジョンRCNN

Self-Supervised-RCNN for Medical Image Segmentation with Limited Data Annotation ( http://arxiv.org/abs/2207.11191v1 )

ライセンス: Link先を確認
Banafshe Felfeliyan, Abhilash Hareendranathan, Gregor Kuntze, David Cornell, Nils D. Forkert, Jacob L. Jaremko, and Janet L. Ronsky(参考訳) 機械学習を用いた教師付き学習アプローチに基づく医用画像解析のために開発された多くの手法は、高い精度を達成するために専門家によって注釈付けされた大規模なデータセットを必要とすることが多い。 しかし、医療データアノテーションは、特にセグメンテーションタスクにおいて、時間と費用がかかる。 ラベル付き医用画像データを用いた学習の課題を解決するために,ラベルなしMRIスキャンによる自己教師付き事前訓練に基づく新たなディープラーニング学習戦略を提案する。 まず,未ラベル画像のランダム領域に異なる歪みをランダムに適用し,歪みの種類や情報の損失を予測した。 これにより、歪み位置のローカライズと元の画像画素の復元のために、改良されたmask-rcnnアーキテクチャが採用されている。 変形性関節症イニシアチブデータセットに基づいて, 異なるトレーニングシナリオと微調整シナリオにおけるセグメンテーションタスクの有効性を評価した。 この自己教師付き事前訓練法により,diceスコアはスクラッチから20%向上した。 提案した自己教師型学習は, 異常検出, セグメンテーション, 分類など, さまざまな医療画像解析タスクに適しており, 簡便かつ効果的である。

Many successful methods developed for medical image analysis that are based on machine learning use supervised learning approaches, which often require large datasets annotated by experts to achieve high accuracy. However, medical data annotation is time-consuming and expensive, especially for segmentation tasks. To solve the problem of learning with limited labeled medical image data, an alternative deep learning training strategy based on self-supervised pretraining on unlabeled MRI scans is proposed in this work. Our pretraining approach first, randomly applies different distortions to random areas of unlabeled images and then predicts the type of distortions and loss of information. To this aim, an improved version of Mask-RCNN architecture has been adapted to localize the distortion location and recover the original image pixels. The effectiveness of the proposed method for segmentation tasks in different pre-training and fine-tuning scenarios is evaluated based on the Osteoarthritis Initiative dataset. Using this self-supervised pretraining method improved the Dice score by 20% compared to training from scratch. The proposed self-supervised learning is simple, effective, and suitable for different ranges of medical image analysis tasks including anomaly detection, segmentation, and classification.
翻訳日:2022-07-31 14:19:48 公開日:2022-07-17
# 文脈類似性は文字類似性よりも有益である:中国語スペルチェックのためのカリキュラム学習

Contextual Similarity is More Valuable than Character Similarity: Curriculum Learning for Chinese Spell Checking ( http://arxiv.org/abs/2207.09217v1 )

ライセンス: Link先を確認
Ding Zhang, Yinghui Li, Qingyu Zhou, Shirong Ma, Yangning Li, Yunbo Cao, Hai-Tao Zheng(参考訳) 中国語のスペルチェック(csc)タスクは、中国語のスペルエラーの検出と修正を目的としている。 近年、関連する研究は、よりリッチな情報を含む文字の文脈を無視して、CSCモデルを強化する混乱セットから文字類似性を導入することに焦点を当てている。 文脈的類似性をよりよく活用するために,CSCタスクのためのシンプルで効果的なカリキュラム学習フレームワークを提案する。 設計したモデルに依存しないフレームワークにより、人間が漢字を学習し、さらなる性能向上を達成するため、既存のCSCモデルは容易に訓練できる。 広く使われているSIGHANデータセットの大規模な実験と詳細な分析により,本手法が従来の最先端手法よりも優れていることが示された。

Chinese Spell Checking (CSC) task aims to detect and correct Chinese spelling errors. In recent years, related researches focus on introducing the character similarity from confusion set to enhance the CSC models, ignoring the context of characters that contain richer information. To make better use of contextual similarity, we propose a simple yet effective curriculum learning framework for the CSC task. With the help of our designed model-agnostic framework, existing CSC models will be trained from easy to difficult as humans learn Chinese characters and achieve further performance improvements. Extensive experiments and detailed analyses on widely used SIGHAN datasets show that our method outperforms previous state-of-the-art methods.
翻訳日:2022-07-20 13:46:23 公開日:2022-07-17
# 粒状球計算に基づくラベルノイズ付き深層cnnモデルの検討

A Study of Deep CNN Model with Labeling Noise Based on Granular-ball Computing ( http://arxiv.org/abs/2207.08810v1 )

ライセンス: Link先を確認
Dawei Dai, Donggen Li, Zhiguo Zhuang(参考訳) 教師付き学習では、ノイズの存在は意思決定に大きな影響を与える可能性がある。 多くの分類器は、ロジスティック回帰、svm、adaboostの損失関数を含む損失関数の導出においてラベルノイズを考慮しないため、特に、誤った分類されたサンプルの重み値を継続的に増加させることを核とするadaboost反復アルゴリズムは、ラベルノイズの存在下でのサンプルの重みを増加させ、モデルの精度を低下させる。 さらに,BPニューラルネットワークと決定ツリーの学習過程もラベルノイズの影響を受ける。 したがって,ラベルノイズ問題を解決することは,ネットワークモデルのロバスト性を維持する上で重要な要素である。 粒状ボールコンピューティングは,近年の粒状計算の分野で開発された重要なモデリング手法であり,効率的で堅牢でスケーラブルな学習手法である。 本稿では,モデルトレーニング中にラベルノイズサンプルをマルチグラニュラーフィルタする手法を採用し,ディープラーニングの分野におけるラベルノイズに起因するモデル不安定性の現在の問題を解決し,トレーニングサンプルにおけるラベルノイズの割合を大幅に削減し,ニューラルネットワークモデルの頑健性を向上させる粒度球型ニューラルネットワークアルゴリズムモデルを考案した。

In supervised learning, the presence of noise can have a significant impact on decision making. Since many classifiers do not take label noise into account in the derivation of the loss function, including the loss functions of logistic regression, SVM, and AdaBoost, especially the AdaBoost iterative algorithm, whose core idea is to continuously increase the weight value of the misclassified samples, the weight of samples in many presence of label noise will be increased, leading to a decrease in model accuracy. In addition, the learning process of BP neural network and decision tree will also be affected by label noise. Therefore, solving the label noise problem is an important element of maintaining the robustness of the network model, which is of great practical significance. Granular ball computing is an important modeling method developed in the field of granular computing in recent years, which is an efficient, robust and scalable learning method. In this paper, we pioneered a granular ball neural network algorithm model, which adopts the idea of multi-granular to filter label noise samples during model training, solving the current problem of model instability caused by label noise in the field of deep learning, greatly reducing the proportion of label noise in training samples and improving the robustness of neural network models.
翻訳日:2022-07-20 13:07:35 公開日:2022-07-17
# SPDマニフォールド上の生理・行動信号の融合とストレス・痛み検出への応用

Fusion of Physiological and Behavioural Signals on SPD Manifolds with Application to Stress and Pain Detection ( http://arxiv.org/abs/2207.08811v1 )

ライセンス: Link先を確認
Yujin WU, Mohamed Daoudi, Ali Amad, Laurent Sparrow, Fabien D'Hondt(参考訳) 既存のマルチモーダルストレス/ページ認識アプローチは一般的に、異なるモーダリティから独立して特徴を抽出するため、クロスモーダリティ相関を無視する。 本稿では,対称正定値行列(spd)を共分散とクロス共分散による生理的・行動的信号の相関関係を組み込んだ多様応力・ペイント検出のための新しい幾何学的枠組みを提案する。 spd行列のリーマン多様体の非線形性を考えると、よく知られた機械学習技術はこれらの行列の分類には適していない。 したがって、lstmベースのネットワークを分類に適用可能な接空間において、導出されたspd行列列をベクトル列にマッピングするために接空間マッピング法が適用される。 提案したフレームワークは2つの公開マルチモーダルデータセットで評価され、ストレスおよび痛み検出タスクの最先端の結果が得られた。

Existing multimodal stress/pain recognition approaches generally extract features from different modalities independently and thus ignore cross-modality correlations. This paper proposes a novel geometric framework for multimodal stress/pain detection utilizing Symmetric Positive Definite (SPD) matrices as a representation that incorporates the correlation relationship of physiological and behavioural signals from covariance and cross-covariance. Considering the non-linearity of the Riemannian manifold of SPD matrices, well-known machine learning techniques are not suited to classify these matrices. Therefore, a tangent space mapping method is adopted to map the derived SPD matrix sequences to the vector sequences in the tangent space where the LSTM-based network can be applied for classification. The proposed framework has been evaluated on two public multimodal datasets, achieving both the state-of-the-art results for stress and pain detection tasks.
翻訳日:2022-07-20 13:07:10 公開日:2022-07-17
# 生存のための強化学習 : 重症患者に対する臨床的動機付け法

Reinforcement Learning For Survival: A Clinically Motivated Method For Critically Ill Patients ( http://arxiv.org/abs/2207.08040v1 )

ライセンス: Link先を確認
Thesath Nanayakkara(参考訳) 重症患者に対する最適な治療戦略を観察データから直接学ぶために、rlと確率的制御法を活用することには、かなりの関心が寄せられている。 しかし、制御目的と標準RL目標に対する最高の報酬選択には、大きな曖昧さがある。 本研究は,本研究の目的である重症心疾患患者に対する臨床的動機付け制御目標を提案する。 さらに,理論的な結果を示し,任意の値に基づくdeep rl法と並行して使用できる実用的なdeep rlアルゴリズムに適用する。 我々は,大規模な敗血症コホートを用いて実験を行い,臨床知識と一致した結果が得られることを示した。

There has been considerable interest in leveraging RL and stochastic control methods to learn optimal treatment strategies for critically ill patients, directly from observational data. However, there is significant ambiguity on the control objective and on the best reward choice for the standard RL objective. In this work, we propose a clinically motivated control objective for critically ill patients, for which the value functions have a simple medical interpretation. Further, we present theoretical results and adapt our method to a practical Deep RL algorithm, which can be used alongside any value based Deep RL method. We experiment on a large sepsis cohort and show that our method produces results consistent with clinical knowledge.
翻訳日:2022-07-20 07:49:41 公開日:2022-07-17
# SPIRAL:非凸有限和最小化のための超線形収束インクリメンタル近似アルゴリズム

SPIRAL: A Superlinearly Convergent Incremental Proximal Algorithm for Nonconvex Finite Sum Minimization ( http://arxiv.org/abs/2207.08195v1 )

ライセンス: Link先を確認
Pourya Behmandpoor, Puya Latafat, Andreas Themelis, Marc Moonen, and Panagiotis Patrinos(参考訳) 相対滑らか性仮定の下で、非凸正規化有限和問題を解くために、SuPerlinearly convergent Incremental pRoximal algorithm を導入する。 SVRGとSARAHの精神では、SPIRALの各イテレーションは内ループと外ループで構成されている。 インクリメンタルとフル(近位)の勾配更新とライン検索を組み合わせる。 準ニュートン方向を用いる場合、超線型収束は極限点における穏やかな仮定の下で達成される。 さらに重要なことに、linesearchのおかげで、グローバル収束が保証され、単位ステップ化は常に受け入れられる。 異なる凸,非凸,非Lipschitz微分可能問題のシミュレーション結果から,我々のアルゴリズムと適応的変種が最先端技術と競合していることが分かる。

We introduce SPIRAL, a SuPerlinearly convergent Incremental pRoximal ALgorithm, for solving nonconvex regularized finite sum problems under a relative smoothness assumption. In the spirit of SVRG and SARAH, each iteration of SPIRAL consists of an inner and an outer loop. It combines incremental and full (proximal) gradient updates with a linesearch. It is shown that when using quasi-Newton directions, superlinear convergence is attained under mild assumptions at the limit points. More importantly, thanks to said linesearch, global convergence is ensured while it is shown that unit stepsize will be eventually always accepted. Simulation results on different convex, nonconvex, and non-Lipschitz differentiable problems show that our algorithm as well as its adaptive variant are competitive to the state of the art.
翻訳日:2022-07-20 07:48:37 公開日:2022-07-17
# 動作条件付きオンデマンドモーション生成

Action-conditioned On-demand Motion Generation ( http://arxiv.org/abs/2207.08164v1 )

ライセンス: Link先を確認
Qiujing Lu, Yipeng Zhang, Mingjian Lu, Vwani Roychowdhury(参考訳) そこで本研究では,アクションタイプのみを条件としたリアルかつ多種多様な3次元人間の動作系列を生成するための新しいフレームワーク,On-Demand Motion Generation (ODMO)を提案する。 ODMOは3つのパブリックデータセット(HumanAct12、UESTC、MoCap)で評価された場合、従来のすべてのモーション評価指標に対するSOTAアプローチよりも改善されている。 さらに, モード発見, 補間, 軌道のカスタマイズなど, フレームワークが備える, 先見の明なカスタマイズ能力を示す定量的評価と定量的指標を提供する。 これらの能力は、そのような運動生成モデルの潜在的な応用のスペクトルを大きく広げる。 新しいオンデマンド生成機能は、エンコーダとデコーダの両方のアーキテクチャの革新によって実現されます。 (i)エンコーダ:低次元の潜在空間における対比学習を利用して、異なるアクションタイプの符号が異なるグループを形成するだけでなく、アクションタイプ内で類似した固有パターン(モーションスタイル)の符号が集まり、容易に発見できる動きシーケンスの階層的埋め込みを作成する。 (ii)デコーダ:まず動きの軌跡を再構築し、次に動きのシーケンス全体を再構築する階層的デコーダ戦略を使用する。 このようなアーキテクチャは効果的な軌道制御を可能にする。 私たちのコードはgithubページでリリースされています。 https://github.com/roychowdhuryresearch/odmo

We propose a novel framework, On-Demand MOtion Generation (ODMO), for generating realistic and diverse long-term 3D human motion sequences conditioned only on action types with an additional capability of customization. ODMO shows improvements over SOTA approaches on all traditional motion evaluation metrics when evaluated on three public datasets (HumanAct12, UESTC, and MoCap). Furthermore, we provide both qualitative evaluations and quantitative metrics demonstrating several first-known customization capabilities afforded by our framework, including mode discovery, interpolation, and trajectory customization. These capabilities significantly widen the spectrum of potential applications of such motion generation models. The novel on-demand generative capabilities are enabled by innovations in both the encoder and decoder architectures: (i) Encoder: Utilizing contrastive learning in low-dimensional latent space to create a hierarchical embedding of motion sequences, where not only the codes of different action types form different groups, but within an action type, codes of similar inherent patterns (motion styles) cluster together, making them readily discoverable; (ii) Decoder: Using a hierarchical decoding strategy where the motion trajectory is reconstructed first and then used to reconstruct the whole motion sequence. Such an architecture enables effective trajectory control. Our code is released on the Github page: https://github.com/roychowdhuryresearch/ODMO
翻訳日:2022-07-20 07:39:36 公開日:2022-07-17
# エンド・ツー・エンド音声言語理解:低資源環境における音声コマンドタスクの性能分析

End-to-End Spoken Language Understanding: Performance analyses of a voice command task in a low resource setting ( http://arxiv.org/abs/2207.08179v1 )

ライセンス: Link先を確認
Thierry Desot, Fran\c{c}ois Portet, Michel Vacher(参考訳) 音声言語理解(SLU)は、ほとんどの人間と機械の相互作用システムにおける中核的なタスクである。 スマートホーム、スマートフォン、スマートスピーカーの出現により、SLUは業界にとって重要な技術になりつつある。 古典的なsluアプローチでは、自動音声認識(asr)モジュールが、自然言語理解(nlu)モジュールが意味情報を抽出するテキスト表現に音声信号を書き込む。 近年,Deep Neural Networks をベースとした End-to-End SLU (E2E SLU) は,ASR と NLU の同時最適化の恩恵を受け,パイプラインアーキテクチャのエラー効果のカスケードを制限した。 しかし、E2Eモデルが音声入力から概念や意図を予測するために使用する言語特性についてはほとんど分かっていない。 本稿では,SLUタスクの実行にE2Eモデルが使用する信号の特徴と他の言語特性を同定する。 この研究は、非英語(ここではフランス語)の音声コマンドを処理するスマートホームのアプリケーションドメインで行われた。 その結果、優れたE2E SLU性能は必ずしも完全なASR機能を必要としないことがわかった。 さらに,パイプラインモデルと比較して背景雑音や構文変化を扱う上で,E2Eモデルが優れていることを示す。 最後に,E2Eモデルでは入力信号のピッチ情報を用いて音声コマンドの概念を識別する。 本稿では,音声処理におけるE2Eモデルをさらに分析するためのバネボードについて概説する。

Spoken Language Understanding (SLU) is a core task in most human-machine interaction systems. With the emergence of smart homes, smart phones and smart speakers, SLU has become a key technology for the industry. In a classical SLU approach, an Automatic Speech Recognition (ASR) module transcribes the speech signal into a textual representation from which a Natural Language Understanding (NLU) module extracts semantic information. Recently End-to-End SLU (E2E SLU) based on Deep Neural Networks has gained momentum since it benefits from the joint optimization of the ASR and the NLU parts, hence limiting the cascade of error effect of the pipeline architecture. However, little is known about the actual linguistic properties used by E2E models to predict concepts and intents from speech input. In this paper, we present a study identifying the signal features and other linguistic properties used by an E2E model to perform the SLU task. The study is carried out in the application domain of a smart home that has to handle non-English (here French) voice commands. The results show that a good E2E SLU performance does not always require a perfect ASR capability. Furthermore, the results show the superior capabilities of the E2E model in handling background noise and syntactic variation compared to the pipeline model. Finally, a finer-grained analysis suggests that the E2E model uses the pitch information of the input signal to identify voice command concepts. The results and methodology outlined in this paper provide a springboard for further analyses of E2E models in speech processing.
翻訳日:2022-07-20 07:38:26 公開日:2022-07-17
# fashionvil: ファッション中心のビジョンと言語表現学習

FashionViL: Fashion-Focused Vision-and-Language Representation Learning ( http://arxiv.org/abs/2207.08150v1 )

ライセンス: Link先を確認
Xiao Han, Licheng Yu, Xiatian Zhu, Li Zhang, Yi-Zhe Song, Tao Xiang(参考訳) 表現学習のための大規模ビジョン・アンド・ランゲージ(V+L)事前学習は、下流のV+Lタスクの強化に有効であることが証明されている。 しかし、ファッション領域に関しては、既存のV+Lメソッドは、ファッションV+Lデータと下流タスクの両方のユニークな特徴を見落としているため、不十分である。 本研究ではファッション中心のV+L表現学習フレームワークFashionViLを提案する。 特に2つの本質的な属性とファッションV+Lデータを活用するために設計された、2つの新しいファッション特化事前学習タスクを含んでいる。 まず、v+lデータポイントが1つの画像テキストペアのみを含む他のドメインとは対照的に、ファッションドメインには複数のイメージが存在する可能性がある。 そこで本研究では,画像の視覚的表現を他の画像+テキストの構成的マルチモーダル表現に近づける多視点コントラスト学習タスクを提案する。 第二に、ファッションテキスト(例:製品記述)は、しばしば豊富なきめ細かい概念(属性/名詞句)を含んでいる。 これを利用するため、疑似属性分類タスクを導入し、同じ概念の学習されたユニモーダル(視覚/テキスト)表現に隣接することを奨励する。 さらに、ファッションV+Lタスクは、共通の1ストリームまたは2ストリームアーキテクチャ(例えば、テキスト誘導画像検索)に準拠していないタスクを独自に含む。 そこで本研究では,任意の下流タスクに柔軟に適応できるように,モダリティに依存しないトランスフォーマで構成されるフレキシブルで汎用的なV+Lモデルアーキテクチャを提案する。 大規模な実験により、FashionViLは5つの下流タスクにまたがって新しい最先端の技術を達成していることがわかった。 コードはhttps://github.com/brandonhanx/mmfで入手できる。

Large-scale Vision-and-Language (V+L) pre-training for representation learning has proven to be effective in boosting various downstream V+L tasks. However, when it comes to the fashion domain, existing V+L methods are inadequate as they overlook the unique characteristics of both the fashion V+L data and downstream tasks. In this work, we propose a novel fashion-focused V+L representation learning framework, dubbed as FashionViL. It contains two novel fashion-specific pre-training tasks designed particularly to exploit two intrinsic attributes with fashion V+L data. First, in contrast to other domains where a V+L data point contains only a single image-text pair, there could be multiple images in the fashion domain. We thus propose a Multi-View Contrastive Learning task for pulling closer the visual representation of one image to the compositional multimodal representation of another image+text. Second, fashion text (e.g., product description) often contains rich fine-grained concepts (attributes/noun phrases). To exploit this, a Pseudo-Attributes Classification task is introduced to encourage the learned unimodal (visual/textual) representations of the same concept to be adjacent. Further, fashion V+L tasks uniquely include ones that do not conform to the common one-stream or two-stream architectures (e.g., text-guided image retrieval). We thus propose a flexible, versatile V+L model architecture consisting of a modality-agnostic Transformer so that it can be flexibly adapted to any downstream tasks. Extensive experiments show that our FashionViL achieves a new state of the art across five downstream tasks. Code is available at https://github.com/BrandonHanx/mmf.
翻訳日:2022-07-20 07:32:15 公開日:2022-07-17
# CULT:典型的環境検出による連続的教師なし学習

CULT: Continual Unsupervised Learning with Typicality-Based Environment Detection ( http://arxiv.org/abs/2207.08309v1 )

ライセンス: Link先を確認
Oliver Daniels-Koch(参考訳) 変分自動エンコーダを用いた連続的教師なし学習のためのCULT(Continual Unsupervised Representation Learning with typicality-Based Environment Detection)を提案する。 CULTは、VAEの潜伏空間における単純な典型的な指標を用いて、生成的再生と補助的環境分類器と共に、教師なし表現学習における破滅的な忘れ込みを制限するために使用される環境の分布シフトを検出する。 我々の実験では、CULTはベースラインの非教師なし学習アプローチよりも大幅に優れています。 この論文のコードはこちら。 https://github.com/oliveradk/cult。

We introduce CULT (Continual Unsupervised Representation Learning with Typicality-Based Environment Detection), a new algorithm for continual unsupervised learning with variational auto-encoders. CULT uses a simple typicality metric in the latent space of a VAE to detect distributional shifts in the environment, which is used in conjunction with generative replay and an auxiliary environmental classifier to limit catastrophic forgetting in unsupervised representation learning. In our experiments, CULT significantly outperforms baseline continual unsupervised learning approaches. Code for this paper can be found here: https://github.com/oliveradk/cult
翻訳日:2022-07-20 07:31:43 公開日:2022-07-17
# 部分領域適応における分散アライメントのための選択投票戦略と逆学習の結合

Coupling Adversarial Learning with Selective Voting Strategy for Distribution Alignment in Partial Domain Adaptation ( http://arxiv.org/abs/2207.08145v1 )

ライセンス: Link先を確認
Sandipan Choudhuri, Hemanth Venkateswara, Arunabha Sen(参考訳) 標準的な閉集合ドメイン適応タスクとは対照的に、部分領域適応設定は同じラベルセットの仮定を緩和することで現実的なシナリオに適合する。 しかし、ソースラベルセットがターゲットラベルセットを仮定しているという事実は、関連する知識伝達を阻止し、分類プロセスを誤解させるプライベートソースカテゴリサンプルのトレーニングとして、いくつかの追加の障害をもたらす。 これらの問題を緩和するため,クラス重要重量推定に不可欠な高信頼目標試料の戦略的選択機構を考案した。 さらに,コンパクトかつ異なるクラス分布を達成するプロセスと逆の目的を結合することにより,クラス識別的およびドメイン不変な特徴を捉える。 多くのクロスドメイン分類タスクにおける実験結果から,提案手法が既存の手法と同等の精度を発揮する可能性が示唆された。

In contrast to a standard closed-set domain adaptation task, partial domain adaptation setup caters to a realistic scenario by relaxing the identical label set assumption. The fact of source label set subsuming the target label set, however, introduces few additional obstacles as training on private source category samples thwart relevant knowledge transfer and mislead the classification process. To mitigate these issues, we devise a mechanism for strategic selection of highly-confident target samples essential for the estimation of class-importance weights. Furthermore, we capture class-discriminative and domain-invariant features by coupling the process of achieving compact and distinct class distributions with an adversarial objective. Experimental findings over numerous cross-domain classification tasks demonstrate the potential of the proposed technique to deliver superior and comparable accuracy over existing methods.
翻訳日:2022-07-20 07:31:17 公開日:2022-07-17
# パーソナライズされたPCA:共有機能とユニークな機能の分離

Personalized PCA: Decoupling Shared and Unique Features ( http://arxiv.org/abs/2207.08041v1 )

ライセンス: Link先を確認
Naichen Shi and Raed Al Kontar(参考訳) 本稿では,PCAにおける重要な課題である不均一性に取り組む。 異質な傾向を持つ異なるソースからデータを収集し,一貫性を保ちながら収集する場合,各ソースの特徴を維持しながら共有知識を抽出することが重要である。 そこで本研究では,相互直交グローバルおよび局所主成分を用いたパーソナライズPCA(PerPCA)を提案する。 穏やかな条件下では,共分散行列が著しく異なる場合でも,一意的特徴と共有特徴の両方を制約付き最適化問題によって同定し,復元できることを示す。 また,分散Stiefel勾配勾配から着想を得た完全フェデレーションアルゴリズムを設計し,この問題を解決する。 このアルゴリズムは直交性の制約を扱うために一般化された引き算と呼ばれる新しい演算群を導入し、ソース間で共有するグローバルpcのみを必要とする。 適切な仮定の下でアルゴリズムの線形収束を証明する。 総合的な数値実験は、不均一なデータセットからの特徴抽出と予測におけるPerPCAの優れた性能を強調している。 異種データセットから共有とユニークな機能を分離するための体系的なアプローチとして、PerPCAはビデオセグメンテーション、トピック抽出、分散クラスタリングなど、いくつかのタスクにおけるアプリケーションを見つける。

In this paper, we tackle a significant challenge in PCA: heterogeneity. When data are collected from different sources with heterogeneous trends while still sharing some congruency, it is critical to extract shared knowledge while retaining unique features of each source. To this end, we propose personalized PCA (PerPCA), which uses mutually orthogonal global and local principal components to encode both unique and shared features. We show that, under mild conditions, both unique and shared features can be identified and recovered by a constrained optimization problem, even if the covariance matrices are immensely different. Also, we design a fully federated algorithm inspired by distributed Stiefel gradient descent to solve the problem. The algorithm introduces a new group of operations called generalized retractions to handle orthogonality constraints, and only requires global PCs to be shared across sources. We prove the linear convergence of the algorithm under suitable assumptions. Comprehensive numerical experiments highlight PerPCA's superior performance in feature extraction and prediction from heterogeneous datasets. As a systematic approach to decouple shared and unique features from heterogeneous datasets, PerPCA finds applications in several tasks including video segmentation, topic extraction, and distributed clustering.
翻訳日:2022-07-20 07:26:18 公開日:2022-07-17
# 連続画像修正のためのニューラルカラー演算子

Neural Color Operators for Sequential Image Retouching ( http://arxiv.org/abs/2207.08080v1 )

ライセンス: Link先を確認
Yili Wang, Xin Li, Kun Xu, Dongliang He, Qi Zhang, Fu Li, Errui Ding(参考訳) 本稿では,新たに導入された学習可能なニューラルカラーオペレータのシーケンスとして,リタッチ処理をモデル化し,新しい画像リタッチ法を提案する。 ニューラルカラー演算子は、従来のカラー演算子の振舞いを模倣し、その強度をスカラーで制御しながらピクセルワイズ色変換を学ぶ。 色作用素の同型性を反映するため、同変写像を用い、非線型色変換を高次元空間におけるはるかに単純な変換(すなわち変換)にマッピングするエンコーダ・デコーダ構造を採用する。 グローバル画像統計解析により、cnnベースの強度予測器を用いて各ニューラルカラーオペレータのスカラー強度を予測する。 全体的に、我々の方法は比較的軽量であり、柔軟な制御を提供する。 公開データセットに対する実験とユーザスタディにより,本手法は定量的測定と視覚的品質の両方において,SOTA法と比較して常に最良の結果が得られることが示された。 コードとデータは公開される予定だ。

We propose a novel image retouching method by modeling the retouching process as performing a sequence of newly introduced trainable neural color operators. The neural color operator mimics the behavior of traditional color operators and learns pixelwise color transformation while its strength is controlled by a scalar. To reflect the homomorphism property of color operators, we employ equivariant mapping and adopt an encoder-decoder structure which maps the non-linear color transformation to a much simpler transformation (i.e., translation) in a high dimensional space. The scalar strength of each neural color operator is predicted using CNN based strength predictors by analyzing global image statistics. Overall, our method is rather lightweight and offers flexible controls. Experiments and user studies on public datasets show that our method consistently achieves the best results compared with SOTA methods in both quantitative measures and visual qualities. The code and data will be made publicly available.
翻訳日:2022-07-20 07:25:57 公開日:2022-07-17
# ストロークベースオートエンコーダ:効率的なゼロショット漢字認識のための自己教師付き学習者

Stroke-Based Autoencoders: Self-Supervised Learners for Efficient Zero-Shot Chinese Character Recognition ( http://arxiv.org/abs/2207.08191v1 )

ライセンス: Link先を確認
Zongze Chen and Wenxia Yang and Xin Li(参考訳) 漢字は形態的・意味的情報を豊富に持っているため、意味的に漢字の形態が強化されることが注目されている。 従来の方法では,グローバルとローカルの両方の情報を同時に取得できない漢字画像から直接情報を抽出することを目的としていた。 本稿では,漢字の高度形態を自己教師方式でモデル化する,ストロークベースオートエンコーダ(SAE)を開発した。 その正準文字順に従って、まず、漢字を一定の文字順で一連のストローク画像として表現し、その後、このストローク画像列を再構築するために、我々のsaeモデルを訓練する。 この事前訓練されたSAEモデルは、トレーニングセットにストロークやラジカルが現れる限り、未知文字のストローク画像シリーズを予測することができる。 我々は,異なる形態のストローク画像に基づいて2つの対照的なSAEアーキテクチャを設計した。 手書き漢字のゼロショット認識のための既存のストローク法を微調整し、その形態的特徴から中国語単語の埋め込みを豊かにする。 実験の結果,SAEアーキテクチャは,事前学習後,ゼロショット認識において既存の手法よりも優れており,その形態的・意味的な情報によって漢字の表現が向上していることがわかった。

Chinese characters carry a wealth of morphological and semantic information; therefore, the semantic enhancement of the morphology of Chinese characters has drawn significant attention. The previous methods were intended to directly extract information from a whole Chinese character image, which usually cannot capture both global and local information simultaneously. In this paper, we develop a stroke-based autoencoder(SAE), to model the sophisticated morphology of Chinese characters with the self-supervised method. Following its canonical writing order, we first represent a Chinese character as a series of stroke images with a fixed writing order, and then our SAE model is trained to reconstruct this stroke image sequence. This pre-trained SAE model can predict the stroke image series for unseen characters, as long as their strokes or radicals appeared in the training set. We have designed two contrasting SAE architectures on different forms of stroke images. One is fine-tuned on existing stroke-based method for zero-shot recognition of handwritten Chinese characters, and the other is applied to enrich the Chinese word embeddings from their morphological features. The experimental results validate that after pre-training, our SAE architecture outperforms other existing methods in zero-shot recognition and enhances the representation of Chinese characters with their abundant morphological and semantic information.
翻訳日:2022-07-20 07:21:28 公開日:2022-07-17
# 手書き文字認識のための2次元自己組織化ONNモデル

2D Self-Organized ONN Model For Handwritten Text Recognition ( http://arxiv.org/abs/2207.08139v1 )

ライセンス: Link先を確認
Hanadi Hassen Mohammed, Junaid Malik, Somaya Al-Madeed, and Serkan Kiranyaz(参考訳) deep convolutional neural networks(cnns)は最近、最先端の手書きテキスト認識(htr)性能に達した。 しかし、近年の研究では、単純な(線形)ニューロンモデルを持つ均質ネットワークであるため、典型的なcnnの学習性能は限られていることが示されている。 非線型ニューロンを組み込んだ異種ネットワーク構造により、最近この欠点に対処するためにオペレーショナルニューラルネットワーク(ONN)が提案されている。 自己ONN(Self-ONNs)は、テイラー近似を用いて任意の非線形関数を生成できる生成ニューロンモデルを持つONNの自己組織化変異である。 本研究では,HTRの最先端性能向上のために,新しいネットワークモデルの中心となる2次元自己組織型ONN(Self-ONN)を提案する。 また,近年,文章スタイルの変化にうまく取り組むことが実証された変形可能な畳み込みを本研究で活用した。 iam english dataset と hadara80p arabic dataset における結果から,自己オンンの操作層を持つ提案モデルでは,文字誤り率 (cer) と単語誤り率 (wer) が有意に向上した。 対応するCNNと比較して、Self-ONNはCERとWERを1.2%、HADARA80Pは3.4%、IAMデータセットは0.199%、WERは1.244%削減する。 ベンチマークiamによる結果から,提案手法は,近年の深層cnnモデルに比較して有意な差を示し,一方,変形可能な畳み込みを伴うセルフonnの利用は例外的な結果を示している。

Deep Convolutional Neural Networks (CNNs) have recently reached state-of-the-art Handwritten Text Recognition (HTR) performance. However, recent research has shown that typical CNNs' learning performance is limited since they are homogeneous networks with a simple (linear) neuron model. With their heterogeneous network structure incorporating non-linear neurons, Operational Neural Networks (ONNs) have recently been proposed to address this drawback. Self-ONNs are self-organized variations of ONNs with the generative neuron model that can generate any non-linear function using the Taylor approximation. In this study, in order to improve the state-of-the-art performance level in HTR, the 2D Self-organized ONNs (Self-ONNs) in the core of a novel network model are proposed. Moreover, deformable convolutions, which have recently been demonstrated to tackle variations in the writing styles better, are utilized in this study. The results over the IAM English dataset and HADARA80P Arabic dataset show that the proposed model with the operational layers of Self-ONNs significantly improves Character Error Rate (CER) and Word Error Rate (WER). Compared with its counterpart CNNs, Self-ONNs reduce CER and WER by 1.2% and 3.4 % in the HADARA80P and 0.199% and 1.244% in the IAM dataset. The results over the benchmark IAM demonstrate that the proposed model with the operational layers of Self-ONNs outperforms recent deep CNN models by a significant margin while the use of Self-ONNs with deformable convolutions demonstrates exceptional results.
翻訳日:2022-07-20 07:21:06 公開日:2022-07-17
# 簡易画像変換によるimagenetトレーニングモデルの性能劣化

Performance degradation of ImageNet trained models by simple image transformations ( http://arxiv.org/abs/2207.08079v1 )

ライセンス: Link先を確認
Harsh Maheshwari(参考訳) ImageNetで訓練されたPyTorchモデルは、ほとんどのコンピュータビジョンタスクで直接または初期化するために市販のモデルとして一般的に好まれる。 本稿では,これらの畳み込みおよび変圧器モデルの代表セットを,水平シフト,垂直シフト,スケーリング,回転,ガウスノイズの存在,カットアウト,水平フリップ,垂直フリップなど,多くの簡単な画像変換の下でテストし,その変換による性能低下を報告する。 10{\deg} の回転や20%のズームインといった単純な変換であっても、resnet152 のようなモデルのtop-1精度を1%以上低下させることができる。 コードはhttps://github.com/harshm121/imagenet-transformation-degradationで入手できる。

ImageNet trained PyTorch models are generally preferred as the off-the-shelf models for direct use or for initialisation in most computer vision tasks. In this paper, we simply test a representative set of these convolution and transformer based models under many simple image transformations like horizontal shifting, vertical shifting, scaling, rotation, presence of Gaussian noise, cutout, horizontal flip and vertical flip and report the performance drop caused by such transformations. We find that even simple transformations like rotating the image by 10{\deg} or zooming in by 20% can reduce the top-1 accuracy of models like ResNet152 by 1%+. The code is available at https://github.com/harshm121/imagenet-transformation-degradation.
翻訳日:2022-07-20 07:20:26 公開日:2022-07-17
# 普及型コンピューティングにおける連合学習と破滅的忘れ方:harドメインでの実証

Federated Learning and catastrophic forgetting in pervasive computing: demonstration in HAR domain ( http://arxiv.org/abs/2207.08180v1 )

ライセンス: Link先を確認
Anastasiia Usmanova, Fran\c{c}ois Portet, Philippe Lalanda, German Vega(参考訳) フェデレーション学習は、ローカルデバイスの使用を促進する新しい機械学習パラダイムとして導入された。 サーバレベルでは、flは分散クライアントでローカルに学習したモデルを定期的に集約し、より一般的なモデルを得る。 これにより、ネットワークを介してプライベートデータが送信されず、通信コストが削減される。 しかし、現在のソリューションは、サーバが送信するモデルを微調整するために、クライアント側で大量のストアドデータの可用性に依存している。 このような設定は、データストレージを低く保たなければならず、データ特性(分散)が劇的に変化するモバイル普及コンピューティングでは現実的ではない。 この可変性を考慮すると、クライアントが定期的に収集したデータを使って、受信したモデルを段階的に適応させる方法がある。 しかし、このようなナイーブなアプローチは、破滅的な忘れ方というよく知られた問題にクライアントをさらけ出す。 本研究の目的は,スマートフォン上での人体行動認識におけるこの問題を実証することである。

Federated Learning has been introduced as a new machine learning paradigm enhancing the use of local devices. At a server level, FL regularly aggregates models learned locally on distributed clients to obtain a more general model. In this way, no private data is sent over the network, and the communication cost is reduced. However, current solutions rely on the availability of large amounts of stored data at the client side in order to fine-tune the models sent by the server. Such setting is not realistic in mobile pervasive computing where data storage must be kept low and data characteristic (distribution) can change dramatically. To account for this variability, a solution is to use the data regularly collected by the client to progressively adapt the received model. But such naive approach exposes clients to the well-known problem of catastrophic forgetting. The purpose of this paper is to demonstrate this problem in the mobile human activity recognition context on smartphones.
翻訳日:2022-07-20 07:19:32 公開日:2022-07-17
# stackelbergゲームを用いた逆ディープラーニングの最適逆精度の実現

Achieve Optimal Adversarial Accuracy for Adversarial Deep Learning using Stackelberg Game ( http://arxiv.org/abs/2207.08137v1 )

ライセンス: Link先を確認
Xiao-Shan Gao, Shuang Liu, Lijia Yu(参考訳) 敵対的深層学習は、敵対的攻撃に対して堅牢なDNNを訓練することであり、これはディープラーニングに関する主要な研究の1つである。 ゲーム理論は、最適ロバスト性を持つ分類器の存在や、与えられた分類器のクラスに対する最適対向サンプルの存在など、対向的深層学習に関するいくつかの基本的な疑問に答えるために用いられる。 これまでのほとんどの研究において、逆深層学習は同時ゲームとして定式化され、戦略空間はナッシュ均衡が存在するための確率分布であると仮定された。 しかし、この仮定は現実的な状況には当てはまらない。 本稿では,逆深層学習を逐次ゲームとして定式化することにより,分類器が与えられた構造を持つDNNである場合の基本的問題に対する回答を与える。 これらのゲームに対するstackelberg equilibriaの存在が証明されている。 さらに、平衡DNNは、カルリーニ=ワグナーのマージン損失を使用する場合、同じ構造を持つ全てのDNNの中で最大の逆精度を持つことを示した。 対戦型深層学習における堅牢性と精度のトレードオフについても,ゲーム理論の観点から検討した。

Adversarial deep learning is to train robust DNNs against adversarial attacks, which is one of the major research focuses of deep learning. Game theory has been used to answer some of the basic questions about adversarial deep learning such as the existence of a classifier with optimal robustness and the existence of optimal adversarial samples for a given class of classifiers. In most previous work, adversarial deep learning was formulated as a simultaneous game and the strategy spaces are assumed to be certain probability distributions in order for the Nash equilibrium to exist. But, this assumption is not applicable to the practical situation. In this paper, we give answers to these basic questions for the practical case where the classifiers are DNNs with a given structure, by formulating the adversarial deep learning as sequential games. The existence of Stackelberg equilibria for these games are proved. Furthermore, it is shown that the equilibrium DNN has the largest adversarial accuracy among all DNNs with the same structure, when Carlini-Wagner's margin loss is used. Trade-off between robustness and accuracy in adversarial deep learning is also studied from game theoretical aspect.
翻訳日:2022-07-20 07:19:17 公開日:2022-07-17
# ストリームラマーグラフのモデル非依存・横説明法

Model-Agnostic and Diverse Explanations for Streaming Rumour Graphs ( http://arxiv.org/abs/2207.08098v1 )

ライセンス: Link先を確認
Thanh Tam Nguyen and Thanh Cong Phan and Minh Hieu Nguyen and Matthias Weidlich and Hongzhi Yin and Jun Jo and Quoc Viet Hung Nguyen(参考訳) ソーシャルメディア上での噂の伝播は社会にとって重要な脅威であり、近年では様々な発見手法が提案されている。 しかし、既存の研究は「emph{what} entity」は噂を構成するが、「emph{why}」を理解するためのサポートはほとんどない。 これにより、検出された噂の効果的評価と対策の設計が防止される。 本研究では, 過去に検出された関連する噂の例から, 検出された噂の説明を与えることができると論じる。 類似した噂の多種多様なセットは、ユーザが噂の検出を統制する特性を一般化するのに役立つ。 ソーシャルメディアにおける噂の拡散は、一般的に特徴付グラフを用いてモデル化されているため、噂グラフが与えられた場合、過去の噂からk$の類似した多様なサブグラフを抽出するクエリバイサンプルアプローチを提案する。 課題は、全ての計算がグラフ間の類似性の高速な評価を必要とすることである。 ストリーミング環境でのアプローチを効率的かつ適応的に実現するために,新しいグラフ表現学習手法を提案し,実装に関する考察を報告する。 評価実験の結果,提案手法は様々な噂伝搬行動に有意義な説明を与える上で,基礎的手法よりも優れていることがわかった。

The propagation of rumours on social media poses an important threat to societies, so that various techniques for rumour detection have been proposed recently. Yet, existing work focuses on \emph{what} entities constitute a rumour, but provides little support to understand \emph{why} the entities have been classified as such. This prevents an effective evaluation of the detected rumours as well as the design of countermeasures. In this work, we argue that explanations for detected rumours may be given in terms of examples of related rumours detected in the past. A diverse set of similar rumours helps users to generalize, i.e., to understand the properties that govern the detection of rumours. Since the spread of rumours in social media is commonly modelled using feature-annotated graphs, we propose a query-by-example approach that, given a rumour graph, extracts the $k$ most similar and diverse subgraphs from past rumours. The challenge is that all of the computations require fast assessment of similarities between graphs. To achieve an efficient and adaptive realization of the approach in a streaming setting, we present a novel graph representation learning technique and report on implementation considerations. Our evaluation experiments show that our approach outperforms baseline techniques in delivering meaningful explanations for various rumour propagation behaviours.
翻訳日:2022-07-20 07:18:57 公開日:2022-07-17
# SatMAE: 時間・マルチスペクトル衛星画像のための事前学習トランス

SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery ( http://arxiv.org/abs/2207.08051v1 )

ライセンス: Link先を確認
Yezhen Cong, Samar Khanna, Chenlin Meng, Patrick Liu, Erik Rozi, Yutong He, Marshall Burke, David B. Lobell, Stefano Ermon(参考訳) 大規模視覚モデルのための教師なし事前学習手法は、下流の教師なしタスクのパフォーマンスを向上させることが示されている。 衛星画像に類似した技術を開発することは、ラベルのないデータが豊富であり、固有の時間的および多スペクトル構造が既存の事前訓練戦略をさらに改善するための道筋を提供するため、重要な機会をもたらす。 本稿では,Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEを提案する。 時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。 また,スペクトル位置符号化の異なる帯域群としてマルチスペクトルデータを符号化することが有用であることを示す。 提案手法は,ベンチマークデータセット上での教師付き学習性能(最大$\uparrow$ 7\%)と,土地被覆分類(最大$\uparrow$ 14\%)やセマンティックセグメンテーションを含む下流リモートセンシングタスクでの学習性能(最大$\uparrow$ 14\%)の両面で,従来の最先端技術よりも強い改善をもたらす。

Unsupervised pre-training methods for large vision models have shown to enhance performance on downstream supervised tasks. Developing similar techniques for satellite imagery presents significant opportunities as unlabelled data is plentiful and the inherent temporal and multi-spectral structure provides avenues to further improve existing pre-training strategies. In this paper, we present SatMAE, a pre-training framework for temporal or multi-spectral satellite imagery based on Masked Autoencoder (MAE). To leverage temporal information, we include a temporal embedding along with independently masking image patches across time. In addition, we demonstrate that encoding multi-spectral data as groups of bands with distinct spectral positional encodings is beneficial. Our approach yields strong improvements over previous state-of-the-art techniques, both in terms of supervised learning performance on benchmark datasets (up to $\uparrow$ 7\%), and transfer learning performance on downstream remote sensing tasks, including land cover classification (up to $\uparrow$ 14\%) and semantic segmentation.
翻訳日:2022-07-20 07:14:44 公開日:2022-07-17
# 不均一環境におけるフェデレーション自己監督学習:HARに対するベースラインアプローチの限界

Federated Self-Supervised Learning in Heterogeneous Settings: Limits of a Baseline Approach on HAR ( http://arxiv.org/abs/2207.08187v1 )

ライセンス: Link先を確認
Sannara Ek, Romain Rombourg, Fran\c{c}ois Portet, Philippe Lalanda(参考訳) Federated Learningは、独立したデバイス上での分散モデル学習を扱う、新しい機械学習パラダイムである。 連合学習の多くの利点の1つは、トレーニングデータがデバイス(スマートフォンなど)にとどまり、学習モデルのみが集中型サーバと共有されることだ。 教師付き学習の場合、ラベリングはクライアントに委任される。 しかし、このようなラベルの取得は、人間の活動認識など、多くのタスクにおいて、違法に高価でエラーを起こしやすい。 そのため、大量のデータが未公開のまま残されている。 教師付き学習を主に重視する既存の連合学習アプローチのほとんどは、このラベルなしデータの塊をほとんど無視している。 さらに,標準フェデレーション学習アプローチが自己指導型学習に適しているかは不明である。 この問題に対処した数少ない研究は、同種データセットの好ましい状況に限定されている。 本研究は,実環境における半教師付き学習を用いたフェデレーション学習の基準評価のための基礎研究である。 我々は,標準的な軽量オートエンコーダと標準フェデレート平均化が,現実的な異種データセットを用いた人間活動認識の堅牢な表現を学習できないことを示す。 これらの発見は、モバイルデバイスに存在する不均一なラベルのないデータの集団を利用するために、連合的自己教師付き学習をより集中的に研究することを提唱している。

Federated Learning is a new machine learning paradigm dealing with distributed model learning on independent devices. One of the many advantages of federated learning is that training data stay on devices (such as smartphones), and only learned models are shared with a centralized server. In the case of supervised learning, labeling is entrusted to the clients. However, acquiring such labels can be prohibitively expensive and error-prone for many tasks, such as human activity recognition. Hence, a wealth of data remains unlabelled and unexploited. Most existing federated learning approaches that focus mainly on supervised learning have mostly ignored this mass of unlabelled data. Furthermore, it is unclear whether standard federated Learning approaches are suited to self-supervised learning. The few studies that have dealt with the problem have limited themselves to the favorable situation of homogeneous datasets. This work lays the groundwork for a reference evaluation of federated Learning with Semi-Supervised Learning in a realistic setting. We show that standard lightweight autoencoder and standard Federated Averaging fail to learn a robust representation for Human Activity Recognition with several realistic heterogeneous datasets. These findings advocate for a more intensive research effort in Federated Self Supervised Learning to exploit the mass of heterogeneous unlabelled data present on mobile devices.
翻訳日:2022-07-20 07:13:41 公開日:2022-07-17
# 普及型コンピューティングにおける蒸留による連立連続学習

Federated Continual Learning through distillation in pervasive computing ( http://arxiv.org/abs/2207.08181v1 )

ライセンス: Link先を確認
Anastasiia Usmanova, Fran\c{c}ois Portet, Philippe Lalanda, German Vega(参考訳) フェデレーション学習は、ローカルデバイスの使用を促進する新しい機械学習パラダイムとして導入された。 サーバレベルでは、flは分散クライアントでローカルに学習したモデルを定期的に集約し、より一般的なモデルを得る。 現在のソリューションは、サーバが送信するモデルを微調整するために、クライアント側で大量のストアドデータの可用性に依存している。 このような設定は、データストレージを低く保ち、データ特性が劇的に変化するモバイルの普及型コンピューティングでは現実的ではない。 この可変性を考慮すると、クライアントが定期的に収集したデータを使って、受信したモデルを段階的に適応させる方法がある。 しかし、このようなナイーブなアプローチは、破滅的な忘れ方というよく知られた問題にクライアントをさらけ出す。 この問題に対処するために,我々は蒸留を主体とする連立連続学習アプローチを定義した。 当社のアプローチでは,新たなデータの到着時にスクラッチから再トレーニングする必要がなくなり,格納するデータの量を制限することでメモリ使用量を削減する,リソースのより優れた利用が可能になる。 この提案はHAR(Human Activity Recognition)領域で評価されており、破滅的な忘れ込み効果を効果的に減少させることが示されている。

Federated Learning has been introduced as a new machine learning paradigm enhancing the use of local devices. At a server level, FL regularly aggregates models learned locally on distributed clients to obtain a more general model. Current solutions rely on the availability of large amounts of stored data at the client side in order to fine-tune the models sent by the server. Such setting is not realistic in mobile pervasive computing where data storage must be kept low and data characteristic can change dramatically. To account for this variability, a solution is to use the data regularly collected by the client to progressively adapt the received model. But such naive approach exposes clients to the well-known problem of catastrophic forgetting. To address this problem, we have defined a Federated Continual Learning approach which is mainly based on distillation. Our approach allows a better use of resources, eliminating the need to retrain from scratch at the arrival of new data and reducing memory usage by limiting the amount of data to be stored. This proposal has been evaluated in the Human Activity Recognition (HAR) domain and has shown to effectively reduce the catastrophic forgetting effect.
翻訳日:2022-07-20 07:13:20 公開日:2022-07-17
# (参考訳) 分散検出のための簡易なテストタイム法

A Simple Test-Time Method for Out-of-Distribution Detection ( http://arxiv.org/abs/2207.08210v1 )

ライセンス: CC BY 4.0
Ke Fan, Yikai Wang, Qian Yu, Da Li, Yanwei Fu(参考訳) ニューラルネットワークは、これらの画像がオフ・オブ・ディストリビューション(OOD)サンプルである場合でも、入力画像に対して過信予測を生成することが知られている。 これにより、OODサンプルが存在する現実世界のシナリオにおけるニューラルネットワークモデルの適用が制限される。 既存の多くのアプローチは、特徴空間、ロジット空間、勾配空間、画像の生空間などの不規則なパターンを見つけるなど、様々な手段を利用してOODインスタンスを識別する。 一方,本研究では,OOD検出のための簡易なテスト時間線形訓練法を提案する。 実験的に、分布外である入力画像の確率は、ニューラルネットワークが抽出した特徴と驚くほど線形に相関していることがわかった。 具体的に言うと、多くの最先端のOODアルゴリズムは、異なる方法で信頼性を測定するように設計されているが、実際にOODスコアは、主に画像の特徴に線形に関連している。 したがって、ペア画像の特徴から訓練された線形回帰モデルとテスト時のOODスコアを単純に学習することで、テストインスタンスに対してより正確なOOD予測を行うことができる。 さらに,提案手法のオンライン版を提案し,実世界のアプリケーションでより実用的かつ有望な性能を実現する。 注目すべきは、基本OOD検出器として最大ソフトマックス確率を持つCIFAR-10データセットにおいて、FPR95を511.37.%から12.30.%に改善することである。 いくつかのベンチマークデータセットに対する大規模な実験は、OOD検出タスクにおけるETLTの有効性を示している。

Neural networks are known to produce over-confident predictions on input images, even when these images are out-of-distribution (OOD) samples. This limits the applications of neural network models in real-world scenarios, where OOD samples exist. Many existing approaches identify the OOD instances via exploiting various cues, such as finding irregular patterns in the feature space, logits space, gradient space or the raw space of images. In contrast, this paper proposes a simple Test-time Linear Training (ETLT) method for OOD detection. Empirically, we find that the probabilities of input images being out-of-distribution are surprisingly linearly correlated to the features extracted by neural networks. To be specific, many state-of-the-art OOD algorithms, although designed to measure reliability in different ways, actually lead to OOD scores mostly linearly related to their image features. Thus, by simply learning a linear regression model trained from the paired image features and inferred OOD scores at test-time, we can make a more precise OOD prediction for the test instances. We further propose an online variant of the proposed method, which achieves promising performance and is more practical in real-world applications. Remarkably, we improve FPR95 from $51.37\%$ to $12.30\%$ on CIFAR-10 datasets with maximum softmax probability as the base OOD detector. Extensive experiments on several benchmark datasets show the efficacy of ETLT for OOD detection task.
翻訳日:2022-07-20 06:26:57 公開日:2022-07-17
# (参考訳) 流れの正規化のための逆方向と前方方向のKL分岐のより良い推定器

Gradients should stay on Path: Better Estimators of the Reverse- and Forward KL Divergence for Normalizing Flows ( http://arxiv.org/abs/2207.08219v1 )

ライセンス: CC BY 4.0
Lorenz Vaitl, Kim A. Nicoli, Shinichi Nakajima, Pan Kessel(参考訳) 本稿では,任意の非可逆正規化フローに対して,逆と前方のKulback-Leibler分散の経路勾配を推定するアルゴリズムを提案する。 結果として得られる経路勾配推定器は, 実装が容易で, ばらつきが小さく, 訓練の収束が早くなるだけでなく, 通常の全勾配推定器と比較して全体の近似結果が良くなる。 また、経路段階訓練がモード崩壊の影響を受けにくいことも示している。 この結果を踏まえて, 経路勾配推定器が変分推論のための正規化流れを訓練するための新しい標準手法となることを期待する。

We propose an algorithm to estimate the path-gradient of both the reverse and forward Kullback-Leibler divergence for an arbitrary manifestly invertible normalizing flow. The resulting path-gradient estimators are straightforward to implement, have lower variance, and lead not only to faster convergence of training but also to better overall approximation results compared to standard total gradient estimators. We also demonstrate that path-gradient training is less susceptible to mode-collapse. In light of our results, we expect that path-gradient estimators will become the new standard method to train normalizing flows for variational inference.
翻訳日:2022-07-20 06:09:20 公開日:2022-07-17
# (参考訳) Fast-MoCo: CombinatorのパッチによるMomentumベースのコントラスト学習

Fast-MoCo: Boost Momentum-based Contrastive Learning with Combinatorial Patches ( http://arxiv.org/abs/2207.08220v1 )

ライセンス: CC BY 4.0
Yuanzheng Ci, Chen Lin, Lei Bai, Wanli Ouyang(参考訳) コントラストに基づく自己指導型学習手法は近年大きな成功を収めている。 しかし、自己監督には非常に長い訓練エポック(例えばMoCo v3の800エポック)が必要であり、一般の学術コミュニティには受け入れられず、このトピックの開発を妨げている。 この研究は運動量に基づくコントラスト学習フレームワークを再考し、2つの拡張ビューが1つの正のペアだけを生成する非効率性を同定する。 本稿では、2つの拡張ビューから複数の正のペアを構成するために組合せパッチを利用する新しいフレームワークであるFast-MoCoを提案する。 100エポックでトレーニングされたFast-MoCoは、800エポックでトレーニングされたMoCo v3(ResNet-50バックボーン)と同様、73.5%の線形評価精度を達成する。 余剰訓練(200エポック)はさらに75.1%に改善し、これは最先端の手法と同等である。 いくつかの下流タスクにおける実験もfast-mocoの有効性を確認した。

Contrastive-based self-supervised learning methods achieved great success in recent years. However, self-supervision requires extremely long training epochs (e.g., 800 epochs for MoCo v3) to achieve promising results, which is unacceptable for the general academic community and hinders the development of this topic. This work revisits the momentum-based contrastive learning frameworks and identifies the inefficiency in which two augmented views generate only one positive pair. We propose Fast-MoCo - a novel framework that utilizes combinatorial patches to construct multiple positive pairs from two augmented views, which provides abundant supervision signals that bring significant acceleration with neglectable extra computational cost. Fast-MoCo trained with 100 epochs achieves 73.5% linear evaluation accuracy, similar to MoCo v3 (ResNet-50 backbone) trained with 800 epochs. Extra training (200 epochs) further improves the result to 75.1%, which is on par with state-of-the-art methods. Experiments on several downstream tasks also confirm the effectiveness of Fast-MoCo.
翻訳日:2022-07-20 05:46:09 公開日:2022-07-17
# (参考訳) 回復可能な忘れることによる学習

Learning with Recoverable Forgetting ( http://arxiv.org/abs/2207.08224v1 )

ライセンス: CC BY 4.0
Jingwen Ye, Yifang Fu, Jie Song, Xingyi Yang, Songhua Liu, Xin Jin, Mingli Song, Xinchao Wang(参考訳) 生涯学習は、以前獲得した知識を忘れずに一連のタスクを学習することを目的としている。 しかしながら、プライバシや著作権上の理由から、関連するトレーニングデータは生涯正当ではない可能性がある。 例えば、実際のシナリオでは、モデルオーナーは特定のタスクや特定のサンプルの知識を時々有効または無効にしたいかもしれません。 このような知識伝達に対する柔軟な制御は、残念ながら、従来の漸進的あるいは退行的な学習手法では、問題設定レベルでも、ほとんど見過ごされてきた。 本稿では,タスクやサンプル固有の知識の除去と回復を明示的に処理する新しい学習手法であるLearning wIth Recoverable Forgetting(LIRF)について検討する。 具体的には、LIRFは2つの革新的なスキーム、すなわち知識の蓄積と離脱をもたらし、事前訓練されたネットワークからユーザー指定の知識を分離し、必要に応じてそれを注入することができる。 知識蓄積プロセス中は、特定知識を対象ネットワークから抽出して預金モジュールに格納し、対象ネットワークの非感性又は一般知識を保存し、さらに増強する。 知識の引き出しの間、テイクオフの知識がターゲットネットワークに追加される。 デポジットとデポジットのプロセスは、削除データに対する微調整のほんの数エポックしか要求せず、データと時間効率の両立が保証される。 いくつかのデータセットで実験を行い、提案したLIRF戦略が一般化能力を満足させる結果をもたらすことを示す。

Life-long learning aims at learning a sequence of tasks without forgetting the previously acquired knowledge. However, the involved training data may not be life-long legitimate due to privacy or copyright reasons. In practical scenarios, for instance, the model owner may wish to enable or disable the knowledge of specific tasks or specific samples from time to time. Such flexible control over knowledge transfer, unfortunately, has been largely overlooked in previous incremental or decremental learning methods, even at a problem-setup level. In this paper, we explore a novel learning scheme, termed as Learning wIth Recoverable Forgetting (LIRF), that explicitly handles the task- or sample-specific knowledge removal and recovery. Specifically, LIRF brings in two innovative schemes, namely knowledge deposit and withdrawal, which allow for isolating user-designated knowledge from a pre-trained network and injecting it back when necessary. During the knowledge deposit process, the specified knowledge is extracted from the target network and stored in a deposit module, while the insensitive or general knowledge of the target network is preserved and further augmented. During knowledge withdrawal, the taken-off knowledge is added back to the target network. The deposit and withdraw processes only demand for a few epochs of finetuning on the removal data, ensuring both data and time efficiency. We conduct experiments on several datasets, and demonstrate that the proposed LIRF strategy yields encouraging results with gratifying generalization capability.
翻訳日:2022-07-20 05:26:50 公開日:2022-07-17
# (参考訳) qubitsに歌を教える:ミッション不可能?

Teaching Qubits to Sing: Mission Impossible? ( http://arxiv.org/abs/2207.08225v1 )

ライセンス: CC BY 4.0
Eduardo Reck Miranda and Brian N. Siegelwax(参考訳) 本稿では,実例を聴いて新しい曲を歌うことを学習するシステムを提案する。 入力音楽からシークエンシング規則を抽出し、これらの規則を用いて声楽シンセサイザーによって歌われる新しい曲を生成する。 量子回路として音楽構成規則を表現する手法を開発した。 このような音楽的規則は量子ネイティブであり、量子状態の振幅に自然にエンコード可能であると主張する。 その後の事象を発生させるルールを評価するために、システムは各量子回路を動的に構築し、測定する。 本稿では,我々が試行してきた音声合成法について,簡単な議論をした後,実例を通して新しい生成的音楽法を紹介した。 本論文は,システムの創造的可能性を活用することに関する実験と結論を提示する。

This paper introduces a system that learns to sing new tunes by listening to examples. It extracts sequencing rules from input music and uses these rules to generate new tunes, which are sung by a vocal synthesiser. We developed a method to represent rules for musical composition as quantum circuits. We claim that such musical rules are quantum native: they are naturally encodable in the amplitudes of quantum states. To evaluate a rule to generate a subsequent event, the system builds the respective quantum circuit dynamically and measures it. After a brief discussion about the vocal synthesis methods that we have been experimenting with, the paper introduces our novel generative music method through a practical example. The paper shows some experiments and concludes with a discussion about harnessing the creative potential of the system.
翻訳日:2022-07-20 05:11:08 公開日:2022-07-17
# (参考訳) エッジ型産業用インターネットにおける超低遅延通信のための知的決定論的スケジューリング法

An Intelligent Deterministic Scheduling Method for Ultra-Low Latency Communication in Edge Enabled Industrial Internet of Things ( http://arxiv.org/abs/2207.08226v1 )

ライセンス: CC BY 4.0
Yinzhi Lu, Liu Yang, Simon X. Yang, Qiaozhi Hua, Arun Kumar Sangaiah, Tan Guo, Keping Yu(参考訳) エッジを有効にした産業用IoT(Industrial Internet of Things)プラットフォームは、スマート産業の発展を加速するために非常に重要である。 しかし、リアルタイムIIoTアプリケーションの劇的な増加に伴い、迅速な応答時間、低レイテンシ、効率的な帯域幅利用をサポートすることは大きな課題である。 この問題に対処するため、TSN(Time Sensitive Network)が最近研究され、決定論的スケジューリングによる低レイテンシ通信を実現している。 我々の知る限り、スケジューリング性能に大きな影響を与える複数のフローの結合性は、これまで体系的に解析されたことがなかった。 本稿では,まず結合性問題を分析する。 そこで,非衝突理論に基づく決定論的スケジューリング (NDS) 法を提案し,時間に敏感な流れに対する超低遅延通信を実現する。 さらに、帯域幅利用を改善するために、最良の流れに対して動的キュースケジューリング(DQS)手法を提案する。 実験の結果,NDS/DQSは決定論的超低レイテンシサービスを十分にサポートし,帯域幅の有効利用を保証できることがわかった。

Edge enabled Industrial Internet of Things (IIoT) platform is of great significance to accelerate the development of smart industry. However, with the dramatic increase in real-time IIoT applications, it is a great challenge to support fast response time, low latency, and efficient bandwidth utilization. To address this issue, Time Sensitive Network (TSN) is recently researched to realize low latency communication via deterministic scheduling. To the best of our knowledge, the combinability of multiple flows, which can significantly affect the scheduling performance, has never been systematically analyzed before. In this article, we first analyze the combinability problem. Then a non-collision theory based deterministic scheduling (NDS) method is proposed to achieve ultra-low latency communication for the time-sensitive flows. Moreover, to improve bandwidth utilization, a dynamic queue scheduling (DQS) method is presented for the best-effort flows. Experiment results demonstrate that NDS/DQS can well support deterministic ultra-low latency services and guarantee efficient bandwidth utilization.
翻訳日:2022-07-20 05:10:00 公開日:2022-07-17
# (参考訳) 文脈付き単語表現を用いたトロルツイート検出

Troll Tweet Detection Using Contextualized Word Representations ( http://arxiv.org/abs/2207.08230v1 )

ライセンス: CC BY 4.0
Seyhmus Yilmaz and Sultan Zavrak(参考訳) 近年、ソーシャルメディアの意見を操作するために多くのトロルアカウントが出現している。 企業、虐待者、国家が支援するトロルファームは偽アカウントと自動アカウントを使っているため、トロールの検出と根絶はソーシャルネットワーキングプラットフォームにとって重要な問題である。 NLP技術は、Twitterツイートなどのソーシャルネットワーキングテキストからデータを抽出するために使用される。 多くのテキスト処理アプリケーションにおいて、BERTのような単語埋め込み表現法は従来のNLP技術よりも優れており、様々なタスクのソーシャルネットワーキング情報を正確に理解し分類するための斬新なブレークを提供する。 本稿では,9つのディープラーニングに基づくトロルツイート検出アーキテクチャを,BERT,ELMo,GloVeの各単語埋め込みモデルで実装し比較する。 各アーキテクチャを評価するには、精度、リコール、F1スコア、AUC、分類精度を使用する。 実験結果から、BERTモデルを用いたほとんどのアーキテクチャはトロルツイート検出を改善した。 GRU分類器を備えたカスタマイズされたELMoベースのアーキテクチャは、トロルメッセージを検出する最も高いAUCを有する。 提案アーキテクチャは、将来、様々なソーシャルベースのシステムでトロルメッセージを検出することができる。

In recent years, many troll accounts have emerged to manipulate social media opinion. Detecting and eradicating trolling is a critical issue for social-networking platforms because businesses, abusers, and nation-state-sponsored troll farms use false and automated accounts. NLP techniques are used to extract data from social networking text, such as Twitter tweets. In many text processing applications, word embedding representation methods, such as BERT, have performed better than prior NLP techniques, offering novel breaks to precisely comprehend and categorize social-networking information for various tasks. This paper implements and compares nine deep learning-based troll tweet detection architectures, with three models for each BERT, ELMo, and GloVe word embedding model. Precision, recall, F1 score, AUC, and classification accuracy are used to evaluate each architecture. From the experimental results, most architectures using BERT models improved troll tweet detection. A customized ELMo-based architecture with a GRU classifier has the highest AUC for detecting troll messages. The proposed architectures can be used by various social-based systems to detect troll messages in the future.
翻訳日:2022-07-20 04:47:06 公開日:2022-07-17
# (参考訳) 非凸制約と安全強化学習を併用した不確かさを考慮したアフィン系のロバスト動作制御

Robust Action Governor for Uncertain Piecewise Affine Systems with Non-convex Constraints and Safe Reinforcement Learning ( http://arxiv.org/abs/2207.08240v1 )

ライセンス: CC BY 4.0
Yutong Li, Nan Li, H. Eric Tseng, Anouck Girard, Dimitar Filev, Ilya Kolmanovsky(参考訳) action governorは名目上の制御ループへのアドオンスキームで、制御アクションを監視し調整し、ポイントワイズインタイム状態と制御制約として表現された安全仕様を強制する。 本稿では, パラメトリックおよび付加的不確実性と非凸制約を考慮した離散時間PWAモデルを用いて, 動的に表現できるシステムに対して, ロバスト・アクション・ガウンジ(RAG)を導入する。 我々はRAGの理論的特性と計算手法を開発した。 その後、安全強化学習(RL)の実現、すなわちオンラインRL探索・探索プロセスにおける全時間制約満足度を確保するためにRAGを導入する。 この開発により、制御ポリシーの安全なリアルタイムな進化と、運用環境やシステムパラメータの変化(老化や損傷などによる)への適応が可能になる。 本稿では,ragを用いた制約強制と安全rlにおけるragの有効性を,マスバネダンパーシステムのソフトランディング問題への適用性を考慮して示す。

The action governor is an add-on scheme to a nominal control loop that monitors and adjusts the control actions to enforce safety specifications expressed as pointwise-in-time state and control constraints. In this paper, we introduce the Robust Action Governor (RAG) for systems the dynamics of which can be represented using discrete-time Piecewise Affine (PWA) models with both parametric and additive uncertainties and subject to non-convex constraints. We develop the theoretical properties and computational approaches for the RAG. After that, we introduce the use of the RAG for realizing safe Reinforcement Learning (RL), i.e., ensuring all-time constraint satisfaction during online RL exploration-and-exploitation process. This development enables safe real-time evolution of the control policy and adaptation to changes in the operating environment and system parameters (due to aging, damage, etc.). We illustrate the effectiveness of the RAG in constraint enforcement and safe RL using the RAG by considering their applications to a soft-landing problem of a mass-spring-damper system.
翻訳日:2022-07-20 04:30:47 公開日:2022-07-17
# (参考訳) オンラインLewisウェイトサンプリング

Online Lewis Weight Sampling ( http://arxiv.org/abs/2207.08268v1 )

ライセンス: CC BY 4.0
David P. Woodruff, Taisuke Yasuda(参考訳) cohen と peng の独創的な研究は、lewis weight sampling を理論計算機科学コミュニティに導入し、$d$-dimensional subspaces を$(1+\epsilon)$ error に近似する高速列サンプリングアルゴリズムを生み出した。 この重要なプリミティブを、オンラインコアセット、スライディングウィンドウ、対向ストリーミングモデルなど、他の設定に拡張した作品もいくつかある。 しかし、これらの結果は$p\in\{1,2\}$にのみ適用され、$p=1$には$\tilde O(d^2/\epsilon^2)$サンプルが必要である。 本研究では,オンラインコアセット,スライディングウィンドウ,および対向ストリーミングモデルにおいて,すべての$p\in(0,\infty)$に対して,最も最適な$\ell_p$サブスペース埋め込みを設計する。 3つのモデルすべてにおいて、アルゴリズムは$\tilde o(d^{1\lor(p/2)}/\epsilon^2)$行を格納する。 これは[bdmmuwz2020] の主オープン問題の実質的な一般化に答え、すべての$p\notin\{1,2\}$ の最初の結果を与える。 この結果に向けて、ルイス重みに比例してサンプリング列の「ワンショット」ルイス重みサンプリングを初めて分析し、サンプル複雑性$\tilde O(d^{p/2}/\epsilon^2)$ for $p>2$とする。 以前は、このスキームはサンプル複雑性$\tilde O(d^{p/2}/\epsilon^5)$しか知られていなかったが、$\tilde O(d^{p/2}/\epsilon^2)$はより洗練された再帰的なサンプリングが用いられる場合に知られている。 再帰的なサンプリングはオンラインでは実施できないため、ワンショットのルイス加重サンプリングの分析が必要である。 本解析では,オンライン数値線形代数への新たな接続を用いる。 アプリケーションとして、ロジスティック回帰や$p$-probit回帰といった、重要な一般化線形モデルの1+\epsilon)$近似に対する最初の1パスストリーミングコアセットアルゴリズムを得る。 我々の上界は[MSSW2018]によって導入された複雑性パラメータ$\mu$でパラメータ化され、最初の下界は$\mu$への線形依存が必要であることを示す。

The seminal work of Cohen and Peng introduced Lewis weight sampling to the theoretical computer science community, yielding fast row sampling algorithms for approximating $d$-dimensional subspaces of $\ell_p$ up to $(1+\epsilon)$ error. Several works have extended this important primitive to other settings, including the online coreset, sliding window, and adversarial streaming models. However, these results are only for $p\in\{1,2\}$, and results for $p=1$ require a suboptimal $\tilde O(d^2/\epsilon^2)$ samples. In this work, we design the first nearly optimal $\ell_p$ subspace embeddings for all $p\in(0,\infty)$ in the online coreset, sliding window, and the adversarial streaming models. In all three models, our algorithms store $\tilde O(d^{1\lor(p/2)}/\epsilon^2)$ rows. This answers a substantial generalization of the main open question of [BDMMUWZ2020], and gives the first results for all $p\notin\{1,2\}$. Towards our result, we give the first analysis of "one-shot'' Lewis weight sampling of sampling rows proportionally to their Lewis weights, with sample complexity $\tilde O(d^{p/2}/\epsilon^2)$ for $p>2$. Previously, this scheme was only known to have sample complexity $\tilde O(d^{p/2}/\epsilon^5)$, whereas $\tilde O(d^{p/2}/\epsilon^2)$ is known if a more sophisticated recursive sampling is used. The recursive sampling cannot be implemented online, thus necessitating an analysis of one-shot Lewis weight sampling. Our analysis uses a novel connection to online numerical linear algebra. As an application, we obtain the first one-pass streaming coreset algorithms for $(1+\epsilon)$ approximation of important generalized linear models, such as logistic regression and $p$-probit regression. Our upper bounds are parameterized by a complexity parameter $\mu$ introduced by [MSSW2018], and we show the first lower bounds showing that a linear dependence on $\mu$ is necessary.
翻訳日:2022-07-20 04:02:17 公開日:2022-07-17
# (参考訳) マルチエージェントチームにおける負荷管理を伴うタスク割り当て

Task Allocation with Load Management in Multi-Agent Teams ( http://arxiv.org/abs/2207.08279v1 )

ライセンス: CC BY 4.0
Haochen Wu, Amin Ghadami, Alparslan Emrah Bayrak, Jonathon M. Smereka, and Bogdan I. Epureanu(参考訳) 異種ロボット群から異種人間自律チームまでの多エージェントチームの運用において、予期せぬ出来事が発生する可能性がある。 マルチエージェントタスク割り当て問題に対する作業の効率化が主目的であるが,決定フレームワークはリソース制限による予期せぬタスク負荷の管理に十分な知性を有することが不可欠である。 さもなくば運用効率は、予期せぬリスクに直面した過剰なエージェントによって劇的に低下する。 本研究では、分散強化学習を通じて負荷管理を考慮したタスク割り当てを学習するマルチエージェントチームのための意思決定フレームワークを提案する。 負荷管理がチームのパフォーマンスに与える影響を説明し、例のシナリオでエージェントの振る舞いを探る。 さらに、潜在的な過負荷状況に対処する際にチームのレジリエンスを推測するために、コラボレーションにおけるエージェントの重要性の尺度が開発されている。

In operations of multi-agent teams ranging from homogeneous robot swarms to heterogeneous human-autonomy teams, unexpected events might occur. While efficiency of operation for multi-agent task allocation problems is the primary objective, it is essential that the decision-making framework is intelligent enough to manage unexpected task load with limited resources. Otherwise, operation effectiveness would drastically plummet with overloaded agents facing unforeseen risks. In this work, we present a decision-making framework for multi-agent teams to learn task allocation with the consideration of load management through decentralized reinforcement learning, where idling is encouraged and unnecessary resource usage is avoided. We illustrate the effect of load management on team performance and explore agent behaviors in example scenarios. Furthermore, a measure of agent importance in collaboration is developed to infer team resilience when facing handling potential overload situations.
翻訳日:2022-07-20 04:00:43 公開日:2022-07-17
# (参考訳) ディノイングと事前学習に着目した関係抽出のための距離スーパービジョンの概要

An Overview of Distant Supervision for Relation Extraction with a Focus on Denoising and Pre-training Methods ( http://arxiv.org/abs/2207.08286v1 )

ライセンス: CC BY 4.0
William Hogan(参考訳) 関係抽出(re)は自然言語処理の基本的なタスクである。 reは、テキストにあるエンティティペア間の関係情報を識別することで、生の非構造化テキストを構造化された知識に変換する。 REには、知識グラフの補完、テキスト要約、質問回答、検索クエリなど、多くの用途がある。 RE法の歴史は、パターンベースRE、統計ベースRE、ニューラルベースRE、大規模言語モデルベースREの4つのフェーズに大別できる。 この調査は、REの初期フェーズにおけるいくつかの模範的な作業の概要から始まり、進歩をコンテキスト化するための制限と欠点を強調している。 次に、人気のあるベンチマークをレビューし、REパフォーマンスを評価するために使用されるメトリクスを批判的に検証する。 次に、近代RE法の発展を形作るパラダイムである遠隔監視について論じる。 最後に,近年のデノイジングとプリトレーニングに着目したリワークについて概説する。

Relation Extraction (RE) is a foundational task of natural language processing. RE seeks to transform raw, unstructured text into structured knowledge by identifying relational information between entity pairs found in text. RE has numerous uses, such as knowledge graph completion, text summarization, question-answering, and search querying. The history of RE methods can be roughly organized into four phases: pattern-based RE, statistical-based RE, neural-based RE, and large language model-based RE. This survey begins with an overview of a few exemplary works in the earlier phases of RE, highlighting limitations and shortcomings to contextualize progress. Next, we review popular benchmarks and critically examine metrics used to assess RE performance. We then discuss distant supervision, a paradigm that has shaped the development of modern RE methods. Lastly, we review recent RE works focusing on denoising and pre-training methods.
翻訳日:2022-07-20 03:44:57 公開日:2022-07-17
# (参考訳) 音声言語理解のためのフランス語の薬物処方データセット

A Spoken Drug Prescription Dataset in French for Spoken Language Understanding ( http://arxiv.org/abs/2207.08292v1 )

ライセンス: CC BY 4.0
Ali Can Kocabiyikoglu, Fran\c{c}ois Portet, Prudence Gibert, Herv\'e Blanchon, Jean-Marc Babouchkine, Ga\"etan Gavazzi(参考訳) 医療サービスへのアクセスを高め、患者の医療の質とトレーサビリティを向上させるため、スポット医療対話システムへの関心が高まっている。 本稿では,音声対話を通じてスマートフォン上で取得した医薬品処方に焦点をあてる。 このようなシステムはケアのトレーサビリティを促進し、臨床医の時間を解放する。 しかし、関連するコーパスの多くはテキスト形式と英語であるため、そのようなシステムを開発するためのコーパスが不足している。 音声医療対話システムの研究と開発を容易にするために,我々はpxsluという名の最初の音声医療薬剤処方コーパスを,我々の知識を最大限に活用する。 フランスでは、55人の参加者と非専門家による処方薬に関する実験を通じて、薬物処方薬の書き起こしと注釈付き対話が4時間にわたって行われている。 また,医療対話システムの評価・開発におけるこのコーパスの意義を実証する実験を行った。

Spoken medical dialogue systems are increasingly attracting interest to enhance access to healthcare services and improve quality and traceability of patient care. In this paper, we focus on medical drug prescriptions acquired on smartphones through spoken dialogue. Such systems would facilitate the traceability of care and would free clinicians' time. However, there is a lack of speech corpora to develop such systems since most of the related corpora are in text form and in English. To facilitate the research and development of spoken medical dialogue systems, we present, to the best of our knowledge, the first spoken medical drug prescriptions corpus, named PxSLU. It contains 4 hours of transcribed and annotated dialogues of drug prescriptions in French acquired through an experiment with 55 participants experts and non-experts in prescriptions. We also present some experiments that demonstrate the interest of this corpus for the evaluation and development of medical dialogue systems.
翻訳日:2022-07-20 03:26:07 公開日:2022-07-17
# (参考訳) テンソル分解のためのプログラマブルメモリコントローラ

Towards Programmable Memory Controller for Tensor Decomposition ( http://arxiv.org/abs/2207.08298v1 )

ライセンス: CC BY 4.0
Sasindu Wijeratne, Ta-Yang Wang, Rajgopal Kannan, Viktor Prasanna(参考訳) テンソル分解は多くのデータサイエンスアプリケーションにおいて重要なツールとなっている。 sparse matricized tensor times khatri-rao product (mttkrp) は、高次実世界の大きなテンソルを複数の行列に分解するテンソル分解アルゴリズムの重要な核である。 MTTKRPの加速はテンソル分解過程を大幅に高速化することができる。 Sparse MTTKRPは不規則なメモリアクセス特性のために高速化が難しいカーネルである。 MTTKRPのようなカーネル用のフィールドプログラマブルゲートアレイ(FPGA)にアクセラレータを実装することは、FPGAのエネルギー効率と固有の並列性のために魅力的である。 本稿では, MTTKRP 用FPGA 上のカスタムメモリコントローラを設計する上で, このようなメモリコントローラのパラメータ空間を探索しながら, その可能性, 課題, アプローチについて検討する。

Tensor decomposition has become an essential tool in many data science applications. Sparse Matricized Tensor Times Khatri-Rao Product (MTTKRP) is the pivotal kernel in tensor decomposition algorithms that decompose higher-order real-world large tensors into multiple matrices. Accelerating MTTKRP can speed up the tensor decomposition process immensely. Sparse MTTKRP is a challenging kernel to accelerate due to its irregular memory access characteristics. Implementing accelerators on Field Programmable Gate Array (FPGA) for kernels such as MTTKRP is attractive due to the energy efficiency and the inherent parallelism of FPGA. This paper explores the opportunities, key challenges, and an approach for designing a custom memory controller on FPGA for MTTKRP while exploring the parameter space of such a custom memory controller.
翻訳日:2022-07-20 03:14:30 公開日:2022-07-17
# (参考訳) ハイパー不変性:不分散学習の償却

HyperInvariances: Amortizing Invariance Learning ( http://arxiv.org/abs/2207.08304v1 )

ライセンス: CC BY 4.0
Ruchika Chavhan, Henry Gouk, Jan St\"uhmer, Timothy Hospedales(参考訳) 与えられた学習タスクに不変性を与えることは、サンプル効率のよい学習と適切な一般化につながる重要な帰納的バイアスを伝達する。 しかし、多くの関心のある問題に対する理想的な不変性はよく知られておらず、工学的な伝承と、不変学習のためのフレームワークの提供の両方につながっている。 しかし、不変学習は高価で、一般的なニューラルアーキテクチャではデータ集約的です。 不変学習の償却の概念を導入する。 先行学習フェーズでは、ハイパーネットワークを用いて異なる変換に分散する特徴抽出器の低次元多様体を学習する。 そして,低次元の不変記述子を出力ヘッドとするモデルと不変学習を高速かつ効率的に行う。 経験上、このフレームワークは、異なるダウンストリームタスクにおける適切な不変性を特定し、従来のアプローチと同等あるいは優れたテストパフォーマンスに導くことができる。 モデル適合性と複雑性の間のトレードオフにおいて興味深い新たな運用ポイントを提供する一般化バウンドを可能にするため、私たちのHyperInvarianceフレームワークも理論的に魅力的です。

Providing invariances in a given learning task conveys a key inductive bias that can lead to sample-efficient learning and good generalisation, if correctly specified. However, the ideal invariances for many problems of interest are often not known, which has led both to a body of engineering lore as well as attempts to provide frameworks for invariance learning. However, invariance learning is expensive and data intensive for popular neural architectures. We introduce the notion of amortizing invariance learning. In an up-front learning phase, we learn a low-dimensional manifold of feature extractors spanning invariance to different transformations using a hyper-network. Then, for any problem of interest, both model and invariance learning are rapid and efficient by fitting a low-dimensional invariance descriptor an output head. Empirically, this framework can identify appropriate invariances in different downstream tasks and lead to comparable or better test performance than conventional approaches. Our HyperInvariance framework is also theoretically appealing as it enables generalisation-bounds that provide an interesting new operating point in the trade-off between model fit and complexity.
翻訳日:2022-07-20 03:04:24 公開日:2022-07-17
# (参考訳) 抽象対話要約課題におけるフランス語モデルの有効性

Effectiveness of French Language Models on Abstractive Dialogue Summarization Task ( http://arxiv.org/abs/2207.08305v1 )

ライセンス: CC BY 4.0
Yongxin Zhou, Fran\c{c}ois Portet, Fabien Ringeval(参考訳) 事前訓練された言語モデルは、対話要約を含む様々な自然言語処理タスクの最先端を確立しており、会議やインタビュー、電話での長い会話から重要な情報に素早くアクセスできる。 しかし、言語の自発性は、言語モデルの事前学習に使用されるコーパスにはほとんど存在しない表現を含むため、現在のモデルを扱うことは依然として困難である。 さらに、この分野で達成された作品のほとんどが英語に焦点が当てられている。 本研究では,言語固有の事前学習モデルであるBARThezとBelGPT-2と,mBART,mBARThez,mT5の多言語事前学習モデルを用いて,フランス語における自発音声対話の要約について検討する。 デコダ対話コーパス(コールセンター対話コーパス)において、コールセンター会話から状況に応じて1つまたは複数のエージェントとの抽象的なシナプスを生成することを目的として実験を行った。 以上の結果から,BARThezモデルは従来のDECDAの最先端モデルよりもはるかに優れた性能を示した。 さらに,このような事前学習モデルの限界と,自発的な対話を要約するために対処しなければならない課題についても論じる。

Pre-trained language models have established the state-of-the-art on various natural language processing tasks, including dialogue summarization, which allows the reader to quickly access key information from long conversations in meetings, interviews or phone calls. However, such dialogues are still difficult to handle with current models because the spontaneity of the language involves expressions that are rarely present in the corpora used for pre-training the language models. Moreover, the vast majority of the work accomplished in this field has been focused on English. In this work, we present a study on the summarization of spontaneous oral dialogues in French using several language specific pre-trained models: BARThez, and BelGPT-2, as well as multilingual pre-trained models: mBART, mBARThez, and mT5. Experiments were performed on the DECODA (Call Center) dialogue corpus whose task is to generate abstractive synopses from call center conversations between a caller and one or several agents depending on the situation. Results show that the BARThez models offer the best performance far above the previous state-of-the-art on DECODA. We further discuss the limits of such pre-trained models and the challenges that must be addressed for summarizing spontaneous dialogues.
翻訳日:2022-07-20 02:53:31 公開日:2022-07-17
# (参考訳) GANzilla: ジェネレーティブ・ディレクティブ・ネットワークにおけるユーザ駆動指向ディスカバリ

GANzilla: User-Driven Direction Discovery in Generative Adversarial Networks ( http://arxiv.org/abs/2207.08320v1 )

ライセンス: CC BY 4.0
Noyan Evirgen, Xiang 'Anthony' Chen(参考訳) Generative Adversarial Network (GAN) は、データ前処理、画像編集、クリエイティビティサポートなど、多くのアプリケーション領域で広く採用されている。 しかしながら、GANの「ブラックボックス」の性質は、非専門家のユーザがモデルが生成するデータを制御するのを妨げ、GANを制御するための編集方向を抽出するアルゴリズム駆動アプローチに焦点を当てた、多くの先行作業を生み出している。 並行して,従来の散布・収集手法をユーザに与えることで,編集目標を達成するための方向を反復的に発見するツールであるganzillaを提案する。 12人の被験者を対象にした調査で、ガンジラのユーザーはその方向を見つけることができた。 (i)提供された例に合致する編集画像(クローズドテッドタスク)等 (ii)個人間で多様性を示しながら、顔をより幸せにする(開放されたタスク)といったハイレベルな目標に出会った。

Generative Adversarial Network (GAN) is widely adopted in numerous application areas, such as data preprocessing, image editing, and creativity support. However, GAN's 'black box' nature prevents non-expert users from controlling what data a model generates, spawning a plethora of prior work that focused on algorithm-driven approaches to extract editing directions to control GAN. Complementarily, we propose a GANzilla: a user-driven tool that empowers a user with the classic scatter/gather technique to iteratively discover directions to meet their editing goals. In a study with 12 participants, GANzilla users were able to discover directions that (i) edited images to match provided examples (closed-ended tasks) and that (ii) met a high-level goal, e.g., making the face happier, while showing diversity across individuals (open-ended tasks).
翻訳日:2022-07-20 02:30:30 公開日:2022-07-17
# 正常リズムと心房細動における心拍変動の統計モデル

Statistical model for describing heart rate variability in normal rhythm and atrial fibrillation ( http://arxiv.org/abs/2207.08165v1 )

ライセンス: Link先を確認
Nikita Markov, Ilya Kotov, Konstantin Ushenin, Yakov Bozhko(参考訳) 心拍変動(HRV)指標は心電図(ECG)における拍動間隔の特性を表す。 通常、HRVは発作リズムのいかなる形態も除いた正常洞リズム(NSR)でのみ測定される。 心房細動(英: atrial fibrillation, AF)は、ヒトにおいて最も多い不整脈である。 通常、このような異常なリズムは分析されず、カオスで予測不可能であると仮定される。 にもかかわらず、RAV指標の範囲はAF患者によって異なるが、それらに影響を与える生理学的特徴は理解されていない。 本研究では,NSRとAFにおけるHRV指標の関係を記述する統計モデルを提案する。 このモデルはマハラノビス距離、k-ネアレスト近傍アプローチ、多変量正規分布フレームワークに基づいている。 長期ホルター心電図から抽出した10分間隔のNSRおよびAFを用いて,本手法の検証を行った。 検証には Bhattacharyya distance と Kolmogorov-Smirnov 2-sample test を用いた。 このモデルは、高い精度で少なくとも7つのHRV指標を予測することができる。

Heart rate variability (HRV) indices describe properties of interbeat intervals in electrocardiogram (ECG). Usually HRV is measured exclusively in normal sinus rhythm (NSR) excluding any form of paroxysmal rhythm. Atrial fibrillation (AF) is the most widespread cardiac arrhythmia in human population. Usually such abnormal rhythm is not analyzed and assumed to be chaotic and unpredictable. Nonetheless, ranges of HRV indices differ between patients with AF, yet physiological characteristics which influence them are poorly understood. In this study, we propose a statistical model that describes relationship between HRV indices in NSR and AF. The model is based on Mahalanobis distance, the k-Nearest neighbour approach and multivariate normal distribution framework. Verification of the method was performed using 10 min intervals of NSR and AF that were extracted from long-term Holter ECGs. For validation we used Bhattacharyya distance and Kolmogorov-Smirnov 2-sample test in a k-fold procedure. The model is able to predict at least 7 HRV indices with high precision.
翻訳日:2022-07-19 19:20:09 公開日:2022-07-17
# SP2: 2次確率的ポリアーク法

SP2: A Second Order Stochastic Polyak Method ( http://arxiv.org/abs/2207.08171v1 )

ライセンス: Link先を確認
Shuang Li, William J. Swartworth, Martin Tak\'a\v{c}, Deanna Needell, Robert M. Gower(参考訳) 近年、SGDのステップサイズを設定するための競争適応手法としてSP法(Stochastic Polyak step size)が登場している。 SPは補間方程式を解くため補間モデルに特化した方法として解釈できる。 SP はモデルの局所線型化を用いてこれらの方程式を解く。 さらに,モデルの局所的な二階近似を用いた補間方程式の解法を開発した。 得られた手法SP2はヘッセンベクトル積を用いてSPの収束を高速化する。 さらに、二階法の中でもむしろ一意的に、SP2 の設計は正定値のヘッセン行列や目的関数の凸性に依存しない。 我々は,SP2が行列補完,非凸テスト問題,ロジスティック回帰に非常に競合することを示した。 また、二次和に関する収束理論も提供する。

Recently the "SP" (Stochastic Polyak step size) method has emerged as a competitive adaptive method for setting the step sizes of SGD. SP can be interpreted as a method specialized to interpolated models, since it solves the interpolation equations. SP solves these equation by using local linearizations of the model. We take a step further and develop a method for solving the interpolation equations that uses the local second-order approximation of the model. Our resulting method SP2 uses Hessian-vector products to speed-up the convergence of SP. Furthermore, and rather uniquely among second-order methods, the design of SP2 in no way relies on positive definite Hessian matrices or convexity of the objective function. We show SP2 is very competitive on matrix completion, non-convex test problems and logistic regression. We also provide a convergence theory on sums-of-quadratics.
翻訳日:2022-07-19 19:19:47 公開日:2022-07-17
# カーネル付加ガウス過程回帰を用いたオープンシェル・マルチ参照システムの分子軌道ベース機械学習

Molecular-orbital-based Machine Learning for Open-shell and Multi-reference Systems with Kernel Addition Gaussian Process Regression ( http://arxiv.org/abs/2207.08317v1 )

ライセンス: Link先を確認
Lixue Cheng, Jiace Sun, J. Emiliano Deustua, Vignesh C. Bhethanabotla, Thomas F. Miller III(参考訳) 本稿では,分子軌道ベースの機械学習(mob-ml)において,新しい機械学習戦略であるkernel addition gaussian process regression(ka-gpr)を導入することで,クローズドシェルとオープンシェルシステムのための一般電子構造理論の全相関エネルギーを学習する。 MOB-ML(KA-GPR)の学習効率は、マルチ参照文字を持つ閉殻分子である最小クリージー分子のMOB-ML法と同じである。 加えて、異なる小さなフリーラジカルの予測精度は、1つのサンプル構造でトレーニングすることで1kcal/molの化学精度に達する可能性がある。 H10鎖(閉殻)とOH結合解離(開殻)の正確なポテンシャルエネルギー表面はMOB-ML(KA-GPR)によっても生成される。 KA-GPRが記述できる化学系の幅を探索するため,MOB-MLを用いてクローズド(QM9,QM7b-T,GDB-13-T)およびオープンシェル(QMSpin)分子の大規模ベンチマークデータセットを正確に予測する。

We introduce a novel machine learning strategy, kernel addition Gaussian process regression (KA-GPR), in molecular-orbital-based machine learning (MOB-ML) to learn the total correlation energies of general electronic structure theories for closed- and open-shell systems by introducing a machine learning strategy. The learning efficiency of MOB-ML (KA-GPR) is the same as the original MOB-ML method for the smallest criegee molecule, which is a closed-shell molecule with multi-reference characters. In addition, the prediction accuracies of different small free radicals could reach the chemical accuracy of 1 kcal/mol by training on one example structure. Accurate potential energy surfaces for the H10 chain (closed-shell) and water OH bond dissociation (open-shell) could also be generated by MOB-ML (KA-GPR). To explore the breadth of chemical systems that KA-GPR can describe, we further apply MOB-ML to accurately predict the large benchmark datasets for closed- (QM9, QM7b-T, GDB-13-T) and open-shell (QMSpin) molecules.
翻訳日:2022-07-19 19:19:26 公開日:2022-07-17
# 再構成可能な知的表面支援型オーバーザ・エアフェデレーション学習の精度と整合性のバランス

Balancing Accuracy and Integrity for Reconfigurable Intelligent Surface-aided Over-the-Air Federated Learning ( http://arxiv.org/abs/2207.08057v1 )

ライセンス: Link先を確認
Jingheng Zheng, Hui Tian, Wanli Ni, Wei Ni, and Ping Zhang(参考訳) オーバー・ザ・エア・フェデレーション・ラーニング(airfl)は、デバイスが学習モデルを並行して訓練し、オーバー・ザ・エア計算を用いてローカルモデルを同期することができる。 airflの完全性は、上空に集約されたローカルモデルが不正確であるため脆弱である。 本稿では,マルチアンテナデバイスとベースステーション(BS)を再構成可能なインテリジェント表面(RIS)で協調的に最適化する,AirFLの精度と整合性のバランスをとるための新しい枠組みを提案する。 重要な貢献には、airflのモデルの正確性と整合性を共同で考慮した新しいかつ非自明な問題と、問題を扱いやすい部分問題に変換する新しいフレームワークが含まれる。 完全チャネル状態情報(CSI)の下では、BSの受信ビームフォーマ、RIS構成を交互に最適化することにより、集約モデルの歪みを最小限に抑え、局所モデルの回復性を維持する。 不完全なCSIの下で、新しいフレームワークはビームフォーマとRIS構成の堅牢な設計を提供し、非無視のチャネル推定エラーに対処する。 実験により、完全CSI下で局所モデル復元性を維持しつつ、理想的なFLに匹敵する精度を達成でき、不完全なCSI下で受信アンテナの数が小さい場合や中程度の場合の精度を向上させることができる。

Over-the-air federated learning (AirFL) allows devices to train a learning model in parallel and synchronize their local models using over-the-air computation. The integrity of AirFL is vulnerable due to the obscurity of the local models aggregated over-the-air. This paper presents a novel framework to balance the accuracy and integrity of AirFL, where multi-antenna devices and base station (BS) are jointly optimized with a reconfigurable intelligent surface (RIS). The key contributions include a new and non-trivial problem jointly considering the model accuracy and integrity of AirFL, and a new framework that transforms the problem into tractable subproblems. Under perfect channel state information (CSI), the new framework minimizes the aggregated model's distortion and retains the local models' recoverability by optimizing the transmit beamformers of the devices, the receive beamformers of the BS, and the RIS configuration in an alternating manner. Under imperfect CSI, the new framework delivers a robust design of the beamformers and RIS configuration to combat non-negligible channel estimation errors. As corroborated experimentally, the novel framework can achieve comparable accuracy to the ideal FL while preserving local model recoverability under perfect CSI, and improve the accuracy when the number of receive antennas is small or moderate under imperfect CSI.
翻訳日:2022-07-19 19:10:38 公開日:2022-07-17
# 既知のサブクラスラベルを用いたサブクラス知識蒸留

Subclass Knowledge Distillation with Known Subclass Labels ( http://arxiv.org/abs/2207.08063v1 )

ライセンス: Link先を確認
Ahmad Sajedi, Yuri A. Lawryshyn, Konstantinos N. Plataniotis(参考訳) 本研究は,既存のサブクラスに関する情報が利用可能で考慮されているタスクを分類するための新しい知識蒸留フレームワークを提案する。 クラス数が少ないクラスやバイナリ検出の分類タスクでは、教師から生徒に転送される情報の量を制限するため、知識蒸留の有用性が制限される。 クラス内で可能なサブクラスの情報を活用することで、パフォーマンスを改善することができる。 そこで本研究では,教師から小学生に予測されるサブクラスの知識を伝達するプロセスである,いわゆるサブクラス知識蒸留(skd)を提案する。 教師のクラスロジットにはないが、サブクラスロジット(例えばクラス内の類似点)に存在する意味のある情報は、SKDを通じて生徒に伝達され、生徒のパフォーマンスが向上する。 分析的に,教師がSKDを介して学生に提供できる余分な情報量を測定し,その効果を実証する。 本発明の枠組みは臨床応用、すなわち大腸ポリープ二分分類において評価される。 これは2つのクラスとクラスごとに複数のサブクラスで実践的な問題である。 本アプリケーションでは, 臨床医が提供したアノテーションを用いて, 学習のカリキュラムスタイルにおけるアノテーションラベルの変動性に基づいたサブクラスを定義できる。 SKDフレームワークで訓練された軽量で低複雑さの学生は、85.05%のF1スコア、1.47%の改善、そして従来の知識蒸留なしで訓練された学生よりも2.10%向上した。 skdの訓練を受けた学生と学生の間の2.10%のf1-scoreギャップは、追加のサブクラス知識、すなわち実験で教師が転送できるサンプルあたりの0.04656ラベルビットによって説明できる。

This work introduces a novel knowledge distillation framework for classification tasks where information on existing subclasses is available and taken into consideration. In classification tasks with a small number of classes or binary detection, the amount of information transferred from the teacher to the student is restricted, thus limiting the utility of knowledge distillation. Performance can be improved by leveraging information of possible subclasses within the classes. To that end, we propose the so-called Subclass Knowledge Distillation (SKD), a process of transferring the knowledge of predicted subclasses from a teacher to a smaller student. Meaningful information that is not in the teacher's class logits but exists in subclass logits (e.g., similarities within classes) will be conveyed to the student through the SKD, which will then boost the student's performance. Analytically, we measure how much extra information the teacher can provide the student via the SKD to demonstrate the efficacy of our work. The framework developed is evaluated in clinical application, namely colorectal polyp binary classification. It is a practical problem with two classes and a number of subclasses per class. In this application, clinician-provided annotations are used to define subclasses based on the annotation label's variability in a curriculum style of learning. A lightweight, low-complexity student trained with the SKD framework achieves an F1-score of 85.05%, an improvement of 1.47%, and a 2.10% gain over the student that is trained with and without conventional knowledge distillation, respectively. The 2.10% F1-score gap between students trained with and without the SKD can be explained by the extra subclass knowledge, i.e., the extra 0.4656 label bits per sample that the teacher can transfer in our experiment.
翻訳日:2022-07-19 19:10:13 公開日:2022-07-17
# 最適化問題を解くためのアニーリング付きリカレントニューラルネットワークのサプリメント

Supplementing Recurrent Neural Networks with Annealing to Solve Optimization Problems ( http://arxiv.org/abs/2207.08189v1 )

ライセンス: Link先を確認
Shoummo Ahsan Khandoker, Jawaril Munshad Abedin, Mohamed Hibat-Allah(参考訳) 組合せ最適化問題は、熱ゆらぎによる大規模な探索空間内の大域最小解を見つけることを目的としたシミュレーションアニール法(SA)のようなヒューリスティックアルゴリズムによって解決できる。 このアルゴリズムはマルコフ連鎖モンテカルロ法による新しい解を生成する。 後者は、緩やかな収束や、小さな温度で同じ局所的な探索空間に留まる傾向など、厳しい制限をもたらす可能性がある。 これらの欠点を克服するために、私たちは、自己回帰リカレントニューラルネットワーク(RNN)と従来のアニーリングを組み合わせて、互いに独立してサンプルソリューションをサンプリングする可変古典的アニール(VCA)フレームワークを使用します。 本稿では,実世界の最適化問題に対するアプローチとして,VCAを用いる可能性を示す。 我々は,最大カット問題 (Max-Cut) ,看護スケジューリング問題 (NSP) ,旅行セールスマン問題 (TSP) の3つの一般的な最適化問題の解法において,VCAの性能をSAと比較した。 これら3つの問題に対して、VCAは無症候性限界において平均SAを上回っている。 興味深いことに、TSPのシステムサイズは最大で256ドルに達する。 ベストケースのシナリオでは、SAが最適解を見つけられなかった場合、VCAは優れた代替手段として機能する。

Combinatorial optimization problems can be solved by heuristic algorithms such as simulated annealing (SA) which aims to find the global minima solution within a large search space through thermal fluctuations. The algorithm generates new solutions through Markov-chain Monte Carlo techniques. The latter can result in severe limitations, such as slow convergence and a tendency to stay within the same local search space at small temperatures. To overcome these shortcomings, we use the variational classical annealing (VCA) framework that combines autoregressive recurrent neural networks (RNNs) with traditional annealing to sample solutions independent of each other. In this paper, we demonstrate the potential of using VCA as an approach to solving real-world optimization problems. We explore VCA's performance in comparison with SA at solving three popular optimization problems: the maximum cut problem (Max-Cut), the nurse scheduling problem (NSP), and the traveling salesman problem (TSP). For all three problems, we find that VCA outperforms SA on average in the asymptotic limit. Interestingly, we reach large system sizes up to $256$ cities for the TSP. We conclude that in the best-case scenario, VCA can serve as a great alternative when SA fails to find the optimal solution.
翻訳日:2022-07-19 19:09:43 公開日:2022-07-17
# BIP:効率的なジェットタグ作成のための不変ポリノミアル

BIP: Boost Invariant Polynomials for Efficient Jet Tagging ( http://arxiv.org/abs/2207.08272v1 )

ライセンス: Link先を確認
Jose M Munoz, Ilyes Batatia, Christoph Ortner(参考訳) ディープラーニングアプローチは、高エネルギー物理学(HEP)におけるデータ分析のゴーツー手法になりつつある。 しかし、多くの物理学に触発された近代建築は計算効率が悪く、解釈性が欠如している。 これは特にジェットタグアルゴリズムの場合であり、現代の粒子検出器が生成する大量のデータを考えると計算効率が極めて重要である。 本研究では,新しい汎用的かつ透明なジェット表現フレームワークを提案する。lorentz group boostsに不変であり,教師付きおよび教師なしのスキームに対する他の現代的なアプローチよりも,訓練および評価が桁違いに高速であると同時に,ジェットタグ付けベンチマークにおいて高い精度を実現する。

Deep Learning approaches are becoming the go-to methods for data analysis in High Energy Physics (HEP). Nonetheless, most physics-inspired modern architectures are computationally inefficient and lack interpretability. This is especially the case with jet tagging algorithms, where computational efficiency is crucial considering the large amounts of data produced by modern particle detectors. In this work, we present a novel, versatile and transparent framework for jet representation; invariant to Lorentz group boosts, which achieves high accuracy on jet tagging benchmarks while being orders of magnitudes faster to train and evaluate than other modern approaches for both supervised and unsupervised schemes.
翻訳日:2022-07-19 19:09:20 公開日:2022-07-17
# 三価条件付き確実かつ不確定な推論

Certain and Uncertain Inference with Trivalent Conditionals ( http://arxiv.org/abs/2207.08276v1 )

ライセンス: Link先を確認
Paul \'Egr\'e and Lorenzo Rossi and Jan Sprenger(参考訳) 指示条件の研究は、通常、真理条件を決定するか、どのように推論すべきか、いつそれを主張できるかを説明することを目的としている。 本稿では,これらの意味論的・認識論的プロジェクトを,三値・真理機能的真理条件を表現条件として統合する。 この枠組みに基づいて、条件の確率の非古典的な説明と条件推論の2つの論理を提供する。 (i)帰納的推論を一般化する特定の前提からの推論の論理C (ii)デファシブル推論を一般化する不確実な前提からの推論の論理U。 両方のロジックはドメインにおいて非常に魅力的です。 彼らは条件付き推論のための統一的な枠組みを提供し、既存の理論(例えばアダムズの「合理的推論」論理)を一般化し、モドゥス・ポネンズ、インポート-エクスポート、その他の条件付き論理の原理の有効性に関する議論を洞察的に分析する。

Research on indicative conditionals usually aims either at determining their truth conditions, or at explaining how we should reason with them and when we can assert them. This paper integrates these semantic and epistemological projects by means of articulating trivalent, truth-functional truth conditions for indicative conditionals. Based on this framework, we provide a non-classical account of the probability of conditionals, and two logics of conditional reasoning: (i) a logic C of inference from certain premises that generalizes deductive reasoning; and (ii) a logic U of inference from uncertain premises that generalizes defeasible reasoning. Both logics are highly attractive in their domain. They provide a unified framework for conditional reasoning, generalize existing theories (e.g., Adams's logic of "reasonable inference") and yield an insightful analysis of the controversies about the validity of Modus Ponens, Import-Export, and other principles of conditional logic.
翻訳日:2022-07-19 18:41:56 公開日:2022-07-17
# ワッサースタイン勾配流による平均場変動推定

Mean field Variational Inference via Wasserstein Gradient Flow ( http://arxiv.org/abs/2207.08074v1 )

ライセンス: Link先を確認
Rentian Yao, Yun Yang(参考訳) 変分推論(VI)は、その概念的単純さ、統計的精度、および計算スケーラビリティのためにベイズ推論を実装するための従来のサンプリングベースのアプローチに代わる魅力的な代替手段を提供する。 しかし、平均場(MF)近似のような一般的な変分近似スキームは、効率的な計算を容易にするためにある種の共役構造を必要とするため、有効前の分布族に不要な制約を加え、変分近似族にさらなる制約を課す可能性がある。 本研究では,確率測度空間上の勾配流であるワッサーシュタイン勾配流(WGF)を用いて,MF-VIを実装するための一般計算フレームワークを開発する。 ベイジアン潜在変数モデルに特化すると、MF近似を実装するための時間分散WGFに基づいて、交代最小化スキームのアルゴリズム収束を解析する。 特に, 提案手法は, 潜在変数変動分布を更新可能なeステップと, パラメータの変動分布上で最も急な降下を行うmステップからなるemアルゴリズムの分布バージョンに似ている。 我々の理論解析は、確率測度の空間における最適輸送理論と部分微分計算に依存する。 一般化測地線に沿って厳密な凸性を与える汎用目的関数を最小化するための時間離散化wgfの指数収束を証明した。 また、時間離散化wgfの固定点方程式を用いて、mf近似から得られる変分分布の指数的縮小の新たな証明を提供する。 本手法と理論を,ガウス混合モデルと回帰モデルの混合モデルという2つの古典的なベイズ潜在変数モデルに適用する。 この2つのモデルに基づく理論的知見を補完する数値実験も行った。

Variational inference (VI) provides an appealing alternative to traditional sampling-based approaches for implementing Bayesian inference due to its conceptual simplicity, statistical accuracy and computational scalability. However, common variational approximation schemes, such as the mean-field (MF) approximation, require certain conjugacy structure to facilitate efficient computation, which may add unnecessary restrictions to the viable prior distribution family and impose further constraints on the variational approximation family. In this work, we develop a general computational framework for implementing MF-VI via Wasserstein gradient flow (WGF), a gradient flow over the space of probability measures. When specialized to Bayesian latent variable models, we analyze the algorithmic convergence of an alternating minimization scheme based on a time-discretized WGF for implementing the MF approximation. In particular, the proposed algorithm resembles a distributional version of EM algorithm, consisting of an E-step of updating the latent variable variational distribution and an M-step of conducting steepest descent over the variational distribution of parameters. Our theoretical analysis relies on optimal transport theory and subdifferential calculus in the space of probability measures. We prove the exponential convergence of the time-discretized WGF for minimizing a generic objective functional given strict convexity along generalized geodesics. We also provide a new proof of the exponential contraction of the variational distribution obtained from the MF approximation by using the fixed-point equation of the time-discretized WGF. We apply our method and theory to two classic Bayesian latent variable models, the Gaussian mixture model and the mixture of regression model. Numerical experiments are also conducted to compliment the theoretical findings under these two models.
翻訳日:2022-07-19 18:40:39 公開日:2022-07-17
# デュアルアーム・テーブルトップ・オブジェクト・リレンジメントの効率的なタスク計画に向けて

Toward Efficient Task Planning for Dual-Arm Tabletop Object Rearrangement ( http://arxiv.org/abs/2207.08078v1 )

ライセンス: Link先を確認
Kai Gao, Jingjin Yu(参考訳) 本研究では,ロボットアームの協調による非モノトーンテーブル上多目的再配置課題の解決について検討する。 非モノトン再構成タスクでは、複雑なオブジェクトオブジェクトの依存関係が存在し、インスタンスを解決するために複数のオブジェクトを移動する必要があります。 大きな作業スペースで2つの腕で作業する場合、いくつかのオブジェクトはロボット間で引き離さなければなりません。 そこで本研究では,2つのアーム間で適切に分散可能なピック・n・プレース・シーケンスをスケジューリングするための効率的なタスク計画アルゴリズムを開発した。 本手法は,高度な移動プランナを使わずとも,単ロボット計画のグレディアプローチや単純並列化に比べ,かなりの時間を節約できることを示す。

We investigate the problem of coordinating two robot arms to solve non-monotone tabletop multi-object rearrangement tasks. In a non-monotone rearrangement task, complex object-object dependencies exist that require moving some objects multiple times to solve an instance. In working with two arms in a large workspace, some objects must be handed off between the robots, which further complicates the planning process. For the challenging dual-arm tabletop rearrangement problem, we develop effective task planning algorithms for scheduling the pick-n-place sequence that can be properly distributed between the two arms. We show that, even without using a sophisticated motion planner, our method achieves significant time savings in comparison to greedy approaches and naive parallelization of single-robot plans.
翻訳日:2022-07-19 18:20:21 公開日:2022-07-17
# BCS-Net : CT画像からの自動肺感染症分離のための境界, 文脈, 意味

BCS-Net: Boundary, Context and Semantic for Automatic COVID-19 Lung Infection Segmentation from CT Images ( http://arxiv.org/abs/2207.08114v1 )

ライセンス: Link先を確認
Runmin Cong, Haowei Yang, Qiuping Jiang, Wei Gao, Haisheng Li, Cong Wang, Yao Zhao, and Sam Kwong(参考訳) 新型コロナウイルス(COVID-19)の感染拡大は世界に大きな災害をもたらしており、感染症領域の自動分離は医師の診断の迅速化と作業負荷の削減に役立つ。 しかし, 感染域分布のばらつき, 背景雑音の複雑化, 分節境界のぼやけなど, 正確かつ完全なセグメンテーションにはいくつかの課題がある。 そこで本研究では,境界,文脈,意味的属性を考慮に入れたBCS-NetというCT画像から,COVID-19の肺感染症自動セグメンテーションのための新しいネットワークを提案する。 BCS-Netはエンコーダ・デコーダアーキテクチャに従っており、さらに設計は3つのBCSRブロックを含むデコーダステージに焦点を当てている。 BCSRの各ブロックにおいて、注意誘導グローバルコンテキスト(AGGC)モジュールは、重要な空間および境界位置を強調し、グローバルコンテキスト依存をモデル化することによって、デコーダの最も価値のあるエンコーダ機能を学ぶように設計されている。 また、セマンティクスガイダンス(sg)ユニットは、中間解像度でマルチスケールハイレベルな特徴を集約することによりデコーダの特徴を洗練するために、セマンティクスガイダンスマップを生成する。 大規模な実験により,提案するフレームワークは,定性的かつ定量的に既存の競合より優れていることが示された。

The spread of COVID-19 has brought a huge disaster to the world, and the automatic segmentation of infection regions can help doctors to make diagnosis quickly and reduce workload. However, there are several challenges for the accurate and complete segmentation, such as the scattered infection area distribution, complex background noises, and blurred segmentation boundaries. To this end, in this paper, we propose a novel network for automatic COVID-19 lung infection segmentation from CT images, named BCS-Net, which considers the boundary, context, and semantic attributes. The BCS-Net follows an encoder-decoder architecture, and more designs focus on the decoder stage that includes three progressively Boundary-Context-Semantic Reconstruction (BCSR) blocks. In each BCSR block, the attention-guided global context (AGGC) module is designed to learn the most valuable encoder features for decoder by highlighting the important spatial and boundary locations and modeling the global context dependence. Besides, a semantic guidance (SG) unit generates the semantic guidance map to refine the decoder features by aggregating multi-scale high-level features at the intermediate resolution. Extensive experiments demonstrate that our proposed framework outperforms the existing competitors both qualitatively and quantitatively.
翻訳日:2022-07-19 18:15:21 公開日:2022-07-17
# flolpips:フレームインターポレーションのためのビデオ品質指標

FloLPIPS: A Bespoke Video Quality Metric for Frame Interpoation ( http://arxiv.org/abs/2207.08119v1 )

ライセンス: Link先を確認
Duolikun Danier, Fan Zhang, David Bull(参考訳) ビデオフレーム補間(VFI)は多くのビデオ処理アプリケーションにおいて有用なツールである。 近年,従来のビデオコーデックや学習ベース圧縮アーキテクチャの強化のために,ビデオ圧縮領域にも適用されている。 近年、拡張フレーム補間アルゴリズムの開発に焦点が当てられているが、補間されたコンテンツの知覚的品質評価は研究のオープンフィールドのままである。 本稿では,一般的な知覚画像品質指標であるLPIPSに基づいて,抽出された画像特徴空間の知覚的劣化をキャプチャする,VFI用フルレファレンスビデオ品質指標FloLPIPSを提案する。 補間コンテンツ評価のためのLPIPSの性能向上を目的として,時間的歪み(光流との比較による)を用いて特徴差マップの重み付けを行い,空間的特徴集約ステップを再設計した。 様々なフレーム補間アーチファクトを持つ180の試験シーケンスを含むBVI-VFIデータベースを用いて評価し、FloLPIPSは、12のポピュラーな品質評価器よりも主観的根拠真理と(統計的に有意な)優れた相関性能を示す。 VFI品質評価のさらなる研究を促進するため、我々のコードはhttps://danielism97.github.io/FloLPIPSで公開されている。

Video frame interpolation (VFI) serves as a useful tool for many video processing applications. Recently, it has also been applied in the video compression domain for enhancing both conventional video codecs and learning-based compression architectures. While there has been an increased focus on the development of enhanced frame interpolation algorithms in recent years, the perceptual quality assessment of interpolated content remains an open field of research. In this paper, we present a bespoke full reference video quality metric for VFI, FloLPIPS, that builds on the popular perceptual image quality metric, LPIPS, which captures the perceptual degradation in extracted image feature space. In order to enhance the performance of LPIPS for evaluating interpolated content, we re-designed its spatial feature aggregation step by using the temporal distortion (through comparing optical flows) to weight the feature difference maps. Evaluated on the BVI-VFI database, which contains 180 test sequences with various frame interpolation artefacts, FloLPIPS shows superior correlation performance (with statistical significance) with subjective ground truth over 12 popular quality assessors. To facilitate further research in VFI quality assessment, our code is publicly available at https://danielism97.github.io/FloLPIPS.
翻訳日:2022-07-19 18:14:56 公開日:2022-07-17
# ブラインド画像品質評価のための非教師なし領域適応

Source-free Unsupervised Domain Adaptation for Blind Image Quality Assessment ( http://arxiv.org/abs/2207.08124v1 )

ライセンス: Link先を確認
Jianzhao Liu, Xin Li, Shukun An, Zhibo Chen(参考訳) 既存の学習ベースのブラインド画像品質評価法(BIQA)は、大量の注釈付きトレーニングデータに大きく依存しており、ドメイン/配信シフト問題に遭遇する際には、通常は深刻なパフォーマンス劣化に悩まされる。 教師なしドメイン適応(UDA)の開発により、UDAとのドメインシフトの下でラベル対応のソースドメインからラベルなしターゲットドメインに知識を移行しようとする研究もある。 しかし、ソースデータとターゲットデータの共存が必要であり、プライバシーやストレージの問題のためにソースデータには実用的でない可能性がある。 本稿では、BIQAがソースデータにアクセスせずにドメインシフトに取り組むために、ソースフリーな非教師なしドメイン適応(SFUDA)への第一歩をシンプルかつ効率的に進める。 具体的には,品質評価タスクを評価分布予測問題とみなした。 BIQAの本質的な性質に基づいて, BNアフィンパラメータの標的領域への適応を導くために, 十分に設計された自己教師対象群を示す。 その中でも,予測エントロピーの最小化とバッチ予測の多様性の最大化は,自明な解を避けつつ,より確実な結果を促進することを目的としている。 また, 単一画像のIQA評価分布がガウス分布に従うという観測に基づいて, 予測された評価分布にガウス正規化を適用し, 人間の評価特性との整合性を高める。 クロスドメインシナリオによる広範囲な実験結果により,提案手法の有効性が実証された。

Existing learning-based methods for blind image quality assessment (BIQA) are heavily dependent on large amounts of annotated training data, and usually suffer from a severe performance degradation when encountering the domain/distribution shift problem. Thanks to the development of unsupervised domain adaptation (UDA), some works attempt to transfer the knowledge from a label-sufficient source domain to a label-free target domain under domain shift with UDA. However, it requires the coexistence of source and target data, which might be impractical for source data due to the privacy or storage issues. In this paper, we take the first step towards the source-free unsupervised domain adaptation (SFUDA) in a simple yet efficient manner for BIQA to tackle the domain shift without access to the source data. Specifically, we cast the quality assessment task as a rating distribution prediction problem. Based on the intrinsic properties of BIQA, we present a group of well-designed self-supervised objectives to guide the adaptation of the BN affine parameters towards the target domain. Among them, minimizing the prediction entropy and maximizing the batch prediction diversity aim to encourage more confident results while avoiding the trivial solution. Besides, based on the observation that the IQA rating distribution of single image follows the Gaussian distribution, we apply Gaussian regularization to the predicted rating distribution to make it more consistent with the nature of human scoring. Extensive experimental results under cross-domain scenarios demonstrated the effectiveness of our proposed method to mitigate the domain shift.
翻訳日:2022-07-19 18:14:34 公開日:2022-07-17
# BusyBot:BusyBoard環境でのインタラクション、推論、計画を学ぶ

BusyBot: Learning to Interact, Reason, and Plan in a BusyBoard Environment ( http://arxiv.org/abs/2207.08192v1 )

ライセンス: Link先を確認
Zeyi Liu, Zhenjia Xu, Shuran Song(参考訳) BusyBoardは,ロボット同士のインタラクションにリッチな視覚フィードバックを提供するために,多種多様なオブジェクトセットとオブジェクト間の機能的関係を活用するロボット学習環境である。 この環境に基づいて,エージェントが3つの基本的な能力(インタラクション,推論,計画)を統合的かつ自己管理的に獲得することのできる学習フレームワークであるBusyBotを導入する。 BusyBoardが提供したリッチな感覚フィードバックにより、BusyBotは、まず環境と効率的に対話するためのポリシーを学び、次にポリシーを使用して収集されたデータにより、BusyBotは因果発見ネットワークを介して機能間関係を推論し、最後に学習されたインタラクションポリシーと関係推論スキルを組み合わせることで、エージェントはゴール条件付き操作タスクを実行できるようになる。 本研究では,実環境とシミュレーション環境の両方においてBusyBotを評価し,そのオブジェクトや関係の一般化性を検証する。 ビデオはhttps://youtu.be/ej98xbjz9ekで閲覧できる。

We introduce BusyBoard, a toy-inspired robot learning environment that leverages a diverse set of articulated objects and inter-object functional relations to provide rich visual feedback for robot interactions. Based on this environment, we introduce a learning framework, BusyBot, which allows an agent to jointly acquire three fundamental capabilities (interaction, reasoning, and planning) in an integrated and self-supervised manner. With the rich sensory feedback provided by BusyBoard, BusyBot first learns a policy to efficiently interact with the environment; then with data collected using the policy, BusyBot reasons the inter-object functional relations through a causal discovery network; and finally by combining the learned interaction policy and relation reasoning skill, the agent is able to perform goal-conditioned manipulation tasks. We evaluate BusyBot in both simulated and real-world environments, and validate its generalizability to unseen objects and relations. Video is available at https://youtu.be/EJ98xBJZ9ek.
翻訳日:2022-07-19 18:13:22 公開日:2022-07-17
# INFWIDE:低光環境下での非盲点画像分解のための画像および特徴空間ウィナーデコンボリューションネットワーク

INFWIDE: Image and Feature Space Wiener Deconvolution Network for Non-blind Image Deblurring in Low-Light Conditions ( http://arxiv.org/abs/2207.08201v1 )

ライセンス: Link先を確認
Zhihong Zhang, Yuxiao Cheng, Jinli Suo, Liheng Bian, and Qionghai Dai(参考訳) 低照度環境では、ハンドヘルド写真は長時間露光環境で激しいカメラの揺れに悩まされる。 既存のデブラリングアルゴリズムは、露呈したぼやけた画像で有望な性能を示しているが、低照度スナップショットには対処できない。 洗練されたノイズと飽和領域は、実用的な低光度デブラリングにおいて2つの大きな課題である。 本研究では,これらの問題に体系的に対処するために,画像空間と特徴空間(INFWIDE)と呼ばれる新しい非盲点分解法を提案する。 アルゴリズム設計においてINFWIDEは、画像空間の雑音を明示的に除去し、画像空間の飽和領域を幻覚させ、特徴空間のリングアーティファクトを抑制し、2つの相補的出力を微妙なマルチスケール融合ネットワークと統合し、高品質な夜間写真撮影を可能にする2分岐アーキテクチャを提案する。 効果的なネットワークトレーニングのために,前方イメージングモデルと後方再構成を統合した損失関数セットを設計し,ディープニューラルネットワークの収束性を確保するためにクローズループ正則化を行う。 さらに、実低照度条件におけるinfwideの応用性を最適化するために、実プロセスに基づく低照度ノイズモデルを用いて、モデルトレーニングのための現実的なノイズ写真を合成する。 従来のWienerデコンボリューションアルゴリズムの物理的に駆動された特性を活用し、ディープニューラルネットワークの表現能力を生かしたINFWIDEは、劣化中の不快なアーティファクトを抑えながら詳細を回復することができる。 合成データと実データに関する広範な実験は,提案手法の優れた性能を示す。

Under low-light environment, handheld photography suffers from severe camera shake under long exposure settings. Although existing deblurring algorithms have shown promising performance on well-exposed blurry images, they still cannot cope with low-light snapshots. Sophisticated noise and saturation regions are two dominating challenges in practical low-light deblurring. In this work, we propose a novel non-blind deblurring method dubbed image and feature space Wiener deconvolution network (INFWIDE) to tackle these problems systematically. In terms of algorithm design, INFWIDE proposes a two-branch architecture, which explicitly removes noise and hallucinates saturated regions in the image space and suppresses ringing artifacts in the feature space, and integrates the two complementary outputs with a subtle multi-scale fusion network for high quality night photograph deblurring. For effective network training, we design a set of loss functions integrating a forward imaging model and backward reconstruction to form a close-loop regularization to secure good convergence of the deep neural network. Further, to optimize INFWIDE's applicability in real low-light conditions, a physical-process-based low-light noise model is employed to synthesize realistic noisy night photographs for model training. Taking advantage of the traditional Wiener deconvolution algorithm's physically driven characteristics and arisen deep neural network's representation ability, INFWIDE can recover fine details while suppressing the unpleasant artifacts during deblurring. Extensive experiments on synthetic data and real data demonstrate the superior performance of the proposed approach.
翻訳日:2022-07-19 18:13:01 公開日:2022-07-17
# 逆拡散モデルを用いた教師なし医用画像翻訳

Unsupervised Medical Image Translation with Adversarial Diffusion Models ( http://arxiv.org/abs/2207.08208v1 )

ライセンス: Link先を確認
Muzaffer \"Ozbey, Salman UH Dar, Hasan A Bedel, Onat Dalmaz, \c{S}aban \"Ozturk, Alper G\"ung\"or, Tolga \c{C}ukur(参考訳) ソースからターゲットへのモダリティ変換による欠落画像のインプットは、医療画像における下流作業を容易にする。 対象画像を合成するための広範的アプローチは、生成的対向ネットワーク(GAN)を介してワンショットマッピングを行う。 しかし、暗黙的に画像分布を特徴づけるganモデルはサンプルの忠実さと多様性に乏しい。 本稿では,医用画像合成の信頼性を向上させるために,逆拡散モデルであるSynDiffを提案する。 画像分布の直接相関を捉えるために、SynDiffは条件拡散プロセスを利用して、ノイズとソース画像を徐々にターゲット画像にマッピングする。 推論中の高速かつ正確な画像サンプリングでは、大きな拡散ステップと逆拡散方向の逆投影が結合される。 未ペアデータセットのトレーニングを可能にするために、サイクル一貫性アーキテクチャを2つの結合拡散プロセスで考案し、対象とするソースと対象とするソースを合成する。 マルチコントラストMRIおよびMRI-CT翻訳におけるGANと拡散モデルに対するSynDiffの有用性について,広範囲な評価を行った。 実験の結果,syndiffは質的および定量的に競合するベースラインに対して優れた性能を示すことが示された。

Imputation of missing images via source-to-target modality translation can facilitate downstream tasks in medical imaging. A pervasive approach for synthesizing target images involves one-shot mapping through generative adversarial networks (GAN). Yet, GAN models that implicitly characterize the image distribution can suffer from limited sample fidelity and diversity. Here, we propose a novel method based on adversarial diffusion modeling, SynDiff, for improved reliability in medical image synthesis. To capture a direct correlate of the image distribution, SynDiff leverages a conditional diffusion process to progressively map noise and source images onto the target image. For fast and accurate image sampling during inference, large diffusion steps are coupled with adversarial projections in the reverse diffusion direction. To enable training on unpaired datasets, a cycle-consistent architecture is devised with two coupled diffusion processes to synthesize the target given source and the source given target. Extensive assessments are reported on the utility of SynDiff against competing GAN and diffusion models in multi-contrast MRI and MRI-CT translation. Our demonstrations indicate that SynDiff offers superior performance against competing baselines both qualitatively and quantitatively.
翻訳日:2022-07-19 18:12:31 公開日:2022-07-17
# 脳血管画像分割のためのMLP-GAN

MLP-GAN for Brain Vessel Image Segmentation ( http://arxiv.org/abs/2207.08265v1 )

ライセンス: Link先を確認
Bin Xie, Hao Tang, Bin Duan, Dawen Cai, Yan Yan(参考訳) 脳血管画像分割は、異なる疾患の予防と治療のために有望なバイオマーカーとして使用できる。 1つの成功したアプローチは、セグメント化を画像から画像への変換タスクとして考慮し、2つの分布間の変換を学習するための条件付き生成逆数ネットワーク(cGAN)を実行することである。 本稿では,3次元脳血管像を3次元の2次元画像(矢状,コロナ,軸方向)に分割し,それらを3次元の2次元cGANに供給する,新しいマルチビューアプローチ MLP-GAN を提案する。 提案したMLP-GANは、元の3Dニューラルネットワークに存在するメモリ問題を緩和するだけでなく、3D空間情報も保持する。 具体的には、U-Netをジェネレータのバックボーンとして利用し、近年注目を集めているMLP-Mixerと統合されたスキップ接続のパターンを再設計する。 本モデルでは,mlp-mixer を用いてクロスパッチ情報を取得し,グローバル情報を学習する。 MLP-GANは、他の最先端の手法よりも優れています。 コードをhttps://github.com/bxie9/MLP-GANでリリースします。

Brain vessel image segmentation can be used as a promising biomarker for better prevention and treatment of different diseases. One successful approach is to consider the segmentation as an image-to-image translation task and perform a conditional Generative Adversarial Network (cGAN) to learn a transformation between two distributions. In this paper, we present a novel multi-view approach, MLP-GAN, which splits a 3D volumetric brain vessel image into three different dimensional 2D images (i.e., sagittal, coronal, axial) and then feed them into three different 2D cGANs. The proposed MLP-GAN not only alleviates the memory issue which exists in the original 3D neural networks but also retains 3D spatial information. Specifically, we utilize U-Net as the backbone for our generator and redesign the pattern of skip connection integrated with the MLP-Mixer which has attracted lots of attention recently. Our model obtains the ability to capture cross-patch information to learn global information with the MLP-Mixer. Extensive experiments are performed on the public brain vessel dataset that show our MLP-GAN outperforms other state-of-the-art methods. We release our code at https://github.com/bxie9/MLP-GAN
翻訳日:2022-07-19 18:12:15 公開日:2022-07-17
# エンティティセット拡張のためのコンテキストパターンの自動生成

Automatic Context Pattern Generation for Entity Set Expansion ( http://arxiv.org/abs/2207.08087v1 )

ライセンス: Link先を確認
Yinghui Li, Shulin Huang, Xinwei Zhang, Qingyu Zhou, Yangning Li, Ruiyang Liu, Yunbo Cao, Hai-Tao Zheng, Ying Shen(参考訳) Entity Set Expansion(ESE)は、与えられたシードエンティティによって記述されたターゲットセマンティッククラスのエンティティを見つけることを目的とした、貴重なタスクである。 様々なNLPおよびIRダウンストリームアプリケーションは、知識を発見する能力により、ESEの恩恵を受けている。 既存のブートストラップメソッドは大きな進歩を遂げているが、その多くは手動で定義したコンテキストパターンに依存している。 事前定義された文脈パターンの無視できない欠点は、それらがあらゆる種類の意味クラスに柔軟に一般化できないことである。 この問題に対処するために,自動回帰言語モデル(GPT-2)を利用したコンテキストパターン生成モジュールを考案し,エンティティの高品質なコンテキストパターンを自動的に生成する。 さらに,上述したジェネアテッド・パタンをターゲットエンティティの拡張に利用した新しいESEフレームワークであるGAPAを提案する。 広範に使用される3つのデータセットに関する広範な実験と詳細な分析により,本手法の有効性が証明された。 実験のすべてのコードは再現可能になります。

Entity Set Expansion (ESE) is a valuable task that aims to find entities of the target semantic class described by given seed entities. Various NLP and IR downstream applications have benefited from ESE due to its ability to discover knowledge. Although existing bootstrapping methods have achieved great progress, most of them still rely on manually pre-defined context patterns. A non-negligible shortcoming of the pre-defined context patterns is that they cannot be flexibly generalized to all kinds of semantic classes, and we call this phenomenon as "semantic sensitivity". To address this problem, we devise a context pattern generation module that utilizes autoregressive language models (e.g., GPT-2) to automatically generate high-quality context patterns for entities. In addition, we propose the GAPA, a novel ESE framework that leverages the aforementioned GenerAted PAtterns to expand target entities. Extensive experiments and detailed analyses on three widely used datasets demonstrate the effectiveness of our method. All the codes of our experiments will be available for reproducibility.
翻訳日:2022-07-19 17:53:58 公開日:2022-07-17
# フェデレーション学習アプリケーションのためのマルチタスク・トランスファー学習

Multi-Task and Transfer Learning for Federated Learning Applications ( http://arxiv.org/abs/2207.08147v1 )

ライセンス: Link先を確認
Cihat Ke\c{c}eci, Mohammad Shaqfeh, Hayat Mbayed, and Erchin Serpedin(参考訳) フェデレートラーニングは、多数の潜在的データ保持クライアントの分散およびプライベートデータセットの恩恵を受ける多くのアプリケーションを可能にする。 しかしながら、異なるクライアントは通常、データから学ぶべきタスクの観点から、独自の目的を持っています。 したがって、マルチタスク学習やトランスファー学習といったメタ学習ツールでフェデレーション学習をサポートすることは、異なるが関連するタスクのクライアントがタスクに依存しないモデルを共有できるようにすることで、フェデレーション学習の潜在的なアプリケーションセットを拡大するのに役立つ。 連合型マルチタスク学習問題では、トレーニングされたディープニューラルネットワークモデルは、より一般化可能なパラメータを共有しながら、各クライアントの目的に合わせて微調整されるべきである。 我々は、入力とよりパーソナライズされた層に近いより一般化された層を持つディープニューラルネットワークモデルをトレーニングすることを提案する。 プレトレーニング層、共通層、タスク固有層、個人層といったレイヤ型を導入することで、これを実現する。 我々は,メタラーニングに基づく連合学習が有用であることを示す特定のシナリオを強調するためにシミュレーション結果を提供する。

Federated learning enables many applications benefiting distributed and private datasets of a large number of potential data-holding clients. However, different clients usually have their own particular objectives in terms of the tasks to be learned from the data. So, supporting federated learning with meta-learning tools such as multi-task learning and transfer learning will help enlarge the set of potential applications of federated learning by letting clients of different but related tasks share task-agnostic models that can be then further updated and tailored by each individual client for its particular task. In a federated multi-task learning problem, the trained deep neural network model should be fine-tuned for the respective objective of each client while sharing some parameters for more generalizability. We propose to train a deep neural network model with more generalized layers closer to the input and more personalized layers to the output. We achieve that by introducing layer types such as pre-trained, common, task-specific, and personal layers. We provide simulation results to highlight particular scenarios in which meta-learning-based federated learning proves to be useful.
翻訳日:2022-07-19 17:50:15 公開日:2022-07-17
# 最小記述長制御

Minimum Description Length Control ( http://arxiv.org/abs/2207.08258v1 )

ライセンス: Link先を確認
Ted Moskovitz, Ta-Chu Kao, Maneesh Sahani, Matthew M. Botvinick(参考訳) 最小記述長(MDL)原理に基づくマルチタスク強化学習のための新しいフレームワークを提案する。 MDL制御(MDL-C)と呼ばれるこのアプローチでは、エージェントは、直面するタスク間の共通構造を学習し、それをより単純な表現に蒸留し、新しいタスクへのより早い収束と一般化を容易にする。 MDL-Cは各タスクへの適応とタスク分布に対する認識的不確実性とを自然にバランスさせる。 我々はMDL-Cの原理とベイジアン推論の形式的接続を通じて、MDL-Cを動機付け、理論的な性能保証を導き、MDL-Cの離散的および高次元連続制御タスクにおける経験的効果を示す。 このフレームワークは、離散的かつ高次元の連続制御問題において、既存のポリシー最適化アプローチの修正やマルチタスク性能の向上に利用されている。

We propose a novel framework for multitask reinforcement learning based on the minimum description length (MDL) principle. In this approach, which we term MDL-control (MDL-C), the agent learns the common structure among the tasks with which it is faced and then distills it into a simpler representation which facilitates faster convergence and generalization to new tasks. In doing so, MDL-C naturally balances adaptation to each task with epistemic uncertainty about the task distribution. We motivate MDL-C via formal connections between the MDL principle and Bayesian inference, derive theoretical performance guarantees, and demonstrate MDL-C's empirical effectiveness on both discrete and high-dimensional continuous control tasks. %Empirically, this framework is used to modify existing policy optimization approaches and improves their multitask performance in both discrete and high-dimensional continuous control problems.
翻訳日:2022-07-19 17:49:56 公開日:2022-07-17
# E-NeRV: 空間的空間的文脈を考慮した高速なニューラルビデオ表現

E-NeRV: Expedite Neural Video Representation with Disentangled Spatial-Temporal Context ( http://arxiv.org/abs/2207.08132v1 )

ライセンス: Link先を確認
Zizhang Li, Mengmeng Wang, Huaijin Pi, Kechun Xu, Jianbiao Mei, Yong Liu(参考訳) 近年,映像の映像的暗黙的表現であるnervが,通常のピクセル的暗黙的表現に比べて有望な結果と高速性で人気を集めている。 しかし、ネットワーク構造内の冗長パラメータは、望ましいパフォーマンスのためにスケールアップする際に大きなモデルサイズを引き起こす可能性がある。 この現象の鍵となる理由は、フレームインデックス入力から直接ビデオフレームの空間的および時間的情報を出力するNeRVの結合定式化である。 本稿では,画像の暗黙的表現を空間的・時間的コンテキストに分解することで,NeRVを劇的に高速化するE-NeRVを提案する。 この新たな定式化の指導のもと、我々のモデルは表現能力を維持しながら冗長なモデルパラメータを大幅に削減する。 実験により,本手法はパラメータを少なくして大幅な性能向上が可能であり,コンバージェンスの高速化に8\times$以上を要した。 コードはhttps://github.com/kyleleey/E-NeRV.comで入手できる。

Recently, the image-wise implicit neural representation of videos, NeRV, has gained popularity for its promising results and swift speed compared to regular pixel-wise implicit representations. However, the redundant parameters within the network structure can cause a large model size when scaling up for desirable performance. The key reason of this phenomenon is the coupled formulation of NeRV, which outputs the spatial and temporal information of video frames directly from the frame index input. In this paper, we propose E-NeRV, which dramatically expedites NeRV by decomposing the image-wise implicit neural representation into separate spatial and temporal context. Under the guidance of this new formulation, our model greatly reduces the redundant model parameters, while retaining the representation ability. We experimentally find that our method can improve the performance to a large extent with fewer parameters, resulting in a more than $8\times$ faster speed on convergence. Code is available at https://github.com/kyleleey/E-NeRV.
翻訳日:2022-07-19 17:23:15 公開日:2022-07-17
# ディファレンシャルアクティベーションによるドメイン外GAN変換の編集

Editing Out-of-domain GAN Inversion via Differential Activations ( http://arxiv.org/abs/2207.08134v1 )

ライセンス: Link先を確認
Haorui Song, Yong Du, Tianyi Xiang, Junyu Dong, Jing Qin, Shengfeng He(参考訳) 事前訓練されたGANモデルの潜在空間における編集能力が実証されているにもかかわらず、実際の画像の反転は、元の入力に忠実に再現できないというジレンマに収まる。 この主な理由は、トレーニングデータと実世界のデータの分布が一致していないため、実際の画像編集におけるGANの逆変換が不安定である。 本稿では,構成分解パラダイムを用いて,ドメイン外反転問題に対処する新しいGAN事前編集フレームワークを提案する。 特に,合成の段階では,編集画像と未編集画像の特徴間の相対的ギャップである<ie>から意味的変化を検出するための微分活性化モジュールを導入する。 生成されたDiff-CAMマスクの助けを借りて、粗い再構成を直感的に元の画像と編集された画像で合成することができる。 このように、属性非関連領域はほぼ全体が生き残ることができるが、そのような中間結果の品質は避けられないゴースト効果によって制限される。 これにより、分解段階において、最終的な微細編集画像を粗い再構成から分離するganプリエントベースデガホストネットワークを更に提示する。 広範な実験は、質的および定量的評価の観点から、最先端の手法よりも優れていることを示している。 本手法のロバスト性と柔軟性は,単一属性操作と複数属性操作の両方のシナリオでも検証できる。

Despite the demonstrated editing capacity in the latent space of a pretrained GAN model, inverting real-world images is stuck in a dilemma that the reconstruction cannot be faithful to the original input. The main reason for this is that the distributions between training and real-world data are misaligned, and because of that, it is unstable of GAN inversion for real image editing. In this paper, we propose a novel GAN prior based editing framework to tackle the out-of-domain inversion problem with a composition-decomposition paradigm. In particular, during the phase of composition, we introduce a differential activation module for detecting semantic changes from a global perspective, \ie, the relative gap between the features of edited and unedited images. With the aid of the generated Diff-CAM mask, a coarse reconstruction can intuitively be composited by the paired original and edited images. In this way, the attribute-irrelevant regions can be survived in almost whole, while the quality of such an intermediate result is still limited by an unavoidable ghosting effect. Consequently, in the decomposition phase, we further present a GAN prior based deghosting network for separating the final fine edited image from the coarse reconstruction. Extensive experiments exhibit superiorities over the state-of-the-art methods, in terms of qualitative and quantitative evaluations. The robustness and flexibility of our method is also validated on both scenarios of single attribute and multi-attribute manipulations.
翻訳日:2022-07-19 17:22:58 公開日:2022-07-17
# 透かしワクチン:透かし除去を防ぐための敵攻撃

Watermark Vaccine: Adversarial Attacks to Prevent Watermark Removal ( http://arxiv.org/abs/2207.08178v1 )

ライセンス: Link先を確認
Xinwei Liu, Jian Liu, Yang Bai, Jindong Gu, Tao Chen, Xiaojun Jia, Xiaochun Cao(参考訳) 一般的なセキュリティツールとして、可視透かしはデジタル画像の著作権を保護するために広く使われている。 しかし、最近の研究では、ホストイメージを傷つけることなく、DNNによって見える透かしを除去できることが示されている。 このような透かし除去技術は、画像の所有権に大きな脅威をもたらす。 敵の摂動に対するDNNの脆弱性に触発されて,敵の機械学習による防御機構を提案する。 対象とするモデルとして盲目なウォーターマーク除去ネットワークを提示し, ホスト画像に対する知覚不能な逆向きの摂動を最適化し, ウォーターマークワクチン(watermark vaccine)と呼ばれるウォーターマーク除去ネットワークに対して積極的に攻撃する。 具体的には2種類のワクチンが提案されている。 破壊的なウォーターマークワクチン(DWV)は、ウォーターマーク除去ネットワークを通過した後、ウォーターマークとともにホストイメージを台無しにする。 対照的に、Inerasable Watermark Vaccine(IWV)は、透かしが取り除かれないようにし、目立たないようにする別の方法である。 DWV/IWVによる透かし除去の防止効果,特に各種透かし除去網における実証実験を行った。

As a common security tool, visible watermarking has been widely applied to protect copyrights of digital images. However, recent works have shown that visible watermarks can be removed by DNNs without damaging their host images. Such watermark-removal techniques pose a great threat to the ownership of images. Inspired by the vulnerability of DNNs on adversarial perturbations, we propose a novel defence mechanism by adversarial machine learning for good. From the perspective of the adversary, blind watermark-removal networks can be posed as our target models; then we actually optimize an imperceptible adversarial perturbation on the host images to proactively attack against watermark-removal networks, dubbed Watermark Vaccine. Specifically, two types of vaccines are proposed. Disrupting Watermark Vaccine (DWV) induces to ruin the host image along with watermark after passing through watermark-removal networks. In contrast, Inerasable Watermark Vaccine (IWV) works in another fashion of trying to keep the watermark not removed and still noticeable. Extensive experiments demonstrate the effectiveness of our DWV/IWV in preventing watermark removal, especially on various watermark removal networks.
翻訳日:2022-07-19 17:22:36 公開日:2022-07-17
# Mind the Gap: 精密半教師対象検出のための擬似ラベルのポーリング

Mind the Gap: Polishing Pseudo labels for Accurate Semi-supervised Object Detection ( http://arxiv.org/abs/2207.08185v1 )

ライセンス: Link先を確認
Lei Zhang, Yuxuan Sun, Wei Wei(参考訳) 教師検出器によって生成された無注釈物体の擬似ラベル(例えばカテゴリと境界ボックス)の爆発は、半教師対象検出(SSOD)の最近の進歩の多くを支えている。 しかし、アノテーション不足による教師検出器の一般化能力の制限により、生成した擬似ラベルは、特に分類信頼度が比較的低いものから逸脱することが多く、SSODの一般化性能が制限される。 この問題を軽減するため,我々はssodのデュアル擬似ラベル研磨フレームワークを提案する。 教師検出器が生成する擬似ラベルを直接活用する代わりに、2つの異なる構成された研磨ネットワークを合成された擬似ラベルと、与えられた注釈付きオブジェクトのカテゴリとバウンドボックスに対して対応する基底真理を用いて精巧に開発・訓練する双対研磨学習を用いて、基底真理からの逸脱を減少させる最初の試みを行う。 これにより、初期生成した擬似ラベルに基づいて文脈知識を十分に活用し、より正確な無意味オブジェクトの擬似ラベルを推測し、SSODの一般化性能を向上させることができる。 さらに、このようなスキームを既存のssodフレームワークにシームレスにプラグインして、エンドツーエンド学習を組み合わせることもできる。 さらに,ssodにおける分類分類と境界ボックス回帰を分離するために,非注釈オブジェクトの磨き出された擬似カテゴリと境界ボックスを分離し,モデルトレーニング中により無注釈オブジェクトを導入することにより,さらに性能を向上させることを提案する。 PASCAL VOCとMS COCOのベンチマーク実験は、既存の最先端ベースラインよりも提案手法の方が優れていることを示した。

Exploiting pseudo labels (e.g., categories and bounding boxes) of unannotated objects produced by a teacher detector have underpinned much of recent progress in semi-supervised object detection (SSOD). However, due to the limited generalization capacity of the teacher detector caused by the scarce annotations, the produced pseudo labels often deviate from ground truth, especially those with relatively low classification confidences, thus limiting the generalization performance of SSOD. To mitigate this problem, we propose a dual pseudo-label polishing framework for SSOD. Instead of directly exploiting the pseudo labels produced by the teacher detector, we take the first attempt at reducing their deviation from ground truth using dual polishing learning, where two differently structured polishing networks are elaborately developed and trained using synthesized paired pseudo labels and the corresponding ground truth for categories and bounding boxes on the given annotated objects, respectively. By doing this, both polishing networks can infer more accurate pseudo labels for unannotated objects through sufficiently exploiting their context knowledge based on the initially produced pseudo labels, and thus improve the generalization performance of SSOD. Moreover, such a scheme can be seamlessly plugged into the existing SSOD framework for joint end-to-end learning. In addition, we propose to disentangle the polished pseudo categories and bounding boxes of unannotated objects for separate category classification and bounding box regression in SSOD, which enables introducing more unannotated objects during model training and thus further improve the performance. Experiments on both PASCAL VOC and MS COCO benchmarks demonstrate the superiority of the proposed method over existing state-of-the-art baselines.
翻訳日:2022-07-19 17:22:02 公開日:2022-07-17
# 局所教師付き学習を用いたギガピクセル全画像分類

Gigapixel Whole-Slide Images Classification using Locally Supervised Learning ( http://arxiv.org/abs/2207.08267v1 )

ライセンス: Link先を確認
Jingwei Zhang, Xin Zhang, Ke Ma, Rajarsi Gupta, Joel Saltz, Maria Vakalopoulou, Dimitris Samaras(参考訳) 病理組織学whole slide images(wsis)は臨床研究において非常に重要な役割を担っており、多くのがん診断のゴールドスタンダードとなっている。 しかし,wsis処理のための自動ツールの生成は,その巨大さから困難である。 現在、この問題に対処するために、従来のメソッドはパッチレベルでWSIを処理するために多重インスタンス学習(MIL)戦略に依存しています。 なぜなら、WSIをパッチにタイリングするには時間がかかるし、これらのタイル間の空間的関係を探索しないからだ。 これらの制限に対処するために,我々は,その内包するローカル情報とグローバル情報を探索することにより,スライド全体を処理するローカル教師付き学習フレームワークを提案する。 このフレームワークは、事前訓練されたネットワークを複数のモジュールに分割し、補助モデルを使用して各モジュールをローカルに最適化する。 また,訓練中に特徴の区別を保ち,手法の性能を1%から3%向上させるランダム特徴再構成ユニット(RFR)も導入した。 TCGA-NSCLC、TCGA-RCC、LKSの3つの公開WSIデータセットに対する大規模な実験は、異なる分類タスクにおける我々の方法の優位性を強調している。 提案手法は,最先端のMIL法を精度2%から5%向上し,精度は7倍から10倍向上した。 さらに、8つのモジュールに分割する場合は、エンドツーエンドのトレーニングに必要な全gpuメモリの20%しか必要としない。 私たちのコードはhttps://github.com/cvlab-stonybrook/local_learning_wsiで利用可能です。

Histopathology whole slide images (WSIs) play a very important role in clinical studies and serve as the gold standard for many cancer diagnoses. However, generating automatic tools for processing WSIs is challenging due to their enormous sizes. Currently, to deal with this issue, conventional methods rely on a multiple instance learning (MIL) strategy to process a WSI at patch level. Although effective, such methods are computationally expensive, because tiling a WSI into patches takes time and does not explore the spatial relations between these tiles. To tackle these limitations, we propose a locally supervised learning framework which processes the entire slide by exploring the entire local and global information that it contains. This framework divides a pre-trained network into several modules and optimizes each module locally using an auxiliary model. We also introduce a random feature reconstruction unit (RFR) to preserve distinguishing features during training and improve the performance of our method by 1% to 3%. Extensive experiments on three publicly available WSI datasets: TCGA-NSCLC, TCGA-RCC and LKS, highlight the superiority of our method on different classification tasks. Our method outperforms the state-of-the-art MIL methods by 2% to 5% in accuracy, while being 7 to 10 times faster. Additionally, when dividing it into eight modules, our method requires as little as 20% of the total gpu memory required by end-to-end training. Our code is available at https://github.com/cvlab-stonybrook/local_learning_wsi.
翻訳日:2022-07-19 17:21:32 公開日:2022-07-17
# 欠陥変圧器:表面欠陥検出のための効率的なハイブリッド変圧器アーキテクチャ

Defect Transformer: An Efficient Hybrid Transformer Architecture for Surface Defect Detection ( http://arxiv.org/abs/2207.08319v1 )

ライセンス: Link先を確認
Junpu Wang, Guili Xu, Fuju Yan, Jinjin Wang and Zhengsheng Wang(参考訳) 表面欠陥検出は、工業製品の品質を確保するための極めて重要なステップである。 現在、エンコーダ-デコーダアーキテクチャに基づく畳み込みニューラルネットワーク(cnns)は、様々な欠陥検出タスクで大きな成功を収めている。 しかし、畳み込みの本質的な局所性のため、複雑な場合、例えば、乱れの背景や不可解な擬似欠陥などにおいて、画素単位の欠陥検出に不可欠な長距離相互作用を明示的にモデル化する際の制限が一般的に示される。 近年のトランスフォーマーは特にグローバルな画像依存の学習に長けているが、詳細な欠陥検出に必要な局所構造情報は限られている。 上記の制限を克服するため,CNNと変圧器を統合モデルに組み込んだ局所的および非局所的関係を協調的にキャプチャする,表面欠陥検出のための効率的なハイブリッドトランスアーキテクチャであるDefect Transformer (DefT)を提案する。 具体的には、エンコーダモジュールにおいて、まず畳み込みstemブロックを採用し、より詳細な空間情報を保持する。 次に、パッチアグリゲーションブロックを用いて、4つの階層からなるマルチスケール表現を生成し、それぞれに局所位置符号化のための局所位置認識ブロックと、計算効率の良いマルチスケールのグローバルコンテキスト関係をモデル化するための軽量マルチプールセルフアテンションと、特徴変換およびさらなる位置情報学習のための畳み込みフィードフォワードネットワークを含む一連のデフレットブロックを追従する。 最後に, 単純だが効果的なデコーダモジュールを提案し, エンコーダのスキップ接続から空間的詳細を徐々に復元する。 3つのデータセットに関する広範な実験は、他のcnnおよびtransformerベースのネットワークと比較して、提案手法の優位性と効率を示している。

Surface defect detection is an extremely crucial step to ensure the quality of industrial products. Nowadays, convolutional neural networks (CNNs) based on encoder-decoder architecture have achieved tremendous success in various defect detection tasks. However, due to the intrinsic locality of convolution, they commonly exhibit a limitation in explicitly modeling long-range interactions, critical for pixel-wise defect detection in complex cases, e.g., cluttered background and illegible pseudo-defects. Recent transformers are especially skilled at learning global image dependencies but with limited local structural information necessary for detailed defect location. To overcome the above limitations, we propose an efficient hybrid transformer architecture, termed Defect Transformer (DefT), for surface defect detection, which incorporates CNN and transformer into a unified model to capture local and non-local relationships collaboratively. Specifically, in the encoder module, a convolutional stem block is firstly adopted to retain more detailed spatial information. Then, the patch aggregation blocks are used to generate multi-scale representation with four hierarchies, each of them is followed by a series of DefT blocks, which respectively include a locally position-aware block for local position encoding, a lightweight multi-pooling self-attention to model multi-scale global contextual relationships with good computational efficiency, and a convolutional feed-forward network for feature transformation and further location information learning. Finally, a simple but effective decoder module is proposed to gradually recover spatial details from the skip connections in the encoder. Extensive experiments on three datasets demonstrate the superiority and efficiency of our method compared with other CNN- and transformer-based networks.
翻訳日:2022-07-19 17:21:07 公開日:2022-07-17
# DIMBA:単一物体追跡におけるブラックボックス攻撃

DIMBA: Discretely Masked Black-Box Attack in Single Object Tracking ( http://arxiv.org/abs/2207.08044v1 )

ライセンス: Link先を確認
Xiangyu Yin, Wenjie Ruan, Jonathan Fieldsend(参考訳) 敵攻撃は、CNNベースのモデルに、人間の知覚できない入力を巧みに操作することで、誤った出力を強制することができる。 このような摂動を探索することで、ニューラルネットワークの脆弱性をより深く理解し、さまざまな敵に対するディープラーニングへの堅牢性が得られます。 画像、オーディオ、NLPの堅牢性に焦点を当てた広範な研究にもかかわらず、視覚的物体追跡(特にブラックボックス方式で)の敵対的な例に焦点を当てている。 本稿では,ブラックボックス設定下での単一物体追跡のためのノイズ生成手法を提案する。この手法では,トラッキングシーケンスの初期フレームに摂動を付加するだけで,ビデオクリップ全体の観点からは認識が難しい。 具体的には,アルゴリズムを3つのコンポーネントに分割し,重要なフレームパッチを精度よくローカライズするために強化学習を利用する。 既存の手法と比較して,ビデオの初期化フレームに対するクエリを少なくすることで,競合性や攻撃性能の面で優れる。 我々は,OTB100,VOT2018,UAV123,LaSOTなど,長期および短期両方のデータセットでアルゴリズムをテストする。 広汎な実験により,本手法が3種類の主流トラッカー – 識別,シームズベース,強化学習ベーストラッカー – に与える影響が示された。

The adversarial attack can force a CNN-based model to produce an incorrect output by craftily manipulating human-imperceptible input. Exploring such perturbations can help us gain a deeper understanding of the vulnerability of neural networks, and provide robustness to deep learning against miscellaneous adversaries. Despite extensive studies focusing on the robustness of image, audio, and NLP, works on adversarial examples of visual object tracking -- especially in a black-box manner -- are quite lacking. In this paper, we propose a novel adversarial attack method to generate noises for single object tracking under black-box settings, where perturbations are merely added on initial frames of tracking sequences, which is difficult to be noticed from the perspective of a whole video clip. Specifically, we divide our algorithm into three components and exploit reinforcement learning for localizing important frame patches precisely while reducing unnecessary computational queries overhead. Compared to existing techniques, our method requires fewer queries on initialized frames of a video to manipulate competitive or even better attack performance. We test our algorithm in both long-term and short-term datasets, including OTB100, VOT2018, UAV123, and LaSOT. Extensive experiments demonstrate the effectiveness of our method on three mainstream types of trackers: discrimination, Siamese-based, and reinforcement learning-based trackers.
翻訳日:2022-07-19 16:38:13 公開日:2022-07-17
# MDM:マルチダイナミックマスクによるニューラルネットワークの視覚的説明

MDM:Visual Explanations for Neural Networks via Multiple Dynamic Mask ( http://arxiv.org/abs/2207.08046v1 )

ライセンス: Link先を確認
Yitao Peng, Longzhen Yang, Yihang Liu, Lianghua He(参考訳) ニューラルネットワークのアクティブな領域検索は、ニューラルネットワークが決定を行うときにどの領域に焦点を当てているかを教え、ニューラルネットワークが分類決定を行うときの解釈可能性の基礎を与える。 提案手法は,推定過程を解釈可能な一般的なグラフ問合せ法であるアルゴリズム多重動的マスク(mdm)を提案する。 その提案は、トレーニングされたニューラルネットワークに画像が入力されると、分類に関連する活性化特徴がニューラルネットワークの分類結果に影響を与え、分類に関係のない特徴がネットワークの分類結果にほとんど影響しないという仮定に基づいている。 MDM: ニューラルネットワークの分類に関心のある領域を見つけるための学習ベースのエンドツーエンドアルゴリズム。 次のような利点がある。 1.推論プロセスの解釈可能性を有する。 2. 普遍的であり、任意のニューラルネットワークに使用することができ、ニューラルネットワークの内部構造に依存しない。 3.検索性能は良い。 このアルゴリズムは、マスクを生成する学習に基づいており、異なるデータやネットワークに適応する能力を持っているため、前回の論文で提案した手法よりも性能が優れている。 MDMサリエンシマップ探索アルゴリズムでは、様々なサリエンシマップ探索法の性能指標と、トレーニングニューラルネットワークとしてResNetとDenseNetを用いてMDMの性能指標を実験的に比較した。 mdmの探索効果性能は最先端に到達した。 我々は,解釈可能なニューラルネットワークProtoPNetとXProtoNetにMDMを適用し,モデルの解釈可能性と探索性能を改善した。 畳み込み型ニューラルアーキテクチャとトランスフォーマーアーキテクチャのサリエンシマップ検索における性能を可視化する。

The active region lookup of a neural network tells us which regions the neural network focuses on when making a decision, which gives us a basis for interpretability when the neural network makes a classification decision. We propose an algorithm Multiple Dynamic Mask(MDM), which is a general saliency graph query method with interpretability of the inference process. Its proposal is based on an assumption: when a picture is input to a neural network that has been trained, the activation features related to classification will affect the classification results of the neural network, and the features unrelated to classification will hardly affect the classification results of the network. MDM: A learning-based end-to-end algorithm for finding regions of interest for neural network classification. It has the following advantages: 1. It has the interpretability of the reasoning process. 2. It is universal, it can be used for any neural network and does not depend on the internal structure of the neural network. 3. The search performance is better. Because the algorithm is based on learning to generate masks and has the ability to adapt to different data and networks, the performance is better than the method proposed in the previous paper. For the MDM saliency map search algorithm, we experimentally compared the performance indicators of various saliency map search methods and the MDM with ResNet and DenseNet as the trained neural networks. The search effect performance of the MDM reached the state of the art. We applied the MDM to the interpretable neural network ProtoPNet and XProtoNet, which improved the interpretability of the model and the prototype search performance. We visualize the performance of convolutional neural architecture and Transformer architecture on saliency map search.
翻訳日:2022-07-19 16:37:49 公開日:2022-07-17
# CNNを用いたRGB-Dデータ中の人間検出

Detecting Humans in RGB-D Data with CNNs ( http://arxiv.org/abs/2207.08064v1 )

ライセンス: Link先を確認
Kaiyang Zhou, Adeline Paiement, Majid Mirmehdi(参考訳) 深度情報を活用するRGB-Dデータにおける人物検出の問題に対処し,2つの色と深度CNNに対して提案する関心領域選択法を開発した。 2つのcnnによる検出を組み合わせるために,深度画像の特性に基づく新しい融合手法を提案する。 また、3つのチャネルに深度画像をエンコードするだけでなく、分類のための情報も強化する新しい深度符号化方式を提案する。 公開可能なRGB-Dピープルデータセットで実験を行い、RGBデータのみを使用するベースラインモデルよりも優れていることを示す。

We address the problem of people detection in RGB-D data where we leverage depth information to develop a region-of-interest (ROI) selection method that provides proposals to two color and depth CNNs. To combine the detections produced by the two CNNs, we propose a novel fusion approach based on the characteristics of depth images. We also present a new depth-encoding scheme, which not only encodes depth images into three channels but also enhances the information for classification. We conduct experiments on a publicly available RGB-D people dataset and show that our approach outperforms the baseline models that only use RGB data.
翻訳日:2022-07-19 16:37:23 公開日:2022-07-17
# スケッチベース顔画像生成における実例正規化が細粒度制御に及ぼす影響

Effect of Instance Normalization on Fine-Grained Control for Sketch-Based Face Image Generation ( http://arxiv.org/abs/2207.08072v1 )

ライセンス: Link先を確認
Zhihua Cheng, Xuejin Chen(参考訳) スケッチは直感的で効果的なコンテンツ作成方法です。 生成的逆ネットワークを用いたフォトリアリスティックな画像生成は大きな進歩を遂げているが、合成コンテンツのきめ細かい制御はいまだに困難である。 既存の画像翻訳ネットワークで広く採用されているインスタンス正規化層は、入力スケッチの詳細を洗い流し、生成された顔画像の所望の形状を正確に制御することができない。 本稿では,手描きスケッチからの写実的顔画像生成におけるインスタンス正規化の効果を包括的に検討する。 まず,具体的変更群を用いてスケッチの特徴埋め込みを分析するための可視化手法を提案する。 視覚的解析に基づいて、ベースライン画像翻訳モデルにおけるインスタンス正規化層を変更する。 特別にデザインされた11のカテゴリからなる手描きスケッチの新たなセットを精査し、広範な実験分析を行う。 その結果,本手法は合成画像の品質とユーザの意図による適合性が著しく向上することが示された。

Sketching is an intuitive and effective way for content creation. While significant progress has been made for photorealistic image generation by using generative adversarial networks, it remains challenging to take a fine-grained control on synthetic content. The instance normalization layer, which is widely adopted in existing image translation networks, washes away details in the input sketch and leads to loss of precise control on the desired shape of the generated face images. In this paper, we comprehensively investigate the effect of instance normalization on generating photorealistic face images from hand-drawn sketches. We first introduce a visualization approach to analyze the feature embedding for sketches with a group of specific changes. Based on the visual analysis, we modify the instance normalization layers in the baseline image translation model. We elaborate a new set of hand-drawn sketches with 11 categories of specially designed changes and conduct extensive experimental analysis. The results and user studies demonstrate that our method markedly improve the quality of synthesized images and the conformance with user intention.
翻訳日:2022-07-19 16:37:12 公開日:2022-07-17
# CATRE: カテゴリレベルのオブジェクトポスリファインメントのための反復点雲アライメント

CATRE: Iterative Point Clouds Alignment for Category-level Object Pose Refinement ( http://arxiv.org/abs/2207.08082v1 )

ライセンス: Link先を確認
Xingyu Liu, Gu Wang, Yi Li, Xiangyang Ji(参考訳) カテゴリレベルの9DoFオブジェクトのポーズ推定が最近現れたが、オブジェクトの形状や色などに大きな違いがあるため、従来の対応型あるいは直接回帰型の手法は正確性に制限されている。 直交的に、この研究はカテゴリーレベルのオブジェクトポーズとサイズリファインダCATREを示し、点雲からのポーズ推定を反復的に強化して正確な結果を生成することができる。 初期ポーズ推定を仮定すると、catreは、部分観測された点雲と抽象的な形状を事前に整列させることによって、初期ポーズと基底真理の間の相対的な変換を予測する。 具体的には,回転と翻訳/サイズ推定に固有の違いを認識した,新しい異方性アーキテクチャを提案する。 大規模な実験により,REAL275,CAMERA25,LMのベンチマークでは,85.32Hzの速度で最先端の手法を著しく上回り,カテゴリーレベルの追跡において競合的な結果が得られることが示された。 さらに、CATREは目に見えないカテゴリーでポーズ改善を行うことができることを示す。 コードとトレーニングされたモデルが利用可能だ。

While category-level 9DoF object pose estimation has emerged recently, previous correspondence-based or direct regression methods are both limited in accuracy due to the huge intra-category variances in object shape and color, etc. Orthogonal to them, this work presents a category-level object pose and size refiner CATRE, which is able to iteratively enhance pose estimate from point clouds to produce accurate results. Given an initial pose estimate, CATRE predicts a relative transformation between the initial pose and ground truth by means of aligning the partially observed point cloud and an abstract shape prior. In specific, we propose a novel disentangled architecture being aware of the inherent distinctions between rotation and translation/size estimation. Extensive experiments show that our approach remarkably outperforms state-of-the-art methods on REAL275, CAMERA25, and LM benchmarks up to a speed of ~85.32Hz, and achieves competitive results on category-level tracking. We further demonstrate that CATRE can perform pose refinement on unseen category. Code and trained models are available.
翻訳日:2022-07-19 16:36:54 公開日:2022-07-17
# クロスデータセット骨格に基づく行動認識のための時空間キュービズムからの学習

Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based Action Recognition ( http://arxiv.org/abs/2207.08095v1 )

ライセンス: Link先を確認
Yansong Tang, Xingyu Liu, Xumin Yu, Danyang Zhang, Jiwen Lu, Jie Zhou(参考訳) 近年,骨格に基づく行動認識において,急速な進歩と優れた性能が達成されている。 本稿では,実世界のシナリオにおいて,新しい,実用的で困難な課題であるクロスデータセット設定の下でこの問題を考察する。 unsupervised domain adaptation (uda)パラダイムに従って、アクションラベルはソースデータセットでのみ使用可能だが、トレーニングステージではターゲットデータセットでは使用できない。 UDAの従来の逆学習に基づくアプローチとは異なり、我々は2つの骨格に基づく行動データセット間のドメインシフトを減らすために自己超越スキームを利用する。 私たちのインスピレーションは20世紀初頭の芸術ジャンルであるカビズム(cubism)から来ています。 時間的セグメントや人体部分のセグメンテーションとパータスクによって、骨格に基づく行動の時間的および空間的依存性を探索し、モデルの一般化能力を向上させるために、2つの自己教師付き学習分類タスクを設計する。 我々は,3つの大規模データセット(NTU RGB+D, PKU-MMD, Kinetics)を含む骨格に基づく行動認識のための6つのデータセットの実験を行った。 その結果,本手法は最先端手法よりも優れていた。 我々のモデルと比較したメソッドのソースコードはhttps://github.com/shanice-l/st-cubism.comで入手できる。

Rapid progress and superior performance have been achieved for skeleton-based action recognition recently. In this article, we investigate this problem under a cross-dataset setting, which is a new, pragmatic, and challenging task in real-world scenarios. Following the unsupervised domain adaptation (UDA) paradigm, the action labels are only available on a source dataset, but unavailable on a target dataset in the training stage. Different from the conventional adversarial learning-based approaches for UDA, we utilize a self-supervision scheme to reduce the domain shift between two skeleton-based action datasets. Our inspiration is drawn from Cubism, an art genre from the early 20th century, which breaks and reassembles the objects to convey a greater context. By segmenting and permuting temporal segments or human body parts, we design two self-supervised learning classification tasks to explore the temporal and spatial dependency of a skeleton-based action and improve the generalization ability of the model. We conduct experiments on six datasets for skeleton-based action recognition, including three large-scale datasets (NTU RGB+D, PKU-MMD, and Kinetics) where new cross-dataset settings and benchmarks are established. Extensive results demonstrate that our method outperforms state-of-the-art approaches. The source codes of our model and all the compared methods are available at https://github.com/shanice-l/st-cubism.
翻訳日:2022-07-19 16:36:34 公開日:2022-07-17
# 多段階逆モデルによる制御可能な潜在状態の探索

Guaranteed Discovery of Controllable Latent States with Multi-Step Inverse Models ( http://arxiv.org/abs/2207.08229v1 )

ライセンス: Link先を確認
Alex Lamb, Riashat Islam, Yonathan Efroni, Aniket Didolkar, Dipendra Misra, Dylan Foster, Lekan Molu, Rajan Chari, Akshay Krishnamurthy, John Langford(参考訳) 世界のあらゆる側面をモデル化しようとする街を歩いている人は、すぐに多くの店、車、そして視界外を移動している人々によって圧倒され、彼ら自身の複雑で不可解なダイナミクスに従います。 このような環境での探索と航海は日常的な作業であり、精神的な資源を大量に消費する必要はない。 この感覚情報の消火ホースを、エージェントが世界でうまく行動するのに必要で十分な最小限の潜伏状態に変えることは可能か? エージェント制御可能な状態発見アルゴリズム (ac-state) は, エージェント制御に必要な情報をすべて含みながら, 完全に無関係な情報を破棄する, 理論的保証を持ち, 実質的には, エージェント制御に必要な情報をすべて含む \textit{minimal controllable latent state} を発見する。 このアルゴリズムは、情報ボトルネックを持つ多段階逆モデル(遠方観測からの行動予測)から成り立っている。 AC-Stateは、報酬やデモンストレーションなしで、ローカライズ、探索、ナビゲーションを可能にする。 3つの領域において、制御可能な潜伏状態の発見を実証する。例えば、照明条件や背景を変更するロボットアームの局所化、他のエージェントと共に迷路を探索し、Matterportハウスシミュレータをナビゲートする。

A person walking along a city street who tries to model all aspects of the world would quickly be overwhelmed by a multitude of shops, cars, and people moving in and out of view, following their own complex and inscrutable dynamics. Exploration and navigation in such an environment is an everyday task, requiring no vast exertion of mental resources. Is it possible to turn this fire hose of sensory information into a minimal latent state which is necessary and sufficient for an agent to successfully act in the world? We formulate this question concretely, and propose the Agent-Controllable State Discovery algorithm (AC-State), which has theoretical guarantees and is practically demonstrated to discover the \textit{minimal controllable latent state} which contains all of the information necessary for controlling the agent, while fully discarding all irrelevant information. This algorithm consists of a multi-step inverse model (predicting actions from distant observations) with an information bottleneck. AC-State enables localization, exploration, and navigation without reward or demonstrations. We demonstrate the discovery of controllable latent state in three domains: localizing a robot arm with distractions (e.g., changing lighting conditions and background), exploring in a maze alongside other agents, and navigating in the Matterport house simulator.
翻訳日:2022-07-19 16:21:39 公開日:2022-07-17
# 一階経験的リスク最小化のための一様安定性

Uniform Stability for First-Order Empirical Risk Minimization ( http://arxiv.org/abs/2207.08257v1 )

ライセンス: Link先を確認
Amit Attia and Tomer Koren(参考訳) 経験的リスク最小化のための一様安定な一階最適化アルゴリズムの設計の問題を考える。 一様安定性は最適化アルゴリズムの一般化誤差境界を得るためによく使われ、それを達成するための一般的なアプローチに関心を持っている。 ユークリッド幾何学において、滑らかな最適化アルゴリズムが与えられたブラックボックス変換は、その収束率を対数係数まで維持しながら、一様に安定なアルゴリズムを生成する。 この還元を用いて、収束率$\widetilde{O}(1/T^2)$と均一安定性$O(T^2/n)$で滑らかな最適化のための(ほぼ)最適アルゴリズムを得る。 より一般的な幾何学では、収束率 $\widetilde{o}(1/t)$ と一様安定性 $o(t/n)$ を持つ滑らかな最適化のためのミラー降下の変種を開発し、ユークリッドの場合のように一般変換法を考案する問題に疑問を投げかける。

We consider the problem of designing uniformly stable first-order optimization algorithms for empirical risk minimization. Uniform stability is often used to obtain generalization error bounds for optimization algorithms, and we are interested in a general approach to achieve it. For Euclidean geometry, we suggest a black-box conversion which given a smooth optimization algorithm, produces a uniformly stable version of the algorithm while maintaining its convergence rate up to logarithmic factors. Using this reduction we obtain a (nearly) optimal algorithm for smooth optimization with convergence rate $\widetilde{O}(1/T^2)$ and uniform stability $O(T^2/n)$, resolving an open problem of Chen et al. (2018); Attia and Koren (2021). For more general geometries, we develop a variant of Mirror Descent for smooth optimization with convergence rate $\widetilde{O}(1/T)$ and uniform stability $O(T/n)$, leaving open the question of devising a general conversion method as in the Euclidean case.
翻訳日:2022-07-19 16:21:16 公開日:2022-07-17
# 改良型ReLUネットワークによる非パラメトリック回帰

Nonparametric regression with modified ReLU networks ( http://arxiv.org/abs/2207.08306v1 )

ライセンス: Link先を確認
Aleksandr Beknazaryan and Hailin Sang(参考訳) 本稿では,ネットワーク重み行列が入力ベクトルに乗算される前に$\alpha$関数によって修正されるreluニューラルネットワークを用いた回帰推定について検討する。 l_1$ と 2乗値 $l_2$ を持つ修正 relu ネットワークのクラスに対して経験的リスクを最小化する連続的線形関数 $\alpha$ の例を示し、対数係数まで、未知の $\beta$-smooth 関数の最小予測率を得る。

We consider regression estimation with modified ReLU neural networks in which network weight matrices are first modified by a function $\alpha$ before being multiplied by input vectors. We give an example of continuous, piecewise linear function $\alpha$ for which the empirical risk minimizers over the classes of modified ReLU networks with $l_1$ and squared $l_2$ penalties attain, up to a logarithmic factor, the minimax rate of prediction of unknown $\beta$-smooth function.
翻訳日:2022-07-19 16:20:54 公開日:2022-07-17
# nlpにおける説明可能性に向けて : 単語特性による単語のサリエンシーの分析と計算

Towards Explainability in NLP: Analyzing and Calculating Word Saliency through Word Properties ( http://arxiv.org/abs/2207.08083v1 )

ライセンス: Link先を確認
Jialiang Dong, Zhitao Guan, Longfei Wu, Zijian Zhang(参考訳) 自然言語処理におけるブラックボックスモデルの利用は、決定基盤の理解、予測結果の信頼性、モデル性能の向上に大きな課題をもたらす。 テキストサンプル中の単語は、その意味や文脈情報を反映する特性を持ち、例えば、音声の一部、位置などである。 これらの性質は、saliencyという単語と特定の関係を持つ可能性があり、モデル予測の説明可能性を研究するのに大いに役立つ。 本稿では,「塩分」と「特性」の関係について考察する。 分析結果により,テキストサンプル中の単語とその特性から,シーケンスタグの考え方に基づくサリエンシー値へのマッピングモデルseo2saliencyがさらに確立された。 さらに,テキストサンプル中の各単語,単語特性,単語サリエンシー値を含む,prsalmと呼ばれる新しいデータセットを構築した。 本研究は, 異なる特性の単語の塩分を解析するために, 実験的評価を行った。 Seq2Saliencyモデルの有効性を検証する。

The wide use of black-box models in natural language processing brings great challenges to the understanding of the decision basis, the trustworthiness of the prediction results, and the improvement of the model performance. The words in text samples have properties that reflect their semantics and contextual information, such as the part of speech, the position, etc. These properties may have certain relationships with the word saliency, which is of great help for studying the explainability of the model predictions. In this paper, we explore the relationships between the word saliency and the word properties. According to the analysis results, we further establish a mapping model, Seq2Saliency, from the words in a text sample and their properties to the saliency values based on the idea of sequence tagging. In addition, we establish a new dataset called PrSalM, which contains each word in the text samples, the word properties, and the word saliency values. The experimental evaluations are conducted to analyze the saliency of words with different properties. The effectiveness of the Seq2Saliency model is verified.
翻訳日:2022-07-19 16:17:08 公開日:2022-07-17
# 米国の政治家、2016年の予備選挙にもっと否定的

United States Politicians' Tone Became More Negative with 2016 Primary Campaigns ( http://arxiv.org/abs/2207.08112v1 )

ライセンス: Link先を確認
Jonathan K\"ulz, Andreas Spitz, Ahmad Abu-Akel, Stephan G\"unnemann, Robert West(参考訳) ドナルド・トランプが政治に参入したとき、米国の政治言語のトーンが最近よりネガティブになったという広く信じられている。 同時に、トランプが変化したのか、単に以前の傾向を続けただけなのかについては意見の相違がある。 現在では、政治家の発声の包括的・縦断的な記録を得るのが困難であることから、これらの疑問に関するデータ主導の証拠は少ない。 ここでは、2008年から2020年の間に米国の政治家の言語がどう変化したかを分析するために、オンラインニュースの2400万件の引用を18,627人の米国政治家にまとめた新しい包括的なコーパスに、精神言語学的ツールを適用する。 オバマの任期中にネガティブな感情の単語の頻度が継続的に減少していたのに対して、2016年の予備選挙では、キャンプ前標準偏差の1.6倍、キャンプ前平均の8%が、政党間で出現するパターンで突然、そして継続的に増加したことが示されています。 トランプ氏の引用を省いた場合、効果の大きさは40%減少し、引用よりも平均的な話者よりも50%小さくなった。 この研究は、トランプの選挙運動が始まり、よりネガティブな政治傾向への大きなシフトを示す最初の大規模データ駆動の証拠となり、米国の政治状態に関する議論に重要な意味を持つ。

There is a widespread belief that the tone of US political language has become more negative recently, in particular when Donald Trump entered politics. At the same time, there is disagreement as to whether Trump changed or merely continued previous trends. To date, data-driven evidence regarding these questions is scarce, partly due to the difficulty of obtaining a comprehensive, longitudinal record of politicians' utterances. Here we apply psycholinguistic tools to a novel, comprehensive corpus of 24 million quotes from online news attributed to 18,627 US politicians in order to analyze how the tone of US politicians' language evolved between 2008 and 2020. We show that, whereas the frequency of negative emotion words had decreased continuously during Obama's tenure, it suddenly and lastingly increased with the 2016 primary campaigns, by 1.6 pre-campaign standard deviations, or 8% of the pre-campaign mean, in a pattern that emerges across parties. The effect size drops by 40% when omitting Trump's quotes, and by 50% when averaging over speakers rather than quotes, implying that prominent speakers, and Trump in particular, have disproportionately, though not exclusively, contributed to the rise in negative language. This work provides the first large-scale data-driven evidence of a drastic shift toward a more negative political tone following Trump's campaign start as a catalyst, with important implications for the debate about the state of US politics.
翻訳日:2022-07-19 16:16:51 公開日:2022-07-17
# ELECTRAは、ゼロショットの学習者でもある

ELECTRA is a Zero-Shot Learner, Too ( http://arxiv.org/abs/2207.08141v1 )

ライセンス: Link先を確認
Shiwen Ni and Hung-Yu Kao(参考訳) 近年,数発あるいはゼロショットの学習において,新しいパラダイムである"pre-train, prompt, and predict"は,"pre-train, fine-tune"パラダイムと比較して,目覚ましい成果を上げた。 プロンプトベースのgpt-3の成功の後、一連のマスク言語モデル(mlm)ベースのプロンプト学習法(bert、robertaなど)が普及し、広く使われるようになった。 しかし、別の効率的な事前訓練型識別モデルELECTRAは、おそらく無視されている。 本稿では,代用トークン検出(RTD)に基づく高速学習手法を提案することで,ゼロショットシナリオにおける複数のNLPタスクの実現を試みた。 実験結果から,RTD-prompt 学習に基づくELECTRAモデルが驚くほど最先端のゼロショット性能を実現することが示された。 数値的には,MLM-RoBERTa-largeとMLM-BERT-largeと比較して,RTD-ELECTRA-largeは平均8.4%,13.7%改善している。 特にSST-2タスクでは、RTD-ELECTRA-largeはトレーニングデータなしで驚くべき90.1%の精度を実現している。 全体として、事前学習されたマスク言語モデルと比較して、訓練済みのトークン検出モデルの方がゼロショット学習において優れた性能を発揮する。 したがって、ELECTRAは優れたゼロショット学習者である。 ソースコードはhttps://github.com/ nishiwen1214/rtd-electra。

Recently, for few-shot or even zero-shot learning, the new paradigm "pre-train, prompt, and predict" has achieved remarkable achievements compared with the "pre-train, fine-tune" paradigm. After the success of prompt-based GPT-3, a series of masked language model (MLM)-based (e.g., BERT, RoBERTa) prompt learning methods became popular and widely used. However, another efficient pre-trained discriminative model, ELECTRA, has probably been neglected. In this paper, we attempt to accomplish several NLP tasks in the zero-shot scenario using a novel our proposed replaced token detection (RTD)-based prompt learning method. Experimental results show that ELECTRA model based on RTD-prompt learning achieves surprisingly state-of-the-art zero-shot performance. Numerically, compared to MLM-RoBERTa-large and MLM-BERT-large, our RTD-ELECTRA-large has an average of about 8.4% and 13.7% improvement on all 15 tasks. Especially on the SST-2 task, our RTD-ELECTRA-large achieves an astonishing 90.1% accuracy without any training data. Overall, compared to the pre-trained masked language models, the pre-trained replaced token detection model performs better in zero-shot learning. Therefore, ELECTRA is an excellent zero-shot learner. The source code is available at: https://github.com/nishiwen1214/RTD-ELECTRA.
翻訳日:2022-07-19 16:16:24 公開日:2022-07-17
# 機能に応じた遺伝子のクラスター化のための自然言語処理

Natural language processing for clusterization of genes according to their functions ( http://arxiv.org/abs/2207.08162v1 )

ライセンス: Link先を確認
Vladislav Dordiuk, Ekaterina Demicheva, Fernando Polanco Espino, Konstantin Ushenin(参考訳) mRNAシークエンシングで得られたデータの分析には数百の方法がある。 多くは少数の遺伝子に焦点が当てられている。 本研究では,数千の遺伝子の解析を数個のクラスターの分析に還元する手法を提案する。 遺伝子のリストにはオープンデータベースからの情報が豊富に含まれている。 次に、事前訓練された言語モデル(BERT)といくつかのテキスト処理アプローチを用いて、記述をベクトルとして符号化する。 エンコードされた遺伝子機能は、次元の縮小とクラスター化を通り抜ける。 最も効率的なパイプラインを見つけるために、主要なパイプラインステップで異なるメソッドを持つ180のパイプラインケースを分析した。 評価にはクラスタ化指標と専門家による評価が用いられた。

There are hundreds of methods for analysis of data obtained in mRNA-sequencing. The most of them are focused on small number of genes. In this study, we propose an approach that reduces the analysis of several thousand genes to analysis of several clusters. The list of genes is enriched with information from open databases. Then, the descriptions are encoded as vectors using the pretrained language model (BERT) and some text processing approaches. The encoded gene function pass through the dimensionality reduction and clusterization. Aiming to find the most efficient pipeline, 180 cases of pipeline with different methods in the major pipeline steps were analyzed. The performance was evaluated with clusterization indexes and expert review of the results.
翻訳日:2022-07-19 16:15:59 公開日:2022-07-17
# 予算制約下における非名眼蒸留データ関連信念空間計画

Nonmyopic Distilled Data Association Belief Space Planning Under Budget Constraints ( http://arxiv.org/abs/2207.08096v1 )

ライセンス: Link先を確認
Moshe Shienman and Vadim Indelman(参考訳) 知覚的な環境で動作する自律エージェントは、理想的にはデータアソシエーションの問題を解決することができるはずだ。 しかし、この問題を考慮しながら将来の行動を計画することは簡単ではない。 したがって、最先端のアプローチでは、エージェントの状態や環境を表現するためにマルチモーダル仮説を用いる。 しかしながら、すべての可能なデータ関連性を考慮すると、仮説の数は計画の地平線とともに指数関数的に増加する。 そのため、対応するリーフ空間計画問題はすぐに解決不可能となる。 さらに、計算予算の厳しい制約の下では、いくつかの無視できない仮説は最終的に計画と推論の両方で破られなければならない。 しかし,2つのプロセスは一般に別々に扱われ,一方のプロセスにおける予算制約の影響についてはほとんど研究されなかった。 本稿では,データアソシエーションを推論しながら,非神秘的な空間計画問題の解法を提案する。 さらに,予算制約の影響を推測と計画の両方において厳格に分析する。

Autonomous agents operating in perceptually aliased environments should ideally be able to solve the data association problem. Yet, planning for future actions while considering this problem is not trivial. State of the art approaches therefore use multi-modal hypotheses to represent the states of the agent and of the environment. However, explicitly considering all possible data associations, the number of hypotheses grows exponentially with the planning horizon. As such, the corresponding Belief Space Planning problem quickly becomes unsolvable. Moreover, under hard computational budget constraints, some non-negligible hypotheses must eventually be pruned in both planning and inference. Nevertheless, the two processes are generally treated separately and the effect of budget constraints in one process over the other was barely studied. We present a computationally efficient method to solve the nonmyopic Belief Space Planning problem while reasoning about data association. Moreover, we rigorously analyze the effects of budget constraints in both inference and planning.
翻訳日:2022-07-19 16:15:02 公開日:2022-07-17
# 世界がどのように機能するかを観察し学ぶことで、バンディットによる計画のためのライフスキルを見つける

Discover Life Skills for Planning with Bandits via Observing and Learning How the World Works ( http://arxiv.org/abs/2207.08130v1 )

ライセンス: Link先を確認
Tin Lai(参考訳) 本研究は,世界との歴史的交流からの観察と学習を通じて抽象的スキルを構成するための新しい手法を提案する。 我々のフレームワークは、未知の前提条件下での一連のアクションを介してマルコフ状態空間モデルで動作する。 我々は,現状に基づく行動計画を提案するハイレベルな抽象政策としてスキルを定式化する。 各政策は、エージェントが世界と対話している間に州の遷移を観察して新しい計画を学ぶ。 このようなアプローチは、特定の意図した効果を達成するための新しい計画を自動的に学習するが、そのような計画の成功は、しばしば適用可能な状態に依存する。 そこで我々は,既存兵器の成功確率の評価と新たな選択肢の探索に資源配分のバランスをとるため,無限に多数のマルチアームバンディット問題としてそのような計画の評価を定式化する。 その結果、雑音環境下でロバストなハイレベルスキルを自動的に学習することが可能なプランナーが、明示的な知識を伴わずに暗黙的に行動前条件を学習できる。 この計画手法は高次元状態領域において実験的に非常に競合的であることを示す。

We propose a novel approach for planning agents to compose abstract skills via observing and learning from historical interactions with the world. Our framework operates in a Markov state-space model via a set of actions under unknown pre-conditions. We formulate skills as high-level abstract policies that propose action plans based on the current state. Each policy learns new plans by observing the states' transitions while the agent interacts with the world. Such an approach automatically learns new plans to achieve specific intended effects, but the success of such plans is often dependent on the states in which they are applicable. Therefore, we formulate the evaluation of such plans as infinitely many multi-armed bandit problems, where we balance the allocation of resources on evaluating the success probability of existing arms and exploring new options. The result is a planner capable of automatically learning robust high-level skills under a noisy environment; such skills implicitly learn the action pre-condition without explicit knowledge. We show that this planning approach is experimentally very competitive in high-dimensional state space domains.
翻訳日:2022-07-19 15:22:04 公開日:2022-07-17
# 拡散モデルを用いた脅威モデル非依存逆防御

Threat Model-Agnostic Adversarial Defense using Diffusion Models ( http://arxiv.org/abs/2207.08089v1 )

ライセンス: Link先を確認
Tsachi Blau, Roy Ganz, Bahjat Kawar, Alex Bronstein, Michael Elad(参考訳) ディープニューラルネットワーク(DNN)は、敵攻撃として知られる、知覚できない悪意のある摂動に対して非常に敏感である。 この脆弱性が現実世界のイメージングや視覚の応用で発見されると、関連する安全上の懸念が研究の注目を集め、多くの防衛技術が開発されている。 Most of these defense methods rely on adversarial training (AT) -- training the classification network on images perturbed according to a specific threat model, which defines the magnitude of the allowed modification. Although AT leads to promising results, training on a specific threat model fails to generalize to other types of perturbations. A different approach utilizes a preprocessing step to remove the adversarial perturbation from the attacked image. In this work, we follow the latter path and aim to develop a technique that leads to robust classifiers across various realizations of threat models. To this end, we harness the recent advances in stochastic generative modeling, and means to leverage these for sampling from conditional distributions. Our defense relies on an addition of Gaussian i.i.d noise to the attacked image, followed by a pretrained diffusion process -- an architecture that performs a stochastic iterative process over a denoising network, yielding a high perceptual quality denoised outcome. この確率的前処理ステップを用いて得られたロバスト性は、CIFAR-10データセット上での広範な実験により検証され、本手法が様々な脅威モデル下での防御方法よりも優れていることを示す。

Deep Neural Networks (DNNs) are highly sensitive to imperceptible malicious perturbations, known as adversarial attacks. Following the discovery of this vulnerability in real-world imaging and vision applications, the associated safety concerns have attracted vast research attention, and many defense techniques have been developed. Most of these defense methods rely on adversarial training (AT) -- training the classification network on images perturbed according to a specific threat model, which defines the magnitude of the allowed modification. Although AT leads to promising results, training on a specific threat model fails to generalize to other types of perturbations. A different approach utilizes a preprocessing step to remove the adversarial perturbation from the attacked image. In this work, we follow the latter path and aim to develop a technique that leads to robust classifiers across various realizations of threat models. To this end, we harness the recent advances in stochastic generative modeling, and means to leverage these for sampling from conditional distributions. Our defense relies on an addition of Gaussian i.i.d noise to the attacked image, followed by a pretrained diffusion process -- an architecture that performs a stochastic iterative process over a denoising network, yielding a high perceptual quality denoised outcome. The obtained robustness with this stochastic preprocessing step is validated through extensive experiments on the CIFAR-10 dataset, showing that our method outperforms the leading defense methods under various threat models.
翻訳日:2022-07-19 15:09:11 公開日:2022-07-17
# アスペクトベース感情分析のためのアスペクト固有のコンテキストモデリング

Aspect-specific Context Modeling for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2207.08099v1 )

ライセンス: Link先を確認
Fang Ma, Chen Zhang, Bo Zhang, Dawei Song(参考訳) アスペクトベース感情分析(ABSA)は、感情極性(SC)の予測や、特定の側面に表される意見範囲(OE)の抽出を目的としている。 ABSAにおける以前の研究は主に、かなり複雑なアスペクト特異的な特徴誘導に依存していた。 近年、プレトレーニング言語モデル(PLM)、例えばBERTは、特徴帰納構造を単純化し、最先端のパフォーマンスを達成するためにコンテキストモデリングレイヤーとして使われている。 しかし、このような PLM ベースのコンテキストモデリングはアスペクト固有ではない。 したがって、PLMを通してアスペクト特化コンテキストをより良くモデル化できるのか? そこで本研究では,PLMを用いたアスペクト特化コンテキストモデリングを非侵襲的に拡張する。 本稿では,3つのアスペクト固有の入力変換,すなわちアスペクトコンパニオン,アスペクトプロンプト,アスペクトマーカーを提案する。 これらの変換により、非侵入的なアスペクト特化 PLM が達成され、PLM は文中のアスペクト特化コンテキストにもっと注意を払うことができる。 さらに、ABSA (advABSA) の逆数ベンチマークを作成し、アスペクト固有モデリングがモデルの堅牢性にどのように影響するかを確認する。 SC と OE の標準および逆数ベンチマークによる大規模な実験結果から,提案手法の有効性とロバスト性を実証し,OE の新たな最先端性能と SC の競争性能を示した。

Aspect-based sentiment analysis (ABSA) aims at predicting sentiment polarity (SC) or extracting opinion span (OE) expressed towards a given aspect. Previous work in ABSA mostly relies on rather complicated aspect-specific feature induction. Recently, pretrained language models (PLMs), e.g., BERT, have been used as context modeling layers to simplify the feature induction structures and achieve state-of-the-art performance. However, such PLM-based context modeling can be not that aspect-specific. Therefore, a key question is left under-explored: how the aspect-specific context can be better modeled through PLMs? To answer the question, we attempt to enhance aspect-specific context modeling with PLM in a non-intrusive manner. We propose three aspect-specific input transformations, namely aspect companion, aspect prompt, and aspect marker. Informed by these transformations, non-intrusive aspect-specific PLMs can be achieved to promote the PLM to pay more attention to the aspect-specific context in a sentence. Additionally, we craft an adversarial benchmark for ABSA (advABSA) to see how aspect-specific modeling can impact model robustness. Extensive experimental results on standard and adversarial benchmarks for SC and OE demonstrate the effectiveness and robustness of the proposed method, yielding new state-of-the-art performance on OE and competitive performance on SC.
翻訳日:2022-07-19 15:08:03 公開日:2022-07-17
# マルチモーダル会話感情認識における脱バイアスのための多自由度・感情知識強化トランスフォーマ

A Multibias-mitigated and Sentiment Knowledge Enriched Transformer for Debiasing in Multimodal Conversational Emotion Recognition ( http://arxiv.org/abs/2207.08104v1 )

ライセンス: Link先を確認
Jinglin Wang, Fang Ma, Yazhou Zhang, Dawei Song(参考訳) 会話におけるマルチモーダル感情認識(英: Multimodal emotion recognition in conversation, MERC)は、自然言語処理(NLP)において、複数のモーダルのコミュニケーションにおいて人間の感情状態を予測することを目的とした活発な研究トピックである。 自然言語と顔のジェスチャー。 暗黙の偏見と先入観が人間の言語と会話を埋め、現在のデータ駆動型mERCアプローチがバイアスのあるエラーを引き起こすかどうかという問題に繋がる。 例えば、このようなアプローチは、男性よりも女性による発話に高い感情スコアを与える可能性がある。 加えて、既存のデバイアスモデルは主に性別や人種に焦点を当てており、マルチバイアス緩和は依然としてmERCの未調査課題である。 本研究は,テキスト発話における5つの典型的なバイアス(性別,年齢,人種,宗教,LGBTQ+)と視覚表現(性別と年齢)を緩和するための一連のアプローチを提案し,その後,マルチバイアス・マイティゲーションと感情の豊富なバイモーダル・トランスフォーマー(MMKET)を提案する。 包括的実験により,提案モデルの有効性を示し,mercの分類性能にデビアス操作が大きな影響を与えることを証明した。 我々は,mERCとその関連感情研究におけるバイアス緩和の進展に寄与することを期待している。

Multimodal emotion recognition in conversations (mERC) is an active research topic in natural language processing (NLP), which aims to predict human's emotional states in communications of multiple modalities, e,g., natural language and facial gestures. Innumerable implicit prejudices and preconceptions fill human language and conversations, leading to the question of whether the current data-driven mERC approaches produce a biased error. For example, such approaches may offer higher emotional scores on the utterances by females than males. In addition, the existing debias models mainly focus on gender or race, where multibias mitigation is still an unexplored task in mERC. In this work, we take the first step to solve these issues by proposing a series of approaches to mitigate five typical kinds of bias in textual utterances (i.e., gender, age, race, religion and LGBTQ+) and visual representations (i.e, gender and age), followed by a Multibias-Mitigated and sentiment Knowledge Enriched bi-modal Transformer (MMKET). Comprehensive experimental results show the effectiveness of the proposed model and prove that the debias operation has a great impact on the classification performance for mERC. We hope our study will benefit the development of bias mitigation in mERC and related emotion studies.
翻訳日:2022-07-19 15:07:39 公開日:2022-07-17
# ニューラルネットワークの自動修復

Automated Repair of Neural Networks ( http://arxiv.org/abs/2207.08157v1 )

ライセンス: Link先を確認
Dor Cohen, Ofer Strichman(参考訳) 過去10年間、ニューラルネットワーク(nns)は、自律システムのような安全クリティカルなものを含む多くのアプリケーションで広く使われてきた。 採用が増えているにもかかわらず、NNが敵攻撃の影響を受けやすいことはよく知られている。 したがって、そのようなシステムが正しく動作することを保証することは極めて重要である。 これらの問題を解決するため,我々は,満足度モジュラー理論(smt)解法を用いて,安全でないnns w.r.t.安全仕様を修復するための枠組みを提案する。 提案手法では,重み値のいくつかを修正して,新しい安全なNN表現を探索することができる。 また,本手法は,決定境界に関して,元のネットワークとの類似性を最大化することを試みる。 提案手法は, 提案手法を用いて, 相対的ロバスト性(Adversarial Robustness)特性に対して, わずかに精度を損なうことなく, 安全なNNが得られることを示す。 さらに,本手法をナイーブベースラインと比較し,その有効性を実証した。 結論として,安全性のあるNNを自動的に修復するアルゴリズムを提案し,その計算性能を改善するためのヒューリスティックスを提案する。 現在、このアプローチに従うことで、線形ReLUアクティベーション関数からなる小さな(最大数百のパラメータを持つ)正確なNNを生成することができる。 しかしながら、我々のフレームワークは、一階述語論理仕様の決定可能な断片としてNNを合成できるという意味では一般的なものである。

Over the last decade, Neural Networks (NNs) have been widely used in numerous applications including safety-critical ones such as autonomous systems. Despite their emerging adoption, it is well known that NNs are susceptible to Adversarial Attacks. Hence, it is highly important to provide guarantees that such systems work correctly. To remedy these issues we introduce a framework for repairing unsafe NNs w.r.t. safety specification, that is by utilizing satisfiability modulo theories (SMT) solvers. Our method is able to search for a new, safe NN representation, by modifying only a few of its weight values. In addition, our technique attempts to maximize the similarity to original network with regard to its decision boundaries. We perform extensive experiments which demonstrate the capability of our proposed framework to yield safe NNs w.r.t. the Adversarial Robustness property, with only a mild loss of accuracy (in terms of similarity). Moreover, we compare our method with a naive baseline to empirically prove its effectiveness. To conclude, we provide an algorithm to automatically repair NNs given safety properties, and suggest a few heuristics to improve its computational performance. Currently, by following this approach we are capable of producing small-sized (i.e., with up to few hundreds of parameters) correct NNs, composed of the piecewise linear ReLU activation function. Nevertheless, our framework is general in the sense that it can synthesize NNs w.r.t. any decidable fragment of first-order logic specification.
翻訳日:2022-07-19 15:04:32 公開日:2022-07-17
# イベントトリガ付き時系列のためのタスク認識類似性学習

Task-aware Similarity Learning for Event-triggered Time Series ( http://arxiv.org/abs/2207.08159v1 )

ライセンス: Link先を確認
Shaoyu Dou, Kai Yang, Yang Jiao, Chengbo Qiu, Kui Ren(参考訳) 時系列分析は、ネットワークセキュリティ、環境モニタリング、医療情報学など様々な分野で大きな成功を収めている。 クラスタリングや異常検出といった下流解析の基礎となるため、さまざまな時系列間の類似性を学ぶことは重要な問題である。 自動運転、対話型ヘルスケア、スマートホームオートメーションなど、さまざまなアプリケーションに共通するイベントトリガーセンシングから発生した時系列の複雑な時間的ダイナミクスのため、類似性学習にどのような距離メトリックが適しているかは、しばしば不明である。 本研究の目的は,ラベル付きイベントトリガー付き時系列間のタスク認識類似性を学習可能な教師なし学習フレームワークの開発である。 機械学習の優位点から、提案フレームワークは階層型マルチスケールシーケンスオートエンコーダとガウス混合モデル(GMM)の両方のパワーを利用して、時系列から低次元表現を効果的に学習する。 最後に、得られた類似度尺度を簡単に可視化して説明することができる。 提案するフレームワークは,さまざまなイベントトリガー時系列の類似性をモデル化し,学習するための体系的なアプローチを実現するための,ステップストーンの提供を目指している。 広範な質的・定量的実験により,提案手法が最先端手法を大幅に上回ることが明らかとなった。

Time series analysis has achieved great success in diverse applications such as network security, environmental monitoring, and medical informatics. Learning similarities among different time series is a crucial problem since it serves as the foundation for downstream analysis such as clustering and anomaly detection. It often remains unclear what kind of distance metric is suitable for similarity learning due to the complex temporal dynamics of the time series generated from event-triggered sensing, which is common in diverse applications, including automated driving, interactive healthcare, and smart home automation. The overarching goal of this paper is to develop an unsupervised learning framework that is capable of learning task-aware similarities among unlabeled event-triggered time series. From the machine learning vantage point, the proposed framework harnesses the power of both hierarchical multi-scale sequence autoencoders and Gaussian Mixture Model (GMM) to effectively learn the low-dimensional representations from the time series. Finally, the obtained similarity measure can be easily visualized for explaining. The proposed framework aspires to offer a stepping stone that gives rise to a systematic approach to model and learn similarities among a multitude of event-triggered time series. Through extensive qualitative and quantitative experiments, it is revealed that the proposed method outperforms state-of-the-art methods considerably.
翻訳日:2022-07-19 15:04:08 公開日:2022-07-17
# VAEにおけるクリーン部分空間の学習によるシステム外乱の修復

Repairing Systematic Outliers by Learning Clean Subspaces in VAEs ( http://arxiv.org/abs/2207.08050v1 )

ライセンス: Link先を確認
Simao Eduardo, Kai Xu, Alfredo Nazabal, Charles Sutton(参考訳) データクリーニングは、しばしば外部検出とデータ修復を含む。 系統的エラーは、データ内で繰り返し発生するほぼ決定論的変換、例えばデフォルト値やウォーターマークにセットされた特定の画像ピクセルによって生じる。 その結果、十分なキャパシティを持つモデルはこれらのエラーに容易に適合し、検出と修復が困難になる。 系統的外れ値とは、クリーンなインスタンスのパターンと系統的エラーパターンの組み合わせであると考えると、イリアーは、外れ値よりもモデル内のより小さな表現(サブスペース)によってモデル化できる、というのが私たちの見解です。 そこで本研究では,システムエラーの検出と修正のための新しい半教師付きモデルであるclean subspace variational autoencoder (clsvae)を提案する。 主なアイデアは、潜在空間を分割し、モデルの不変パターンと外れパターンを分離することである。 CLSVAEは、従来の関連モデルに比べてラベル付きデータが少なく、2%未満で有効である。 我々は,汚職のレベルやラベル付きセットサイズが異なるシナリオにおいて,関連するベースラインと比較して,3つのイメージデータセットを用いた実験を行う。 CLSVAEは人間の介入なしに優れた修復を行う。例えば、ラベル付きデータのわずか0.25%では、最も近いベースラインに比べて相対誤差が58%減少する。

Data cleaning often comprises outlier detection and data repair. Systematic errors result from nearly deterministic transformations that occur repeatedly in the data, e.g. specific image pixels being set to default values or watermarks. Consequently, models with enough capacity easily overfit to these errors, making detection and repair difficult. Seeing as a systematic outlier is a combination of patterns of a clean instance and systematic error patterns, our main insight is that inliers can be modelled by a smaller representation (subspace) in a model than outliers. By exploiting this, we propose Clean Subspace Variational Autoencoder (CLSVAE), a novel semi-supervised model for detection and automated repair of systematic errors. The main idea is to partition the latent space and model inlier and outlier patterns separately. CLSVAE is effective with much less labelled data compared to previous related models, often with less than 2% of the data. We provide experiments using three image datasets in scenarios with different levels of corruption and labelled set sizes, comparing to relevant baselines. CLSVAE provides superior repairs without human intervention, e.g. with just 0.25% of labelled data we see a relative error decrease of 58% compared to the closest baseline.
翻訳日:2022-07-19 15:01:13 公開日:2022-07-17
# フェデレーション学習における高速複合最適化と統計的回復

Fast Composite Optimization and Statistical Recovery in Federated Learning ( http://arxiv.org/abs/2207.08204v1 )

ライセンス: Link先を確認
Yajie Bao, Michael Crawshaw, Shan Luo, Mingrui Liu(参考訳) 一般的な分散学習パラダイムとして、フェデレーション学習(fl)は、通信頻度の低い大量のデバイス上でグローバルモデルをトレーニングする。 本稿では,データ依存型スムース損失と非スムース正規化器からなるfl設定における複合最適化と統計リカバリ問題について検討する。 例えば、sparse linear regression using lasso、low-rank matrix recovery using nuclear norm regularizationなどである。 既存の文献では、連合複合最適化アルゴリズムは、統計的な保証なしに最適化の観点からのみ設計されている。 さらに、統計回復問題で一般的に使われる(制限された)強い凸性も考慮していない。 我々は最適化と統計的両面からこの問題のフロンティアを推し進める。 最適化の先駆けとして, 強い凸と滑らかな損失を解消し, 複合環境における最先端の反復と通信の複雑さを確立するために, textit{Fast Federated Dual Averaging} という新しいアルゴリズムを提案する。 特に、高速速度、リニアスピードアップ、通信ラウンドの削減を享受できることを実証する。 統計的事前から、厳密な凸と滑らかな損失を抑えるために、別のアルゴリズム、すなわち「textit{Multi-stage Federated Dual Averaging}」を設計し、線形スピードアップから最適統計精度までの高い確率複雑性を証明した。 合成データと実データの両方における実験は、我々の手法が他のベースラインよりも優れた性能を示す。 私たちの知る限りでは、flの複合問題に対する高速最適化アルゴリズムと統計的回復保証を提供する最初の作業です。

As a prevalent distributed learning paradigm, Federated Learning (FL) trains a global model on a massive amount of devices with infrequent communication. This paper investigates a class of composite optimization and statistical recovery problems in the FL setting, whose loss function consists of a data-dependent smooth loss and a non-smooth regularizer. Examples include sparse linear regression using Lasso, low-rank matrix recovery using nuclear norm regularization, etc. In the existing literature, federated composite optimization algorithms are designed only from an optimization perspective without any statistical guarantees. In addition, they do not consider commonly used (restricted) strong convexity in statistical recovery problems. We advance the frontiers of this problem from both optimization and statistical perspectives. From optimization upfront, we propose a new algorithm named \textit{Fast Federated Dual Averaging} for strongly convex and smooth loss and establish state-of-the-art iteration and communication complexity in the composite setting. In particular, we prove that it enjoys a fast rate, linear speedup, and reduced communication rounds. From statistical upfront, for restricted strongly convex and smooth loss, we design another algorithm, namely \textit{Multi-stage Federated Dual Averaging}, and prove a high probability complexity bound with linear speedup up to optimal statistical precision. Experiments in both synthetic and real data demonstrate that our methods perform better than other baselines. To the best of our knowledge, this is the first work providing fast optimization algorithms and statistical recovery guarantees for composite problems in FL.
翻訳日:2022-07-19 15:00:50 公開日:2022-07-17
# rt-kgd:知識接地対話生成を意識した関係遷移

RT-KGD: Relation Transition Aware Knowledge-Grounded Dialogue Generation ( http://arxiv.org/abs/2207.08212v1 )

ライセンス: Link先を確認
Kexin Wang, Zhixu Li, Jiaan Wang, Jianfeng Qu, Ying He, An Liu, Lei Zhao(参考訳) 外部知識を用いた接地対話システムは,応答の質を向上させるための有望な方法である。 既存の著作の多くは外部資源として知識グラフ(kgs)を採用し、文脈理解と応答生成のための対話の最後の発話におけるエンティティの貢献に注意を払っている。 それでも、多ターン文脈における知識とKG間の遷移規則性の間の相関は、未探索である。 そこで我々は,RT-KGD(Relation transition aware Knowledge-Grounded Dialogue Generation model)を提案する。 具体的には,人間の会話の潜在論理に着想を得て,対話レベルの関係遷移規則性とターンレベルのエンティティ意味情報を統合する。 このようにして、知識間の相互作用は、適切な知識を予測し、コヒーレントな応答を生成するための豊富な手がかりとなると考えられる。 自動評価と手動評価の両方の実験結果は,本モデルが最先端のベースラインより優れていることを示している。

Grounding dialogue system with external knowledge is a promising way to improve the quality of responses. Most existing works adopt knowledge graphs (KGs) as the external resources, paying attention to the contribution of entities in the last utterance of the dialogue for context understanding and response generation. Nevertheless, the correlations between knowledge implied in the multi-turn context and the transition regularities between relations in KGs are under-explored. To this end, we propose a Relation Transition aware Knowledge-Grounded Dialogue Generation model (RT-KGD). Specifically, inspired by the latent logic of human conversation, our model integrates dialogue-level relation transition regularities with turn-level entity semantic information. In this manner, the interaction between knowledge is considered to produce abundant clues for predicting the appropriate knowledge and generating coherent responses. The experimental results on both automatic evaluation and manual evaluation indicate that our model outperforms state-of-the-art baselines.
翻訳日:2022-07-19 14:35:20 公開日:2022-07-17
# (参考訳) 距離認識によるベイズニューラルネットワークの不確かさ校正

Uncertainty Calibration in Bayesian Neural Networks via Distance-Aware Priors ( http://arxiv.org/abs/2207.08200v1 )

ライセンス: CC BY 4.0
Gianluca Detommaso, Alberto Gasparin, Andrew Wilson, Cedric Archambeau(参考訳) データから離れるにつれて、さまざまな説明が利用可能な情報と一致しているため、予測の不確実性が増大するでしょう。 学習領域外のベイズ深層学習モデルの過信を補正する手法であるdap( distance-aware prior)校正を導入する。 DAPを、トレーニングセットからの距離を測定することで、入力に依存するモデルパラメータの事前分布として定義する。 DAP校正は後部推論法とは無関係であり、後処理ステップとして行うことができる。 データから予測分布の品質をテストするためのベンチマークを含む,さまざまな分類問題や回帰問題において,いくつかのベースラインに対して有効性を示す。

As we move away from the data, the predictive uncertainty should increase, since a great variety of explanations are consistent with the little available information. We introduce Distance-Aware Prior (DAP) calibration, a method to correct overconfidence of Bayesian deep learning models outside of the training domain. We define DAPs as prior distributions over the model parameters that depend on the inputs through a measure of their distance from the training set. DAP calibration is agnostic to the posterior inference method, and it can be performed as a post-processing step. We demonstrate its effectiveness against several baselines in a variety of classification and regression problems, including benchmarks designed to test the quality of predictive distributions away from the data.
翻訳日:2022-07-19 14:32:08 公開日:2022-07-17
# 神経リワイリングによるディープニューラルネットワークのランダム初期化の改善

Improving Deep Neural Network Random Initialization Through Neuronal Rewiring ( http://arxiv.org/abs/2207.08148v1 )

ライセンス: Link先を確認
Leonardo Scabini, Bernard De Baets, and Odemir M. Bruno(参考訳) ディープラーニングの文献は、新しいアーキテクチャとトレーニングテクニックで継続的に更新される。 しかし、最近の研究では、ランダムウェイトに関する興味深い発見があるにもかかわらず、体重初期化は見過ごされている。 一方で、トレーニング後のニューラルネットワーク(anns)の構造とダイナミクスを理解するために、ネットワークサイエンスに近づいた最近の研究もある。 そこで本研究では,ランダム初期化ネットワークにおけるニューロンの集中度を解析する。 高いニューロン強度のばらつきはパフォーマンスを低下させるが、低いニューロンの強度のばらつきは通常それを改善する。 次に,その強度に基づく優先アタッチメント(pa)規則に従ってニューロン接続を再配線する新しい方法を提案し,共通手法によって初期化される層の強度分散を著しく低減した。 この意味で、paは、重みの大きさと分布を保ちながら、接続を再編成するだけである。 画像分類の広範な統計分析を通じて,単純で複雑なアーキテクチャと学習スケジュールの両方を使用する場合,トレーニングとテストの両方において,ほとんどのケースでパフォーマンスが向上することを示した。 以上の結果から,重みの組織化は,ANNの深部初期化に有効であることが示唆された。

The deep learning literature is continuously updated with new architectures and training techniques. However, weight initialization is overlooked by most recent research, despite some intriguing findings regarding random weights. On the other hand, recent works have been approaching Network Science to understand the structure and dynamics of Artificial Neural Networks (ANNs) after training. Therefore, in this work, we analyze the centrality of neurons in randomly initialized networks. We show that a higher neuronal strength variance may decrease performance, while a lower neuronal strength variance usually improves it. A new method is then proposed to rewire neuronal connections according to a preferential attachment (PA) rule based on their strength, which significantly reduces the strength variance of layers initialized by common methods. In this sense, PA rewiring only reorganizes connections, while preserving the magnitude and distribution of the weights. We show through an extensive statistical analysis in image classification that performance is improved in most cases, both during training and testing, when using both simple and complex architectures and learning schedules. Our results show that, aside from the magnitude, the organization of the weights is also relevant for better initialization of deep ANNs.
翻訳日:2022-07-19 14:09:24 公開日:2022-07-17
# ビジョンランゲージ・プロンプティングによるゼロショット時間行動検出

Zero-Shot Temporal Action Detection via Vision-Language Prompting ( http://arxiv.org/abs/2207.08184v1 )

ライセンス: Link先を確認
Sauradip Nag, Xiatian Zhu, Yi-Zhe Song and Tao Xiang(参考訳) 既存のtemporal action detection(tad)メソッドは、セグメントレベルのアノテーションを含む大きなトレーニングデータに依存している。 興味のある各クラスに対して大きなトレーニングセットを収集し、アノテートすることは費用がかかります。 Zero-shot TAD (ZS-TAD) は、事前訓練されたモデルが目に見えないアクションクラスを認識できるようにすることで、この障害を解決する。 一方、ZS-TADはより困難であり、調査は極めて少ない。 CLIPのような視覚言語(ViL)モデルによるゼロショット画像分類の成功に触発されて、我々はより複雑なTAD課題に取り組むことを目指している。 直感的な方法は、CLIPスタイルの分類とオフザシェルフ提案検出器を統合することである。 しかし,逐次的局所化(提案生成など)と分類設計により,局所化誤差の伝播が容易である。 そこで本研究では,視覚言語プロンプト(STALE)を用いたゼロショット時間行動検出モデルを提案する。 このような斬新な設計は, 誤差伝搬経路を断ち切ることで, 局所化と分類の依存性を効果的に排除する。 さらに,最適化のための分類と局所化の相互作用機構についても紹介する。 標準のZS-TADビデオベンチマークによる大規模な実験により、私たちのSTALEは最先端の代替品よりも大幅に優れています。 さらに我々のモデルは、最近の強力な競争相手よりも、監督されたtadに優れた結果をもたらします。 STALEのPyTorch実装はhttps://github.com/sauradip/STALEで公開されている。

Existing temporal action detection (TAD) methods rely on large training data including segment-level annotations, limited to recognizing previously seen classes alone during inference. Collecting and annotating a large training set for each class of interest is costly and hence unscalable. Zero-shot TAD (ZS-TAD) resolves this obstacle by enabling a pre-trained model to recognize any unseen action classes. Meanwhile, ZS-TAD is also much more challenging with significantly less investigation. Inspired by the success of zero-shot image classification aided by vision-language (ViL) models such as CLIP, we aim to tackle the more complex TAD task. An intuitive method is to integrate an off-the-shelf proposal detector with CLIP style classification. However, due to the sequential localization (e.g, proposal generation) and classification design, it is prone to localization error propagation. To overcome this problem, in this paper we propose a novel zero-Shot Temporal Action detection model via Vision-LanguagE prompting (STALE). Such a novel design effectively eliminates the dependence between localization and classification by breaking the route for error propagation in-between. We further introduce an interaction mechanism between classification and localization for improved optimization. Extensive experiments on standard ZS-TAD video benchmarks show that our STALE significantly outperforms state-of-the-art alternatives. Besides, our model also yields superior results on supervised TAD over recent strong competitors. The PyTorch implementation of STALE is available at https://github.com/sauradip/STALE.
翻訳日:2022-07-19 14:08:43 公開日:2022-07-17
# 大きな言語モデルが医学的問題に当てはまるか?

Can large language models reason about medical questions? ( http://arxiv.org/abs/2207.08143v1 )

ライセンス: Link先を確認
Valentin Li\'evin, Christoffer Egeberg Hother, Ole Winther(参考訳) 大きな言語モデル(LLM)は、しばしば印象的なアウトプットを生成するが、推論に失敗し、事実である。 我々は、これらの制限がLLMの難解な実世界の質問に対する答えと推論能力にどのように影響するかを調査した。 GPT-3 (InstructGPT) を用いて, 多票検診質問 (USMLE, MedMCQA) および医学研究質問 (PubMedQA) に回答した。 本研究は, 思考の連鎖(ステップ・バイ・ステップ)のプロンプト, グラウンド(検索結果によるプロンプトの増大), 少数ショット(質問応答の先取り)について検討した。 USMLEの質問のサブセットについて、医療分野の専門家がモデルの推論をレビューし、注釈を付けた。 全体として、GPT-3は最先端の機械学習性能を大幅に改善した。 GPT-3はよく知識があり,医学的疑問を推論できる。 GPT-3は、答えられない質問に直面すると、まだ答えようと試み、しばしばバイアスのある予測分布をもたらす。 LLMはヒトと同等ではないが,医学的問題解決に適合する推論パターンの出現を示唆している。 モデルとデータのスケーリング、迅速なアライメントの強化、完了の文脈化の促進は、LLMがこの種のタスクにおいて人間レベルのパフォーマンスに達するのに十分である、と推測する。

Although large language models (LLMs) often produce impressive outputs, they also fail to reason and be factual. We set out to investigate how these limitations affect the LLM's ability to answer and reason about difficult real-world based questions. We applied the human-aligned GPT-3 (InstructGPT) to answer multiple-choice medical exam questions (USMLE and MedMCQA) and medical research questions (PubMedQA). We investigated Chain-of-thought (think step by step) prompts, grounding (augmenting the prompt with search results) and few-shot (prepending the question with question-answer exemplars). For a subset of the USMLE questions, a medical domain expert reviewed and annotated the model's reasoning. Overall, GPT-3 achieved a substantial improvement in state-of-the-art machine learning performance. We observed that GPT-3 is often knowledgeable and can reason about medical questions. GPT-3, when confronted with a question it cannot answer, will still attempt to answer, often resulting in a biased predictive distribution. LLMs are not on par with human performance but our results suggest the emergence of reasoning patterns that are compatible with medical problem-solving. We speculate that scaling model and data, enhancing prompt alignment and allowing for better contextualization of the completions will be sufficient for LLMs to reach human-level performance on this type of task.
翻訳日:2022-07-19 14:07:53 公開日:2022-07-17
# 画像スキーマの表現学習

Representation Learning of Image Schema ( http://arxiv.org/abs/2207.08256v1 )

ライセンス: Link先を確認
Fajrian Yunus, Chlo\'e Clavel, Catherine Pelachaud(参考訳) イメージスキーマは、あるエンティティが別のエンティティにマッピングされる推論のリカレントパターンである。 イメージスキーマは概念的メタファーと似ており、メタファー的ジェスチャーにも関連している。 我々の主な目標は、エンボダイド会話エージェントのための比喩的なジェスチャーを生成することである。 画像スキーマのベクトル表現を学習する手法を提案する。 私たちが認識している限りでは、この問題に対処する最初の作業です。 本手法では,テキスト入力から画像スキーマを計算するravenet et alのアルゴリズムと,画像スキーマの最終的なベクトル表現を計算するためにベースワード埋め込み技術として使用するbertとsensebertを用いる。 我々の表現学習技術はクラスタリングによって機能する:同じ画像スキーマに属する単語埋め込みベクトルは、互いに比較的近い位置にあり、したがってクラスタを形成する。 ベクトルとして表現可能な画像スキーマでは、ベクトル間の距離が対応する画像スキーマ間の相似性のプロキシであるため、一部の画像スキーマが互いに近接または類似しているという考え方も可能となる。 したがって、画像スキーマのベクトル表現を得た後、これらのベクトル間の距離を計算する。 これらに基づいて、異なる画像スキーマ間の相対距離を視覚化する。

Image schema is a recurrent pattern of reasoning where one entity is mapped into another. Image schema is similar to conceptual metaphor and is also related to metaphoric gesture. Our main goal is to generate metaphoric gestures for an Embodied Conversational Agent. We propose a technique to learn the vector representation of image schemas. As far as we are aware of, this is the first work which addresses that problem. Our technique uses Ravenet et al's algorithm which we use to compute the image schemas from the text input and also BERT and SenseBERT which we use as the base word embedding technique to calculate the final vector representation of the image schema. Our representation learning technique works by clustering: word embedding vectors which belong to the same image schema should be relatively closer to each other, and thus form a cluster. With the image schemas representable as vectors, it also becomes possible to have a notion that some image schemas are closer or more similar to each other than to the others because the distance between the vectors is a proxy of the dissimilarity between the corresponding image schemas. Therefore, after obtaining the vector representation of the image schemas, we calculate the distances between those vectors. Based on these, we create visualizations to illustrate the relative distances between the different image schemas.
翻訳日:2022-07-19 14:07:26 公開日:2022-07-17