このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230409となっている論文です。

PDF登録状況(公開日: 20230409)

TitleAuthorsAbstract論文公表日・翻訳日
# シェルドン! テレビ番組からパーソナライズされたキャラクターを

Hi Sheldon! Creating Deep Personalized Characters from TV Shows ( http://arxiv.org/abs/2304.11093v1 )

ライセンス: Link先を確認
Meidai Xuanyuan, Yuwang Wang, Honglei Guo, Xiao Ma, Yuchen Guo, Tao Yu, Qionghai Dai(参考訳) The Big Bang TheoryのSheldonのように振舞うことができるAI生成のデジタルキャラクタを、外見から人格へのDEPコピーとして見ることができる、興味深いマルチモーダルな対話シナリオを想像してみてほしい。 この素晴らしいマルチモーダルチャットシナリオに向けて,TV番組などのマルチモーダルデータからマルチモーダルチャットパーソナライズされた文字を作成する,Deep Personalized Character Creation (DPCC) という新しいタスクを提案する。 具体的には、単一または複数モードの入力(テキスト、オーディオ、ビデオ)が与えられた場合、DPCCの目標は、複数のモード(テキスト、オーディオ、ビデオ)の応答を生成することである。 この課題を支援するために,TV番組から,Deep Personalized Character Dataset (DPCD) という文字中心の多モーダル対話データセットをさらに収集する。 dpcdには,約10k発話と約6時間の音声/ビデオの文字固有のマルチモーダル対話データが含まれており,既存の関連するデータセットに比べて約10倍大きい。dpcdでは,dpccタスクのベースラインとなる手法を提案し,ビッグバンtv番組から5つの深層デジタル文字(ディープキャラクタ)を作成する。 主観的および客観的な実験を行い, 特徴と品質の観点から, ディープキャラクタからのマルチモーダル応答を評価する。 その結果,提案するベースラインは,収集されたDPCDデータセットに基づいて,マルチモーダル応答を生成するためのパーソナライズされたデジタル文字を生成することが可能であることを実証した。

Imagine an interesting multimodal interactive scenario that you can see, hear, and chat with an AI-generated digital character, who is capable of behaving like Sheldon from The Big Bang Theory, as a DEEP copy from appearance to personality. Towards this fantastic multimodal chatting scenario, we propose a novel task, named Deep Personalized Character Creation (DPCC): creating multimodal chat personalized characters from multimodal data such as TV shows. Specifically, given a single- or multi-modality input (text, audio, video), the goal of DPCC is to generate a multi-modality (text, audio, video) response, which should be well-matched the personality of a specific character such as Sheldon, and of high quality as well. To support this novel task, we further collect a character centric multimodal dialogue dataset, named Deep Personalized Character Dataset (DPCD), from TV shows. DPCD contains character-specific multimodal dialogue data of ~10k utterances and ~6 hours of audio/video per character, which is around 10 times larger compared to existing related datasets.On DPCD, we present a baseline method for the DPCC task and create 5 Deep personalized digital Characters (DeepCharacters) from Big Bang TV Shows. We conduct both subjective and objective experiments to evaluate the multimodal response from DeepCharacters in terms of characterization and quality. The results demonstrates that, on our collected DPCD dataset, the proposed baseline can create personalized digital characters for generating multimodal response.Our collected DPCD dataset, the code of data collection and our baseline will be published soon.
翻訳日:2023-04-30 07:59:04 公開日:2023-04-09
# 高忠実度多元電池データ生成に向けた深層学習アプローチ

A Deep Learning Approach Towards Generating High-fidelity Diverse Synthetic Battery Datasets ( http://arxiv.org/abs/2304.06043v1 )

ライセンス: Link先を確認
Janamejaya Channegowda, Vageesh Maiya, Chaitanya Lingaraj(参考訳) 近年の電気自動車の急増により、安価な省エネ蓄電池システムの開発が求められている。 世界中の多くの国が化石燃料を動力とする車両の数を減らし、制限する具体的な措置を講じている。 現在、リチウムイオン電池が自動車部門を支配している。 エネルギー研究の努力は、信頼性の高い車両走行距離推定を提供するために、こうした電池の充電状態を正確に計算することにも焦点が当てられている。 このような推定アルゴリズムは正確な推定を提供するが、文献で利用できるすべての手法は、優れた品質のバッテリーデータセットを利用できると推定される。 実際、独自のバッテリー使用データセットにアクセスすることは、バッテリー科学者にとって非常に難しい。 さらに、オープンアクセスデータセットには、汎用モデルを構築するのに必要な多様なバッテリーチャージ/ディスチャージパターンが欠けている。 バッテリー測定データのキュレーションには時間がかかり、高価な機器が必要である。 このような限られたデータシナリオを克服するために、高忠実度バッテリーデータセットを合成するDeep Learningベースの手法はほとんど導入していません。 我々は,本手法で使用される合成データ生成のためのコードとデータセットをリリースした。 ここで導入されたバッテリデータ拡張技術は、限られたバッテリデータセットの課題を軽減する。

Recent surge in the number of Electric Vehicles have created a need to develop inexpensive energy-dense Battery Storage Systems. Many countries across the planet have put in place concrete measures to reduce and subsequently limit the number of vehicles powered by fossil fuels. Lithium-ion based batteries are presently dominating the electric automotive sector. Energy research efforts are also focussed on accurate computation of State-of-Charge of such batteries to provide reliable vehicle range estimates. Although such estimation algorithms provide precise estimates, all such techniques available in literature presume availability of superior quality battery datasets. In reality, gaining access to proprietary battery usage datasets is very tough for battery scientists. Moreover, open access datasets lack the diverse battery charge/discharge patterns needed to build generalized models. Curating battery measurement data is time consuming and needs expensive equipment. To surmount such limited data scenarios, we introduce few Deep Learning-based methods to synthesize high-fidelity battery datasets, these augmented synthetic datasets will help battery researchers build better estimation models in the presence of limited data. We have released the code and dataset used in the present approach to generate synthetic data. The battery data augmentation techniques introduced here will alleviate limited battery dataset challenges.
翻訳日:2023-04-14 16:57:49 公開日:2023-04-09
# 需要応答型公共交通の便益と課題の理解に向けて : シャーロット市を事例として

Towards Understanding the Benefits and Challenges of Demand Responsive Public Transit- A Case Study in the City of Charlotte, NC ( http://arxiv.org/abs/2304.06467v1 )

ライセンス: Link先を確認
Sanaz Sadat Hosseini, Mona Azarbayjani, Jason Lawrence, Hamed Tabkhi(参考訳) 適切な公共交通機関へのアクセスは不平等や社会経済的モビリティ、特に低所得社会において重要な役割を果たしている。 公共交通機関に大きく依存する低所得労働者は、家と仕事の空間的格差に直面し、失業率が高く、職探しが長く、通勤時間が長くなる。 本研究の目的は、低所得の交通依存コミュニティにおける交通ギャップを最小限に抑える、接続型、調整型、需要対応型、効率的な公共バスシステムを構築するための初期データを得ることである。 本稿では,都市交通の公平化を図るため,バス路線や到着時刻の把握を支援するCATSモバイルアプリケーションの評価を行った。 我々のコミュニティ調査手法は、シャーロットのバス路線に関する現在のバスシステムに関するアンケートに答えることと、将来新しいスマートテクノロジーの利用者受け入れを決定することを含む。 また,実世界のパイロット研究,Sprinter Bus line, Bus line 7, Bus line 9, Bus line 97-99の需要と交通ギャップに関するデータを収集した。 これらの路線はシャーロットシティの主要地域全てを繋ぎ、システムの中で最も重要なバス路線である。 調査した路線について, 第一調査の結果から, 現在のバスシステムには多くの欠陥があり, 乗客のニーズを満たすための適切なタイミングの欠如が主な要因であることがわかった。 最も一般的な問題は、駅で長い通勤時間と長い待ち時間である。 さらに、既存のアプリケーションは不正確な情報を提供しており、旅行者と回答者の80%が新しい技術を使いたがっている。

Access to adequate public transportation plays a critical role in inequity and socio-economic mobility, particularly in low-income communities. Low-income workers who rely heavily on public transportation face a spatial disparity between home and work, which leads to higher unemployment, longer job searches, and longer commute times. The overarching goal of this study is to get initial data that would result in creating a connected, coordinated, demand-responsive, and efficient public bus system that minimizes transit gaps for low-income, transit-dependent communities. To create equitable metropolitan public transportation, this paper evaluates existing CATS mobile applications that assist passengers in finding bus routes and arrival times. Our community survey methodology includes filling out questionnaires on Charlotte's current bus system on specific bus lines and determining user acceptance for a future novel smart technology. We have also collected data on the demand and transit gap for a real-world pilot study, Sprinter bus line, Bus line 7, Bus line 9, and Bus lines 97-99. These lines connect all of Charlotte City's main areas and are the most important bus lines in the system. On the studied routes, the primary survey results indicate that the current bus system has many flaws, the major one being the lack of proper timing to meet the needs of passengers. The most common problems are long commutes and long waiting times at stations. Moreover, the existing application provides inaccurate information, and on average, 80 percent of travelers and respondents are inclined to use new technology.
翻訳日:2023-04-14 14:35:39 公開日:2023-04-09
# Mobius二乗ポテンシャルを持つ2次元シュロディンガー方程式のエネルギースペクトルと熱磁気特性に及ぼす量子フラックス効果

Quantum flux effects on the energy spectra and thermo-magnetic properties in 2D Schrodinger equation with Mobius square potential ( http://arxiv.org/abs/2304.04768v1 )

ライセンス: Link先を確認
A.N.Ikot, U.S.Okorie, I.B.Okon, P.O.Amadi, N.Okpara, L.F.Obagboye, A.I.Ahmadov, H.Horchani, A.-H. Abdel-Aty and C.Duque(参考訳) 相互作用するMobius平方ポテンシャルモデルを持つ2次元シュロディンガー方程式は、Nikiforov-Uvarov Functional Analysis (NUFA) 形式主義を用いて解決される。 線形かつ指数的に変化する量子磁気フラックスに対するエネルギースペクトルおよび対応する波動関数をクローズド形式で解析的に取得する。 評価されたエネルギースペクトルは、線形かつ指数的に変化する量子磁束からなる2つのケースに対する分配関数の式を得るために使用され、vis-a-vis は系の他の熱力学的および磁気的性質を評価するために用いられる。 その結果, 自由エネルギー, 平均エネルギー, エントロピー, 比熱, 磁化, 磁化率, 磁化率および系の持続電流について検討した。 数値境界状態エネルギーが計算される。

A 2D Schrodinger equation with interacting Mobius square potential model is solved using Nikiforov-Uvarov Functional Analysis (NUFA) formalism. The energy spectra and the corresponding wave function for the linearly and exponentially varying quantum magnetic flux are obtained analytically in a closed form. The evaluated energy spectra are used to obtain an expression for the partition functions for the two cases comprises of the linearly and exponentially varying quantum magnetic flux and vis-a-vis is use to evaluate other thermodynamic and magnetic properties for the system. The results are used to study the free energy, mean energy, the entropy, specific heat, magnetization, magnetic susceptibility and the persistent current of the system. The numerical bound state energies are computed.
翻訳日:2023-04-12 17:23:22 公開日:2023-04-09
# 大規模言語モデルは医療に使えるか? 臨床言語理解に関する比較研究

Are Large Language Models Ready for Healthcare? A Comparative Study on Clinical Language Understanding ( http://arxiv.org/abs/2304.05368v1 )

ライセンス: Link先を確認
Yuqing Wang, Yun Zhao, Linda Petzold(参考訳) 大規模言語モデル(llm)は医療を含む様々な領域で大きな進歩を遂げている。 しかし、臨床言語理解タスクの特殊性は、さらなる調査を保証できる固有の課題と限界を提示する。 本研究では,臨床言語理解タスクの領域内で,最新のLCM(GPT-3.5,GPT-4,Bard)を総合的に評価する。 これらのタスクは、名前付きエンティティ認識、関係抽出、自然言語推論、意味的テキスト類似性、文書分類、質問応答など、さまざまな範囲にまたがる。 また,臨床シナリオに関連のある情報的質問や回答を抽出することにより,LSMのパフォーマンス向上に資する新規なプロンプト戦略,セルフクエストプロンプト(SQP)を導入する。 本評価は,医療関連課題における LLM の有効性向上のための課題特化学習戦略の重要性と促進手法の意義を裏付けるものである。 さらに,難解な関係抽出タスクにおける深度誤差解析は,SQPを用いた改善のための誤り分布と潜在的な方法に関する貴重な知見を提供する。 本研究は,医療分野におけるLLMの活用の実践的意義を明らかにし,今後の研究の基盤となり,医療分野への応用の可能性について考察した。

Large language models (LLMs) have made significant progress in various domains, including healthcare. However, the specialized nature of clinical language understanding tasks presents unique challenges and limitations that warrant further investigation. In this study, we conduct a comprehensive evaluation of state-of-the-art LLMs, namely GPT-3.5, GPT-4, and Bard, within the realm of clinical language understanding tasks. These tasks span a diverse range, including named entity recognition, relation extraction, natural language inference, semantic textual similarity, document classification, and question-answering. We also introduce a novel prompting strategy, self-questioning prompting (SQP), tailored to enhance LLMs' performance by eliciting informative questions and answers pertinent to the clinical scenarios at hand. Our evaluation underscores the significance of task-specific learning strategies and prompting techniques for improving LLMs' effectiveness in healthcare-related tasks. Additionally, our in-depth error analysis on the challenging relation extraction task offers valuable insights into error distribution and potential avenues for improvement using SQP. Our study sheds light on the practical implications of employing LLMs in the specialized domain of healthcare, serving as a foundation for future research and the development of potential applications in healthcare settings.
翻訳日:2023-04-12 13:59:23 公開日:2023-04-09
# ChatGPTとBardはアライメントアイテムを生成できるか? ヒューマンパフォーマンスに対する信頼性分析

Can ChatGPT and Bard Generate Aligned Assessment Items? A Reliability Analysis against Human Performance ( http://arxiv.org/abs/2304.05372v1 )

ライセンス: Link先を確認
Abdolvahab Khademi(参考訳) ChatGPTとBardはLarge Language Models(LLM)に基づいたAIチャットボットで、さまざまな分野で異なるアプリケーションを約束する予定である。 教育において、これらのAI技術は評価と教育の応用のためにテストされてきた。 評価において、AIは長い間、自動エッセイ評価と自動アイテム生成に使われてきた。 これらのツールが人間をアセスメントで支援し、置き換えなければならないという心理的特性の一つは、AIスコアと人間のレイパーとの合意の点で高い信頼性である。 本稿では,OpenAI ChatGPとGoogle Bard LLMsツールの,経験者および訓練された人間に対する信頼性を測定し,書込みプロンプトの複雑さを認識・評価する。 性能指標としてのクラス内相関 (ICC) は, OpenAI ChatGPT と Google Bard の相互信頼度が人間格付けのゴールド基準に対して低いことを示した。

ChatGPT and Bard are AI chatbots based on Large Language Models (LLM) that are slated to promise different applications in diverse areas. In education, these AI technologies have been tested for applications in assessment and teaching. In assessment, AI has long been used in automated essay scoring and automated item generation. One psychometric property that these tools must have to assist or replace humans in assessment is high reliability in terms of agreement between AI scores and human raters. In this paper, we measure the reliability of OpenAI ChatGP and Google Bard LLMs tools against experienced and trained humans in perceiving and rating the complexity of writing prompts. Intraclass correlation (ICC) as a performance metric showed that the inter-reliability of both the OpenAI ChatGPT and the Google Bard were low against the gold standard of human ratings.
翻訳日:2023-04-12 13:47:10 公開日:2023-04-09
# Sliced"サブウィンドウサーチ:最大矩形問題に対するサブ線形複雑解法

"Sliced" Subwindow Search: a Sublinear-complexity Solution to the Maximum Rectangle Problem ( http://arxiv.org/abs/1908.00140v2 )

ライセンス: Link先を確認
Max Reuter, Gheorghe-Teodor Bercea, Liana Fong(参考訳) 正と負の数の2次元行列を考えると、その中身が他のすべての矩形よりも高い長方形を描くことができるのだろうか? この基本的な問題は、一般に最大長方形問題またはサブウィンドウ探索と呼ばれ、多くの計算領域にまたがる。 しかし、この問題は、行列のサイズに少なくとも線形に比例する計算資源を要求することなく解決されていない。 本研究では,行列の少数の等距離区間間を補間することにより,線形時間とメモリの複雑さを補間する問題に対する新しいアプローチを提案する。 自然画像に適用すると,11倍の速度とメモリ効率を99%の精度で達成し,最先端技術よりも優れる。 一般に,本手法は,行列が十分に大きく,精度の限界低下が許容される場合,例えば自然画像を含む多くの問題において,既存の解よりも優れる。 このように、リアルタイムアプリケーションや、最大矩形問題の様々な計算困難インスタンスに適している。

Considering a 2D matrix of positive and negative numbers, how might one draw a rectangle within it whose contents sum higher than all other rectangles'? This fundamental problem, commonly known the maximum rectangle problem or subwindow search, spans many computational domains. Yet, the problem has not been solved without demanding computational resources at least linearly proportional to the size of the matrix. In this work, we present a new approach to the problem which achieves sublinear time and memory complexities by interpolating between a small amount of equidistant sections of the matrix. Applied to natural images, our solution outperforms the state-of-the-art by achieving an 11x increase in speed and memory efficiency at 99% comparative accuracy. In general, our solution outperforms existing solutions when matrices are sufficiently large and a marginal decrease in accuracy is acceptable, such as in many problems involving natural images. As such, it is well-suited for real-time application and in a variety of computationally hard instances of the maximum rectangle problem.
翻訳日:2023-04-12 01:11:49 公開日:2023-04-09
# 超パラメータ最適化のための系譜的集団ベーストレーニング

Genealogical Population-Based Training for Hyperparameter Optimization ( http://arxiv.org/abs/2109.14925v2 )

ライセンス: Link先を確認
Antoine Scardigli and Paul Fournier and Matteo Vilucchio and David Naccache(参考訳) HyperParameter Optimization (HPO)は、ニューラルネットワークのような学習モデルの最適なハイパーパラメータ(HP)を、可能な限り高速かつ効率的な方法で見つけることを目的としている。 最近のHPOアルゴリズムは、異なるモデルに対して、同じHPが非常によく似た結果をもたらすと仮定して、得られたモデルに関係なくHPを最適化しようとする。 我々はこのパラダイムから脱却し,遺伝子学的集団ベーストレーニング(gpbt)と呼ばれる既存の手法を新たに提案する。 GPBTは、"世代論的"関連モデルの共有履歴を通じて、HPとモデルの効率的な結合を利用する。 提案手法は,計算コストの2~3倍削減し,コンピュータビジョンタスクの精度を1%向上させるとともに,現在のアルゴリズムと比較して,結果のばらつきを桁違いに低減することを示した。 本手法は,内部探索ルーチンをtpe,gp,cma,ランダム検索などの任意の探索アルゴリズムにすることができる。

HyperParameter Optimization (HPO) aims at finding the best HyperParameters (HPs) of learning models, such as neural networks, in the fastest and most efficient way possible. Most recent HPO algorithms try to optimize HPs regardless of the model that obtained them, assuming that for different models, same HPs will produce very similar results. We break free from this paradigm and propose a new take on preexisting methods that we called Genealogical Population Based Training (GPBT). GPBT, via the shared histories of "genealogically"-related models, exploit the coupling of HPs and models in an efficient way. We experimentally demonstrate that our method cuts down by 2 to 3 times the computational cost required, generally allows a 1% accuracy improvement on computer vision tasks, and reduces the variance of the results by an order of magnitude, compared to the current algorithms. Our method is search-algorithm agnostic so that the inner search routine can be any search algorithm like TPE, GP, CMA or random search.
翻訳日:2023-04-12 00:22:10 公開日:2023-04-09
# ラジオマップを用いたリアルタイム屋外位置推定 : 深層学習アプローチ

Real-time Outdoor Localization Using Radio Maps: A Deep Learning Approach ( http://arxiv.org/abs/2106.12556v4 )

ライセンス: Link先を確認
\c{C}a\u{g}kan Yapar, Ron Levie, Gitta Kutyniok, Giuseppe Caire(参考訳) グローバル・ナビゲーション・サテライト・システムは通常、デバイスと衛星間の視線条件が低い都市環境では性能が良くない。 そのため、精度を高めるためには代替位置法が必要となる。 本稿では、少数の基地局(BS)の受信信号強度(RSS)からユーザの位置を推定できる、ローカライゼーションタスクのための畳み込みエンドツーエンドニューラルネットワーク(NN)を提案する。 そこでLocUNetは,BSのパスロスラジオマップとRSS測定値の局所化を利用して,ユーザを最先端の精度でローカライズし,無線マップの推定における不正確性に高いロバスト性を享受する。 提案手法では, 局所化タスクを行う領域ごとにRSS指紋を生成する必要はなく, リアルタイムアプリケーションに適している。 さらに,現実都市環境におけるrssとtoaの数値評価を可能にする2つの新しいデータセットを提示し,研究コミュニティに公開した。 これらのデータセットを使用することで、都市密集シナリオにおける最先端のRSSとToAに基づく手法の公平な比較を行い、LocUNetが比較した手法のすべてより優れていることを示す。

Global Navigation Satellite Systems typically perform poorly in urban environments, where the likelihood of line-of-sight conditions between devices and satellites is low. Therefore, alternative location methods are required to achieve good accuracy. We present LocUNet: A convolutional, end-to-end trained neural network (NN) for the localization task, which is able to estimate the position of a user from the received signal strength (RSS) of a small number of Base Stations (BS). Using estimations of pathloss radio maps of the BSs and the RSS measurements of the users to be localized, LocUNet can localize users with state-of-the-art accuracy and enjoys high robustness to inaccuracies in the estimations of radio maps. The proposed method does not require generating RSS fingerprints of each specific area where the localization task is performed and is suitable for real-time applications. Moreover, two novel datasets that allow for numerical evaluations of RSS and ToA methods in realistic urban environments are presented and made publicly available for the research community. By using these datasets, we also provide a fair comparison of state-of-the-art RSS and ToA-based methods in the dense urban scenario and show numerically that LocUNet outperforms all the compared methods.
翻訳日:2023-04-12 00:20:48 公開日:2023-04-09
# ガラス動力学をめざしたセルポットモデルにおけるアイシングの異常相と転移性

Disordered Phase in Ising and Metastability in Cellular Potts Models Hint at Glassy Dynamics ( http://arxiv.org/abs/2106.11298v2 )

ライセンス: Link先を確認
Shah Ishmam Mohtashim, Turbasu Chatterjee, Arnav Das, Rishabh Gupta and Sumit Suresh Kale(参考訳) 本稿では, 量子アルゴリズムを用いておもちゃ模型のガラス系をシミュレートする。 ガラスの挙動を調べるために,横フィールドIsingモデルの縦フィールドにおけるエネルギーランドスケープとスピン配置について検討した。 変分量子固有ソルバ(vqe)は、36キュービットと1次元の長さ25のイジングチェーンを用いて、6 \times 6$イジング格子の基底状態エネルギーおよび対応する固有状態を得るために用いられる。 8 \times 8$ cell pottsモデルでは、元のハミルトニアンはvqeの基底状態への還元のためのイジング定式化に変換される。 最小化時のエネルギー変化は、細胞間の界面張力の影響が細胞系のガラス性を引き起こすかどうかを慎重に分析する。

In this paper, quantum algorithms are to be used to simulate glassy systems in toy models. To look for glassy behavior, the energy landscape and spin configurations of the transverse field Ising model in a longitudinal field are studied. The Variational Quantum Eigensolver (VQE) is used to obtain the ground-state energies and corresponding eigenstates for a $6 \times 6$ Ising lattice using 36 qubits and a 1-dimensional Ising chain of length 25. For the $8 \times 8$ Cellular Potts model, the original Hamiltonian is converted to an Ising formulation for the VQE to reduce to its ground state. The energy change during minimization is carefully analyzed to find whether the effects of interfacial tension among cells could probably induce glassiness in the cell system.
翻訳日:2023-04-12 00:20:18 公開日:2023-04-09
# 超解法におけるL1損失の再検討:確率論的視点とそれ以上

Revisiting L1 Loss in Super-Resolution: A Probabilistic View and Beyond ( http://arxiv.org/abs/2201.10084v2 )

ライセンス: Link先を確認
Xiangyu He, Jian Cheng(参考訳) 誤った問題としての超分解能は、低分解能入力に対する多くの高分解能候補を持つ。 しかし、与えられたHR画像に最も合うために使われる$\ell_1$の損失は、画像復元におけるこの不均一性の基本的な性質を考慮できない。 本研究では,ニューラルネットワークによる超解像を確率論的モデルとして定式化することにより,損失を$\ell_1$で補正する。 これは、$\ell_1$の損失が学習プロセスからランダム性を取り除く劣化度関数と同値であることを示している。 データ適応型確率変数を導入することにより、すべての可算解に対する再構成誤差の期待を最小化することを目的とした、新たな目的関数を提案する。 実験結果から、パラメータや計算コストを抑えながら、主流アーキテクチャにおいて一貫した改善が見られた。

Super-resolution as an ill-posed problem has many high-resolution candidates for a low-resolution input. However, the popular $\ell_1$ loss used to best fit the given HR image fails to consider this fundamental property of non-uniqueness in image restoration. In this work, we fix the missing piece in $\ell_1$ loss by formulating super-resolution with neural networks as a probabilistic model. It shows that $\ell_1$ loss is equivalent to a degraded likelihood function that removes the randomness from the learning process. By introducing a data-adaptive random variable, we present a new objective function that aims at minimizing the expectation of the reconstruction error over all plausible solutions. The experimental results show consistent improvements on mainstream architectures, with no extra parameter or computing cost at inference time.
翻訳日:2023-04-12 00:12:41 公開日:2023-04-09
# 多変量時系列予測のためのマルチスケール適応グラフニューラルネットワーク

Multi-Scale Adaptive Graph Neural Network for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2201.04828v2 )

ライセンス: Link先を確認
Ling Chen, Donghui Chen, Zongjiang Shang, Binqing Wu, Cen Zheng, Bo Wen, and Wei Zhang(参考訳) 多変量時系列予測(MTS)はインテリジェントアプリケーションの自動化と最適化において重要な役割を果たす。 複雑な変数内依存関係と変数間依存関係の両方を考慮する必要があるため、これは難しいタスクです。 既存の作業は、単一の変数間の依存関係の助けを借りて、時間パターンのみを学ぶ。 しかし、多くの現実世界のMSSにはマルチスケールの時間パターンが存在する。 単一の変数間依存性により、モデルは一種類の顕著な時相パターンを学習することを好む。 本稿では,上記の問題に対処するために,マルチスケール適応グラフニューラルネットワーク(magnn)を提案する。 magnnはマルチスケールのピラミッドネットワークを利用して、下位の時間依存を異なる時間スケールで保存する。 変数間依存性は、異なる時間スケールで異なる可能性があるため、適応グラフ学習モジュールは、事前定義された事前設定なしで、スケール固有の変数間依存性を推測するように設計されている。 マルチスケールの特徴表現とスケール固有の変数間依存関係を考えると、マルチスケールの時間グラフニューラルネットワークは、変数内依存性と変数間依存性を共同でモデル化するために導入される。 その後、異なる時間スケールでの協調を効果的に促進し、貢献する時間的パターンの重要性を自動的に把握する、スケールワイズ融合モジュールを開発した。 4つの実世界のデータセットの実験では、MAGNNは様々な設定で最先端のメソッドよりも優れています。

Multivariate time series (MTS) forecasting plays an important role in the automation and optimization of intelligent applications. It is a challenging task, as we need to consider both complex intra-variable dependencies and inter-variable dependencies. Existing works only learn temporal patterns with the help of single inter-variable dependencies. However, there are multi-scale temporal patterns in many real-world MTS. Single inter-variable dependencies make the model prefer to learn one type of prominent and shared temporal patterns. In this paper, we propose a multi-scale adaptive graph neural network (MAGNN) to address the above issue. MAGNN exploits a multi-scale pyramid network to preserve the underlying temporal dependencies at different time scales. Since the inter-variable dependencies may be different under distinct time scales, an adaptive graph learning module is designed to infer the scale-specific inter-variable dependencies without pre-defined priors. Given the multi-scale feature representations and scale-specific inter-variable dependencies, a multi-scale temporal graph neural network is introduced to jointly model intra-variable dependencies and inter-variable dependencies. After that, we develop a scale-wise fusion module to effectively promote the collaboration across different time scales, and automatically capture the importance of contributed temporal patterns. Experiments on four real-world datasets demonstrate that MAGNN outperforms the state-of-the-art methods across various settings.
翻訳日:2023-04-12 00:12:18 公開日:2023-04-09
# 深層学習モデルにおけるSHAP(SHapley Additive Explanations)の安定性に及ぼす背景データサイズの影響に関する実証的研究

An empirical study of the effect of background data size on the stability of SHapley Additive exPlanations (SHAP) for deep learning models ( http://arxiv.org/abs/2204.11351v3 )

ライセンス: Link先を確認
Han Yuan, Mingxuan Liu, Lican Kang, Chenkui Miao, Ying Wu(参考訳) 今日では、機械学習(ML)モデルが特定の推論を行う理由の解釈は、そのような推論の正確さと同じくらい重要である。 決定木のようなMLモデルは、人間によって直接解釈できる固有の解釈可能性を持っている。 しかし、artificial neural networks (ann)のような他のものは、推論メカニズムを明らかにするために外部の方法に依存している。 SHAP(SHapley Additive exPlanations)は、ANNを解釈する際にバックグラウンドデータセットを必要とする外部メソッドの1つである。 一般的に、バックグラウンドデータセットはトレーニングデータセットからランダムにサンプリングされたインスタンスで構成される。 しかし、サンプリングサイズとそのシャップへの影響は未解明のままである。 MIMIC-IIIデータセットに関する実証的研究では,ランダムサンプリングから取得した異なる背景データセットを使用すると,SHAP値と変数ランクが変動し,SHAPからのワンショット解釈を疑わしく信頼できないことを示す。 幸いなことに、背景データセットサイズの増加に伴い、そのような変動は減少する。 また、SHAP変数ランキングの安定性評価におけるU字型は、中等度に重要な変数よりも、最も重要かつ最も重要でない変数のランク付けに信頼性が高いことを示す。 以上の結果から,背景データがSHAP結果に与える影響を考慮し,背景サンプルサイズが大きくなるにつれてSHAP安定性が向上することが示唆された。

Nowadays, the interpretation of why a machine learning (ML) model makes certain inferences is as crucial as the accuracy of such inferences. Some ML models like the decision tree possess inherent interpretability that can be directly comprehended by humans. Others like artificial neural networks (ANN), however, rely on external methods to uncover the deduction mechanism. SHapley Additive exPlanations (SHAP) is one of such external methods, which requires a background dataset when interpreting ANNs. Generally, a background dataset consists of instances randomly sampled from the training dataset. However, the sampling size and its effect on SHAP remain to be unexplored. In our empirical study on the MIMIC-III dataset, we show that the two core explanations - SHAP values and variable rankings fluctuate when using different background datasets acquired from random sampling, indicating that users cannot unquestioningly trust the one-shot interpretation from SHAP. Luckily, such fluctuation decreases with the increase of the background dataset size. Also, we notice an U-shape in the stability assessment of SHAP variable rankings, demonstrating that SHAP is more reliable in ranking the most and least important variables compared to moderately important ones. Overall, our results suggest that users should take into account how background data affects SHAP results, with improved SHAP stability as the background sample size increases.
翻訳日:2023-04-12 00:04:11 公開日:2023-04-09
# InCoder: コード入力と合成のための生成モデル

InCoder: A Generative Model for Code Infilling and Synthesis ( http://arxiv.org/abs/2204.05999v3 )

ライセンス: Link先を確認
Daniel Fried, Armen Aghajanyan, Jessy Lin, Sida Wang, Eric Wallace, Freda Shi, Ruiqi Zhong, Wen-tau Yih, Luke Zettlemoyer, Mike Lewis(参考訳) コードは1つの左から右へのパスで書くことはめったになく、繰り返し編集され、洗練される。 本稿では,プログラム合成(左から右への生成による)や編集(インフィルリングによる)が可能な統合生成モデルであるincoderを紹介する。 incoderは、許容ライセンスコードの大きなコーパスからコードファイルを生成するように訓練されており、コードの領域はランダムにマスキングされ、各ファイルの端に移動し、双方向のコンテキストでコードを埋め込むことができる。 我々のモデルは,型推論やコメント生成,変数の再命名といった課題に対して,ゼロショットコード入力を直接実行可能な最初の生成モデルである。 両方向の文脈で条件を定めれば、これらのタスクの性能は大幅に向上するが、同じスケールで事前訓練された左から右へのモデルと比較して、標準的なプログラム合成ベンチマークでは相容れない。 InCoderモデルとコードは公開されている。 https://sites.google.com/view/incoder-code-models

Code is seldom written in a single left-to-right pass and is instead repeatedly edited and refined. We introduce InCoder, a unified generative model that can perform program synthesis (via left-to-right generation) as well as editing (via infilling). InCoder is trained to generate code files from a large corpus of permissively licensed code, where regions of code have been randomly masked and moved to the end of each file, allowing code infilling with bidirectional context. Our model is the first generative model that is able to directly perform zero-shot code infilling, which we evaluate on challenging tasks such as type inference, comment generation, and variable re-naming. We find that the ability to condition on bidirectional context substantially improves performance on these tasks, while still performing comparably on standard program synthesis benchmarks in comparison to left-to-right only models pretrained at similar scale. The InCoder models and code are publicly released. https://sites.google.com/view/incoder-code-models
翻訳日:2023-04-12 00:02:25 公開日:2023-04-09
# Bi-PPTチャネルは絡み合う

Bi-PPT channels are entanglement breaking ( http://arxiv.org/abs/2204.01685v2 )

ライセンス: Link先を確認
Alexander M\"uller-Hermes and Satvik Singh(参考訳) 最近の論文で、ヒルシュとレディツキーは、2PPTチャネルの概念を導入し、これは構成上完全に正であり、相補的なチャネルの1つに同じ性質を持つ量子チャネルである。 彼らは、そのようなチャネルの例が反分解性でないかどうかを尋ねた。 双方向PPTチャネルは常に絡み合っているので、これはそうではない。 また, 量子チャネルの劣化が完全に正であり, 転移が絡み合っていることを示す。

In a recent paper, Hirche and Leditzky introduced the notion of bi-PPT channels which are quantum channels that stay completely positive under composition with a transposition and such that the same property holds for one of their complementary channels. They asked whether there are examples of such channels that are not antidegradable. We show that this is not the case, since bi-PPT channels are always entanglement breaking. We also show that degradable quantum channels staying completely positive under composition with a transposition are entanglement breaking.
翻訳日:2023-04-12 00:01:42 公開日:2023-04-09
# グリーディコーディネートによる高次元私的リスク最小化

High-Dimensional Private Empirical Risk Minimization by Greedy Coordinate Descent ( http://arxiv.org/abs/2207.01560v3 )

ライセンス: Link先を確認
Paul Mangold, Aur\'elien Bellet, Joseph Salmon, Marc Tommasi(参考訳) 本稿では,DP-ERMの個人的リスク最小化について検討する。 DP-ERMの最悪の効用は次元が大きくなるにつれて多項式的に減少することが示されている。 これは、大規模機械学習モデルをプライベートに学習する上での大きな障害である。 高次元では、あるモデルのパラメータが他のモデルよりも多くの情報を運ぶことが一般的である。 そこで本研究では, 微分的にプライベートな greedy coordinate descend (dp-gcd) アルゴリズムを提案する。 各イテレーションで、dp-gcdは、勾配の(ほぼ)最大エントリに沿って座標的な勾配ステップをプライベートに実行する。 我々は,DP-GCDが,その構造特性(準スパース解など)を自然に利用することにより,幅広い問題において次元に対数依存できることを示す。 我々は,合成データと実データの両方について,この挙動を数値的に示す。

In this paper, we study differentially private empirical risk minimization (DP-ERM). It has been shown that the worst-case utility of DP-ERM reduces polynomially as the dimension increases. This is a major obstacle to privately learning large machine learning models. In high dimension, it is common for some model's parameters to carry more information than others. To exploit this, we propose a differentially private greedy coordinate descent (DP-GCD) algorithm. At each iteration, DP-GCD privately performs a coordinate-wise gradient step along the gradients' (approximately) greatest entry. We show theoretically that DP-GCD can achieve a logarithmic dependence on the dimension for a wide range of problems by naturally exploiting their structural properties (such as quasi-sparse solutions). We illustrate this behavior numerically, both on synthetic and real datasets.
翻訳日:2023-04-11 23:55:38 公開日:2023-04-09
# 高速移動音源からの光通信と量子通信における適応光学ラグの影響の低減

Reducing The Impact Of Adaptive Optics Lag On Optical And Quantum Communications Rates From Rapidly Moving Sources ( http://arxiv.org/abs/2206.12173v3 )

ライセンス: Link先を確認
Kai Sum Chan and H. F. Chau(参考訳) 乱気流を通り抜ける光の波面は歪む。 これにより、光線が広がり受信端をさまようと、自由空間光通信における信号損失が発生する。 周波数および/または時間分割多重適応光学(ao)技術は、この種の波面歪みを共役するために用いられる。 しかし、信号ビームが大気に対して移動すると、AO系の性能は時間的異方性により低下する。 本稿では,信号ビームから空間的に分離した先駆的ビーコンを,空間的に分離されたパルス間の時間遅延で追加することにより,この問題を解決する。 さらに重要なことは、我々のプロトコルは信号ビームの強度に関係なく機能するため、秘密量子通信にも適用できる。 特に, 半経験的な大気乱流計算を用いて, 衛星から地上へのデコイ状態の量子鍵分布をゼニス角 $<30^\circ$ で観測した場合, 衛星高度 $400$~km と $800$~km に対して少なくとも$215\% および $40\%$ の上昇率を示す。 最後に,この問題に対する有効な代替ソリューションとして,既存の波長分割多重システムの修正を提案する。

Wavefront of light passing through turbulent atmosphere gets distorted. This causes signal loss in free-space optical communication as the light beam spreads and wanders at the receiving end. Frequency and/or time division multiplexing adaptive optics (AO) techniques have been used to conjugate this kind of wavefront distortion. However, if the signal beam moves relative to the atmosphere, the AO system performance degrades due to high temporal anisoplanatism. Here we solve this problem by adding a pioneer beacon that is spatially separated from the signal beam with time delay between spatially separated pulses. More importantly, our protocol works irrespective of the signal beam intensity and hence is also applicable to secret quantum communication. In particular, using semi-empirical atmospheric turbulence calculation, we show that for low earth orbit satellite-to-ground decoy state quantum key distribution with the satellite at zenith angle $< 30^\circ$, our method increases the key rate by at least $215\%$ and $40\%$ for satellite altitude $400$~km and $800$~km, respectively. Finally, we propose a modification of existing wavelength division multiplexing systems as an effective alternative solution to this problem.
翻訳日:2023-04-11 23:54:58 公開日:2023-04-09
# 適応スペクトルクラスタリングによる高次ホモフィリーグラフの再構成

Restructuring Graph for Higher Homophily via Adaptive Spectral Clustering ( http://arxiv.org/abs/2206.02386v2 )

ライセンス: Link先を確認
Shouheng Li, Dongwoo Kim, Qing Wang(参考訳) 好気性グラフと好気性グラフの両方に作用する新しいグラフニューラルネットワーク(gnns)の研究が増えているが、従来のgnnを好気性グラフに適応させる研究はほとんど行われていない。 好ましくないグラフを扱う能力は制限されているが、古典的なGNNは効率性、単純さ、説明可能性などいくつかの優れた特性で際立っている。 本研究では,従来のGNNを含む任意の種類のGNNに統合可能なグラフ再構成手法を提案し,その制約を緩和しつつ,既存のGNNの利点を活用する。 私たちの貢献は3倍です a)既知のノードラベルによく適合する適応的スペクトルクラスタリングのための擬似固有ベクトルの重みの学習 b)不均衡のラベル付けにロバストな新しい密度認識ホモフレンドリメトリックの提案 c) 適応スペクトルクラスタリングの結果に基づいて隣接行列を再構成し、同好性スコアを最大化する。 実験の結果, グラフ再構成手法により, 6つの古典的GNNの性能を平均25%向上させることができることがわかった。 パフォーマンスの向上は最先端のメソッドに匹敵する。

While a growing body of literature has been studying new Graph Neural Networks (GNNs) that work on both homophilic and heterophilic graphs, little has been done on adapting classical GNNs to less-homophilic graphs. Although the ability to handle less-homophilic graphs is restricted, classical GNNs still stand out in several nice properties such as efficiency, simplicity, and explainability. In this work, we propose a novel graph restructuring method that can be integrated into any type of GNNs, including classical GNNs, to leverage the benefits of existing GNNs while alleviating their limitations. Our contribution is threefold: a) learning the weight of pseudo-eigenvectors for an adaptive spectral clustering that aligns well with known node labels, b) proposing a new density-aware homophilic metric that is robust to label imbalance, and c) reconstructing the adjacency matrix based on the result of adaptive spectral clustering to maximize the homophilic scores. The experimental results show that our graph restructuring method can significantly boost the performance of six classical GNNs by an average of 25% on less-homophilic graphs. The boosted performance is comparable to state-of-the-art methods.
翻訳日:2023-04-11 23:54:12 公開日:2023-04-09
# どんな意味でユニークか? 音楽における多種の独特性と人気の相互関係

Unique in what sense? Heterogeneous relationships between multiple types of uniqueness and popularity in music ( http://arxiv.org/abs/2207.12943v3 )

ライセンス: Link先を確認
Yulin Yu, Pui Yin Cheung, Yong-Yeol Ahn, Paramveer Dhillon(参考訳) 私たちの社会は、文化品の独特さをどう評価しますか。 この基本的なパズルは心理学、社会学、人類学、マーケティングなど多くの分野の学者を惹きつけてきた。 慣れ親しみとノベルティのバランスをとる文化商品がより普及する可能性が高いと理論化されている。 しかし、文化商品の新規性は通常多面的である。 本稿では,歌を事例研究として,個性と成功との関係について考察する。 最初は、曲の斬新さや独特さの複数の面を解き放ち、次に、曲の人気への影響を測る。 我々は、歌詞、コード進行、オーディオ特性に関連する歌の人気と新規性との関係を研究するために、一連の統計モデルを用いている。 5万曲以上のデータセットで行った分析の結果、あらゆる種類の曲のノベルティと人気の間に一貫して否定的な相関が見られた。 全体として、歌詞の独特さは、その人気と最も重要な関連性があることを発見した。 しかし、オーディオの独特さは歌の人気の最も強い予測者であり、歌のジャンルを条件としていた。 さらに、歌の歌詞のテーマと反復性が、歌の人気とノベルティの関係を仲介することを発見した。 本研究の結果は,「最適特異性理論」(新奇性と親密性のバランス)と矛盾し,文化的商品の特異性を示す多次元的側面の解明を求めるものである。

How does our society appreciate the uniqueness of cultural products? This fundamental puzzle has intrigued scholars in many fields, including psychology, sociology, anthropology, and marketing. It has been theorized that cultural products that balance familiarity and novelty are more likely to become popular. However, a cultural product's novelty is typically multifaceted. This paper uses songs as a case study to study the multiple facets of uniqueness and their relationship with success. We first unpack the multiple facets of a song's novelty or uniqueness and, next, measure its impact on a song's popularity. We employ a series of statistical models to study the relationship between a song's popularity and novelty associated with its lyrics, chord progressions, or audio properties. Our analyses performed on a dataset of over fifty thousand songs find a consistently negative association between all types of song novelty and popularity. Overall we found a song's lyrics uniqueness to have the most significant association with its popularity. However, audio uniqueness was the strongest predictor of a song's popularity, conditional on the song's genre. We further found the theme and repetitiveness of a song's lyrics to mediate the relationship between the song's popularity and novelty. Broadly, our results contradict the "optimal distinctiveness theory" (balance between novelty and familiarity) and call for an investigation into the multiple dimensions along which a cultural product's uniqueness could manifest.
翻訳日:2023-04-11 23:45:55 公開日:2023-04-09
# MaskCLIP:Masked Self-Distillation Advances Contrastive Language- Image Pretraining

MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining ( http://arxiv.org/abs/2208.12262v2 )

ライセンス: Link先を確認
Xiaoyi Dong and Jianmin Bao and Yinglin Zheng and Ting Zhang and Dongdong Chen and Hao Yang and Ming Zeng and Weiming Zhang and Lu Yuan and Dong Chen and Fang Wen and Nenghai Yu(参考訳) 本稿では, マスク付き自己蒸留をコントラスト型言語画像事前学習に組み込んだ, シンプルで効果的なフレームワークMaskCLIPを提案する。 マスク付き自己蒸留の基本的な考え方は、完全な画像からマスク付き画像から予測された表現に表現を蒸留することである。 このような法人化は2つの重要な利益をもたらす。 まず、マスキング自己蒸留は、テキスト関連表現に注目した視覚言語コントラストを補完する局所パッチ表現学習をターゲットとしている。 第二に、マスク付き自己蒸留は、視覚的エンコーダを機能調整に利用し、言語から間接的な監督を受けるローカルセマンティクスを学習できるため、トレーニング目標の観点からの視覚言語との対比とも一致している。 この2つの利点を検証するための総合的な分析を特別に設計した実験を行う。 対称的に、テキストブランチに局所的な意味的監督を導入し、事前学習性能をさらに向上させる。 広範囲な実験により,様々な難易度の高い下流タスクに適用すると,言語エンコーダの指導により,線形プローブ,微調整,ゼロショット性能において優れた結果が得られることを示した。 コードは \url{https://github.com/LightDXY/MaskCLIP} でリリースされる。

This paper presents a simple yet effective framework MaskCLIP, which incorporates a newly proposed masked self-distillation into contrastive language-image pretraining. The core idea of masked self-distillation is to distill representation from a full image to the representation predicted from a masked image. Such incorporation enjoys two vital benefits. First, masked self-distillation targets local patch representation learning, which is complementary to vision-language contrastive focusing on text-related representation. Second, masked self-distillation is also consistent with vision-language contrastive from the perspective of training objective as both utilize the visual encoder for feature aligning, and thus is able to learn local semantics getting indirect supervision from the language. We provide specially designed experiments with a comprehensive analysis to validate the two benefits. Symmetrically, we also introduce the local semantic supervision into the text branch, which further improves the pretraining performance. With extensive experiments, we show that MaskCLIP, when applied to various challenging downstream tasks, achieves superior results in linear probing, finetuning, and zero-shot performance with the guidance of the language encoder. Code will be release at \url{https://github.com/LightDXY/MaskCLIP}.
翻訳日:2023-04-11 23:35:51 公開日:2023-04-09
# 意味強調画像クラスタリング

Semantic-Enhanced Image Clustering ( http://arxiv.org/abs/2208.09849v2 )

ライセンス: Link先を確認
Shaotian Cai, Liping Qiu, Xiaojun Chen, Qin Zhang, Longteng Chen(参考訳) 画像クラスタリングはコンピュータビジョンにおいて重要かつオープンなタスクである。 画像クラスタリングタスクを解決するために多くの方法が提案されているが、画像の特徴に従って画像やクラスタを探索するのみであり、視覚的に類似しているが意味的に異なる画像を区別できない。 本稿では,視覚言語事前学習モデルの助けを借りて,画像クラスタリングの課題について検討する。 クラス名が知られているゼロショット設定とは異なり、この設定でクラスタの数しか分かっていません。 したがって、画像を適切な意味空間にマッピングする方法と、画像と意味空間の両方から画像をクラスタリングする方法は、2つの重要な問題である。 上記の問題を解決するために、視覚言語事前学習モデルCLIPによって導かれる新しい画像クラスタリング手法である「textbf{Semantic-Enhanced Image Clustering (SIC)」を提案する。 本手法では,与えられた画像を適切な意味空間にマップする手法を最初に提案し,画像と意味論の関係に応じて擬似ラベルを生成する効率的な手法を提案する。 最後に,画像空間と意味空間の両方で一貫性のあるクラスタリングを自己教師付き学習方式で行うことを提案する。 収束解析の理論的結果は,提案手法がサブ線形速度で収束できることを示唆している。 また,予測リスクの理論的分析から,予測整合性の向上,予測信頼度の向上,近隣の不均衡の低減などにより,予測リスクを低減できることが示唆された。 5つのベンチマークデータセットの実験結果から,新しい手法の優位性が明らかとなった。

Image clustering is an important and open-challenging task in computer vision. Although many methods have been proposed to solve the image clustering task, they only explore images and uncover clusters according to the image features, thus being unable to distinguish visually similar but semantically different images. In this paper, we propose to investigate the task of image clustering with the help of a visual-language pre-training model. Different from the zero-shot setting, in which the class names are known, we only know the number of clusters in this setting. Therefore, how to map images to a proper semantic space and how to cluster images from both image and semantic spaces are two key problems. To solve the above problems, we propose a novel image clustering method guided by the visual-language pre-training model CLIP, named \textbf{Semantic-Enhanced Image Clustering (SIC)}. In this new method, we propose a method to map the given images to a proper semantic space first and efficient methods to generate pseudo-labels according to the relationships between images and semantics. Finally, we propose performing clustering with consistency learning in both image space and semantic space, in a self-supervised learning fashion. The theoretical result of convergence analysis shows that our proposed method can converge at a sublinear speed. Theoretical analysis of expectation risk also shows that we can reduce the expected risk by improving neighborhood consistency, increasing prediction confidence, or reducing neighborhood imbalance. Experimental results on five benchmark datasets clearly show the superiority of our new method.
翻訳日:2023-04-11 23:34:56 公開日:2023-04-09
# 弱スーパービジョンによるラベル伝播

Label Propagation with Weak Supervision ( http://arxiv.org/abs/2210.03594v3 )

ライセンス: Link先を確認
Rattana Pukdee, Dylan Sam, Maria-Florina Balcan, Pradeep Ravikumar(参考訳) 半教師付き学習と弱い教師付き学習は、現在の機械学習アプリケーションにおけるラベル付きデータの需要増加を減らすことを目的とした重要なパラダイムである。 本稿では,従来のラベル伝搬アルゴリズム(LPA, Zhu & Ghahramani, 2002)の新たな解析手法を提案する。 基礎となるグラフの局所的幾何学的性質と先行情報の品質の両方を利用する誤差境界を提供する。 また,複数のノイズ情報ソースを組み込むフレームワークを提案する。 特に、情報ソースが弱いラベル付け者である弱監督の設定について検討する。 提案手法は,従来の半教師付き手法と弱教師付き手法を改良した,弱教師付き分類タスクに応用できることを示す。

Semi-supervised learning and weakly supervised learning are important paradigms that aim to reduce the growing demand for labeled data in current machine learning applications. In this paper, we introduce a novel analysis of the classical label propagation algorithm (LPA) (Zhu & Ghahramani, 2002) that moreover takes advantage of useful prior information, specifically probabilistic hypothesized labels on the unlabeled data. We provide an error bound that exploits both the local geometric properties of the underlying graph and the quality of the prior information. We also propose a framework to incorporate multiple sources of noisy information. In particular, we consider the setting of weak supervision, where our sources of information are weak labelers. We demonstrate the ability of our approach on multiple benchmark weakly supervised classification tasks, showing improvements upon existing semi-supervised and weakly supervised methods.
翻訳日:2023-04-11 23:26:18 公開日:2023-04-09
# パッチスペースニューラルトランスフォーメーションブレンドによるワンショットディテールリタッチ

One-shot Detail Retouching with Patch Space Neural Transformation Blending ( http://arxiv.org/abs/2210.01217v2 )

ライセンス: Link先を確認
Fazilet Gokbudak and Cengiz Oztireli(参考訳) 初心者にとって写真編集は、専門知識と高度なツールを必要とするため、難しい作業だ。 写真家はしばしば、複雑な細部を詰め込んだ高品質なリタッチ写真を作るのに多くの時間を費やしている。 本稿では,一対の前後のサンプル画像に基づいて,入力画像の細部を自動的に修正するワンショット学習手法を提案する。 我々のアプローチは、新しい画像への正確かつ一般化可能な詳細編集転送を提供する。 画像マップに画像を表す新しい表現を提案することで、これらを実現する。 具体的には、各周波数帯域に対するパッチ変換を定義するために、パッチ空間にニューラルネットワークベースの変換ブレンディングを提案する。 このアンカー変換とそれに伴う重み付き写像のパラメトリゼーション、および時空間局在パッチは、一般化可能でありながら詳細をうまく捉えることができる。 本手法は既知のグラウンド・トゥルート・フィルタとアーティストによる編集のリタッチの両方で評価する。 本手法は複雑な細部修正編集を正確に転送する。

Photo retouching is a difficult task for novice users as it requires expert knowledge and advanced tools. Photographers often spend a great deal of time generating high-quality retouched photos with intricate details. In this paper, we introduce a one-shot learning based technique to automatically retouch details of an input image based on just a single pair of before and after example images. Our approach provides accurate and generalizable detail edit transfer to new images. We achieve these by proposing a new representation for image to image maps. Specifically, we propose neural field based transformation blending in the patch space for defining patch to patch transformations for each frequency band. This parametrization of the map with anchor transformations and associated weights, and spatio-spectral localized patches, allows us to capture details well while staying generalizable. We evaluate our technique both on known ground truth filters and artist retouching edits. Our method accurately transfers complex detail retouching edits.
翻訳日:2023-04-11 23:26:05 公開日:2023-04-09
# 新しい相転移のクラスとしての自然対称性の出現

Spontaneous symmetry emergence as a source of new class of phase transitions ( http://arxiv.org/abs/2209.12497v2 )

ライセンス: Link先を確認
T. T. Sergeev, E. S. Andrianov, A. A. Zyablovsky(参考訳) 対称性を持つ系の自発的対称性の破れは、2階相転移を伴うコアストーン現象である。 ここでは,非対称系における自発的対称性の出現という逆現象を予測する。 周波数が有限周波数範囲を均一に満たす振動子の集合と非対称に相互作用する2つの結合振動子の例において、系状態がハミルトニアン系に固有の対称性を得ることができることを示す。 対称性の出現は系動力学の変化に現れ、これは新しい相転移のクラスとして解釈できる。

Spontaneous symmetry breaking in systems with symmetry is core-stone phenomenon accompanying second-order phase transitions. Here, we predict an opposite phenomenon, namely, spontaneous symmetry emergence in a system without symmetry. On the example of two coupled oscillators interacting non-symmetrically with a set of oscillators whose frequencies uniformly fill a finite frequency range, we demonstrate that the system state can acquire symmetry, which is not inherent to the system Hamiltonian. The symmetry emergence manifests in the change of the system dynamics, which can be interpreted as a new class of phase transitions.
翻訳日:2023-04-11 23:24:11 公開日:2023-04-09
# Equal Improvability: 長期的影響を考慮した新しいフェアネス表記法

Equal Improvability: A New Fairness Notion Considering the Long-term Impact ( http://arxiv.org/abs/2210.06732v2 )

ライセンス: Link先を確認
Ozgur Guldogan, Yuchen Zeng, Jy-yong Sohn, Ramtin Pedarsani, Kangwook Lee(参考訳) 異なるグループを区別しない公平な分類器を開発することは、機械学習において重要な問題である。 研究者はグループフェアネスを定義する様々な方法を提案してきたが、そのほとんどは即時フェアネスにのみ焦点をあてており、各個人が時間をかけてその特徴を改善できる動的なシナリオの下で、フェア分類器の長期的な影響を無視している。 このような動的なシナリオは、例えば大学入校や貸借など、現実世界で発生し、拒絶された各サンプルは、その後受理される機能を変更する努力をする。 このダイナミックな設定では、拒絶されたサンプルが改善に努力した後、サンプルの特徴分布を異なるグループで等しくする。 本稿では, 長期的公平性を促進するために, 異なるグループ間での排他的サンプルの受入率を等しくする等速性(equal improvability, ei)という新しい公平性概念を提案する。 我々は、EIの特性と既存の公正の概念との関係を分析する。 EI要求を満たす分類器を見つけるために、EI正規化最適化問題を解く3つの異なるアプローチを提案し、検討する。 合成データセットと実データセットの両方の実験を通して、提案したEI正規化アルゴリズムは、EIの観点から公平な分類子を見つけることを奨励することを示した。 最後に、長期的公正性を達成する上でのEI指標の利点を強調した動的シナリオに関する実験結果を提供する。 コードはGitHubリポジトリで入手できる(https://github.com/guldoganozgur/ei_fairness)。

Devising a fair classifier that does not discriminate against different groups is an important problem in machine learning. Although researchers have proposed various ways of defining group fairness, most of them only focused on the immediate fairness, ignoring the long-term impact of a fair classifier under the dynamic scenario where each individual can improve its feature over time. Such dynamic scenarios happen in real world, e.g., college admission and credit loaning, where each rejected sample makes effort to change its features to get accepted afterwards. In this dynamic setting, the long-term fairness should equalize the samples' feature distribution across different groups after the rejected samples make some effort to improve. In order to promote long-term fairness, we propose a new fairness notion called Equal Improvability (EI), which equalizes the potential acceptance rate of the rejected samples across different groups assuming a bounded level of effort will be spent by each rejected sample. We analyze the properties of EI and its connections with existing fairness notions. To find a classifier that satisfies the EI requirement, we propose and study three different approaches that solve EI-regularized optimization problems. Through experiments on both synthetic and real datasets, we demonstrate that the proposed EI-regularized algorithms encourage us to find a fair classifier in terms of EI. Finally, we provide experimental results on dynamic scenarios which highlight the advantages of our EI metric in achieving the long-term fairness. Codes are available in a GitHub repository, see https://github.com/guldoganozgur/ei_fairness.
翻訳日:2023-04-11 21:39:48 公開日:2023-04-09
# 重み付きアンサンブル自己教師付き学習

Weighted Ensemble Self-Supervised Learning ( http://arxiv.org/abs/2211.09981v3 )

ライセンス: Link先を確認
Yangjun Ruan, Saurabh Singh, Warren Morningstar, Alexander A. Alemi, Sergey Ioffe, Ian Fischer, Joshua V. Dillon(参考訳) ensemblingは、教師付き学習におけるモデルパフォーマンス、不確実性推定、堅牢性を高める強力な技術であることが証明されている。 自己教師付き学習(SSL)の進歩により、最先端のいくつかのショットと教師付き学習のパフォーマンスに、大きなラベルのないコーパスを活用することができる。 本稿では,データ依存重み付きクロスエントロピー損失を許容するフレームワークを開発することにより,最近のssl技術を改善する手法を検討する。 この選択は、少ないトレーニングコストを伴い、アーキテクチャの変更やダウンストリーム評価に計算オーバーヘッドを必要としない効率的なアンサンブルメソッドをもたらす。 本手法の有効性をDINO (Caron et al., 2021) とMSN (Assran et al., 2022) の2つの最先端SSL法を用いて実証した。 提案手法は,ImageNet-1Kにおける複数の評価指標,特に数ショット設定において,双方で優れる。 我々は,いくつかの重み付け方式を検討し,アンサンブルヘッドの多様性を増大させると下流評価結果が向上することを示す。 例えば、MSN ViT-B/16の総合的な改善は1ショット学習では3.9 p.p.である。

Ensembling has proven to be a powerful technique for boosting model performance, uncertainty estimation, and robustness in supervised learning. Advances in self-supervised learning (SSL) enable leveraging large unlabeled corpora for state-of-the-art few-shot and supervised learning performance. In this paper, we explore how ensemble methods can improve recent SSL techniques by developing a framework that permits data-dependent weighted cross-entropy losses. We refrain from ensembling the representation backbone; this choice yields an efficient ensemble method that incurs a small training cost and requires no architectural changes or computational overhead to downstream evaluation. The effectiveness of our method is demonstrated with two state-of-the-art SSL methods, DINO (Caron et al., 2021) and MSN (Assran et al., 2022). Our method outperforms both in multiple evaluation metrics on ImageNet-1K, particularly in the few-shot setting. We explore several weighting schemes and find that those which increase the diversity of ensemble heads lead to better downstream evaluation results. Thorough experiments yield improved prior art baselines which our method still surpasses; e.g., our overall improvement with MSN ViT-B/16 is 3.9 p.p. for 1-shot learning.
翻訳日:2023-04-11 21:31:48 公開日:2023-04-09
# 内視鏡下マルチモーダルセグメンテーション改善のための超ピクセル誘導損失法

SUPRA: Superpixel Guided Loss for Improved Multi-modal Segmentation in Endoscopy ( http://arxiv.org/abs/2211.04658v3 )

ライセンス: Link先を確認
Rafael Martinez-Garcia-Pe\~na, Mansoor Ali Teevno, Gilberto Ochoa-Ruiz, Sharib Ali(参考訳) ドメインシフトは医療画像コミュニティでよく知られた問題である。 特に、データが異なるモダリティを持つ内視鏡画像解析では、ディープラーニング(DL)手法の性能に悪影響を及ぼす。 言い換えれば、1つのモダリティで開発されたメソッドは異なるモダリティには使用できない。 しかし、実際の臨床環境では、内視鏡医は粘膜の視認性を改善するためにモダリティを切り替える。 本稿では,このようなシナリオでdlメソッドを使用できるドメイン一般化手法について検討する。 この拡張のために, SUPeRpixel Augmented 法では "SUPRA" と呼ぶ, Simple Linear Iterative Clustering (SLIC) で生成されたスーパーピクセルを提案する。 supraはまず,新しい損失"スライス"を利用したプリミティブセグメンテーションマスクを生成し,精度と色に一貫性のあるセグメンテーションを奨励する。 SLICLossとバイナリクロスエントロピー損失(BCE)を組み合わせることで、大きなドメインシフトを示すデータによるモデルの一般化性を向上させることができることを示す。 本研究では,バレット食道とポリープの画像を含むEndoUDAデータセットを用いて,バニラU-Net上の新規化合物の損失を検証する。 その結果,本手法では,ベースラインに比べて目標領域の20%近くの改善が得られた。

Domain shift is a well-known problem in the medical imaging community. In particular, for endoscopic image analysis where the data can have different modalities the performance of deep learning (DL) methods gets adversely affected. In other words, methods developed on one modality cannot be used for a different modality. However, in real clinical settings, endoscopists switch between modalities for better mucosal visualisation. In this paper, we explore the domain generalisation technique to enable DL methods to be used in such scenarios. To this extend, we propose to use super pixels generated with Simple Linear Iterative Clustering (SLIC) which we refer to as "SUPRA" for SUPeRpixel Augmented method. SUPRA first generates a preliminary segmentation mask making use of our new loss "SLICLoss" that encourages both an accurate and color-consistent segmentation. We demonstrate that SLICLoss when combined with Binary Cross Entropy loss (BCE) can improve the model's generalisability with data that presents significant domain shift. We validate this novel compound loss on a vanilla U-Net using the EndoUDA dataset, which contains images for Barret's Esophagus and polyps from two modalities. We show that our method yields an improvement of nearly 20% in the target domain set compared to the baseline.
翻訳日:2023-04-11 21:30:47 公開日:2023-04-09
# 重み付きグラフウォーキングオートマタを用いた変圧器のグラフ位置符号化

Bridging Graph Position Encodings for Transformers with Weighted Graph-Walking Automata ( http://arxiv.org/abs/2212.06898v4 )

ライセンス: Link先を確認
Patrick Soga, David Chiang(参考訳) グラフニューラルネットワークの文献における現在の目標は、言語とビジョンタスクの成功を踏まえ、トランスフォーマーがグラフ構造化データで操作できるようにすることである。 変換器の本来の正弦波位置符号化(pes)はグラフに適用できないため、近年ではスペクトルグラフ理論やグラフの様々な空間的特徴に根ざしたグラフpesの開発に焦点が当てられている。 本稿では,重み付きグラフウォーキングオートマトン(グラフウォーキングオートマトンの新しい拡張)に基づく新しいグラフpeであるグラフオートマトンpe(gape)を紹介する。 我々は,GAPEと機械翻訳およびグラフ構造化タスクにおける他のPEスキームの性能を比較し,他のPEを一般化することを示す。 この研究のさらなる貢献は、エッジ特徴の使用とは無関係に、グラフ変換器における最近のPEの理論的および制御された比較である。

A current goal in the graph neural network literature is to enable transformers to operate on graph-structured data, given their success on language and vision tasks. Since the transformer's original sinusoidal positional encodings (PEs) are not applicable to graphs, recent work has focused on developing graph PEs, rooted in spectral graph theory or various spatial features of a graph. In this work, we introduce a new graph PE, Graph Automaton PE (GAPE), based on weighted graph-walking automata (a novel extension of graph-walking automata). We compare the performance of GAPE with other PE schemes on both machine translation and graph-structured tasks, and we show that it generalizes several other PEs. An additional contribution of this study is a theoretical and controlled experimental comparison of many recent PEs in graph transformers, independent of the use of edge features.
翻訳日:2023-04-11 21:24:14 公開日:2023-04-09
# Vertical Federated Learning: 構造化された文献レビュー

Vertical Federated Learning: A Structured Literature Review ( http://arxiv.org/abs/2212.00622v2 )

ライセンス: Link先を確認
Afsana Khan, Marijn ten Thij, Anna Wilbik(参考訳) Federated Learning(FL)は、データプライバシのメリットを付加した、有望な分散学習パラダイムとして登場した。 データ所有者間のコラボレーションへの関心が高まり、flは組織に大きな注目を集めている。 FLの考え方は、協力する参加者が、プライバシーを侵害することなく、分散データ上で機械学習(ML)モデルをトレーニングできるようにすることである。 単純な言い方をすれば、フェデレートドラーニングは‘モデムにデータを持ち込むのではなく、モデルにデータを与える’というアプローチである。 フェデレートラーニング(Federated Learning)は、参加者間で垂直に分割されたデータに適用された場合、データのみを使用してトレーニングされたローカルモデルと、ローカルサイトの異なる機能を組み合わせた完全なMLモデルを構築することができる。 FLのこのアーキテクチャは垂直連合学習(VFL)と呼ばれ、水平分割データでは従来のFLとは異なる。 VFLは従来のFLとは異なるため、独自の問題と課題が伴う。 本稿では,VFLにおける最先端のアプローチを論じる構造化文献レビューを行う。 さらに、文献レビューでは、VFLの課題に対する既存の解決策を強調し、この領域における潜在的研究の方向性を提供する。

Federated Learning (FL) has emerged as a promising distributed learning paradigm with an added advantage of data privacy. With the growing interest in having collaboration among data owners, FL has gained significant attention of organizations. The idea of FL is to enable collaborating participants train machine learning (ML) models on decentralized data without breaching privacy. In simpler words, federated learning is the approach of ``bringing the model to the data, instead of bringing the data to the mode''. Federated learning, when applied to data which is partitioned vertically across participants, is able to build a complete ML model by combining local models trained only using the data with distinct features at the local sites. This architecture of FL is referred to as vertical federated learning (VFL), which differs from the conventional FL on horizontally partitioned data. As VFL is different from conventional FL, it comes with its own issues and challenges. In this paper, we present a structured literature review discussing the state-of-the-art approaches in VFL. Additionally, the literature review highlights the existing solutions to challenges in VFL and provides potential research directions in this domain.
翻訳日:2023-04-11 21:22:35 公開日:2023-04-09
# DiffPose: より信頼性の高い3D Pose推定を目指して

DiffPose: Toward More Reliable 3D Pose Estimation ( http://arxiv.org/abs/2211.16940v3 )

ライセンス: Link先を確認
Jia Gong, Lin Geng Foo, Zhipeng Fan, Qiuhong Ke, Hossein Rahmani, Jun Liu(参考訳) 単眼の3次元ポーズ推定は、固有の曖昧さと閉塞性のため、しばしば高い不確実性と不確定性をもたらすため、非常に難しい。 一方,拡散モデルは最近,ノイズから高品質な画像を生成する有効なツールとして登場した。 その能力に触発されて、3次元ポーズ推定を逆拡散過程として定式化する新しいポーズ推定フレームワーク(DiffPose)を探索する。 本研究では, 3次元ポーズ推定のための拡散過程, ポーズ不確かさ分布のポーズ特異的初期化, ガウス混合モデルに基づく前方拡散過程, 文脈条件付き逆拡散過程など, 新たな設計を取り入れた。 提案手法は,ヒューマン3.6mおよびmpi-inf-3dhpのポーズ推定ベンチマークにおいて,従来の手法を大きく上回っている。 プロジェクトページ: https://gongjia0208.github.io/diffpose/

Monocular 3D human pose estimation is quite challenging due to the inherent ambiguity and occlusion, which often lead to high uncertainty and indeterminacy. On the other hand, diffusion models have recently emerged as an effective tool for generating high-quality images from noise. Inspired by their capability, we explore a novel pose estimation framework (DiffPose) that formulates 3D pose estimation as a reverse diffusion process. We incorporate novel designs into our DiffPose to facilitate the diffusion process for 3D pose estimation: a pose-specific initialization of pose uncertainty distributions, a Gaussian Mixture Model-based forward diffusion process, and a context-conditioned reverse diffusion process. Our proposed DiffPose significantly outperforms existing methods on the widely used pose estimation benchmarks Human3.6M and MPI-INF-3DHP. Project page: https://gongjia0208.github.io/Diffpose/.
翻訳日:2023-04-11 21:22:17 公開日:2023-04-09
# stage: アスペクト感情三重項抽出のためのスパンタグとグリーディ推論法

STAGE: Span Tagging and Greedy Inference Scheme for Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2211.15003v3 )

ライセンス: Link先を確認
Shuo Liang, Wei Wei, Xian-Ling Mao, Yuanyuan Fu, Rui Fang, Dangyang Chen(参考訳) Aspect Sentiment Triplet extract (ASTE) は感情分析研究において新たな課題となり、ある文からアスペクト項とその対応する意見項とその関連する感情極性を抽出することを目指している。 近年、異なるタグ付けスキームを持つ多くのニューラルネットワークベースのモデルが提案されているが、ほとんどすべてのモデルには制限がある。 1) 各単語が1つの役割(アスペクト項や意見項など)にのみ関連しているという事前仮定 2) 単語レベルの相互作用と各意見/アスペクトを独立した単語の集合として扱う。 したがって、複数の役割に関連する単語や複数の単語を持つアスペクト/オピニオン項など、複雑なasteタスクではパフォーマンスが低下する。 そこで我々は,Span TAgging と Greedy infErence (STAGE) という新たなアプローチを提案し,複数の単語から構成され,同時に異なる役割を演じることができる。 そこで本稿では,ASTEタスクを多クラススパン分類問題として定式化する。 具体的には、スパンレベルの情報と制約、すなわちスパンタグスキームとグリーディ推論戦略の2つのコンポーネントを探索することで、より正確なアスペクト感情三重項抽出を生成する。 前者のタグは、新しく定義されたタグセットに基づいて、可能な候補すべてにまたがる。 後者は、候補感情スニペットから最大長のアスペクト/オピニオン項を取得し、感情三重項を出力する。 さらに,このステージに基づく簡易かつ効果的なモデルを提案する。これは4つの広く使用されているデータセットにおいて,最先端を大きなマージンで上回っている。 さらに,STAGE を他のペア/トリップレット抽出タスクに簡単に一般化することができ,提案方式の STAGE の優位性を示す。

Aspect Sentiment Triplet Extraction (ASTE) has become an emerging task in sentiment analysis research, aiming to extract triplets of the aspect term, its corresponding opinion term, and its associated sentiment polarity from a given sentence. Recently, many neural networks based models with different tagging schemes have been proposed, but almost all of them have their limitations: heavily relying on 1) prior assumption that each word is only associated with a single role (e.g., aspect term, or opinion term, etc. ) and 2) word-level interactions and treating each opinion/aspect as a set of independent words. Hence, they perform poorly on the complex ASTE task, such as a word associated with multiple roles or an aspect/opinion term with multiple words. Hence, we propose a novel approach, Span TAgging and Greedy infErence (STAGE), to extract sentiment triplets in span-level, where each span may consist of multiple words and play different roles simultaneously. To this end, this paper formulates the ASTE task as a multi-class span classification problem. Specifically, STAGE generates more accurate aspect sentiment triplet extractions via exploring span-level information and constraints, which consists of two components, namely, span tagging scheme and greedy inference strategy. The former tag all possible candidate spans based on a newly-defined tagging set. The latter retrieves the aspect/opinion term with the maximum length from the candidate sentiment snippet to output sentiment triplets. Furthermore, we propose a simple but effective model based on the STAGE, which outperforms the state-of-the-arts by a large margin on four widely-used datasets. Moreover, our STAGE can be easily generalized to other pair/triplet extraction tasks, which also demonstrates the superiority of the proposed scheme STAGE.
翻訳日:2023-04-11 21:21:35 公開日:2023-04-09
# 注意ネットワークの解釈可能性について

On the Interpretability of Attention Networks ( http://arxiv.org/abs/2212.14776v2 )

ライセンス: Link先を確認
Lakshmi Narayan Pandey, Rahul Vashisht and Harish G. Ramaswamy(参考訳) 注意機構は、いくつかの成功したディープラーニングアーキテクチャのコアコンポーネントを形成し、"出力は入力の小さな(しかし未知の)セグメントにのみ依存する"というキーアイデアに基づいている。 注意機構を持つ訓練されたモデルでは、出力に責任を持つ入力のセグメントをエンコードする中間モジュールの出力が、ネットワークの 'reasoning' を覗く手段としてしばしば使用される。 我々は,注意モデルアーキテクチャで使用する場合,選択依存分類 (sdc) と呼ぶ分類問題の変種に対して,このような概念をより正確に述べる。 このような設定下では,注意モデルが正確でありながら解釈できない様々なエラーモードを示し,トレーニングの結果,そのようなモデルが発生することを示す。 この動作を強調し緩和できる様々な状況を説明します。 最後に,sdcタスクの解釈可能性の客観的定義を用いて,分散性を促進するために設計された注意モデル学習アルゴリズムを評価し,これらのアルゴリズムが解釈性の向上に役立つことを示す。

Attention mechanisms form a core component of several successful deep learning architectures, and are based on one key idea: ''The output depends only on a small (but unknown) segment of the input.'' In several practical applications like image captioning and language translation, this is mostly true. In trained models with an attention mechanism, the outputs of an intermediate module that encodes the segment of input responsible for the output is often used as a way to peek into the `reasoning` of the network. We make such a notion more precise for a variant of the classification problem that we term selective dependence classification (SDC) when used with attention model architectures. Under such a setting, we demonstrate various error modes where an attention model can be accurate but fail to be interpretable, and show that such models do occur as a result of training. We illustrate various situations that can accentuate and mitigate this behaviour. Finally, we use our objective definition of interpretability for SDC tasks to evaluate a few attention model learning algorithms designed to encourage sparsity and demonstrate that these algorithms help improve interpretability.
翻訳日:2023-04-11 21:13:53 公開日:2023-04-09
# 指紋領域におけるデータ拡張による一般gan画像検出

General GAN-generated image detection by data augmentation in fingerprint domain ( http://arxiv.org/abs/2212.13466v2 )

ライセンス: Link先を確認
Huaming Wang, Jianwei Fei, Yunshu Dai, Lingyun Leng, Zhihua Xia(参考訳) 本研究では,指紋領域におけるデータ拡張によるGAN生成画像検出器の一般化性の向上について検討する。 具体的には、まず、自動エンコーダを用いたGAN指紋抽出装置を用いて、GAN生成画像の指紋と内容を分離し、次いでランダムな指紋の摂動を行った。 そして、元の指紋を乱れた指紋に代えて、元のコンテンツに追加し、視覚的に不変だが異なる指紋を持つ画像を生成する。 摂動画像は、異なるganによって生成された画像を模倣して、スペクトルの可視化によって示される検出器の一般化を改善することができる。 我々の知る限り、私たちは初めて指紋領域でデータ拡張を行いました。 我々の研究は、空間及び周波数領域拡張に関する以前の研究とは異なる新しい展望を探求する。 広汎なGAN実験により,未知のGANが生成する偽画像の検出における最先端手法と比較して,本手法の有効性が示された。

In this work, we investigate improving the generalizability of GAN-generated image detectors by performing data augmentation in the fingerprint domain. Specifically, we first separate the fingerprints and contents of the GAN-generated images using an autoencoder based GAN fingerprint extractor, followed by random perturbations of the fingerprints. Then the original fingerprints are substituted with the perturbed fingerprints and added to the original contents, to produce images that are visually invariant but with distinct fingerprints. The perturbed images can successfully imitate images generated by different GANs to improve the generalization of the detectors, which is demonstrated by the spectra visualization. To our knowledge, we are the first to conduct data augmentation in the fingerprint domain. Our work explores a novel prospect that is distinct from previous works on spatial and frequency domain augmentation. Extensive cross-GAN experiments demonstrate the effectiveness of our method compared to the state-of-the-art methods in detecting fake images generated by unknown GANs.
翻訳日:2023-04-11 21:12:29 公開日:2023-04-09
# 半スーパービジョンオートエンコーダを用いたソフトセンサ開発のためのオンラインアクティブラーニング

Online Active Learning for Soft Sensor Development using Semi-Supervised Autoencoders ( http://arxiv.org/abs/2212.13067v3 )

ライセンス: Link先を確認
Davide Cacciarelli, Murat Kulahci, John Tyssedal(参考訳) データ駆動型ソフトセンサーは工業プロセスや化学プロセスで広く使われ、日常的な操作中に実際の値が追跡しにくいプロセス変数を予測する。 これらのセンサで使用される回帰モデルは、しばしば多くのラベル付き例を必要とするが、品質検査によって必要とされる高い時間とコストを考えると、ラベル情報を取得することは非常に高価である。 この文脈では、アクティブな学習手法は、クエリに最も有益なラベルを提案できるため、非常に有益である。 しかしながら、回帰のために提案されたアクティブな学習戦略のほとんどは、オフライン設定に重点を置いている。 本研究では,これらのアプローチのいくつかをストリームベースのシナリオに適応させ,最も有益なデータポイントを選択できる方法を示す。 また,直交オートエンコーダに基づく半教師付きアーキテクチャを用いて,低次元空間におけるサルエント特徴を学習する方法を示す。 テネシー・イーストマン過程は、提案されたアプローチの予測性能を比較するために用いられる。

Data-driven soft sensors are extensively used in industrial and chemical processes to predict hard-to-measure process variables whose real value is difficult to track during routine operations. The regression models used by these sensors often require a large number of labeled examples, yet obtaining the label information can be very expensive given the high time and cost required by quality inspections. In this context, active learning methods can be highly beneficial as they can suggest the most informative labels to query. However, most of the active learning strategies proposed for regression focus on the offline setting. In this work, we adapt some of these approaches to the stream-based scenario and show how they can be used to select the most informative data points. We also demonstrate how to use a semi-supervised architecture based on orthogonal autoencoders to learn salient features in a lower dimensional space. The Tennessee Eastman Process is used to compare the predictive performance of the proposed approaches.
翻訳日:2023-04-11 21:11:52 公開日:2023-04-09
# 2量子交絡状態の非局所性の強さとその応用

Strength of the nonlocality of two-qubit entangled state and its applications ( http://arxiv.org/abs/2212.10885v3 )

ライセンス: Link先を確認
Anuma Garg, Satyabrata Adhikari(参考訳) 非局所性は、局所現実理論では説明できない量子力学の特徴である。 これはベルの不平等の違反によって検出できる。 本研究では,ベルの不等式の評価をXORゲームを用いて検討した。 XORゲームでは、2つの離れたプレーヤ間で2ビットの絡み合った状態を共有する。 プレイヤー間の非局所的相関が生成され、ゲームが勝つ確率の最大値に寄与する。 我々は,XORゲームを通して非局所性の強さを決定することを目的としている。 したがって、XORゲームが勝つ確率の最大値に基づいて、非局所性の強さと呼ばれる量$S_{NL}$を定義した。 また、導入された量$S_{NL}$と \cite{horo3} で導入された量$M$の関係を導出し、2ビットの絡み合った状態問題の非局所性について深く研究した。 m$ は、与えられたエンタングル状態の相関行列の2つの最大固有値の和として定義することができ、プローブの下の与えられたエンタングル状態が非局所的であるかどうかを判定する。 さらに,CHSHの不等式により非局所性が検出できない2量子絡み状態の非局所性についても検討した。 興味深いことに、新たに定義された$S_{NL}$は、$CHSH$演算子に対応する証人演算子が絡まった状態を検出することができない場合に、絡み合う状態の非局所性を検出することができない。 この問題を解決するために、非局所性の強みの定義を変更し、修正された定義がそのような絡み合った状態の非局所性を検出できることを示した。 さらに、制御量子テレポーテーションにおける非局所性の強度$S_{NL}$と3量子状態から2量子状態への非局所性の結合の2つの応用も提供した。

Non-locality is a feature of quantum mechanics that cannot be explained by local realistic theory. It can be detected by the violation of Bell's inequality. In this work, we have considered the evaluation of Bell's inequality with the help of the XOR game. In the XOR game, a two-qubit entangled state is shared between the two distant players. It may generate a non-local correlation between the players which contributes to the maximum probability of winning of the game. We have aimed to determine the strength of the non-locality through XOR game. Thus, we have defined a quantity $S_{NL}$ called the strength of non-locality, purely on the basis of the maximum probability of winning of the XOR game. We have also derived the relation between the introduced quantity $S_{NL}$ and the quantity $M$ introduced in \cite{horo3}, to study the non-locality of a two-qubit entangled state problem in depth. The quantity $M$ may be defined as the sum of the two largest eigenvalues of the correlation matrix of the given entangled state and it determines whether the given entangled state under probe is non-local. Further, we have explored the non-locality of any two-qubit entangled state, whose non-locality cannot be detected by the CHSH inequality. Interestingly, we have found that the newly defined quantity $S_{NL}$ fails to detect non-locality for the entangled state, when the witness operator corresponding to $CHSH$ operator cannot detect the entangled state. To overcome this problem, we have modified the definition of the strength of non-locality and have shown that the modified definition may detect the non-locality of such entangled states, which were earlier undetected by $S_{NL}$. Furthermore, we have also provided two applications of the strength $S_{NL}$ of the non-locality in controlled quantum teleportation and linkage of non-locality of three qubit state to two-qubit state.
翻訳日:2023-04-11 21:11:35 公開日:2023-04-09
# 赤外小目標検出のためのmaeによる動的背景再構成

Dynamic Background Reconstruction via MAE for Infrared Small Target Detection ( http://arxiv.org/abs/2301.04497v2 )

ライセンス: Link先を確認
Jingchao Peng, Haitao Zhao, Kaijie Zhao, Zhongze Wang, Lujian Yao(参考訳) 複雑な背景下での赤外線小目標検出(ISTD)は、ターゲットと背景の違いが区別しにくいため、難しい問題である。 背景復元はこの問題に対処する方法の1つである。 本稿では,動的背景再構成(DBR)と呼ばれる背景再構成に基づくISTD手法を提案する。 DBRは動的シフトウィンドウモジュール(DSW)、バックグラウンド再構築モジュール(BR)、検出ヘッド(DH)の3つのモジュールで構成される。 brは欠落したパッチの再構築に視覚トランスフォーマーを利用し、ターゲットなしでクリーンな背景を再構築するために50\%のマスキング率でグリッドマスキング戦略を採用している。 1つのターゲットを2つの隣り合うパッチに分割するのを避けるために、入力埋め込みの前にdswを行う。 DSWはオフセットを計算し、赤外線画像は動的にシフトする。 再建誤差を目標とする偽陽性(FP)のケースを低減するため,DHは密結合トランスフォーマの構造を用いて検出性能をさらに向上する。 実験の結果、dbrはmfirst (64.10\%)とsirst (75.01\%)の2つのistdデータセットで最高のf1-scoreを達成した。

Infrared small target detection (ISTD) under complex backgrounds is a difficult problem, for the differences between targets and backgrounds are not easy to distinguish. Background reconstruction is one of the methods to deal with this problem. This paper proposes an ISTD method based on background reconstruction called Dynamic Background Reconstruction (DBR). DBR consists of three modules: a dynamic shift window module (DSW), a background reconstruction module (BR), and a detection head (DH). BR takes advantage of Vision Transformers in reconstructing missing patches and adopts a grid masking strategy with a masking ratio of 50\% to reconstruct clean backgrounds without targets. To avoid dividing one target into two neighboring patches, resulting in reconstructing failure, DSW is performed before input embedding. DSW calculates offsets, according to which infrared images dynamically shift. To reduce False Positive (FP) cases caused by regarding reconstruction errors as targets, DH utilizes a structure of densely connected Transformer to further improve the detection performance. Experimental results show that DBR achieves the best F1-score on the two ISTD datasets, MFIRST (64.10\%) and SIRST (75.01\%).
翻訳日:2023-04-11 21:03:20 公開日:2023-04-09
# Pix2Map:画像からストリートマップを推測するクロスモーダル検索

Pix2Map: Cross-modal Retrieval for Inferring Street Maps from Images ( http://arxiv.org/abs/2301.04224v2 )

ライセンス: Link先を確認
Xindi Wu, KwunFung Lau, Francesco Ferroni, Aljo\v{s}a O\v{s}ep, Deva Ramanan(参考訳) 自動運転車は都市部の道路地図に頼っている。 本稿では,既存の地図を継続的に更新・拡張するために,都市街路図のトポロジーを直接エゴビュー画像から推定するpix2mapを提案する。 生の画像データから直接複雑な都市道路トポロジーを推測する必要があるので、これは難しい作業です。 本研究の主な知見は,画像と既存地図の連接なクロスモーダルな埋め込み空間を学習することで,視覚環境のトポロジ的レイアウトを符号化する離散グラフとしてこの問題を提起できるということである。 我々はArgoverseデータセットを用いて実験評価を行い、画像データのみから見える道路と見えない道路の両方に対応する道路マップを正確に検索できることを示す。 さらに,検索した地図は既存の地図を更新・拡張したり,空間グラフからの視覚的位置付けや画像検索のための概念実証結果を示すことができる。

Self-driving vehicles rely on urban street maps for autonomous navigation. In this paper, we introduce Pix2Map, a method for inferring urban street map topology directly from ego-view images, as needed to continually update and expand existing maps. This is a challenging task, as we need to infer a complex urban road topology directly from raw image data. The main insight of this paper is that this problem can be posed as cross-modal retrieval by learning a joint, cross-modal embedding space for images and existing maps, represented as discrete graphs that encode the topological layout of the visual surroundings. We conduct our experimental evaluation using the Argoverse dataset and show that it is indeed possible to accurately retrieve street maps corresponding to both seen and unseen roads solely from image data. Moreover, we show that our retrieved maps can be used to update or expand existing maps and even show proof-of-concept results for visual localization and image retrieval from spatial graphs.
翻訳日:2023-04-11 21:02:58 公開日:2023-04-09
# 量子緩和に基づく最適化アルゴリズムにおける絡み合いの役割

The Role of Entanglement in Quantum-Relaxation Based Optimization Algorithms ( http://arxiv.org/abs/2302.00429v2 )

ライセンス: Link先を確認
Kosei Teramoto and Rudy Raymond and Hiroshi Imai(参考訳) 量子ランダムアクセス最適化アルゴリズム(Quantum Random Access Optimizer, QRAO)は、フラーらによって提案された量子ランダムアクセス符号(QRAC)を用いて、単一量子ビットでバイナリ最適化の複数の変数を符号化する最適化アルゴリズムである。 qaoaのような標準量子最適化とは違って、計算基底において対角的でない局所量子ハミルトニアンの固有状態を利用する。 対角ハミルトニアンの極大固有状態が古典的状態を含むため、標準的な量子最適化器で二進最適化問題を解くために量子絡み合いは必要ない。 本研究では、量子緩和の性能が常に向上するわけではないが、量子緩和が量子化の助けを借りて最適解を見つけるのに成功する事例がいくつか存在することを観察した。 この結果から,QRAOは限定量子コンピュータで解ける二項最適化問題のインスタンスをスケールできるだけでなく,量子絡み合いの恩恵を受けることが示唆された。

Quantum Random Access Optimizer (QRAO) is a quantum-relaxation based optimization algorithm proposed by Fuller et al. that utilizes Quantum Random Access Code (QRAC) to encode multiple variables of binary optimization in a single qubit. Differing from standard quantum optimizers such as QAOA, it utilizes the eigenstates of local quantum Hamiltonians that are not diagonal in the computational basis. There are indications that quantum entanglement may not be needed to solve binary optimization problems with standard quantum optimizers because their maximal eigenstates of diagonal Hamiltonians include classical states. In this study, while quantumness does not always improve the performance of quantum relaxations, we observed that there exist some instances in which quantum relaxation succeeds to find optimal solutions with the help of quantumness. Our results suggest that QRAO not only can scale the instances of binary optimization problems solvable with limited quantum computers but also can benefit from quantum entanglement.
翻訳日:2023-04-11 20:54:14 公開日:2023-04-09
# 両世界のベスト:データフリー・ハイパー知識蒸留による連合学習による正確なグローバルモデルとパーソナライズモデル

The Best of Both Worlds: Accurate Global and Personalized Models through Federated Learning with Data-Free Hyper-Knowledge Distillation ( http://arxiv.org/abs/2301.08968v2 )

ライセンス: Link先を確認
Huancheng Chen, Johnny (Chaining) Wang, Haris Vikalo(参考訳) クライアント間で分散するデータの多様性は、フェデレーション学習を通じてトレーニングされたグローバルモデルのパフォーマンスを制限する。 近年、異種データによる課題に対する潜在的な解決策としてパーソナライズド・フェデレーション・ラーニング(pFL)が出現している。 しかし、既存のpFL法は、グローバルモデルの精度を犠牲にして、ローカルモデルの性能を高めるのが一般的である。 我々は,クライアントがローカルモデルの学習に知識蒸留(kd)に依存する新しいflアルゴリズムであるfeedhkd(federated hyper-knowledge distillation)を提案する。 特に、各クライアントはローカルなデータ表現とそれに対応するソフトな予測の手段をサーバに抽出して送信します。 サーバはこの情報を集約し、ローカルトレーニングをサポートするためにクライアントにブロードキャストする。 特に、他のKDベースのpFLメソッドとは異なり、FedHKDはパブリックデータセットに依存したり、サーバに生成モデルをデプロイしたりしない。 本研究では,fedhkdの収束を解析し,様々なシナリオで視覚的データセットに関する広範囲な実験を行い,異種データ設定用に設計された最新fl手法と比較して,feedhkdがパーソナライズとグローバルモデル性能の両方において有意な改善をもたらすことを示した。

Heterogeneity of data distributed across clients limits the performance of global models trained through federated learning, especially in the settings with highly imbalanced class distributions of local datasets. In recent years, personalized federated learning (pFL) has emerged as a potential solution to the challenges presented by heterogeneous data. However, existing pFL methods typically enhance performance of local models at the expense of the global model's accuracy. We propose FedHKD (Federated Hyper-Knowledge Distillation), a novel FL algorithm in which clients rely on knowledge distillation (KD) to train local models. In particular, each client extracts and sends to the server the means of local data representations and the corresponding soft predictions -- information that we refer to as ``hyper-knowledge". The server aggregates this information and broadcasts it to the clients in support of local training. Notably, unlike other KD-based pFL methods, FedHKD does not rely on a public dataset nor it deploys a generative model at the server. We analyze convergence of FedHKD and conduct extensive experiments on visual datasets in a variety of scenarios, demonstrating that FedHKD provides significant improvement in both personalized as well as global model performance compared to state-of-the-art FL methods designed for heterogeneous data settings.
翻訳日:2023-04-11 20:53:11 公開日:2023-04-09
# 連続BSL認識のための単語レベルバングラ手話データセット

Word level Bangla Sign Language Dataset for Continuous BSL Recognition ( http://arxiv.org/abs/2302.11559v2 )

ライセンス: Link先を確認
Md Shamimul Islam, A.J.M. Akhtarujjaman Joha, Md Nur Hossain, Sohaib Abdullah, Ibrahim Elwarfalli, Md Mahedi Hasan(参考訳) 堅牢な手話認識システムは、特に言語コミュニケーションに苦しむ人々にとって、コミュニケーション障壁を大幅に緩和することができる。 これは、思考、感情、アイデアの表現を可能にするため、人間の成長と進歩に不可欠である。 しかし、サイン認識は複雑な作業であり、複数の標識に対する同一のジェスチャーパターン、照明、衣服、搬送条件、大きなポーズの存在、異なる視点での照明の相違など多くの課題に直面している。 さらに、広範なBangla手話ビデオデータセットがないため、特にディープラーニング技術を利用する場合、認識システムの運用がさらに困難になる。 この問題に対処するため、まず、13のカテゴリにまたがる50の単語からなる、mvbsl-w50と呼ばれる大規模データセットを作成しました。 第2に,手話を通してコミュニケーションする個人のためのポーズ情報の時間的ダイナミクスを捉える,注目に基づくBi-GRUモデルを開発した。 提案モデルでは,手話パターンの分析に成功している人間のポーズ情報を利用する。 移動情報のみに焦点をあて、身体の外観や環境要因を無視することにより、モデルを簡素化し、より高速な性能を実現することができる。 モデルの精度は85.64%と報告されている。

An robust sign language recognition system can greatly alleviate communication barriers, particularly for people who struggle with verbal communication. This is crucial for human growth and progress as it enables the expression of thoughts, feelings, and ideas. However, sign recognition is a complex task that faces numerous challenges such as same gesture patterns for multiple signs, lighting, clothing, carrying conditions, and the presence of large poses, as well as illumination discrepancies across different views. Additionally, the absence of an extensive Bangla sign language video dataset makes it even more challenging to operate recognition systems, particularly when utilizing deep learning techniques. In order to address this issue, firstly, we created a large-scale dataset called the MVBSL-W50, which comprises 50 isolated words across 13 categories. Secondly, we developed an attention-based Bi-GRU model that captures the temporal dynamics of pose information for individuals communicating through sign language. The proposed model utilizes human pose information, which has shown to be successful in analyzing sign language patterns. By focusing solely on movement information and disregarding body appearance and environmental factors, the model is simplified and can achieve a speedier performance. The accuracy of the model is reported to be 85.64%.
翻訳日:2023-04-11 20:46:19 公開日:2023-04-09
# パウリ回転配列のクリフォード$+t$合成における最適アダマールゲート数

Optimal Hadamard gate count for Clifford$+T$ synthesis of Pauli rotations sequences ( http://arxiv.org/abs/2302.07040v2 )

ライセンス: Link先を確認
Vivien Vandaele, Simon Martiel, Simon Perdrix, Christophe Vuillot(参考訳) クリフォード$+T$ゲート集合は一般に普遍量子計算を行うために用いられる。 このような設定では、$t$ゲートは通常、cliffordゲートよりもフォールトトレラントな方法で実装する方がずっと高価である。 フォールトトレラント量子コンピューティングの実現可能性を改善するために、$T$ゲートの数を最小化することが不可欠である。 多くのアルゴリズムがこの問題を解決するために設計されている。 回路内のアダマールゲートの数を減らして前処理を行うと、これらのアルゴリズムの潜在能力を最大限に活用でき、結果として相当な$T$カウントの削減につながることが示されている。 さらに、アダマールゲートの数を最小化することで、アダマールゲートのガジェット化による追加のキュービット数や演算も抑制される。 本研究では,アダマールゲート低減問題に取り組み,最小数のアダマールゲートを持つ$\pi/4$ pauli 回転列を合成するアルゴリズムを提案する。 この結果に基づき、回路の第1と最後の$t$ゲートの間にあるアダマールゲートの数を最適に最小化するアルゴリズムを提案する。

The Clifford$+T$ gate set is commonly used to perform universal quantum computation. In such setup the $T$ gate is typically much more expensive to implement in a fault-tolerant way than Clifford gates. To improve the feasibility of fault-tolerant quantum computing it is then crucial to minimize the number of $T$ gates. Many algorithms, yielding effective results, have been designed to address this problem. It has been demonstrated that performing a pre-processing step consisting of reducing the number of Hadamard gates in the circuit can help to exploit the full potential of these algorithms and thereby lead to a substantial $T$-count reduction. Moreover, minimizing the number of Hadamard gates also restrains the number of additional qubits and operations resulting from the gadgetization of Hadamard gates, a procedure used by some compilers to further reduce the number of $T$ gates. In this work we tackle the Hadamard gate reduction problem, and propose an algorithm for synthesizing a sequence of $\pi/4$ Pauli rotations with a minimal number of Hadamard gates. Based on this result, we present an algorithm which optimally minimizes the number of Hadamard gates lying between the first and the last $T$ gate of the circuit.
翻訳日:2023-04-11 20:44:37 公開日:2023-04-09
# OTRE: 最適なトランスポートガイドによる画像から画像への翻訳が正規化を促進

OTRE: Where Optimal Transport Guided Unpaired Image-to-Image Translation Meets Regularization by Enhancing ( http://arxiv.org/abs/2302.03003v4 )

ライセンス: Link先を確認
Wenhui Zhu, Peijie Qiu, Oana M. Dumitrascu, Jacob M. Sobczak, Mohammad Farazi, Zhangsihao Yang, Keshav Nandakumar, Yalin Wang(参考訳) 瞳孔拡張を必要とせず,術者,全身的不完全性,患者関連疾患などにより品質が低下する可能性があるため,非扁桃体網膜色眼底撮影(cfp)が広く利用可能である。 正確な診断と自動解析のために最適な網膜画像品質が義務付けられている。 そこで我々は,低品質の網膜CFPを高品質にマッピングするための画像と画像の非ペア変換方式を提案するために,OT(Optimal Transport)理論を利用した。 さらに, 臨床における画像強調パイプラインの柔軟性, ロバスト性, 適用性を向上させるため, ot誘導画像対画像翻訳ネットワークで学習した先行処理をプラグインすることで, 最先端のモデルベース画像再構成法を一般化した。 我々はそれを拡張(RE)により正規化した。 糖尿病性網膜症格付け,血管分画,糖尿病性病変分画などのダウンストリームタスクにおける改善後の品質と性能を評価することで,3つの網膜画像データセットで統合フレームワークotreを検証した。 実験の結果,提案手法は,最先端の競争相手や最先端の監視手法よりも優れていることが示された。

Non-mydriatic retinal color fundus photography (CFP) is widely available due to the advantage of not requiring pupillary dilation, however, is prone to poor quality due to operators, systemic imperfections, or patient-related causes. Optimal retinal image quality is mandated for accurate medical diagnoses and automated analyses. Herein, we leveraged the Optimal Transport (OT) theory to propose an unpaired image-to-image translation scheme for mapping low-quality retinal CFPs to high-quality counterparts. Furthermore, to improve the flexibility, robustness, and applicability of our image enhancement pipeline in the clinical practice, we generalized a state-of-the-art model-based image reconstruction method, regularization by denoising, by plugging in priors learned by our OT-guided image-to-image translation network. We named it as regularization by enhancing (RE). We validated the integrated framework, OTRE, on three publicly available retinal image datasets by assessing the quality after enhancement and their performance on various downstream tasks, including diabetic retinopathy grading, vessel segmentation, and diabetic lesion segmentation. The experimental results demonstrated the superiority of our proposed framework over some state-of-the-art unsupervised competitors and a state-of-the-art supervised method.
翻訳日:2023-04-11 20:43:38 公開日:2023-04-09
# 自閉症予測とバイオマーカー発見のためのマルチモーダルマルチカーネルグラフ学習

Multi-modal Multi-kernel Graph Learning for Autism Prediction and Biomarker Discovery ( http://arxiv.org/abs/2303.03388v2 )

ライセンス: Link先を確認
Junbin Mao, Jin Liu, Hanhe Lin, Hulin Kuang, Shirui Pan and Yi Pan(参考訳) その複雑さのため、グラフ学習に基づくマルチモーダル統合と分類は、疾患予測の最も困難な障害の1つである。 マルチモーダル統合の過程におけるモダリティ間の負の影響を効果的に相殺するために,MMKGL(Multi-modal Multi-Kernel Graph Learning)と呼ばれる新しい手法を提案する。 モーダル性間の負の影響の問題を解くため,マルチモーダルグラフを構成するマルチモーダルグラフ埋め込みモジュールを提案する。 全てのモダリティに対して静的グラフを手動で構築する従来の方法とは異なり、各モダリティは適応学習によって個別のグラフを生成する。 次に,マルチモーダルグラフから異種情報を抽出するマルチカーネルグラフ学習モジュールを提案する。 異なるレベルのマルチモーダルグラフの情報は、異なる受容フィールドサイズを持つ畳み込みカーネルによって集約され、続いて、疾患予測のためのクロスカーネル発見テンソルを生成する。 本手法は,Autism Brain Imaging Data Exchange (ABIDE) データセットを用いて評価し,最先端の手法よりも優れている。 また,自閉症に関連する差別的脳領域を本モデルにより同定し,自閉症の病態研究の指針を提供する。

Due to its complexity, graph learning-based multi-modal integration and classification is one of the most challenging obstacles for disease prediction. To effectively offset the negative impact between modalities in the process of multi-modal integration and extract heterogeneous information from graphs, we propose a novel method called MMKGL (Multi-modal Multi-Kernel Graph Learning). For the problem of negative impact between modalities, we propose a multi-modal graph embedding module to construct a multi-modal graph. Different from conventional methods that manually construct static graphs for all modalities, each modality generates a separate graph by adaptive learning, where a function graph and a supervision graph are introduced for optimization during the multi-graph fusion embedding process. We then propose a multi-kernel graph learning module to extract heterogeneous information from the multi-modal graph. The information in the multi-modal graph at different levels is aggregated by convolutional kernels with different receptive field sizes, followed by generating a cross-kernel discovery tensor for disease prediction. Our method is evaluated on the benchmark Autism Brain Imaging Data Exchange (ABIDE) dataset and outperforms the state-of-the-art methods. In addition, discriminative brain regions associated with autism are identified by our model, providing guidance for the study of autism pathology.
翻訳日:2023-04-11 20:36:32 公開日:2023-04-09
# 物体中心予測モデルによる内在的物理概念の発見

Intrinsic Physical Concepts Discovery with Object-Centric Predictive Models ( http://arxiv.org/abs/2303.01869v3 )

ライセンス: Link先を確認
Qu Tang, XiangYu Zhu, Zhen Lei, ZhaoXiang Zhang(参考訳) 抽象的な物理的概念を発見し、人間の知性の中核を観察することで世界がどのように働くかを理解する能力。 この能力の獲得は、教師なしの方法でオブジェクトと関係の観点から環境を合成的に知覚することに基づいている。 最近のアプローチでは、オブジェクト中心の表現を学習し、形、サイズ、位置など、視覚的に観察可能なオブジェクトの概念をキャプチャする。 本稿では,質量や電荷といった内在的な物理的概念を発見し,表現しようとする。 PHYsical Concepts Inference NEtwork (PHYCINE) は、異なる抽象レベルの物理概念を監督なしで推論するシステムである。 PHYCINEの根底にある重要な洞察は、2倍のコモンセンス知識が予測と共に出現し、異なる抽象レベルの物理的概念がボトムアップ方式で推論されるべきである。 経験的評価は、システムによって推定される変数が対応する物理概念の性質に従って動作することを示す。 また,検出された物理概念変数を含むオブジェクト表現が,因果推論タスク,すなわちcomphyの性能向上に役立つことを示す。

The ability to discover abstract physical concepts and understand how they work in the world through observing lies at the core of human intelligence. The acquisition of this ability is based on compositionally perceiving the environment in terms of objects and relations in an unsupervised manner. Recent approaches learn object-centric representations and capture visually observable concepts of objects, e.g., shape, size, and location. In this paper, we take a step forward and try to discover and represent intrinsic physical concepts such as mass and charge. We introduce the PHYsical Concepts Inference NEtwork (PHYCINE), a system that infers physical concepts in different abstract levels without supervision. The key insights underlining PHYCINE are two-fold, commonsense knowledge emerges with prediction, and physical concepts of different abstract levels should be reasoned in a bottom-up fashion. Empirical evaluation demonstrates that variables inferred by our system work in accordance with the properties of the corresponding physical concepts. We also show that object representations containing the discovered physical concepts variables could help achieve better performance in causal reasoning tasks, i.e., ComPhy.
翻訳日:2023-04-11 20:35:28 公開日:2023-04-09
# 非連結部分空間を持つ双極子ファシリケートガラスモデルにおける非熱的絡み合いダイナミクス

Nonthermal entanglement dynamics in a dipole-facilitated glassy model with disconnected subspaces ( http://arxiv.org/abs/2303.10582v2 )

ライセンス: Link先を確認
Guanhua Chen and Yao Yao(参考訳) ヒルベルト空間を3つの切り離された部分空間に分割するために双極子分岐運動論的制約を構築し、そのうち2つは非熱的であり、もう1つは内在的な熱浴として作用する。 結果として生じるガラス系は非熱部分空間内で自由に振動し、量子エンタングルメントは実質的な量子ビットのように振る舞う。 共起性、忠実性、および2-r\'{e}nyiエントロピーによって定量化された空間的に広がる絡み合いは、他の参照モデルには存在しない自発的に復元される。 低周波ランダムフリップノイズ下では、この可逆的なエンタングルメントの流体力学は高い忠実性と体積則を持ち、高周波の加熱では異常な相転移が起こる。 我々の研究は、エルゴード性破壊と制御可能な絡み合いダイナミクスを実現するための精巧な空間構造を提供する。

We construct a dipole-facilitated kinetic constraint to partition the Hilbert space into three disconnected subspaces, two of which are nonthermal and the other acts as an intrinsic thermal bath. The resulting glassy system freely oscillates in nonthermal subspaces, making the quantum entanglement perform like a substantial qubit. The spatially spreading entanglement, quantified by concurrence, fidelity and 2-R\'{e}nyi entropy, is found to be spontaneously recovered which is absent in other reference models. Under low-frequency random flip noise, this reversible hydrodynamics of entanglement holds high fidelity and volume law, while at high frequency thermalization unusually occurs leading to a strange phase transition. Our work offers an elaborate space structure for realizing ergodicity breaking and controllable entanglement dynamics.
翻訳日:2023-04-11 20:27:35 公開日:2023-04-09
# 絡み合った送信機を有するマルチアクセスチャネル

The Multiple-Access Channel with Entangled Transmitters ( http://arxiv.org/abs/2303.10456v3 )

ライセンス: Link先を確認
Uzi Pereg, Christian Deppe, and Holger Boche(参考訳) 従来型マルチアクセスチャネル(mac)と絡み合いリソースとの通信を考慮し,通信開始前に2つの送信機で絡み合いリソースを共有する。 leditzki et al. (2020) は、疑似テレパシーゲームで定義される古典的なmacの例を示し、絡み合った送信機との和率は、そのようなリソースのない最高の達成可能な和率よりも厳密に高いことを示した。 ここでは、一般MACの容量領域をエンタングル送信機で決定し、その前の結果が特別の場合として得られることを示す。 さらに、メッセージ平均誤差基準の下での古典的なmacの容量領域は、最大誤差基準よりも厳密に大きいことが長年知られている(dueck, 1978)。 絡み合った資源が与えられた場合、その領域は一致する。

Communication over a classical multiple-access channel (MAC) with entanglement resources is considered, whereby two transmitters share entanglement resources a priori before communication begins. Leditzki et al. (2020) presented an example of a classical MAC, defined in terms of a pseudo telepathy game, such that the sum rate with entangled transmitters is strictly higher than the best achievable sum rate without such resources. Here, we determine the capacity region for the general MAC with entangled transmitters, and show that the previous result can be obtained as a special case. Furthermore, it has long been known that the capacity region of the classical MAC under a message-average error criterion can be strictly larger than with a maximal error criterion (Dueck, 1978). We observe that given entanglement resources, the regions coincide.
翻訳日:2023-04-11 20:27:18 公開日:2023-04-09
# 複素数値ニューラルネットワークを用いた物理インフォームド光カーネル回帰

Physics-Informed Optical Kernel Regression Using Complex-valued Neural Fields ( http://arxiv.org/abs/2303.08435v4 )

ライセンス: Link先を確認
Guojin Chen, Zehua Pei, Haoyu Yang, Yuzhe Ma, Bei Yu, Martin D. F. Wong(参考訳) リソグラフィーは集積回路製造の基本であり、大きな計算オーバーヘッドを必要とする。 機械学習(ML)ベースのリソグラフィーモデルの進歩は、製造プロセスの費用と能力の間のトレードオフを軽減する。 しかし、以前の手法はすべてリソグラフィシステムを画像対画像のブラックボックスマッピングとして捉えており、ネットワークパラメータを利用して大量のマスク対aerialまたはマスク対resist画像ペアからのロートマッピングを学習し、一般化能力に乏しい。 本稿では,厳密なリソグラフィモデルを非パラメトリックマスク操作に分解し,決定要因,瞳孔,リソグラフィ情報を含む光カーネルを学習するMLベースの新しいパラダイムを提案する。 複雑な値のニューラルネットワークを最適化し、座標から光学核回帰を行うことにより、より少ないパラメータの小規模トレーニングデータセットを用いてリソグラフィシステムを高精度に復元し、優れた一般化能力を示す。 実験によると、我々のフレームワークはパラメータの31%を使うことができるが、69$\times$は平均2乗誤差が1.3$\times$は最先端のスループットよりも小さい。

Lithography is fundamental to integrated circuit fabrication, necessitating large computation overhead. The advancement of machine learning (ML)-based lithography models alleviates the trade-offs between manufacturing process expense and capability. However, all previous methods regard the lithography system as an image-to-image black box mapping, utilizing network parameters to learn by rote mappings from massive mask-to-aerial or mask-to-resist image pairs, resulting in poor generalization capability. In this paper, we propose a new ML-based paradigm disassembling the rigorous lithographic model into non-parametric mask operations and learned optical kernels containing determinant source, pupil, and lithography information. By optimizing complex-valued neural fields to perform optical kernel regression from coordinates, our method can accurately restore lithography system using a small-scale training dataset with fewer parameters, demonstrating superior generalization capability as well. Experiments show that our framework can use 31% of parameters while achieving 69$\times$ smaller mean squared error with 1.3$\times$ higher throughput than the state-of-the-art.
翻訳日:2023-04-11 20:27:03 公開日:2023-04-09
# 力場構築によるODEスタイル生成拡散モデルの解釈

Interpretable ODE-style Generative Diffusion Model via Force Field Construction ( http://arxiv.org/abs/2303.08063v3 )

ライセンス: Link先を確認
Weiyang Jin and Yongpei Zhu and Yuxi Peng(参考訳) しばらくの間、研究者は生成拡散モデルと数理物理学の深い関係を確立する方法の開発に注力してきた。 これまでの努力にもかかわらず、進歩は単一の専門的な方法の追求に限定されてきた。 拡散モデルの解釈可能性を高め, 新たな研究方向を探るためには, 統一ode型生成拡散モデルを確立することが不可欠である。 このようなモデルは物理モデルからインスピレーションを得て、明確な幾何学的意味を持つべきである。 本稿では, 数学的観点から, ode型生成拡散モデルの構築に適した様々な物理モデルを特定することを目的とする。 そして、これらのモデルを統一した手法にまとめる。 さらに,本手法によって同定された理論モデルを用いて,新しい拡散モデル手法を開発し,実験を行うケーススタディを実施している。 CIFAR-10の実験は、我々のアプローチの有効性を実証した。 画像生成速度に関して非常に熟練した結果を得る計算フレームワークを構築し,インセプションスコアとfidスコアの両方において優れた性能を示す追加モデルを構築した。 これらの結果は拡散モデルの発展における本手法の意義を浮き彫りにするものである。

For a considerable time, researchers have focused on developing a method that establishes a deep connection between the generative diffusion model and mathematical physics. Despite previous efforts, progress has been limited to the pursuit of a single specialized method. In order to advance the interpretability of diffusion models and explore new research directions, it is essential to establish a unified ODE-style generative diffusion model. Such a model should draw inspiration from physical models and possess a clear geometric meaning. This paper aims to identify various physical models that are suitable for constructing ODE-style generative diffusion models accurately from a mathematical perspective. We then summarize these models into a unified method. Additionally, we perform a case study where we use the theoretical model identified by our method to develop a range of new diffusion model methods, and conduct experiments. Our experiments on CIFAR-10 demonstrate the effectiveness of our approach. We have constructed a computational framework that attains highly proficient results with regards to image generation speed, alongside an additional model that demonstrates exceptional performance in both Inception score and FID score. These results underscore the significance of our method in advancing the field of diffusion models.
翻訳日:2023-04-11 20:26:32 公開日:2023-04-09
# マルチモデルアクティブラーニングによる統計ハードウェア設計

Statistical Hardware Design With Multi-model Active Learning ( http://arxiv.org/abs/2303.08054v5 )

ライセンス: Link先を確認
Alireza Ghaffari, Masoud Asgharian, Yvon Savaria(参考訳) 現代の社会に貢献する多くの新しいアプリケーションが複雑化するにつれ、効率的なコンピューティングプラットフォームを設計する必要がある。 しかし、効率的なハードウェアの設計は、複数のパラメータとその相互作用を扱う複雑な多目的問題である。 ハードウェア設計には多数のパラメータや目的があるので、可能な組み合わせをすべて合成することは、最適解を見つけるための実現可能な方法ではない。 この問題に取り組むための有望なアプローチは、望ましいハードウェア性能の統計的モデリングである。 本稿では,この問題を解決するためのモデルベースアクティブラーニング手法を提案する。 提案手法はベイズモデルを用いてハードウェア性能の様々な側面を特徴付ける。 また、より正確なモデルを作成するために、トランスファー学習とガウス回帰ブートストラップ技術とアクティブラーニングを併用しています。 提案手法は,設計空間探索と性能予測を同時に行うのに十分な精度のハードウェアモデルを提供する。 提案手法は,FPGAターゲット用マイクロアーキテクチャ設計やOpenCLカーネルなど,様々なハードウェア構成のための設計空間探索と性能予測を行う。 実験により,提案する統計モデルの予測力を維持しつつ,性能モデル作成に必要なサンプル数が大幅に減少することを示した。 例えば、性能予測設定では、提案手法はモデルを作成するのに65%のサンプルが必要であり、設計空間探索設定では、提案手法は50未満のサンプルを探索することで最適なパラメータ設定を見つけることができる。

With the rising complexity of numerous novel applications that serve our modern society comes the strong need to design efficient computing platforms. Designing efficient hardware is, however, a complex multi-objective problem that deals with multiple parameters and their interactions. Given that there are a large number of parameters and objectives involved in hardware design, synthesizing all possible combinations is not a feasible method to find the optimal solution. One promising approach to tackle this problem is statistical modeling of a desired hardware performance. Here, we propose a model-based active learning approach to solve this problem. Our proposed method uses Bayesian models to characterize various aspects of hardware performance. We also use transfer learning and Gaussian regression bootstrapping techniques in conjunction with active learning to create more accurate models. Our proposed statistical modeling method provides hardware models that are sufficiently accurate to perform design space exploration as well as performance prediction simultaneously. We use our proposed method to perform design space exploration and performance prediction for various hardware setups, such as micro-architecture design and OpenCL kernels for FPGA targets. Our experiments show that the number of samples required to create performance models significantly reduces while maintaining the predictive power of our proposed statistical models. For instance, in our performance prediction setting, the proposed method needs 65% fewer samples to create the model, and in the design space exploration setting, our proposed method can find the best parameter settings by exploring less than 50 samples.
翻訳日:2023-04-11 20:26:15 公開日:2023-04-09
# CuNeRF:Zero-Shot Medical Image Arbitrary-Scale Super Resolutionのための立方体型ニューラルネットワーク

CuNeRF: Cube-Based Neural Radiance Field for Zero-Shot Medical Image Arbitrary-Scale Super Resolution ( http://arxiv.org/abs/2303.16242v2 )

ライセンス: Link先を確認
Zixuan Chen, Jianhuang Lai, Lingxiao Yang, Xiaohua Xie(参考訳) 医用画像任意スケール超解像 (MIASSR) が最近注目され, 任意のスケールの医用ボリュームを1つのモデルで測定することを目指している。 しかし、既存のMIASSRメソッドには2つの大きな制限がある。 (i)高分解能(HR)ボリュームに依存して (ii)様々なシナリオでの応用を制限する一般化能力の制限。 これらの制限を克服するため、連続領域における任意のスケールと視点で医療画像を得ることができるゼロショットMIASSRフレームワークCuNeRF(Cue-based Neural Radiance Field)を提案する。 低分解能(LR)とHRボリュームのマッピングに適合する既存のMIASSR法とは異なり、CuNeRFはHR参照を必要とせずにLRボリュームから座標強度連続表現を構築することに焦点を当てている。 これは、キューブベースのサンプリング、等方性ボリュームレンダリング、キューブベースの階層的レンダリングを含む、提案された微分可能なモジュールによって達成される。 磁気リソースイメージング(MRI)とCTモダリティの広範な実験を通じて、CuNeRFは最先端MIASSR法より優れていることを示した。 CuNeRFは、より優れた視覚的Verisimilitudeをもたらし、様々なアップサンプリング要因におけるアーティファクトのエイリアスを低減する。 さらに、我々のCuNeRFはLR-HRトレーニングペアを一切必要とせず、他のものよりも柔軟で使いやすくなります。 私たちのコードはまもなく公開されます。

Medical image arbitrary-scale super-resolution (MIASSR) has recently gained widespread attention, aiming to super sample medical volumes at arbitrary scales via a single model. However, existing MIASSR methods face two major limitations: (i) reliance on high-resolution (HR) volumes and (ii) limited generalization ability, which restricts their application in various scenarios. To overcome these limitations, we propose Cube-based Neural Radiance Field (CuNeRF), a zero-shot MIASSR framework that can yield medical images at arbitrary scales and viewpoints in a continuous domain. Unlike existing MIASSR methods that fit the mapping between low-resolution (LR) and HR volumes, CuNeRF focuses on building a coordinate-intensity continuous representation from LR volumes without the need for HR references. This is achieved by the proposed differentiable modules: including cube-based sampling, isotropic volume rendering, and cube-based hierarchical rendering. Through extensive experiments on magnetic resource imaging (MRI) and computed tomography (CT) modalities, we demonstrate that CuNeRF outperforms state-of-the-art MIASSR methods. CuNeRF yields better visual verisimilitude and reduces aliasing artifacts at various upsampling factors. Moreover, our CuNeRF does not need any LR-HR training pairs, which is more flexible and easier to be used than others. Our code will be publicly available soon.
翻訳日:2023-04-11 20:17:54 公開日:2023-04-09
# オンラインストリーミング映像理解のためのシステム統計対応適応ネットワーク

System-status-aware Adaptive Network for Online Streaming Video Understanding ( http://arxiv.org/abs/2303.15742v2 )

ライセンス: Link先を確認
Lin Geng Foo, Jia Gong, Zhipeng Fan, Jun Liu(参考訳) 近年、リアルタイムアプリケーションのためのディープニューラルネットワークは大きな進歩を遂げている。 しかしながら、既存のほとんどの研究は、デバイスの状態と利用可能なリソースが時間とともに変動する一般的なケースを明示的に考慮していない。 本稿では,装置のリアルタイム状態を考慮したシステム統計対応適応ネットワーク(SAN, System-status-aware Adaptive Network)を提案する。 エージェントのポリシーの使用は、システム状態の変動に対する効率とロバスト性を向上させる。 2つの広く使われているビデオ理解タスクにおいて、SANは処理遅延を常に低く保ちながら最先端のパフォーマンスを得る。 さらに,各種ハードウェア構成のエージェントをトレーニングするのは,ラベル付きトレーニングデータが入手できない場合や,計算が禁止される場合など,容易ではない。 この課題に対処するために,テスト時にエージェントのポリシーを新しいハードウェア構成に適応させるメタ自己監督適応 (msa) 手法を提案する。

Recent years have witnessed great progress in deep neural networks for real-time applications. However, most existing works do not explicitly consider the general case where the device's state and the available resources fluctuate over time, and none of them investigate or address the impact of varying computational resources for online video understanding tasks. This paper proposes a System-status-aware Adaptive Network (SAN) that considers the device's real-time state to provide high-quality predictions with low delay. Usage of our agent's policy improves efficiency and robustness to fluctuations of the system status. On two widely used video understanding tasks, SAN obtains state-of-the-art performance while constantly keeping processing delays low. Moreover, training such an agent on various types of hardware configurations is not easy as the labeled training data might not be available, or can be computationally prohibitive. To address this challenging problem, we propose a Meta Self-supervised Adaptation (MSA) method that adapts the agent's policy to new hardware configurations at test-time, allowing for easy deployment of the model onto other unseen hardware platforms.
翻訳日:2023-04-11 20:16:49 公開日:2023-04-09
# 大規模言語モデルに関する調査

A Survey of Large Language Models ( http://arxiv.org/abs/2303.18223v2 )

ライセンス: Link先を確認
Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, Yifan Du, Chen Yang, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren, Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu, Jian-Yun Nie and Ji-Rong Wen(参考訳) 言語は基本的に、文法規則によって支配される人間の表現の複雑な複雑な体系である。 言語を理解・把握するための有能なaiアルゴリズムを開発することは大きな課題となる。 主要なアプローチとして、言語モデリングは過去20年間、言語理解と生成のために広く研究され、統計的言語モデルから神経言語モデルへと進化してきた。 近年,大規模コーパス上でのトランスフォーマモデルによる事前学習言語モデル (plms) が提案されている。 モデルスケーリングがパフォーマンス改善につながることを研究者は発見しているので、モデルサイズをさらに大きくすることで、スケーリング効果をさらに研究している。 興味深いことに、パラメータスケールが一定のレベルを超えると、これらの拡張言語モデルは大幅な性能向上を達成するだけでなく、小規模な言語モデルには存在しない特別な能力を示す。 パラメータスケールの違いを識別するために、研究コミュニティは、大きなサイズのplmに対して、大言語モデル(llm)という用語を生み出した。 近年、LLMの研究は学術と産業の両方で大きく進歩しており、ChatGPTの立ち上げが目覚ましい進歩であり、社会から広く注目を集めている。 LLMの技術的な進化は、AIアルゴリズムの開発と使用方法に革命をもたらすような、AIコミュニティ全体に重要な影響を与えています。 本稿では, LLMの最近の進歩について, 背景, 重要な発見, 主流技術を紹介して概観する。 特に,事前トレーニング,適応チューニング,利用,キャパシティ評価という,llmの主な4つの側面に注目した。 さらに,llm開発のための利用可能なリソースを要約するとともに,今後の課題についても論じる。

Language is essentially a complex, intricate system of human expressions governed by grammatical rules. It poses a significant challenge to develop capable AI algorithms for comprehending and grasping a language. As a major approach, language modeling has been widely studied for language understanding and generation in the past two decades, evolving from statistical language models to neural language models. Recently, pre-trained language models (PLMs) have been proposed by pre-training Transformer models over large-scale corpora, showing strong capabilities in solving various NLP tasks. Since researchers have found that model scaling can lead to performance improvement, they further study the scaling effect by increasing the model size to an even larger size. Interestingly, when the parameter scale exceeds a certain level, these enlarged language models not only achieve a significant performance improvement but also show some special abilities that are not present in small-scale language models. To discriminate the difference in parameter scale, the research community has coined the term large language models (LLM) for the PLMs of significant size. Recently, the research on LLMs has been largely advanced by both academia and industry, and a remarkable progress is the launch of ChatGPT, which has attracted widespread attention from society. The technical evolution of LLMs has been making an important impact on the entire AI community, which would revolutionize the way how we develop and use AI algorithms. In this survey, we review the recent advances of LLMs by introducing the background, key findings, and mainstream techniques. In particular, we focus on four major aspects of LLMs, namely pre-training, adaptation tuning, utilization, and capacity evaluation. Besides, we also summarize the available resources for developing LLMs and discuss the remaining issues for future directions.
翻訳日:2023-04-11 20:08:04 公開日:2023-04-09
# 大規模言語フィードバックによる言語モデルの訓練

Training Language Models with Language Feedback at Scale ( http://arxiv.org/abs/2303.16755v2 )

ライセンス: Link先を確認
J\'er\'emy Scheurer, Jon Ander Campos, Tomasz Korbak, Jun Shern Chan, Angelica Chen, Kyunghyun Cho, Ethan Perez(参考訳) 事前訓練された言語モデルは、有害なテキストや事実的に誤った要約など、人間の好みと一致しない出力を生成することが多い。 最近の研究は、人間のフィードバックの単純な形式から学習することで、上記の問題にアプローチしている。 しかし、比較フィードバックは人間の好みに関する限られた情報しか伝達しない。 本稿では,より情報的な言語フィードバックを利用する新しいアプローチであるImitation Learning from Language Feedback (ILF)を紹介する。 ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。 次に、最もフィードバックを取り入れた改善を選択する。 第三に、入力によって選択された洗練の可能性を最大化するために言語モデルを微調整する。 理論的には、ILFは人間のフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。 ilfの有効性を注意深く制御した玩具タスクと現実的な要約タスクで評価する。 実験では,大規模言語モデルがフィードバックを正確に組み込んでおり,iffによる微調整はデータセットサイズとよく一致し,人間のサマリーの微調整よりも優れています。 言語と比較フィードバックの両方から学ぶことは、個人で学ぶことよりも優れ、人間レベルの要約性能を達成する。

Pretrained language models often generate outputs that are not in line with human preferences, such as harmful text or factually incorrect summaries. Recent work approaches the above issues by learning from a simple form of human feedback: comparisons between pairs of model-generated outputs. However, comparison feedback only conveys limited information about human preferences. In this paper, we introduce Imitation learning from Language Feedback (ILF), a new approach that utilizes more informative language feedback. ILF consists of three steps that are applied iteratively: first, conditioning the language model on the input, an initial LM output, and feedback to generate refinements. Second, selecting the refinement incorporating the most feedback. Third, finetuning the language model to maximize the likelihood of the chosen refinement given the input. We show theoretically that ILF can be viewed as Bayesian Inference, similar to Reinforcement Learning from human feedback. We evaluate ILF's effectiveness on a carefully-controlled toy task and a realistic summarization task. Our experiments demonstrate that large language models accurately incorporate feedback and that finetuning with ILF scales well with the dataset size, even outperforming finetuning on human summaries. Learning from both language and comparison feedback outperforms learning from each alone, achieving human-level summarization performance.
翻訳日:2023-04-11 20:06:34 公開日:2023-04-09
# EPVT:皮膚病変認識における領域一般化のための環境対応プロンプトビジョントランス

EPVT: Environment-aware Prompt Vision Transformer for Domain Generalization in Skin Lesion Recognition ( http://arxiv.org/abs/2304.01508v2 )

ライセンス: Link先を確認
Siyuan Yan, Chi Liu, Zhen Yu, Lie Ju, Dwarikanath Mahapatrainst, Victoria Mar, Monika Janda, Peter Soyer, Zongyuan Ge(参考訳) 深層学習を用いた皮膚病変認識は目覚ましい進歩を遂げており、現実のシナリオにこれらのシステムをデプロイする必要性が高まっている。 しかし、近年の研究では、皮膚病変認識のための深層ニューラルネットワークが、疾患に関係のない画像アーティファクト(ダークコーナー、濃密な毛髪など)に過度に依存し、目に見えない環境での一般化を損なう可能性があることが判明している。 この問題に対処するために,視覚変換器にプロンプトを埋め込み,多様な領域から知識を協調的に学習するEPVTと呼ばれる新しい領域一般化手法を提案する。 具体的には、EPVTはドメインの専門家として機能する一連のドメインプロンプトを活用して、ドメイン固有の知識をキャプチャします。 知識共有と異なるプロンプトの相互作用を容易にするため,ドメインプロンプトと共有プロンプト間の低ランク乗算更新を可能にするドメインプロンプト生成手法を提案する。 ドメインのミックスアップ戦略は、各ドメインの共起アーティファクトを減らすためにさらに考案され、より柔軟な決定マージンを可能にし、誤って割り当てられたドメインラベルの問題を軽減する。 4つの分布外データセットと6つのバイアス付きISICデータセットの実験は、様々な環境における皮膚病変認識におけるEVVTのより優れた一般化能力を示す。 コードとデータセットはhttps://github.com/SiyuanYan1/EPVT.comで公開されます。

Skin lesion recognition using deep learning has made remarkable progress, and there is an increasing need for deploying these systems in real-world scenarios. However, recent research has revealed that deep neural networks for skin lesion recognition may overly depend on disease-irrelevant image artifacts (i.e. dark corners, dense hairs), leading to poor generalization in unseen environments. To address this issue, we propose a novel domain generalization method called EPVT, which involves embedding prompts into the vision transformer to collaboratively learn knowledge from diverse domains. Concretely, EPVT leverages a set of domain prompts, each of which plays as a domain expert, to capture domain-specific knowledge; and a shared prompt for general knowledge over the entire dataset. To facilitate knowledge sharing and the interaction of different prompts, we introduce a domain prompt generator that enables low-rank multiplicative updates between domain prompts and the shared prompt. A domain mixup strategy is additionally devised to reduce the co-occurring artifacts in each domain, which allows for more flexible decision margins and mitigates the issue of incorrectly assigned domain labels. Experiments on four out-of-distribution datasets and six different biased ISIC datasets demonstrate the superior generalization ability of EPVT in skin lesion recognition across various environments. Our code and dataset will be released at https://github.com/SiyuanYan1/EPVT.
翻訳日:2023-04-11 19:47:57 公開日:2023-04-09
# 低リソース地震探査のための伝搬構造を持つ一貫したコントラスト伝達フレームワーク

A Unified Contrastive Transfer Framework with Propagation Structure for Boosting Low-Resource Rumor Detection ( http://arxiv.org/abs/2304.01492v3 )

ライセンス: Link先を確認
Hongzhan Lin, Jing Ma, Ruichao Yang, Zhiwei Yang, Mingfei Cheng(参考訳) 事実は、ニュースや人気の話題とともに広まる巨大な噂によって著しく妨げられている。 モデルトレーニングのために同じドメインから集めた十分なコーパスがあるため、既存の噂検出アルゴリズムは昨日のニュースで有望なパフォーマンスを示している。 しかし、十分な訓練データや事前の専門家知識が欠如しているため、予期せぬ出来事、特に異なる言語(低資源体制)で伝播した出来事に関する噂を見つけるのが苦手である。 本稿では,噂データから得られた特徴を,少数のアノテーションを用いた低リソース化に適応させることで,噂を検出するための一貫したコントラッシブトランスファーフレームワークを提案する。 より具体的には、まずソーシャルメディア上で流布された噂を、ユーザの意見の相互作用を強化するための無向的トポロジーとして表現し、次いで、統合されたコントラストパラダイムを介してマルチスケールグラフ畳み込みネットワークを訓練し、ポストセマンティクスと伝播構造から効果的な手がかりを同時に抽出する。 我々のモデルは、言語アライメントと新しいドメイン適応型コントラスト学習機構を通じて、ドメインおよび/または言語問題の障壁を明示的に破る。 対象イベントに注釈を付けて表現学習を高度に一般化するため,うわさ表示信号は,その分布の均一性と密接な相関関係にあることを明らかにした。 対象イベントを識別して表現を統一できる,3つのイベントレベルデータ拡張戦略を備えたターゲットワイドコントラストトレーニング機構を設計する。 実世界のマイクロブログプラットフォームから収集した4つの低リソースデータセットによる大規模な実験により、我々のフレームワークは最先端の手法よりもはるかに優れた性能を示し、早期に噂を検出する能力を示している。

The truth is significantly hampered by massive rumors that spread along with breaking news or popular topics. Since there is sufficient corpus gathered from the same domain for model training, existing rumor detection algorithms show promising performance on yesterday's news. However, due to a lack of substantial training data and prior expert knowledge, they are poor at spotting rumors concerning unforeseen events, especially those propagated in different languages (i.e., low-resource regimes). In this paper, we propose a unified contrastive transfer framework to detect rumors by adapting the features learned from well-resourced rumor data to that of the low-resourced with only few-shot annotations. More specifically, we first represent rumor circulated on social media as an undirected topology for enhancing the interaction of user opinions, and then train a Multi-scale Graph Convolutional Network via a unified contrastive paradigm to mine effective clues simultaneously from post semantics and propagation structure. Our model explicitly breaks the barriers of the domain and/or language issues, via language alignment and a novel domain-adaptive contrastive learning mechanism. To well-generalize the representation learning using a small set of annotated target events, we reveal that rumor-indicative signal is closely correlated with the uniformity of the distribution of these events. We design a target-wise contrastive training mechanism with three event-level data augmentation strategies, capable of unifying the representations by distinguishing target events. Extensive experiments conducted on four low-resource datasets collected from real-world microblog platforms demonstrate that our framework achieves much better performance than state-of-the-art methods and exhibits a superior capacity for detecting rumors at early stages.
翻訳日:2023-04-11 19:47:29 公開日:2023-04-09
# RD-DPP: 学習データサンプルを多様化する決定点プロセス

RD-DPP: Rate-Distortion Theory Meets Determinantal Point Process to Diversify Learning Data Samples ( http://arxiv.org/abs/2304.04137v1 )

ライセンス: Link先を確認
Xiwen Chen, Huayu Li, Rahul Amin, Abolfazl Razi(参考訳) 交通映像解析などの実践的な学習タスクでは、利用可能なトレーニングサンプルの数は、通信帯域幅や計算能力の制限など、さまざまな要因によって制限されるため、学習システムの品質に最も寄与する多様なデータサンプルを選択することが不可欠である。 多様なサンプルを選択するための一般的なアプローチはDPP(Determinantal Point Process)である。 しかし、サンプルの数を類似度行列のランクに制限したり、特定の学習タスク(例えば、マルチレベル分類タスク)にカスタマイズできないといった、いくつかの既知の欠点に悩まされている。 本稿では,マルチレベル分類に適したレートゆらぎ(rd)理論に基づいてタスク指向の多様性を測定する新しい方法を提案する。 この目的のために、DPPとRD理論の基本的な関係を確立し、RDに基づく値関数RD-DPPを設計し、データサンプルの多様性向上を評価する。 また、dppが選択したデータの多様性の上限が位相遷移の普遍的な傾向を示し、その最大点に素早く接近し、最終的に緩やかに収束し、サンプル蓄積の開始時にのみdppが有益であることを示す。 私たちはこの事実を,シーケンシャルなデータ選択のためのバイモーダルアプローチの設計に使用します。

In some practical learning tasks, such as traffic video analysis, the number of available training samples is restricted by different factors, such as limited communication bandwidth and computation power; therefore, it is imperative to select diverse data samples that contribute the most to the quality of the learning system. One popular approach to selecting diverse samples is Determinantal Point Process (DPP). However, it suffers from a few known drawbacks, such as restriction of the number of samples to the rank of the similarity matrix, and not being customizable for specific learning tasks (e.g., multi-level classification tasks). In this paper, we propose a new way of measuring task-oriented diversity based on the Rate-Distortion (RD) theory, appropriate for multi-level classification. To this end, we establish a fundamental relationship between DPP and RD theory, which led to designing RD-DPP, an RD-based value function to evaluate the diversity gain of data samples. We also observe that the upper bound of the diversity of data selected by DPP has a universal trend of phase transition that quickly approaches its maximum point, then slowly converges to its final limits, meaning that DPP is beneficial only at the beginning of sample accumulation. We use this fact to design a bi-modal approach for sequential data selection.
翻訳日:2023-04-11 17:40:23 公開日:2023-04-09
# 預言者:長大な流通学習を指導する予言教師

Propheter: Prophetic Teacher Guided Long-Tailed Distribution Learning ( http://arxiv.org/abs/2304.04135v1 )

ライセンス: Link先を確認
Wenxiang Xu, Linyun Zhou, Lin Chen, Lechao Cheng, Jie Lei, Zunlei Feng, Mingli Song(参考訳) 汎用視覚認識の分野で一般的な課題である深層ロングテール学習の問題は、多くの実世界のアプリケーションで続いている。 ロングテール分類における厳密なデータセット問題に取り組むために、以前の取り組みは、クラスリバランス、データ拡張、モジュールの改善など、精巧なクラスバランス戦略で既存の深層モデルを強化することを目指してきた。 優れたパフォーマンスにもかかわらず、トレーニングデータセット内の尾行クラスに関する限られたクラス知識は、まだ既存のディープモデルのパフォーマンスをボトルネックにしている。 本稿では,深層ネットワークの学習を外部の事前知識で導くことによってボトルネックを解消する,革新的な長尾学習パラダイムを提案する。 これは特に、潜在的なクラス分布を学習することを目的とした、'`Propheter''と呼ばれる、精巧な ``prohetic'' の教師を考案することで達成される。 対象のロングテール予測モデルは、訓練された ``propheter''' の指示に基づいて最適化され、異なるクラスの分布を可能な限り区別することができる。 3つのアーキテクチャにわたる8つのロングテールのベンチマーク実験は、提案された予言パラダイムが、ロングテールのデータセットにおける限られたクラス知識の課題に対する有望な解決策として機能することを示しています。 私たちのコードとモデルは補足資料に載っています。

The problem of deep long-tailed learning, a prevalent challenge in the realm of generic visual recognition, persists in a multitude of real-world applications. To tackle the heavily-skewed dataset issue in long-tailed classification, prior efforts have sought to augment existing deep models with the elaborate class-balancing strategies, such as class rebalancing, data augmentation, and module improvement. Despite the encouraging performance, the limited class knowledge of the tailed classes in the training dataset still bottlenecks the performance of the existing deep models. In this paper, we propose an innovative long-tailed learning paradigm that breaks the bottleneck by guiding the learning of deep networks with external prior knowledge. This is specifically achieved by devising an elaborated ``prophetic'' teacher, termed as ``Propheter'', that aims to learn the potential class distributions. The target long-tailed prediction model is then optimized under the instruction of the well-trained ``Propheter'', such that the distributions of different classes are as distinguishable as possible from each other. Experiments on eight long-tailed benchmarks across three architectures demonstrate that the proposed prophetic paradigm acts as a promising solution to the challenge of limited class knowledge in long-tailed datasets. Our code and model can be found in the supplementary material.
翻訳日:2023-04-11 17:40:01 公開日:2023-04-09
# ファイバテーパ上のナノ粒子と量子ドットの位置制御トラップ

Position-controlled trapping of nanoparticles and quantum dots on a fiber taper ( http://arxiv.org/abs/2304.04134v1 )

ライセンス: Link先を確認
Ryusei Watanabe, Daiki Yamamoto, Mark Sadgrove(参考訳) 本研究では,2色光ファイバテーパトラップの特性を数値的および実験的に検討し,ファイバテーパ内のモードのエバネッセント場が3次元トラップ電位を生じさせる特性について検討した。 実験では,光ファイバーテーパの表面近傍でコロイドナノ粒子を閉じ込める手法を用いて,繊維中の2モードの相対パワーを制御することにより,粒子の捕捉位置が調節可能であることを示す。 また,量子ドットの励起場としてトラップ場が2倍になるような構成で,金ナノ粒子とともに量子ドットをトラップする原理的応用の証明も行った。 このスキームにより量子エミッタの位置決めが可能となり、共振器とファイバテーパとの結合を調整することができる。

We investigate numerically and experimentally the properties of a two color optical fiber taper trap, for which the evanescent field of the modes in the fiber taper give rise to a three-dimensional trapping potential. Experimentally, we use the technique to confine colloidal nanoparticles near the surface of an optical fiber taper, and show that the trapping position of the particles is adjustable by controlling the relative power of two modes in the fiber. We also demonstrate a proof of principle application by trapping quantum dots together with gold nanoparticles in a configuration where the trapping fields double as the excitation field for the quantum dots. This scheme will allow the positioning of quantum emitters in order to adjust coupling to resonators combined with the fiber taper.
翻訳日:2023-04-11 17:39:41 公開日:2023-04-09
# 衛星画像へのnerf応用による表面再構成

NeRF applied to satellite imagery for surface reconstruction ( http://arxiv.org/abs/2304.04133v1 )

ライセンス: Link先を確認
Federico Semeraro, Yi Zhang, Wenying Wu, Patrick Carroll(参考訳) 本稿では、最近導入されたシャドウニューラルレージアンスフィールド(S-NeRF)モデルの修正実装であるSat-NeRFを提案する。 本手法は、画像中の光の変動を考慮しつつ、シーンの衛星画像の粗い集合から新規なビューを合成することができる。 トレーニングされたモデルは、しばしば衛星観測用途に望ましい量であるシーンの表面の標高を正確に推定するためにも使用できる。 S-NeRFは、放射をアルベドと照射の機能として考慮し、標準的なニューラル放射場(NeRF)法を改善する。 どちらの量もモデルの完全に接続されたニューラルネットワークの枝によって出力され、後者は太陽からの直光と空からの拡散色の関数とみなされる。 実装は衛星画像のデータセット上で実行され、ズームアンドクロップ技術を用いて拡張された。 NeRFのハイパーパラメーターによる研究が行われ、モデル収束に関する興味深い観測につながった。 最後に、NeRFとS-NeRFはどちらも100kのエポックまで実行され、データの完全適合と可能な限りの予測が得られた。 この記事に関連するコードは、https://github.gatech.edu/fsemeraro6/satnerf.orgにある。

We present Sat-NeRF, a modified implementation of the recently introduced Shadow Neural Radiance Field (S-NeRF) model. This method is able to synthesize novel views from a sparse set of satellite images of a scene, while accounting for the variation in lighting present in the pictures. The trained model can also be used to accurately estimate the surface elevation of the scene, which is often a desirable quantity for satellite observation applications. S-NeRF improves on the standard Neural Radiance Field (NeRF) method by considering the radiance as a function of the albedo and the irradiance. Both these quantities are output by fully connected neural network branches of the model, and the latter is considered as a function of the direct light from the sun and the diffuse color from the sky. The implementations were run on a dataset of satellite images, augmented using a zoom-and-crop technique. A hyperparameter study for NeRF was carried out, leading to intriguing observations on the model's convergence. Finally, both NeRF and S-NeRF were run until 100k epochs in order to fully fit the data and produce their best possible predictions. The code related to this article can be found at https://github.gatech.edu/fsemeraro6/satnerf.
翻訳日:2023-04-11 17:39:27 公開日:2023-04-09
# End-to-End TTSシステムにおける話者独立語句分割モデルの検討

An investigation of speaker independent phrase break models in End-to-End TTS systems ( http://arxiv.org/abs/2304.04157v1 )

ライセンス: Link先を確認
Anandaswarup Vadapalli(参考訳) 本稿では, 終末TSシステムの文脈におけるフレーズブレーク予測に関する研究について, 以下の質問に動機づけられた。 (i)エンド・ツー・エンドのttsシステムに明示的なフラージングモデルを組み込むユーティリティは存在するか? と (II)エンドツーエンドTSシステムにおける表現モデルの有効性をどう評価するか。 特に,子どもの物語合成におけるフレーズブレーク予測モデルの有用性と有効性について,リスナー理解を用いて評価した。 学習したフラージングモデルを用いてフレーズブレークの位置を予測した後、フレーズブレイクの位置を予測せずに直接合成したストーリーよりも、フレーズブレイクの位置を予測した後に合成されたストーリーに明確な好みがあることを知覚的リスニング評価により示す。

This paper presents our work on phrase break prediction in the context of end-to-end TTS systems, motivated by the following questions: (i) Is there any utility in incorporating an explicit phrasing model in an end-to-end TTS system?, and (ii) How do you evaluate the effectiveness of a phrasing model in an end-to-end TTS system? In particular, the utility and effectiveness of phrase break prediction models are evaluated in in the context of childrens story synthesis, using listener comprehension. We show by means of perceptual listening evaluations that there is a clear preference for stories synthesized after predicting the location of phrase breaks using a trained phrasing model, over stories directly synthesized without predicting the location of phrase breaks.
翻訳日:2023-04-11 17:30:39 公開日:2023-04-09
# CCLAP:潜在拡散モデルによる制御可能な中国景観絵画生成

CCLAP: Controllable Chinese Landscape Painting Generation via Latent Diffusion Model ( http://arxiv.org/abs/2304.04156v1 )

ライセンス: Link先を確認
Zhongqi Wang, Jie Zhang, Zhilong Ji, Jinfeng Bai, Shiguang Shan(参考訳) 深層造形モデルの発展に伴い、近年は中国の風景画世代に大きな成功を収めている。 しかし、データの欠如やモデリング能力の制限などにより、中国の風景画生成に焦点を絞った作品はほとんどない。 そこで本研究では,潜伏拡散モデルに基づく特定の内容や様式の絵画を生成できるcclapという中国景観画生成手法を提案する。 具体的には、2つのカスケードモジュール、すなわちコンテンツジェネレータとスタイルアグリゲータで構成される。 コンテンツ生成モジュールは、入力テキスト固有の生成された絵画の内容を保証する。 スタイルアグリゲータモジュールは、参照画像に対応するスタイルの絵画を生成することである。 また、中国風景画の新たなデータセットであるクラップを収集し、総合的な評価を行う。 定性的および定量的な結果から,本手法が最先端の性能,特に芸術的・芸術的概念において達成できることが示唆された。 コードはhttps://github.com/Robin-WZQ/CCLAPで入手できる。

With the development of deep generative models, recent years have seen great success of Chinese landscape painting generation. However, few works focus on controllable Chinese landscape painting generation due to the lack of data and limited modeling capabilities. In this work, we propose a controllable Chinese landscape painting generation method named CCLAP, which can generate painting with specific content and style based on Latent Diffusion Model. Specifically, it consists of two cascaded modules, i.e., content generator and style aggregator. The content generator module guarantees the content of generated paintings specific to the input text. While the style aggregator module is to generate paintings of a style corresponding to a reference image. Moreover, a new dataset of Chinese landscape paintings named CLAP is collected for comprehensive evaluation. Both the qualitative and quantitative results demonstrate that our method achieves state-of-the-art performance, especially in artfully-composed and artistic conception. Codes are available at https://github.com/Robin-WZQ/CCLAP.
翻訳日:2023-04-11 17:30:24 公開日:2023-04-09
# デジタル病理学におけるSegment Anything Model (SAM):全スライド画像におけるゼロショットセグメンテーションの評価

Segment Anything Model (SAM) for Digital Pathology: Assess Zero-shot Segmentation on Whole Slide Imaging ( http://arxiv.org/abs/2304.04155v1 )

ライセンス: Link先を確認
Ruining Deng, Can Cui, Quan Liu, Tianyuan Yao, Lucas W. Remedios, Shunxing Bao, Bennett A. Landman, Lee E. Wheless, Lori A. Coburn, Keith T. Wilson, Yaohong Wang, Shilin Zhao, Agnes B. Fogo, Haichun Yang, Yucheng Tang, Yuankai Huo(参考訳) segment anything model (sam) は画像分割の基礎モデルとしてリリースされた。 即席セグメンテーションモデルは、1100万のライセンスとプライバシーを尊重する画像で10億以上のマスクによって訓練された。 このモデルは、様々なセグメンテーションプロンプト(例えば、ポイント、ボックス、マスク)を備えたゼロショット画像セグメンテーションをサポートする。 これはSAMを医用画像解析、特にトレーニングデータが稀なデジタル病理学に魅力的なものにしている。 本研究では,(1)腫瘍の分画,(2)非腫瘍組織分画,(3)細胞核分画を含む全スライディングイメージング(wsi)における代表的な分画タスクにおいて,samモデルのゼロショット分画性能を評価する。 その結果,0ショットSAMモデルは大きな連結オブジェクトに対して顕著なセグメンテーション性能を実現することが示唆された。 しかし、各画像に20のプロンプト(クリック/ボックス)がある場合でも、高密度なインスタンスオブジェクトセグメンテーションの満足度は一貫して達成されない。 また,(1)画像解像度,(2)マルチスケール,(3)プロンプト選択,(4)モデルの微調整という,デジタル病理学の特定限界についても概説した。 将来的には、下流の病理的セグメンテーションタスクの画像による数ショットの微調整により、高密度オブジェクトセグメンテーションにおけるより良いパフォーマンスを実現することができるだろう。

The segment anything model (SAM) was released as a foundation model for image segmentation. The promptable segmentation model was trained by over 1 billion masks on 11M licensed and privacy-respecting images. The model supports zero-shot image segmentation with various segmentation prompts (e.g., points, boxes, masks). It makes the SAM attractive for medical image analysis, especially for digital pathology where the training data are rare. In this study, we evaluate the zero-shot segmentation performance of SAM model on representative segmentation tasks on whole slide imaging (WSI), including (1) tumor segmentation, (2) non-tumor tissue segmentation, (3) cell nuclei segmentation. Core Results: The results suggest that the zero-shot SAM model achieves remarkable segmentation performance for large connected objects. However, it does not consistently achieve satisfying performance for dense instance object segmentation, even with 20 prompts (clicks/boxes) on each image. We also summarized the identified limitations for digital pathology: (1) image resolution, (2) multiple scales, (3) prompt selection, and (4) model fine-tuning. In the future, the few-shot fine-tuning with images from downstream pathological segmentation tasks might help the model to achieve better performance in dense object segmentation.
翻訳日:2023-04-11 17:30:09 公開日:2023-04-09
# テキスト分類のための連続グラフ畳み込みネットワーク

Continual Graph Convolutional Network for Text Classification ( http://arxiv.org/abs/2304.04152v1 )

ライセンス: Link先を確認
Tiandeng Wu, Qijiong Liu, Yi Cao, Yao Huang, Xiao-Ming Wu, Jiandong Ding(参考訳) グラフ畳み込みネットワーク (GCN) は, テキスト分類のためのグローバルな非連続的・長距離意味情報の取得に成功している。 しかし、gcnベースの手法はオフライン評価で有望な結果を示したが、それらは一般に、固定されたドキュメントトケングラフを構築することによって見掛けられる文書パラダイムに従っており、新しいドキュメントでは推論できない。 テキストデータを送受信するためにオンラインシステムに展開することは困難である。 本稿では,観測文書から観測されていない文書への推論を一般化する連続型gcnモデル(contgcn)を提案する。 具体的には,オンラインシステムのトレーニングフェーズとテストフェーズの両方において,各バッチの文書トリミンググラフを動的に更新する,新たな全トリミングドキュメントパラダイムを提案する。 さらに,ContGCNをラベル無しで更新するために,発生記憶モジュールと自己教師付きコントラスト学習目標を設計する。 Huaweiの世論分析システムにおける3ヶ月のA/Bテストでは、ContGCNは最先端の手法と比較して8.86%のパフォーマンス向上を達成した。 5つの公開データセットのオフライン実験でも、ContGCNは推論品質を改善することができる。 ソースコードはhttps://github.com/Jyonn/ContGCNで公開される。

Graph convolutional network (GCN) has been successfully applied to capture global non-consecutive and long-distance semantic information for text classification. However, while GCN-based methods have shown promising results in offline evaluations, they commonly follow a seen-token-seen-document paradigm by constructing a fixed document-token graph and cannot make inferences on new documents. It is a challenge to deploy them in online systems to infer steaming text data. In this work, we present a continual GCN model (ContGCN) to generalize inferences from observed documents to unobserved documents. Concretely, we propose a new all-token-any-document paradigm to dynamically update the document-token graph in every batch during both the training and testing phases of an online system. Moreover, we design an occurrence memory module and a self-supervised contrastive learning objective to update ContGCN in a label-free manner. A 3-month A/B test on Huawei public opinion analysis system shows ContGCN achieves 8.86% performance gain compared with state-of-the-art methods. Offline experiments on five public datasets also show ContGCN can improve inference quality. The source code will be released at https://github.com/Jyonn/ContGCN.
翻訳日:2023-04-11 17:29:46 公開日:2023-04-09
# RoboPianist: 高次元ロボット制御のためのベンチマーク

RoboPianist: A Benchmark for High-Dimensional Robot Control ( http://arxiv.org/abs/2304.04150v1 )

ライセンス: Link先を確認
Kevin Zakka, Laura Smith, Nimrod Gileadi, Taylor Howell, Xue Bin Peng, Sumeet Singh, Yuval Tassa, Pete Florence, Andy Zeng, Pieter Abbeel(参考訳) 我々は,高次元制御のための新しいベンチマークスイートを導入し,空間的および時間的精度,協調性,計画性をテストする。 提案する課題は、シミュレートされた擬人化ロボットハンドを使って、手動でピアノを習得することである。 私たちはそれをRoboPianistと呼び、最初のバージョンは150種類の可変差分曲をカバーしています。 モデルフリー法とモデルベース法の両方をベンチマークで検討し,その性能を特徴付ける。 我々は、ある既存の手法が、適切に調整されると、ある面で印象的なレベルのパフォーマンスを達成できるが、改善の余地は大きいと観察する。 robopianistは、人間の解釈可能な結果、新しい曲によるレパートリーの強化による拡張の容易さ、マルチタスク学習、ゼロショット一般化、マルチモーダル(サウンド、視覚、タッチ)学習、模倣など、さらなる研究の機会を備えた、豊富な定量的ベンチマーク環境を提供する。 コントロールポリシのビデオを含む追加情報は、https://kzakka.com/robopianist/にある。

We introduce a new benchmarking suite for high-dimensional control, targeted at testing high spatial and temporal precision, coordination, and planning, all with an underactuated system frequently making-and-breaking contacts. The proposed challenge is mastering the piano through bi-manual dexterity, using a pair of simulated anthropomorphic robot hands. We call it RoboPianist, and the initial version covers a broad set of 150 variable-difficulty songs. We investigate both model-free and model-based methods on the benchmark, characterizing their performance envelopes. We observe that while certain existing methods, when well-tuned, can achieve impressive levels of performance in certain aspects, there is significant room for improvement. RoboPianist provides a rich quantitative benchmarking environment, with human-interpretable results, high ease of expansion by simply augmenting the repertoire with new songs, and opportunities for further research, including in multi-task learning, zero-shot generalization, multimodal (sound, vision, touch) learning, and imitation. Supplementary information, including videos of our control policies, can be found at https://kzakka.com/robopianist/
翻訳日:2023-04-11 17:29:22 公開日:2023-04-09
# 人口移動のための再加重混合

Reweighted Mixup for Subpopulation Shift ( http://arxiv.org/abs/2304.04148v1 )

ライセンス: Link先を確認
Zongbo Han, Zhipeng Liang, Fan Yang, Liu Liu, Lanqing Li, Yatao Bian, Peilin Zhao, Qinghua Hu, Bingzhe Wu, Changqing Zhang, Jianhua Yao(参考訳) サブポピュレーションシフトは、多くの実世界のアプリケーションに広く存在し、同じサブポピュレーショングループを含むが異なるサブポピュレーション比率を持つトレーニングとテストの分布を指す。 人口移動を無視すると、パフォーマンスが著しく低下し、公平性が懸念される。 重要度再重み付けは、人口移動を扱う古典的で効果的な方法である。 しかし、最近の研究では、これらのアプローチのほとんどは、特にトレーニングサンプルに適合する過剰パラメータのニューラルネットワークに適用された場合、パフォーマンスの向上に失敗していると認識されている。 本研究では,「混合」サンプルの重み付けを行い,過度パラメータ化モデルにおける過度適合問題を緩和する,reweighted mixup (RMIX) と呼ばれる簡易かつ実用的なフレームワークを提案する。 RMIXはミックスアップにおける再重み付けの利点を生かし、マイノリティ標本のビジナル空間をより探索し、サブポピュレーションシフトに対するより堅牢なモデルを得る。 サブポピュレーションメンバーシップが不明な場合、提案したRMIXにトレーニングトラジェクトリに基づく不確実性を推定し、サブポピュレーション分布を柔軟に特徴づける。 また、RMIXが先行研究よりも優れた一般化境界を達成することを検証するための洞察に富んだ理論解析も提供する。 さらに,提案手法の有効性を検証するため,幅広いタスクにわたる広範な実験研究を行った。

Subpopulation shift exists widely in many real-world applications, which refers to the training and test distributions that contain the same subpopulation groups but with different subpopulation proportions. Ignoring subpopulation shifts may lead to significant performance degradation and fairness concerns. Importance reweighting is a classical and effective way to handle the subpopulation shift. However, recent studies have recognized that most of these approaches fail to improve the performance especially when applied to over-parameterized neural networks which are capable of fitting any training samples. In this work, we propose a simple yet practical framework, called reweighted mixup (RMIX), to mitigate the overfitting issue in over-parameterized models by conducting importance weighting on the ''mixed'' samples. Benefiting from leveraging reweighting in mixup, RMIX allows the model to explore the vicinal space of minority samples more, thereby obtaining more robust model against subpopulation shift. When the subpopulation memberships are unknown, the training-trajectories-based uncertainty estimation is equipped in the proposed RMIX to flexibly characterize the subpopulation distribution. We also provide insightful theoretical analysis to verify that RMIX achieves better generalization bounds over prior works. Further, we conduct extensive empirical studies across a wide range of tasks to validate the effectiveness of the proposed method.
翻訳日:2023-04-11 17:29:02 公開日:2023-04-09
# fedpnn:進化的クラスタリング法と確率的ニューラルネットワークハイブリッドによるワンショットフェデレーション分類

FedPNN: One-shot Federated Classification via Evolving Clustering Method and Probabilistic Neural Network hybrid ( http://arxiv.org/abs/2304.04147v1 )

ライセンス: Link先を確認
Polaki Durga Prasad, Yelleti Vivek, Vadlamani Ravi(参考訳) データプライバシ保護は、金融、銀行、ヘルスケアといった分野において最重要である。 フェデレートラーニング(FL)は、分散した分散トレーニングと、グローバルな共有モデルを取得しながらプライバシを保護する能力によって、広く注目を集めている。 しかし、FLは通信オーバーヘッドや限られたリソース能力といった課題を提示している。 これは、プライバシー保護の目的に対して、2段階の連合学習アプローチを提案する動機となった。 (i)第1段階では、バニラ条件付き表状生成逆向ニューラルネットワーク(ctgan)にノイズとして2つの異なる分布を用いて合成データセットを生成し、ctganを改変する。 2)第2段階では,フェデレート確率型ニューラルネットワーク(FedPNN)を開発し,グローバルな分類モデルの構築に利用している。 生成した合成データセットの品質をチェックするために、合成データセットメトリクスも使用しました。 さらに,グローバルモデルをトレーニングするために,クライアントから取得したクラスタセンタをサーバにクラスタ化するメタクラスタ化アルゴリズムを提案する。 PNNはワンパス学習分類器であるにもかかわらず、その複雑さはトレーニングデータサイズに依存する。 そこで本研究では,改良型進化型クラスタリング法(ecm)を用いて,学習データのクラスタ化を行い,さらに高速化した。 さらに,サーバおよびクライアントにおけるECMのハイパーパラメータであるDthrの変化による感度解析を行った。 本手法の有効性は,4つのファイナンスおよび医療データセットで検証した。

Protecting data privacy is paramount in the fields such as finance, banking, and healthcare. Federated Learning (FL) has attracted widespread attention due to its decentralized, distributed training and the ability to protect the privacy while obtaining a global shared model. However, FL presents challenges such as communication overhead, and limited resource capability. This motivated us to propose a two-stage federated learning approach toward the objective of privacy protection, which is a first-of-its-kind study as follows: (i) During the first stage, the synthetic dataset is generated by employing two different distributions as noise to the vanilla conditional tabular generative adversarial neural network (CTGAN) resulting in modified CTGAN, and (ii) In the second stage, the Federated Probabilistic Neural Network (FedPNN) is developed and employed for building globally shared classification model. We also employed synthetic dataset metrics to check the quality of the generated synthetic dataset. Further, we proposed a meta-clustering algorithm whereby the cluster centers obtained from the clients are clustered at the server for training the global model. Despite PNN being a one-pass learning classifier, its complexity depends on the training data size. Therefore, we employed a modified evolving clustering method (ECM), another one-pass algorithm to cluster the training data thereby increasing the speed further. Moreover, we conducted sensitivity analysis by varying Dthr, a hyperparameter of ECM at the server and client, one at a time. The effectiveness of our approach is validated on four finance and medical datasets.
翻訳日:2023-04-11 17:28:37 公開日:2023-04-09
# 量子場理論における絡み合い構造II:局所観測者のレンズによる真空相関の歪み

Entanglement Structures in Quantum Field Theories II: Distortions of Vacuum Correlations Through the Lens of Local Observers ( http://arxiv.org/abs/2304.04143v1 )

ライセンス: Link先を確認
Natalie Klco and D. H. Beck(参考訳) 空間的に分離された混合状態のみにアクセスする検出器を介して量子場を観測する場合、局所領域 -- ユビキタスな実験的設計 -- は、分散エンタングルメントの完全な範囲にアクセスする能力を制限することができる。 2つの検出パッチの外部の領域を射影的に測定し、古典的に結果を伝達することにより、絡み合いの量子化が明確となる基底となる純粋な状態を特定することができる。 自由スカラー場真空のガウス連続変数状態において、このプロトコルは場内で確立された空間的な絡み合いと局所的に検出可能な状態との差を明らかにする。 この差は観測領域間の分離に伴って指数関数的に増大する。 ここで開発されたプロトコルは、一対の局所観測者から見れば、量子場相関の避けられない歪みを明らかにするための洞察と実践的なガイダンスを提供する。

When observing a quantum field via detectors with access to only the mixed states of spatially separated, local regions -- a ubiquitous experimental design -- the capacity to access the full extent of distributed entanglement can be limited, shrouded by classical correlations. By performing projective measurements of the field external to two detection patches and classically communicating the results, underlying pure states may be identified for which entanglement quantification is clear. In the Gaussian continuous-variable states of the free scalar field vacuum, this protocol uncovers a disparity between the spacelike entanglement established within the field and that which is locally detectable. This discrepancy is found to grow exponentially with the separation between observation regions. The protocol developed herein offers insight and practical guidance for clarifying the unavoidable distortion of quantum field correlations when viewed from the vantage of a pair of local observers.
翻訳日:2023-04-11 17:28:14 公開日:2023-04-09
# Slideflow: リアルタイム全スライド可視化によるデジタル組織学の深層学習

Slideflow: Deep Learning for Digital Histopathology with Real-Time Whole-Slide Visualization ( http://arxiv.org/abs/2304.04142v1 )

ライセンス: Link先を確認
James M. Dolezal, Sara Kochanny, Emma Dyer, Andrew Srisuwananukorn, Matteo Sacco, Frederick M. Howard, Anran Li, Prajval Mohan, Alexander T. Pearson(参考訳) 深層学習法は病理組織像を分析する強力なツールとして登場したが、現在の手法は特定のドメインやソフトウェア環境に特化したものが多く、インタラクティブなインターフェースにモデルをデプロイするためのオープンソースオプションはほとんど存在しない。 異なるディープラーニングアプローチを試すには、一般的に、ソフトウェアライブラリの切り替えとデータの再処理が必要であり、新しいアーキテクチャの実験の可能性と実用性が低下する。 われわれは,デジタル病理学の幅広い深層学習手法をサポートするパッケージであるSlideflowという,組織学のための柔軟な深層学習ライブラリを開発した。 Slideflowには、全スライディング画像データ処理、効率的な染色正規化と拡張、弱い教師付き全スライディング分類、不確実性定量化、特徴生成、特徴空間分析、説明可能性のためのユニークなツールが含まれている。 全スライド画像処理は高度に最適化されており、1スライドあたり2.5秒で40倍の倍率で全スライドタイル抽出が可能である。 フレームワークに依存しないデータ処理パイプラインは、TensorflowまたはPyTorchで構築された新しいメソッドの迅速な実験を可能にする。グラフィカルユーザインターフェースは、Raspberry PiなどのARMベースのデバイスを含む、さまざまなハードウェアデバイス上のスライド、予測、ヒートマップ、特徴空間特性のリアルタイム可視化をサポートする。

Deep learning methods have emerged as powerful tools for analyzing histopathological images, but current methods are often specialized for specific domains and software environments, and few open-source options exist for deploying models in an interactive interface. Experimenting with different deep learning approaches typically requires switching software libraries and reprocessing data, reducing the feasibility and practicality of experimenting with new architectures. We developed a flexible deep learning library for histopathology called Slideflow, a package which supports a broad array of deep learning methods for digital pathology and includes a fast whole-slide interface for deploying trained models. Slideflow includes unique tools for whole-slide image data processing, efficient stain normalization and augmentation, weakly-supervised whole-slide classification, uncertainty quantification, feature generation, feature space analysis, and explainability. Whole-slide image processing is highly optimized, enabling whole-slide tile extraction at 40X magnification in 2.5 seconds per slide. The framework-agnostic data processing pipeline enables rapid experimentation with new methods built with either Tensorflow or PyTorch, and the graphical user interface supports real-time visualization of slides, predictions, heatmaps, and feature space characteristics on a variety of hardware devices, including ARM-based devices such as the Raspberry Pi.
翻訳日:2023-04-11 17:27:57 公開日:2023-04-09
# 複数のラベルドメイン上でのスケーラブルなセマンティックトランスファーによるセマンティックヒューマンパーシング

Semantic Human Parsing via Scalable Semantic Transfer over Multiple Label Domains ( http://arxiv.org/abs/2304.04140v1 )

ライセンス: Link先を確認
Jie Yang, Chaoqun Wang, Zhen Li, Junle Wang, Ruimao Zhang(参考訳) 本稿では,新しい学習パラダイムであるスケーラブル・セマンティクス・トランスファー(sst)を提案し,異なるラベル領域からのデータの相互利益(すなわち,様々なラベル粒度レベル)を活用し,強力な人間解析ネットワークを訓練する方法を検討する。 実際には、複数のラベルドメインから同質な人間の表現を学習し、異なるセグメンテーションヘッドのみを使用して予測を切り替えることを目的としており、後者は、他のドメインから意味的な知識を蒸留しながら特定のドメイン予測を学習することを目的としている。 提案したSSTは,(1)複数のラベルドメインからの人体部分のセマンティックアソシエーションを人間の表現学習プロセスに組み込む効果的なトレーニングスキームとして機能し,(2)複数のラベルドメインの全体的関係を事前に決めることなく拡張可能なセマンティックトランスファーフレームワークであり,人間のパーシングデータセットを継続的に追加してトレーニングを促進することができる。 3) 関連するモジュールは補助訓練にのみ使用され、推論中に取り除くことができ、余分な推論コストを削減できる。 実験の結果、SSTは有望な普遍的パーシング性能と、3つのヒトパーシングベンチマーク(PASCAL-Person-Part, ATR, CIHP)のベンチマークと比較すると、優れた改善を効果的に達成できることが示された。 コードはhttps://github.com/yangjie-cv/SSTで入手できる。

This paper presents Scalable Semantic Transfer (SST), a novel training paradigm, to explore how to leverage the mutual benefits of the data from different label domains (i.e. various levels of label granularity) to train a powerful human parsing network. In practice, two common application scenarios are addressed, termed universal parsing and dedicated parsing, where the former aims to learn homogeneous human representations from multiple label domains and switch predictions by only using different segmentation heads, and the latter aims to learn a specific domain prediction while distilling the semantic knowledge from other domains. The proposed SST has the following appealing benefits: (1) it can capably serve as an effective training scheme to embed semantic associations of human body parts from multiple label domains into the human representation learning process; (2) it is an extensible semantic transfer framework without predetermining the overall relations of multiple label domains, which allows continuously adding human parsing datasets to promote the training. (3) the relevant modules are only used for auxiliary training and can be removed during inference, eliminating the extra reasoning cost. Experimental results demonstrate SST can effectively achieve promising universal human parsing performance as well as impressive improvements compared to its counterparts on three human parsing benchmarks (i.e., PASCAL-Person-Part, ATR, and CIHP). Code is available at https://github.com/yangjie-cv/SST.
翻訳日:2023-04-11 17:27:33 公開日:2023-04-09
# ロバスト自己教師付き視覚トランスプレトレーニングのためのトークンブースティング

Token Boosting for Robust Self-Supervised Visual Transformer Pre-training ( http://arxiv.org/abs/2304.04175v1 )

ライセンス: Link先を確認
Tianjiao Li, Lin Geng Foo, Ping Hu, Xindi Shang, Hossein Rahmani, Zehuan Yuan, Jun Liu(参考訳) 大規模なラベルなしデータによる学習は、Visual Transformer(VT)を事前学習するための強力なツールとなっている。 しかし、事前の作業は、現実世界のシナリオでは、入力データが破損し、信頼性が低いことを見落としてしまう傾向がある。 このような破損したデータに対する事前トレーニングVTは、特に、入力とマスクされた『地下真実』ターゲットの両方が信頼できないような、マスク付き自動符号化アプローチによる事前トレーニングを行う場合、難しい。 この制限に対処するため、VTのプラグイン・アンド・プレイコンポーネントとしてToken Boosting Module (TBM)を導入し、マスク付きオートエンコーディング事前学習中にVTがクリーンでロバストな特徴を抽出できるようにする。 我々は,TBMがより堅牢で一般化可能な表現でモデル事前学習をどのように改善し,下流タスクの恩恵を受けるかを示す理論的解析を行う。 我々はTBMの有効性を分析するための広範囲な実験を行い、4つの破損したデータセットの結果、TBMは下流タスクの性能を継続的に改善することを示した。

Learning with large-scale unlabeled data has become a powerful tool for pre-training Visual Transformers (VTs). However, prior works tend to overlook that, in real-world scenarios, the input data may be corrupted and unreliable. Pre-training VTs on such corrupted data can be challenging, especially when we pre-train via the masked autoencoding approach, where both the inputs and masked ``ground truth" targets can potentially be unreliable in this case. To address this limitation, we introduce the Token Boosting Module (TBM) as a plug-and-play component for VTs that effectively allows the VT to learn to extract clean and robust features during masked autoencoding pre-training. We provide theoretical analysis to show how TBM improves model pre-training with more robust and generalizable representations, thus benefiting downstream tasks. We conduct extensive experiments to analyze TBM's effectiveness, and results on four corrupted datasets demonstrate that TBM consistently improves performance on downstream tasks.
翻訳日:2023-04-11 17:21:38 公開日:2023-04-09
# $\mu^2$-SGD: 二重モーメント機構による安定確率最適化

$\mu^2$-SGD: Stable Stochastic Optimization via a Double Momentum Mechanism ( http://arxiv.org/abs/2304.04172v1 )

ライセンス: Link先を確認
Kfir Y. Levy(参考訳) 目的が滑らかな関数に対する期待である確率凸最適化問題を考える。 この設定のために、運動量の概念に関連する2つの最近のメカニズムを組み合わせた新しい勾配推定を提案する。 そこで我々は,この新たな推定器を用いたSGDスタイルのアルゴリズムと高速化バージョンを設計し,学習率の選択に対するこれらの新しいアプローチの堅牢性を示す。 具体的には, 雑音のない場合と雑音の多い場合と, 一定の学習率を選択する場合の最適収束率を求める。 さらに,ノイズの多い場合において,この手法は,学習率の広い範囲において,同じ最適境界を達成できることを示す。

We consider stochastic convex optimization problems where the objective is an expectation over smooth functions. For this setting we suggest a novel gradient estimate that combines two recent mechanism that are related to notion of momentum. Then, we design an SGD-style algorithm as well as an accelerated version that make use of this new estimator, and demonstrate the robustness of these new approaches to the choice of the learning rate. Concretely, we show that these approaches obtain the optimal convergence rates for both noiseless and noisy case with the same choice of fixed learning rate. Moreover, for the noisy case we show that these approaches achieve the same optimal bound for a very wide range of learning rates.
翻訳日:2023-04-11 17:21:17 公開日:2023-04-09
# SLowcal-SGD: 局所SGDの改善による確率凸最適化

SLowcal-SGD: Slow Query Points Improve Local-SGD for Stochastic Convex Optimization ( http://arxiv.org/abs/2304.04169v1 )

ライセンス: Link先を確認
Kfir Y. Levy(参考訳) 我々は,Mマシンが複数の通信ラウンドに沿ってパラメータサーバと対話する分散学習シナリオを考察し,協調目的関数の最小化を図る。 異なるマシンが異なるデータ配信からサンプルを抽出できる異種ケースに着目し、最も顕著な分散ベースラインであるMinibatch-SGDとLocal-SGDに対して確実に利益をもたらす最初のローカル更新手法を設計する。 私たちのアプローチの鍵となるのは、分散設定にカスタマイズした、遅いクエリテクニックです。

We consider distributed learning scenarios where M machines interact with a parameter server along several communication rounds in order to minimize a joint objective function. Focusing on the heterogeneous case, where different machines may draw samples from different data-distributions, we design the first local update method that provably benefits over the two most prominent distributed baselines: namely Minibatch-SGD and Local-SGD. Key to our approach is a slow querying technique that we customize to the distributed setting, which in turn enables a better mitigation of the bias caused by local updates.
翻訳日:2023-04-11 17:21:06 公開日:2023-04-09
# グラフニューラルネットワークのための可逆的ロバストニューラルネットワーク探索

Adversarially Robust Neural Architecture Search for Graph Neural Networks ( http://arxiv.org/abs/2304.04168v1 )

ライセンス: Link先を確認
Beini Xie, Heng Chang, Ziwei Zhang, Xin Wang, Daixin Wang, Zhiqiang Zhang, Rex Ying, Wenwu Zhu(参考訳) グラフニューラルネットワーク(GNN)は、関係データのモデリングにおいて大きな成功を収めている。 それでも彼らは、GNNを危険に敏感なドメインに適用する大きな脅威である敵攻撃の傾向にある。 既存の防御手法は、新しいデータ/タスクや敵攻撃に直面するパフォーマンスを保証せず、アーキテクチャの観点からGNNの堅牢性を理解するための洞察も提供しない。 ニューラルアーキテクチャサーチ(NAS)は、GNNアーキテクチャ設計を自動化することでこの問題を解決する可能性がある。 それでも、現在のグラフNASアプローチには堅牢な設計がなく、敵攻撃に弱い。 これらの課題に対処するために、GNN(G-RNA)のための新しいロバストニューラルネットワーク検索フレームワークを提案する。 具体的には,様々な防御的操作候補を含むグラフ構造マスク操作を探索空間に追加することにより,メッセージパッシング機構のためのロバストな検索空間を設計する。 さらに,探索手順を案内するロバストネス指標を定義し,ロバストなアーキテクチャのフィルタリングを支援する。 このようにして、G-RNAはアーキテクチャの観点からGNNの堅牢性を理解し、最適対向性GNNを効果的に検索する。 ベンチマークデータセットの大規模な実験結果によると、G-RNAは敵の攻撃下で、手動で設計された堅牢なGNNとバニラグラフNASベースラインを12.1%から23.4%上回っている。

Graph Neural Networks (GNNs) obtain tremendous success in modeling relational data. Still, they are prone to adversarial attacks, which are massive threats to applying GNNs to risk-sensitive domains. Existing defensive methods neither guarantee performance facing new data/tasks or adversarial attacks nor provide insights to understand GNN robustness from an architectural perspective. Neural Architecture Search (NAS) has the potential to solve this problem by automating GNN architecture designs. Nevertheless, current graph NAS approaches lack robust design and are vulnerable to adversarial attacks. To tackle these challenges, we propose a novel Robust Neural Architecture search framework for GNNs (G-RNA). Specifically, we design a robust search space for the message-passing mechanism by adding graph structure mask operations into the search space, which comprises various defensive operation candidates and allows us to search for defensive GNNs. Furthermore, we define a robustness metric to guide the search procedure, which helps to filter robust architectures. In this way, G-RNA helps understand GNN robustness from an architectural perspective and effectively searches for optimal adversarial robust GNNs. Extensive experimental results on benchmark datasets show that G-RNA significantly outperforms manually designed robust GNNs and vanilla graph NAS baselines by 12.1% to 23.4% under adversarial attacks.
翻訳日:2023-04-11 17:20:53 公開日:2023-04-09
# 限定データセットを用いたニューラルネットワーク支援量子状態とプロセストモグラフィ

Neural network assisted quantum state and process tomography using limited data sets ( http://arxiv.org/abs/2304.04167v1 )

ライセンス: Link先を確認
Akshay Gaikwad and Omkar Bihani and Arvind and Kavita Dorai(参考訳) 本研究では,フィードフォワード型ニューラルネットワーク(ffnn)アーキテクチャを用いて,雑音下実験データから得られた量子状態と過程のトモグラフィーを行う。 FFNNの性能を評価するために, 大幅に削減されたデータセットを用いて, 未知の量子状態とプロセスの密度とプロセス行列を高忠実度で再構成可能であることを示す。 我々はFFNNモデルを用いて核磁気共鳴(NMR)量子プロセッサで実験的に生成した100個の2量子状態と128個の3量子状態のトモグラフィーを行う。 さらに、FFNNモデルは、2ビットのエンタングゲート、形状のパルス磁場勾配、NMR系に存在する固有デコヒーレンス過程、および様々な2ビットのノイズチャネル(関連ビットフリップ、相関位相フリップ、結合ビットと位相フリップ)を含む異なる量子過程を特徴づけるために用いられる。 FFNNモデルを用いて得られた結果は、標準量子状態およびプロセストモグラフィー法と比較され、計算された忠実度は、すべてのケースにおいて、FFNNモデルがトモグラフィーの標準手法よりも優れていることを示す。

In this study we employ a feed-forward artificial neural network (FFNN) architecture to perform tomography of quantum states and processes obtained from noisy experimental data. To evaluate the performance of the FFNN, we use a heavily reduced data set and show that the density and process matrices of unknown quantum states and processes can be reconstructed with high fidelity. We use the FFNN model to tomograph 100 two-qubit and 128 three-qubit states which were experimentally generated on a nuclear magnetic resonance (NMR) quantum processor. The FFNN model is further used to characterize different quantum processes including two-qubit entangling gates, a shaped pulsed field gradient, intrinsic decoherence processes present in an NMR system, and various two-qubit noise channels (correlated bit flip, correlated phase flip and a combined bit and phase flip). The results obtained via the FFNN model are compared with standard quantum state and process tomography methods and the computed fidelities demonstrates that for all cases, the FFNN model outperforms the standard methods for tomography.
翻訳日:2023-04-11 17:20:31 公開日:2023-04-09
# コスト最適化のための経験に基づく進化的アルゴリズム

Experience-Based Evolutionary Algorithms for Expensive Optimization ( http://arxiv.org/abs/2304.04166v1 )

ライセンス: Link先を確認
Xunzhao Yu, Yan Wang, Ling Zhu, Dimitar Filev, Xin Yao(参考訳) 最適化アルゴリズムは人間の最適化アルゴリズムとは大きく異なる。 人間は問題解決を通じてより多くの経験を得ることができ、新しい目に見えない問題を解決するのに役立ちます。 しかし、最適化アルゴリズムは、より多くの問題を解決することによって、決して経験を得られない。 近年,経験学習能力のある最適化アルゴリズムの実現に向けた取り組みが進められており,これは経験ベース最適化と見なされている。 本稿では、関連する問題において得られる経験をうまく活用することで、ハード最適化問題を効率的に扱うことができると論じる。 我々は、コスト最適化の文脈において、我々のアイデアを実証し、できるだけ少ないフィットネス評価で、高価な最適化問題のほぼ最適解を見つけることを目指している。 そこで我々は,新しいメタラーニング手法により,コストのかかる課題の最適化効率を高めるために,経験ベースサロゲート支援進化アルゴリズム(SAEA)フレームワークを提案する。 これらの経験は、deep kernel learning surrogateのタスクに依存しないパラメータとして機能し、次にターゲットタスクからサンプリングされたソリューションを使用して、タスク固有のパラメータをsurrogateに適応させる。 経験学習の助けを借りて、競合レグレッションベースのサロゲートは、目標タスク(d$は決定空間の次元)からの1$d$のソリューションで初期化することができる。 本研究は,高コストな多目的・制約最適化問題に対する実験結果から,対象問題に対する評価予算の削減に有効であることを示す。

Optimization algorithms are very different from human optimizers. A human being would gain more experiences through problem-solving, which helps her/him in solving a new unseen problem. Yet an optimization algorithm never gains any experiences by solving more problems. In recent years, efforts have been made towards endowing optimization algorithms with some abilities of experience learning, which is regarded as experience-based optimization. In this paper, we argue that hard optimization problems could be tackled efficiently by making better use of experiences gained in related problems. We demonstrate our ideas in the context of expensive optimization, where we aim to find a near-optimal solution to an expensive optimization problem with as few fitness evaluations as possible. To achieve this, we propose an experience-based surrogate-assisted evolutionary algorithm (SAEA) framework to enhance the optimization efficiency of expensive problems, where experiences are gained across related expensive tasks via a novel meta-learning method. These experiences serve as the task-independent parameters of a deep kernel learning surrogate, then the solutions sampled from the target task are used to adapt task-specific parameters for the surrogate. With the help of experience learning, competitive regression-based surrogates can be initialized using only 1$d$ solutions from the target task ($d$ is the dimension of the decision space). Our experimental results on expensive multi-objective and constrained optimization problems demonstrate that experiences gained from related tasks are beneficial for the saving of evaluation budgets on the target problem.
翻訳日:2023-04-11 17:20:10 公開日:2023-04-09
# 差分プライバシーを用いた効率的な無線フェデレーション学習のためのグラディエントスパシフィケーション

Gradient Sparsification for Efficient Wireless Federated Learning with Differential Privacy ( http://arxiv.org/abs/2304.04164v1 )

ライセンス: Link先を確認
Kang Wei, Jun Li, Chuan Ma, Ming Ding, Haitao Zhao, Wen Chen and Hongbo Zhu(参考訳) フェデレートラーニング(FL)により、分散クライアントは、生データを互いに共有することなく、機械学習モデルを協調的にトレーニングできる。 しかし、それはモデルをアップロードすることによる個人情報の漏洩に悩まされている。 さらに、モデルサイズが大きくなるにつれて、送信帯域の制限によるトレーニング遅延が増加し、差分プライバシー(DP)保護を用いてモデル性能が低下する。 本稿では,コンバージェンス性能を犠牲にすることなくトレーニング効率を向上させるために,無線チャネル上での勾配スパーシフィケーション権限付きflフレームワークを提案する。 具体的には、まず、各クライアントのローカルトレーニングにおける勾配要素のごく一部を保持するためにランダムなスペーシフィケーションアルゴリズムを設計し、DPによって誘導される性能劣化を軽減し、無線チャネル上での伝送パラメータの数を減少させる。 そこで,提案アルゴリズムの収束境界を非凸FL問題をモデル化して解析する。 次に、送信電力の制約、平均送信遅延、およびクライアントのDP要求に基づいて、展開した収束境界を最小化する時間列確率最適化問題を定式化する。 lyapunov drift-plus-penaltyフレームワークを利用して最適化問題に対する解析的解法を開発した。 提案手法の有効性を実証するために,3つの実時間データセットで広範な実験を行った。 提案アルゴリズムは,通信と計算の相互作用をフル活用して,ランダムスケジューリング,ラウンドロビン,遅延最小化アルゴリズムなどのベースラインより優れていることを示す。

Federated learning (FL) enables distributed clients to collaboratively train a machine learning model without sharing raw data with each other. However, it suffers the leakage of private information from uploading models. In addition, as the model size grows, the training latency increases due to limited transmission bandwidth and the model performance degrades while using differential privacy (DP) protection. In this paper, we propose a gradient sparsification empowered FL framework over wireless channels, in order to improve training efficiency without sacrificing convergence performance. Specifically, we first design a random sparsification algorithm to retain a fraction of the gradient elements in each client's local training, thereby mitigating the performance degradation induced by DP and and reducing the number of transmission parameters over wireless channels. Then, we analyze the convergence bound of the proposed algorithm, by modeling a non-convex FL problem. Next, we formulate a time-sequential stochastic optimization problem for minimizing the developed convergence bound, under the constraints of transmit power, the average transmitting delay, as well as the client's DP requirement. Utilizing the Lyapunov drift-plus-penalty framework, we develop an analytical solution to the optimization problem. Extensive experiments have been implemented on three real life datasets to demonstrate the effectiveness of our proposed algorithm. We show that our proposed algorithms can fully exploit the interworking between communication and computation to outperform the baselines, i.e., random scheduling, round robin and delay-minimization algorithms.
翻訳日:2023-04-11 17:19:45 公開日:2023-04-09
# 階層型連合学習のための2段階インセンティブ機構の設計

Design of Two-Level Incentive Mechanisms for Hierarchical Federated Learning ( http://arxiv.org/abs/2304.04162v1 )

ライセンス: Link先を確認
Shunfeng Chu, Jun Li, Kang Wei, Yuwen Qian, Kunlun Wang, Feng Shu and Wen Chen(参考訳) layered federated learning (hfl) は、多層計算アーキテクチャ向けに設計された分散機械学習パラダイムであり、デバイスのモデルへの大規模アクセスをサポートする。 効率的なHFLを実現するためには、デバイスがローカルトレーニングに積極的に参加するように適切なインセンティブメカニズムを設計することが不可欠である。 しかし,HFLのインセンティブ機構設計に関する研究はほとんどない。 本稿では,HFLトレーニングにおける各階層におけるエンティティの参加を促すために,階層計算構造を持つHFLの2段階インセンティブ機構を設計する。 低レベルゲームでは,エッジアソシエーションと帯域割り当ての問題を共同で最適化し,提案する選好則により効率的な連立分割を実現する連立形成ゲームを提案する。 上位レベルゲームでは,エッジサーバの最適なエッジアグリゲーション数を決定するだけでなく,エッジアグリゲーション性能に対して提供されるユニットアグリゲーションを最適化してクラウドサーバの利益を確保する,stackelbergゲームアルゴリズムを設計した。 さらに,提案アルゴリズムはベンチマーク方式よりも優れた性能が得られることを示す。

Hierarchical Federated Learning (HFL) is a distributed machine learning paradigm tailored for multi-tiered computation architectures, which supports massive access of devices' models simultaneously. To enable efficient HFL, it is crucial to design suitable incentive mechanisms to ensure that devices actively participate in local training. However, there are few studies on incentive mechanism design for HFL. In this paper, we design two-level incentive mechanisms for the HFL with a two-tiered computing structure to encourage the participation of entities in each tier in the HFL training. In the lower-level game, we propose a coalition formation game to joint optimize the edge association and bandwidth allocation problem, and obtain efficient coalition partitions by the proposed preference rule, which can be proven to be stable by exact potential game. In the upper-level game, we design the Stackelberg game algorithm, which not only determines the optimal number of edge aggregations for edge servers to maximize their utility, but also optimize the unit reward provided for the edge aggregation performance to ensure the interests of cloud servers. Furthermore, numerical results indicate that the proposed algorithms can achieve better performance than the benchmark schemes.
翻訳日:2023-04-11 17:19:18 公開日:2023-04-09
# 転写学習を用いた胸部X線画像におけるCOVID19の検出

Detection of COVID19 in Chest X-Ray Images Using Transfer Learning ( http://arxiv.org/abs/2304.04161v1 )

ライセンス: Link先を確認
Zanoby N.Khan(参考訳) COVID19は世界中で何百万人もの人が感染している非常に伝染性の病気です。 テスト成分が限られているため、胸部x線撮影のようなスクリーニングツールは臨床医の診断と疾患の進行を評価するのに役立つ。 画像診断における深層学習に基づく新型コロナウイルスの診断システムの性能向上が奨励されている。 本稿では,vgg-16とvgg-19という2つのvggnetアーキテクチャを用いて,転送学習の概念を検討する。 分類器ブロックとハイパーパラメータは、胸部X線画像におけるCovid-19の自動検出モデルを採用するために微調整される。 提案システムの性能を評価するために2つの異なるデータセットを作成し,多クラスおよび二分分類問題において陽性のcovid-19インスタンスを同定した。 実験結果は,特に医用画像領域における小型データセットの転送学習の有用性を示し,過剰フィッティングや収束問題を防ぐだけでなく,最適分類性能も達成できることを示した。

COVID19 is a highly contagious disease infected millions of people worldwide. With limited testing components, screening tools such as chest radiography can assist the clinicians in the diagnosis and assessing the progress of disease. The performance of deep learning-based systems for diagnosis of COVID-19 disease in radiograph images has been encouraging. This paper investigates the concept of transfer learning using two of the most well-known VGGNet architectures, namely VGG-16 and VGG-19. The classifier block and hyperparameters are fine-tuned to adopt the models for automatic detection of Covid-19 in chest x-ray images. We generated two different datasets to evaluate the performance of the proposed system for the identification of positive Covid-19 instances in a multiclass and binary classification problems. The experimental outcome demonstrates the usefulness of transfer learning for small-sized datasets particularly in the field of medical imaging, not only to prevent over-fitting and convergence problems but also to attain optimal classification performance as well.
翻訳日:2023-04-11 17:18:58 公開日:2023-04-09
# 連続学習は全てのパラメータを等しく禁ずるか?

Does Continual Learning Equally Forget All Parameters? ( http://arxiv.org/abs/2304.04158v1 )

ライセンス: Link先を確認
Haiyan Zhao, Tianyi Zhou, Guodong Long, Jing Jiang, Chengqi Zhang(参考訳) 連続学習(CL)における分散シフト(タスクやドメインシフトなど)は通常、ニューラルネットワークを壊滅的に忘れてしまう。 バッファデータを繰り返し再生することで緩和できるが、各ステップの再生には時間がかかる。 本稿では,ニューラルネットワークのどのモジュールが,CL中のトレーニングダイナミクスを調査することによって,忘れやすいかを検討する。 提案するメトリクスでは,タスクごとに微妙な変更を行うモジュールはごくわずかですが,共通知識としてタスク間で共有できるモジュールはごくわずかです。 したがって、主に前者のことを忘れているため、CLメソッドの終端にある小さなバッファにのみ微調整することで、非自明な改善がもたらされる。 微調整パラメータが少ないため、計算では ``Forgetting Prioritized Finetuning (FPF)' が効率的である。 さらに,全ステップのリプレイを完全に削除し,CL中に定期的にトリガされるFPFの$k$-timeで置き換える,より効率的でシンプルな手法を提案する。 驚いたことに、この ``$k$-FPF'' は FPF と互換性があり、SOTA CL 法より優れているが、計算オーバーヘッドとコストを大幅に削減する。 クラスおよびドメインインクリメンタルCLのいくつかのベンチマークの実験では、FPFは既存のCLメソッドを大きなマージンで一貫して改善し、$k$-FPFは精度を劣化させることなく効率をさらに向上させる。 また,バッファサイズ,タスク毎のエポック,モジュールの微調整が手法のコストと精度に与える影響を実証的に検討した。

Distribution shift (e.g., task or domain shift) in continual learning (CL) usually results in catastrophic forgetting of neural networks. Although it can be alleviated by repeatedly replaying buffered data, the every-step replay is time-consuming. In this paper, we study which modules in neural networks are more prone to forgetting by investigating their training dynamics during CL. Our proposed metrics show that only a few modules are more task-specific and sensitively alter between tasks, while others can be shared across tasks as common knowledge. Hence, we attribute forgetting mainly to the former and find that finetuning them only on a small buffer at the end of any CL method can bring non-trivial improvement. Due to the small number of finetuned parameters, such ``Forgetting Prioritized Finetuning (FPF)'' is efficient in computation. We further propose a more efficient and simpler method that entirely removes the every-step replay and replaces them by only $k$-times of FPF periodically triggered during CL. Surprisingly, this ``$k$-FPF'' performs comparably to FPF and outperforms the SOTA CL methods but significantly reduces their computational overhead and cost. In experiments on several benchmarks of class- and domain-incremental CL, FPF consistently improves existing CL methods by a large margin, and $k$-FPF further excels in efficiency without degrading the accuracy. We also empirically studied the impact of buffer size, epochs per task, and finetuning modules on the cost and accuracy of our methods.
翻訳日:2023-04-11 17:18:43 公開日:2023-04-09
# DSMNet:スパースポイントクラウドフレームからの深部高精度3次元表面モデリング

DSMNet: Deep High-precision 3D Surface Modeling from Sparse Point Cloud Frames ( http://arxiv.org/abs/2304.04200v1 )

ライセンス: Link先を確認
Changjie Qiu, Zhiyong Wang, Xiuhong Lin, Yu Zang, Cheng Wang, Weiquan Liu(参考訳) 既存のポイントクラウドモデリングデータセットは主に、ポイントクラウドモデリング効果自体よりも、ポーズまたは軌道精度によるモデリング精度を表現する。 この要求のもと、我々はまず光学的ステージを持つ一組のLiDARシステムを構築し、次いで、構築されたLiDARシステム、高速マルチビーム実世界のデータセットに基づいてHPMBデータセットを構築した。 次に,HPMBに基づくオブジェクトレベルのモデリングのためのモデリング評価手法を提案し,その限界を克服する。 さらに、既存のポイントクラウドモデリング手法は、地球環境の連続した骨格を生成する傾向があるため、複雑な物体の形状に注意を払わない。 この課題に対処するために,スパースポイントクラウドフレームを用いた高精度3次元表面モデリングのための新しい学習ベースジョイントフレームワークDSMNetを提案する。 dsmnetは密度アウェアポイントクラウド登録(pcr)と幾何アウェアポイントクラウドサンプリング(pcs)を含み、スパースポイントクラウドの暗黙的構造特徴を効果的に学習する。 DSMNetはマルチビュー部分点クラウド(MVP)データベース上でPCSとPCRで最先端の手法より優れていることを示す。 さらに、オープンソースkittiと提案するhpmbデータセットを用いた実験により、dsmnetは同時ローカライゼーション・マッピング(slam)の後処理として一般化され、スパースポイント・クラウドを用いた環境でのモデリング精度が向上することが示された。

Existing point cloud modeling datasets primarily express the modeling precision by pose or trajectory precision rather than the point cloud modeling effect itself. Under this demand, we first independently construct a set of LiDAR system with an optical stage, and then we build a HPMB dataset based on the constructed LiDAR system, a High-Precision, Multi-Beam, real-world dataset. Second, we propose an modeling evaluation method based on HPMB for object-level modeling to overcome this limitation. In addition, the existing point cloud modeling methods tend to generate continuous skeletons of the global environment, hence lacking attention to the shape of complex objects. To tackle this challenge, we propose a novel learning-based joint framework, DSMNet, for high-precision 3D surface modeling from sparse point cloud frames. DSMNet comprises density-aware Point Cloud Registration (PCR) and geometry-aware Point Cloud Sampling (PCS) to effectively learn the implicit structure feature of sparse point clouds. Extensive experiments demonstrate that DSMNet outperforms the state-of-the-art methods in PCS and PCR on Multi-View Partial Point Cloud (MVP) database. Furthermore, the experiments on the open source KITTI and our proposed HPMB datasets show that DSMNet can be generalized as a post-processing of Simultaneous Localization And Mapping (SLAM), thereby improving modeling precision in environments with sparse point clouds.
翻訳日:2023-04-11 17:11:54 公開日:2023-04-09
# 深部ニューラルネットワークにおける公正欠陥の情報理論テストとデバッグ

Information-Theoretic Testing and Debugging of Fairness Defects in Deep Neural Networks ( http://arxiv.org/abs/2304.04199v1 )

ライセンス: Link先を確認
Verya Monjezi and Ashutosh Trivedi and Gang Tan and Saeid Tizpaz-Niari(参考訳) ディープフィードフォワードニューラルネットワーク(DNN)は、社会経済的臨界決定支援ソフトウェアシステムにますます導入されている。 dnnはトレーニングデータの中に最小限の統計パターンを見つけるのに非常に優れている。 結果として、dnnは、保護された個人/グループを不利にし、法的保護に違反する可能性のある、既存のバイアスの増幅や新しいバイアスの導入といった決定をエンコードすることを学ぶことができる。既存の検索ベースのソフトウェアテストアプローチは、公正な欠陥の発見に効果的だが、これらの欠陥を、深刻度や因果説明といったデバッグ支援で補うことは、開発者が次の行動の行方を決めるのに不可欠である。 dnnのフェアネス欠陥の重大度を計測できますか? これらの欠陥は不適切なトレーニングの症状か、あるいはトレーニングデータに存在するバイアスを単に反映しているか? そこで我々は,DNNにおける公平性欠陥の発見と局所化を行う情報理論テストおよびデバッグフレームワークであるDICEを提案する。 diceの鍵となる目標は、ソフトウェア開発者が公平な欠陥を深刻度で順序付けすることで対処できるようにすることだ。 この目標に向けて、意思決定に使用される保護された情報(ビット)の観点から公正性を定量化する。 フェアネス欠陥の定量的評価は,これらの欠陥の順序付けに有用であるだけでなく,探索空間の滑らかさによって探索効率が向上することを示す。 定量的フェアネスによって導かれた因果的デバッグの枠組みは,不適切に訓練された層やニューロンがフェアネスの欠陥を負うよう局所化する。 社会的にクリティカルなタスクのために開発された10種類のdnnを用いた実験では、diceが効率的に識別量を特徴付け、効果的に識別インスタンスを生成し、大きなバイアスを持つ層/ニューロンを局在化できることが示されている。

The deep feedforward neural networks (DNNs) are increasingly deployed in socioeconomic critical decision support software systems. DNNs are exceptionally good at finding minimal, sufficient statistical patterns within their training data. Consequently, DNNs may learn to encode decisions -- amplifying existing biases or introducing new ones -- that may disadvantage protected individuals/groups and may stand to violate legal protections. While the existing search based software testing approaches have been effective in discovering fairness defects, they do not supplement these defects with debugging aids -- such as severity and causal explanations -- crucial to help developers triage and decide on the next course of action. Can we measure the severity of fairness defects in DNNs? Are these defects symptomatic of improper training or they merely reflect biases present in the training data? To answer such questions, we present DICE: an information-theoretic testing and debugging framework to discover and localize fairness defects in DNNs. The key goal of DICE is to assist software developers in triaging fairness defects by ordering them by their severity. Towards this goal, we quantify fairness in terms of protected information (in bits) used in decision making. A quantitative view of fairness defects not only helps in ordering these defects, our empirical evaluation shows that it improves the search efficiency due to resulting smoothness of the search space. Guided by the quantitative fairness, we present a causal debugging framework to localize inadequately trained layers and neurons responsible for fairness defects. Our experiments over ten DNNs, developed for socially critical tasks, show that DICE efficiently characterizes the amounts of discrimination, effectively generates discriminatory instances, and localizes layers/neurons with significant biases.
翻訳日:2023-04-11 17:11:29 公開日:2023-04-09
# 炭化ケイ素中の炭素クラスターエミッタ

Carbon cluster emitters in silicon carbide ( http://arxiv.org/abs/2304.04197v1 )

ライセンス: Link先を確認
Pei Li, P\'eter Udvarhelyi, Song Li, Bing Huang, and Adam Gali(参考訳) 4Hポリタイプ(4H-SiC)の炭化ケイ素は、高破壊電界、キャリア飽和速度、優れた熱伝導率、その他の良好な特性により、高要求の電子機器に期待できる広帯域ギャップ半導体である。 近年, 4H-SiC, 例えば負電荷のシリコン空孔と中性希薄量子ビットの蛍光高スピン点欠陥は, 急速に出現する量子技術分野における多くの応用候補として注目されている。 さらに、炭素クラスターは4H-SiCの熱酸化後に現れる蛍光中心としても機能し、SiC結晶中の炭素原子を放出する照射技術を用いることができる。 照射技術は空室関連量子ビットを生成するためにしばしば用いられるため、蛍光炭素クラスターは既に確立された空室関連量子ビットに干渉する可能性がある。 本研究では, 4H-SiCの炭素原子4個以上を含む炭素クラスターの電子構造, 生成エネルギー, 解離エネルギー, 振動特性およびフル蛍光スペクトルを密度汎関数理論計算により系統的に検討した。 これらの炭素クラスターのすべての局所的な構成を検討しました。 炭素クラスターの電子的および振動的性質は、4h-sic格子の実際の局所配置に大きく依存する。 4H-SiCの炭素クラスターを4H-SiCの安定可視発光体として同定した。

Silicon carbide in its 4H polytype (4H-SiC) is a promising wide band gap semiconductor for highly-demanding electronic devices, thanks to its high breakdown electrical field, high carrier saturation speed, excellent thermal conductivity, and other favorable properties. Recently, fluorescent high-spin point defects in 4H-SiC, e.g., negatively charged silicon-vacancy and neutral divacancy qubits, have been proven to be outstanding candidates for numerous applications in the rapidly emerging field of quantum technology. In addition, carbon clusters can act as fluorescent centers too that may appear after thermal oxidation of 4H-SiC or using irradiation techniques which kick out carbon atoms from their sites in the SiC crystal. As irradiation techniques are often used to generate vacancy-related qubits, fluorescent carbon clusters may interfere with the already established vacancy-related qubits. In this study, we systematically investigate the electronic structure, formation energy, dissociation energy, vibrational properties and the full fluorescence spectrum of carbon clusters involving up to four carbon atoms in 4H-SiC by means of density functional theory calculations. We considered all the possible local configurations for these carbon clusters. The electronic and vibronic properties of the carbon clusters depend strongly on the actual local configuration of the 4H-SiC lattice. By comparing the calculated and previously observed fluorescence spectra in 4H-SiC, we identify several carbon clusters as stable visible emitters in 4H-SiC.
翻訳日:2023-04-11 17:10:56 公開日:2023-04-09
# 忠実な要約生成のためのChatGPTによる抽出要約

Extractive Summarization via ChatGPT for Faithful Summary Generation ( http://arxiv.org/abs/2304.04193v1 )

ライセンス: Link先を確認
Haopeng Zhang, Xiao Liu, Jiawei Zhang(参考訳) 抽出要約は自然言語処理において重要な課題であり,文を直接抽出することで,長い文書を短いバージョンにまとめることを目的としている。 最近のChatGPTの導入は、幅広い下流タスクにおける顕著なパフォーマンスのために、NLPコミュニティに大きな関心を集めている。 しかし、事実性や忠実性に関する懸念が要約システムへの実践的応用を妨げている。 本稿ではまず,ChatGPTの抽出要約における性能を徹底的に評価し,様々なベンチマークデータセットにおける従来の微調整手法と比較する。 実験により,ChatGPTの抽出要約性能は,ROUGEスコアの点で既存の教師システムに劣っていることが明らかとなった。 さらに,その性能向上のための文脈内学習と連鎖推論の有効性について検討した。 さらに,ChatGPTを用いた抽出列生成パイプラインの適用により,要約忠実度の観点から抽象的ベースラインよりも顕著な性能向上が得られた。 これらの観察は、2段階のアプローチを用いた忠実テキスト要約タスクにおけるChatGPTの能力向上のための潜在的方向性を明らかにする。

Extractive summarization is a crucial task in natural language processing that aims to condense long documents into shorter versions by directly extracting sentences. The recent introduction of ChatGPT has attracted significant interest in the NLP community due to its remarkable performance on a wide range of downstream tasks. However, concerns regarding factuality and faithfulness have hindered its practical applications for summarization systems. This paper first presents a thorough evaluation of ChatGPT's performance on extractive summarization and compares it with traditional fine-tuning methods on various benchmark datasets. Our experimental analysis reveals that ChatGPT's extractive summarization performance is still inferior to existing supervised systems in terms of ROUGE scores. In addition, we explore the effectiveness of in-context learning and chain-of-thought reasoning for enhancing its performance. Furthermore, we find that applying an extract-then-generate pipeline with ChatGPT yields significant performance improvements over abstractive baselines in terms of summary faithfulness. These observations highlight potential directions for enhancing ChatGPT's capabilities for faithful text summarization tasks using two-stage approaches.
翻訳日:2023-04-11 17:10:31 公開日:2023-04-09
# SemEval-2023 Task 3におけるチームQUST : オンラインニュースジェネレーション, フレーミング, 説得技術検出のための単言語および多言語アプローチの総合的研究

Team QUST at SemEval-2023 Task 3: A Comprehensive Study of Monolingual and Multilingual Approaches for Detecting Online News Genre, Framing and Persuasion Techniques ( http://arxiv.org/abs/2304.04190v1 )

ライセンス: Link先を確認
Ye Jiang(参考訳) 本稿では,SemEval2023タスク3におけるチームQUSTの参加について述べる。 単言語モデルは、タスクの初期段階で多数派クラスをアンサンプリングすることで最初に評価される。 次に、事前学習された多言語モデルにクラス重みとサンプル重みの組み合わせを微調整する。 タスク非依存とタスク依存という2つの異なる微調整戦略がさらに検討されている。 すべての実験は10倍のクロスバリデーションの下で行われ、多言語アプローチは単言語アプローチよりも優れている。 提出されたシステムは、subtask-1でイタリア語とスペイン語で2番目に優れている(ゼロショット)。

This paper describes the participation of team QUST in the SemEval2023 task 3. The monolingual models are first evaluated with the under-sampling of the majority classes in the early stage of the task. Then, the pre-trained multilingual model is fine-tuned with a combination of the class weights and the sample weights. Two different fine-tuning strategies, the task-agnostic and the task-dependent, are further investigated. All experiments are conducted under the 10-fold cross-validation, the multilingual approaches are superior to the monolingual ones. The submitted system achieves the second best in Italian and Spanish (zero-shot) in subtask-1.
翻訳日:2023-04-11 17:10:14 公開日:2023-04-09
# HyperINR:知識蒸留による神経表現の高速かつ予測可能なハイパーネットワーク

HyperINR: A Fast and Predictive Hypernetwork for Implicit Neural Representations via Knowledge Distillation ( http://arxiv.org/abs/2304.04188v1 )

ライセンス: Link先を確認
Qi Wu, David Bauer, Yuyang Chen, Kwan-Liu Ma(参考訳) Inlicit Neural Representations (INRs) は、最近、データ生成と可視化の両方のタスクにおいて、科学的可視化の分野で大きな可能性を示した。 しかしながら、これらの表現はしばしば大きな多層パーセプトロン(MLP)で構成され、単一の前方通過のために数百万の操作を必要とするため、インタラクティブな視覚探索を妨げている。 MLPのサイズを小さくし、効率的なパラメトリック符号化方式を用いることでこの問題を軽減できるが、未確認パラメータの一般化性を損なうため、時間的超解像のようなタスクには適さない。 本稿では,コンパクトINRの重みを直接予測できる新しいハイパーネットワークアーキテクチャであるHyperINRを紹介する。 多解像度ハッシュ符号化ユニットのアンサンブルを一斉に利用することにより、INRは最先端の推論性能(最大100倍の推論帯域)を実現し、インタラクティブなフォトリアリスティックボリューム可視化をサポートすることができる。 また, 知識蒸留を組み込むことにより, 特別なデータと可視化生成品質を実現し, リアルタイムパラメータ探索に有用である。 包括的アブレーション研究により,HyperINRアーキテクチャの有効性を検証した。 我々は,新しいビュー合成,ボリュームデータの時間的超解像,動的グローバルシャドーによるボリュームレンダリングという3つの異なる科学的領域にわたるhyperinrの汎用性について紹介する。 効率性と一般化性を同時に達成することにより、HyperINRはINRを幅広い科学的視覚化アプリケーションに適用する道を開く。

Implicit Neural Representations (INRs) have recently exhibited immense potential in the field of scientific visualization for both data generation and visualization tasks. However, these representations often consist of large multi-layer perceptrons (MLPs), necessitating millions of operations for a single forward pass, consequently hindering interactive visual exploration. While reducing the size of the MLPs and employing efficient parametric encoding schemes can alleviate this issue, it compromises generalizability for unseen parameters, rendering it unsuitable for tasks such as temporal super-resolution. In this paper, we introduce HyperINR, a novel hypernetwork architecture capable of directly predicting the weights for a compact INR. By harnessing an ensemble of multiresolution hash encoding units in unison, the resulting INR attains state-of-the-art inference performance (up to 100x higher inference bandwidth) and can support interactive photo-realistic volume visualization. Additionally, by incorporating knowledge distillation, exceptional data and visualization generation quality is achieved, making our method valuable for real-time parameter exploration. We validate the effectiveness of the HyperINR architecture through a comprehensive ablation study. We showcase the versatility of HyperINR across three distinct scientific domains: novel view synthesis, temporal super-resolution of volume data, and volume rendering with dynamic global shadows. By simultaneously achieving efficiency and generalizability, HyperINR paves the way for applying INR in a wider array of scientific visualization applications.
翻訳日:2023-04-11 17:10:04 公開日:2023-04-09
# ファクトニュース検出のための類似性を考慮したマルチモーダルプロンプト学習

Similarity-Aware Multimodal Prompt Learning for Fake News Detection ( http://arxiv.org/abs/2304.04187v1 )

ライセンス: Link先を確認
Ye Jiang, Xiaomin Yu, Yimin Wang, Xiaoman Xu, Xingyi Song and Diana Maynard(参考訳) 偽ニュース検出の標準パラダイムは、主にテキスト情報を用いてニュースの真偽をモデル化する。 しかし、オンラインフェイクニュースの言説は典型的には微妙であり、専門家は偽ニュースを解読するためにテキスト情報を使う必要がある。 近年,マルチモーダルフェイクニュース検出に注目する研究が,テキストのみの手法を上回っている。 事前学習モデルを用いたユニモーダルな特徴抽出や事前学習モデルを直接微調整するという最近のアプローチは、偽ニュースを検出する新しいパラダイムとなっている。 繰り返しになるが、このパラダイムは大量のトレーニングインスタンスを必要とするか、事前訓練されたモデルのパラメータセット全体を更新する。 さらに、従来のマルチモーダル手法は、非相関な意味表現がマルチモーダル特徴にノイズを注入する可能性を考慮せずに、クロスモーダル特徴を直接融合する。 本稿では,Simisity-Aware Multimodal Prompt Learning (SAMPLE)フレームワークを提案する。 まず,マルチモーダルな偽ニュース検出に即時学習を取り入れた。 プロンプトのみを凍った言語モデルでチューニングするプロンプト学習は、メモリ使用量を大幅に削減し、微調整と比較して同等のパフォーマンスを達成することができる。 我々は3つのプロンプトテンプレートをソフトな言葉遣いで分析し、偽ニュースを検出する。 さらに,マルチモーダル表現の強度を適応的に融合させ,非相関なクロスモーダル特徴によるノイズインジェクションを緩和する類似性認識fusing法を提案する。 評価のために、SAMPLEは2つのベンチマークマルチモーダルデータセットにおけるF1および以前の研究の精度を上回り、偽ニュースを検出する方法の有効性を実証した。 さらにSAMPLEは、少数ショットやデータリッチな設定に関わらず、他のアプローチよりも優れている。

The standard paradigm for fake news detection mainly utilizes text information to model the truthfulness of news. However, the discourse of online fake news is typically subtle and it requires expert knowledge to use textual information to debunk fake news. Recently, studies focusing on multimodal fake news detection have outperformed text-only methods. Recent approaches utilizing the pre-trained model to extract unimodal features, or fine-tuning the pre-trained model directly, have become a new paradigm for detecting fake news. Again, this paradigm either requires a large number of training instances, or updates the entire set of pre-trained model parameters, making real-world fake news detection impractical. Furthermore, traditional multimodal methods fuse the cross-modal features directly without considering that the uncorrelated semantic representation might inject noise into the multimodal features. This paper proposes a Similarity-Aware Multimodal Prompt Learning (SAMPLE) framework. First, we incorporate prompt learning into multimodal fake news detection. Prompt learning, which only tunes prompts with a frozen language model, can reduce memory usage significantly and achieve comparable performances, compared with fine-tuning. We analyse three prompt templates with a soft verbalizer to detect fake news. In addition, we introduce the similarity-aware fusing method to adaptively fuse the intensity of multimodal representation and mitigate the noise injection via uncorrelated cross-modal features. For evaluation, SAMPLE surpasses the F1 and the accuracies of previous works on two benchmark multimodal datasets, demonstrating the effectiveness of the proposed method in detecting fake news. In addition, SAMPLE also is superior to other approaches regardless of few-shot and data-rich settings.
翻訳日:2023-04-11 17:09:39 公開日:2023-04-09
# BEVStereo++:動的時間ステレオによる多視点3次元物体検出における正確な深さ推定

BEVStereo++: Accurate Depth Estimation in Multi-view 3D Object Detection via Dynamic Temporal Stereo ( http://arxiv.org/abs/2304.04185v1 )

ライセンス: Link先を確認
Yinhao Li, Jinrong Yang, Jianjian Sun, Han Bao, Zheng Ge, Li Xiao(参考訳) 深度知覚の本来の曖昧さにより、現代の多視点3Dオブジェクト検出法は性能ボトルネックに陥る。 直感的には、時間的多視点ステレオ(MVS)技術を活用することが、この曖昧さに対処するための自然な知識である。 しかし、3Dオブジェクト検出シーンに適用する場合、従来のMVSの試みには2つの制限がある。 1)すべての視点における親和性の測定は,計算コストがかかる。 2) オブジェクトがしばしば移動している屋外シナリオに対処することは困難である。 この目的のために, BEVStereo++を提案する: 動的時間的ステレオ戦略を導入することにより, BEVStereo++は2つのシナリオを扱う際に, 時間的ステレオを導入することによって生じる害を減らすことができる。 さらにさらに、BeVStereo++にMotion Compensation ModuleとLong Sequence Frame Fusionを適用し、さらなるパフォーマンス向上とエラー削減を示す。 ベルとホイッスルなしで、BEVStereo++はWaymoとnuScenesデータセットの両方で最先端(SOTA)を達成する。

Bounded by the inherent ambiguity of depth perception, contemporary multi-view 3D object detection methods fall into the performance bottleneck. Intuitively, leveraging temporal multi-view stereo (MVS) technology is the natural knowledge for tackling this ambiguity. However, traditional attempts of MVS has two limitations when applying to 3D object detection scenes: 1) The affinity measurement among all views suffers expensive computational cost; 2) It is difficult to deal with outdoor scenarios where objects are often mobile. To this end, we propose BEVStereo++: by introducing a dynamic temporal stereo strategy, BEVStereo++ is able to cut down the harm that is brought by introducing temporal stereo when dealing with those two scenarios. Going one step further, we apply Motion Compensation Module and long sequence Frame Fusion to BEVStereo++, which shows further performance boosting and error reduction. Without bells and whistles, BEVStereo++ achieves state-of-the-art(SOTA) on both Waymo and nuScenes dataset.
翻訳日:2023-04-11 17:09:12 公開日:2023-04-09
# 近傍近傍サンプリングに基づく条件独立試験

Nearest-Neighbor Sampling Based Conditional Independence Testing ( http://arxiv.org/abs/2304.04183v1 )

ライセンス: Link先を確認
Shuai Li, Ziqi Chen, Hongtu Zhu, Christina Dan Wang, Wang Wen(参考訳) 条件付き確率化テスト(conditional randomization test, crt)は、2つの確率変数 x と y が条件付き独立な与えられた確率変数 z であるかどうかをテストするために最近提案された。 本稿では, x の分布の正確な形を仮定することなく, 最近傍サンプリングを用いて crt の新たな代替法を開発することを目的としている。具体的には, 計算効率の良い 1-nearest-neighbor を用いて, ヌル仮説を符号化する条件分布を近似する。 そして, 理論的には, 生成した試料の分布は, 総変動距離の点で, 真の条件分布に非常に近いことを示す。 さらに, 分類器に基づく条件付き相互情報推定器をテスト統計として採用する。 経験的基本情報理論量としてのテスト統計量は条件依存の特徴を適切に捉えることができる。 提案手法は,I型とII型の誤差を十分に制御しながら,非常に高速であることを示す。 最後に,合成データ解析と実データ解析の両方において,提案手法の有効性を示す。

The conditional randomization test (CRT) was recently proposed to test whether two random variables X and Y are conditionally independent given random variables Z. The CRT assumes that the conditional distribution of X given Z is known under the null hypothesis and then it is compared to the distribution of the observed samples of the original data. The aim of this paper is to develop a novel alternative of CRT by using nearest-neighbor sampling without assuming the exact form of the distribution of X given Z. Specifically, we utilize the computationally efficient 1-nearest-neighbor to approximate the conditional distribution that encodes the null hypothesis. Then, theoretically, we show that the distribution of the generated samples is very close to the true conditional distribution in terms of total variation distance. Furthermore, we take the classifier-based conditional mutual information estimator as our test statistic. The test statistic as an empirical fundamental information theoretic quantity is able to well capture the conditional-dependence feature. We show that our proposed test is computationally very fast, while controlling type I and II errors quite well. Finally, we demonstrate the efficiency of our proposed test in both synthetic and real data analyses.
翻訳日:2023-04-11 17:08:56 公開日:2023-04-09
# 3次元物体検出のための疎密融合

Sparse Dense Fusion for 3D Object Detection ( http://arxiv.org/abs/2304.04179v1 )

ライセンス: Link先を確認
Yulu Gao, Chonghao Sima, Shaoshuai Shi, Shangzhe Di, Si Liu, Hongyang Li(参考訳) マルチモーダル学習の普及に伴い、カメラ-LiDAR融合は3Dオブジェクト検出で人気を博している。 複数の融合法が提案されているが、融合モジュールの特徴表現に基づいてスパースのみまたは密度のみの手法に分類することができる。 本稿では,これらを共通分類法で分析し,その後2つの課題を考察する。 1) スパースのみの解は3次元幾何学的前もって保存するが、カメラからの豊富な意味情報が失われる。 2) 密度のみの代替案は意味的連続性を維持するが、LiDARの正確な幾何学的情報を見逃す。 これら2つの定式化を解析することにより、情報損失は設計手法により避けられないと結論付ける。 いずれの方法においても情報損失を補うために,Transformerアーキテクチャを介してスパース融合と高密度融合の両方を組み込んだ相補的なフレームワークであるスパース・デンス・フュージョン(SDF)を提案する。 このような単純で効果的なスパースセンス融合構造は意味的テクスチャを豊かにし、同時に空間構造情報を利用する。 SDF戦略を通じて,mAPが4.3%,NDSが2.5%,性能が4.3%向上した2つの人気手法を,nuScenesベンチマークで第1位にランク付けした。 本手法の有効性を実証し,分析結果を実証的に整理した。

With the prevalence of multimodal learning, camera-LiDAR fusion has gained popularity in 3D object detection. Although multiple fusion approaches have been proposed, they can be classified into either sparse-only or dense-only fashion based on the feature representation in the fusion module. In this paper, we analyze them in a common taxonomy and thereafter observe two challenges: 1) sparse-only solutions preserve 3D geometric prior and yet lose rich semantic information from the camera, and 2) dense-only alternatives retain the semantic continuity but miss the accurate geometric information from LiDAR. By analyzing these two formulations, we conclude that the information loss is inevitable due to their design scheme. To compensate for the information loss in either manner, we propose Sparse Dense Fusion (SDF), a complementary framework that incorporates both sparse-fusion and dense-fusion modules via the Transformer architecture. Such a simple yet effective sparse-dense fusion structure enriches semantic texture and exploits spatial structure information simultaneously. Through our SDF strategy, we assemble two popular methods with moderate performance and outperform baseline by 4.3% in mAP and 2.5% in NDS, ranking first on the nuScenes benchmark. Extensive ablations demonstrate the effectiveness of our method and empirically align our analysis.
翻訳日:2023-04-11 17:08:39 公開日:2023-04-09
# CILIATE: データセットとトレーニングリファインメントによるより公平なクラスベースのインクリメンタルラーニングを目指して

CILIATE: Towards Fairer Class-based Incremental Learning by Dataset and Training Refinement ( http://arxiv.org/abs/2304.04222v1 )

ライセンス: Link先を確認
Xuanqi Gao, Juan Zhai, Shiqing Ma, Chao Shen, Yufei Chen, Shiwei Wang(参考訳) モデル老化の問題のため、Deep Neural Networks(DNN)は新しいデータ分散に調整するために更新が必要である。 一般的なプラクティスは、インクリメンタルラーニング(IL)、例えば、出力ラベルを更新するクラスベースのインクリメンタルラーニング(CIL)を活用して、新しいデータと限られた古いデータでモデルを更新する。 これにより、従来の方法で(スクラッチから)重いトレーニングを回避し、保存する古いデータの数を減らしてストレージスペースを節約できる。 しかし、これは公平なパフォーマンスの低下にもつながります。 本稿では,cilがデータセット問題とアルゴリズムバイアス問題の両方に苦しむことを示し,既存の解は部分的にしか解決できないことを示す。 本稿では,CILにおけるデータセットとアルゴリズムバイアスを両立させる新しいフレームワークCILIATEを提案する。 既存のcilが見落としているユニークで重要なサンプルを特定し、それらから学ぶようにモデルを強制する、新しい差分解析ガイドデータセットとトレーニングリファインメントプロセスが特徴だ。 このプロセスを通じて、CILIATEは3つの一般的なデータセットと広く使用されているResNetモデルの評価に基づいて、最先端の手法であるiCaRL、BiC、WAと比較して、CILの公平性を17.03%、22.46%、31.79%改善する。

Due to the model aging problem, Deep Neural Networks (DNNs) need updates to adjust them to new data distributions. The common practice leverages incremental learning (IL), e.g., Class-based Incremental Learning (CIL) that updates output labels, to update the model with new data and a limited number of old data. This avoids heavyweight training (from scratch) using conventional methods and saves storage space by reducing the number of old data to store. But it also leads to poor performance in fairness. In this paper, we show that CIL suffers both dataset and algorithm bias problems, and existing solutions can only partially solve the problem. We propose a novel framework, CILIATE, that fixes both dataset and algorithm bias in CIL. It features a novel differential analysis guided dataset and training refinement process that identifies unique and important samples overlooked by existing CIL and enforces the model to learn from them. Through this process, CILIATE improves the fairness of CIL by 17.03%, 22.46%, and 31.79% compared to state-of-the-art methods, iCaRL, BiC, and WA, respectively, based on our evaluation on three popular datasets and widely used ResNet models.
翻訳日:2023-04-11 17:03:14 公開日:2023-04-09
# アソシエーションフットボールビデオにおけるアクションスポッティングのアクティブラーニングに向けて

Towards Active Learning for Action Spotting in Association Football Videos ( http://arxiv.org/abs/2304.04220v1 )

ライセンス: Link先を確認
Silvio Giancola, Anthony Cioppa, Julia Georgieva, Johsan Billingham, Andreas Serner, Kerry Peek, Bernard Ghanem, Marc Van Droogenbroeck(参考訳) アソシエーションフットボールは複雑でダイナミックなスポーツであり、各試合で多数のアクションが同時に行われる。 サッカー動画の分析は困難であり、微妙で多様な時空間パターンを特定する必要がある。 コンピュータビジョンの最近の進歩にもかかわらず、現在のアルゴリズムは、限られた注釈付きデータから学ぶ際にも大きな課題に直面し、これらのパターンを検出するパフォーマンスを低下させる。 本稿では,次にアノテートすべき最も有益なビデオサンプルを選択するアクティブラーニングフレームワークを提案する。これにより,アノテーションの労力を劇的に削減し,アクションスポッティングモデルのトレーニングを高速化し,高い精度を高速に達成する。 提案手法では,不確実性サンプリングという概念を生かして,次に学習すべき最も難しいビデオクリップを選択し,アルゴリズムの学習プロセスを早める。 提案するアクティブラーニングフレームワークは,サッカー映像における正確な動作スポッティングに必要なトレーニングデータを効果的に削減できることを実証する。 soccernet-v2でのnetvlad++によるアクションスポッティングでは、データセットの3分の1しか使用せず、アノテーション時間を短縮し、データ効率を向上させる重要な能力を示している。 我々はさらに,ヘッダとパスの行動の時間的局所化に着目した2つの新しいデータセットに対するアプローチを検証し,サッカーにおける異なる動作セマンティクスにまたがる効果を証明した。 アクションスポッティングのためのアクティブな学習フレームワークは、アクションスポッティングアルゴリズムのさらなる応用をサポートし、スポーツ領域でのアノテーションキャンペーンを加速すると思います。

Association football is a complex and dynamic sport, with numerous actions occurring simultaneously in each game. Analyzing football videos is challenging and requires identifying subtle and diverse spatio-temporal patterns. Despite recent advances in computer vision, current algorithms still face significant challenges when learning from limited annotated data, lowering their performance in detecting these patterns. In this paper, we propose an active learning framework that selects the most informative video samples to be annotated next, thus drastically reducing the annotation effort and accelerating the training of action spotting models to reach the highest accuracy at a faster pace. Our approach leverages the notion of uncertainty sampling to select the most challenging video clips to train on next, hastening the learning process of the algorithm. We demonstrate that our proposed active learning framework effectively reduces the required training data for accurate action spotting in football videos. We achieve similar performances for action spotting with NetVLAD++ on SoccerNet-v2, using only one-third of the dataset, indicating significant capabilities for reducing annotation time and improving data efficiency. We further validate our approach on two new datasets that focus on temporally localizing actions of headers and passes, proving its effectiveness across different action semantics in football. We believe our active learning framework for action spotting would support further applications of action spotting algorithms and accelerate annotation campaigns in the sports domain.
翻訳日:2023-04-11 17:02:51 公開日:2023-04-09
# 生涯マルチエージェントパス発見のための道に関する研究

The Study of Highway for Lifelong Multi-Agent Path Finding ( http://arxiv.org/abs/2304.04217v1 )

ライセンス: Link先を確認
Ming-Feng Li and Min Sun(参考訳) 現代のフルフィルメント倉庫では、エージェントが地図を横切り、終生のマルチエージェントパス発見(ライフロングMAPF)問題として定式化される。 この課題に対処する目的は、スループットを最大化しながら、有限のランタイムで各エージェントのパスを見つけることである。 しかし、既存のメソッドは実行時の指数関数的な成長とデッドロックの望ましくない現象に遭遇し、マップサイズやエージェント密度が増加するにつれて再ルーティングする。 生涯にわたるMAPFにおけるこれらの課題に対処するために、一発MAPF(すなわち、一度に経路を見つける)を主に研究するハイウェイの考え方を探求し、エージェントが同じ方向に進むことを奨励することによって、問題の複雑さを低減させる。 我々は、高速道路のアイデアを生涯のmapfフレームワークに組み込む2つの手法を用いて、デッドロックと再ルーティングの既存の問題を最小化する特性について論じる。 実験の結果,ハイウェイの設定下において地図サイズが大きくなるにつれて,実行時間は大幅に減少し,スループットの低下は徐々に重要視されることがわかった。 さらに,エージェントの密度が大きくなると,高速道路を利用してデッドロック現象やリルート現象が著しく減少する。

In modern fulfillment warehouses, agents traverse the map to complete endless tasks that arrive on the fly, which is formulated as a lifelong Multi-Agent Path Finding (lifelong MAPF) problem. The goal of tackling this challenging problem is to find the path for each agent in a finite runtime while maximizing the throughput. However, existing methods encounter exponential growth of runtime and undesirable phenomena of deadlocks and rerouting as the map size or agent density grows. To address these challenges in lifelong MAPF, we explore the idea of highways mainly studied for one-shot MAPF (i.e., finding paths at once beforehand), which reduces the complexity of the problem by encouraging agents to move in the same direction. We utilize two methods to incorporate the highway idea into the lifelong MAPF framework and discuss the properties that minimize the existing problems of deadlocks and rerouting. The experimental results demonstrate that the runtime is considerably reduced and the decay of throughput is gradually insignificant as the map size enlarges under the settings of the highway. Furthermore, when the density of agents increases, the phenomena of deadlocks and rerouting are significantly reduced by leveraging the highway.
翻訳日:2023-04-11 17:02:27 公開日:2023-04-09
# 翻訳不変スピン系の固有状態熱化仮説

Eigenstate Thermalisation Hypothesis for Translation Invariant Spin Systems ( http://arxiv.org/abs/2304.04213v1 )

ライセンス: Link先を確認
Shoki Sugimoto, Joscha Henheik, Volodymyr Riabov, L\'aszl\'o Erd\H{o}s(参考訳) 平均場相互作用を持つ量子スピンの典型的変換不変系において、局所可観測体に対する固有状態熱化仮説(ETH)を証明する。 これは[l.santos and m.rigol, phys.rev.e 82, 031130 (2010, https://journals.aps.org/pre/abstract/10.1103/physreve.82.031130)]の観察を数学的に検証する。 また,局所的相互作用を持つハミルトニアンの同様の現象に対する数値的支援についても述べる。

We prove the Eigenstate Thermalisation Hypothesis (ETH) for local observables in a typical translation invariant system of quantum spins with mean field interaction. This mathematically verifies the observation made in [L.Santos and M.Rigol, Phys.Rev.E 82, 031130 (2010, https://journals.aps.org/pre/abstract/10.1103/PhysRevE.82.031130)] that ETH may hold for systems with additional translation symmetries for a naturally restricted class of observables. We also present numerical support for the same phenomenon for Hamiltonians with local interactions.
翻訳日:2023-04-11 17:02:03 公開日:2023-04-09
# RISC: 現実的な合成バイリンガル保険契約の作成

RISC: Generating Realistic Synthetic Bilingual Insurance Contract ( http://arxiv.org/abs/2304.04212v1 )

ライセンス: Link先を確認
David Beauchemin and Richard Khoury(参考訳) 本稿では、オープンソースのPythonパッケージデータジェネレータRISC(https://github.com/GRAAL-Research/risc)を提案する。 riscはケベック州の規制保険に基づいて、フランス語と英語でルックアライクな自動車保険契約を生産している。 保険契約は90ページから100ページの長さで、法律や保険に特有な語彙を用いている。 したがって、それらは従来のNLPコーパスよりもずっと複雑な文書のクラスである。 そこで本研究では,ケベック州自動車保険契約に基づく現実保険合成バイリンガル自動車契約データセットRISCBACを紹介する。 このデータセットは、フランスとイングランドの無記名保険契約から成っている。 RISCBACは、教師なしの自動要約、質問応答、テキストの単純化、機械翻訳などのNLP研究を可能にする。 さらに、nerのような教師付きタスクのためのデータセットとして、自動アノテートすることもできる。

This paper presents RISC, an open-source Python package data generator (https://github.com/GRAAL-Research/risc). RISC generates look-alike automobile insurance contracts based on the Quebec regulatory insurance form in French and English. Insurance contracts are 90 to 100 pages long and use complex legal and insurance-specific vocabulary for a layperson. Hence, they are a much more complex class of documents than those in traditional NLP corpora. Therefore, we introduce RISCBAC, a Realistic Insurance Synthetic Bilingual Automobile Contract dataset based on the mandatory Quebec car insurance contract. The dataset comprises 10,000 French and English unannotated insurance contracts. RISCBAC enables NLP research for unsupervised automatic summarisation, question answering, text simplification, machine translation and more. Moreover, it can be further automatically annotated as a dataset for supervised tasks such as NER
翻訳日:2023-04-11 17:01:40 公開日:2023-04-09
# AGAD: 逆生成異常検出

AGAD: Adversarial Generative Anomaly Detection ( http://arxiv.org/abs/2304.04211v1 )

ライセンス: Link先を確認
Jian Shi and Ni Zhang(参考訳) 異常検出は,異常の多様性と大規模異常データ取得の困難さにより異常の欠如に悩まされた。 半教師付き異常検出法は、学習正規性分布から逸脱した異常を検出するためにのみ、正規データを活用するためにしばしば用いられる。 一方, 限られた異常データを少量のコストで取得できるという事実から, 限られた異常データを用いた教師付きシナリオ下での異常検出手法も検討されている。 強固な異常検出のための異常データの欠如に対処するため,我々は,大量の正規例から \textit{contextual adversarial information} を生成して異常検出を学習する自己コントラストに基づく異常検出パラダイムであるadversarial generative anomaly detection (agad)を提案する。 本手法は,教師付きおよび半教師付き両方の異常検出シナリオに対して擬似異常データを生成する。 複数のベンチマークデータセットと実世界のデータセットで大規模な実験を行い、教師付きシナリオと半教師付きシナリオの両方で大幅な改善が示された。 重要なことは、我々のアプローチは、5%以上の異常なトレーニングデータで検出精度を高めることができるデータ効率である。

Anomaly detection suffered from the lack of anomalies due to the diversity of abnormalities and the difficulties of obtaining large-scale anomaly data. Semi-supervised anomaly detection methods are often used to solely leverage normal data to detect abnormalities that deviated from the learnt normality distributions. Meanwhile, given the fact that limited anomaly data can be obtained with a minor cost in practice, some researches also investigated anomaly detection methods under supervised scenarios with limited anomaly data. In order to address the lack of abnormal data for robust anomaly detection, we propose Adversarial Generative Anomaly Detection (AGAD), a self-contrast-based anomaly detection paradigm that learns to detect anomalies by generating \textit{contextual adversarial information} from the massive normal examples. Essentially, our method generates pseudo-anomaly data for both supervised and semi-supervised anomaly detection scenarios. Extensive experiments are carried out on multiple benchmark datasets and real-world datasets, the results show significant improvement in both supervised and semi-supervised scenarios. Importantly, our approach is data-efficient that can boost up the detection accuracy with no more than 5% anomalous training data.
翻訳日:2023-04-11 17:01:21 公開日:2023-04-09
# Einstein-Podolsky-Rosen ステアリングの一方向フィルタ

Filtering one-way Einstein-Podolsky-Rosen steering ( http://arxiv.org/abs/2304.04210v1 )

ライセンス: Link先を確認
Ze-Yan Hao, Yan Wang, Jia-Kun Li, Yu Xiang, Qiong-Yi He, Zheng-Hao Liu, Mu Yang, Kai Sun, Jin-Shi Xu, Chuan-Feng Li, and Guang-Can Guo(参考訳) EPR(Einstein-Podolsky-Rosen)ステアリング(EPR)は、量子非局所性の基本概念であり、ある観測者が別の観測者の状態に局所的な測定でリモートで影響する能力を記述する。 対称量子相関と関連する量子絡み合いやベル非局所性とは異なり、EPRステアリングは量子非局所性のユニークな非対称性を表す。 システム成分が廃棄される局所フィルタ演算により、量子非局所性を蒸留して非局所相関を強化することができ、隠れた非局所性も活性化することができる。 しかしながら、フィルタ演算における非対称な量子非局所性は、特に量子非局所相関が確率で存在する可能性のある破棄された部分を考えると、十分に取り調べられた研究を欠いている。 ここでは,EPRステアリングに対する局所フィルタの効果について,理論と実験の両方において検討する。 EPRステアリングのすべての構成を同時に観察し、一方方向のEPRステアリングの方向を反転させるなど、非対称な量子非局所性の興味深い進化を観察する。 この研究は、非対称量子非局所性を理解するための補完的な視点を提供し、非対称量子システムを量子情報タスクに有意な応用で操作するための実用的なツールボックスを示す。

Einstein-Podolsky-Rosen (EPR) steering, a fundamental concept of quantum nonlocality, describes one observer's capability to remotely affect another distant observer's state by local measurements. Unlike quantum entanglement and Bell nonlocality, both associated with the symmetric quantum correlation, EPR steering depicts the unique asymmetric property of quantum nonlocality. With the local filter operation in which some system components are discarded, quantum nonlocality can be distilled to enhance the nonlocal correlation, and even the hidden nonlocality can be activated. However, asymmetric quantum nonlocality in the filter operation still lacks a well-rounded investigation, especially considering the discarded parts where quantum nonlocal correlations may still exist with probabilities. Here, in both theory and experiment, we investigate the effect of the local filter on EPR steering. We observe all configurations of EPR steering simultaneously and other intriguing evolution of asymmetric quantum nonlocality, such as reversing the direction of one-way EPR steering. This work provides a complementary perspective to understand the asymmetric quantum nonlocality and demonstrates a practical toolbox for manipulating asymmetric quantum systems with significant potential applications in quantum information tasks.
翻訳日:2023-04-11 17:00:49 公開日:2023-04-09
# 分散進化アルゴリズムによるスケーラブルな多重パターンレイアウト分解

Scalable Multiple Patterning Layout Decomposition Implemented by a Distribution Evolutionary Algorithm ( http://arxiv.org/abs/2304.04207v1 )

ライセンス: Link先を確認
Yu Chen and Yongjian Xu and Ning Xu(参考訳) 半導体技術の特徴サイズが10nm以降に縮小するにつれて、複数のパターン化リソグラフィ(mpl)が業界から注目を集めている。 本稿では,確率モデル(dea-ppm)の集団に基づく分布進化アルゴリズムによって解決される一般化グラフカラー化問題として,mplのレイアウト分解をモデル化する。 dea-ppmは分解結果と実行時間のバランスを取ることができ、マスク番号とリソグラフィ解像度の様々な設定でスケーラブルである。 分解結果の堅牢性のため、これは次世代技術ノードにおける多重パターン化レイアウト分解の代替技術である可能性がある。

As the feature size of semiconductor technology shrinks to 10 nm and beyond, the multiple patterning lithography (MPL) attracts more attention from the industry. In this paper, we model the layout decomposition of MPL as a generalized graph coloring problem, which is addressed by a distribution evolutionary algorithm based on a population of probabilistic model (DEA-PPM). DEA-PPM can strike a balance between decomposition results and running time, being scalable for varied settings of mask number and lithography resolution. Due to its robustness of decomposition results, this could be an alternative technique for multiple patterning layout decomposition in next-generation technology nodes.
翻訳日:2023-04-11 17:00:25 公開日:2023-04-09
# 可視赤外人物再同定のための形状関連特徴学習

Shape-Erased Feature Learning for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2304.04205v1 )

ライセンス: Link先を確認
Jiawei Feng and Ancong Wu and Wei-Shi Zheng(参考訳) 視覚的曖昧度の高い可視像と赤外線像のモダリティギャップのため、可視的赤外線人物再識別(VI-ReID)のためのモダリティ共有意味概念を学習することは難しい問題である。 体型は、VI-ReIDにとって重要なモダリティシェードの1つである。 より多彩なモダリティ共有の手がかりを掘り下げるために、学習した特徴における体形関連セマンティック概念の消去は、ReIDモデルにさらに多くのモダリティ共有の特徴を抽出させ、識別に役立てることが期待できる。 そこで本研究では,2つの直交部分空間におけるモダリティ共有特徴をデコレーションする形状学習パラダイムを提案する。 1つの部分空間における形状関連特徴と直交補体における形状消去特徴とを共同学習することで、形状消去特徴と同一視された身体形状情報との条件付き相互情報最大化を実現し、学習表現の多様性を明示的に高める。 SYSU-MM01, RegDB, HITSZ-VCMデータセットの大規模な実験により, 本手法の有効性が示された。

Due to the modality gap between visible and infrared images with high visual ambiguity, learning \textbf{diverse} modality-shared semantic concepts for visible-infrared person re-identification (VI-ReID) remains a challenging problem. Body shape is one of the significant modality-shared cues for VI-ReID. To dig more diverse modality-shared cues, we expect that erasing body-shape-related semantic concepts in the learned features can force the ReID model to extract more and other modality-shared features for identification. To this end, we propose shape-erased feature learning paradigm that decorrelates modality-shared features in two orthogonal subspaces. Jointly learning shape-related feature in one subspace and shape-erased features in the orthogonal complement achieves a conditional mutual information maximization between shape-erased feature and identity discarding body shape information, thus enhancing the diversity of the learned representation explicitly. Extensive experiments on SYSU-MM01, RegDB, and HITSZ-VCM datasets demonstrate the effectiveness of our method.
翻訳日:2023-04-11 17:00:14 公開日:2023-04-09
# OpenDriver: オープンロードドライバの状態検出データセット

OpenDriver: an open-road driver state detection dataset ( http://arxiv.org/abs/2304.04203v1 )

ライセンス: Link先を確認
Delong Liu, Shichao Li(参考訳) 現代の社会では、道路安全はドライバーの心理的および生理的状態に大きく依存している。 疲労、眠気、ストレスなどのネガティブな要因は、ドライバーの反応時間や意思決定能力を阻害し、交通事故の発生率を増加させる。 障害運転検出のための多くの研究の中で、ウェアラブルの生理的計測はドライバーの状態を監視するためのリアルタイムアプローチである。 しかし、現在、オープンロードシナリオにはドライバ生理学的データセットがほとんど存在せず、既存のデータセットは、信号品質の低下、サンプルサイズの縮小、データ収集期間の短縮といった問題に苦しんでいる。 そこで本稿では,ドライバ障害検出と生体データ認識のための大規模マルチモーダル運転データセットの設計と記述を行う。 このデータセットには、6軸慣性信号と心電図(ECG)信号の2つのモードが含まれており、数百人以上のドライバーが数ヶ月の間に同じ経路を辿っている間に記録された。 ECG信号センサと6軸慣性信号センサの両方を特別に設計された操舵ホイールカバーに装着し、ドライバを邪魔することなくデータ収集を可能にする。 さらに、駆動プロセス中に電磁気活動(EDA)信号も記録され、すぐに提示されたデータセットに統合される。 将来の作業は、このデータセットに基づいて、ドライバ障害検出の分野を前進させることができる。 ドライバー状態の理解をさらに深めるために、視線追跡などの他のバイオメトリック信号を統合する新しい方法を検討することができる。 このデータセットから得られた洞察は、新しい運転支援システムの開発、安全な運転慣行の促進、交通事故のリスク低減にも役立ちます。 opendriverデータセットは近く公開される予定だ。

In modern society, road safety relies heavily on the psychological and physiological state of drivers. Negative factors such as fatigue, drowsiness, and stress can impair drivers' reaction time and decision making abilities, leading to an increased incidence of traffic accidents. Among the numerous studies for impaired driving detection, wearable physiological measurement is a real-time approach to monitoring a driver's state. However, currently, there are few driver physiological datasets in open road scenarios and the existing datasets suffer from issues such as poor signal quality, small sample sizes, and short data collection periods. Therefore, in this paper, a large-scale multimodal driving dataset for driver impairment detection and biometric data recognition is designed and described. The dataset contains two modalities of driving signals: six-axis inertial signals and electrocardiogram (ECG) signals, which were recorded while over one hundred drivers were following the same route through open roads during several months. Both the ECG signal sensor and the six-axis inertial signal sensor are installed on a specially designed steering wheel cover, allowing for data collection without disturbing the driver. Additionally, electrodermal activity (EDA) signals were also recorded during the driving process and will be integrated into the presented dataset soon. Future work can build upon this dataset to advance the field of driver impairment detection. New methods can be explored for integrating other types of biometric signals, such as eye tracking, to further enhance the understanding of driver states. The insights gained from this dataset can also inform the development of new driver assistance systems, promoting safer driving practices and reducing the risk of traffic accidents. The OpenDriver dataset will be publicly available soon.
翻訳日:2023-04-11 16:59:52 公開日:2023-04-09
# 圧縮状態における調和系の絡み合い

Entanglement of Harmonic Systems in Squeezed States ( http://arxiv.org/abs/2304.04241v1 )

ライセンス: Link先を確認
Dimitrios Katsinis, Georgios Pastras and Nikolaos Tetradis(参考訳) 基底状態における自由スカラー場の絡み合いエントロピーは、領域法によって支配される。 しかし、スカラー場理論における絡み合いの研究が基底状態を超えては進んでいないことは注目すべきである。 本稿では、連続体極限としての自由スカラー場理論を含む調和系の絡み合いの研究を、最も一般的なガウス状態、すなわち圧縮状態の場合に拡張する。 還元密度行列の固有状態とスペクトルを求め、エンタングルメントエントロピーを計算する。 最後に,本手法を1+1次元のスカラー場理論の自由化に適用し,強圧縮状態の場合,エントロピーは基底状態の場合とは異なり体積項によって支配されることを示す。 系の状態は非自明な方法で時間に依存するが、この体積項は時間に依存しない。 この挙動は、一般調和系における絡み合いエントロピーの大規模展開において現れるため、より高次元に保持されることを期待する。

The entanglement entropy of a free scalar field in its ground state is dominated by an area law term. It is noteworthy, however, that the study of entanglement in scalar field theory has not advanced far beyond the ground state. In this paper, we extend the study of entanglement of harmonic systems, which include free scalar field theory as a continuum limit, to the case of the most general Gaussian states, namely the squeezed states. We find the eigenstates and the spectrum of the reduced density matrix and we calculate the entanglement entropy. Finally, we apply our method to free scalar field theory in 1+1 dimensions and show that, for very squeezed states, the entanglement entropy is dominated by a volume term, unlike the ground-state case. Even though the state of the system is time-dependent in a non-trivial manner, this volume term is time-independent. We expect this behaviour to hold in higher dimensions as well, as it emerges in a large-squeezing expansion of the entanglement entropy for a general harmonic system.
翻訳日:2023-04-11 16:52:28 公開日:2023-04-09
# データ駆動型マルチノミアルランダム森林

Data-driven multinomial random forest ( http://arxiv.org/abs/2304.04240v1 )

ライセンス: Link先を確認
Junhao Chen, Xueli wang(参考訳) 本稿では,従来は弱弱弱弱無害な森林の証明手法を強固に一貫した証明手法に強化し,これらの変種のデータ利用を改善して,より優れた理論的特性と実験性能を得る。 さらに,多項ランダムフォレスト (mrf) とベルヌーイランダムフォレスト (brf) に基づいて,データ駆動多項ランダムフォレスト (dmrf) アルゴリズムを提案する。 分類や回帰の問題は、弱い一貫性しか満たさない以前のRF変種よりも優れており、ほとんどの場合、標準的なランダムフォレストを超えている。 我々の知る限り、DMRFは現在アルゴリズムの複雑さが低い最も優れた一貫性のあるRF変種である。

In this article, we strengthen the proof methods of some previously weakly consistent variants of random forests into strongly consistent proof methods, and improve the data utilization of these variants, in order to obtain better theoretical properties and experimental performance. In addition, based on the multinomial random forest (MRF) and Bernoulli random forest (BRF), we propose a data-driven multinomial random forest (DMRF) algorithm, which has lower complexity than MRF and higher complexity than BRF while satisfying strong consistency. It has better performance in classification and regression problems than previous RF variants that only satisfy weak consistency, and in most cases even surpasses standard random forest. To the best of our knowledge, DMRF is currently the most excellent strongly consistent RF variant with low algorithm complexity
翻訳日:2023-04-11 16:52:10 公開日:2023-04-09
# 任意スケールの病理画像スーパーレゾリューションに向けて--無作為な自己テクスチャ強化に基づく効率的なデュアルブランチフレームワーク

Towards Arbitrary-scale Histopathology Image Super-resolution: An Efficient Dual-branch Framework based on Implicit Self-texture Enhancement ( http://arxiv.org/abs/2304.04238v1 )

ライセンス: Link先を確認
Linhao Qu, Minghong Duan, Zhiwei Yang, Manning Wang, Zhijian Song(参考訳) 病理画像の既存の超解像モデルは、固定整数倍しか機能せず、性能も限られている。 暗黙的ニューラルネットワークに基づく手法は自然画像の任意のスケールの超解像に有望な結果をもたらすが、病理画像にそれを直接適用することは効果的ではない。 この課題に対処するために,病理画像の任意のスケール超解像のための効率的な自己テクスチャ拡張機構を備えたデュアルブランチフレームワークを提案する。 2つの公開データセットに関する広範囲な実験により、本手法は既存の固定スケールアルゴリズムと任意のスケールアルゴリズムの両方よりも優れていることが示された。 私たちの知る限りでは、病理画像の分野で任意の規模の超解像を達成するのはこれが初めてです。 コードは利用可能だ。

Existing super-resolution models for pathology images can only work in fixed integer magnifications and have limited performance. Though implicit neural network-based methods have shown promising results in arbitrary-scale super-resolution of natural images, it is not effective to directly apply them in pathology images, because pathology images have special fine-grained image textures different from natural images. To address this challenge, we propose a dual-branch framework with an efficient self-texture enhancement mechanism for arbitrary-scale super-resolution of pathology images. Extensive experiments on two public datasets show that our method outperforms both existing fixed-scale and arbitrary-scale algorithms. To the best of our knowledge, this is the first work to achieve arbitrary-scale super-resolution in the field of pathology images. Codes will be available.
翻訳日:2023-04-11 16:51:53 公開日:2023-04-09
# スライド変換器:局所自己注意型階層型視覚変換器

Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention ( http://arxiv.org/abs/2304.04237v1 )

ライセンス: Link先を確認
Xuran Pan, Tianzhu Ye, Zhuofan Xia, Shiji Song, Gao Huang(参考訳) 自己注意機構は、グローバルコンテキストからの適応的特徴抽出を可能にするビジョントランスフォーマー(ViT)の最近の進歩において重要な要素である。 しかし、既存の自己注意手法では、計算の複雑さを減らし、局所的な特徴学習を損なう可能性があるし、手作業による設計の対象になる可能性がある。 対照的に、各クエリの受容フィールドを隣接するピクセルに制限するローカルアテンションは、畳み込みと自己アテンション、すなわち局所帰納バイアスと動的特徴選択の両方の利点を享受している。 しかし、現在のローカルアテンションモジュールは非効率なIm2Col関数を使用するか、CUDAサポートなしでデバイスに一般化するのが難しい特定のCUDAカーネルに依存している。 本稿では,共通畳み込み操作を利用して高効率,柔軟性,汎用性を実現する,新しい局所的注意モジュールslide attentionを提案する。 具体的には、カラムベースのIm2Col関数を新しい行ベースの観点から再解釈し、Depthwise Convolutionを効率的な置換として利用する。 そこで本研究では,再パラメータ化手法に基づく変形シフトモジュールを提案し,局所領域の変形特徴に対する固定キー/値位置の緩和を図る。 このように、我々のモジュールは、効率的かつ柔軟な方法で局所的な注意パラダイムを実現する。 我々のスライドアテンションモジュールは、様々な高度なVision Transformerモデルに適用でき、様々なハードウェアデバイスと互換性があり、包括的なベンチマークの性能を一貫して改善している。 コードはhttps://github.com/LeapLabTHU/Slide-Transformerで入手できる。

Self-attention mechanism has been a key factor in the recent progress of Vision Transformer (ViT), which enables adaptive feature extraction from global contexts. However, existing self-attention methods either adopt sparse global attention or window attention to reduce the computation complexity, which may compromise the local feature learning or subject to some handcrafted designs. In contrast, local attention, which restricts the receptive field of each query to its own neighboring pixels, enjoys the benefits of both convolution and self-attention, namely local inductive bias and dynamic feature selection. Nevertheless, current local attention modules either use inefficient Im2Col function or rely on specific CUDA kernels that are hard to generalize to devices without CUDA support. In this paper, we propose a novel local attention module, Slide Attention, which leverages common convolution operations to achieve high efficiency, flexibility and generalizability. Specifically, we first re-interpret the column-based Im2Col function from a new row-based perspective and use Depthwise Convolution as an efficient substitution. On this basis, we propose a deformed shifting module based on the re-parameterization technique, which further relaxes the fixed key/value positions to deformed features in the local region. In this way, our module realizes the local attention paradigm in both efficient and flexible manner. Extensive experiments show that our slide attention module is applicable to a variety of advanced Vision Transformer models and compatible with various hardware devices, and achieves consistently improved performances on comprehensive benchmarks. Code is available at https://github.com/LeapLabTHU/Slide-Transformer.
翻訳日:2023-04-11 16:51:36 公開日:2023-04-09
# 変分演算子学習:ニューラルネットワークの訓練と偏微分方程式の解法のための統一パラダイム

Variational operator learning: A unified paradigm for training neural operators and solving partial differential equations ( http://arxiv.org/abs/2304.04234v1 )

ライセンス: Link先を確認
Tengfei Xu, Dachuan Liu, Peng Hao, Bo Wang(参考訳) 本稿では,変分演算子学習(VOL)と呼ばれる変分演算子学習(VOL)を用いて,ニューラル演算子を訓練し,偏微分方程式(PDE)を解くための統一的な枠組みを提案する。 まず,神経演算子が与えるノード解予測から系の関数近似を導出し,自動微分による変分演算を行い,線形系の残差を導出するための前方後方伝播ループを構築する。 最も急な適切な方法(SD)と共役勾配法(CG)の1つまたは複数の更新ステップは、神経オペレータを訓練するための安価で効果的な更新として、イテレーション毎に提供される。 実験結果から, 定常熱伝達と可変剛性弾性のPDEにおける様々な解演算子を, 良好な結果と少ない誤差で学習できることが示唆された。 提案したVOLは,ほぼラベルのないトレーニングを実現する。 すべての実験で出力分散シフトセッションに使用されるラベルは5つから10つのみである。 VOLの一般化の利点について検討し,考察した。

Based on the variational method, we propose a novel paradigm that provides a unified framework of training neural operators and solving partial differential equations (PDEs) with the variational form, which we refer to as the variational operator learning (VOL). We first derive the functional approximation of the system from the node solution prediction given by neural operators, and then conduct the variational operation by automatic differentiation, constructing a forward-backward propagation loop to derive the residual of the linear system. One or several update steps of the steepest decent method (SD) and the conjugate gradient method (CG) are provided in every iteration as a cheap yet effective update for training the neural operators. Experimental results show the proposed VOL can learn a variety of solution operators in PDEs of the steady heat transfer and the variable stiffness elasticity with satisfactory results and small error. The proposed VOL achieves nearly label-free training. Only five to ten labels are used for the output distribution-shift session in all experiments. Generalization benefits of the VOL are investigated and discussed.
翻訳日:2023-04-11 16:51:07 公開日:2023-04-09
# crowdclip:視覚言語モデルによる教師なし群衆数

CrowdCLIP: Unsupervised Crowd Counting via Vision-Language Model ( http://arxiv.org/abs/2304.04231v1 )

ライセンス: Link先を確認
Dingkang Liang, Jiahao Xie, Zhikang Zou, Xiaoqing Ye, Wei Xu, Xiang Bai(参考訳) 監督された群衆のカウントは、特に密集したシーンでは困難で高価である、高価な手動ラベリングに大きく依存している。 この問題を軽減するために,CrowdCLIPという,クラウドカウントのための新しい非教師付きフレームワークを提案する。 中心となるアイデアは2つの観察に基づいています 1)近年のコントラスト学習前視覚言語モデル(CLIP)は、様々な下流タスクにおいて印象的な性能を示した。 2) 集団パッチとカウントテキストの間に自然なマッピングが存在する。 我々の知識を最大限に活用するために、CrowdCLIPは視覚言語知識を初めて調査し、数え上げ問題を解く。 具体的には,画像エンコーダ学習を指導するために,サイズ別群集パッチにマッチするランキングテキストプロンプトを構築し,マルチモーダルランキングロスを活用した。 テスト段階では,画像パッチの多様性に対処するために,まず高い潜在的な群集パッチを選択し,様々なカウント間隔で言語空間にマップする,単純かつ効果的なプログレッシブ・フィルタリング手法を提案する。 5つの挑戦的データセットに関する広範囲な実験により、提案手法が従来の教師なしの最先端カウント法よりも優れた性能を達成できることが示されている。 特に、CrowdCLIPは、クロスデータセット設定の下で、一般的な完全に教師されたメソッドを超越している。 ソースコードはhttps://github.com/dk-liang/CrowdCLIPで入手できる。

Supervised crowd counting relies heavily on costly manual labeling, which is difficult and expensive, especially in dense scenes. To alleviate the problem, we propose a novel unsupervised framework for crowd counting, named CrowdCLIP. The core idea is built on two observations: 1) the recent contrastive pre-trained vision-language model (CLIP) has presented impressive performance on various downstream tasks; 2) there is a natural mapping between crowd patches and count text. To the best of our knowledge, CrowdCLIP is the first to investigate the vision language knowledge to solve the counting problem. Specifically, in the training stage, we exploit the multi-modal ranking loss by constructing ranking text prompts to match the size-sorted crowd patches to guide the image encoder learning. In the testing stage, to deal with the diversity of image patches, we propose a simple yet effective progressive filtering strategy to first select the highly potential crowd patches and then map them into the language space with various counting intervals. Extensive experiments on five challenging datasets demonstrate that the proposed CrowdCLIP achieves superior performance compared to previous unsupervised state-of-the-art counting methods. Notably, CrowdCLIP even surpasses some popular fully-supervised methods under the cross-dataset setting. The source code will be available at https://github.com/dk-liang/CrowdCLIP.
翻訳日:2023-04-11 16:50:49 公開日:2023-04-09
# 深部画像検索における教師なし多点反転検出

Unsupervised Multi-Criteria Adversarial Detection in Deep Image Retrieval ( http://arxiv.org/abs/2304.04228v1 )

ライセンス: Link先を確認
Yanru Xiao, Cong Wang, Xing Gao(参考訳) ディープラーニングのアルゴリズムサプライチェーンの脆弱性は、下流の画像検索システムに新たな課題をもたらしている。 様々な技術の中で、深いハッシュが人気を集めている。 ディープラーニングからアルゴリズムバックエンドを継承するため、ごく最近、通常の画像検索を妨害する攻撃がいくつか提案されている。 残念ながら、ソフトマックス分類における防御戦略は、画像検索領域で容易に適用できない。 本稿では,ハミング空間における一意な敵意行動を特定するための効率的かつ教師なしスキームを提案する。 特に,ハミング距離,量子化損失,非標的攻撃と標的攻撃の両方に対して防御を行うため,敵空間を包括的に制限する3つの基準を考案した。 4つのデータセットに関する広範な実験は、リアルタイム画像クエリに対する最小計算オーバーヘッドによる検出率の2-23%向上を示している。

The vulnerability in the algorithm supply chain of deep learning has imposed new challenges to image retrieval systems in the downstream. Among a variety of techniques, deep hashing is gaining popularity. As it inherits the algorithmic backend from deep learning, a handful of attacks are recently proposed to disrupt normal image retrieval. Unfortunately, the defense strategies in softmax classification are not readily available to be applied in the image retrieval domain. In this paper, we propose an efficient and unsupervised scheme to identify unique adversarial behaviors in the hamming space. In particular, we design three criteria from the perspectives of hamming distance, quantization loss and denoising to defend against both untargeted and targeted attacks, which collectively limit the adversarial space. The extensive experiments on four datasets demonstrate 2-23% improvements of detection rates with minimum computational overhead for real-time image queries.
翻訳日:2023-04-11 16:50:26 公開日:2023-04-09
# Video ChatCaptioner: 豊富な時空間記述を目指して

Video ChatCaptioner: Towards the Enriched Spatiotemporal Descriptions ( http://arxiv.org/abs/2304.04227v1 )

ライセンス: Link先を確認
Jun Chen, Deyao Zhu, Kilichbek Haydarov, Xiang Li, Mohamed Elhoseiny(参考訳) 映像キャプションは自然言語を用いて映像から動的シーンを伝達することを目的としており、環境内の時空間情報の理解を促進する。 近年の進歩はあったが、詳細でリッチなビデオ記述を生成することは依然として大きな課題である。 本稿では,より包括的な時空間的ビデオ記述を作成するための革新的なアプローチである video chatcaptioner を紹介する。 本手法では,ChatGPTモデルをコントローラとして使用し,特に映像コンテンツ駆動質問に対するフレームの選択を目的とした。 その後、ロバストなアルゴリズムを用いてこれらのビジュアルクエリに答える。 この質問応答フレームワークは、複雑な映像の詳細を効果的に明らかにし、映像コンテンツの強化方法として約束を示す。 複数の会話ラウンドの後、ChatGPTは以前の会話に基づいてリッチなビデオコンテンツを要約することができる。 われわれのビデオチャットキャプチャーは、ビデオに関するより視覚的な詳細を含むキャプションを生成できることを定性的に証明する。 コードはhttps://github.com/Vision-CAIR/ChatCaptionerで公開されている。

Video captioning aims to convey dynamic scenes from videos using natural language, facilitating the understanding of spatiotemporal information within our environment. Although there have been recent advances, generating detailed and enriched video descriptions continues to be a substantial challenge. In this work, we introduce Video ChatCaptioner, an innovative approach for creating more comprehensive spatiotemporal video descriptions. Our method employs a ChatGPT model as a controller, specifically designed to select frames for posing video content-driven questions. Subsequently, a robust algorithm is utilized to answer these visual queries. This question-answer framework effectively uncovers intricate video details and shows promise as a method for enhancing video content. Following multiple conversational rounds, ChatGPT can summarize enriched video content based on previous conversations. We qualitatively demonstrate that our Video ChatCaptioner can generate captions containing more visual details about the videos. The code is publicly available at https://github.com/Vision-CAIR/ChatCaptioner
翻訳日:2023-04-11 16:50:12 公開日:2023-04-09
# 医用画像分割ネットワークにおけるトランスフォーマーの利用

Transformer Utilization in Medical Image Segmentation Networks ( http://arxiv.org/abs/2304.04225v1 )

ライセンス: Link先を確認
Saikat Roy, Gregor Koehler, Michael Baumgartner, Constantin Ulrich, Jens Petersen, Fabian Isensee, Klaus Maier-Hein(参考訳) 自然画像のデータ豊富な領域の成功により、トランスフォーマーは近年、医用画像セグメンテーションで人気を博している。 しかし、様々な構造的置換における畳み込みブロックと変換器のペアリングは、その相対的効果をオープン解釈に残している。 本稿では,Transformerブロックを線形演算子に置き換えたTransformer Ablationを導入し,その有効性を定量化する。 2つの医用画像のセグメンテーションタスクに関する8つのモデルの実験により、我々は探索する。 1) 変圧器学習表現の置き換え可能な性質, 2) 変圧器の容量だけでは, 表現的交換性を防止できず, 効果的な設計で機能する。 3) 変圧器ブロックにおける明示的特徴階層の存在は, 自己注意モジュールに付随するよりも有益である。 4) Transformerモジュールの前の主要な空間サンプリングは、慎重に使用するべきである。

Owing to success in the data-rich domain of natural images, Transformers have recently become popular in medical image segmentation. However, the pairing of Transformers with convolutional blocks in varying architectural permutations leaves their relative effectiveness to open interpretation. We introduce Transformer Ablations that replace the Transformer blocks with plain linear operators to quantify this effectiveness. With experiments on 8 models on 2 medical image segmentation tasks, we explore -- 1) the replaceable nature of Transformer-learnt representations, 2) Transformer capacity alone cannot prevent representational replaceability and works in tandem with effective design, 3) The mere existence of explicit feature hierarchies in transformer blocks is more beneficial than accompanying self-attention modules, 4) Major spatial downsampling before Transformer modules should be used with caution.
翻訳日:2023-04-11 16:49:58 公開日:2023-04-09
# 開系の力学に及ぼす非マルコフ式加圧浴の影響

Effects of non-Markovian squeezed bath on the dynamics of open systems ( http://arxiv.org/abs/2304.04223v1 )

ライセンス: Link先を確認
Arapat Ablimit, Feng-Hua Ren, Run-Hong He, Yang-Yang Xie and Zhao-Ming Wang(参考訳) オープン量子システムのダイナミクスの制御は、量子情報処理において重要である。 基本的には、システムを制御する方法と、バスパラメータを調整する方法の2つがあります。 本稿では,後者を用いて開システムの非マルコフ力学を解析する。 このモデルでは、システムは非マルコフスクイズド浴槽に浸されている。 動的には、量子状態拡散 (qsd) 方程式を用いた非マルコフマスター eqation が弱系-バスカップリングに対して得られる。 非マルコフ性$\gamma$、絞られた方向$\theta$、絞られた強さ$r$。 断熱的または状態伝達の忠実性については、計算結果から両者はより小さな$\gamma$またはより大きい$p$-quadratureで拡張できることを示している。 興味深いことに、$0<\theta<\pi/2$は$r$と$\theta$の組み合わせによって決定され、数値シミュレーションにより、その忠実度ピークは$r=1-2\theta/\pi$である。 フィデリティは$r$の増加とともに増加する(0,1-2\theta/\pi]$)。 仮に$\theta\ge\pi/2$とすると、下級の忠実度は水浴によって得られる。 その結果,開放系の動力学は貯留層エンジンリングによって効果的に制御できることがわかった。

Control of the dynamics of an open quantum system is crucial in quantum information processing. Basically there are two ways: one is the control on the system and the other is tuning the bath parameters. In this paper, we use the latter to analyze the non-Markovian dynamics of the open system. The model is that the system is immersed in non-Markovian squeezed baths. For the dynamics, a non-Markovian master eqation is obtained using the quantum state diffusion (QSD) equation technique for the weak system-bath couplings. We use the adiabatic evolution or quantum state transmission as examples to analyze the effects of the bath parameters: non-Markovianity $\gamma$, the squeezed direction $\theta$ and squeezed strength $r$. For the adiabatic or state transmission fidelity, the calculation results show that they both can be enhanced by a smaller $\gamma$ or bigger $p$-quadrature. Interestingly, when $0<\theta<\pi/2$, the squeezed quadrature is determined by the combination of $r$ and $\theta$, and by numerical simulation we find that the fidelity peak occurs at $r=1-2\theta/\pi$. The fidelities increase with increasing $r$ when $r\in (0,1-2\theta/\pi]$. When $\theta\ge\pi/2$, lower fidelities are obtained due to the squeezed bath. Our results show that the dynamics of the open systems can be effectively controlled by reservoir enginerring.
翻訳日:2023-04-11 16:49:46 公開日:2023-04-09
# HumanSD:人間の画像生成のためのネイティブ骨格誘導拡散モデル

HumanSD: A Native Skeleton-Guided Diffusion Model for Human Image Generation ( http://arxiv.org/abs/2304.04269v1 )

ライセンス: Link先を確認
Xuan Ju, Ailing Zeng, Chenchen Zhao, Jianan Wang, Lei Zhang, Qiang Xu(参考訳) 制御可能な人体画像生成(HIG)は多くの実物応用がある。 ControlNetやT2I-Adapterといった最先端のソリューションでは、凍結した事前訓練された安定拡散(SD)モデルの上に、新たな学習可能なブランチが導入されている。 このようなプラグ・アンド・プレイのアプローチは魅力的だが、凍結したSDブランチから生成された元のイメージと、条件付きで画像の特徴を編集する学習可能なブランチには、必然的かつ不確実な競合が生じている。 本研究では,制御可能な hig のためのネイティブスケルトン誘導拡散モデル humand を提案する。 デュアルブランチ拡散による画像編集を行う代わりに、新しい熱マップ誘導型デノナイジング損失を用いて元のSDモデルを微調整する。 この戦略は、破滅的な忘れる効果を緩和しながら、モデルトレーニング中に与えられた骨格条件を効果的かつ効率的に強化する。 HumanSDは3つの大規模な人間中心のデータセットとテキスト画像情報に基づいて微調整される。 図1に示すように、humandは、与えられた骨格指導が洗練されている場合に、正確なポーズ制御と画質の観点からコントロールネットを上回る。

Controllable human image generation (HIG) has numerous real-life applications. State-of-the-art solutions, such as ControlNet and T2I-Adapter, introduce an additional learnable branch on top of the frozen pre-trained stable diffusion (SD) model, which can enforce various conditions, including skeleton guidance of HIG. While such a plug-and-play approach is appealing, the inevitable and uncertain conflicts between the original images produced from the frozen SD branch and the given condition incur significant challenges for the learnable branch, which essentially conducts image feature editing for condition enforcement. In this work, we propose a native skeleton-guided diffusion model for controllable HIG called HumanSD. Instead of performing image editing with dual-branch diffusion, we fine-tune the original SD model using a novel heatmap-guided denoising loss. This strategy effectively and efficiently strengthens the given skeleton condition during model training while mitigating the catastrophic forgetting effects. HumanSD is fine-tuned on the assembly of three large-scale human-centric datasets with text-image-pose information, two of which are established in this work. As shown in Figure 1, HumanSD outperforms ControlNet in terms of accurate pose control and image quality, particularly when the given skeleton guidance is sophisticated.
翻訳日:2023-04-11 16:43:33 公開日:2023-04-09
# 混合注意に基づくRGB-T追跡

RGB-T Tracking Based on Mixed Attention ( http://arxiv.org/abs/2304.04264v1 )

ライセンス: Link先を確認
Yang Luo, Mingtao Dong, Xiqing Guo, Jin Yu(参考訳) RGB-Tトラッキングには、可視光と熱の両モードの画像の使用が含まれる。 主な目的は、異なる条件における比較的支配的なモーダリティを適応的にレバー・エイジし、シングルモーダリティ・トラックリングよりもロバストなトラッキングを実現することである。 本稿では,モーダルの相補的な融合を実現するための混合注意機構に基づくRGB-Tトラッカーを提案する。 特徴抽出段階では、異なるトランスフォーマーバックボーンの分岐を用いて、異なるモダリネクタイから特定の情報や共有情報を抽出する。 テンプレートと検索画像間の情報相互作用と自己強調を可能にするために、バックボーンで混合注意操作を行うことにより、ターゲットの高レベルな意味的特徴をよりよく理解する堅牢な特徴表現を構築する。 そして、特徴融合段階において、優性モダリティ情報を高めつつ低品質モダリティノイズを抑制する混合注意型モダリティ融合ネットワークを介してモダリティ適応融合を実現する。 複数のRGB-T公開データセットの評価は,提案したトラッカーが他のRGB-Tトラッカーよりも高い性能を示しながら,長期追跡シナリオに適応できることを示す。

RGB-T tracking involves the use of images from both visible and thermal modalities. The primary objective is to adaptively lever-age the relatively dominant modality in varying conditions to achieve more robust tracking compared to single-modality track-ing. An RGB-T tracker based on mixed attention mechanism to achieve complementary fusion of modalities (referred to as MACFT) is proposed in this paper. In the feature extraction stage, we utilize different transformer backbone branches to extract specific and shared information from different modali-ties. By performing mixed attention operations in the backbone to enable information interaction and self-enhancement between the template and search images, it constructs a robust feature representation that better understands the high-level semantic features of the target. Then, in the feature fusion stage, a modal-ity-adaptive fusion is achieved through a mixed attention-based modality fusion network, which suppresses the low-quality mo-dality noise while enhancing the information of the dominant modality. Evaluation on multiple RGB-T public datasets demon-strates that our proposed tracker outperforms other RGB-T trackers on general evaluation metrics while also being able to adapt to long-term tracking scenarios.
翻訳日:2023-04-11 16:43:11 公開日:2023-04-09
# 拡散モデルの知識蒸留に関する包括的調査

A Comprehensive Survey on Knowledge Distillation of Diffusion Models ( http://arxiv.org/abs/2304.04262v1 )

ライセンス: Link先を確認
Weijian Luo(参考訳) Diffusion Models (DM) はスコアベース拡散モデルとも呼ばれ、ニューラルネットワークを用いてスコア関数を指定する。 他の確率的モデルとは異なり、DMはスコア関数を直接モデル化し、パラメータ化がより柔軟になり、確率的モデリングに高い表現力を持つ。 DMは、基礎となる分布の詳細な知識、すなわち限界スコア関数を学ぶことができる。 そのため、DMの知識を抽出し、その可能性を完全に活用する方法を検討することが重要な研究方向である。 本研究の目的は, DMの蒸留における最近のアプローチの概要を明らかにすることであり, まず, DMの紹介と, 神経ベクトル場への蒸留に関わる課題について議論することである。 また,dmsを確率的および決定論的暗黙的生成器に蒸留する既存の研究の概要を述べる。 最後に, 促進拡散サンプリングアルゴリズムを蒸留の無訓練法として検討する。 本チュートリアルは, DMの蒸留法を応用したり, この分野の研究プロジェクトに乗り出したいと願う, 生成モデルの基本的知識を持つ個人を対象としている。

Diffusion Models (DMs), also referred to as score-based diffusion models, utilize neural networks to specify score functions. Unlike most other probabilistic models, DMs directly model the score functions, which makes them more flexible to parametrize and potentially highly expressive for probabilistic modeling. DMs can learn fine-grained knowledge, i.e., marginal score functions, of the underlying distribution. Therefore, a crucial research direction is to explore how to distill the knowledge of DMs and fully utilize their potential. Our objective is to provide a comprehensible overview of the modern approaches for distilling DMs, starting with an introduction to DMs and a discussion of the challenges involved in distilling them into neural vector fields. We also provide an overview of the existing works on distilling DMs into both stochastic and deterministic implicit generators. Finally, we review the accelerated diffusion sampling algorithms as a training-free method for distillation. Our tutorial is intended for individuals with a basic understanding of generative models who wish to apply DM's distillation or embark on a research project in this field.
翻訳日:2023-04-11 16:42:51 公開日:2023-04-09
# CLVOS23: 継続的な学習のための長いビデオオブジェクトセグメンテーションデータセット

CLVOS23: A Long Video Object Segmentation Dataset for Continual Learning ( http://arxiv.org/abs/2304.04259v1 )

ライセンス: Link先を確認
Amir Nazemi, Zeyad Moustafa, Paul Fieguth(参考訳) 現実世界のシナリオにおける継続的学習は大きな課題です。 一般的な連続的な学習モデルは、連続的な学習課題が特に長いビデオシーケンスに取り組む際に現れる、半教師付きビデオオブジェクトセグメンテーション(VOS)のように、メモリサイズが一定であり、予め定義されたタスク境界を持たないべきである。 本稿では、まず、オンラインVOSを継続学習問題として半教師付きVOSの問題を定式化し、次に、継続学習に焦点を当てたパブリックVOSデータセットCLVOS23を提供する。 最後に,オンラインVOSに適用した場合の継続学習の有効性を実証し,CLVOS23ベースラインを確立するために,既存のオンラインVOSベースラインであるLWLに対して正規化に基づく継続学習アプローチを提案し,実装する。 提案するベースラインは,Long Videosデータセットと,DAVIS16とDAVIS17の2つの短いビデオVOSデータセットに適用する。 私たちの知る限りでは、VOSが継続的学習問題として定義され、対処されたのはこれが初めてです。

Continual learning in real-world scenarios is a major challenge. A general continual learning model should have a constant memory size and no predefined task boundaries, as is the case in semi-supervised Video Object Segmentation (VOS), where continual learning challenges particularly present themselves in working on long video sequences. In this article, we first formulate the problem of semi-supervised VOS, specifically online VOS, as a continual learning problem, and then secondly provide a public VOS dataset, CLVOS23, focusing on continual learning. Finally, we propose and implement a regularization-based continual learning approach on LWL, an existing online VOS baseline, to demonstrate the efficacy of continual learning when applied to online VOS and to establish a CLVOS23 baseline. We apply the proposed baseline to the Long Videos dataset as well as to two short video VOS datasets, DAVIS16 and DAVIS17. To the best of our knowledge, this is the first time that VOS has been defined and addressed as a continual learning problem.
翻訳日:2023-04-11 16:42:34 公開日:2023-04-09
# 最近傍のアルゴリズムにおける効率的なタスク特化データ評価」の一考察

A Note on "Efficient Task-Specific Data Valuation for Nearest Neighbor Algorithms" ( http://arxiv.org/abs/2304.04258v1 )

ライセンス: Link先を確認
Jiachen T. Wang and Ruoxi Jia(参考訳) データ評価は、機械学習(ML)モデルに対する個々のデータポイントの影響を研究する、成長する研究分野である。 データシャプリー(data shapley)は、協調ゲーム理論と経済学に触発され、データ評価の効果的な方法である。 しかし、Shapley値(SV)が計算コストが高いことはよく知られている。 幸いなことに、Jia et al. (2019) は、K-Nearest Neighbors (KNN) モデルでは、Data Shapleyの計算は驚くほど単純で効率的であることを示した。 本稿では、Jia et al. (2019) の業績を再考し、KNNモデルの性能をよりよく反映した、より自然で解釈可能なユーティリティ関数を提案する。 新しいユーティリティ関数を用いて、kn分類器/レグレプタのデータシェープリーの対応する計算手順を導出する。 我々の新しいアプローチは、ソフトラベルKNN-SVと呼ばれ、元の方法と同じ時間複雑性を実現する。 さらに,局所性感度ハッシュ(LSH)に基づくソフトラベルKNN-SVの効率的な近似アルゴリズムを提案する。 実験の結果, ソフトラベルKNN-SVは, 誤りラベル付きデータ検出タスクにおけるほとんどのデータセットにおいて, 元の手法よりも優れており, 今後のデータ評価研究のベースラインとして優れていることがわかった。

Data valuation is a growing research field that studies the influence of individual data points for machine learning (ML) models. Data Shapley, inspired by cooperative game theory and economics, is an effective method for data valuation. However, it is well-known that the Shapley value (SV) can be computationally expensive. Fortunately, Jia et al. (2019) showed that for K-Nearest Neighbors (KNN) models, the computation of Data Shapley is surprisingly simple and efficient. In this note, we revisit the work of Jia et al. (2019) and propose a more natural and interpretable utility function that better reflects the performance of KNN models. We derive the corresponding calculation procedure for the Data Shapley of KNN classifiers/regressors with the new utility functions. Our new approach, dubbed soft-label KNN-SV, achieves the same time complexity as the original method. We further provide an efficient approximation algorithm for soft-label KNN-SV based on locality sensitive hashing (LSH). Our experimental results demonstrate that Soft-label KNN-SV outperforms the original method on most datasets in the task of mislabeled data detection, making it a better baseline for future work on data valuation.
翻訳日:2023-04-11 16:42:15 公開日:2023-04-09
# ゼロショット対話理解のためのChatGPTの予備評価

A Preliminary Evaluation of ChatGPT for Zero-shot Dialogue Understanding ( http://arxiv.org/abs/2304.04256v1 )

ライセンス: Link先を確認
Wenbo Pan, Qiguang Chen, Xiao Xu, Wanxiang Che, Libo Qin(参考訳) ゼロショット対話理解は,ユーザのニーズをトレーニングデータなしで追跡することを目的としている。 本研究では,音声言語理解(SLU)や対話状態追跡(DST)を含むゼロショット対話理解タスクにおけるChatGPTの理解能力について検討する。 4つの人気のあるベンチマークの実験結果から,ゼロショット対話理解のためのChatGPTの可能性が示された。 さらに、広範囲な分析により、チャットgptはdstタスクにおけるマルチターンインタラクティブプロンプトの恩恵を受けるが、sluのスロット充填は困難であることが示された。 最後に,対話理解タスクにおけるChatGPTの予期せぬ動作を要約し,Large Language Models (LLMs) を用いたゼロショット対話理解システムの構築に向けた今後の研究への洞察を期待する。

Zero-shot dialogue understanding aims to enable dialogue to track the user's needs without any training data, which has gained increasing attention. In this work, we investigate the understanding ability of ChatGPT for zero-shot dialogue understanding tasks including spoken language understanding (SLU) and dialogue state tracking (DST). Experimental results on four popular benchmarks reveal the great potential of ChatGPT for zero-shot dialogue understanding. In addition, extensive analysis shows that ChatGPT benefits from the multi-turn interactive prompt in the DST task but struggles to perform slot filling for SLU. Finally, we summarize several unexpected behaviors of ChatGPT in dialogue understanding tasks, hoping to provide some insights for future research on building zero-shot dialogue understanding systems with Large Language Models (LLMs).
翻訳日:2023-04-11 16:41:52 公開日:2023-04-09
# ブロックチェーン技術を使って攻撃を防ぐセキュアなルーティングプロトコル

Secure Routing Protocol To Mitigate Attacks By Using Blockchain Technology In Manet ( http://arxiv.org/abs/2304.04254v1 )

ライセンス: Link先を確認
Nitesh Ghodichor, Raj Thaneeghavl. V, Dinesh Sahu, Gautam Borkar, Ankush Sawarkar(参考訳) manetは、無線ネットワークを介して通信するモバイルノードの集合で、あるポイントから別のポイントに移動する。 MANETは、変更可能なトポロジを持つインフラストラクチャレスネットワークである。 MANET攻撃防止は深刻な課題である。 悪意のあるネットワークノードは、ネットワークベースの攻撃の源である。 MANETでは、攻撃は様々な形態を取ることができ、それぞれが独自の方法でネットワークの操作を変更する。 一般的に、攻撃は2つのカテゴリに分けられる:ネットワーク上のデータトラフィックをターゲットにしたものと、制御トラフィックを対象とするもの。 この記事では、様々な種類の攻撃、MANETに対する影響、そして現在進行中のMANETベースの防衛措置を説明します。 ブロックチェーン技術(SRABC)を採用したSRAは、MANETを攻撃から保護し、ノードを認証する。 ブロックチェーン技術によって提案されたセキュアルーティングアルゴリズム(sra)は、脅威に対する制御とデータフローを保護する。 これはトランザクション毎にハッシュ関数を生成することで実現される。 私たちはまず、MANETのセキュリティについて論じます。 この記事では、MANETセキュリティにおけるブロックチェーンの役割について説明する。 第3のセクションでは、SRAがブロックチェーンに関連して記述されている。 第4段階では、PDRとスループットを使用して、PDRとスループットを使用したBlockchainを使用してSRAレビューを行う。 提案手法は遅延を減少させながらマレットセキュリティを向上させることを示唆する。 提案手法の性能を解析し,ルーティングプロトコルq-aodvとdsrと比較した。

MANET is a collection of mobile nodes that communicate through wireless networks as they move from one point to another. MANET is an infrastructure-less network with a changeable topology; as a result, it is very susceptible to attacks. MANET attack prevention represents a serious difficulty. Malicious network nodes are the source of network-based attacks. In a MANET, attacks can take various forms, and each one alters the network's operation in its unique way. In general, attacks can be separated into two categories: those that target the data traffic on a network and those that target the control traffic. This article explains the many sorts of assaults, their impact on MANET, and the MANET-based defence measures that are currently in place. The suggested SRA that employs blockchain technology (SRABC) protects MANET from attacks and authenticates nodes. The secure routing algorithm (SRA) proposed by blockchain technology safeguards control and data flow against threats. This is achieved by generating a Hash Function for every transaction. We will begin by discussing the security of the MANET. This article's second section explores the role of blockchain in MANET security. In the third section, the SRA is described in connection with blockchain. In the fourth phase, PDR and Throughput are utilised to conduct an SRA review using Blockchain employing PDR and Throughput. The results suggest that the proposed technique enhances MANET security while concurrently decreasing delay. The performance of the proposed technique is analysed and compared to the routing protocols Q-AODV and DSR.
翻訳日:2023-04-11 16:41:35 公開日:2023-04-09
# テキストレコメンデーションのための編集可能なユーザプロファイル

Editable User Profiles for Controllable Text Recommendation ( http://arxiv.org/abs/2304.04250v1 )

ライセンス: Link先を確認
Sheshera Mysore, Mahmood Jasim, Andrew McCallum, Hamed Zamani(参考訳) 高品質なレコメンデーションを行う方法は、しばしば相互作用データから潜在表現を学ぶことに依存している。 これらのメソッドは、performantだが、ユーザが受信したレコメンデーションを制御するための準備されたメカニズムを提供していない。 我々の研究は、制御可能なテキストレコメンデーションのための新しい概念価値ボトルネックモデルであるLACEを提案し、この問題に対処する。 LACEは、ユーザが操作した文書を検索し、ユーザ文書に基づいて概念のパーソナライズされた表現を学ぶことによって、簡潔な人間可読概念のセットでユーザを表現する。 このコンセプトに基づくユーザープロフィールは、レコメンデーションに活用される。 モデルの設計は,透過的なユーザプロファイルとの直感的な対話を通じて,レコメンデーションを制御できる。 まず、ウォームスタート、コールドスタート、ゼロショット設定の6つのデータセットにまたがる3つのレコメンデーションタスクのオフライン評価において、LACEから得られるレコメンデーションの品質を確立する。 次に,ユーザインタラクションシミュレーションによるlaceの制御性を検証する。 最後に,対話型制御可能なレコメンデーションシステムにLACEを実装し,ユーザが編集可能なユーザプロファイルとのインタラクションを通じて,レコメンデーションの質を向上させることができることを示す。

Methods for making high-quality recommendations often rely on learning latent representations from interaction data. These methods, while performant, do not provide ready mechanisms for users to control the recommendation they receive. Our work tackles this problem by proposing LACE, a novel concept value bottleneck model for controllable text recommendations. LACE represents each user with a succinct set of human-readable concepts through retrieval given user-interacted documents and learns personalized representations of the concepts based on user documents. This concept based user profile is then leveraged to make recommendations. The design of our model affords control over the recommendations through a number of intuitive interactions with a transparent user profile. We first establish the quality of recommendations obtained from LACE in an offline evaluation on three recommendation tasks spanning six datasets in warm-start, cold-start, and zero-shot setups. Next, we validate the controllability of LACE under simulated user interactions. Finally, we implement LACE in an interactive controllable recommender system and conduct a user study to demonstrate that users are able to improve the quality of recommendations they receive through interactions with an editable user profile.
翻訳日:2023-04-11 16:41:14 公開日:2023-04-09
# LiDARによる物体検出における曲面物体操作

Curricular Object Manipulation in LiDAR-based Object Detection ( http://arxiv.org/abs/2304.04248v1 )

ライセンス: Link先を確認
Ziyue Zhu, Qiang Meng, Xiao Wang, Ke Wang, Liujiang Yan, Jian Yang(参考訳) 本稿では,LiDARを用いた3次元物体検出におけるカリキュラム学習の可能性について検討する。 このフレームワークは、損失設計と拡張プロセスの両方に、カリキュラムのトレーニング戦略を組み込む。 損失設計のために,オブジェクトレベルの難易度を動的に予測し,訓練段階に基づいて異なる難易度を持つ対象を強調するcomlossを提案する。 本稿では,LiDAR検出タスクにおけるGT-Augと呼ばれる拡張手法に加えて,よく設計されたヒューリスティックに基づいて,まず地中データベースにオブジェクトをクラスタ化する新しいCOMAug戦略を提案する。 個々のグループよりもグループレベルの困難を予測し、安定した結果を得るためにトレーニング中に更新する。 モデルの性能と一般化能力は、トレーニングサンプルに徐々に難しいオブジェクトをサンプリングし、拡張することで改善することができる。 大規模な実験とアブレーション研究により、提案フレームワークの優位性と汎用性が明らかとなった。 コードはhttps://github.com/ZZY816/COMで公開されている。

This paper explores the potential of curriculum learning in LiDAR-based 3D object detection by proposing a curricular object manipulation (COM) framework. The framework embeds the curricular training strategy into both the loss design and the augmentation process. For the loss design, we propose the COMLoss to dynamically predict object-level difficulties and emphasize objects of different difficulties based on training stages. On top of the widely-used augmentation technique called GT-Aug in LiDAR detection tasks, we propose a novel COMAug strategy which first clusters objects in ground-truth database based on well-designed heuristics. Group-level difficulties rather than individual ones are then predicted and updated during training for stable results. Model performance and generalization capabilities can be improved by sampling and augmenting progressively more difficult objects into the training samples. Extensive experiments and ablation studies reveal the superior and generality of the proposed framework. The code is available at https://github.com/ZZY816/COM.
翻訳日:2023-04-11 16:40:54 公開日:2023-04-09
# 量子力学の講義ノート。 選択章

Quantum Mechanics Lecture Notes. Selected Chapters ( http://arxiv.org/abs/2304.04247v1 )

ライセンス: Link先を確認
Shimon Levit(参考訳) これらは、Weizmann Institute of Scienceの大学院物理学プログラムで私が教えている量子力学コースの拡張講義ノートです。 以下のトピックをカバーしている。 最初の4章はここに掲載されている。 内容は次のページで詳述されている。 他の章は今後数ヶ月以内に追加される予定だ。 外部電磁界の運動 量子力学におけるゲージ場 2. 電磁場の量子力学 3. 光子-物質相互作用 4. schr\"odingerフィールドの量子化(第2の量子化) 5. オープンシステム 密度行列 6. 断熱理論 ベリー・フェーズ。 ボルン・オッペンハイマー近似 7. 多くの身体系に対する平均場アプローチ-フェルミオンとボソン

These are extended lecture notes of the quantum mechanics course which I am teaching in the Weizmann Institute of Science graduate physics program. They cover the topics listed below. The first four chapter are posted here. Their content is detailed on the next page. The other chapters are planned to be added in the coming months. 1. Motion in External Electromagnetic Field. Gauge Fields in Quantum Mechanics. 2. Quantum Mechanics of Electromagnetic Field 3. Photon-Matter Interactions 4. Quantization of the Schr\"odinger Field (The Second Quantization) 5. Open Systems. Density Matrix 6. Adiabatic Theory. The Berry Phase. The Born-Oppenheimer Approximation 7. Mean Field Approaches for Many Body Systems -- Fermions and Bosons
翻訳日:2023-04-11 16:40:39 公開日:2023-04-09
# foramvit-gan: マイクロパレオロジー画像解析のためのディープラーニングの新しいパラダイムの探求

ForamViT-GAN: Exploring New Paradigms in Deep Learning for Micropaleontological Image Analysis ( http://arxiv.org/abs/2304.04291v1 )

ライセンス: Link先を確認
Ivan Ferreira-Chacua, Ardiansyah Koeshidayatullah(参考訳) 地学における微光子学(micropaleontology in geosciences)は、過去の環境・気候条件を再構築するための地質学的記録を通してマイクロフォスシル(例えば、foraminifera)の進化を研究することに焦点を当てている。 この分野はマイクロフォッシルの特徴の視覚的認識に大きく依存しており、コンピュータビジョン技術、特に深層畳み込みニューラルネットワーク(CNN)に適合し、マイクロフォッシル識別と分類の自動化と最適化に適している。 しかし、深層学習の微動学への応用は、高品質で高解像度のラベル付き化石画像の入手が限られており、専門家が必要とする重要な手作業によるラベル付けが妨げられている。 そこで本研究では,階層型視覚トランスフォーマーとスタイルベース生成型逆ネットワークアルゴリズムを組み合わせた新しい深層学習ワークフローを提案する。 本研究では,高信号対雑音比(39.1dB)の高分解能画像とFrechet開始距離類似度スコア14.88のリアル合成画像を生成することができることを示す。 さらに、我々のワークフローは、モデルベンチマークのための大量の自己ラベル付きデータセットと、化石分類やセグメンテーションを含む様々な下流視覚タスクを提供します。 生成画像と合成画像の両方に, 異なる有孔体チャンバーを数ショットセグメンテーションし, 精度を向上した。 この新しいメタラーニングアプローチは、高解像度で高ボリュームのラベル付きデータセットが利用できる場合にのみ可能である。 当社のディープラーニングベースのワークフローは、マイクロパレオロジー研究とその他の視覚依存地質分析の進歩と最適化に期待を示しています。

Micropaleontology in geosciences focuses on studying the evolution of microfossils (e.g., foraminifera) through geological records to reconstruct past environmental and climatic conditions. This field heavily relies on visual recognition of microfossil features, making it suitable for computer vision technology, specifically deep convolutional neural networks (CNNs), to automate and optimize microfossil identification and classification. However, the application of deep learning in micropaleontology is hindered by limited availability of high-quality, high-resolution labeled fossil images and the significant manual labeling effort required by experts. To address these challenges, we propose a novel deep learning workflow combining hierarchical vision transformers with style-based generative adversarial network algorithms to efficiently acquire and synthetically generate realistic high-resolution labeled datasets of micropaleontology in large volumes. Our study shows that this workflow can generate high-resolution images with a high signal-to-noise ratio (39.1 dB) and realistic synthetic images with a Frechet inception distance similarity score of 14.88. Additionally, our workflow provides a large volume of self-labeled datasets for model benchmarking and various downstream visual tasks, including fossil classification and segmentation. For the first time, we performed few-shot semantic segmentation of different foraminifera chambers on both generated and synthetic images with high accuracy. This novel meta-learning approach is only possible with the availability of high-resolution, high-volume labeled datasets. Our deep learning-based workflow shows promise in advancing and optimizing micropaleontological research and other visual-dependent geological analyses.
翻訳日:2023-04-11 16:33:33 公開日:2023-04-09
# 医療データ生成のための分散条件GAN(discGAN)

Distributed Conditional GAN (discGAN) For Synthetic Healthcare Data Generation ( http://arxiv.org/abs/2304.04290v1 )

ライセンス: Link先を確認
David Fuentes, Diana McSpadden and Sodiq Adewole(参考訳) 本稿では,医療領域に特有の合成表データを生成するための分散生成逆ネットワーク (discgans) を提案する。 画像生成にganを用いる研究は盛んに行われているが,表データ生成にはほとんど注意が払われていない。 離散的および連続的な表データ分布のモデル化は、高い実用性を持つ非自明なタスクである。 非ガウス的マルチモーダル医療データのモデル化にdisGANを適用した。 元の2,027 eICUデータセットから249,000の合成記録を生成した。 本研究では,機械学習の有効性,連続変数のkolmogorov-smirnov(ks)テスト,離散変数のchi-squaredテストを用いてモデルの性能評価を行った。 その結果,disGANは実データと同様の分布を持つデータを生成することができた。

In this paper, we propose a distributed Generative Adversarial Networks (discGANs) to generate synthetic tabular data specific to the healthcare domain. While using GANs to generate images has been well studied, little to no attention has been given to generation of tabular data. Modeling distributions of discrete and continuous tabular data is a non-trivial task with high utility. We applied discGAN to model non-Gaussian multi-modal healthcare data. We generated 249,000 synthetic records from original 2,027 eICU dataset. We evaluated the performance of the model using machine learning efficacy, the Kolmogorov-Smirnov (KS) test for continuous variables and chi-squared test for discrete variables. Our results show that discGAN was able to generate data with distributions similar to the real data.
翻訳日:2023-04-11 16:33:03 公開日:2023-04-09
# ニュートン重力場における量子時計の時間拡張

Time dilation of quantum clocks in a Newtonian gravitational field ( http://arxiv.org/abs/2304.04281v1 )

ライセンス: Link先を確認
Tommaso Favalli and Augusto Smerzi(参考訳) 球状質量によって生成されるニュートン重力場と相互作用する2つの非相対論的量子時計を考える。 page と wootters のアプローチの枠組みでは、時計の時間状態の時間拡張を導出する。 遅延はシュワルツシルト計量から得られる重力時間拡張と一階まで一致している。 この結果は相対論的重力ポテンシャルを考えることで拡張できる:この場合、正確なシュワルツシルト解との一致を得る。

We consider two non-relativistic quantum clocks interacting with a Newtonian gravitational field produced by a spherical mass. In the framework of Page and Wootters approach, we derive a time dilation for the time states of the clocks. The delay is in agreement up to first order with the gravitational time dilation obtained from the Schwarzschild metric. This result can be extended by considering the relativistic gravitational potential: in this case we obtain the agreement with the exact Schwarzschild solution.
翻訳日:2023-04-11 16:32:50 公開日:2023-04-09
# FrenchMedMCQA: 医療領域の複数の質問に対する回答データセット

FrenchMedMCQA: A French Multiple-Choice Question Answering Dataset for Medical domain ( http://arxiv.org/abs/2304.04280v1 )

ライセンス: Link先を確認
Yanis Labrak, Adrien Bazoge, Richard Dufour, Mickael Rouvier, Emmanuel Morin, B\'eatrice Daille, Pierre-Antoine Gourraud(参考訳) 本稿では,フランス初の医療領域用マルチチョイス質問応答(mcqa)データセットである frenchmedmcqa について紹介する。 薬局におけるフランスの医学専門学位の実際の試験から得られた3,105の質問からなり、単式と複数式の回答が混ざり合わさっている。 データセットの各インスタンスには識別子、質問、5つの可能な回答と手動の修正が含まれている。 また,mcqaタスクを自動的に処理し,現在のパフォーマンスを報告し,タスクの難易度を強調するために,最初のベースラインモデルを提案する。 以上の結果から,医学領域やMCQAタスクに適応した表現が必要であることが示唆された。この場合,フランスMedMCQAはフランス語であるにもかかわらず,一般的なフランス語モデルよりも優れた結果を得た。 コーパス、モデル、ツールはオンラインで入手できる。

This paper introduces FrenchMedMCQA, the first publicly available Multiple-Choice Question Answering (MCQA) dataset in French for medical domain. It is composed of 3,105 questions taken from real exams of the French medical specialization diploma in pharmacy, mixing single and multiple answers. Each instance of the dataset contains an identifier, a question, five possible answers and their manual correction(s). We also propose first baseline models to automatically process this MCQA task in order to report on the current performances and to highlight the difficulty of the task. A detailed analysis of the results showed that it is necessary to have representations adapted to the medical domain or to the MCQA task: in our case, English specialized models yielded better results than generic French ones, even though FrenchMedMCQA is in French. Corpus, models and tools are available online.
翻訳日:2023-04-11 16:32:44 公開日:2023-04-09
# point-slam:密集したニューラルポイントクラウドベースのslam

Point-SLAM: Dense Neural Point Cloud-based SLAM ( http://arxiv.org/abs/2304.04278v1 )

ライセンス: Link先を確認
Erik Sandstr\"om and Yue Li and Luc Van Gool and Martin R. Oswald(参考訳) 本稿では,入力に依存したデータ駆動方式で反復生成される点クラウドにおいて,神経シーン表現の特徴をアンカーする単眼型rgbd入力のための高密度ニューラルネットワーク同時局在マッピング(slam)手法を提案する。 rgbdベースの再レンダリングロスを最小化することで、トラッキングとマッピングの両方を同じポイントベースのニューラルネットワークシーン表現で実行できることを実証する。 スパースグリッドのシーン特徴を固定する近年の高密度ニューラルネットワークSLAM法とは対照的に,我々のポイントベースアプローチは,アンカー点密度を入力の情報密度に動的に適応させることができる。 この戦略は、ディテールの少ないリージョンでのランタイムとメモリ使用量を削減し、詳細を解決するために高いポイント密度を捧げる。 我々の手法は、Replica、TUM-RGBD、ScanNetデータセット上での追跡、マッピング、レンダリングの精度において、既存の高密度ニューラルネットワークRGBD SLAM法により良い、あるいは競合する。 ソースコードはhttps://github.com/tfy14esa/point-slamで入手できる。

We propose a dense neural simultaneous localization and mapping (SLAM) approach for monocular RGBD input which anchors the features of a neural scene representation in a point cloud that is iteratively generated in an input-dependent data-driven manner. We demonstrate that both tracking and mapping can be performed with the same point-based neural scene representation by minimizing an RGBD-based re-rendering loss. In contrast to recent dense neural SLAM methods which anchor the scene features in a sparse grid, our point-based approach allows dynamically adapting the anchor point density to the information density of the input. This strategy reduces runtime and memory usage in regions with fewer details and dedicates higher point density to resolve fine details. Our approach performs either better or competitive to existing dense neural RGBD SLAM methods in tracking, mapping and rendering accuracy on the Replica, TUM-RGBD and ScanNet datasets. The source code is available at https://github.com/tfy14esa/Point-SLAM.
翻訳日:2023-04-11 16:32:29 公開日:2023-04-09
# 不足するギャップを埋める:半監督学習による時系列計算

Filling out the missing gaps: Time Series Imputation with Semi-Supervised Learning ( http://arxiv.org/abs/2304.04275v1 )

ライセンス: Link先を確認
Karan Aggarwal, Jaideep Srivastava(参考訳) 時系列データの欠落は、時系列分析に影響を与える課題である。 データの欠落は、データドロップやセンサーの故障などの問題によって発生する。 インプテーション法はこれらの値を満たすために使われ、インプテーションの品質は分類のような下流タスクに大きな影響を与える。 本研究では,ラベルなしデータと下流タスクのラベル付きデータの両方を用いた半教師付き命令法st-imputeを提案する。 ST-Imputeはスパース自己注意に基づいており、計算過程を模倣するタスクを訓練する。 提案手法は,既存の教師付きおよび教師なしの時系列計算手法と,命令された時系列を摂取する下流タスクを比較検討し,性能を向上することを示す。

Missing data in time series is a challenging issue affecting time series analysis. Missing data occurs due to problems like data drops or sensor malfunctioning. Imputation methods are used to fill in these values, with quality of imputation having a significant impact on downstream tasks like classification. In this work, we propose a semi-supervised imputation method, ST-Impute, that uses both unlabeled data along with downstream task's labeled data. ST-Impute is based on sparse self-attention and trains on tasks that mimic the imputation process. Our results indicate that the proposed method outperforms the existing supervised and unsupervised time series imputation methods measured on the imputation quality as well as on the downstream tasks ingesting imputed time series.
翻訳日:2023-04-11 16:32:08 公開日:2023-04-09
# 対称射影による資源効率の高い高次元絡み合い検出

Resource-efficient high-dimensional entanglement detection via symmetric projections ( http://arxiv.org/abs/2304.04274v1 )

ライセンス: Link先を確認
Simon Morelli, Marcus Huber, Armin Tavakoli(参考訳) 任意の局所次元の2部量子状態の絡み合いの検出と定量化のための2つの基準を導入する。 1つは互いに偏りのない基底の測定に基づいており、もう1つは等角測定に基づいている。 どちらの基準も、状態の絡み合い次元における定性的な結果と、最大絡み合い状態との忠実度の観点からの定量的結果を与える。 この基準は、国家に関する仮定は必要ないため、普遍的に適用できる。 さらに、実験者は、実施した測定回数を選択して、資源効率と耐雑音性のトレードオフを制御することができる。 パラメタレーショナルノイズモデルでは,任意の次元におけるほぼ最適検出を実現するためには,少数の測定しか必要としない。 大域的積射影の数は局所次元でのみ線形にスケールするので、非常に高次元の絡み合いの検出と定量化の道を開くことができる。

We introduce two families of criteria for detecting and quantifying the entanglement of a bipartite quantum state of arbitrary local dimension. The first is based on measurements in mutually unbiased bases and the second is based on equiangular measurements. Both criteria give a qualitative result in terms of the state's entanglement dimension and a quantitative result in terms of its fidelity with the maximally entangled state. The criteria are universally applicable since no assumptions on the state are required. Moreover, the experimenter can control the trade-off between resource-efficiency and noise-tolerance by selecting the number of measurements performed. For paradigmatic noise models, we show that only a small number of measurements are necessary to achieve nearly-optimal detection in any dimension. The number of global product projections scales only linearly in the local dimension, thus paving the way for detection and quantification of very high-dimensional entanglement.
翻訳日:2023-04-11 16:31:57 公開日:2023-04-09
# 車両内ドライバ認知負荷計測のためのマルチモーダル脳-コンピュータインタフェース:データセットとベースライン

Multimodal Brain-Computer Interface for In-Vehicle Driver Cognitive Load Measurement: Dataset and Baselines ( http://arxiv.org/abs/2304.04273v1 )

ライセンス: Link先を確認
Prithila Angkan, Behnam Behinaein, Zunayed Mahmud, Anubhav Bhatti, Dirk Rodenburg, Paul Hungler and Ali Etemad(参考訳) 本稿では、心電図(ECG)や心電図(EDA)などの他の生理的信号とともに、眼球追跡データとともに脳波(EEG)信号を含む新しいドライバ認知負荷評価データセットCL-Driveを紹介する。 対象者の認知負荷の異なるレベルを誘発するために, 様々な運転条件において, 没入車シミュレータで運転中, 被験者21名から収集した。 作業は3分ごとに9つの複雑性レベルで構成された。 各ドライバーは実験中10秒ごとに主観的認知負荷を報告した。 データセットは、基底真理として記録された主観的認知負荷を含む。 本稿では,二項ラベル分布と三項ラベル分布の両方に対して,異なる機械学習モデルとディープラーニングモデルのためのベンチマーク分類結果を提供する。 評価基準は10倍, LOSO (Left-one-subject-out) の2つであった。 我々は手作りの機能と生データの両方でモデルを訓練しました。

Through this paper, we introduce a novel driver cognitive load assessment dataset, CL-Drive, which contains Electroencephalogram (EEG) signals along with other physiological signals such as Electrocardiography (ECG) and Electrodermal Activity (EDA) as well as eye tracking data. The data was collected from 21 subjects while driving in an immersive vehicle simulator, in various driving conditions, to induce different levels of cognitive load in the subjects. The tasks consisted of 9 complexity levels for 3 minutes each. Each driver reported their subjective cognitive load every 10 seconds throughout the experiment. The dataset contains the subjective cognitive load recorded as ground truth. In this paper, we also provide benchmark classification results for different machine learning and deep learning models for both binary and ternary label distributions. We followed 2 evaluation criteria namely 10-fold and leave-one-subject-out (LOSO). We have trained our models on both hand-crafted features as well as on raw data.
翻訳日:2023-04-11 16:31:43 公開日:2023-04-09
# 時系列のMixUpを恥ずかしく簡単に

Embarrassingly Simple MixUp for Time-series ( http://arxiv.org/abs/2304.04271v1 )

ライセンス: Link先を確認
Karan Aggarwal, Jaideep Srivastava(参考訳) 時系列データのラベル付けは、ドメインの専門知識とデータの動的な性質のため、高価な作業である。 したがって、ラベル付きデータ設定の制限に対処する必要がしばしばあります。 データ拡張技術は、既存のラベル付きデータの利用を活用すべく、コンピュータビジョンのようなドメインにうまくデプロイされている。 時系列ドメインでは、MixUpと呼ばれる最も一般的なテクニックの1つを適用します。 提案する MixUp++ と LatentMixUp++ は,それぞれ生の時系列と分類モデルの潜時空間で補間を行うため,簡単な修正を行う。 また、これらの手法を半教師付き学習で拡張し、ラベルのないデータを活用する。 latentmixup++を用いた2つの公開データセットの時系列分類において,低ラベルデータと高ラベルデータレジームの両方に対して,1\%~15\%の大幅な改善が見られた。

Labeling time series data is an expensive task because of domain expertise and dynamic nature of the data. Hence, we often have to deal with limited labeled data settings. Data augmentation techniques have been successfully deployed in domains like computer vision to exploit the use of existing labeled data. We adapt one of the most commonly used technique called MixUp, in the time series domain. Our proposed, MixUp++ and LatentMixUp++, use simple modifications to perform interpolation in raw time series and classification model's latent space, respectively. We also extend these methods with semi-supervised learning to exploit unlabeled data. We observe significant improvements of 1\% - 15\% on time series classification on two public datasets, for both low labeled data as well as high labeled data regimes, with LatentMixUp++.
翻訳日:2023-04-11 16:31:26 公開日:2023-04-09
# 量子ドットを用いた2つのMajorana-zeroモードの動的シミュレーション

Dynamics simulation of braiding two Majorana-zero-modes via a quantum dot ( http://arxiv.org/abs/2304.04270v1 )

ライセンス: Link先を確認
Luting Xu, Jing Bai, Wei Feng, and Xin-Qi Li(参考訳) この研究では、純粋1次元実現の最小限のセットアップにおいて、量子ドットを通してマヨラナゼロモード(MZM)のペアをブレイディングするダイナミクスをリアルタイムにシミュレーションする。 MZM間の全交換に必要な幾何位相$\pi/4$を達成するために、ドットエネルギーレベルがゼロに近づくときの強い非断熱効果を明らかにする。 本稿では,非一様にシステムを操作する手法ではなく,マヨナモード間の完全な交換を可能にする非一様遷移を抑制するための,より実現可能なスキームを提案し,提案する。

In this work we perform real time simulations for the dynamics of braiding a pair of Majorana zero modes (MZMs) through a quantum dot in a minimal setup of pure 1D realization. We reveal the strong nonadiabatic effect when the dot energy level approaches to zero in order to achieve a geometric phase $\pi/4$ which is required for a full exchange between the MZMs. Rather than the strategies of nonuniformly manipulating the system according to adiabatic condition and shortcuts-to-adiabaticity, we propose and illustrate a more feasible scheme to suppress the nonadiabatic transition, meanwhile which allows for a full exchange between the Majorana modes.
翻訳日:2023-04-11 16:31:12 公開日:2023-04-09
# ラベルなしrgb-dビデオからの物体分割の自己教師あり学習

Self-Supervised Learning of Object Segmentation from Unlabeled RGB-D Videos ( http://arxiv.org/abs/2304.04325v1 )

ライセンス: Link先を確認
Shiyang Lu, Yunfu Deng, Abdeslam Boularias, Kostas Bekris(参考訳) 本研究では,RGB画像中の剛体物体をセグメント化するための自己教師型学習システムを提案する。 提案するパイプラインは、静的オブジェクトのラベルのないrgb-dビデオでトレーニングされ、モバイルロボットがカメラで撮影することができる。 自己教師付きトレーニングプロセスの重要な特徴は、各ビデオから再構成されたポイントクラウドのオーバーセグメンテーション出力で動作するグラフマッチングアルゴリズムである。 グラフマッチングは、ポイントクラウドの登録とともに、ビデオ間で再発生するオブジェクトパターンを見つけ出し、それを3Dオブジェクトの擬似ラベルに組み合わせることができる。 3D擬似ラベルから投影された2Dオブジェクトマスクは、コントラスト学習を通じて画素ワイド特徴抽出器を訓練するために使用される。 オンライン推論では、学習した特徴を使って前景ピクセルをオブジェクトセグメントにクラスタリングする。 実験では、テーブルトップオブジェクトの散らかったシーンを含む実データと合成ビデオの両方で、この手法の有効性を強調している。 提案手法は,既存の非教師なしのオブジェクトセグメンテーション法を大きなマージンで上回っている。

This work proposes a self-supervised learning system for segmenting rigid objects in RGB images. The proposed pipeline is trained on unlabeled RGB-D videos of static objects, which can be captured with a camera carried by a mobile robot. A key feature of the self-supervised training process is a graph-matching algorithm that operates on the over-segmentation output of the point cloud that is reconstructed from each video. The graph matching, along with point cloud registration, is able to find reoccurring object patterns across videos and combine them into 3D object pseudo labels, even under occlusions or different viewing angles. Projected 2D object masks from 3D pseudo labels are used to train a pixel-wise feature extractor through contrastive learning. During online inference, a clustering method uses the learned features to cluster foreground pixels into object segments. Experiments highlight the method's effectiveness on both real and synthetic video datasets, which include cluttered scenes of tabletop objects. The proposed method outperforms existing unsupervised methods for object segmentation by a large margin.
翻訳日:2023-04-11 16:25:32 公開日:2023-04-09
# ARNOLD: 現実的な3Dシーンにおける連続状態を用いた言語学習のベンチマーク

ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous States in Realistic 3D Scenes ( http://arxiv.org/abs/2304.04321v1 )

ライセンス: Link先を確認
Ran Gong, Jiangyong Huang, Yizhou Zhao, Haoran Geng, Xiaofeng Gao, Qingyang Wu, Wensi Ai, Ziheng Zhou, Demetri Terzopoulos, Song-Chun Zhu, Baoxiong Jia, Siyuan Huang(参考訳) オブジェクトの連続状態を理解することは、現実世界のタスク学習と計画に不可欠です。 しかし、既存のタスク学習ベンチマークでは、複雑なタスクの学習や、シミュレートされた環境から現実世界への学習ポリシーの移譲に挑戦する、離散的(バイナリ)な目標状態が想定されている。 さらに、状態の離散化は、動作と状態の基底に基づく人間の指示に従うロボットの能力を制限する。 これらの課題に対処するために、現実的な3Dシーンにおける連続状態を用いて言語によるタスク学習を評価するベンチマークARNOLDを提案する。 ARNOLDは、オブジェクト状態の理解と継続的な目標のための学習ポリシーを含む8つの言語条件のタスクで構成されている。 言語学習を促進するために,テンプレート生成言語記述を用いたエキスパートデモンストレーションを行う。 最新の言語条件付き政策学習モデルを用いてタスク性能を評価する。 以上の結果から,現在の言語条件操作モデルでは,新たな目標状態一般化,シーン一般化,オブジェクト一般化において大きな課題が残されている。 これらの発見は、このギャップに対処し、この分野におけるさらなる研究の可能性を強調する新しいアルゴリズムを開発する必要性を強調している。 https://arnold-benchmark.github.io プロジェクトページを参照。

Understanding the continuous states of objects is essential for task learning and planning in the real world. However, most existing task learning benchmarks assume discrete(e.g., binary) object goal states, which poses challenges for the learning of complex tasks and transferring learned policy from simulated environments to the real world. Furthermore, state discretization limits a robot's ability to follow human instructions based on the grounding of actions and states. To tackle these challenges, we present ARNOLD, a benchmark that evaluates language-grounded task learning with continuous states in realistic 3D scenes. ARNOLD is comprised of 8 language-conditioned tasks that involve understanding object states and learning policies for continuous goals. To promote language-instructed learning, we provide expert demonstrations with template-generated language descriptions. We assess task performance by utilizing the latest language-conditioned policy learning models. Our results indicate that current models for language-conditioned manipulations continue to experience significant challenges in novel goal-state generalizations, scene generalizations, and object generalizations. These findings highlight the need to develop new algorithms that address this gap and underscore the potential for further research in this area. See our project page at: https://arnold-benchmark.github.io
翻訳日:2023-04-11 16:25:15 公開日:2023-04-09
# ダイス損失勾配とそれを模倣する方法について

On the dice loss gradient and the ways to mimic it ( http://arxiv.org/abs/2304.04319v1 )

ライセンス: Link先を確認
Hoel Kervadec, Marleen de Bruijne(参考訳) 完全に教師されたセマンティックセグメンテーションの文脈では、ニューラルネットワークを監督するデファクトスタンダードとして、クロスエントロピーやサイコロのようないくつかの損失が生まれている。 diceの損失は、一般的なdice係数の緩和に起因する興味深いケースである。 本稿では,まず,ダイス損失の勾配を理論的に検討し,特に地上の真理の重み付けされた負の値であり,非常に小さなダイナミックレンジであることを示す。 これにより、本論文の第2部では、基底真理の負のネットワーク出力の単純な要素的乗算により、ダイス損失の監督を模倣することができる。 このかなり驚くべき結果は、勾配降下時のサイコロ損失によって実行される実践的な監督に光を当てる。 これは、新しい損失を設計する際に研究者を指導しながら結果を理解し、解釈するのに役立ちます。

In the past few years, in the context of fully-supervised semantic segmentation, several losses -- such as cross-entropy and dice -- have emerged as de facto standards to supervise neural networks. The Dice loss is an interesting case, as it comes from the relaxation of the popular Dice coefficient; one of the main evaluation metric in medical imaging applications. In this paper, we first study theoretically the gradient of the dice loss, showing that concretely it is a weighted negative of the ground truth, with a very small dynamic range. This enables us, in the second part of this paper, to mimic the supervision of the dice loss, through a simple element-wise multiplication of the network output with a negative of the ground truth. This rather surprising result sheds light on the practical supervision performed by the dice loss during gradient descent. This can help the practitioner to understand and interpret results while guiding researchers when designing new losses.
翻訳日:2023-04-11 16:24:54 公開日:2023-04-09
# 物理インフォームドニューラルネットワークを用いた微小地震源イメージング

Microseismic source imaging using physics-informed neural networks with hard constraints ( http://arxiv.org/abs/2304.04315v1 )

ライセンス: Link先を確認
Xinquan Huang, Tariq Alkhalifah(参考訳) 微動源イメージングは受動的地震モニタリングにおいて重要な役割を果たす。 しかし, このプロセスは, スパース計測データを扱う際に, エイリアス問題により故障しがちである。 そこで本研究では,物理に変形したニューラルネットワーク(pinns)を基盤とした直接型マイクロサイスミックイメージングフレームワークを提案する。 PINNを用いてマルチ周波数波動場を表現し,その逆フーリエ変換を用いて音源画像の抽出を行う。 特に、周波数領域のウェーブフィールドの表現をハード制約によって本質的に境界条件(表面上の測定データ)を満たすように修正することで、ピンにおけるデータのバランスとpde損失の難しさを回避できる。 さらに,PINNの収束性を高めるために,深さに関する因果損失実装を提案する。 オーバースラストモデルを用いた数値実験により、単一または複数ソースおよびパッシブ監視環境においても、信頼性が高く正確なソースイメージングが可能となった。 さらに油圧フラクチャリングフィールドデータに本手法を適用し,本手法が精度良く光源を画像化できることを実証した。

Microseismic source imaging plays a significant role in passive seismic monitoring. However, such a process is prone to failure due to the aliasing problem when dealing with sparse measured data. Thus, we propose a direct microseismic imaging framework based on physics-informed neural networks (PINNs), which can generate focused source images, even with very sparse recordings. We use the PINNs to represent a multi-frequency wavefield and then apply the inverse Fourier transform to extract the source image. Specially, we modify the representation of the frequency-domain wavefield to inherently satisfy the boundary conditions (the measured data on the surface) by means of the hard constraint, which helps to avoid the difficulty in balancing the data and PDE losses in PINNs. Furthermore, we propose the causality loss implementation with respect to depth to enhance the convergence of PINNs. The numerical experiments on the Overthrust model show that the method can admit reliable and accurate source imaging for single- or multiple- sources and even in passive monitoring settings. Then, we further apply our method on the hydraulic fracturing field data, and demonstrate that our method can correctly image the source.
翻訳日:2023-04-11 16:24:39 公開日:2023-04-09
# 過剰適応型メタラーニングの一般化性能に関する理論的評価

Theoretical Characterization of the Generalization Performance of Overfitted Meta-Learning ( http://arxiv.org/abs/2304.04312v1 )

ライセンス: Link先を確認
Peizhong Ju, Yingbin Liang, Ness B. Shroff(参考訳) メタラーニングは、多くの類似したタスク、特にディープニューラルネットワーク(DNN)をトレーニングすることで、トレーニングパフォーマンスを向上させる方法として成功している。 しかし、DNNのような過パラメータ化モデルがメタラーニングにおいてうまく一般化できる時期と理由に関する理論的理解はまだ限られている。 この課題に取り組むための最初のステップとして,ガウス的特徴を持つ線形回帰モデルにおいて,過剰に適合したメタ学習の一般化性能について検討する。 提案手法は,近年のいくつかの研究とは対照的に,基礎的真理信号の特徴量よりもモデルパラメータの数が任意に大きいため,実践的なメタラーニングにおける過度なパラメータ化体制を自然に捉えることができる。 モデル非依存型メタラーニング(MAML)の過剰適合min$\ell_2$-norm解は,古典的(単一タスク)線形回帰現象における'benign overfitting'と'double descend'の最近の顕著な発見と類似している。 しかし,課題特異的勾配降下インナートレーニングのようなメタ学習の独特さと,訓練課題間の接地信号の多様性・変動から,単タスク線形回帰には存在しない新たな興味深い特性を見出した。 まず、一般化誤差に対して高確率上界(妥当な厳密性の下で)を提供し、特徴数が増加すると特定の項が減少する。 本研究は,各訓練タスクの騒音や基礎的真理の多様性・変動が大きい場合に,良性過剰がより重要で容易に観察できることを示す。 この状況下では、過適合のmin$\ell_2$-norm解が、パラメータ下解よりもさらに低い一般化誤差を達成できることが示される。

Meta-learning has arisen as a successful method for improving training performance by training over many similar tasks, especially with deep neural networks (DNNs). However, the theoretical understanding of when and why overparameterized models such as DNNs can generalize well in meta-learning is still limited. As an initial step towards addressing this challenge, this paper studies the generalization performance of overfitted meta-learning under a linear regression model with Gaussian features. In contrast to a few recent studies along the same line, our framework allows the number of model parameters to be arbitrarily larger than the number of features in the ground truth signal, and hence naturally captures the overparameterized regime in practical deep meta-learning. We show that the overfitted min $\ell_2$-norm solution of model-agnostic meta-learning (MAML) can be beneficial, which is similar to the recent remarkable findings on ``benign overfitting'' and ``double descent'' phenomenon in the classical (single-task) linear regression. However, due to the uniqueness of meta-learning such as task-specific gradient descent inner training and the diversity/fluctuation of the ground-truth signals among training tasks, we find new and interesting properties that do not exist in single-task linear regression. We first provide a high-probability upper bound (under reasonable tightness) on the generalization error, where certain terms decrease when the number of features increases. Our analysis suggests that benign overfitting is more significant and easier to observe when the noise and the diversity/fluctuation of the ground truth of each training task are large. Under this circumstance, we show that the overfitted min $\ell_2$-norm solution can achieve an even lower generalization error than the underparameterized solution.
翻訳日:2023-04-11 16:24:20 公開日:2023-04-09
# 時系列予測のためのアンサンブルモデリング:適応ロバスト最適化アプローチ

Ensemble Modeling for Time Series Forecasting: an Adaptive Robust Optimization Approach ( http://arxiv.org/abs/2304.04308v1 )

ライセンス: Link先を確認
Dimitris Bertsimas, Leonard Boussioux(参考訳) 時系列の正確な予測は、時間的データに関する幅広い問題に不可欠である。 アンサンブルモデリングは、複数の予測モデルを利用して精度とロバスト性を高めるための確立された手法である。 本稿では,時系列予測モデルのロバストアンサンブルを構築するための新しい手法を提案する。 提案手法は適応ロバスト最適化(ARO)を用いて,モデルの重みが時間とともに適応できる線形回帰アンサンブルを構築する。 本研究では, 大気汚染管理, エネルギー消費予測, 熱帯サイクロン強度予測など, 一連の総合実験および実世界の応用を通じて, 本手法の有効性を実証する。 その結果,アダプティブアンサンブルは,根平均二乗誤差が16-26%,条件値が14-28%,競争的アンサンブル技術が14-28%,後見の最良のアンサンブル部材を上回った。

Accurate time series forecasting is critical for a wide range of problems with temporal data. Ensemble modeling is a well-established technique for leveraging multiple predictive models to increase accuracy and robustness, as the performance of a single predictor can be highly variable due to shifts in the underlying data distribution. This paper proposes a new methodology for building robust ensembles of time series forecasting models. Our approach utilizes Adaptive Robust Optimization (ARO) to construct a linear regression ensemble in which the models' weights can adapt over time. We demonstrate the effectiveness of our method through a series of synthetic experiments and real-world applications, including air pollution management, energy consumption forecasting, and tropical cyclone intensity forecasting. Our results show that our adaptive ensembles outperform the best ensemble member in hindsight by 16-26% in root mean square error and 14-28% in conditional value at risk and improve over competitive ensemble techniques.
翻訳日:2023-04-11 16:23:45 公開日:2023-04-09
# PreCVAE:ベイズ深部生成モデルを用いたスケーラブルMCMCパラメータ推定

PriorCVAE: scalable MCMC parameter inference with Bayesian deep generative modelling ( http://arxiv.org/abs/2304.04307v1 )

ライセンス: Link先を確認
Elizaveta Semenova, Max Cairney-Leeming, Seth Flaxman(参考訳) 推論の速度とモデルの柔軟性が不可欠である応用分野において、確率過程が先行するモデルに対してベイズ推論を用いることは、例えばガウス過程(GP)がユビキタスである。 近年の文献では、gpプリエントやその有限実現によって生じる計算ボトルネックは変分オートエンコーダ(vaes)のような深い生成モデルを用いてエンコードでき、学習されたジェネレータはマルコフ連鎖モンテカルロ(mcmc)推論の際、元のプリエントの代わりにドロップイン方式で使用することができる。 このアプローチは高速かつ高効率な推論を可能にするが、確率過程のハイパーパラメータに関する情報を失い、その結果、ハイパーパラメータに対する推論が不可能になり、学習された事前が不明瞭になる。 本稿では,上記の課題を解決し,確率的プロセスハイパーパラメータ上でのVAEを条件付けることにより,学習前の問題を解消することを提案する。 このように、ハイパーパラメータはGP実現とともに符号化され、推論段階で明示的に推定できる。 PriorCVAEと呼ばれる新しい手法は、近似推論手法の中で有用なツールであり、重要な実生活における空間的および時空間的推論に大きな影響を与える可能性があると考えている。 precvaeのテクニックを示すコードは、以下のリンクからアクセスできる。

In applied fields where the speed of inference and model flexibility are crucial, the use of Bayesian inference for models with a stochastic process as their prior, e.g. Gaussian processes (GPs) is ubiquitous. Recent literature has demonstrated that the computational bottleneck caused by GP priors or their finite realizations can be encoded using deep generative models such as variational autoencoders (VAEs), and the learned generators can then be used instead of the original priors during Markov chain Monte Carlo (MCMC) inference in a drop-in manner. While this approach enables fast and highly efficient inference, it loses information about the stochastic process hyperparameters, and, as a consequence, makes inference over hyperparameters impossible and the learned priors indistinct. We propose to resolve the aforementioned issue and disentangle the learned priors by conditioning the VAE on stochastic process hyperparameters. This way, the hyperparameters are encoded alongside GP realisations and can be explicitly estimated at the inference stage. We believe that the new method, termed PriorCVAE, will be a useful tool among approximate inference approaches and has the potential to have a large impact on spatial and spatiotemporal inference in crucial real-life applications. Code showcasing the PriorCVAE technique can be accessed via the following link: https://github.com/elizavetasemenova/PriorCVAE
翻訳日:2023-04-11 16:23:27 公開日:2023-04-09
# グラフ上のクラス不均衡学習:調査

Class-Imbalanced Learning on Graphs: A Survey ( http://arxiv.org/abs/2304.04300v1 )

ライセンス: Link先を確認
Yihong Ma, Yijun Tian, Nuno Moniz, Nitesh V. Chawla(参考訳) データ駆動研究の急速な進歩は、効果的なグラフデータ分析の需要を増加させた。 しかし、実世界のデータはしばしばクラス不均衡を示し、機械学習モデルの性能が低下する。 この課題を克服するために、グラフ表現学習とクラス不均衡学習の強みを組み合わせた有望なソリューションとして、グラフ上のクラス不均衡学習(CILG)が登場した。 近年、CILGは大きな進歩を遂げている。 このような傾向が続くことを期待して、この調査はCILGの現状を包括的に把握し、今後の研究方向性に対する洞察を提供することを目的としている。 前者については,既存の著作の最初の分類と,既存の不均衡学習文献との関連について紹介する。 後者については、CILGにおける最近の研究を批判的に分析し、そのトピックにおける緊急調査の行について論じる。 さらに https://github.com/yihongma/CILG-Papers.com で継続的に維持されている論文やコードの読み込みリストを提供する。

The rapid advancement in data-driven research has increased the demand for effective graph data analysis. However, real-world data often exhibits class imbalance, leading to poor performance of machine learning models. To overcome this challenge, class-imbalanced learning on graphs (CILG) has emerged as a promising solution that combines the strengths of graph representation learning and class-imbalanced learning. In recent years, significant progress has been made in CILG. Anticipating that such a trend will continue, this survey aims to offer a comprehensive understanding of the current state-of-the-art in CILG and provide insights for future research directions. Concerning the former, we introduce the first taxonomy of existing work and its connection to existing imbalanced learning literature. Concerning the latter, we critically analyze recent work in CILG and discuss urgent lines of inquiry within the topic. Moreover, we provide a continuously maintained reading list of papers and code at https://github.com/yihongma/CILG-Papers.
翻訳日:2023-04-11 16:23:03 公開日:2023-04-09
# 確率的軌道予測のための教師なしサンプリング

Unsupervised Sampling Promoting for Stochastic Human Trajectory Prediction ( http://arxiv.org/abs/2304.04298v1 )

ライセンス: Link先を確認
Guangyi Chen, Zhenhao Chen, Shunxing Fan, Kun Zhang(参考訳) 人間の運動の非決定的な性質は、軌道予測系が多様性現象を定式化し、将来の軌道の有限集合を推測するために確率モデルを使用する必要がある。 しかし、既存のほとんどの手法の推論過程はモンテカルロのランダムサンプリングに依存しており、予測された分布の長い尾効果のため、現実的な経路を有限サンプルでカバーするには不十分である。 確率予測のサンプリングプロセスを促進するために,前述したサンプルに新しい予測が依存する逐次設計戦略として,ベイズ最適化によるポテンシャル経路を適応的にマイニングする新しい手法bosamplerを提案する。 具体的には、軌道サンプリングをガウス過程としてモデル化し、ポテンシャルサンプリング値を測定するための獲得関数を構築する。 この取得関数は、元の分布を予め適用し、長い尾領域の経路を探索することを奨励する。 このサンプリング方法は、再学習することなく既存の確率的予測モデルと統合することができる。 各種ベースライン法の実験結果から,本手法の有効性が示された。

The indeterminate nature of human motion requires trajectory prediction systems to use a probabilistic model to formulate the multi-modality phenomenon and infer a finite set of future trajectories. However, the inference processes of most existing methods rely on Monte Carlo random sampling, which is insufficient to cover the realistic paths with finite samples, due to the long tail effect of the predicted distribution. To promote the sampling process of stochastic prediction, we propose a novel method, called BOsampler, to adaptively mine potential paths with Bayesian optimization in an unsupervised manner, as a sequential design strategy in which new prediction is dependent on the previously drawn samples. Specifically, we model the trajectory sampling as a Gaussian process and construct an acquisition function to measure the potential sampling value. This acquisition function applies the original distribution as prior and encourages exploring paths in the long-tail region. This sampling method can be integrated with existing stochastic predictive models without retraining. Experimental results on various baseline methods demonstrate the effectiveness of our method.
翻訳日:2023-04-11 16:22:47 公開日:2023-04-09
# リアルタイムX線写真データ解析のためのAI支援自動ワークフロー

AI-assisted Automated Workflow for Real-time X-ray Ptychography Data Analysis via Federated Resources ( http://arxiv.org/abs/2304.04297v1 )

ライセンス: Link先を確認
Anakha V Babu, Tekin Bicer, Saugat Kandel, Tao Zhou, Daniel J. Ching, Steven Henke, Sini\v{s}a Veseli, Ryan Chard, Antonino Miceli, Mathew Joseph Cherukara(参考訳) 大規模リモートコンピューティングリソースと組込みGPUプラットフォームをエッジに使用して,X線写真のために収集したデータのAI/ML高速化リアルタイム解析を可能にする,エンドツーエンドの自動ワークフローを提案する。 Ptychography は、隣接する重なり合う走査位置から多数の回折パターンの同時数値逆転を通じてサンプルを撮像するために用いられるレンズレス手法である。 この取得方法は、x線と電子によるナノスケールイメージングを可能にするが、これはしばしば非常に大きな実験データセットと概ね高いターンアラウンド時間を必要とし、リアルタイムの実験ステアリングや低レイテンシモニタリングのような実験能力を制限することができる。 本研究では, ptychographyデータ解析タスクを自動化可能なソフトウェアシステムを提案する。 我々はPtychoNNの修正版を用いてデータ解析パイプラインを高速化する。このMLベースのアプローチは、従来の反復法と比較して2桁の速度アップを示す位相探索問題を解決する。 さらに、異なるデータ分析タスクを調整・重ね合わせ、ワークフローの異なるステージ間の同期オーバーヘッドを最小化する。 我々は,advanced photon source の 26id beamline と argonne leadership computing resources の thetagpu cluster から実世界の実験ワークロードを用いてワークフローシステムを評価する。

We present an end-to-end automated workflow that uses large-scale remote compute resources and an embedded GPU platform at the edge to enable AI/ML-accelerated real-time analysis of data collected for x-ray ptychography. Ptychography is a lensless method that is being used to image samples through a simultaneous numerical inversion of a large number of diffraction patterns from adjacent overlapping scan positions. This acquisition method can enable nanoscale imaging with x-rays and electrons, but this often requires very large experimental datasets and commensurately high turnaround times, which can limit experimental capabilities such as real-time experimental steering and low-latency monitoring. In this work, we introduce a software system that can automate ptychography data analysis tasks. We accelerate the data analysis pipeline by using a modified version of PtychoNN -- an ML-based approach to solve phase retrieval problem that shows two orders of magnitude speedup compared to traditional iterative methods. Further, our system coordinates and overlaps different data analysis tasks to minimize synchronization overhead between different stages of the workflow. We evaluate our workflow system with real-world experimental workloads from the 26ID beamline at Advanced Photon Source and ThetaGPU cluster at Argonne Leadership Computing Resources.
翻訳日:2023-04-11 16:22:32 公開日:2023-04-09
# Eコマース機械学習のためのプレトレーニング済み埋め込み:いつそれが失敗し、なぜ?

Pretrained Embeddings for E-commerce Machine Learning: When it Fails and Why? ( http://arxiv.org/abs/2304.04330v1 )

ライセンス: Link先を確認
Da Xu, Bo Yang(参考訳) トレーニング済みの組み込みは、現代のeコマース機械学習(ml)システムで広く使われている。 しかし,実際に実運用システムに事前学習を組み込む際には,いくつかの重要な問題が発生しており,その多くが現在の知識で完全に説明できない。 残念なことに、プレトレーニング済みの埋め込み、特に本質的な性質と下流タスクとの相互作用について、十分に理解されていないことが分かりました。 その結果、事前にトレーニングされた埋め込みの使用に関してインタラクティブでスケーラブルな意思決定を行うことが困難になる。 調査の結果,電子商取引アプリケーションに予めトレーニング済みの埋め込みを使用することに関して,2つの重要な発見が得られた。 まず,プリトレーニングモデルと下流モデルの設計,特に組込みベクトルによる情報のエンコードとデコード方法が,大きな影響を与える可能性があることを見出した。 次に,事前学習された組込みの原理的視点をカーネル分析のレンズを通して確立し,その予測可能性,対話的,スカラー的に評価する。 これらの発見は、私たちが直面した実用的な課題に対処し、実運用で事前訓練された組込みを成功させるための貴重なガイダンスを提供するのに役立ちます。 私たちの結論は、堅固な理論的推論、ベンチマーク実験、オンラインテストによって裏付けられています。

The use of pretrained embeddings has become widespread in modern e-commerce machine learning (ML) systems. In practice, however, we have encountered several key issues when using pretrained embedding in a real-world production system, many of which cannot be fully explained by current knowledge. Unfortunately, we find that there is a lack of a thorough understanding of how pre-trained embeddings work, especially their intrinsic properties and interactions with downstream tasks. Consequently, it becomes challenging to make interactive and scalable decisions regarding the use of pre-trained embeddings in practice. Our investigation leads to two significant discoveries about using pretrained embeddings in e-commerce applications. Firstly, we find that the design of the pretraining and downstream models, particularly how they encode and decode information via embedding vectors, can have a profound impact. Secondly, we establish a principled perspective of pre-trained embeddings via the lens of kernel analysis, which can be used to evaluate their predictability, interactively and scalably. These findings help to address the practical challenges we faced and offer valuable guidance for successful adoption of pretrained embeddings in real-world production. Our conclusions are backed by solid theoretical reasoning, benchmark experiments, as well as online testings.
翻訳日:2023-04-11 16:13:40 公開日:2023-04-09
# 分散学習のための分布内知識蒸留による非IIDデータセットの均質化

Homogenizing Non-IID datasets via In-Distribution Knowledge Distillation for Decentralized Learning ( http://arxiv.org/abs/2304.04326v1 )

ライセンス: Link先を確認
Deepak Ravikumar, Gobinda Saha, Sai Aparna Aketi, Kaushik Roy,(参考訳) 分散学習により、複数のノード上で分散的にディープニューラルネットワーク(DNN)のサーバレストレーニングが可能になる。 これにより、大規模なデータセットの使用や、さまざまなデータソースでトレーニングすることが可能になる。 しかしながら、分散学習における重要な課題の1つは、ノード間のデータ分散の多様性である。 本稿では、異種データ分散の課題を解決するために、IDKD(In-Distribution Knowledge Distillation)を提案する。 IDKDの目標は、ノード間のデータ分散を均質化することです。 このようなデータの均質化は、プライバシを犠牲にするノード間でデータを交換することで達成できるが、IDKDは、プライバシ制約を破ることなく、ノード間で共通の公開データセットを使用して同じ目的を達成する。 このパブリックデータセットはトレーニングデータセットと異なり、各ノードから知識を抽出し、生成されたラベルを通じて隣人に通信するために使用される。 従来の知識蒸留では、すべての公開データセットが局所データセットと類似性に関係なく使用されるため、蒸留モデルの一般化が減少する。 そこで我々は,各ノードにout-of-distribution(ood)検出器を導入し,ローカルトレーニングデータ分布に近いパブリックデータセットのサブセットをラベル付けする。 最後に、これらのサブセットに対応するラベルのみをノード間で交換し、各ノードの平均的なラベルをこれらのデータサブセットとそのローカルデータに微調整する。 複数の画像分類データセットとグラフトポロジを用いた実験により,提案手法は従来の知識蒸留法よりも有効であり,通信オーバーヘッドを最小限に抑えた異種分散データに対する最先端の一般化性能を実現する。

Decentralized learning enables serverless training of deep neural networks (DNNs) in a distributed manner on multiple nodes. This allows for the use of large datasets, as well as the ability to train with a wide variety of data sources. However, one of the key challenges with decentralized learning is heterogeneity in the data distribution across the nodes. In this paper, we propose In-Distribution Knowledge Distillation (IDKD) to address the challenge of heterogeneous data distribution. The goal of IDKD is to homogenize the data distribution across the nodes. While such data homogenization can be achieved by exchanging data among the nodes sacrificing privacy, IDKD achieves the same objective using a common public dataset across nodes without breaking the privacy constraint. This public dataset is different from the training dataset and is used to distill the knowledge from each node and communicate it to its neighbors through the generated labels. With traditional knowledge distillation, the generalization of the distilled model is reduced because all the public dataset samples are used irrespective of their similarity to the local dataset. Thus, we introduce an Out-of-Distribution (OoD) detector at each node to label a subset of the public dataset that maps close to the local training data distribution. Finally, only labels corresponding to these subsets are exchanged among the nodes and with appropriate label averaging each node is finetuned on these data subsets along with its local data. Our experiments on multiple image classification datasets and graph topologies show that the proposed IDKD scheme is more effective than traditional knowledge distillation and achieves state-of-the-art generalization performance on heterogeneously distributed data with minimal communication overhead.
翻訳日:2023-04-11 16:13:20 公開日:2023-04-09