このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240305となっている論文です。

PDF登録状況(公開日: 20240305)

TitleAuthorsAbstract論文公表日・翻訳日
# EVEパイロット(Electric Vehicle Enquiry)

Electric Vehicle Enquiry (EVE) Pilot ( http://arxiv.org/abs/2403.14670v1 )

ライセンス: Link先を確認
Seun Osonuga, Frederic Wurtz, Benoit Delinchant, (参考訳) 本稿では,電気自動車(EV)の利用に関する研究からデータセットを提示する。 このデータセットは、この研究で収集された最初のデータセットをカバーしている。 データセットの収集プロセス、その処理、および含むすべての変数の説明は、詳細である。 このデータセットの収集は、低コストの商用機器とオープンソースソフトウェアで収集されたデータセットとして、パーソナルモビリティ領域における参加型研究のイテレーションを表している。 データセットを提供する際のいくつかの課題についても論じられている。最も重要なのは、アンドロイド電話やOBDIIアダプタとしてのデータ収集の断続的な性質である。

This data paper presents the dataset from a study on the use of electric vehicles (EVs). This dataset covers the first dataset collected in this study: the usage data from a Renault Zoe over 3 years. The process of collection of the dataset, its treatment, and descriptions of all the included variables are detailed. The collection of this dataset represents an iteration of participative research in the personal mobility domain as the dataset was collected with low-cost commercially available equipment and open-source software. Some of the challenges of providing the dataset are also discussed: the most pertinent being the intermittent nature of data collection as an android phone and OBDII adapter were used to collect the dataset.
翻訳日:2024-04-01 03:33:23 公開日:2024-03-05
# 交通ギャップの理解:チャタヌーガ, チャタヌーガ, シャーロット, アヴォンデールにおけるオンデマンドバスサービスと都市気候レジリエンスの比較研究

Understanding the Transit Gap: A Comparative Study of On-Demand Bus Services and Urban Climate Resilience in South End, Charlotte, NC and Avondale, Chattanooga, TN ( http://arxiv.org/abs/2403.14671v1 )

ライセンス: Link先を確認
Sanaz Sadat Hosseini, Babak Rahimi Ardabili, Mona Azarbayjani, Srinivas Pulugurtha, Hamed Tabkhi, (参考訳) 都市デザインは持続可能性に大きな影響を及ぼし、特に公共交通機関の効率と二酸化炭素排出量の削減という文脈においてである。 本研究は, 南端, シャーロット, NC, 動的混在型都市デザインパターンを特徴とする2つの地区と, 郊外グリッドレイアウトを有するチャタヌーガ, アヴォンデールの2つの地区を探索する。 TransIT-GYMツールを用いて,これらの異なる都市環境におけるバス利用の増加が交通とCO2排出量に与える影響を評価する。 本研究は,交通システムの効率化における都市設計と計画の重要な役割を明らかにするものである。 サウスエンドでは、混合用途の設計により排出量が大幅に減少し、都市のレイアウトが公共交通機関の成果に大きく影響することを示した。 ユニークな都市デザイン要素を考慮に入れた卓越した戦略は、気候の回復に不可欠である。 特に、バスの利用量は、サウスエンドで10.18%、アヴォンデールで8.13%減少し、全体の交通量も減少した。 50%のバス利用目標がサウスエンドで21.45%、アヴォンデールで14.50%減少していた。 バス利用の70%という理想主義的な目標において、サウスエンドとアヴォンデールはそれぞれ37.22%と27.80%の排出量削減が見られた。 これらの知見は、持続可能な都市景観開発において、都市設計者や政策立案者にとって不可欠である。

Urban design significantly impacts sustainability, particularly in the context of public transit efficiency and carbon emissions reduction. This study explores two neighborhoods with distinct urban designs: South End, Charlotte, NC, featuring a dynamic mixed-use urban design pattern, and Avondale, Chattanooga, TN, with a residential suburban grid layout. Using the TRANSIT-GYM tool, we assess the impact of increased bus utilization in these different urban settings on traffic and CO2 emissions. Our results highlight the critical role of urban design and planning in transit system efficiency. In South End, the mixed-use design led to more substantial emission reductions, indicating that urban layout can significantly influence public transit outcomes. Tailored strategies that consider the unique urban design elements are essential for climate resilience. Notably, doubling bus utilization decreased daily emissions by 10.18% in South End and 8.13% in Avondale, with a corresponding reduction in overall traffic. A target of 50% bus utilization saw emissions drop by 21.45% in South End and 14.50% in Avondale. At an idealistic goal of 70% bus utilization, South End and Avondale witnessed emission reductions of 37.22% and 27.80%, respectively. These insights are crucial for urban designers and policymakers in developing sustainable urban landscapes.
翻訳日:2024-04-01 03:33:23 公開日:2024-03-05
# LLMにおける「培養」の測定とモデル化に向けて

Towards Measuring and Modeling "Culture" in LLMs: A Survey ( http://arxiv.org/abs/2403.15412v1 )

ライセンス: Link先を確認
Muhammad Farid Adilazuarda, Sagnik Mukherjee, Pradhyumna Lavania, Siddhant Singh, Ashutosh Dwivedi, Alham Fikri Aji, Jacki O'Neill, Ashutosh Modi, Monojit Choudhury, (参考訳) 本稿では,大規模言語モデルにおける文化的表現と包摂性の研究を目的とした39の最近の論文について調査する。 いずれの研究も、複雑で多面的な概念である「文化」を定義しておらず、代わりに「文化」の特定の側面を表す特別に設計されたデータセット上でモデルを探索している。 これらの側面を文化のプロキシと呼び、人口統計学、意味学、言語-文化的相互作用の3つの側面にまたがってそれらを整理する。 また、使用する探索方法も分類する。 分析の結果,特にセマンティックドメインの多様さ (Thompson et al , 2020) と,非探索的な話題 (Hershcovich et al , 2022) が残されている。 その他の2つの重要なギャップは、現在の方法の堅牢性と位置性の欠如である。 これらの観測に基づいて, LLM と LLM に基づく応用における文化的包摂性を高めるための総合的かつ実用的な研究課題について, いくつか提言する。

We present a survey of 39 recent papers that aim to study cultural representation and inclusion in large language models. We observe that none of the studies define "culture," which is a complex, multifaceted concept; instead, they probe the models on some specially designed datasets which represent certain aspects of "culture." We call these aspects the proxies of cultures, and organize them across three dimensions of demographic, semantic and linguistic-cultural interaction proxies. We also categorize the probing methods employed. Our analysis indicates that only certain aspects of "culture," such as values and objectives, have been studied, leaving several other interesting and important facets, especially the multitude of semantic domains (Thompson et al., 2020) and aboutness (Hershcovich et al., 2022), unexplored. Two other crucial gaps are the lack of robustness and situatedness of the current methods. Based on these observations, we provide several recommendations for a holistic and practically useful research agenda for furthering cultural inclusion in LLMs and LLM-based applications.
翻訳日:2024-04-01 03:04:05 公開日:2024-03-05
# GenAIによるコンテンツにおける公平なリワードスプリットのための共有価値駆動型フレームワーク

Shapley Values-Powered Framework for Fair Reward Split in Content Produced by GenAI ( http://arxiv.org/abs/2403.09700v1 )

ライセンス: Link先を確認
Alex Glinsky, Alexey Sokolsky, (参考訳) 現在、生成モデルは人間のプロフェッショナルによって品質を上回っていることは明らかである。 しかし、人工知能の進歩により、このギャップは狭まり、高いコストでスキルを習得するために長年を捧げてきた個人が時代遅れになるシナリオへと繋がる。 将来的な社会的不況を避けるために、私たちは今でも、生成モデルの訓練において、そのような個人の貢献を公平に評価する方法や、収入の減少や完全な損失を補う方法を考えなければならない。 本研究では,モデル開発者とデータ提供者間のコラボレーションを構築する手法を提案する。 そこで我々はShapley Valuesを用いて,Stable Diffusion-v1.5モデルによって生成された画像におけるアーティストの貢献度を定量化し,その報酬を公平に割り当てる。

It is evident that, currently, generative models are surpassed in quality by human professionals. However, with the advancements in Artificial Intelligence, this gap will narrow, leading to scenarios where individuals who have dedicated years of their lives to mastering a skill become obsolete due to their high costs, which are inherently linked to the time they require to complete a task -- a task that AI could accomplish in minutes or seconds. To avoid future social upheavals, we must, even now, contemplate how to fairly assess the contributions of such individuals in training generative models and how to compensate them for the reduction or complete loss of their incomes. In this work, we propose a method to structure collaboration between model developers and data providers. To achieve this, we employ Shapley Values to quantify the contribution of artist(s) in an image generated by the Stable Diffusion-v1.5 model and to equitably allocate the reward among them.
翻訳日:2024-03-25 08:06:28 公開日:2024-03-05
# Tel2Veh: 時空間フレームワークによるカメラフリートラフィック予測のための通信データと車両フローの融合

Tel2Veh: Fusion of Telecom Data and Vehicle Flow to Predict Camera-Free Traffic via a Spatio-Temporal Framework ( http://arxiv.org/abs/2403.12991v1 )

ライセンス: Link先を確認
ChungYi Lin, Shen-Lung Tung, Hung-Ting Su, Winston H. Hsu, (参考訳) 輸送の重要な指標である車両の流れは、しばしば検出器のカバレッジによって制限される。 モバイルネットワークの広範なカバレッジの出現により、道路上でのモバイルユーザ活動(セルラートラフィック)を車の流れのプロキシとして活用することができる。 しかし, セルラートラフィックの数は, 各種利用者データによる車の流れと直接一致しないため, セルラートラフィックを用いたカメラレスエリアでの車の流れの予測という新たな課題が提示される。 マルチソースデータ内の相関関係を明らかにするために、選択した道路にカメラを配置し、広範なセルトラフィックとスパース車両フローからなるTel2Vehデータセットを構築した。 この課題に対処するため、我々は、独立して特徴を抽出し、それらをグラフニューラルネットワーク(GNN)ベースの融合と統合して、格差を識別し、セルラートラフィックを用いた見えない車両の流れの予測を可能にするフレームワークを提案する。 この研究は、輸送における通信データの利用を促進し、通信とビジョンベースのデータの融合を開拓し、交通管理のためのソリューションを提供する。

Vehicle flow, a crucial indicator for transportation, is often limited by detector coverage. With the advent of extensive mobile network coverage, we can leverage mobile user activities, or cellular traffic, on roadways as a proxy for vehicle flow. However, as counts of cellular traffic may not directly align with vehicle flow due to data from various user types, we present a new task: predicting vehicle flow in camera-free areas using cellular traffic. To uncover correlations within multi-source data, we deployed cameras on selected roadways to establish the Tel2Veh dataset, consisting of extensive cellular traffic and sparse vehicle flows. Addressing this challenge, we propose a framework that independently extracts features and integrates them with a graph neural network (GNN)-based fusion to discern disparities, thereby enabling the prediction of unseen vehicle flows using cellular traffic. This work advances the use of telecom data in transportation and pioneers the fusion of telecom and vision-based data, offering solutions for traffic management.
翻訳日:2024-03-25 07:27:10 公開日:2024-03-05
# 多層パーセプトロンを用いた簡易フルスペクトル関連k分布モデル

Simple Full-Spectrum Correlated k-Distribution Model based on Multilayer Perceptron ( http://arxiv.org/abs/2403.12993v1 )

ライセンス: Link先を確認
Xin Wang, Yucheng Kuang, Chaojun Wang, Hongyuan Di, Boshu He, (参考訳) ニューラルネットワークは、訓練された多層パーセプトロン(MLP)モデルによって予測されるk値を持つ幅広い熱力学におけるフルスペクトルk-分布(FSCK)法にうまく適用されているが、必要となるa-値はオンザフライで計算する必要がある。 一方、現在のMLPモデルの複雑すぎる構造は計算効率を必然的に低下させる。 そこで, FSCK法の性質に基づいて設計した単純なMLP, FSCK MLP (SFM) モデルを開発した。 SFMモデルと、ルックアップテーブルや従来のFSCK MLP(TFM)モデルを含む他のFSCKツールを比較するために、いくつかのテストケースが実施されている。 その結果, SFMモデルでは, TFMモデルよりもはるかに少ない小さな計算コストで, ルックアップテーブルよりも優れた精度が得られることがわかった。 精度, 効率, 可搬性を考慮すると, SFMモデルはスペクトル特性の予測に優れたツールであるだけでなく, 非線形効果による誤差を低減する方法も提供する。

While neural networks have been successfully applied to the full-spectrum k-distribution (FSCK) method at a large range of thermodynamics with k-values predicted by a trained multilayer perceptron (MLP) model, the required a-values still need to be calculated on-the-fly, which theoretically degrades the FSCK method and may lead to errors. On the other hand, too complicated structure of the current MLP model inevitably slows down the calculation efficiency. Therefore, to compensate among accuracy, efficiency and storage, the simple MLP designed based on the nature of FSCK method are developed, i.e., the simple FSCK MLP (SFM) model, from which those correlated k-values and corresponding ka-values can be efficiently obtained. Several test cases have been carried out to compare the developed SFM model and other FSCK tools including look-up tables and traditional FSCK MLP (TFM) model. Results show that the SFM model can achieve excellent accuracy that is even better than look-up tables at a tiny computational cost that is far less than that of TFM model. Considering accuracy, efficiency and portability, the SFM model is not only an excellent tool for the prediction of spectral properties, but also provides a method to reduce the errors due to nonlinear effects.
翻訳日:2024-03-25 07:17:26 公開日:2024-03-05
# 統一分子モデリングのための多スケールタンパク質言語モデル

Multi-Scale Protein Language Model for Unified Molecular Modeling ( http://arxiv.org/abs/2403.12995v1 )

ライセンス: Link先を確認
Kangjie Zheng, Siyu Long, Tianyu Lu, Junwei Yang, Xinyu Dai, Ming Zhang, Zaiqing Nie, Wei-Ying Ma, Hao Zhou, (参考訳) タンパク質言語モデルは、タンパク質工学の分野で大きな可能性を証明している。 しかしながら、現在のタンパク質言語モデルは、主に残基スケールで機能し、原子レベルで情報を提供する能力を制限する。 この制限により、タンパク質と小分子の両方の応用のために、タンパク質言語モデルの能力を十分に活用することができません。 本稿では,マルチスケール分子モデリングを実現する新しい手法であるms-ESM(multi-scale ESM)を提案する。 ms-ESMは、マルチスケールのコードスウィッチタンパク質配列を事前訓練し、マルチスケールの位置符号化を利用して、残基と原子間の関係を捉えることでこれを達成している。 実験の結果,ms-ESMはタンパク質分子タスクにおける従来の手法を超越し,タンパク質言語モデルの完全活用を実証した。 さらなる研究により、ms-ESMは分子の知識を得るだけでなく、タンパク質の理解も維持することが明らかとなった。

Protein language models have demonstrated significant potential in the field of protein engineering. However, current protein language models primarily operate at the residue scale, which limits their ability to provide information at the atom level. This limitation prevents us from fully exploiting the capabilities of protein language models for applications involving both proteins and small molecules. In this paper, we propose ms-ESM (multi-scale ESM), a novel approach that enables multi-scale unified molecular modeling. ms-ESM achieves this by pre-training on multi-scale code-switch protein sequences and utilizing a multi-scale position encoding to capture relationships among residues and atoms. Experimental results indicate that ms-ESM surpasses previous methods in protein-molecule tasks, demonstrating the full utilization of protein language models. Further investigations reveal that through unified molecular modeling, ms-ESM not only gains molecular knowledge but also retains its understanding of proteins.
翻訳日:2024-03-25 07:17:26 公開日:2024-03-05
# 学生のパフォーマンス属性を学習するための効果的な学習管理システム

An Effective Learning Management System for Revealing Student Performance Attributes ( http://arxiv.org/abs/2403.13822v1 )

ライセンス: Link先を確認
Xinyu Zhang, Vincent CS Lee, Duo Xu, Jun Chen, Mohammad S. Obaidat, (参考訳) 学習管理システムは、集中的な場所での教育プロセスの管理を効率化し、教育コースの納期と学生のパフォーマンスを記録し、追跡し、報告する。 このようなeラーニングシステムからの教育的知識発見は,ルール規制,政策確立,システム開発において重要な役割を担っている。 しかし、既存のLMSは、知識を直接抽出するための組み込みのマイニングモジュールを持っていない。 教育モードが複雑化するにつれて、これらの異質な学習行動からの教育データマイニング効率は徐々に低下していく。 そこで本研究では, 先進的な教育用マイニングモジュールを組み込んだLMSを提案し, 学生成績記録から効率的なマイニングを行い, 効果的な学習教育計画の立案, カリキュラム設計の改善, 教育の質の確保に役立てる上で, 教育者にとって貴重な知見を提供する。 2つの実証的なケーススタディを通じて、実験結果により、従来の教育的なマイニングアルゴリズムと比較して情報損失のないマイニングモジュールのマイニング効率が向上した。 マイニングされた知識は、学生の学業成績に大きな影響を及ぼす属性の集合を明らかにし、さらに分類評価により、同定された属性を評価する。 このような効果的なLMSの設計と応用により、教育者は過去の学生のパフォーマンス経験から学び、時間内に生徒と交流し、最終的に学業成功を向上させることができる。

A learning management system streamlines the management of the teaching process in a centralized place, recording, tracking, and reporting the delivery of educational courses and student performance. Educational knowledge discovery from such an e-learning system plays a crucial role in rule regulation, policy establishment, and system development. However, existing LMSs do not have embedded mining modules to directly extract knowledge. As educational modes become more complex, educational data mining efficiency from those heterogeneous student learning behaviours is gradually degraded. Therefore, an LMS incorporated with an advanced educational mining module is proposed in this study, as a means to mine efficiently from student performance records to provide valuable insights for educators in helping plan effective learning pedagogies, improve curriculum design, and guarantee quality of teaching. Through two illustrative case studies, experimental results demonstrate increased mining efficiency of the proposed mining module without information loss compared to classic educational mining algorithms. The mined knowledge reveals a set of attributes that significantly impact student academic performance, and further classification evaluation validates the identified attributes. The design and application of such an effective LMS can enable educators to learn from past student performance experiences, empowering them to guide and intervene with students in time, and eventually improve their academic success.
翻訳日:2024-03-25 07:07:37 公開日:2024-03-05
# 超高粒度粒子物理検出器シミュレーションのための深部生成モデル:エミュレーションから外挿への旅

Deep Generative Models for Ultra-High Granularity Particle Physics Detector Simulation: A Voyage From Emulation to Extrapolation ( http://arxiv.org/abs/2403.13825v1 )

ライセンス: Link先を確認
Baran Hashemi, (参考訳) 粒子物理学における超高粒度検出器応答のシミュレーションは、重要なが計算に要求される課題である。 この論文は、ベルII実験におけるPixel Vertex Detector(PXD)のこの課題を克服することを目的としている。 この論文は、検出器シグネチャをシミュレートする生成モデルに関する包括的で分類学的レビューから始まる。 そして、リレーショナル注意推論を導入した新しい幾何認識生成モデルIEA-GAN(Intra-Event Aware Generative Adversarial Network)と自己監督学習(Self-Supervised Learning)を紹介し、検出器の"イベント"を近似する。 本研究は,下流物理解析における大気中の相関の重要性を浮き彫りにするものである。 これに基づいて、この研究はより一般的なアプローチへと流れ、カテゴリー理論にインスパイアされた生成モデルであるYonedaVAEを紹介し、アウト・オブ・ディストリビューション(OOD)シミュレーションのオープンな問題に取り組む。 YonedaVAEは学習可能なYoneda埋め込みを導入し、センサーの関係に基づいてイベント全体をキャプチャし、イベント内リレーショナル推論のためのカテゴリ理論言語を定式化する。 これは、VAEのためのセルフ・スーパービジョン・ラーナブルな事前学習機構と適応的Top-qサンプリング機構を導入し、モデルがゼロショット方式でカテゴリ内濃度の異なる点雲をサンプリングできるようにすることによって補完される。 可変領域内濃度は以前にも接近されておらず、不規則な検出器のジオメトリーをシミュレートするのに不可欠である。 初期の実験データに基づいて、YonedaVAEは2倍の光度を持つ後の実験の適切なOODシミュレーション精度に達することができる。 本研究は、粒子物理学における超高粒度検出器シミュレーションに深部生成モデルを用いた結果について初めて紹介する。

Simulating ultra-high-granularity detector responses in Particle Physics represents a critical yet computationally demanding task. This thesis aims to overcome this challenge for the Pixel Vertex Detector (PXD) at the Belle II experiment, which features over 7.5M pixel channels-the highest spatial resolution detector simulation dataset ever analysed with generative models. This thesis starts off by a comprehensive and taxonomic review on generative models for simulating detector signatures. Then, it presents the Intra-Event Aware Generative Adversarial Network (IEA-GAN), a new geometry-aware generative model that introduces a relational attentive reasoning and Self-Supervised Learning to approximate an "event" in the detector. This study underscores the importance of intra-event correlation for downstream physics analyses. Building upon this, the work drifts towards a more generic approach and presents YonedaVAE, a Category Theory-inspired generative model that tackles the open problem of Out-of-Distribution (OOD) simulation. YonedaVAE introduces a learnable Yoneda embedding to capture the entirety of an event based on its sensor relationships, formulating a Category theoretical language for intra-event relational reasoning. This is complemented by introducing a Self-Supervised learnable prior for VAEs and an Adaptive Top-q sampling mechanism, enabling the model to sample point clouds with variable intra-category cardinality in a zero-shot manner. Variable Intra-event cardinality has not been approached before and is vital for simulating irregular detector geometries. Trained on an early experiment data, YonedaVAE can reach a reasonable OOD simulation precision of a later experiment with almost double luminosity. This study introduces, for the first time, the results of using deep generative models for ultra-high granularity detector simulation in Particle Physics.
翻訳日:2024-03-25 07:07:37 公開日:2024-03-05
# 時空間IoTデータセットにおけるユーザレベルプライバシによる平均推定

Mean Estimation with User-Level Privacy for Spatio-Temporal IoT Datasets ( http://arxiv.org/abs/2401.15906v5 )

ライセンス: Link先を確認
V. Arvind Rameshwar, Anshoo Tandon, Prajjwal Gupta, Aditya Vikram Singh, Novoneel Chakraborty, Abhay Sharma, (参考訳) 本稿では,交通データセットからの速度値のサンプル平均値のプライベートリリースの問題について考察する。 私たちの重要な貢献は、ユーザレベルの微分プライベートアルゴリズムの開発です。これは、慎重に選択されたパラメータ値を組み込んで、実際のデータセットの低い推定エラーを保証し、プライバシを確保します。 インドシティのITMS(Intelligent Traffic Management System)データ上で,未知の分布から,異なるバスの速度が潜在的に非単位の方法で引き出される場合,また,異なるバスが提供した速度サンプルの数が異なる場合のアルゴリズムをテストする。 次に、ITMSデータに基づいて生成された大規模な合成データセットにアルゴリズムを適用する。 ここでは,観測された性能傾向の理論的正当性と,推定誤差の低いアルゴリズムサブルーチンの選択を推奨する。 最後に, 擬似ユーザ生成に基づくアルゴリズムの性能を, ミニマックスアプローチにより評価し, 擬似ユーザ生成のための新しい手順を考案し, 最悪ケースの総推定誤差を最適化する。 論文で論じているアルゴリズムは、一般的な時空間IoTデータセットに容易に適用でき、所望値の微分プライベート平均を解放することができる。

This paper considers the problem of the private release of sample means of speed values from traffic datasets. Our key contribution is the development of user-level differentially private algorithms that incorporate carefully chosen parameter values to ensure low estimation errors on real-world datasets, while ensuring privacy. We test our algorithms on ITMS (Intelligent Traffic Management System) data from an Indian city, where the speeds of different buses are drawn in a potentially non-i.i.d. manner from an unknown distribution, and where the number of speed samples contributed by different buses is potentially different. We then apply our algorithms to large synthetic datasets, generated based on the ITMS data. Here, we provide theoretical justification for the observed performance trends, and also provide recommendations for the choices of algorithm subroutines that result in low estimation errors. Finally, we characterize the best performance of pseudo-user creation-based algorithms on worst-case datasets via a minimax approach; this then gives rise to a novel procedure for the creation of pseudo-users, which optimizes the worst-case total estimation error. The algorithms discussed in the paper are readily applicable to general spatio-temporal IoT datasets for releasing a differentially private mean of a desired value.
翻訳日:2024-03-17 17:10:47 公開日:2024-03-05
# パームプリント検証とHack-ProofデータストレージのためのデュアルレベルCancelableフレームワーク

A Dual-Level Cancelable Framework for Palmprint Verification and Hack-Proof Data Storage ( http://arxiv.org/abs/2403.02680v1 )

ライセンス: Link先を確認
Ziyuan Yang, Ming Kang, Andrew Beng Jin Teoh, Chengrui Gao, Wen Chen, Bob Zhang, Yi Zhang, (参考訳) 近年では、パームプリントは個人認証に広く用いられている。 パームプリントデータの豊富なプライバシー情報は、システムパフォーマンスを犠牲にすることなく、セキュリティとプライバシを確保するために保護を必要とする。 既存のシステムはテンプレートを保護するためにキャンセル可能な技術を使うことが多いが、これらの技術はデータ漏洩の潜在的なリスクを無視している。 システムに侵入し、格納されたデータベースにアクセスすると、ハッカーは簡単に保存されたテンプレートを操作でき、検証システムのセキュリティを損なう。 この問題に対処するために,本論文では2レベルキャンセル可能なヤシプリント検証フレームワークを提案する。 具体的には、生テンプレートは最初、ファーストレベルのトークンを持つ競合ハッシュネットワークを使用して暗号化され、キャンセル可能なテンプレートのエンドツーエンド生成を容易にする。 以前の作業とは異なり、保護されたテンプレートはさらに暗号化され、第2レベルの保護されたテンプレートと第1レベルのテンプレートを区別する。 このシステムは、登録期間中に二重レベル保護のための第二レベルトークンを持つ負のデータベース(NDB)を特別に作成する。 NDBの逆転はNPハードであり、NDB生成のためのきめ細かいアルゴリズムを導入してノイズと特定ビットを管理する。 検証段階では,行列演算に基づくNDBマッチングアルゴリズムを提案し,辞書ベースのマッチングルールによって引き起こされた従来のNDB手法のマッチングプロセスを高速化する。 このアプローチは、検証に使用されるテンプレートと同一のテンプレートを保存する必要を回避し、潜在的なデータ漏洩のリスクを低減する。 公開パームプリントデータセットを用いた大規模な実験により,提案手法の有効性と汎用性が確認された。 論文が受理されると、コードはhttps://github.com/Deep-Imaging-Group/NPRでアクセスできる。

In recent years, palmprints have been widely used for individual verification. The rich privacy information in palmprint data necessitates its protection to ensure security and privacy without sacrificing system performance. Existing systems often use cancelable technologies to protect templates, but these technologies ignore the potential risk of data leakage. Upon breaching the system and gaining access to the stored database, a hacker could easily manipulate the stored templates, compromising the security of the verification system. To address this issue, we propose a dual-level cancelable palmprint verification framework in this paper. Specifically, the raw template is initially encrypted using a competition hashing network with a first-level token, facilitating the end-to-end generation of cancelable templates. Different from previous works, the protected template undergoes further encryption to differentiate the second-level protected template from the first-level one. The system specifically creates a negative database (NDB) with the second-level token for dual-level protection during the enrollment stage. Reversing the NDB is NP-hard and a fine-grained algorithm for NDB generation is introduced to manage the noise and specified bits. During the verification stage, we propose an NDB matching algorithm based on matrix operation to accelerate the matching process of previous NDB methods caused by dictionary-based matching rules. This approach circumvents the need to store templates identical to those utilized for verification, reducing the risk of potential data leakage. Extensive experiments conducted on public palmprint datasets have confirmed the effectiveness and generality of the proposed framework. Upon acceptance of the paper, the code will be accessible at https://github.com/Deep-Imaging-Group/NPR.
翻訳日:2024-03-17 17:01:02 公開日:2024-03-05
# IoTスマートホーム環境における自己適応型交通異常検出システム

Self-adaptive Traffic Anomaly Detection System for IoT Smart Home Environments ( http://arxiv.org/abs/2403.02744v1 )

ライセンス: Link先を確認
Naoto Watanabe, Taku Yamazaki, Takumi Miyoshi, Ryo Yamamoto, Masataka Nakahara, Norihiro Okui, Ayumu Kubota, (参考訳) モノのインターネット(IoT)デバイスの成長に伴い、マルウェアに感染した脆弱性のあるデバイスを悪用する分散型サービス拒否のようなサイバー攻撃が増加している。 したがって、ベンダーやユーザは、脆弱性を排除し、未知のサイバー攻撃を迅速に処理するために、デバイスファームウェアをアップデートし続けなければならない。 しかし、ベンダーもユーザもデバイスを安全に保つことは困難である。ベンダーは迅速にアップデートを提供しなければならないし、ユーザはすべてのデバイスを継続的に管理しなければならないからだ。 したがって,セキュリティを確保するためには,サイバー攻撃の変化に対して自律的に適応する必要がある。 さらに、これらのデバイスを包括的に保護するために、ゲートウェイの異常なトラフィックを検出し、フィルタするネットワーク側のセキュリティを考慮することが重要である。 本稿では,未知の攻撃を含むIoTトラフィックに対する自己適応型異常検出システムを提案する。 提案システムは,ハニーポットサーバとゲートウェイとから構成される。 ハニーポットサーバは、トラフィックを継続的に捕捉し、リアルタイムにキャプチャされたトラフィックを使用して異常検出モデルを適応的に生成する。 その後、ゲートウェイは生成されたモデルを使用して異常トラフィックを検出する。 そこで,提案システムは未知の攻撃に適応して,リアルタイムな捕捉トラフィックに基づく異常トラフィックのパターン変化を反映することができる。 提案システムを評価するために, 世界中の各地域からの事前捕捉トラフィックを用いた仮想実験, リアルタイムキャプチャトラフィックを用いた実演実験, マルウェアが生成したトラフィックを含む公開データセットを用いた仮想実験の3つの実験を行った。 実験結果から、サイバー攻撃の進化にリアルタイムで適応可能なシステムは、既知の攻撃と未知の攻撃の両方に対して、IoTデバイスの包括的なセキュリティを確保するための新しいアプローチであることが示唆された。

With the growth of internet of things (IoT) devices, cyberattacks, such as distributed denial of service, that exploit vulnerable devices infected with malware have increased. Therefore, vendors and users must keep their device firmware updated to eliminate vulnerabilities and quickly handle unknown cyberattacks. However, it is difficult for both vendors and users to continually keep the devices safe because vendors must provide updates quickly and the users must continuously manage the conditions of all deployed devices. Therefore, to ensure security, it is necessary for a system to adapt autonomously to changes in cyberattacks. In addition, it is important to consider network-side security that detects and filters anomalous traffic at the gateway to comprehensively protect those devices. This paper proposes a self-adaptive anomaly detection system for IoT traffic, including unknown attacks. The proposed system comprises a honeypot server and a gateway. The honeypot server continuously captures traffic and adaptively generates an anomaly detection model using real-time captured traffic. Thereafter, the gateway uses the generated model to detect anomalous traffic. Thus, the proposed system can adapt to unknown attacks to reflect pattern changes in anomalous traffic based on real-time captured traffic. Three experiments were conducted to evaluate the proposed system: a virtual experiment using pre-captured traffic from various regions across the world, a demonstration experiment using real-time captured traffic, and a virtual experiment using a public dataset containing the traffic generated by malware. The experimental results indicate that a system adaptable in real time to evolving cyberattacks is a novel approach for ensuring the comprehensive security of IoT devices against both known and unknown attacks.
翻訳日:2024-03-17 17:01:02 公開日:2024-03-05
# AIワームが登場:GenAIベースのアプリケーションをターゲットにしたゼロクリックワームを公開

Here Comes The AI Worm: Unleashing Zero-click Worms that Target GenAI-Powered Applications ( http://arxiv.org/abs/2403.02817v1 )

ライセンス: Link先を確認
Stav Cohen, Ron Bitton, Ben Nassi, (参考訳) この1年間で、多くの企業がGenerative AI(GenAI)機能を新規および既存のアプリケーションに組み入れ、GenAIサービスを利用した半完全自律エージェントで構成される相互接続されたGenerative AI(GenAI)エコシステムを形成した。 進行中の調査では、GenAIエージェントのレイヤに関連するリスク(ダイアログ中毒、会員推測、即時リーク、脱獄など)が強調されているが、重要な疑問が浮かび上がっている。 本稿では、敵対的な自己複製プロンプトを用いて、GenAIエコシステムをターゲットにした最初のワームであるモリスIIを紹介する。 この研究は、攻撃者がそのようなプロンプトを入力に挿入できることを示し、GenAIモデルによって処理されると、モデルに入力を出力(複製)として複製させ、悪意のある活動(ペイロード)を行うように促す。 さらに、これらの入力は、GenAIエコシステム内の接続性を活用することにより、エージェントに新たなエージェントへの(プロパゲート)配信を強制する。 我々は、2種類の入力データ(テキストと画像)を用いて、2種類の設定(ブラックボックスとホワイトボックスアクセス)で、GenAIを利用した電子メールアシスタントに対するモリスIIの適用を実証した。 このワームは、Gemini Pro、ChatGPT 4.0、LLaVAの3つの異なるGenAIモデルに対して試験され、ワームの性能に影響を与える様々な要因(例えば、伝播速度、複製、悪意のある活動)が評価される。

In the past year, numerous companies have incorporated Generative AI (GenAI) capabilities into new and existing applications, forming interconnected Generative AI (GenAI) ecosystems consisting of semi/fully autonomous agents powered by GenAI services. While ongoing research highlighted risks associated with the GenAI layer of agents (e.g., dialog poisoning, membership inference, prompt leaking, jailbreaking), a critical question emerges: Can attackers develop malware to exploit the GenAI component of an agent and launch cyber-attacks on the entire GenAI ecosystem? This paper introduces Morris II, the first worm designed to target GenAI ecosystems through the use of adversarial self-replicating prompts. The study demonstrates that attackers can insert such prompts into inputs that, when processed by GenAI models, prompt the model to replicate the input as output (replication), engaging in malicious activities (payload). Additionally, these inputs compel the agent to deliver them (propagate) to new agents by exploiting the connectivity within the GenAI ecosystem. We demonstrate the application of Morris II against GenAIpowered email assistants in two use cases (spamming and exfiltrating personal data), under two settings (black-box and white-box accesses), using two types of input data (text and images). The worm is tested against three different GenAI models (Gemini Pro, ChatGPT 4.0, and LLaVA), and various factors (e.g., propagation rate, replication, malicious activity) influencing the performance of the worm are evaluated.
翻訳日:2024-03-17 17:01:02 公開日:2024-03-05
# プライバシー保護のための確率量子化器の設計

Design of Stochastic Quantizers for Privacy Preservation ( http://arxiv.org/abs/2403.03048v1 )

ライセンス: Link先を確認
Le Liu, Yu Kawano, Ming Cao, (参考訳) 本稿では,プライバシ保護における確率量化器の役割について検討する。 まず静的確率量子化器を使用し、対応するプライバシー保護特性について検討する。 具体的には、十分に大きな量子化ステップが$(0, \delta)$差分プライバシーを保証することを実証する。 さらに、量子化による制御性能の劣化を出力制御の追跡誤差として評価する。 これらの2つの分析は、量子化ステップによって決定されるプライバシと制御性能のトレードオフを特徴付ける。 この知見は,制御性能の維持とプライバシの保護という相反する2つの目標を達成する手段として,量子化を意図的に利用することを可能にし,その目的に向けて,動的確率量子化器をさらに検討する。 安定性の仮定の下では、動的確率量子化器は、同じ制御性能を達成しつつ、静的よりもプライバシーを高めることができる。 さらに、入力ガウス雑音を付加することで不安定なケースを処理します。

In this paper, we examine the role of stochastic quantizers for privacy preservation. We first employ a static stochastic quantizer and investigate its corresponding privacy-preserving properties. Specifically, we demonstrate that a sufficiently large quantization step guarantees $(0, \delta)$ differential privacy. Additionally, the degradation of control performance caused by quantization is evaluated as the tracking error of output regulation. These two analyses characterize the trade-off between privacy and control performance, determined by the quantization step. This insight enables us to use quantization intentionally as a means to achieve the seemingly conflicting two goals of maintaining control performance and preserving privacy at the same time; towards this end, we further investigate a dynamic stochastic quantizer. Under a stability assumption, the dynamic stochastic quantizer can enhance privacy, more than the static one, while achieving the same control performance. We further handle the unstable case by additionally applying input Gaussian noise.
翻訳日:2024-03-17 17:01:02 公開日:2024-03-05
# AIによるサイバー脅威情報処理パイプラインの実現に向けて

Towards an AI-Enhanced Cyber Threat Intelligence Processing Pipeline ( http://arxiv.org/abs/2403.03265v1 )

ライセンス: Link先を確認
Lampis Alevizos, Martijn Dekker, (参考訳) サイバー脅威は複雑に進化し続けるため、従来のサイバー脅威インテリジェンス(CTI)手法はペースを維持するのに苦労する。 AIは、データ取り込みからレジリエンス検証まで、さまざまなタスクを自動化および拡張する潜在的なソリューションを提供する。 本稿では,人工知能(AI)をCTIに統合する可能性について考察する。 我々は、AIに強化されたCTI処理パイプラインの青写真を提供し、そのコンポーネントと機能について詳述する。 このパイプラインは、タイムリーかつ高忠実なサイバー脅威インテリジェンスを生成するために必要な、AIと人間の専門知識のコラボレーションを強調している。 また、リアルタイム、コンテキスト、予測的な洞察を提供するAIの能力を活用することで、緩和推奨の自動生成についても検討する。 しかし、AIをCTIに統合することは、課題がないわけではない。 これにより、倫理的ジレンマ、潜在的なバイアス、そしてAIによる意思決定における透明性の必須事項について議論する。 データプライバシ、同意メカニズム、およびテクノロジーの潜在的な誤用の必要性に対処する。 さらに、CTI分析とAIモデルの両方において、その透明性と解釈可能性を保証するバイアスに対処することの重要性を強調した。 最後に、サイバー防衛を強化するための先進的なAIモデルの探索や、人間とAIのコラボレーション最適化など、今後の研究の方向性を指摘する。 最終的に、CTIとAIの融合は、サイバーセキュリティ領域において大きな可能性を秘めているようだ。

Cyber threats continue to evolve in complexity, thereby traditional Cyber Threat Intelligence (CTI) methods struggle to keep pace. AI offers a potential solution, automating and enhancing various tasks, from data ingestion to resilience verification. This paper explores the potential of integrating Artificial Intelligence (AI) into CTI. We provide a blueprint of an AI-enhanced CTI processing pipeline, and detail its components and functionalities. The pipeline highlights the collaboration of AI and human expertise, which is necessary to produce timely and high-fidelity cyber threat intelligence. We also explore the automated generation of mitigation recommendations, harnessing AI's capabilities to provide real-time, contextual, and predictive insights. However, the integration of AI into CTI is not without challenges. Thereby, we discuss ethical dilemmas, potential biases, and the imperative for transparency in AI-driven decisions. We address the need for data privacy, consent mechanisms, and the potential misuse of technology. Moreover, we highlights the importance of addressing biases both during CTI analysis and AI models warranting their transparency and interpretability. Lastly, our work points out future research directions such as the exploration of advanced AI models to augment cyber defences, and the human-AI collaboration optimization. Ultimately, the fusion of AI with CTI appears to hold significant potential in cybersecurity domain.
翻訳日:2024-03-17 17:01:02 公開日:2024-03-05
# TTPXHunter: 攻撃可能な脅威情報抽出をTTPが完了したサイバー脅威レポートとして作成

TTPXHunter: Actionable Threat Intelligence Extraction as TTPs form Finished Cyber Threat Reports ( http://arxiv.org/abs/2403.03267v1 )

ライセンス: Link先を確認
Nanda Rani, Bikash Saha, Vikas Maurya, Sandeep Kumar Shukla, (参考訳) 敵の様相を理解することは、組織が効果的な防衛戦略を採用し、コミュニティで知性を共有するのを助ける。 この知識は、脅威分析レポート内の非構造化自然言語テキストにしばしば存在する。 脅威レポートの文で説明されたmodus operandiを解釈し、構造化フォーマットに変換するには、翻訳ツールが必要である。 本研究は、TTPXHunterという手法を用いて、サイバー脅威レポートから脅威情報を自動的に抽出する手法を紹介する。 サイバードメイン固有の自然言語処理(NLP)を活用して、少数派のTTPに対する文を増補し、脅威分析レポートにおいてTPを微調整する。 TTPにおける脅威知能の知識は、サイバー脅威を包括的に理解し、検出と緩和戦略の強化に不可欠である。 我々は、39,296のサンプルからなる強化文-TTPデータセットと、149の現実世界のサイバー脅威インテリジェンスレポート-TTPデータセットという2つのデータセットを作成します。 さらに、拡張文データセットとサイバー脅威レポートに基づいて、TPXHunterを評価する。 TTPXHunterは、拡張データセット上で92.42%のf1スコアを達成し、レポートデータセットで評価すると、f1スコアの97.09%を達成して、TTP抽出における既存の最先端ソリューションを上回っている。 TTPXHunterは、攻撃行動に関する素早く行動可能な洞察を提供することで、サイバーセキュリティの脅威情報を大幅に改善する。 この進歩は脅威情報分析を自動化し、サイバーセキュリティの専門家がサイバー脅威と戦うための重要なツールを提供する。

Understanding the modus operandi of adversaries aids organizations in employing efficient defensive strategies and sharing intelligence in the community. This knowledge is often present in unstructured natural language text within threat analysis reports. A translation tool is needed to interpret the modus operandi explained in the sentences of the threat report and translate it into a structured format. This research introduces a methodology named TTPXHunter for the automated extraction of threat intelligence in terms of Tactics, Techniques, and Procedures (TTPs) from finished cyber threat reports. It leverages cyber domain-specific state-of-the-art natural language processing (NLP) to augment sentences for minority class TTPs and refine pinpointing the TTPs in threat analysis reports significantly. The knowledge of threat intelligence in terms of TTPs is essential for comprehensively understanding cyber threats and enhancing detection and mitigation strategies. We create two datasets: an augmented sentence-TTP dataset of 39,296 samples and a 149 real-world cyber threat intelligence report-to-TTP dataset. Further, we evaluate TTPXHunter on the augmented sentence dataset and the cyber threat reports. The TTPXHunter achieves the highest performance of 92.42% f1-score on the augmented dataset, and it also outperforms existing state-of-the-art solutions in TTP extraction by achieving an f1-score of 97.09% when evaluated over the report dataset. TTPXHunter significantly improves cybersecurity threat intelligence by offering quick, actionable insights into attacker behaviors. This advancement automates threat intelligence analysis, providing a crucial tool for cybersecurity professionals fighting cyber threats.
翻訳日:2024-03-17 17:01:02 公開日:2024-03-05
# カバー問題に対する微粒化プライバシ保証

Fine-Grained Privacy Guarantees for Coverage Problems ( http://arxiv.org/abs/2403.03337v1 )

ライセンス: Link先を確認
Laxman Dhulipala, George Z. Li, (参考訳) 差分プライバシの下で、Max CoverやSet Coverなどのカバレッジ問題に対して、近隣データベースの新たな概念を導入する。 グラフのノードプライバシに類似した、これらの問題の標準的なプライバシー概念とは対照的に、私たちの新しい定義は、エッジプライバシに類似した、よりきめ細かいプライバシー保証を提供します。 アプリケーションのプライバシの概念が望まれるSet CoverとMax Coverのシナリオをいくつか説明します。 我々の主な結果は、Max Coverに対する$\epsilon$-edge差分プライベートアルゴリズムであり、高い確率で$(1-1/e-\eta,\tilde{O}(k/\epsilon)$-approximationを得る。 エッジ差分プライバシーの下では$\Omega(k/\epsilon)$の加算誤差が必要であることを示す。 グループプライバシー特性により、$\epsilon$-nodely differentially private Max Cover は$(1-1/e-\eta,\tilde{O}(fk/\epsilon))$-approximation を得る。 1-1/e,\tilde{O}(k^2/\epsilon))$-approximationが得られる。

We introduce a new notion of neighboring databases for coverage problems such as Max Cover and Set Cover under differential privacy. In contrast to the standard privacy notion for these problems, which is analogous to node-privacy in graphs, our new definition gives a more fine-grained privacy guarantee, which is analogous to edge-privacy. We illustrate several scenarios of Set Cover and Max Cover where our privacy notion is desired one for the application. Our main result is an $\epsilon$-edge differentially private algorithm for Max Cover which obtains an $(1-1/e-\eta,\tilde{O}(k/\epsilon))$-approximation with high probability. Furthermore, we show that this result is nearly tight: we give a lower bound show that an additive error of $\Omega(k/\epsilon)$ is necessary under edge-differential privacy. Via group privacy properties, this implies a new algorithm for $\epsilon$-node differentially private Max Cover which obtains an $(1-1/e-\eta,\tilde{O}(fk/\epsilon))$-approximation, where $f$ is the maximum degree of an element in the set system. When $f\ll k$, this improves over the best known algorithm for Max Cover under pure (node) differential privacy, which obtains an $(1-1/e,\tilde{O}(k^2/\epsilon))$-approximation.
翻訳日:2024-03-17 17:01:02 公開日:2024-03-05
# Bridge the Future: 信頼されたI/Oデバイスを持たない機密VMにおける高性能ネットワーク

Bridge the Future: High-Performance Networks in Confidential VMs without Trusted I/O devices ( http://arxiv.org/abs/2403.03360v1 )

ライセンス: Link先を確認
Mengyuan Li, Shashvat Srivastava, Mengjia Yan, (参考訳) 信頼されたI/O(Trusted I/O, TIO)は、機密VM(CVM)のI/Oパフォーマンスを改善するための魅力的なソリューションである。 しかし,本論文では,すべてのI/Oタイプが,特にネットワークI/Oから大きなメリットを得られるわけではないことを強調する。 CVMの脅威モデルにおけるネットワークトラフィックに対する暗号化プロトコルの義務的使用を考えると、PCIeバス上のI/O暗号化に対するTIOのアプローチは冗長になる。 さらに、TIOソリューションはTrusted Computing Base (TCB)を拡張して、TIOデバイスを含める必要があり、商業的に利用できない。 本研究の目的は,チップ上のCVMにのみ信頼を集中しながら,CVMが即座に高性能ネットワークの恩恵を受けるソフトウェアソリューションを提案することである。 AMD Secure Encrypted Virtualization(SEV)の最新版であるSecure Nested Paging(SNP)と互換性のある、セキュアで効率的なData Plane Development Kit(DPDK)拡張をベースとしたソフトウェアソリューションであるFOLIOを提案する。 我々の設計は、SNP VMのネットワーク性能に影響を及ぼす可能性のあるすべての要因を網羅的に分析することで周知される。 オーバーヘッドソースを広範囲に削除することで、最適なTIOベースの構成の効率性にアプローチする設計にたどり着きます。 評価の結果、FOLIOは最適化されたTIO構成に比べて6%未満の性能低下を示し、オフザシェルフCPUのみに依存している。

Trusted I/O (TIO) is an appealing solution to improve I/O performance for confidential VMs (CVMs), with the potential to eliminate broad sources of I/O overhead. However, this paper emphasizes that not all types of I/O can derive substantial benefits from TIO, particularly network I/O. Given the obligatory use of encryption protocols for network traffic in CVM's threat model, TIO's approach of I/O encryption over the PCIe bus becomes redundant. Furthermore, TIO solutions need to expand the Trusted Computing Base (TCB) to include TIO devices and are commercially unavailable. Motivated by these insights, the goal of this paper is to propose a software solution that helps CVMs immediately benefit from high-performance networks, while confining trust only to the on-chip CVM. We present FOLIO, a software solution crafted from a secure and efficient Data Plane Development Kit (DPDK) extension compatible with the latest version of AMD Secure Encrypted Virtualization (SEV), a.k.a., Secure Nested Paging (SNP). Our design is informed by a thorough analysis of all possible factors that impact SNP VM's network performance. By extensively removing overhead sources, we arrive at a design that approaches the efficiency of an optimal TIO-based configuration. Evaluation shows that FOLIO has a performance dip less than 6% relative to the optimal TIO configuration, while only relying on off-the-shelf CPUs.
翻訳日:2024-03-17 16:51:19 公開日:2024-03-05
# ブロックチェーンによるポストディザスタ通信のためのUAVネットワーク - 分散Flockingアプローチ

Blockchain-Enhanced UAV Networks for Post-Disaster Communication: A Decentralized Flocking Approach ( http://arxiv.org/abs/2403.04796v1 )

ライセンス: Link先を確認
Sana Hafeez, Runze Cheng, Lina Mohjazi, Yao Sun, Muhammad Ali Imran, (参考訳) Unmanned Aerial Vehicles (UAV) は、特に地上インフラが侵食された場合に、事故後のシナリオにおいて、アジャイルコミュニケーションと救済調整に重要な可能性を秘めている。 しかし、異なるサービスプロバイダからの異種UAVの群れを効率的に調整し、確保することは、プライバシ、スケーラビリティ、軽量コンセンサスプロトコル、包括的なサイバーセキュリティメカニズムに関する重大な課題を引き起こす。 この研究では、コンセンサスプロトコル、スマートコントラクト、暗号化技術を組み合わせて、これらの技術的課題に取り組むために設計された、堅牢なブロックチェーン対応フレームワークを紹介します。 まず、機密データへのアクセスを制御し、機密データのプライバシーを保護することによって、安全かつプライベートなマルチ緊急調整を保証するコンソーシアムブロックチェーンアーキテクチャを提案する。 次に,DPOS-PBFT(Delegated Proof of Stake and Practical Byzantine Fault Tolerance)を統合し,ノード障害に対する効率,セキュリティ,レジリエンスの効果的なバランスを実現するための,最適化されたハイブリッドコンセンサスプロトコルを開発した。 最後に,特定UAVクラスタ間の適応的かつ自律的な操作を容易にする分散型フラッキングアルゴリズムを導入し,不確実な接続条件下での災害救助機能を確保する。 総合シミュレーションでは,最大500UAVノードまでのスループットの線形スケーリングを実現した。 このフレームワークは、スプーフィング、DoS(DoS)、タンパリング攻撃にもかかわらず、高いスループットと低レイテンシを維持し、強力なサイバーレジリエンスを示している。 通信遅延は, 自己最適化ネットワークインテリジェンスによる多様なUAV運用において10ms以下に抑えられ, 中央値は約2~3msであった。

Unmanned Aerial Vehicles (UAVs) have significant potential for agile communication and relief coordination in post-disaster scenarios, particularly when ground infrastructure is compromised. However, efficiently coordinating and securing flocks of heterogeneous UAVs from different service providers poses significant challenges related to privacy, scalability, lightweight consensus protocols, and comprehensive cybersecurity mechanisms. This study introduces a robust blockchain-enabled framework designed to tackle these technical challenges through a combination of consensus protocols, smart contracts, and cryptographic techniques. First, we propose a consortium blockchain architecture that ensures secure and private multi-agency coordination by controlling access and safeguarding the privacy of sensitive data. Second, we develop an optimized hybrid consensus protocol that merges Delegated Proof of Stake and Practical Byzantine Fault Tolerance (DPOS-PBFT), aiming to achieve an effective balance between efficiency, security, and resilience against node failures. Finally, we introduce decentralized flocking algorithms that facilitate adaptable and autonomous operations among specialized UAV clusters, ensuring critical disaster relief functions under conditions of uncertain connectivity. Comprehensive simulations demonstrate the system achieved linear scaling of throughput up to 500 UAV nodes, with only a 50ms increase in latency from 10 to 500 nodes. The framework maintained high throughput and low latency despite spoofing, denial-of-service (DoS), and tampering attacks, showing strong cyber resilience. Communication latencies were kept under 10ms for diverse UAV operations through self-optimizing network intelligence, with median values around 2-3ms.
翻訳日:2024-03-17 16:51:18 公開日:2024-03-05
# 複雑な手強い製造プロセスにおけるデータ駆動型エルゴノミクスリスク評価

Data-Driven Ergonomic Risk Assessment of Complex Hand-intensive Manufacturing Processes ( http://arxiv.org/abs/2403.05591v1 )

ライセンス: Link先を確認
Anand Krishnan, Xingjian Yang, Utsav Seth, Jonathan M. Jeyachandran, Jonathan Y. Ahn, Richard Gardner, Samuel F. Pedigo, Adriana (Agnes) Blom-Schieber, Ashis G. Banerjee, Krithika Manohar(参考訳) 複合的なレイアップや織物のドッピングのような手作業による製造プロセスは、作業の複雑さに対応するためにかなりの人為的なデキスタリティを必要とする。 これらの激しい手の動きは、しばしば筋骨格障害やリハビリテーション手術につながる。 本研究では,手指活動に特化したデータ駆動エルゴノミクスリスクアセスメントシステムを開発し,手指集中型製造プロセスに関連するエルゴノミクス問題を識別・対処する。 本システムは、操作者上半身ポーズ、手ポーズ、応用力の収集及び同期を行うマルチモーダルセンサーテストベッドと、高忠実度手指リスクを測定する完全手(BACH)のバイオメトリックアセスメントと、上半身姿勢、RULA、手の活動に関連する業界標準リスクスコアとを備える。 以上の結果より, BACHは既存の指標と比較して, より粒度の高い損傷活性を捉えていることが明らかとなった。 機械学習モデルは、RULAとHALスコアの自動化や、見えない参加者への一般化にも使用される。 したがって,本評価システムは,研究した製造工程の人間工学的解釈可能性を提供し,小規模作業場の最適化と姿勢調整によるリスク軽減に有用である。

Hand-intensive manufacturing processes, such as composite layup and textile draping, require significant human dexterity to accommodate task complexity. These strenuous hand motions often lead to musculoskeletal disorders and rehabilitation surgeries. We develop a data-driven ergonomic risk assessment system with a special focus on hand and finger activity to better identify and address ergonomic issues related to hand-intensive manufacturing processes. The system comprises a multi-modal sensor testbed to collect and synchronize operator upper body pose, hand pose and applied forces; a Biometric Assessment of Complete Hand (BACH) formulation to measure high-fidelity hand and finger risks; and industry-standard risk scores associated with upper body posture, RULA, and hand activity, HAL. Our findings demonstrate that BACH captures injurious activity with a higher granularity in comparison to the existing metrics. Machine learning models are also used to automate RULA and HAL scoring, and generalize well to unseen participants. Our assessment system, therefore, provides ergonomic interpretability of the manufacturing processes studied, and could be used to mitigate risks through minor workplace optimization and posture corrections.
翻訳日:2024-03-13 13:09:56 公開日:2024-03-05
# 言語モデルがプラグイン・アンド・プレイの位置エンコーディングによって長いコンテキストをどのように活用するか

Found in the Middle: How Language Models Use Long Contexts Better via Plug-and-Play Positional Encoding ( http://arxiv.org/abs/2403.04797v1 )

ライセンス: Link先を確認
Zhenyu Zhang, Runjin Chen, Shiwei Liu, Zhewei Yao, Olatunji Ruwase, Beidi Chen, Xiaoxia Wu, Zhangyang Wang(参考訳) 本稿では,大規模言語モデル(LLM)の「中途半端な」課題を克服することを目的とする。 近年の進歩により、LLMは最大400万個のトークンで安定な言語モデリングを実現できるようになったが、ほとんどのLLMでは、コンテキストの中央に位置する関連情報を適切に識別することが困難である。 この問題に対処するために,LLMがコンテキストの中央に位置する関連情報を微調整や追加オーバーヘッドを伴わずに処理する能力を高めるための,シンプルかつ効果的なプラグアンドプレイ方式であるマルチスケール位置符号化(Ms-PoE)を提案する。 Ms-PoEは、位置インディエンス再スケーリングを利用して、RoPEが導入した長期的な崩壊効果を緩和し、異なる注意ヘッドに異なるスケーリング比を慎重に割り当てて、事前学習の過程で学習された本質的な知識を保存する。 広範囲のLSMを用いた広範囲な実験により,本手法の有効性が示された。 特に、Ms-PoEはZero-SCROLLSベンチマークの平均精度を3.8まで向上させた。 コードはhttps://github.com/VITA-Group/Ms-PoEで入手できる。

This paper aims to overcome the "lost-in-the-middle" challenge of large language models (LLMs). While recent advancements have successfully enabled LLMs to perform stable language modeling with up to 4 million tokens, the persistent difficulty faced by most LLMs in identifying relevant information situated in the middle of the context has not been adequately tackled. To address this problem, this paper introduces Multi-scale Positional Encoding (Ms-PoE) which is a simple yet effective plug-and-play approach to enhance the capacity of LLMs to handle the relevant information located in the middle of the context, without fine-tuning or introducing any additional overhead. Ms-PoE leverages the position indice rescaling to relieve the long-term decay effect introduced by RoPE, while meticulously assigning distinct scaling ratios to different attention heads to preserve essential knowledge learned during the pre-training step, forming a multi-scale context fusion from short to long distance. Extensive experiments with a wide range of LLMs demonstrate the efficacy of our approach. Notably, Ms-PoE achieves an average accuracy gain of up to 3.8 on the Zero-SCROLLS benchmark over the original LLMs. Code are available at https://github.com/VITA-Group/Ms-PoE.
翻訳日:2024-03-11 22:18:06 公開日:2024-03-05
# すべてのチケットが等しいわけではないし、私たちは知っている。

Not all tickets are equal and we know it: Guiding pruning with domain-specific knowledge ( http://arxiv.org/abs/2403.04805v1 )

ライセンス: Link先を確認
Intekhab Hossain, Jonas Fischer, Rebekka Burkholz, John Quackenbush(参考訳) 神経構造学習は科学的発見と解釈可能性にとって最重要課題である。 しかし、計算資源効率にフォーカスした現代のプルーニングアルゴリズムは、ドメインの専門知識に合わせた有意義なモデルを選択するためのアルゴリズム的障壁に直面します。 この課題を緩和するために、利用可能なドメイン固有構造情報によってプルーニングをガイドするDASHを提案する。 動的遺伝子制御ネットワークモデルの学習において、DASHと相互作用パートナーに関する既存の一般的な知識が組み合わさって、生物学的に整合したデータ固有の洞察を提供することを示す。 そこで本課題では, DASHの有効性を2つの実世界に適用し, 競合する手法を大きなマージンで上回り, より有意義な生物学的洞察を提供する合成データについて述べる。 我々の研究は、ドメイン固有の構造情報はモデルに基づく科学的洞察を改善する可能性を秘めていることを示している。

Neural structure learning is of paramount importance for scientific discovery and interpretability. Yet, contemporary pruning algorithms that focus on computational resource efficiency face algorithmic barriers to select a meaningful model that aligns with domain expertise. To mitigate this challenge, we propose DASH, which guides pruning by available domain-specific structural information. In the context of learning dynamic gene regulatory network models, we show that DASH combined with existing general knowledge on interaction partners provides data-specific insights aligned with biology. For this task, we show on synthetic data with ground truth information and two real world applications the effectiveness of DASH, which outperforms competing methods by a large margin and provides more meaningful biological insights. Our work shows that domain specific structural information bears the potential to improve model-derived scientific insights.
翻訳日:2024-03-11 22:04:53 公開日:2024-03-05
# AttentionStitch: 音声編集の問題をいかに解決するか

AttentionStitch: How Attention Solves the Speech Editing Problem ( http://arxiv.org/abs/2403.04804v1 )

ライセンス: Link先を確認
Antonios Alexos, Pierre Baldi(参考訳) 自然言語処理の分野では,テキストから自然言語と高品質音声の生成が課題となっている。 音声生成に加えて、音声編集は重要な課題であり、合成音声への合成音声のシームレスで目立たない統合を必要とする。 本稿では、FastSpeech 2のような事前訓練されたテキスト音声合成(TTS)モデルを活用し、その上に2重注意ブロックネットワークを組み込んで、合成したメル-スペクトログラムと編集したテキストのメル-スペクトログラムを自動マージする、新しい音声編集手法を提案する。 我々はこのモデルをAttentionStitchと呼び、オーディオサンプルの縫合に注意を払っている。 我々は,LJSpeech と VCTK という単一話者と複数話者のデータセット上で,最先端のベースラインに対する AttentionStitch モデルの評価を行った。 客観的評価試験と主観的評価試験により, 被験者15名を対象に, その優れた性能を示す。 AttentionStitchは、トレーニング中に見えない単語でも、人間の介入なしに自動的に操作しながら、高品質な音声を生成することができる。 さらに、AttentionStitchはトレーニングと推論の両方で高速で、人間の声で編集された音声を生成することができる。

The generation of natural and high-quality speech from text is a challenging problem in the field of natural language processing. In addition to speech generation, speech editing is also a crucial task, which requires the seamless and unnoticeable integration of edited speech into synthesized speech. We propose a novel approach to speech editing by leveraging a pre-trained text-to-speech (TTS) model, such as FastSpeech 2, and incorporating a double attention block network on top of it to automatically merge the synthesized mel-spectrogram with the mel-spectrogram of the edited text. We refer to this model as AttentionStitch, as it harnesses attention to stitch audio samples together. We evaluate the proposed AttentionStitch model against state-of-the-art baselines on both single and multi-speaker datasets, namely LJSpeech and VCTK. We demonstrate its superior performance through an objective and a subjective evaluation test involving 15 human participants. AttentionStitch is capable of producing high-quality speech, even for words not seen during training, while operating automatically without the need for human intervention. Moreover, AttentionStitch is fast during both training and inference and is able to generate human-sounding edited speech.
翻訳日:2024-03-11 22:04:38 公開日:2024-03-05
# アダプティブコンセンサスに基づくモデル更新検証による連合学習のセキュリティ向上

Enhancing Security in Federated Learning through Adaptive Consensus-Based Model Update Validation ( http://arxiv.org/abs/2403.04803v1 )

ライセンス: Link先を確認
Zahir Alsulaimawi(参考訳) 本稿では,ラベルフリッピング攻撃に対する連合学習(fl)システム強化のための先進的アプローチを提案する。 適応しきい値設定機構を組み込んだ簡易なコンセンサスに基づく検証プロセスを提案する。 この動的しきい値は、モデル更新の進化的な展望に基づいて調整され、分散学習環境のリアルタイムニーズに合わせて、洗練された異常検出層を提供するように設計されている。 提案手法は,グローバルモデルに拒否的かつ合意的な修正のみを適用することを保証するため,参加顧客間での多数意見の一致が必要である。 本手法の有効性は,ディープラーニングにおける2つのベンチマークデータセットであるCIFAR-10とMNISTを用いて検証した。 FLシステムのレジリエンスを高めるため,ラベルフリップ攻撃の顕著な緩和が示唆された。 この方法は、暗号化オーバーヘッドを伴わないブロックチェーンの参加検証を思い出させる検証層を組み込むことで、異常検出や統計的検証に依存する従来の手法を超越する。 当社のアプローチの革新は、セキュリティ対策の強化と、計算効率やデータプライバシといったFLシステム固有の制限との最適なバランスを保ちます。 fl環境用に特別に調整されたコンセンサスメカニズムの実装は、データの完全性とモデルのロバスト性を保護するために、よりセキュアで堅牢で信頼性の高い分散機械学習アプリケーションへの道を開く。

This paper introduces an advanced approach for fortifying Federated Learning (FL) systems against label-flipping attacks. We propose a simplified consensus-based verification process integrated with an adaptive thresholding mechanism. This dynamic thresholding is designed to adjust based on the evolving landscape of model updates, offering a refined layer of anomaly detection that aligns with the real-time needs of distributed learning environments. Our method necessitates a majority consensus among participating clients to validate updates, ensuring that only vetted and consensual modifications are applied to the global model. The efficacy of our approach is validated through experiments on two benchmark datasets in deep learning, CIFAR-10 and MNIST. Our results indicate a significant mitigation of label-flipping attacks, bolstering the FL system's resilience. This method transcends conventional techniques that depend on anomaly detection or statistical validation by incorporating a verification layer reminiscent of blockchain's participatory validation without the associated cryptographic overhead. The innovation of our approach rests in striking an optimal balance between heightened security measures and the inherent limitations of FL systems, such as computational efficiency and data privacy. Implementing a consensus mechanism specifically tailored for FL environments paves the way for more secure, robust, and trustworthy distributed machine learning applications, where safeguarding data integrity and model robustness is critical.
翻訳日:2024-03-11 22:04:17 公開日:2024-03-05
# Vicunaに対するAlpaca: LLMを用いたLLMの記憶の解明

Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs ( http://arxiv.org/abs/2403.04801v1 )

ライセンス: Link先を確認
Aly M. Kassem, Omar Mahmoud, Niloofar Mireshghallah, Hyunwoo Kim, Yulia Tsvetkov, Yejin Choi, Sherif Saad, Santu Rana(参考訳) 本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。この手法は,LSMのメモリ化を定量化する主要なアプローチであるトレーニングデータを用いて,ターゲットモデルを直接的に誘導することによって明らかにされるものと比較して,より高いメモリ化レベルを明らかにする。 本研究では,(1)モデルに直接ソリューションを提示するのを避けるため,トレーニングデータとの重複を最小に抑えること,(2) 被害者モデルの出力とトレーニングデータとの重複を最大化し,被害者にトレーニングデータを吐き出すよう誘導すること,という2つの特徴を持つ命令ベースのプロンプトを反復的拒否サンプリング最適化プロセスを用いて探索する。 ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトはトレーニングデータと23.7%重なる出力を生成する。 その結果,(1)訓練済みのモデルがベースモデルと同等に訓練済みデータを公開でき,(2)トレーニングデータ以外のコンテキストが漏洩する可能性があること,(3)他のLSMが提案した命令を用いることで,さらなる研究と探索を行うべき新たな自動攻撃経路が開けること,などが判明した。 コードはhttps://github.com/alymostafa/instruction_based_attackにある。

In this paper, we introduce a black-box prompt optimization method that uses an attacker LLM agent to uncover higher levels of memorization in a victim agent, compared to what is revealed by prompting the target model with the training data directly, which is the dominant approach of quantifying memorization in LLMs. We use an iterative rejection-sampling optimization process to find instruction-based prompts with two main characteristics: (1) minimal overlap with the training data to avoid presenting the solution directly to the model, and (2) maximal overlap between the victim model's output and the training data, aiming to induce the victim to spit out training data. We observe that our instruction-based prompts generate outputs with 23.7% higher overlap with training data compared to the baseline prefix-suffix measurements. Our findings show that (1) instruction-tuned models can expose pre-training data as much as their base-models, if not more so, (2) contexts other than the original training data can lead to leakage, and (3) using instructions proposed by other LLMs can open a new avenue of automated attacks that we should further study and explore. The code can be found at https://github.com/Alymostafa/Instruction_based_attack .
翻訳日:2024-03-11 22:03:55 公開日:2024-03-05
# (Un)1次元条件付きGANを用いた信号-信号-信号変換

(Un)paired signal-to-signal translation with 1D conditional GANs ( http://arxiv.org/abs/2403.04800v1 )

ライセンス: Link先を確認
Eric Easthope(参考訳) 1次元(1次元)条件付き生成型対向ネットワーク(cgan)と対向型トレーニングアーキテクチャは、信号対符号変換(sig2sig)が可能となることを示す。 1次元層とより広い畳み込みカーネルを持つ単純化されたCycleGANモデルを用いて、WaveGANを2次元(2次元)画像生成を1次元オーディオ生成として再配置し、2次元画像から画像への変換タスクを深い畳み込みGANで1次元信号から信号への変換タスクに再キャストすることは、従来のU-NetモデルやCycleGANとして開発された敵アーキテクチャに大幅に変更することなく可能であることを示す。 そこで本研究では,1D CycleGANモデルで見つからないノイズの多いテスト信号と,翻訳領域におけるペアテスト信号に似た信号,特に頻度の点で,ソース領域からペアトレーニング信号に変換することなく,これらの差分を相関と誤差で定量化する。

I show that a one-dimensional (1D) conditional generative adversarial network (cGAN) with an adversarial training architecture is capable of unpaired signal-to-signal ("sig2sig") translation. Using a simplified CycleGAN model with 1D layers and wider convolutional kernels, mirroring WaveGAN to reframe two-dimensional (2D) image generation as 1D audio generation, I show that recasting the 2D image-to-image translation task to a 1D signal-to-signal translation task with deep convolutional GANs is possible without substantial modification to the conventional U-Net model and adversarial architecture developed as CycleGAN. With this I show for a small tunable dataset that noisy test signals unseen by the 1D CycleGAN model and without paired training transform from the source domain to signals similar to paired test signals in the translated domain, especially in terms of frequency, and I quantify these differences in terms of correlation and error.
翻訳日:2024-03-11 22:03:31 公開日:2024-03-05
# ローソース言語におけるAIリテラシー:YorubaのビデオにおけるAI作成の洞察

AI Literacy in Low-Resource Languages:Insights from creating AI in Yoruba videos ( http://arxiv.org/abs/2403.04799v1 )

ライセンス: Link先を確認
Wuraola Oyewusi(参考訳) AI革命を効果的にナビゲートするには、AIリテラシーが不可欠だ。 しかし、コンテンツは主に支配的な言語に存在するため、Yoruba (4100万人のネイティブスピーカー)のような低リソース言語ではギャップが生じる。 このケーススタディでは,ヨルバでAIビデオを作成し,配布することで,このギャップを埋めることを検討する。このプロジェクトでは,基本的,中間的,高度なAI概念をカバーした26のビデオを開発し,ストーリーテリングとアクセシビリティな説明を活用する。 これらのビデオは費用対効果のある手法で制作され、YouTube、LinkedIn、Twitterに分散し、世界22か国で視聴された。 youtubeの分析により、視聴パターンに関する洞察が明らかになり、25~44歳のグループが最も多く視聴している。 特に、トラフィックの半分以上が外部ソースから発生しており、クロスプラットフォームのプロモーションの可能性を強調している。この研究は、低リソース言語でAIリテラシーコンテンツを作成する可能性と影響を示している。 正確な解釈には、aiの技術的専門知識と、ターゲット言語におけるフルエンシーの両方が必要であることを強調する。 この研究は、レプリケートな方法論、22ワードのYoruba AI語彙、およびオーディエンス人口と買収チャネルに対するデータ駆動的な洞察に貢献する。

To effectively navigate the AI revolution, AI literacy is crucial. However, content predominantly exists in dominant languages, creating a gap for low-resource languages like Yoruba (41 million native speakers). This case study explores bridging this gap by creating and distributing AI videos in Yoruba.The project developed 26 videos covering foundational, intermediate, and advanced AI concepts, leveraging storytelling and accessible explanations. These videos were created using a cost-effective methodology and distributed across YouTube, LinkedIn, and Twitter, reaching an estimated global audience of 22 countries. Analysis of YouTube reveals insights into viewing patterns, with the 25-44 age group contributing the most views. Notably, over half of the traffic originated from external sources, highlighting the potential of cross-platform promotion.This study demonstrates the feasibility and impact of creating AI literacy content in low-resource languages. It emphasizes that accurate interpretation requires both technical expertise in AI and fluency in the target language. This work contributes a replicable methodology, a 22-word Yoruba AI vocabulary, and data-driven insights into audience demographics and acquisition channel
翻訳日:2024-03-11 22:03:07 公開日:2024-03-05
# semeval 2024タスク3: gptと命令調整ラマモデルを用いたコンテキスト内学習を用いたマルチモーダルecacの2段階アプローチ

JMI at SemEval 2024 Task 3: Two-step approach for multimodal ECAC using in-context learning with GPT and instruction-tuned Llama models ( http://arxiv.org/abs/2403.04798v1 )

ライセンス: Link先を確認
Arefa, Mohammed Abbas Ansari, Chandni Saxena, Tanvir Ahmad(参考訳) 本稿では,SemEval-2024タスク3「会話におけるマルチモーダル感情原因分析の競争」のシステム開発について述べる。 人間の会話における感情を効果的に捉えるには、テキスト、オーディオ、ビデオなどの複数のモダリティを統合する必要がある。 しかし、これらの多様性の複雑さは、効率的なマルチモーダル感情原因分析(ECA)システムの開発に困難をもたらす。 提案手法は2段階の枠組みでこれらの課題に対処する。 実装には2つの異なるアプローチを採用しています。 アプローチ1では,感情予測と原因予測のために2つの異なるラマ2モデルを用いた命令チューニングを行う。 アプローチ2では、会話レベルのビデオ記述にGPT-4Vを使用し、GPT 3.5を用いて注釈付き会話を用いたテキスト内学習を採用する。 システムではランク4を勝ち取り,システムアブレーション実験により,提案手法が性能向上に寄与していることが実証された。 実験コードはすべてGithubで公開されている。

This paper presents our system development for SemEval-2024 Task 3: "The Competition of Multimodal Emotion Cause Analysis in Conversations". Effectively capturing emotions in human conversations requires integrating multiple modalities such as text, audio, and video. However, the complexities of these diverse modalities pose challenges for developing an efficient multimodal emotion cause analysis (ECA) system. Our proposed approach addresses these challenges by a two-step framework. We adopt two different approaches in our implementation. In Approach 1, we employ instruction-tuning with two separate Llama 2 models for emotion and cause prediction. In Approach 2, we use GPT-4V for conversation-level video description and employ in-context learning with annotated conversation using GPT 3.5. Our system wins rank 4, and system ablation experiments demonstrate that our proposed solutions achieve significant performance gains. All the experimental codes are available on Github.
翻訳日:2024-03-11 22:02:45 公開日:2024-03-05
# pair-matching: アダプティブクエリによるリンク予測

Pair-Matching: Links Prediction with Adaptive Queries ( http://arxiv.org/abs/1905.07342v3 )

ライセンス: Link先を確認
Christophe Giraud and Yann Issartel and Luc Leh\'ericy and Matthieu Lerasle(参考訳) ペアマッチング問題は、エンティティのペアまたは個人間の良いマッチングを見つけようとする多くのアプリケーションで現れる。 形式的には、個人の集合はグラフのノードで表され、エッジは最初は観測されていないが、良いマッチを表す。 アルゴリズムはノードのペアをクエリし、エッジの有無を観察する。 その目標は、クエリの固定された予算で可能な限り多くのエッジを見つけることだ。 ペアマッチングは、腕が個人のペアであり、報酬がこれらのペアをつなぐエッジであるマルチアームのバンディット問題の特定の例である。 このバンディット問題は、各アームが1回しかプレイできないため、非標準である。 この最後の制約を考えると、グラフが基底構造を示す場合にのみ、部分線型後悔が期待できる。 本稿では,2つのコミュニティを持つ確率ブロックモデル(SBM)に基づいてグラフが生成される場合に,サブ線形後悔が達成可能であることを示す。 このペアマッチング問題に対して、最適後悔境界が計算される。 彼らはSBMにおけるコミュニティ検出のためのKesten-Stigumしきい値に関連する相転移を示す。 ペアマッチング問題は、各ノードが与えられた時間未満のサンプリングを制限されている場合に考慮される。 この制約がいかに最適な後悔率に依存するかを示す。 本論文は,コミュニティ数が2以上である場合の後悔の最適性に関する推測によって結論づける。 2つのコミュニティのケースとは対照的に,この問題には統計計算のギャップが現れるだろう。

The pair-matching problem appears in many applications where one wants to discover good matches between pairs of entities or individuals. Formally, the set of individuals is represented by the nodes of a graph where the edges, unobserved at first, represent the good matches. The algorithm queries pairs of nodes and observes the presence/absence of edges. Its goal is to discover as many edges as possible with a fixed budget of queries. Pair-matching is a particular instance of multi-armed bandit problem in which the arms are pairs of individuals and the rewards are edges linking these pairs. This bandit problem is non-standard though, as each arm can only be played once. Given this last constraint, sublinear regret can be expected only if the graph presents some underlying structure. This paper shows that sublinear regret is achievable in the case where the graph is generated according to a Stochastic Block Model (SBM) with two communities. Optimal regret bounds are computed for this pair-matching problem. They exhibit a phase transition related to the Kesten-Stigum threshold for community detection in SBM. The pair-matching problem is considered in the case where each node is constrained to be sampled less than a given amount of times. We show how optimal regret rates depend on this constraint. The paper is concluded by a conjecture regarding the optimal regret when the number of communities is larger than 2. Contrary to the two communities case, we argue that a statistical-computational gap would appear in this problem.
翻訳日:2024-03-10 19:40:16 公開日:2024-03-05
# 片側情報による状態制約ゼロサム差分ゲーム

State-Constrained Zero-Sum Differential Games with One-Sided Information ( http://arxiv.org/abs/2403.02741v1 )

ライセンス: Link先を確認
Mukesh Ghimire, Lei Zhang, Zhe Xu, Yi Ren(参考訳) 状態制約のあるゼロサム差分ゲームと、情報提供者(プレイヤ1)が非インフォームドプレイヤー(プレイヤ2)に対してカテゴリ的なペイオフ型を未知とする一方的な情報について検討する。 プレイヤー1のゴールは、制限に違反することなく報酬を最小化することであり、プレイヤー2のゴールは、国家の制約に違反するか、または、その支払いを最大化することである。 試合の例はサッカーにおける対人試合である。 国家の制約がなければ、cardaliaguet (2007) はそのようなゲームの価値は存在し、プレイヤーの共通の信念に凸であることを示した。 我々の理論的貢献は、状態制約を持つ微分ゲームへのこの結果の拡張であり、行動戦略の計算に必要な原始的および双対的準力学原理の導出である。 スケーラビリティと一般化に焦点を当てた不完全な情報動的ゲームに関する既存の研究と比べて、情報非対称性と状態制約から生じる信念操作のメカニズムを明らかにすることに重点を置いている。 我々は、この作業の有用性を実証するために、単純化されたフットボールゲームを使用し、攻撃者が情報非対称性を活用するために特定のランダムなフェイク動作をすべき(またはすべきでない)プレイヤーの位置と信念状態を明らかにし、ディフェンダーがどう対応すべきかを計算する。

We study zero-sum differential games with state constraints and one-sided information, where the informed player (Player 1) has a categorical payoff type unknown to the uninformed player (Player 2). The goal of Player 1 is to minimize his payoff without violating the constraints, while that of Player 2 is to either violate the state constraints, or otherwise, to maximize the payoff. One example of the game is a man-to-man matchup in football. Without state constraints, Cardaliaguet (2007) showed that the value of such a game exists and is convex to the common belief of players. Our theoretical contribution is an extension of this result to differential games with state constraints and the derivation of the primal and dual subdynamic principles necessary for computing the behavioral strategies. Compared with existing works on imperfect-information dynamic games that focus on scalability and generalization, our focus is instead on revealing the mechanism of belief manipulation behaviors resulted from information asymmetry and state constraints. We use a simplified football game to demonstrate the utility of this work, where we reveal player positions and belief states in which the attacker should (or should not) play specific random fake moves to take advantage of information asymmetry, and compute how the defender should respond.
翻訳日:2024-03-08 16:24:27 公開日:2024-03-05
# SHMC-Net: 精子頭部形態分類のためのマスク誘導機能融合ネットワーク

SHMC-Net: A Mask-guided Feature Fusion Network for Sperm Head Morphology Classification ( http://arxiv.org/abs/2402.03697v3 )

ライセンス: Link先を確認
Nishchal Sapkota, Yejia Zhang, Sirui Li, Peixian Liang, Zhuo Zhao, Jingjing Zhang, Xiaomin Zha, Yiru Zhou, Yunxia Cao, Danny Z Chen(参考訳) 男性不妊は世界の不妊患者の約3分の1を占める。 頭部形態解析による精子異常の手動評価は、専門家の間で観察者の変動と診断上の相違の問題に遭遇する。 その代わり、casa(computer-assisted semen analysis)は、低品質の精子画像、小さなデータセット、騒がしいクラスラベルに苦しむ。 精子頭の形態分類のための新しいアプローチであるshmc-netを提案し,精子頭のセグメンテーションマスクを用いて精子画像の形態分類を導く。 SHMC-Netは、画像プリエントを用いて信頼性の高いセグメンテーションマスクを生成し、効率的なグラフベースの手法でオブジェクト境界を洗練し、精子頭作物とマスクネットワークをトレーニングする。 ネットワークの中間段階では、画像とマスクの特徴を融合スキームで融合させ、形態的特徴をよりよく学習する。 ノイズの多いクラスラベルの処理と小さなデータセットでのトレーニングの正規化のために、SHMC-NetはSoft Mixupを適用して、ミックスアップ拡張と損失関数を組み合わせた。 scian と hushem のデータセットで最先端の成果を達成し,事前トレーニングやコストのかかるセンシング手法を駆使した手法よりも優れています。

Male infertility accounts for about one-third of global infertility cases. Manual assessment of sperm abnormalities through head morphology analysis encounters issues of observer variability and diagnostic discrepancies among experts. Its alternative, Computer-Assisted Semen Analysis (CASA), suffers from low-quality sperm images, small datasets, and noisy class labels. We propose a new approach for sperm head morphology classification, called SHMC-Net, which uses segmentation masks of sperm heads to guide the morphology classification of sperm images. SHMC-Net generates reliable segmentation masks using image priors, refines object boundaries with an efficient graph-based method, and trains an image network with sperm head crops and a mask network with the corresponding masks. In the intermediate stages of the networks, image and mask features are fused with a fusion scheme to better learn morphological features. To handle noisy class labels and regularize training on small datasets, SHMC-Net applies Soft Mixup to combine mixup augmentation and a loss function. We achieve state-of-the-art results on SCIAN and HuSHeM datasets, outperforming methods that use additional pre-training or costly ensembling techniques.
翻訳日:2024-03-07 20:42:17 公開日:2024-03-05
# AIの背景がAIの説明の知覚を形作るXAI

The Who in XAI: How AI Background Shapes Perceptions of AI Explanations ( http://arxiv.org/abs/2107.13509v2 )

ライセンス: Link先を確認
Upol Ehsan, Samir Passi, Q. Vera Liao, Larry Chan, I-Hsiang Lee, Michael Muller, Mark O. Riedl(参考訳) AIシステムの説明責任は、ユーザがインフォームドアクションを取るために重要である。 AIのブラックボックスを開く"誰"を理解することは、それを開くのと同じくらい重要です。 私たちは、2つの異なるグループ、つまりAIのバックグラウンドを持つ人々といない人たちの、異なるタイプのAI説明に対する理解について、混合手法による研究を行います。 定量的には、ユーザの知覚を5次元で共有する。 定性的には、AIの背景が解釈にどう影響するかを説明し、その違いを評価レンズと認知ヒューリスティックスを通して解明する。 その結果,(1)両グループとも異なる理由から数に対する不当な信頼を示し,(2)各グループは意図した設計以上の異なる説明で価値を見出した。 XAIの分野における批判的な意味を持ちながら、私たちの研究結果は、最善意にもかかわらずAIが生成した説明が否定的な結果をもたらすことを示し、それがいかにして信頼の有害な操作につながるかを示している。 我々はそれらを軽減するための設計介入を提案する。

Explainability of AI systems is critical for users to take informed actions. Understanding "who" opens the black-box of AI is just as important as opening it. We conduct a mixed-methods study of how two different groups--people with and without AI background--perceive different types of AI explanations. Quantitatively, we share user perceptions along five dimensions. Qualitatively, we describe how AI background can influence interpretations, elucidating the differences through lenses of appropriation and cognitive heuristics. We find that (1) both groups showed unwarranted faith in numbers for different reasons and (2) each group found value in different explanations beyond their intended design. Carrying critical implications for the field of XAI, our findings showcase how AI generated explanations can have negative consequences despite best intentions and how that could lead to harmful manipulation of trust. We propose design interventions to mitigate them.
翻訳日:2024-03-07 18:48:02 公開日:2024-03-05
# 自律マーカーレス迅速空中把持

Autonomous Marker-less Rapid Aerial Grasping ( http://arxiv.org/abs/2211.13093v3 )

ライセンス: Link先を確認
Erik Bauer, Barnabas Gavin Cangan, Robert K. Katzschmann(参考訳) ロボットの未来において、視覚と空間の知覚はロボットシステムにとって最も重要である。 特に航空ロボットには、現実世界のシナリオに視覚知覚を利用する多くの応用がある。 ドローンによる空中の把握は、他のロボティクスソリューションよりも大きなモビリティを持つ高速なピック・アンド・プレイス・ソリューションを約束する。 本研究では,Mask R-CNNシーンセグメンテーション(detectron2)を用いて,物体位置のマーカーに頼らず,既知の物体の外観を必要としない自律的高速空中把握システムを提案する。 分割画像と深度カメラからの空間情報とを組み合わせることで,検出対象の濃密点雲を生成し,形状に基づく把握計画を行い,対象物の把握点を決定する。 本システムでは,実世界における動的把持空中プラットフォーム実験において,ベースライン把持成功率の94.5%までの物体位置推定のためのモーションキャプチャシステムの性能を再現できることを示した。 本研究は,空飛ぶプラットフォームを用いた幾何学的把持技術の最初の使用例を示し,既存の航空操作プラットフォームの自律性向上を目標とし,倉庫等における実世界の応用に向けた。

In a future with autonomous robots, visual and spatial perception is of utmost importance for robotic systems. Particularly for aerial robotics, there are many applications where utilizing visual perception is necessary for any real-world scenarios. Robotic aerial grasping using drones promises fast pick-and-place solutions with a large increase in mobility over other robotic solutions. Utilizing Mask R-CNN scene segmentation (detectron2), we propose a vision-based system for autonomous rapid aerial grasping which does not rely on markers for object localization and does not require the appearance of the object to be previously known. Combining segmented images with spatial information from a depth camera, we generate a dense point cloud of the detected objects and perform geometry-based grasp planning to determine grasping points on the objects. In real-world experiments on a dynamically grasping aerial platform, we show that our system can replicate the performance of a motion capture system for object localization up to 94.5 % of the baseline grasping success rate. With our results, we show the first use of geometry-based grasping techniques with a flying platform and aim to increase the autonomy of existing aerial manipulation platforms, bringing them further towards real-world applications in warehouses and similar environments.
翻訳日:2024-03-07 18:45:35 公開日:2024-03-05
# Seamful XAI: 説明可能なAIでSeamfulデザインを運用

Seamful XAI: Operationalizing Seamful Design in Explainable AI ( http://arxiv.org/abs/2211.06753v2 )

ライセンス: Link先を確認
Upol Ehsan, Q. Vera Liao, Samir Passi, Mark O. Riedl, Hal Daume III(参考訳) AIシステムのミスは必然的であり、技術的制限と社会技術的ギャップの両方から生じる。 ブラックボックスのAIシステムは、ユーザー体験をシームレスにすることができるが、シームを隠蔽することで、AIのミスからフォールアウトを軽減できる。 これらのAIの欠陥を隠す代わりに、ユーザを助けるためにそれらを活用できるだろうか? 説明可能なAI(XAI)はアルゴリズムの不透明性に主に取り組んだが、シームフルデザインは、社会技術やインフラのミスマッチを明らかにして活用することによって、AIの説明可能性を高めることができると提案する。 我々は,(1)「シームフルXAI」の概念を,(1)「シーム」をAIの文脈に伝達し,(2)利害関係者がシームを予測・設計するための設計プロセスを開発することによって導入する。 現実のユースケースから情報を得たシナリオベースの共同設計アクティビティを使用して、43人のAI実践者と実際のエンドユーザでこのプロセスを探索する。 私たちは、Seamful XAI設計プロセスが、AIの損傷を予見し、基礎となる理由(シーム)を特定し、それらをAIライフサイクルに配置し、シームフル情報を活用してXAIとユーザエージェンシーを改善する方法を学ぶのに役立ちました。 私たちは、このプロセスが実践者がAIでシームを予測し、作り出すのにどのように役立つか、Seamfulnessが説明可能性を改善し、エンドユーザに力を与え、Responsible AIを促進するかについて、経験的な洞察、含意、考察を共有しています。

Mistakes in AI systems are inevitable, arising from both technical limitations and sociotechnical gaps. While black-boxing AI systems can make the user experience seamless, hiding the seams risks disempowering users to mitigate fallouts from AI mistakes. Instead of hiding these AI imperfections, can we leverage them to help the user? While Explainable AI (XAI) has predominantly tackled algorithmic opaqueness, we propose that seamful design can foster AI explainability by revealing and leveraging sociotechnical and infrastructural mismatches. We introduce the concept of Seamful XAI by (1) conceptually transferring "seams" to the AI context and (2) developing a design process that helps stakeholders anticipate and design with seams. We explore this process with 43 AI practitioners and real end-users, using a scenario-based co-design activity informed by real-world use cases. We found that the Seamful XAI design process helped users foresee AI harms, identify underlying reasons (seams), locate them in the AI's lifecycle, learn how to leverage seamful information to improve XAI and user agency. We share empirical insights, implications, and reflections on how this process can help practitioners anticipate and craft seams in AI, how seamfulness can improve explainability, empower end-users, and facilitate Responsible AI.
翻訳日:2024-03-07 18:44:04 公開日:2024-03-05
# スパースIFT:訓練効率を最大化するスパースIso-FLOP変換

Sparse-IFT: Sparse Iso-FLOP Transformations for Maximizing Training Efficiency ( http://arxiv.org/abs/2303.11525v3 )

ライセンス: Link先を確認
Vithursan Thangarasa, Shreyas Saxena, Abhay Gupta, Sean Lie(参考訳) 近年の研究では、FLOPの削減を目的としたニューラルネットワークトレーニングにおける重量の分散に焦点を当てている。 しかし、スパースウェイトトレーニングはしばしば精度を犠牲にし、より密集したモデルの精度を達成するために訓練スケジュールを延長する必要がある。 対照的に、Sparse Iso-FLOP Transformations (Sparse-IFT) は密度モデルFLOPを維持しながら精度を向上させる。 単一のハイパーパラメータ(すなわちスパースレベル)を使用して、スパースiftは密集層を効率的に置き換え、最適なスパースマスクの探索空間を広げる。 さらに、スパース-IFTモデルを用いた動的スパーストレーニングは、ラマヌジャングラフ特性を用いたスペクトル解析によって証明されたこの大きなスパースマスク重み空間を効果的にナビゲートする。 本研究は,マスクトポロジ,重み,最終性能の相関関係を明らかにする。 特に、ハイパーパラメータを調整することなく、Sparse-IFTで高密度層を置き換えると、ImageNetでResNet-18が+3.5%、Open LLMのリーダーボードで+0.9%向上する。 我々の知る限り、これはスパース変換の簡単な集合を通して密度モデルの精度を向上させるためにスパース性を利用する最初の研究である。 コードはhttps://github.com/cerebrasresearch/sparse-ift。

Recent research has focused on weight sparsity in neural network training to reduce FLOPs, aiming for improved efficiency (test accuracy w.r.t training FLOPs). However, sparse weight training often sacrifices accuracy, requiring extended training schedules to attain the accuracy of dense models. In contrast, our approach, Sparse Iso-FLOP Transformations (Sparse-IFT), uses sparsity to improve accuracy while maintaining dense model FLOPs. Using a single hyperparameter (i.e., sparsity level), Sparse-IFTs efficiently replace dense layers, expanding the search space for optimal sparse masks. In addition, dynamic sparse training with Sparse-IFT models effectively navigates this larger sparse mask-weight space, which is evidenced by a spectral analysis using Ramanujan graph properties. Our study reveals a robust correlation among mask topology, weights, and final performance. Notably, without adjusting hyperparameters, replacing dense layers with Sparse-IFT yields significant improvements, such as a +3.5% boost for ResNet-18 on ImageNet and +0.9% for GPT-3 Small on the Open LLM leaderboard. To our knowledge, this is the first work to demonstrate the use of sparsity for improving the accuracy of dense models through a simple-to-use set of sparse transformations. Code is available at: https://github.com/CerebrasResearch/Sparse-IFT.
翻訳日:2024-03-07 18:34:43 公開日:2024-03-05
# 異なる負の扱い方:リンク予測のための領域制約と範囲制約による損失関数の強化

Treat Different Negatives Differently: Enriching Loss Functions with Domain and Range Constraints for Link Prediction ( http://arxiv.org/abs/2303.00286v4 )

ライセンス: Link先を確認
Nicolas Hubert, Pierre Monnin, Armelle Brun, Davy Monticolo(参考訳) 知識グラフ埋め込みモデル(KGEM)は、リンク予測を含む知識グラフ(KG)に関連する様々なタスクに使用される。 それらは真と偽の三重項のバッチを考慮した損失関数で訓練される。 しかし、異なる種類の偽三重項が存在し、最近の研究はそれらが等しく評価されるべきでないことを示唆し、特定の負のサンプリング手順をもたらす。 最近の仮定に従い、関係(ドメインと範囲)のw.r.t.シグネチャを意味的に妥当な負の三重項は高品質の負であると仮定する。 したがって,リンク予測のための3つの主要損失関数を豊かにすることで,すべての種類の負がサンプリングされるが,その意味的妥当性に基づいて異なる扱いを受けることができる。 広範かつ制御された実験環境において,提案した損失関数が,提案手法の汎用性と優越性の両方を示す満足度を体系的に提供することを示す。 実際、提案した損失関数は、(1) MRR と Hits@10 の値がより良くなり、(2) KGEM をSem@K 測定値によって測定されるような意味的正しさに導く。 これは、関係シグネチャがKGEMをグローバルに改善し、損失関数に組み込むべきであることを強調している。 ドメインと範囲の関係はスキーマ定義のKGでほとんど利用できますが、このアプローチは実用的にも広く利用できます。

Knowledge graph embedding models (KGEMs) are used for various tasks related to knowledge graphs (KGs), including link prediction. They are trained with loss functions that consider batches of true and false triples. However, different kinds of false triples exist and recent works suggest that they should not be valued equally, leading to specific negative sampling procedures. In line with this recent assumption, we posit that negative triples that are semantically valid w.r.t. signatures of relations (domain and range) are high-quality negatives. Hence, we enrich the three main loss functions for link prediction such that all kinds of negatives are sampled but treated differently based on their semantic validity. In an extensive and controlled experimental setting, we show that the proposed loss functions systematically provide satisfying results which demonstrates both the generality and superiority of our proposed approach. In fact, the proposed loss functions (1) lead to better MRR and Hits@10 values, and (2) drive KGEMs towards better semantic correctness as measured by the Sem@K metric. This highlights that relation signatures globally improve KGEMs, and thus should be incorporated into loss functions. Domains and ranges of relations being largely available in schema-defined KGs, this makes our approach both beneficial and widely usable in practice.
翻訳日:2024-03-07 18:33:25 公開日:2024-03-05
# THC:テンソル同型圧縮を用いた分散ディープラーニングの高速化

THC: Accelerating Distributed Deep Learning Using Tensor Homomorphic Compression ( http://arxiv.org/abs/2302.08545v2 )

ライセンス: Link先を確認
Minghao Li (1), Ran Ben Basat (2), Shay Vargaftik (3), ChonLam Lao (1), Kevin Xu (1), Michael Mitzenmacher (1), Minlan Yu (1) ((1) Harvard University, (2) University College London, (3) VMware Research)(参考訳) ディープニューラルネットワーク(Deep Neural Network, DNN)は、画像分類、コンピュータビジョン、自然言語処理などの重要なユースケースのデファクトスタンダードである。 dnnとデータセットが大きくなるにつれて、さらに大きなクラスタでの分散トレーニングが必要になる。 主なボトルネックは、労働者が全体単位のモデル更新(すなわち勾配)を交換する通信オーバーヘッドである。 このボトルネックに対処し、トレーニングを加速するために、広くデプロイされたアプローチは圧縮である。 しかし、従来のデプロイメントでは、各方向に一方向勾配圧縮スキームを用いることで、双方向の圧縮スキームを適用することが多い。 これにより、パラメータサーバの計算オーバーヘッドが大きくなり、圧縮エラーが増大し、トレーニング時間が長くなり、精度が低下する。 本稿では, 圧縮された値を直接集約し, 上記の計算オーバーヘッドを解消する新しい双方向圧縮フレームワークであるTensor Homomorphic Compression (THC)を紹介する。 さらに、THCはインネットワークアグリゲーション(INA)と互換性があり、さらなる加速を可能にする。 評価の結果,THCを用いた代表的視覚と言語モデルの学習精度は INA で1.40倍から1.47倍,PS で1.28倍から1.33倍に向上した。

Deep neural networks (DNNs) are the de facto standard for essential use cases, such as image classification, computer vision, and natural language processing. As DNNs and datasets get larger, they require distributed training on increasingly larger clusters. A main bottleneck is the resulting communication overhead where workers exchange model updates (i.e., gradients) on a per-round basis. To address this bottleneck and accelerate training, a widely-deployed approach is compression. However, previous deployments often apply bi-directional compression schemes by simply using a uni-directional gradient compression scheme in each direction. This results in significant computational overheads at the parameter server and increased compression error, leading to longer training and lower accuracy. We introduce Tensor Homomorphic Compression (THC), a novel bi-directional compression framework that enables the direct aggregation of compressed values and thus eliminating the aforementioned computational overheads. Moreover, THC is compatible with in-network aggregation (INA), which allows for further acceleration. Our evaluation shows that training representative vision and language models with THC reaches target accuracy by 1.40x to 1.47x faster using INA and 1.28x to 1.33x faster using a software PS compared with state-of-the-art systems.
翻訳日:2024-03-07 18:32:05 公開日:2024-03-05
# 独立公理、多世界理論、構成者理論

The Independence Postulate, the Many Worlds Theory, and Constructor Theory ( http://arxiv.org/abs/2302.07649v5 )

ライセンス: Link先を確認
Samuel Epstein(参考訳) 多くの世界理論と建設論は独立宣言と矛盾している。 多くの世界理論との衝突は、多数の電子のスピンを測定する有限の実験の存在によって示されている。 実験の後、独立性の仮定を破る禁止配列を含む正の確率の分岐が存在する。 コンストラクタ理論は反事実から成り、特定の過程が起こりうるか起こり得ないかを宣言する。 しかし、この二項分類は、禁止されたシーケンスを発見または生成できるかどうかを記述する際に課題を満たす。

The Many Worlds Theory and Constructor Theory are in conflict with the Independence Postulate. The conflict with the Many Worlds Theory is shown through the existence of a finite experiment that measures the spin of a large number of electrons. After the experiment there are branches of positive probability which contain forbidden sequences that break the Independence Postulate. Constructor Theory consists of counterfactuals, decreeing certain processes can or cannot occur. However this binary classification meets challenges when describing whether a forbidden sequence can be found or created.
翻訳日:2024-03-07 18:31:44 公開日:2024-03-05
# スピンアライメント問題の解決に向けて

Towards a resolution of the spin alignment problem ( http://arxiv.org/abs/2307.06894v3 )

ライセンス: Link先を確認
Mohammad A. Alhejji and Emanuel Knill(参考訳) 制約を受ける各状態を選択することで、混合状態のエントロピーを最小化する。 それぞれの状態のスペクトルが固定されている場合、混合物のエントロピーを減少させるためには、何らかの意味で状態の区別を小さくすべきである。 本稿では,この状況にインスパイアされた最適化問題のクラスを考察し,識別可能性という関連する概念に光を当てる。 本研究の動機は,最近導入されたスピンアライメント予想である。 根本問題の最初のバージョンでは、混合状態の各状態は、補集合の各量子ビット上の固定状態$Q$でテンソルされた$n$ qubitsの部分集合上で自由に選択される状態に制約される。 この予想によれば、混合のエントロピーは、各項の自由に選択された状態を選択して、固定された極大固有ベクトル q$ 上のプロジェクターのテンソル積とすることにより最小化される。 私たちはこの問題をいくつかの方法で一般化する。 まず、エントロピーを最小化する代わりに、ファンノルムやシャッテンノルムのような任意の単位不変凸函数の最大化を考える。 予想された必要アライメントを定式化し一般化するために、アライメントを、メジャー化によって引き起こされる自己随伴作用素のタプル上の前順序として定義する。 整数次数のシャッテンノルムに対する一般化予想を証明し、自由選択された状態が古典的になるように制約された場合と、混合に寄与する2つの状態と q$ がプロジェクタに比例する場合を証明する。 最後のケースは、最大アライメントの明示的な条件を与えるより一般的な状況に適合する。 スピンアライメント問題には自然な「双対」の定式化があり、そのバージョンには我々が導入するさらなる一般化がある。

Consider minimizing the entropy of a mixture of states by choosing each state subject to constraints. If the spectrum of each state is fixed, we expect that in order to reduce the entropy of the mixture, we should make the states less distinguishable in some sense. Here, we study a class of optimization problems that are inspired by this situation and shed light on the relevant notions of distinguishability. The motivation for our study is the recently introduced spin alignment conjecture. In the original version of the underlying problem, each state in the mixture is constrained to be a freely chosen state on a subset of $n$ qubits tensored with a fixed state $Q$ on each of the qubits in the complement. According to the conjecture, the entropy of the mixture is minimized by choosing the freely chosen state in each term to be a tensor product of projectors onto a fixed maximal eigenvector of $Q$, which maximally "aligns" the terms in the mixture. We generalize this problem in several ways. First, instead of minimizing entropy, we consider maximizing arbitrary unitarily invariant convex functions such as Fan norms and Schatten norms. To formalize and generalize the conjectured required alignment, we define alignment as a preorder on tuples of self-adjoint operators that is induced by majorization. We prove the generalized conjecture for Schatten norms of integer order, for the case where the freely chosen states are constrained to be classical, and for the case where only two states contribute to the mixture and $Q$ is proportional to a projector. The last case fits into a more general situation where we give explicit conditions for maximal alignment. The spin alignment problem has a natural "dual" formulation, versions of which have further generalizations that we introduce.
翻訳日:2024-03-07 18:25:45 公開日:2024-03-05
# Google Mapsにおける超スケーラブルな逆強化学習

Massively Scalable Inverse Reinforcement Learning in Google Maps ( http://arxiv.org/abs/2305.11290v4 )

ライセンス: Link先を確認
Matt Barnes, Matthew Abueg, Oliver F. Lange, Matt Deeds, Jason Trader, Denali Molitor, Markus Wulfmeier, Shawn O'Banion(参考訳) 逆強化学習(IRL)は、ルートレコメンデーションにおいて人間の潜在的嗜好を学習するための強力で一般的な枠組みを提供するが、数億の州と実証軌道で惑星規模の問題に対処するアプローチは成功していない。 本稿では,グラフ圧縮,空間並列化,固有ベクトルアルゴリズムとの接続による初期化条件の改善に基づくスケーリング手法を提案する。 従来のirlメソッドをルーティングコンテキストで再検討し、安価で決定論的なプランナーと、高価でロバストな確率的ポリシーとのトレードオフが存在することを重要視する。 Receding Horizon Inverse Planning (RHIP)は、従来のIRLアルゴリズムの新たな一般化であり、その計画的地平を通したパフォーマンストレードオフのきめ細かい制御を提供する。 我々の貢献は、グローバルスケールでの経路品質を16-24%向上させ、我々の知識を最大限に活用するポリシーに結実し、これまでの現実世界におけるirlアルゴリズムの最大の研究成果を示しています。 結論として,キーコンポーネントのアブレーション研究を行い,代替固有値ソルバからの負の結果を示し,irl特有のバッチ戦略によるスケーラビリティ向上の機会を見出した。

Inverse reinforcement learning (IRL) offers a powerful and general framework for learning humans' latent preferences in route recommendation, yet no approach has successfully addressed planetary-scale problems with hundreds of millions of states and demonstration trajectories. In this paper, we introduce scaling techniques based on graph compression, spatial parallelization, and improved initialization conditions inspired by a connection to eigenvector algorithms. We revisit classic IRL methods in the routing context, and make the key observation that there exists a trade-off between the use of cheap, deterministic planners and expensive yet robust stochastic policies. This insight is leveraged in Receding Horizon Inverse Planning (RHIP), a new generalization of classic IRL algorithms that provides fine-grained control over performance trade-offs via its planning horizon. Our contributions culminate in a policy that achieves a 16-24% improvement in route quality at a global scale, and to the best of our knowledge, represents the largest published study of IRL algorithms in a real-world setting to date. We conclude by conducting an ablation study of key components, presenting negative results from alternative eigenvalue solvers, and identifying opportunities to further improve scalability via IRL-specific batching strategies.
翻訳日:2024-03-07 18:21:58 公開日:2024-03-05
# ユニバーサル移動物体セグメンテーションのための時間分布と空間相関の学習

Learning Temporal Distribution and Spatial Correlation for Universal Moving Object Segmentation ( http://arxiv.org/abs/2304.09949v3 )

ライセンス: Link先を確認
Guanfang Dong, Chenqiu Zhao, Xichen Pan, Anup Basu(参考訳) 移動対象セグメンテーションの目標は、動画の静止背景から移動対象を分離することである。 この問題の1つの大きな課題は、従来の手法が特定の場面でのみ有効であることから、様々な自然シーンからのビデオのユニバーサルモデルを開発する方法である。 本稿では,普遍移動物体のセグメンテーションの汎用解となる可能性を持つ時間分布・空間相関学習法(lts)を提案する。 提案手法では,時間画素からの分布をシーン非依存のセグメンテーションのためのDefect Iterative Distribution Learning (DIDL)ネットワークで学習する。 特に、DIDLネットワークは、新しく派生した製品流通層の改善を取り入れています。 次に,空間相関を学習する確率ベイズ補充(SBR)ネットワークを提案し,DIDLネットワークが生成する二項マスクを改善する。 時間分布のシーン独立性と空間相関による精度の向上から, 提案手法は, パラメータが固定された多様で複雑な自然シーンのほとんどすべての映像に対して良好に動作する。 LASIESTA、CDNet2014、BMC、SBMI2015、および128の現実世界ビデオを含む標準データセットに関する包括的な実験は、ディープラーニングネットワークの使用の有無に関わらず、最先端の手法と比較して提案手法の優位性を示す。 我々の知る限り、この研究は現実世界の環境においてオブジェクトセグメンテーションを動かすための一般的な解決策となる可能性が高い。 コードと実際のビデオはGitHub https://github.com/guanfangdong/LTS-UniverisalMOSで見ることができる。

The goal of moving object segmentation is separating moving objects from stationary backgrounds in videos. One major challenge in this problem is how to develop a universal model for videos from various natural scenes since previous methods are often effective only in specific scenes. In this paper, we propose a method called Learning Temporal Distribution and Spatial Correlation (LTS) that has the potential to be a general solution for universal moving object segmentation. In the proposed approach, the distribution from temporal pixels is first learned by our Defect Iterative Distribution Learning (DIDL) network for a scene-independent segmentation. Notably, the DIDL network incorporates the use of an improved product distribution layer that we have newly derived. Then, the Stochastic Bayesian Refinement (SBR) Network, which learns the spatial correlation, is proposed to improve the binary mask generated by the DIDL network. Benefiting from the scene independence of the temporal distribution and the accuracy improvement resulting from the spatial correlation, the proposed approach performs well for almost all videos from diverse and complex natural scenes with fixed parameters. Comprehensive experiments on standard datasets including LASIESTA, CDNet2014, BMC, SBMI2015 and 128 real world videos demonstrate the superiority of proposed approach compared to state-of-the-art methods with or without the use of deep learning networks. To the best of our knowledge, this work has high potential to be a general solution for moving object segmentation in real world environments. The code and real-world videos can be found on GitHub https://github.com/guanfangdong/LTS-UniverisalMOS.
翻訳日:2024-03-07 18:20:24 公開日:2024-03-05
# スタンス分類のための高速・微調整オープンソース大言語モデル

Prompting and Fine-Tuning Open-Sourced Large Language Models for Stance Classification ( http://arxiv.org/abs/2309.13734v2 )

ライセンス: Link先を確認
Iain J. Cruickshank and Lynnette Hui Xian Ng(参考訳) 興味のある分野における著者の視点を予測するタスクであるスタンス分類は、長い間、社会科学から機械学習まで、領域における研究の焦点であった。 現在のスタンス検出法は、主に文の手動アノテーションに依存し、次に教師付き機械学習モデルを訓練する。 しかし、この手動のアノテーションプロセスは、面倒なアノテーションの努力を必要とするため、様々な文脈にまたがる一般化の可能性を妨げている。 本研究では,手動アノテーションの必要性を低減あるいは排除できるスタンス検出手法として,LLM(Large Language Models)の使用について検討する。 10個のオープンソースモデルと7つのプロンプトスキームを調査し、LLMはドメイン内教師付きモデルと競合するが、その性能には必ずしも一致しないことを示した。 LLMの微調整も行いましたが、微調整プロセスが必ずしも優れたパフォーマンスをもたらすとは限らないことが分かりました。 一般に、LLMはより小さな教師付き機械学習モデルよりも常に優れているわけではないことを発見し、LLMが最適化するベンチマークであるスタンス検出を求める。 この研究で使用されたコードは \url{https://github.com/ijcruic/llm-stance-labeling} で利用可能である。

Stance classification, the task of predicting the viewpoint of an author on a subject of interest, has long been a focal point of research in domains ranging from social science to machine learning. Current stance detection methods rely predominantly on manual annotation of sentences, followed by training a supervised machine learning model. However, this manual annotation process requires laborious annotation effort, and thus hampers its potential to generalize across different contexts. In this work, we investigate the use of Large Language Models (LLMs) as a stance detection methodology that can reduce or even eliminate the need for manual annotations. We investigate 10 open-source models and 7 prompting schemes, finding that LLMs are competitive with in-domain supervised models but are not necessarily consistent in their performance. We also fine-tuned the LLMs, but discovered that fine-tuning process does not necessarily lead to better performance. In general, we discover that LLMs do not routinely outperform their smaller supervised machine learning models, and thus call for stance detection to be a benchmark for which LLMs also optimize for. The code used in this study is available at \url{https://github.com/ijcruic/LLM-Stance-Labeling}
翻訳日:2024-03-07 18:05:06 公開日:2024-03-05
# 非マルコフノイズの存在下での最適空洞と連続場の間のマクロ量子絡み合い

Macroscopic quantum entanglement between an optomechanical cavity and a continuous field in presence of non-Markovian noise ( http://arxiv.org/abs/2309.12532v2 )

ライセンス: Link先を確認
Su Direkci, Klemens Winkler, Corentin Gut, Klemens Hammerer, Markus Aspelmeyer, Yanbei Chen(参考訳) マクロな物体で量子の絡み合いを調べることで、新しい方法で量子力学をテストすることができる。 このような挙動を実現する1つの方法は、マクロメカニカル発振器を放射圧を介して連続光電界に結合することである。 この観点から、議論されるシステムは、ガウス状態と力学を仮定する未解決のサイドバンド状態におけるコヒーレント光学場によって駆動されるオプテメカニカルキャビティを含む。 システム内の絡み合い量を数値的に定量化する枠組みを開発した。 従来の研究と異なり、非マルコフノイズを扱い、連続光学場とキャビティモードの両方を考慮に入れている。 本稿では,Advanced Laser Interferometer Gravitational-Wave Observatoryの場合に適用し,量子ノイズや古典ノイズの存在下においても,絡み合いが存在するパラメータ状態について議論する。

Probing quantum entanglement with macroscopic objects allows us to test quantum mechanics in new regimes. One way to realize such behavior is to couple a macroscopic mechanical oscillator to a continuous light field via radiation pressure. In view of this, the system that is discussed comprises an optomechanical cavity driven by a coherent optical field in the unresolved sideband regime where we assume Gaussian states and dynamics. We develop a framework to quantify the amount of entanglement in the system numerically. Different from previous work, we treat non-Markovian noise and take into account both the continuous optical field and the cavity mode. We apply our framework to the case of the Advanced Laser Interferometer Gravitational-Wave Observatory and discuss the parameter regimes where entanglement exists, even in the presence of quantum and classical noises.
翻訳日:2024-03-07 18:04:24 公開日:2024-03-05
# PyGraft: 入力における合成スキーマと知識グラフの構成可能な生成

PyGraft: Configurable Generation of Synthetic Schemas and Knowledge Graphs at Your Fingertips ( http://arxiv.org/abs/2309.03685v2 )

ライセンス: Link先を確認
Nicolas Hubert, Pierre Monnin, Mathieu d'Aquin, Davy Monticolo, Armelle Brun(参考訳) 知識グラフ(KG)は、データ表現と管理のパラダイムとして注目されている。 通常、スキーマ(オントロジーなど)によって支えられているため、KGは事実情報だけでなく文脈知識もキャプチャする。 いくつかのタスクでは、数kgが標準ベンチマークとして確立された。 しかし、最近の研究は、限られたデータセットのコレクションに依存するだけでは、アプローチの一般化能力を評価するには不十分である、と概説している。 教育や医学などのデータに敏感な分野では、公開データセットへのアクセスはさらに制限されている。 PyGraftはPythonベースのツールで、高度にカスタマイズされたドメインに依存しないスキーマとKGを生成する。 合成されたスキーマはRDFSとOWLの構成を多用し、合成されたKGは現実世界のKGの特性とスケールをエミュレートする。 生成されたリソースの論理的一貫性は、最終的に記述ロジック(DL)推論を実行することで保証される。 単一のパイプラインでスキーマとKGの両方を生成する方法を提供することで、PyGraftの目的は、グラフベースの機械学習(ML)やより一般的にはKG処理といった領域における新しいアプローチをベンチマークするために、より多様なKGの配列を生成することである。 特にグラフベースのMLでは、モデル性能と一般化能力のより包括的な評価が促進され、利用可能なベンチマークの限られたコレクションを超えていなければならない。 PyGraft は https://github.com/nicolas-hbt/pygraft で利用可能である。

Knowledge graphs (KGs) have emerged as a prominent data representation and management paradigm. Being usually underpinned by a schema (e.g., an ontology), KGs capture not only factual information but also contextual knowledge. In some tasks, a few KGs established themselves as standard benchmarks. However, recent works outline that relying on a limited collection of datasets is not sufficient to assess the generalization capability of an approach. In some data-sensitive fields such as education or medicine, access to public datasets is even more limited. To remedy the aforementioned issues, we release PyGraft, a Python-based tool that generates highly customized, domain-agnostic schemas and KGs. The synthesized schemas encompass various RDFS and OWL constructs, while the synthesized KGs emulate the characteristics and scale of real-world KGs. Logical consistency of the generated resources is ultimately ensured by running a description logic (DL) reasoner. By providing a way of generating both a schema and KG in a single pipeline, PyGraft's aim is to empower the generation of a more diverse array of KGs for benchmarking novel approaches in areas such as graph-based machine learning (ML), or more generally KG processing. In graph-based ML in particular, this should foster a more holistic evaluation of model performance and generalization capability, thereby going beyond the limited collection of available benchmarks. PyGraft is available at: https://github.com/nicolas-hbt/pygraft.
翻訳日:2024-03-07 18:01:46 公開日:2024-03-05
# SAM3D: ボリューム医療画像におけるセグメンテーションモデル

SAM3D: Segment Anything Model in Volumetric Medical Images ( http://arxiv.org/abs/2309.03493v4 )

ライセンス: Link先を確認
Nhat-Tan Bui and Dinh-Hieu Hoang and Minh-Triet Tran and Gianfranco Doretto and Donald Adjeroh and Brijesh Patel and Arabinda Choudhary and Ngan Le(参考訳) 画像セグメンテーションは医用画像解析において重要な要素であり、正確な診断のための重要な情報の抽出を支援する。 深層学習の出現により、画像の自動分割手法が隆盛し、医療画像の処理において異常な熟練度を示している。 Segment Anything Model (SAM) による動機付け - 2次元の自然画像のセグメンテーションにおける顕著な精度と堅牢な一般化能力で有名な基礎モデルである。 我々のSAM3Dモデルは、ボリュームを個別に2次元スライスに変換することでボリュームデータを分割する現在のSAMベース手法とは異なり、統一的なアプローチで全3次元ボリューム画像を処理する。 複数の医用画像データセットを用いて大規模な実験を行い, パラメータの面では極めて効率的でありながら, 従来の3次元医用セグメンテーションの手法と比較して, ネットワークが競争力を発揮することを示した。 コードとチェックポイントはhttps://github.com/UARK-AICV/SAM3Dで入手できる。

Image segmentation remains a pivotal component in medical image analysis, aiding in the extraction of critical information for precise diagnostic practices. With the advent of deep learning, automated image segmentation methods have risen to prominence, showcasing exceptional proficiency in processing medical imagery. Motivated by the Segment Anything Model (SAM)-a foundational model renowned for its remarkable precision and robust generalization capabilities in segmenting 2D natural images-we introduce SAM3D, an innovative adaptation tailored for 3D volumetric medical image analysis. Unlike current SAM-based methods that segment volumetric data by converting the volume into separate 2D slices for individual analysis, our SAM3D model processes the entire 3D volume image in a unified approach. Extensive experiments are conducted on multiple medical image datasets to demonstrate that our network attains competitive results compared with other state-of-the-art methods in 3D medical segmentation tasks while being significantly efficient in terms of parameters. Code and checkpoints are available at https://github.com/UARK-AICV/SAM3D.
翻訳日:2024-03-07 18:01:21 公開日:2024-03-05
# 正規分布の識別不能スペクトルとプライバシ保存機械学習への応用

The Normal Distributions Indistinguishability Spectrum and its Application to Privacy-Preserving Machine Learning ( http://arxiv.org/abs/2309.01243v2 )

ライセンス: Link先を確認
Yun Lu, Malik Magdon-Ismail, Yu Wei, Vassilis Zikas(参考訳) 差分プライバシー(DP)を達成するには、一般に基礎となるクエリの出力をランダムにする。 ビッグデータ分析では、ランダム化されたスケッチ/アグリゲーションアルゴリズムを使用して、高次元データの処理を可能にすることが多い。 直感的には、そのような機械学習(ML)アルゴリズムは固有のプライバシーを提供するべきであるが、ほとんどの場合、既存のDPメカニズムがこの固有のランダム性を利用していないため、潜在的に冗長なノイズが発生する。 クエリ自体のランダム性を活用することで、(どのように)ランダム化されたmlクエリに対するdpメカニズムの有用性を向上させることができるのか? 正の解を求めるために,NDIS理論に基づく正規分布独立性スペクトル定理(NDIS理論)を証明した。 簡単に言えば、NDIS は任意の(多重次元)正規分布の $(\epsilon,\delta)$-indistinguishability-spectrum (略して $(\epsilon,\delta)$-IS) に対する閉形式解析計算である。 ndis定理(1)は、上記の場合の効率的な推定子を与え、(2)正規分布アウトプットを用いたdp-メカニズムの解析を可能にするとともに、より一般的な機構を大規模入力の振る舞いに活用できる。 NDIS定理を適用し、正規分布の出力を持つクエリー、すなわちガウスランダム射影(RP)、およびより一般的なクエリー、すなわち通常最小正方形(OLS)に対するDP機構を導出する。 rpとolsはどちらもデータ分析に非常に関係がある。 私たちの新しいdpメカニズムは、基礎となるアルゴリズムのランダム性を利用して、優れたプライバシ/有効性トレードオフを実現し、追加のノージングを必要としない$(\epsilon,\delta)$の範囲を初めて特定します。

To achieve differential privacy (DP) one typically randomizes the output of the underlying query. In big data analytics, one often uses randomized sketching/aggregation algorithms to make processing high-dimensional data tractable. Intuitively, such machine learning (ML) algorithms should provide some inherent privacy, yet most if not all existing DP mechanisms do not leverage this inherent randomness, resulting in potentially redundant noising. The motivating question of our work is: (How) can we improve the utility of DP mechanisms for randomized ML queries, by leveraging the randomness of the query itself? Towards a (positive) answer, we prove the Normal Distributions Indistinguishability Spectrum Theorem (in short, NDIS Theorem), a theoretical result with far-reaching practical implications. In a nutshell, NDIS is a closed-form analytic computation for the $(\epsilon,\delta)$-indistinguishability-spectrum (in short, $(\epsilon,\delta)$-IS) of two arbitrary (multi-dimensional) normal distributions $X$ and $Y$, i.e., the optimal $\delta$ (for any given $\epsilon$) such that $X$ and $Y$ are ($\epsilon,\delta$)-close according to the DP distance. The NDIS theorem (1) yields efficient estimators for the above IS, and (2) allows us to analyze DP-mechanisms with normally-distributed outputs, as well as more general mechanisms by leveraging their behavior on large inputs. We apply the NDIS theorem to derive DP mechanisms for queries with normally-distributed outputs -- i.e., Gaussian Random Projections (RP) -- and for more general queries -- i.e., Ordinary Least Squares (OLS). Both RP and OLS are highly relevant in data analytics. Our new DP mechanisms achieve superior privacy/utility trade-offs by leveraging the randomness of the underlying algorithms, and identifies, for the first time, the range of $(\epsilon,\delta)$ for which no additional noising is needed.
翻訳日:2024-03-07 18:01:02 公開日:2024-03-05
# スケーラブルニューラルネットワークカーネル

Scalable Neural Network Kernels ( http://arxiv.org/abs/2310.13225v2 )

ライセンス: Link先を確認
Arijit Sehanobish, Krzysztof Choromanski, Yunfan Zhao, Avinava Dubey, Valerii Likhosherstov(参考訳) 本稿では,スケーラブルニューラルネットワークカーネル (snnk) の概念を紹介する。これは正規フィードフォワード層 (ffls) の置き換えであり,後者を近似することができるが,計算特性は良好である。 SNNKは、FFL内のニューラルネットワークのパラメータから入力を効果的に切り離し、ドット生成カーネルを介して最終的な計算でそれらを接続する。 それらはさらに厳密な表現であり、パラメータ入力ベクトルのドット積の関数以外の複雑な関係をモデル化することができる。 また、深層ニューラルネットワークアーキテクチャのコンパクト化にSNNKを適用するニューラルネットワークバンドルプロセスを導入し、さらなる圧縮ゲインをもたらす。 極端なバージョンでは、最適パラメータがいくつかの損失関数(例えば平均二乗誤差)の明示式を通じて表現され、バックプロパゲーションをバイパスする可能性を開く完全バンドルネットワークへと導かれる。 解析の副産物として,複数のSNNK変種をインスタンス化するために応用されたユニバーサルランダム特徴(URF)のメカニズムを導入し,拡張性のあるカーネル手法の文脈で興味深い。 我々は,これらすべての概念の厳密な理論解析と,snnkにインスパイアされた新しいアダプタ層を用いた,ポイントワイズ・カーネル推定からトランスフォーマーの微調整まで,広範な経験的評価を提供する。 我々のメカニズムは、競争精度を維持しながら、トレーニング可能なパラメータの最大5倍の削減を可能にする。

We introduce the concept of scalable neural network kernels (SNNKs), the replacements of regular feedforward layers (FFLs), capable of approximating the latter, but with favorable computational properties. SNNKs effectively disentangle the inputs from the parameters of the neural network in the FFL, only to connect them in the final computation via the dot-product kernel. They are also strictly more expressive, as allowing to model complicated relationships beyond the functions of the dot-products of parameter-input vectors. We also introduce the neural network bundling process that applies SNNKs to compactify deep neural network architectures, resulting in additional compression gains. In its extreme version, it leads to the fully bundled network whose optimal parameters can be expressed via explicit formulae for several loss functions (e.g. mean squared error), opening a possibility to bypass backpropagation. As a by-product of our analysis, we introduce the mechanism of the universal random features (or URFs), applied to instantiate several SNNK variants, and interesting on its own in the context of scalable kernel methods. We provide rigorous theoretical analysis of all these concepts as well as an extensive empirical evaluation, ranging from point-wise kernel estimation to Transformers' fine-tuning with novel adapter layers inspired by SNNKs. Our mechanism provides up to 5x reduction in the number of trainable parameters, while maintaining competitive accuracy.
翻訳日:2024-03-07 17:55:02 公開日:2024-03-05
# コード分析のための大規模言語モデル: LLMは実際に仕事をするのか?

Large Language Models for Code Analysis: Do LLMs Really Do Their Job? ( http://arxiv.org/abs/2310.12357v2 )

ライセンス: Link先を確認
Chongzhou Fang, Ning Miao, Shaurya Srivastav, Jialin Liu, Ruoyu Zhang, Ruijie Fang, Asmita, Ryan Tsang, Najmeh Nazari, Han Wang and Houman Homayoun(参考訳) 大規模言語モデル(llm)は、自然言語理解とプログラミングコード処理タスクの領域において大きな可能性を示している。 人間のようなコードを理解して生成する能力は、コード解析の目的のためにLLMを活用する研究を刺激している。 しかし、既存の文献は、特に難読化コードの文脈において、コード解析におけるLLMの有効性の体系的な評価と評価を提供するには不足している。 本稿では,このギャップを埋めるために,コード解析タスクの実行においてLLMの能力を包括的に評価する手法を提案する。 さらに、コード分析にllmを使用する実世界のケーススタディも提示する。 以上の結果から,LLMはコード解析の自動化に有用なツールでありながら,一定の制限を課すことが示唆された。 この研究は、精巧な調査を通じて、コード分析におけるLLMの利用に関連する可能性と制約の深い理解に寄与し、この重要な領域におけるアプリケーション強化の道を開いた。

Large language models (LLMs) have demonstrated significant potential in the realm of natural language understanding and programming code processing tasks. Their capacity to comprehend and generate human-like code has spurred research into harnessing LLMs for code analysis purposes. However, the existing body of literature falls short in delivering a systematic evaluation and assessment of LLMs' effectiveness in code analysis, particularly in the context of obfuscated code. This paper seeks to bridge this gap by offering a comprehensive evaluation of LLMs' capabilities in performing code analysis tasks. Additionally, it presents real-world case studies that employ LLMs for code analysis. Our findings indicate that LLMs can indeed serve as valuable tools for automating code analysis, albeit with certain limitations. Through meticulous exploration, this research contributes to a deeper understanding of the potential and constraints associated with utilizing LLMs in code analysis, paving the way for enhanced applications in this critical domain.
翻訳日:2024-03-07 17:54:35 公開日:2024-03-05
# 私のビッグデータには何があるのか?

What's In My Big Data? ( http://arxiv.org/abs/2310.20707v2 )

ライセンス: Link先を確認
Yanai Elazar, Akshita Bhagia, Ian Magnusson, Abhilasha Ravichander, Dustin Schwenk, Alane Suhr, Pete Walsh, Dirk Groeneveld, Luca Soldaini, Sameer Singh, Hanna Hajishirzi, Noah A. Smith, Jesse Dodge(参考訳) 大きなテキストコーパスは言語モデルのバックボーンである。 しかし, 一般統計, 品質, 社会的要因, 評価データ(汚染)の包含など, コーパスの内容の理解は限られている。 本研究では,“What's In My Big Data”を提案する。 (WIMBD)は,大規模テキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットである。 WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。 WIMBDをC4、The Pile、RedPajamaなど、一般的な言語モデルのトレーニングに使用する10種類のコーパスに適用する。 これらのコーパスについて, 重複, 合成, 品質の低さ, 個人識別可能な情報, 有毒な言語, ベンチマーク汚染など, 意外かつ未発表の発見がいくつか見出された。 例えば、RedPajamaとLAION-2B-enの文書の約50%が重複していることがわかった。 さらに、このようなコーパスでトレーニングされたモデルのベンチマークに使用されるいくつかのデータセットは、Winograd Schema ChallengeやGLUEとSuperGLUEの一部を含む重要なベンチマークに関して汚染されている。 我々はWIMBDのコードとアーティファクトをオープンソース化し、新しいテキストベースのコーパスに対する標準的な評価セットを提供し、それらの周りの分析と透明性を促進する。

Large text corpora are the backbone of language models. However, we have a limited understanding of the content of these corpora, including general statistics, quality, social factors, and inclusion of evaluation data (contamination). In this work, we propose What's In My Big Data? (WIMBD), a platform and a set of sixteen analyses that allow us to reveal and compare the contents of large text corpora. WIMBD builds on two basic capabilities -- count and search -- at scale, which allows us to analyze more than 35 terabytes on a standard compute node. We apply WIMBD to ten different corpora used to train popular language models, including C4, The Pile, and RedPajama. Our analysis uncovers several surprising and previously undocumented findings about these corpora, including the high prevalence of duplicate, synthetic, and low-quality content, personally identifiable information, toxic language, and benchmark contamination. For instance, we find that about 50% of the documents in RedPajama and LAION-2B-en are duplicates. In addition, several datasets used for benchmarking models trained on such corpora are contaminated with respect to important benchmarks, including the Winograd Schema Challenge and parts of GLUE and SuperGLUE. We open-source WIMBD's code and artifacts to provide a standard set of evaluations for new text-based corpora and to encourage more analyses and transparency around them.
翻訳日:2024-03-07 17:42:05 公開日:2024-03-05
# SelectLLM: LLMはアノテーションに重要な命令を選択できるか?

SelectLLM: Can LLMs Select Important Instructions to Annotate? ( http://arxiv.org/abs/2401.16553v4 )

ライセンス: Link先を確認
Ritik Sachin Parkar, Jaehyung Kim, Jong Inn Park, Dongyeop Kang(参考訳) 命令のチューニングは、大規模で多様なデータセットから得られるが、このようなデータセットの作成には、人間のラベル付けのコストがかかる。 大規模言語モデル(llm)によって生成された合成データセットは、この問題の一部を解決しているが、しばしば低品質のデータを含んでいる。 一つの効果的な解決策は、ラベルなしの命令を選択的にアノテートすることであり、特に様々なソースからラベルなしの命令やテキストを取得するのが比較的容易である。 しかし、特にLLMの文脈では、不正な命令をどうやって選択するかはよく研究されていない。 さらに、入力埋め込み空間密度に依存する従来のデータ選択手法は、命令サンプルの複雑さを過小評価する傾向があるが、モデル予測の不確実性に基づくものは、しばしば合成ラベルの品質に苦しむ。 そこで本稿では,ラベルなし命令をより効果的に選択するための LLM の機能を活用した代替フレームワーク SelectLLM を紹介する。 SelectLLMは2つの重要なステップで構成されている: コアセットベースのクラスタリング 多様性のための未実装の命令。 私たちの実験では、selectllmは命令チューニングベンチマークにおいて、他の最先端のメソッドにマッチするか、より優れています。 DollyデータでトレーニングされたクリーンなAlpacaテストセットの10%のパフォーマンス向上によって証明されたように、人間と合成データセット間の顕著な一貫性と、クロスデータセットの一般化が向上している。 すべてのコードとデータは公開されている(https://github.com/minnesotanlp/select-llm)。

Instruction tuning benefits from large and diverse datasets, however creating such datasets involves a high cost of human labeling. While synthetic datasets generated by large language models (LLMs) have partly solved this issue, they often contain low-quality data. One effective solution is selectively annotating unlabelled instructions, especially given the relative ease of acquiring unlabeled instructions or texts from various sources. However, how to select unlabelled instructions is not well-explored, especially in the context of LLMs. Further, traditional data selection methods, relying on input embedding space density, tend to underestimate instruction sample complexity, whereas those based on model prediction uncertainty often struggle with synthetic label quality. Therefore, we introduce SelectLLM, an alternative framework that leverages the capabilities of LLMs to more effectively select unlabeled instructions. SelectLLM consists of two key steps: Coreset-based clustering of unlabelled instructions for diversity and then prompting a LLM to identify the most beneficial instructions within each cluster. Our experiments demonstrate that SelectLLM matches or outperforms other state-of-the-art methods in instruction tuning benchmarks. It exhibits remarkable consistency across human and synthetic datasets, along with better cross-dataset generalization, as evidenced by a 10% performance improvement on the Cleaned Alpaca test set when trained on Dolly data. All code and data are publicly available (https://github.com/minnesotanlp/select-llm).
翻訳日:2024-03-07 17:36:27 公開日:2024-03-05
# 誰が言った? 幼児教室における音声分析の自動化

Who Said What? An Automated Approach to Analyzing Speech in Preschool Classrooms ( http://arxiv.org/abs/2401.07342v2 )

ライセンス: Link先を確認
Anchen Sun, Juan J Londono, Batya Elbaum, Luis Estrada, Roberto Jose Lazo, Laura Vitale, Hugo Gonzalez Villasanti, Riccardo Fusaroli, Lynn K Perry, Daniel S Messinger(参考訳) 幼児は、騒音の多い幼稚園の教室で覚醒時間の大部分を過ごします。 これらの環境では、教師との子どもの音声対話は言語結果に重要な貢献者であるが、手動による対話の翻訳は禁止されている。 児童・教師向けレコーダーの音声を用いて,話者分類(ALICE)と発話書き起こし(Whisper)の両方にオープンソースソフトウェアを利用する自動フレームワークを提案する。 本研究では,110分間の授業記録において,児童語マイクロフォン(n=4児)から85分間,教師・女性マイクロホン(n=2教師)から25分間の成績を比較した。 すなわち、正しく分類された教師と子供の発話の割合は.76であり、誤り訂正されたカッパは.50、重み付けされたF1は.76である。 教師と児童の書き起こしにおける単語エラー率は .15 であり、Whisper と専門家の書き起こしを同等にするためには、15%の単語を削除、追加、あるいは変更する必要がある。 また, 単語の平均発話長, 質問文である教師と児童の発話率, 2.5秒以内で回答した発話の割合などの音声特徴は, 専門家と自動書き起こしとは別々に計算した場合に類似していた。 その結果, 児童の言語発達を支援する教室音声の分析の進歩が示唆された。 自然言語処理を用いた今後の研究は、話者分類の改善と、自動化された学習フレームワークの適用から、13人の子供と4人の教師が1年間に17回観察した教室記録を含むより大きなデータセットまでの分析が進められている。

Young children spend substantial portions of their waking hours in noisy preschool classrooms. In these environments, children's vocal interactions with teachers are critical contributors to their language outcomes, but manually transcribing these interactions is prohibitive. Using audio from child- and teacher-worn recorders, we propose an automated framework that uses open source software both to classify speakers (ALICE) and to transcribe their utterances (Whisper). We compare results from our framework to those from a human expert for 110 minutes of classroom recordings, including 85 minutes from child-word microphones (n=4 children) and 25 minutes from teacher-worn microphones (n=2 teachers). The overall proportion of agreement, that is, the proportion of correctly classified teacher and child utterances, was .76, with an error-corrected kappa of .50 and a weighted F1 of .76. The word error rate for both teacher and child transcriptions was .15, meaning that 15% of words would need to be deleted, added, or changed to equate the Whisper and expert transcriptions. Moreover, speech features such as the mean length of utterances in words, the proportion of teacher and child utterances that were questions, and the proportion of utterances that were responded to within 2.5 seconds were similar when calculated separately from expert and automated transcriptions. The results suggest substantial progress in analyzing classroom speech that may support children's language development. Future research using natural language processing is underway to improve speaker classification and to analyze results from the application of the automated it framework to a larger dataset containing classroom recordings from 13 children and 4 teachers observed on 17 occasions over one year.
翻訳日:2024-03-07 17:34:20 公開日:2024-03-05
# Let's Go Shopping (LGS) -- ビジュアル概念理解のためのWebスケールイメージテキストデータセット

Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding ( http://arxiv.org/abs/2401.04575v2 )

ライセンス: Link先を確認
Yatong Bai, Utsav Garg, Apaar Shanker, Haoming Zhang, Samyak Parajuli, Erhan Bas, Isidora Filipovic, Amelia N. Chu, Eugenia D Fomitcheva, Elliot Branson, Aerin Kim, Somayeh Sojoudi, Kyunghyun Cho(参考訳) 画像分類やキャプションなどのニューラルネットワークの視覚および視覚言語応用は、非自明なデータ収集プロセスを必要とする大規模な注釈付きデータセットに依存している。 この時間を要する取り組みは、大規模なデータセットの出現を妨げ、研究者や実践者が少数の選択肢に制限する。 したがって、画像の収集と注釈のより効率的な方法を求める。 以前の取り組みでは、html alt-textsとcrawled social media postingsからキャプションを集めたが、これらのデータソースはノイズ、スパーシティ、主観性に苦しんでいる。 このため、クリーンライン、インフォメーション、フルーエンシーという3つの基準を満たした商業ショッピングウェブサイトに目を向ける。 Let's Go Shopping(LGS)データセットは,公開可能なEコマースWebサイトから1500万のイメージキャプチャペアを備えた,大規模なパブリックデータセットである。 既存の一般ドメインデータセットと比較すると、lgsイメージはフォアグラウンドオブジェクトに焦点を合わせ、より複雑なバックグラウンドを持つ。 既存のベンチマークデータセットでトレーニングされた分類器は電子商取引データに容易に一般化できないが、特定の自己監督型視覚特徴抽出器はより一般化できる。 さらに、LGSの高品質なEコマース中心の画像とバイモーダルな性質は、視覚言語によるバイモーダルなタスクに有利である。

Vision and vision-language applications of neural networks, such as image classification and captioning, rely on large-scale annotated datasets that require non-trivial data-collecting processes. This time-consuming endeavor hinders the emergence of large-scale datasets, limiting researchers and practitioners to a small number of choices. Therefore, we seek more efficient ways to collect and annotate images. Previous initiatives have gathered captions from HTML alt-texts and crawled social media postings, but these data sources suffer from noise, sparsity, or subjectivity. For this reason, we turn to commercial shopping websites whose data meet three criteria: cleanliness, informativeness, and fluency. We introduce the Let's Go Shopping (LGS) dataset, a large-scale public dataset with 15 million image-caption pairs from publicly available e-commerce websites. When compared with existing general-domain datasets, the LGS images focus on the foreground object and have less complex backgrounds. Our experiments on LGS show that the classifiers trained on existing benchmark datasets do not readily generalize to e-commerce data, while specific self-supervised visual feature extractors can better generalize. Furthermore, LGS's high-quality e-commerce-focused images and bimodal nature make it advantageous for vision-language bi-modal tasks: LGS enables image-captioning models to generate richer captions and helps text-to-image generation models achieve e-commerce style transfer.
翻訳日:2024-03-07 17:33:48 公開日:2024-03-05
# スーパービジョンのないディープニューラルネットワークにおける概念の分散表現の理解

Understanding Distributed Representations of Concepts in Deep Neural Networks without Supervision ( http://arxiv.org/abs/2312.17285v2 )

ライセンス: Link先を確認
Wonjoon Chang, Dahee Kwon, Jaesik Choi(参考訳) ディープラーニング分類器によって学習される概念の中間表現を理解することは、一般的なモデル行動の解釈に不可欠である。 学習された概念を明らかにする既存のアプローチは、事前定義された概念セットやセグメンテーションプロセスのような人間の監督に依存することが多い。 本稿では,ニューロンの主部分集合を選択することで,概念の分散表現を発見できる新しい教師なし手法を提案する。 我々の経験から、類似のニューロン活性化状態のインスタンスはコヒーレントな概念を共有する傾向があることが示されている。 提案手法は, 解釈可能な領域を構成する主ニューロン, すなわちRelaxed Decision Region (RDR) を選択し, 特徴空間におけるコヒーレントな概念を包含する。 データ内のラベルなしサブクラスを特定し、誤分類の原因を検出するために使用できる。 さらに,各層にまたがる手法の適用性は,各層にまたがる異なる分散表現を明らかにし,深層学習モデルの内部メカニズムに関する深い洞察を提供する。

Understanding intermediate representations of the concepts learned by deep learning classifiers is indispensable for interpreting general model behaviors. Existing approaches to reveal learned concepts often rely on human supervision, such as pre-defined concept sets or segmentation processes. In this paper, we propose a novel unsupervised method for discovering distributed representations of concepts by selecting a principal subset of neurons. Our empirical findings demonstrate that instances with similar neuron activation states tend to share coherent concepts. Based on the observations, the proposed method selects principal neurons that construct an interpretable region, namely a Relaxed Decision Region (RDR), encompassing instances with coherent concepts in the feature space. It can be utilized to identify unlabeled subclasses within data and to detect the causes of misclassifications. Furthermore, the applicability of our method across various layers discloses distinct distributed representations over the layers, which provides deeper insights into the internal mechanisms of the deep learning model.
翻訳日:2024-03-07 17:33:04 公開日:2024-03-05
# TSRNet:マルチモーダル時間とスペクトログラム復元ネットワークを用いたリアルタイムECG異常検出のための簡易フレームワーク

TSRNet: Simple Framework for Real-time ECG Anomaly Detection with Multimodal Time and Spectrogram Restoration Network ( http://arxiv.org/abs/2312.10187v2 )

ライセンス: Link先を確認
Nhat-Tan Bui and Dinh-Hieu Hoang and Thinh Phan and Minh-Triet Tran and Brijesh Patel and Donald Adjeroh and Ngan Le(参考訳) 心電図(Electrocardiogram、ECG)は、心拍数やリズムなどの健康状態の様々な側面を評価するために用いられる貴重な信号である。 心臓の状態を特定し、心電図データの異常を検出する上で重要な役割を果たす。 しかし、正常なecg信号と異常なecg信号の区別は難しい課題である。 本稿では,異常検出を利用したトレーニング用心電図データのみを用いた不健康状態の同定手法を提案する。 さらに、利用可能な情報を強化し、ロバストなシステムを構築するために、ECG信号の時系列および時間周波数領域の両面を考慮することを提案する。 その結果,心電図信号の異常検出に特化して設計されたTSRNet(Multimodal Time and Spectrogram Restoration Network)が導入された。 tsrnetは復元に基づく異常検出のカテゴリに属し、時系列領域とスペクトログラム領域の両方からインスピレーションを得ている。 両領域から表現を抽出することにより、TSRNetはECG信号の包括的な特性を効果的にキャプチャする。 このアプローチにより、ネットワークはより優れた識別能力を持つ堅牢な表現を学習し、正常なECGパターンと異常なECGパターンをより効果的に区別することができる。 さらに,異常検出における重要な要素である心電図ピークに着目した新しい推定手法,Peak-based Errorを導入する。 大規模データセット PTB-XL を用いた実験結果から,ECG 異常検出における本手法の有効性を実証するとともに,トレーニング可能なパラメータの最小化による効率の優先順位付けを行った。 私たちのコードはhttps://github.com/uark-aicv/tsrnetで利用可能です。

The electrocardiogram (ECG) is a valuable signal used to assess various aspects of heart health, such as heart rate and rhythm. It plays a crucial role in identifying cardiac conditions and detecting anomalies in ECG data. However, distinguishing between normal and abnormal ECG signals can be a challenging task. In this paper, we propose an approach that leverages anomaly detection to identify unhealthy conditions using solely normal ECG data for training. Furthermore, to enhance the information available and build a robust system, we suggest considering both the time series and time-frequency domain aspects of the ECG signal. As a result, we introduce a specialized network called the Multimodal Time and Spectrogram Restoration Network (TSRNet) designed specifically for detecting anomalies in ECG signals. TSRNet falls into the category of restoration-based anomaly detection and draws inspiration from both the time series and spectrogram domains. By extracting representations from both domains, TSRNet effectively captures the comprehensive characteristics of the ECG signal. This approach enables the network to learn robust representations with superior discrimination abilities, allowing it to distinguish between normal and abnormal ECG patterns more effectively. Furthermore, we introduce a novel inference method, termed Peak-based Error, that specifically focuses on ECG peaks, a critical component in detecting abnormalities. The experimental result on the large-scale dataset PTB-XL has demonstrated the effectiveness of our approach in ECG anomaly detection, while also prioritizing efficiency by minimizing the number of trainable parameters. Our code is available at https://github.com/UARK-AICV/TSRNet.
翻訳日:2024-03-07 17:31:56 公開日:2024-03-05
# 誰が映し出すのか?

Whose Projection Postulate? ( http://arxiv.org/abs/2402.15280v2 )

ライセンス: Link先を確認
Anthony Sudbery(参考訳) 投影法(英: projection postulate)は、非相対論的量子力学において、離散スペクトルを持つ観測可能な測定の純粋な状態にあると仮定された量子系に対する効果の記述である。 しばしば"von neumann's projection postulate"や"the l\"uders rule"と呼ばれる。 本稿は、ディラック、フォン・ノイマン、L\ "uders" によるこの仮定のバージョンについて検討する。 1930年、ディラックは現在の射影仮定(英語版)として知られるものを提案した。 1932年、フォン・ノイマンは特別なケースのみに適用する別の理論を提唱した。 L\ "uders" は1951年にこの理論を否定し、ディラックと同じ理論を提示した。 ディラックとフォン・ノイマンによる連続スペクトルによる可観測物の処理は批判され、この場合の射影仮説の一般化版の可能性を考える。 この論文は、プロジェクションの仮定(様々な形で)の状態を別の仮定(量子力学の他の仮定とは無関係)として、また時間発展の別の形式として(時間依存シュリンガー方程式に加えて)議論することで締めくくられる。

The projection postulate is a description of the effect on a quantum system, assumed to be in a pure state, of a measurement of an observable with a discrete spectrum, in nonrelativistic quantum mechanics. It is often called "von Neumann's projection postulate" or "the L\"uders rule". This paper is an examination of the versions of this postulate due to Dirac, von Neumann and L\"uders. It is shown that Dirac, in 1930, proposed what is now generally known as the projection postulate. Von Neumann, in 1932, gave a different theory which only applies in special and rather unusual cases. L\"uders, in 1951, rejected this theory and presented one which is the same as Dirac's. Treatments of observables with continuous spectra by both Dirac and von Neumann are criticised, and the possibility of a generalised version of the projection postulate for this case is considered. The paper concludes with a discussion of the status of the projection postulate (in its various forms) as a separate postulate (independent of the other postulates of quantum mechanics) and as a separate form of time development (in addition to the time-dependent Schr\"odinger equation).
翻訳日:2024-03-07 17:27:11 公開日:2024-03-05
# 注:digital realm plasmon resonanceにおけるテルルナノ粒子の活用 : brewsterの角度とdrudeモデルによる不完全情報ゲームにおける偽ニュース吸着

Note: Harnessing Tellurium Nanoparticles in the Digital Realm Plasmon Resonance, in the Context of Brewster's Angle and the Drude Model for Fake News Adsorption in Incomplete Information Games ( http://arxiv.org/abs/2403.03239v1 )

ライセンス: Link先を確認
Yasuko Kawahata(参考訳) 本稿では,デジタルヘルスプラットフォームにおけるユーザ行動とエンゲージメントのモデル化におけるソリトン理論とプラズモニック現象の革新的応用について考察する。 ソリトン解の概念を導入することにより、時間とともに健康改善行動の安定パターンを理解する新しいアプローチを提案する。 さらに, 偽ニュースの吸着におけるテルルナノ粒子の役割とそのプラズモン特性を解明し, ユーザインタラクションやエンゲージメントレベルに影響を与える。 本稿では, 非線形力学とテルルナノ粒子の特性を組み合わせた理論的枠組みにより, ディジタルヘルス環境におけるユーザエンゲージメントのダイナミクスに関する新たな知見を提供する。 分析では, ユーザ行動の複雑で非線形なダイナミクスを捉えるソリトン理論の可能性を強調し, プラズモニック現象の適用は, デジタルヘルスプラットフォームの感度と有効性を高めるための有望な道筋を提供する。 この研究は、ブリュースターのアングルやスネルの法則のような光学現象がスピンソリトンの概念とともに、偽ニュースの拡散の課題に対処するためにメタファーとして応用される未完の領域に発展する。 デジタルプラットフォームにおける光屈折・反射・情報伝播の類似性を探ることで,情報提示時の「角度」が受容・拡散にどのように影響するかを,新たな視点で明らかにする。 また,テルルナノ粒子を用いたプラズモン共鳴やソリトンダイナミクスのような機構による情報波の管理を提案する。 この理論的探究は、物理科学とデジタルコミュニケーションのギャップを埋めることを目的としており、誤情報の緩和戦略の開発への洞察を提供している。

This note explores the innovative application of soliton theory and plasmonic phenomena in modeling user behavior and engagement within digital health platforms. By introducing the concept of soliton solutions, we present a novel approach to understanding stable patterns of health improvement behaviors over time. Additionally, we delve into the role of tellurium nanoparticles and their plasmonic properties in adsorbing fake news, thereby influencing user interactions and engagement levels. Through a theoretical framework that combines nonlinear dynamics with the unique characteristics of tellurium nanoparticles, we aim to provide new insights into the dynamics of user engagement in digital health environments. Our analysis highlights the potential of soliton theory in capturing the complex, nonlinear dynamics of user behavior, while the application of plasmonic phenomena offers a promising avenue for enhancing the sensitivity and effectiveness of digital health platforms. This research ventures into an uncharted territory where optical phenomena such as Brewster's Angle and Snell's Law, along with the concept of spin solitons, are metaphorically applied to address the challenge of fake news dissemination. By exploring the analogy between light refraction, reflection, and the propagation of information in digital platforms, we unveil a novel perspective on how the 'angle' at which information is presented can significantly affect its acceptance and spread. Additionally, we propose the use of tellurium nanoparticles to manage 'information waves' through mechanisms akin to plasmonic resonance and soliton dynamics. This theoretical exploration aims to bridge the gap between physical sciences and digital communication, offering insights into the development of strategies for mitigating misinformation.
翻訳日:2024-03-07 17:17:02 公開日:2024-03-05
# ランダムk-SATにおけるk-局所量子探索の効率とアダバティックバリアント

Efficiency of k-Local Quantum Search and its Adiabatic Variant on Random k-SAT ( http://arxiv.org/abs/2403.03237v1 )

ライセンス: Link先を確認
Mingyou Wu(参考訳) ランダムな $k$-sat 問題の計算複雑性は、節番号 $m$ に付随する。 古典コンピューティングでは、溶解度から溶解度へのランダムな$k$-SATの遷移を示す、$m=r_k n$で満足度しきい値が特定される。 しかし、この確立されたしきい値を超えて、複雑さの理解は依然として困難である。 量子コンピュータでは、グロバーの非構造的量子探索の直接適用は、構造情報の監視による指数時間要求をもたらす。 本稿では、$k$-SAT問題に対処するために設計された、$k$-local quantum searchと呼ばれる構造化量子検索アルゴリズムのファミリーを紹介する。 探索アルゴリズムはターゲットの存在を必要とするため、我々の焦点は特に$k$-SATの満足度の高い側、すなわちmax-k$-SSATと表記されるインスタンスのmax-k$-SSATであり、小さな$k \ge 3$である。 m=\omega(n^{2+\epsilon})$のランダムインスタンスの場合、一般的な指数加速度は小さな$\epsilon>0$と十分大きい$n$に対して証明される。 さらに、adiabatic $k$-local quantum searchは、$\mathcal{O}(n^2)$の進化時間内で、一般効率の上限を$m=\Omega(n^{1+\epsilon})$に改善する。 具体的には、$m=\Theta(n^{1+\delta+\epsilon})$の場合、効率は1-\mathcal{O}(\mathrm{erfc}(n^{\delta/2})$の確率で保証される。 このアルゴリズムをすべてのインスタンスを解くことができるように修正することにより、m = Omega(n^{2+\epsilon})$が平均ケース複雑性理論に基づいて多項式であることが証明される。

The computational complexity of random $k$-SAT problem is contingent on the clause number $m$. In classical computing, a satisfiability threshold is identified at $m=r_k n$, marking the transition of random $k$-SAT from solubility to insolubility. However, beyond this established threshold, comprehending the complexity remains challenging. On quantum computers, direct application of Grover's unstructured quantum search still yields exponential time requirements due to oversight of structural information. This paper introduces a family of structured quantum search algorithms, termed $k$-local quantum search, designed to address the $k$-SAT problem. Because search algorithm necessitates the presence of a target, our focus is specifically on the satisfiable side of $k$-SAT, i.e., max-$k$-SAT on satisfiable instances, denoted as max-$k$-SSAT, with a small $k \ge 3$. For random instances with $m=\Omega(n^{2+\epsilon})$, general exponential acceleration is proven for any small $\epsilon>0$ and sufficiently large $n$. Furthermore, adiabatic $k$-local quantum search improves the bound of general efficiency to $m=\Omega(n^{1+\epsilon})$, within an evolution time of $\mathcal{O}(n^2)$. Specifically, for $m=\Theta(n^{1+\delta+\epsilon})$, the efficiency is guaranteed in a probability of $1-\mathcal{O}(\mathrm{erfc}(n^{\delta/2}))$. By modifying this algorithm capable of solving all instances, we prove that the max-$k$-SSAT is polynomial on average if $m=\Omega(n^{2+\epsilon})$ based on the average-case complexity theory.
翻訳日:2024-03-07 17:16:31 公開日:2024-03-05
# ベルの不等式に対するsicaのアプローチの結果

Some consequences of Sica's approach to Bell's inequalities ( http://arxiv.org/abs/2403.03236v1 )

ライセンス: Link先を確認
Alejandro Andr\'es Hnilo(参考訳) ルイ・シカ(louis sica)はベルの不等式を、一方の駅で観測された結果の時系列が他方の駅の設定が変化しても変化しないという単純な仮説から導いた。 この導出は算術的性質のみに基づいている。 局所性とリアリズムの議論を巻き起こす定義は含まないが、確率の定義は必要とせず、任意の長さの連続に対して有効である。 直接テストはできないが、sicaのアプローチは、古典的な直観を損なうことなくベルの不等式を破ることを説明することを目的としたコンピュータコードに対して決定的な基準を課している。 本稿では,非理想的効率の級数に拡張され,異なる時間で記録される級数に拡張する。 最初の拡張では、エンタングルメントパラメータであるschshと効率の関係が興味深いため、いわゆる「検出抜け穴」が新しい光の下に置かれている。 2つ目の拡張は、異なる設定で測定することは、異なるタイミングで記録シリーズを不可避に意味することを示し、(ベルの不等式の有効性の条件として)「ローカルリアリズム」を、記録されたシリーズを常に任意に再順序付けできる条件に置き換える。 論文の最後には,シカのアプローチに基づく今後の研究への期待線が提案されている。

Louis Sica derived Bell's inequalities from the simple hypothesis that the time series of outcomes observed in one station does not change if the setting in the other (distant) station is changed. This derivation is based on arithmetical properties only. It does not involve the controversial definitions of Locality and Realism, it does not require the definition of probabilities, and is valid for series of any length. Although it is not directly testable, Sica's approach puts a decisive criterion for computer codes aimed to explain the violation of Bell's inequalities without violating classical intuition. In this paper, the approach is extended to series with non ideal efficiency and to series recorded at different times. The first extension leads to an interesting relationship involving the entanglement parameter SCHSH and efficiency, what puts the so-called "detection loophole" under a new light. The second extension makes visible that measuring with different settings unavoidably means recording series at different times, and leads to replace "Local Realism" (as the condition for the validity of Bell's inequalities), with the condition that the recorded series can always be arbitrarily reordered. At the end of the paper, promising lines for future research based on Sica's approach are proposed.
翻訳日:2024-03-07 17:15:57 公開日:2024-03-05
# Caduceus: 双方向等価長鎖DNA配列モデリング

Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling ( http://arxiv.org/abs/2403.03234v1 )

ライセンス: Link先を確認
Yair Schiff, Chia-Hsiang Kao, Aaron Gokaslan, Tri Dao, Albert Gu, and Volodymyr Kuleshov(参考訳) 大規模シーケンスモデリングが急速に進歩し、生物学やゲノム工学に発展した。 しかし、ゲノム配列のモデリングは、長距離トークン相互作用のモデル化の必要性、ゲノムの上流および下流領域の影響、DNAの逆相補性(RC)といった課題をもたらす。 本稿では, 長距離mambaブロックを構築し, 双方向性をサポートするbimambaコンポーネントとrc等分散をサポートするmambadnaブロックに拡張する, これらの課題に動機付けられたアーキテクチャを提案する。 RC同種二方向長鎖DNA言語モデルの最初のファミリーであるCaduceusの基盤としてMambaDNAを使用し、CaduceusのDNA基盤モデルを生成する事前学習および微調整戦略を導入する。 Caduceusは、ダウンストリームベンチマークで以前の長距離モデルよりも優れており、挑戦的な長距離変動効果予測タスクでは、双方向性や等分散を生かさない10倍の大きなモデルの性能を上回っている。

Large-scale sequence modeling has sparked rapid advances that now extend into biology and genomics. However, modeling genomic sequences introduces challenges such as the need to model long-range token interactions, the effects of upstream and downstream regions of the genome, and the reverse complementarity (RC) of DNA. Here, we propose an architecture motivated by these challenges that builds off the long-range Mamba block, and extends it to a BiMamba component that supports bi-directionality, and to a MambaDNA block that additionally supports RC equivariance. We use MambaDNA as the basis of Caduceus, the first family of RC equivariant bi-directional long-range DNA language models, and we introduce pre-training and fine-tuning strategies that yield Caduceus DNA foundation models. Caduceus outperforms previous long-range models on downstream benchmarks; on a challenging long-range variant effect prediction task, Caduceus exceeds the performance of 10x larger models that do not leverage bi-directionality or equivariance.
翻訳日:2024-03-07 17:15:31 公開日:2024-03-05
# yang baxter方程式によるasep様モデル探索の新しいアプローチ

Novel approach of exploring ASEP-like models through the Yang Baxter Equation ( http://arxiv.org/abs/2403.03159v1 )

ライセンス: Link先を確認
Suvendu Barik, Alexander. S. Garkun, Vladimir Gritsev(参考訳) 我々は,asepスピンモデルのbethe ansatz法に触発されたyang baxter方程式の特定のアンサッツの代数的構造について検討する。 2種類のR-行列から到達するハミルトン密度の様々なクラスが、定数 YBE の解として現れる。 このような定数 r-行列のべき等類と零類を同定し、最低次元に対するランク-1の数値探索を行う。 最終結果の要約は、一般の非エルミートスピン-1/2連鎖モデルを示している。

We explore the algebraic structure of a particular ansatz of Yang Baxter Equation which is inspired from the Bethe Ansatz treatment of the ASEP spin-model. Various classes of Hamiltonian density arriving from two types of R-Matrices are found which also appear as solutions of constant YBE. We identify the idempotent and nilpotent categories of such constant R-Matrices and perform a rank-1 numerical search for the lowest dimension. A summary of finalised results reveals general non-hermitian spin-1/2 chain models.
翻訳日:2024-03-07 17:13:38 公開日:2024-03-05
# Bacon-Shor符号における動的論理量

Dynamical Logical Qubits in the Bacon-Shor Code ( http://arxiv.org/abs/2403.03291v1 )

ライセンス: Link先を確認
M. Sohaib Alam, Eleanor Rieffel(参考訳) Bacon-Shor符号(Bacon-Shor code)は、1つの論理量子ビットを持ち、$d \times d$ square 格子上に$d$を持つ重み2チェック演算子からなる量子誤り訂正サブシステム符号である。 チェック演算子の適切な測定スケジュールを選択することで、フロッケコードと見なすと、いくつかの動的論理キュービットをホストできることを示す。 具体的には、瞬時安定化群間の論理情報を保存するチェック演算子の周期4の測定スケジュールを特定する。 このようなスケジュールはBacon-Shor符号の通常の安定化器だけでなく、動的論理量子ビットをエラーから保護する安定化器も備えている。 これらのフロッケ・ベーコン・ソーコードの符号距離は、親サブシステムの論理キュービットとともに、$k$の動的論理キュービットを持つ$d \times d$格子上で$\theta(d/\sqrt{k})$となる。 さらに、測定スケジュール自体によって、いくつかの誤りが純粋に自己補正されることが示される。

The Bacon-Shor code is a quantum error correcting subsystem code composed of weight 2 check operators that admits a single logical qubit, and has distance $d$ on a $d \times d$ square lattice. We show that when viewed as a Floquet code, by choosing an appropriate measurement schedule of the check operators, it can additionally host several dynamical logical qubits. Specifically, we identify a period 4 measurement schedule of the check operators that preserves logical information between the instantaneous stabilizer groups. Such a schedule measures not only the usual stabilizers of the Bacon-Shor code, but also additional stabilizers that protect the dynamical logical qubits against errors. We show that the code distance of these Floquet-Bacon-Shor codes scales as $\Theta(d/\sqrt{k})$ on a $d \times d$ lattice with $k$ dynamical logical qubits, along with the logical qubit of the parent subsystem code. Moreover, several errors are shown to be self-corrected purely by the measurement schedule itself.
翻訳日:2024-03-07 17:07:44 公開日:2024-03-05
# 非計算基底におけるガウスフェルミオン状態の効率的な表現

Efficient Representation of Gaussian Fermionic Pure States in Non-Computational Bases ( http://arxiv.org/abs/2403.03289v1 )

ライセンス: Link先を確認
Babak Tarighi, Reyhaneh Khasseh and M. A. Rajabpour(参考訳) 本稿では,量子スピン系およびフェルミオンモデルにおいて,ガウスのフェルミオン状態を表現するための革新的なアプローチを紹介する。 従来の計算式 (\sigma^z) から ((\phi, \frac{\pi}{2}, \alpha) のようなより複雑な基底への遷移に焦点をあて、これは生成確率やシャノンエントロピーのような臨界量を正確に計算するのに必須である。 本稿では,基底変換を単純化するだけでなく,計算複雑性を低減し,大規模システムの振幅を効率的に計算できる新しいアルゴリズムを提案する。 我々の重要な貢献は、振幅計算を反対称行列からサブマトリクスのファフィアン計算に変換する技術である。 応用として、周期的境界条件と開境界条件の両方を考慮して、臨界横フィールドイジングチェイン内の様々な基底と構成の生成確率を決定する。 本研究では, 周期系における生成確率の対数拡大を特徴付ける普遍定数項と, 開系の場合の対数項の係数を特徴付ける普遍定数項を用いて, 構成と基底を分類することを目的とする。 開システムのシナリオでは、この係数は中心電荷と境界条件交換作用素の共形重みに影響される。 この研究は、量子情報理論と多体物理学の研究者が利用できるツールキットを拡張し、非標準量子基底におけるガウスフェルミオン状態の探索に、より効率的でエレガントなソリューションを提供する。

This paper introduces an innovative approach for representing Gaussian fermionic states, pivotal in quantum spin systems and fermionic models, within a range of alternative quantum bases. We focus on transitioning these states from the conventional computational (\sigma^z) basis to more complex bases, such as ((\phi, \frac{\pi}{2}, \alpha)), which are essential for accurately calculating critical quantities like formation probabilities and Shannon entropy. We present a novel algorithm that not only simplifies the basis transformation but also reduces computational complexity, making it feasible to calculate amplitudes of large systems efficiently. Our key contribution is a technique that translates amplitude calculations into the Pfaffian computation of submatrices from an antisymmetric matrix, a process facilitated by understanding domain wall relationships across different bases. As an application, we will determine the formation probabilities for various bases and configurations within the critical transverse field Ising chain, considering both periodic and open boundary conditions. We aim to categorize the configurations and bases by examining the universal constant term that characterizes the scaling of the logarithm of the formation probability in the periodic system, as well as the coefficient of the logarithmic term in the case of open systems. In the open system scenario, this coefficient is influenced by the central charge and the conformal weight of the boundary condition-changing operator. This work is set to expand the toolkit available for researchers in quantum information theory and many-body physics, providing a more efficient and elegant solution for exploring Gaussian fermionic states in non-standard quantum bases.
翻訳日:2024-03-07 17:07:21 公開日:2024-03-05
# 大きな言語モデルを恐れるべきだろうか? ハイデッガー哲学のレンズを通してllm能力とリスクを明らかにするためのヒューマン推論システムの構造解析

Should We Fear Large Language Models? A Structural Analysis of the Human Reasoning System for Elucidating LLM Capabilities and Risks Through the Lens of Heidegger's Philosophy ( http://arxiv.org/abs/2403.03288v1 )

ライセンス: Link先を確認
Jianqiiu Zhang(参考訳) 急速に発展する大規模言語モデル(llm)の分野では、それらの能力とリスクを徹底的に分析する必要がある。 私たちの調査の中心は2つの新しい要素です。 第一に、LLMにおける単語関係の統計的パターンとマーティン・ハイデッガー(Martin Heidegger)の「ready-to-hand」と「present-at-hand」という概念の間には、人間が世界との対話に使用する実用的および科学的高度を包含する革新的な類似点がある。 この比較は、LLMを言語知識学部のデジタル版として位置づけることの基礎となり、人間の推論の特定の側面をエミュレートする能力に光を当てる。 第二に、ハイデッガーの真理概念を「不連続」と捉えた人間の推論の構造解析を行い、この基本原理により、推論システムの入力と出力をマッピングし、推論を4つの異なるカテゴリに分割することができる。 人間の推論のより広いスキーマにLSMを配置することで、その強みと固有の制限を明確にすることができる。 以上の結果から,LLMは直接的説明的推論や疑似合理的推論の能力を持っているが,判断学部のような多くの類似AIモデルがないため,真理的推論に乏しく,創造的推論能力を持たないことが明らかとなった。 LLMが他のAI技術で強化される可能性やリスクも評価されている。 その結果,LLMはある程度の推論能力で熟練しているものの,人間の知的能力に適合あるいは超越するという願望はまだ達成されていないことが示唆された。 この研究は、LLMの理解を深めるだけでなく、AIのポテンシャルとその限界についての議論を前進させ、AIの進化する風景を将来の探査する道を開く。

In the rapidly evolving field of Large Language Models (LLMs), there is a critical need to thoroughly analyze their capabilities and risks. Central to our investigation are two novel elements. Firstly, it is the innovative parallels between the statistical patterns of word relationships within LLMs and Martin Heidegger's concepts of "ready-to-hand" and "present-at-hand," which encapsulate the utilitarian and scientific altitudes humans employ in interacting with the world. This comparison lays the groundwork for positioning LLMs as the digital counterpart to the Faculty of Verbal Knowledge, shedding light on their capacity to emulate certain facets of human reasoning. Secondly, a structural analysis of human reasoning, viewed through Heidegger's notion of truth as "unconcealment" is conducted This foundational principle enables us to map out the inputs and outputs of the reasoning system and divide reasoning into four distinct categories. Respective cognitive faculties are delineated, allowing us to place LLMs within the broader schema of human reasoning, thus clarifying their strengths and inherent limitations. Our findings reveal that while LLMs possess the capability for Direct Explicative Reasoning and Pseudo Rational Reasoning, they fall short in authentic rational reasoning and have no creative reasoning capabilities, due to the current lack of many analogous AI models such as the Faculty of Judgement. The potential and risks of LLMs when they are augmented with other AI technologies are also evaluated. The results indicate that although LLMs have achieved proficiency in some reasoning abilities, the aspiration to match or exceed human intellectual capabilities is yet unattained. This research not only enriches our comprehension of LLMs but also propels forward the discourse on AI's potential and its bounds, paving the way for future explorations into AI's evolving landscape.
翻訳日:2024-03-07 17:06:51 公開日:2024-03-05
# ab-initio量子化学のためのニューラルネットワーク逆流

Neural network backflow for ab-initio quantum chemistry ( http://arxiv.org/abs/2403.03286v1 )

ライセンス: Link先を確認
An-Jun Liu and Bryan K. Clark(参考訳) 第二量子化量子化学の基底状態は、重要な化学特性のセットへのアクセスを提供する。 MLアーキテクチャに基づく波動関数は、様々な物理系における基底状態の近似において有望であることを示す。 本稿では,ニューラルネットワークのバックフロー波動関数を用いて分子ハミルトニアンの最先端エネルギーを実現する方法を示す。 これを実現するため,[Li, et. al JCTC (2023)]によって導入されたSCIに基づく決定論的最適化スキームの変種を用いて,このアンザッツを最適化する。 私たちが研究した分子では、NNBFはCCSDや他のニューラルネットワーク量子状態よりも低いエネルギー状態を与える。 エネルギー改善におけるネットワークサイズと最適化パラメータの役割を体系的に検討する。 隠れた層数や行列式がエネルギー改善に小さな役割を果たしているが、隠れたユニット数を増やすことによるエネルギーの大幅な改善と、バッチサイズがより重要な役割を果たすように最適化に使用されるバッチサイズが存在することが判明した。

The ground state of second-quantized quantum chemistry Hamiltonians provides access to an important set of chemical properties. Wavefunctions based on ML architectures have shown promise in approximating these ground states in a variety of physical systems. In this work, we show how to achieve state-of-the-art energies for molecular Hamiltonians using the the neural network backflow wave-function. To accomplish this, we optimize this ansatz with a variant of the deterministic optimization scheme based on SCI introduced by [Li, et. al JCTC (2023)] which we find works better than standard MCMC sampling. For the molecules we studied, NNBF gives lower energy states than both CCSD and other neural network quantum states. We systematically explore the role of network size as well as optimization parameters in improving the energy. We find that while the number of hidden layers and determinants play a minor role in improving the energy, there is significant improvements in the energy from increasing the number of hidden units as well as the batch size used in optimization with the batch size playing a more important role.
翻訳日:2024-03-07 17:06:12 公開日:2024-03-05
# 炭化ケイ素中の欠陥を有する量子通信ネットワーク

Quantum communication networks with defects in silicon carbide ( http://arxiv.org/abs/2403.03284v1 )

ライセンス: Link先を確認
Sebastian Ecker, Matthias Fink, Thomas Scheidl, Philipp Sohr, Rupert Ursin, Muhammad Junaid Arshad, Cristian Bonato, Pasquale Cilibrizzi, Adam Gali, P\'eter Udvarhelyi, Alberto Politi, Oliver J. Trojak, Misagh Ghezellou, Jawad Ul Hassan, Ivan G. Ivanov, Nguyen Tien Son, Guido Burkard, Benedikt Tissot, Joop Hendriks, Carmem M. Gilardoni, Caspar H. van der Wal, Christian David, Thomas Astner, Philipp Koller, and Michael Trupke(参考訳) 量子通信は、光の量子状態の伝達によって実現される前例のない通信能力を約束する。 しかし、現在の実装では光子損失による通信距離の制限が厳しい。 シリコン炭化物(sic)の欠陥は有望な量子デバイスプラットフォームとして現れ、強い光学遷移、長いスピンコヒーレンス寿命、半導体デバイスとの統合の機会を提供している。 波長変換を必要とせずにファイバネットワークと接続できる通信網の光学的遷移の欠陥がいくつか確認されている。 これらのユニークな性質は、SiCを量子通信ネットワークのための量子ノードの実装のための魅力的なプラットフォームにする。 SiCの最も顕著な欠陥の概要とスピン光子界面におけるその実装について概説する。 さらに,直接点間リンク性能を超過するパラメータを抽出するために,メモリ拡張量子通信プロトコルをモデル化した。 これらの知見に基づき、SiCデバイスを大規模量子通信ネットワークに展開するために必要な重要なステップを要約する。

Quantum communication promises unprecedented communication capabilities enabled by the transmission of quantum states of light. However, current implementations face severe limitations in communication distance due to photon loss. Silicon carbide (SiC) defects have emerged as a promising quantum device platform, offering strong optical transitions, long spin coherence lifetimes and the opportunity for integration with semiconductor devices. Some defects with optical transitions in the telecom range have been identified, allowing to interface with fiber networks without the need for wavelength conversion. These unique properties make SiC an attractive platform for the implementation of quantum nodes for quantum communication networks. We provide an overview of the most prominent defects in SiC and their implementation in spin-photon interfaces. Furthermore, we model a memory-enhanced quantum communication protocol in order to extract the parameters required to surpass a direct point-to-point link performance. Based on these insights, we summarize the key steps required towards the deployment of SiC devices in large-scale quantum communication networks.
翻訳日:2024-03-07 17:05:52 公開日:2024-03-05
# 決定論的Bethe状態準備

Deterministic Bethe state preparation ( http://arxiv.org/abs/2403.03283v1 )

ライセンス: Link先を確認
David Raveh and Rafael I. Nepomechie(参考訳) 本稿では、スピン-1/2 XXZ量子スピン鎖の正確な固有状態を含む任意の$U(1)$-不変状態を量子コンピュータ上に生成する量子回路について述べる。 このアルゴリズムは決定論的であり、補助量子ビットを必要とせず、QR分解を必要としない。 この回路は、$\binom{L}{M}-1$マルチコントロールローテーションゲートと$2M(L-M)$CNOTゲートを用いて、$M$ダウンスピンのそのような$L$量子状態を作成する。

We present a quantum circuit that prepares an arbitrary $U(1)$-invariant state on a quantum computer, including the exact eigenstates of the spin-1/2 XXZ quantum spin chain with either open or closed boundary conditions. The algorithm is deterministic, does not require ancillary qubits, and does not require QR decompositions. The circuit prepares such an $L$-qubit state with $M$ down-spins using $\binom{L}{M}-1$ multi-controlled rotation gates and $2M(L-M)$ CNOT-gates.
翻訳日:2024-03-07 17:05:37 公開日:2024-03-05
# 確率回路を用いた信頼性アウェアマルチモーダル核融合

Credibility-Aware Multi-Modal Fusion Using Probabilistic Circuits ( http://arxiv.org/abs/2403.03281v1 )

ライセンス: Link先を確認
Sahil Sidheekh, Pranuthi Tenali, Saurabh Mathur, Erik Blasch, Kristian Kersting, Sriraam Natarajan(参考訳) 差別学習における後期マルチモーダル融合の問題点を考察する。 各データソースの信頼性を理解する必要があるノイズの多いマルチソースドメインに動機付けられ、マルチモーダル融合の文脈における信頼性の概念を探求する。 確率回路(PC)を用いて,各モード上の予測分布を結合する組合せ関数を提案する。 また,pc上での推論クエリを通じて各モダリティの信頼性を評価する確率的尺度も定義する。 実験により,我々の融合法は,最先端技術との競争性能を維持しつつ信頼性を確実に推定できることを示した。

We consider the problem of late multi-modal fusion for discriminative learning. Motivated by noisy, multi-source domains that require understanding the reliability of each data source, we explore the notion of credibility in the context of multi-modal fusion. We propose a combination function that uses probabilistic circuits (PCs) to combine predictive distributions over individual modalities. We also define a probabilistic measure to evaluate the credibility of each modality via inference queries over the PC. Our experimental evaluation demonstrates that our fusion method can reliably infer credibility while maintaining competitive performance with the state-of-the-art.
翻訳日:2024-03-07 17:05:25 公開日:2024-03-05
# 超次元計算のための線形符号

Linear Codes for Hyperdimensional Computing ( http://arxiv.org/abs/2403.03278v1 )

ライセンス: Link先を確認
Netanel Raviv(参考訳) 超次元コンピューティング(HDC)は、合成情報を高次元ベクトルとして表現するための新しい計算パラダイムであり、機械学習からニューロモルフィックコンピューティングまで幅広い応用において有望なポテンシャルを持つ。 hdcにおける長年の課題の1つは、その構成因子(リカバリ問題とも呼ばれる)への構成表現を分解することである。 本稿では,リカバリ問題を解くための新しい手法と,ランダムな線形コードの利用を提案する。 これらのコードはブール場上の部分空間であり、デジタル通信における様々な応用を含む情報理論においてよく研究されている話題である。 まず、乱数線形符号を用いた超次元符号化は、一般的な(通常)乱数符号の好ましい性質を保ち続けることを示し、この2つの手法を用いたhd表現は、同等の情報記憶能力を有する。 我々は,hdcのほとんどのユースケースをカプセル化するキー値ストアを形成するために,ランダム線形符号がリッチなサブコード構造を提供することを示す。 最も重要なことは、我々が開発するフレームワークの下では、ランダムな線形符号は単純なリカバリアルゴリズムを(束縛されたあるいは束縛された)構成表現に含めていることである。 前者はブール場上のある種の線形方程式系の構築に依存しており、この解は探索空間を劇的に減らし、多くの場合において排他的探索よりも厳密に優れている。 後者はこれらの符号の部分空間構造を用いて、確実に正しい分解を行う。 どちらの手法も最先端の共振器ネットワークよりも厳密に高速であり、しばしば桁違いに高速である。 我々はベンチマークソフトウェアライブラリを使用してpythonでこの技術を実装し、有望な実験結果を示した。

Hyperdimensional Computing (HDC) is an emerging computational paradigm for representing compositional information as high-dimensional vectors, and has a promising potential in applications ranging from machine learning to neuromorphic computing. One of the long-standing challenges in HDC is factoring a compositional representation to its constituent factors, also known as the recovery problem. In this paper we take a novel approach to solve the recovery problem, and propose the use of random linear codes. These codes are subspaces over the Boolean field, and are a well-studied topic in information theory with various applications in digital communication. We begin by showing that hyperdimensional encoding using random linear codes retains favorable properties of the prevalent (ordinary) random codes, and hence HD representations using the two methods have comparable information storage capabilities. We proceed to show that random linear codes offer a rich subcode structure that can be used to form key-value stores, which encapsulate most use cases of HDC. Most importantly, we show that under the framework we develop, random linear codes admit simple recovery algorithms to factor (either bundled or bound) compositional representations. The former relies on constructing certain linear equation systems over the Boolean field, the solution to which reduces the search space dramatically and strictly outperforms exhaustive search in many cases. The latter employs the subspace structure of these codes to achieve provably correct factorization. Both methods are strictly faster than the state-of-the-art resonator networks, often by an order of magnitude. We implemented our techniques in Python using a benchmark software library, and demonstrated promising experimental results.
翻訳日:2024-03-07 17:05:13 公開日:2024-03-05
# ARNN: てんかん発作を識別する多チャンネル脳波信号に対する注意的リカレントニューラルネットワーク

ARNN: Attentive Recurrent Neural Network for Multi-channel EEG Signals to Identify Epileptic Seizures ( http://arxiv.org/abs/2403.03276v1 )

ライセンス: Link先を確認
Salim Rukhsar and Anil Kumar Tiwari(参考訳) 我々は,シーケンスに沿って注意層を繰り返し適用し,シーケンス長に対して線形複雑度を有する注意型リカレントニューラルネットワーク(ARNN)を提案する。 提案モデルは単一チャネル信号ではなくマルチチャネルEEG信号で動作し,並列計算を利用する。 このセルにおいて、アテンション層は、多数の状態ベクトルと入力信号の繰り返し関数を計算するために、自己アテンションと相互アテンションのメカニズムを効率的に適用する計算ユニットである。 我々のアーキテクチャは、注意層と長短メモリ(LSTM)セルにインスパイアされており、長短のゲートを使用しているが、この典型的なセルを複数の順序でスケールアップし、マルチチャネル脳波信号を並列化する。 注意層とLSTMゲートの利点を継承し、それぞれの欠点を回避する。 我々は,CHB-MIT,UPenn,Mayos clinic,CHB-MITといった異種データセットを用いた広範囲な実験により,モデルの有効性を評価した。 実験の結果,ARNNモデルはLSTM,Vision Transformer (ViT),Compact Convolution Transformer (CCT),R-Transformer (RT)といったベースライン手法よりも優れており,幅広いタスクにおいて優れた性能と高速な処理能力を示している。 コードは \url{https://github.com/Salim-Lysiun/ARNN} で公開されている。

We proposed an Attentive Recurrent Neural Network (ARNN), which recurrently applies attention layers along a sequence and has linear complexity with respect to the sequence length. The proposed model operates on multi-channel EEG signals rather than single channel signals and leverages parallel computation. In this cell, the attention layer is a computational unit that efficiently applies self-attention and cross-attention mechanisms to compute a recurrent function over a wide number of state vectors and input signals. Our architecture is inspired in part by the attention layer and long short-term memory (LSTM) cells, and it uses long-short style gates, but it scales this typical cell up by several orders to parallelize for multi-channel EEG signals. It inherits the advantages of attention layers and LSTM gate while avoiding their respective drawbacks. We evaluated the model effectiveness through extensive experiments with heterogeneous datasets, including the CHB-MIT and UPenn and Mayos Clinic, CHB-MIT datasets. The empirical findings suggest that the ARNN model outperforms baseline methods such as LSTM, Vision Transformer (ViT), Compact Convolution Transformer (CCT), and R-Transformer (RT), showcasing superior performance and faster processing capabilities across a wide range of tasks. The code has been made publicly accessible at \url{https://github.com/Salim-Lysiun/ARNN}.
翻訳日:2024-03-07 17:04:44 公開日:2024-03-05
# ノイズから信号へ:薬理学的インフォームドニューラルSDEによるデジタルヘルスデータによる治療効果

From Noise to Signal: Unveiling Treatment Effects from Digital Health Data through Pharmacology-Informed Neural-SDE ( http://arxiv.org/abs/2403.03274v1 )

ライセンス: Link先を確認
Samira Pakravan, Nikolaos Evangelou, Maxime Usdin, Logan Brooks and James Lu(参考訳) ウェアラブルデバイスのようなデジタルヘルス技術(DHT)は、患者をパーソナライズし、継続的に、リアルタイムに監視する。 これらの技術は、新しい治療法やパーソナライズド医療の発展に寄与している。 これらの技術から洞察を得るには、臨床関連疾患状態の変化を捉えるための適切なモデリング技術が必要である。 これらのデバイスから生成されるデータは、自然に確率的であり、欠如する要素があり、かなりの個体間変動を示すため、従来の縦型モデリング技術を用いて分析することが困難である。 本稿では,これらの課題に対処可能な新しい薬理インフォームドニューラル確率微分方程式(SDE)モデルを提案する。 合成データを用いて, 治療効果を同定し, 確率的データから因果関係を学習する手法が有効であることを実証し, 反事実シミュレーションを可能にした。

Digital health technologies (DHT), such as wearable devices, provide personalized, continuous, and real-time monitoring of patient. These technologies are contributing to the development of novel therapies and personalized medicine. Gaining insight from these technologies requires appropriate modeling techniques to capture clinically-relevant changes in disease state. The data generated from these devices is characterized by being stochastic in nature, may have missing elements, and exhibits considerable inter-individual variability - thereby making it difficult to analyze using traditional longitudinal modeling techniques. We present a novel pharmacology-informed neural stochastic differential equation (SDE) model capable of addressing these challenges. Using synthetic data, we demonstrate that our approach is effective in identifying treatment effects and learning causal relationships from stochastic data, thereby enabling counterfactual simulation.
翻訳日:2024-03-07 17:04:17 公開日:2024-03-05
# dinov2を用いた自己教師付き学習

DINOv2 based Self Supervised Learning For Few Shot Medical Image Segmentation ( http://arxiv.org/abs/2403.03273v1 )

ライセンス: Link先を確認
Lev Ayzenberg, Raja Giryes, Hayit Greenspan(参考訳) 深層学習モデルは、医療画像セグメンテーションの基盤として現れてきたが、その有効性は、広範囲な手動ラベル付きデータセットと、予期せぬカテゴリへの適応性にかかっている。 Few-shot segmentation (FSS)は、限定ラベル付き例から新しいクラスを学ぶ能力を持つモデルを提供することによって、有望なソリューションを提供する。 fssのリードメソッドはalpnetで、クエリイメージと利用可能な少数のサポートセグメンテーションイメージの機能を比較する。 ALPNetの使用に関する重要な質問は、その機能の設計方法だ。 本研究では,コンピュータビジョンにおける基礎的自己教師型学習モデルであるDINOv2の機能を利用する可能性を探究する。 本稿では,ALPNetの強みを活用し,DINOv2の特徴抽出機能を活用することにより,より堅牢で適応可能な医用画像解析の道筋をたどる,少数ショットセグメンテーションへの新たなアプローチを提案する。

Deep learning models have emerged as the cornerstone of medical image segmentation, but their efficacy hinges on the availability of extensive manually labeled datasets and their adaptability to unforeseen categories remains a challenge. Few-shot segmentation (FSS) offers a promising solution by endowing models with the capacity to learn novel classes from limited labeled examples. A leading method for FSS is ALPNet, which compares features between the query image and the few available support segmented images. A key question about using ALPNet is how to design its features. In this work, we delve into the potential of using features from DINOv2, which is a foundational self-supervised learning model in computer vision. Leveraging the strengths of ALPNet and harnessing the feature extraction capabilities of DINOv2, we present a novel approach to few-shot segmentation that not only enhances performance but also paves the way for more robust and adaptable medical image analysis.
翻訳日:2024-03-07 17:04:01 公開日:2024-03-05
# トランスバーサルゲートを用いた論理アルゴリズムの相関復号

Correlated decoding of logical algorithms with transversal gates ( http://arxiv.org/abs/2403.03272v1 )

ライセンス: Link先を確認
Madelyn Cain, Chen Zhao, Hengyun Zhou, Nadine Meister, J. Pablo Bonilla Ataides, Arthur Jaffe, Dolev Bluvstein, Mikhail D. Lukin(参考訳) 量子誤り訂正は、スケーラブルな量子計算には不可欠であると考えられているが、その実装は相当な時空オーバーヘッドのために困難である。 トランスバーサルゲート (bluvstein et al., nature 626, 58-65 (2024)) を用いた論理量子ビットの効率的な操作を実証する最近の実験に動機づけられ, トランスバーサルゲート中の物理エラー伝播を考慮した量子ビットの復号により, 論理アルゴリズムの性能が大幅に向上することを示した。 このような相関復号化によりクリフォードおよび非クリフォードトランスバーサルエンタングゲートの性能が向上し,異なる計算ランタイムと精度を提供する2つの復号器を探索する。 深い論理クリフォード回路を考えることで,相関復号は,ゲート当たりのノイズ除去のラウンド数を減少させることで,時空間コストを大幅に改善できることがわかった。 これらの結果から,相関復号化は早期のフォールトトレラント計算において大きな利点となり,大規模論理アルゴリズムの時空間コストを低減できる可能性が示唆された。

Quantum error correction is believed to be essential for scalable quantum computation, but its implementation is challenging due to its considerable space-time overhead. Motivated by recent experiments demonstrating efficient manipulation of logical qubits using transversal gates (Bluvstein et al., Nature 626, 58-65 (2024)), we show that the performance of logical algorithms can be substantially improved by decoding the qubits jointly to account for physical error propagation during transversal entangling gates. We find that such correlated decoding improves the performance of both Clifford and non-Clifford transversal entangling gates, and explore two decoders offering different computational runtimes and accuracies. By considering deep logical Clifford circuits, we find that correlated decoding can significantly improve the space-time cost by reducing the number of rounds of noisy syndrome extraction per gate. These results demonstrate that correlated decoding provides a major advantage in early fault-tolerant computation, and indicate it has considerable potential to reduce the space-time cost in large-scale logical algorithms.
翻訳日:2024-03-07 17:03:42 公開日:2024-03-05
# トポロジカルに保護された負の絡み合い

Topologically protected negative entanglement ( http://arxiv.org/abs/2403.03259v1 )

ライセンス: Link先を確認
Wen-Tan Xue, Ching Hua Lee(参考訳) 絡み合うエントロピーは量子多体系の基本特性をエントロピーし、固有状態が一般的に非正方形となる非エルミート系では特に微妙である。 本研究では, 自由フェルミオン系, 特にトポロジカルフラットバンドにおいて, トポロジカルに保護された非直交エッジ状態から負の直交絡みが生じることを見出した。 例外的な隙間のない点と負の絡み合いを関連づけた以前の文献を別として, ギャップ付き系では, 強い負の絡み合いが生じうることを示す。 しかし、ギャップのない2次元位相平坦なバンドは、横次元 $l_z$ で二次的にスケールする新しい $s\sim -l_z^2\log l$ の絡み合い挙動を示す。 我々の発見は、位相的絡み合いエントロピーの伝統的な概念とは無関係なトポロジーと絡み合いの新たな相互作用に光を当て、SWAP演算子期待値を介して超低温原子格子における第2R'enyiエントロピー測定により実験的に検証することができる。

The entanglement entropy encodes fundamental characteristics of quantum many-body systems, and is particularly subtle in non-Hermitian settings where eigenstates generically become non-orthogonal. In this work, we find that negative biorthogonal entanglement generically arises from topologically-protected non-orthogonal edge states in free fermion systems, especially within topological flat bands. Departing from previous literature which associated negative entanglement with exceptional gapless points, we show that robustly negative entanglement can still occur in gapped systems. Gapless 2D topological flat bands, however, exhibits novel $S\sim -L_z^2\log L$ entanglement behavior which scales quadratically with the transverse dimension $L_z$. Our discovery sheds light on a new interplay between topology and entanglement unrelated to traditional concepts of topological entanglement entropy, and can be experimentally verified through second R\'enyi entropy measurements in ultracold atomic lattices via SWAP operator expectation values.
翻訳日:2024-03-07 17:03:18 公開日:2024-03-05
# ニューラルネットワーク学習と量子重力

Neural Network Learning and Quantum Gravity ( http://arxiv.org/abs/2403.03245v1 )

ライセンス: Link先を確認
Stefano Lanza(参考訳) 弦理論から生じる低エネルギー有効場の理論の風景は、体系的な探索には大きすぎる。 しかし, ストリングランドスケープの牧草地は, 機械学習技術の適用の場として有益かもしれない。 ニューラルネットワーク学習を利用することで、ランドスケープにおける一貫した理論が持つべき新規で未発見な特性を推測したり、その特性を主張する弁明文を確認することが可能になる。 この研究の目的は、ニューラルネットワークベースの学習によって文字列のランドスケープがどの程度探索できるかを説明することである。 我々の分析は近年の研究では、弦の風景は、その基礎となるテーム、o-ミニマル構造から生じる有限性の性質によって特徴づけられることを示した。 実際、これらの結果を用いて、弦理論の低エネルギー有効理論には、ある統計的可学習性の性質が与えられていることを示す。 その結果、補間や多クラス分類問題を含むいくつかの学習問題は、機械学習で具体的に対処でき、十分な精度で結果を提供することができる。

The landscape of low-energy effective field theories stemming from string theory is too vast for a systematic exploration. However, the meadows of the string landscape may be fertile ground for the application of machine learning techniques. Employing neural network learning may allow for inferring novel, undiscovered properties that consistent theories in the landscape should possess, or checking conjectural statements about alleged characteristics thereof. The aim of this work is to describe to what extent the string landscape can be explored with neural network-based learning. Our analysis is motivated by recent studies that show that the string landscape is characterized by finiteness properties, emerging from its underlying tame, o-minimal structures. Indeed, employing these results, we illustrate that any low-energy effective theory of string theory is endowed with certain statistical learnability properties. Consequently, several learning problems therein formulated, including interpolations and multi-class classification problems, can be concretely addressed with machine learning, delivering results with sufficiently high accuracy.
翻訳日:2024-03-07 17:02:54 公開日:2024-03-05
# 条件付き平均処理効果の統計的推定のための三重脱ベンゾラッソ

Triple/Debiased Lasso for Statistical Inference of Conditional Average Treatment Effects ( http://arxiv.org/abs/2403.03240v1 )

ライセンス: Link先を確認
Masahiro Kato(参考訳) 本研究では,個別因果効果を示す指標として注目されている条件平均処理効果(CATE)の推定と統計的推測について検討した。 データ生成プロセスでは、バイナリ処理に関連する結果の線形モデルを仮定し、CATEをこれらの線形モデルが期待する結果の差として定義する。 この研究により線形モデルは高次元となり、我々の関心はCATEに対する一貫した推定と統計的推測にある。 高次元線形回帰において、典型的なアプローチは空間性を仮定することである。 しかし,本研究では,空間性を直接仮定するものではない。 その代わり、線形モデルの差のみに空間性を考える。 まず2つの頑健な推定器を用いてこの差を近似し、次にラッソ正則化との共変量差を回帰する。 この回帰推定器はcateに対して一貫しているが、dml(double/debiased machine learning)とlasso(debiased lasso)のテクニックを使ってバイアスをさらに低減し、$\sqrt{n}$-consistencyと信頼区間に繋がる。 我々は、debiased estimatorをtriple/debiased lasso (tdl)と呼び、dml法とdebiased lasso法の両方を適用する。 提案手法の音質をシミュレーション研究により確認する。

This study investigates the estimation and the statistical inference about Conditional Average Treatment Effects (CATEs), which have garnered attention as a metric representing individualized causal effects. In our data-generating process, we assume linear models for the outcomes associated with binary treatments and define the CATE as a difference between the expected outcomes of these linear models. This study allows the linear models to be high-dimensional, and our interest lies in consistent estimation and statistical inference for the CATE. In high-dimensional linear regression, one typical approach is to assume sparsity. However, in our study, we do not assume sparsity directly. Instead, we consider sparsity only in the difference of the linear models. We first use a doubly robust estimator to approximate this difference and then regress the difference on covariates with Lasso regularization. Although this regression estimator is consistent for the CATE, we further reduce the bias using the techniques in double/debiased machine learning (DML) and debiased Lasso, leading to $\sqrt{n}$-consistency and confidence intervals. We refer to the debiased estimator as the triple/debiased Lasso (TDL), applying both DML and debiased Lasso techniques. We confirm the soundness of our proposed method through simulation studies.
翻訳日:2024-03-07 17:02:36 公開日:2024-03-05
# ヘテロジニアスフェデレート学習のためのソリューションsimplexクラスタリング

Solution Simplex Clustering for Heterogeneous Federated Learning ( http://arxiv.org/abs/2403.03333v1 )

ライセンス: Link先を確認
Dennis Grinwald, Philipp Wiesner, Shinichi Nakajima(参考訳) 我々は、高度に異種なクライアント分布下での優れたパフォーマンスを達成するために、連邦学習(FL)における大きな課題に取り組む。 この難しさは、クライアントからの情報を集約することで共通のモデルを学ぶことと、各ローカル分布に適応すべきローカルパーソナライズされたモデルを学ぶことだ。 本稿では,このような矛盾を解消するためのソリューション単純クラスタ型フェデレーション学習(SosicFL)を提案する。 最近の学習ソリューションsimplicesのアイデアに基づいて、sosicflはsimplexのサブリージョンを各クライアントに割り当て、共通のソリューションsimplexを学ぶためにflを実行する。 これにより、クライアントモデルは、ソリューションsimplexの自由度内でその特性を持つことができ、同時に、グローバルな共通モデルを学ぶという目標を達成することができる。 実験の結果,SosicFLは性能を向上し,計算オーバーヘッドを最小限に抑えたグローバルかつパーソナライズされたFLのトレーニングプロセスを加速することがわかった。

We tackle a major challenge in federated learning (FL) -- achieving good performance under highly heterogeneous client distributions. The difficulty partially arises from two seemingly contradictory goals: learning a common model by aggregating the information from clients, and learning local personalized models that should be adapted to each local distribution. In this work, we propose Solution Simplex Clustered Federated Learning (SosicFL) for dissolving such contradiction. Based on the recent ideas of learning solution simplices, SosicFL assigns a subregion in a simplex to each client, and performs FL to learn a common solution simplex. This allows the client models to possess their characteristics within the degrees of freedom in the solution simplex, and at the same time achieves the goal of learning a global common model. Our experiments show that SosicFL improves the performance and accelerates the training process for global and personalized FL with minimal computational overhead.
翻訳日:2024-03-07 16:57:42 公開日:2024-03-05
# LLMにおけるアンラーニングのためのガードレールベースライン

Guardrail Baselines for Unlearning in LLMs ( http://arxiv.org/abs/2403.03329v1 )

ライセンス: Link先を確認
Pratiksha Thaker, Yash Maurya, Virginia Smith(参考訳) 最近の研究は、微調整は大きな言語モデルから'未学習'概念への有望なアプローチであることを示した。 しかし、モデルの更新には一連の例と実行中の微調整の両方が必要になるため、微調整は高価である。 本稿では,プロンプトやフィルタリングといった単純なガードレールベースのアプローチが,微調整に匹敵する未学習結果を実現することを示す。 より計算集約的な微調整手法の性能を評価する際、研究者はこれらの軽量なベースラインを調査することを推奨する。 私たちは、プロンプトやフィルタリングといったメソッドがアンラーニングの問題に対する普遍的な解決策であると主張するわけではありませんが、本研究は、guardrailsのパワーと微調整のパワーを区別できる評価メトリクスの必要性を示唆しています。

Recent work has demonstrated that fine-tuning is a promising approach to `unlearn' concepts from large language models. However, fine-tuning can be expensive, as it requires both generating a set of examples and running iterations of fine-tuning to update the model. In this work, we show that simple guardrail-based approaches such as prompting and filtering can achieve unlearning results comparable to fine-tuning. We recommend that researchers investigate these lightweight baselines when evaluating the performance of more computationally intensive fine-tuning methods. While we do not claim that methods such as prompting or filtering are universal solutions to the problem of unlearning, our work suggests the need for evaluation metrics that can better separate the power of guardrails vs. fine-tuning, and highlights scenarios where guardrails themselves may be advantageous for unlearning, such as in generating examples for fine-tuning or unlearning when only API access is available.
翻訳日:2024-03-07 16:57:24 公開日:2024-03-05
# 説明可能な地理空間機械学習モデルのためのアンサンブルフレームワーク

An Ensemble Framework for Explainable Geospatial Machine Learning Models ( http://arxiv.org/abs/2403.03328v1 )

ライセンス: Link先を確認
Lingbo Liu(参考訳) 空間変化の影響を分析することは地理的解析において重要である。 しかし、地理空間データの複雑さと非線形性から、この変動を正確に捉えて解釈することは困難である。 本稿では,局所的な空間重み付けスキーム,説明可能な人工知能(xai),最先端の機械学習技術を融合して,従来の地理的解析モデルと一般的な機械学習アプローチとのギャップを埋めるための統合フレームワークを提案する。 合成データセットのテストを通じて,空間変動の解明により,地理的回帰と分類の両面での予測の解釈可能性と精度を高めることを検証する。 これは予測精度を大幅に向上させ、空間現象を理解するための新しいアプローチを提供する。

Analyzing spatial varying effect is pivotal in geographic analysis. Yet, accurately capturing and interpreting this variability is challenging due to the complexity and non-linearity of geospatial data. Herein, we introduce an integrated framework that merges local spatial weighting scheme, Explainable Artificial Intelligence (XAI), and cutting-edge machine learning technologies to bridge the gap between traditional geographic analysis models and general machine learning approaches. Through tests on synthetic datasets, this framework is verified to enhance the interpretability and accuracy of predictions in both geographic regression and classification by elucidating spatial variability. It significantly boosts prediction precision, offering a novel approach to understanding spatial phenomena.
翻訳日:2024-03-07 16:57:07 公開日:2024-03-05
# AnatoMix: マルチ組織セグメンテーションのための解剖学的データ拡張

AnatoMix: Anatomy-aware Data Augmentation for Multi-organ Segmentation ( http://arxiv.org/abs/2403.03326v1 )

ライセンス: Link先を確認
Chang Liu, Fuxin Fan, Annette Schwarz, Andreas Maier(参考訳) 医療画像におけるマルチオルガンセグメンテーションは広く研究されており、日常的な臨床医の作業の多くを省くことができる。 深層学習(DL)を用いた臓器分節プロセスの自動化は有望な解決策であり,最先端の分節モデルは有望な精度を実現している。 本研究では,多臓器セグメンテーションデータセット,すなわちAnatoMixの一般化性を高めるための新しいデータ拡張戦略を提案する。 オブジェクトレベルのマッチングと操作により,臓器のセグメンテーションマスクなどの解剖学的に正しい画像を生成することができ,セグメンテーションデータセットのサイズが指数関数的に大きくなる。 公開ctデータセットのセグメンテーション性能に影響を及ぼすセグメンテーション性能について,初期実験を行った。 拡張法は, ベースライン法74.8と比較して76.1ディスとなる。

Multi-organ segmentation in medical images is a widely researched task and can save much manual efforts of clinicians in daily routines. Automating the organ segmentation process using deep learning (DL) is a promising solution and state-of-the-art segmentation models are achieving promising accuracy. In this work, We proposed a novel data augmentation strategy for increasing the generalizibility of multi-organ segmentation datasets, namely AnatoMix. By object-level matching and manipulation, our method is able to generate new images with correct anatomy, i.e. organ segmentation mask, exponentially increasing the size of the segmentation dataset. Initial experiments have been done to investigate the segmentation performance influenced by our method on a public CT dataset. Our augmentation method can lead to mean dice of 76.1, compared with 74.8 of the baseline method.
翻訳日:2024-03-07 16:56:56 公開日:2024-03-05
# Deep Configuration Performance Learning: システム調査と分類学

Deep Configuration Performance Learning: A Systematic Survey and Taxonomy ( http://arxiv.org/abs/2403.03322v1 )

ライセンス: Link先を確認
Jingzhi Gong, Tao Chen(参考訳) パフォーマンスは間違いなく、構成可能なソフトウェアシステムの振る舞いを反映した最も重要な属性です。 しかし、現代のソフトウェアの規模と複雑さの増大を考えると、様々な構成がパフォーマンスに与える影響をモデリングし、予測することは、ソフトウェアメンテナンスにおける大きな課題の1つになります。 このように、パフォーマンスはソフトウェアシステムに詳しい知識を持たずにモデル化されることが多いが、主にデータに依存しており、ディープラーニングの目的に正確に適合する。 本稿では,構成可能なソフトウェアの性能学習のためのディープラーニングのトピックを専門とする包括的レビューを行い,85の一次論文を抽出・分析した6つのインデックスサービスを対象とした948の検索論文について述べる。 本結果は,構成データの作成方法,深層構成性能学習モデルの構築方法,モデルの評価方法,ソフトウェア構成に関連するさまざまなタスクでどのように活用されるか,といった,重要なトピックと統計をまとめたものである。 また、調査した研究から、良い実践と潜在的に問題となる現象を同定し、今後のこの分野の機会についての洞察も得る。 オープンサイエンスを促進するために、この調査の生の成果はすべて、私たちのリポジトリでアクセスできます。

Performance is arguably the most crucial attribute that reflects the behavior of a configurable software system. However, given the increasing scale and complexity of modern software, modeling and predicting how various configurations can impact performance becomes one of the major challenges in software maintenance. As such, performance is often modeled without having a thorough knowledge of the software system, but relying mainly on data, which fits precisely with the purpose of deep learning. In this paper, we conduct a comprehensive review exclusively on the topic of deep learning for performance learning of configurable software, covering 948 searched papers spanning six indexing services, based on which 85 primary papers were extracted and analyzed. Our results summarize the key topics and statistics on how the configuration data is prepared; how the deep configuration performance learning model is built; how the model is evaluated and how they are exploited in different tasks related to software configuration. We also identify the good practice and the potentially problematic phenomena from the studies surveyed, together with insights on future opportunities for the field. To promote open science, all the raw results of this survey can be accessed at our repository: https://github.com/ideas-labo/DCPL-SLR.
翻訳日:2024-03-07 16:56:40 公開日:2024-03-05
# 学習方針を有するマルチエージェントシステムの衝突回避検証

Collision Avoidance Verification of Multiagent Systems with Learned Policies ( http://arxiv.org/abs/2403.03314v1 )

ライセンス: Link先を確認
Zihao Dong, Shayegan Omidshafiei, Michael Everett(参考訳) 多くのマルチエージェント制御問題に対して、ニューラルネットワーク(NN)は有望な新機能を実現している。 しかし、これらのシステムの多くは正式な保証(衝突回避、堅牢性など)を欠いているため、安全上重要な設定でこれらの進歩を活用できない。 近年,NN制御システムの形式検証が試みられているが,既存の手法の多くは複数のエージェントでシナリオを処理できない。 そこで本研究では,マルチエージェントニューラルネットワークループ(MA-NFL)の衝突回避特性を検証するために,後方到達性に基づくアプローチを提案する。 提案アルゴリズムは,各エージェントの動的モデルと訓練された制御ポリシを考慮し,各エージェントに対して一連の混合整数線形プログラム(MILP)をオフラインで解くことで,相対的なバックプロジェクションセットを計算する。 ペアワイズアプローチは並列化可能であり,エージェント数の増加と相性が良好であり,状態測定の不確実性も考慮し,現実のシナリオとよく一致しています。 これらの結果を用いて、エージェントは低次元線形プログラム(LP)を解くことで、オンラインで衝突回避を迅速にチェックできる。 本研究では,ma-nflの衝突回避アルゴリズム(逆速度障害物)を模倣するように訓練したエージェントによる衝突回避特性の検証を行う。 さらに,最大10エージェントのシステムに対するアプローチの計算スケーラビリティを実証する。

For many multiagent control problems, neural networks (NNs) have enabled promising new capabilities. However, many of these systems lack formal guarantees (e.g., collision avoidance, robustness), which prevents leveraging these advances in safety-critical settings. While there is recent work on formal verification of NN-controlled systems, most existing techniques cannot handle scenarios with more than one agent. To address this research gap, this paper presents a backward reachability-based approach for verifying the collision avoidance properties of Multi-Agent Neural Feedback Loops (MA-NFLs). Given the dynamics models and trained control policies of each agent, the proposed algorithm computes relative backprojection sets by solving a series of Mixed Integer Linear Programs (MILPs) offline for each pair of agents. Our pair-wise approach is parallelizable and thus scales well with increasing number of agents, and we account for state measurement uncertainties, making it well aligned with real-world scenarios. Using those results, the agents can quickly check for collision avoidance online by solving low-dimensional Linear Programs (LPs). We demonstrate the proposed algorithm can verify collision-free properties of a MA-NFL with agents trained to imitate a collision avoidance algorithm (Reciprocal Velocity Obstacles). We further demonstrate the computational scalability of the approach on systems with up to 10 agents.
翻訳日:2024-03-07 16:56:17 公開日:2024-03-05
# 量子近似最適化アルゴリズムのパラメータ予測のためのグラフ学習

Graph Learning for Parameter Prediction of Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2403.03310v1 )

ライセンス: Link先を確認
Zhiding Liang, Gang Liu, Zheyuan Liu, Jinglei Cheng, Tianyi Hao, Kecheng Liu, Hang Ren, Zhixin Song, Ji Liu, Fanny Ye, Yiyu Shi(参考訳) 近年、量子コンピューティングは組合せ最適化の分野で革新的な力として登場し、古典的計算手法に長年挑戦してきた複雑な問題に取り組むための新しいアプローチを提供している。 このうち、量子近似最適化アルゴリズム(qaoa)は、組合せ最適化の基本的な例であるマックスカット問題を効率的に解く可能性を示す。 しかし、実際の応用は、現在の量子計算資源の制限のために困難に直面している。 我々の研究は、グラフニューラルネットワーク(GNN)をウォームスタート技術として使用して、QAOA初期化を最適化する。 これは、量子計算リソースのオーバーヘッドを減らし、QAOAの有効性を高めるために、古典的なコンピュータ上の安価な計算リソースを犠牲にする。 さまざまなGNNアーキテクチャによる実験は、我々のフレームワークの適応性と安定性を示し、量子アルゴリズムと機械学習の相乗効果を強調している。 我々の研究結果は、GNNがQAOA性能を向上させる可能性を示し、量子コンピューティングにおけるハイブリッド量子古典的アプローチの新たな道を開いた。

In recent years, quantum computing has emerged as a transformative force in the field of combinatorial optimization, offering novel approaches to tackling complex problems that have long challenged classical computational methods. Among these, the Quantum Approximate Optimization Algorithm (QAOA) stands out for its potential to efficiently solve the Max-Cut problem, a quintessential example of combinatorial optimization. However, practical application faces challenges due to current limitations on quantum computational resource. Our work optimizes QAOA initialization, using Graph Neural Networks (GNN) as a warm-start technique. This sacrifices affordable computational resource on classical computer to reduce quantum computational resource overhead, enhancing QAOA's effectiveness. Experiments with various GNN architectures demonstrate the adaptability and stability of our framework, highlighting the synergy between quantum algorithms and machine learning. Our findings show GNN's potential in improving QAOA performance, opening new avenues for hybrid quantum-classical approaches in quantum computing and contributing to practical applications.
翻訳日:2024-03-07 16:55:54 公開日:2024-03-05
# 合成データに自然画像パターンを埋め込んだゼロショット物質状態セグメンテーションの学習

Learning Zero-Shot Material States Segmentation, by Implanting Natural Image Patterns in Synthetic Data ( http://arxiv.org/abs/2403.03309v1 )

ライセンス: Link先を確認
Sagi Eppel, Jolina Li, Manuel Drehwald, Alan Aspuru-Guzik(参考訳) 物質とその状態の視覚的理解とセグメンテーションは、物理的世界を理解するのに不可欠である。 無限のテクスチャ、形状、しばしば材料によって形成されるぼやけた境界は、このタスクを特に一般化するのが困難である。 地表の湿った地域、岩石の鉱物、植物に感染した地域、水に汚染されている地域など、それぞれの物質状態には独自の形態があります。 ニューラルネットがクラス非依存の材料セグメンテーションを学ぶためには、まずこの複雑さを捉えたデータを収集し、注釈付けする必要がある。 実世界の画像の収集と手作業による注釈は、手作業のコストと精度の両方によって制限される。 対照的に、合成データは精度が高く、ほとんどコストがかからないが、物質世界の膨大な多様性を再現できない。 本研究では,実画像から抽出したパターンを合成データに埋め込むことにより,この重要なギャップを埋める手法を提案する。 そのため、自然画像から自動的に収集されたパターンを用いて、素材を合成シーンにマッピングする。 この教師なしのアプローチにより、生成されたデータは合成データの精度とスケールを維持しながら、現実世界の膨大な複雑さを捉えることができる。 また、クラス非依存の物質状態セグメンテーションのための最初の一般的なベンチマークを示す。 ベンチマーク画像には、料理、食べ物、岩、建設、植物、そして液体など、さまざまな状態の物質状態(Wet/Dry/stained/cooked/cooked/worned/rusted/sediment/foam...)の幅広い現実世界の画像が含まれている。 本アノテーションは、類似するが同一ではない領域間の部分的類似性と、全く同一の材料状態の点のみのハードセグメント化の両方を含む。 ここでは,MatchSeg 上のネット列車が既存の最先端手法を著しく上回っていることを示す。

Visual understanding and segmentation of materials and their states is fundamental for understanding the physical world. The infinite textures, shapes and often blurry boundaries formed by material make this task particularly hard to generalize. Whether it's identifying wet regions of a surface, minerals in rocks, infected regions in plants, or pollution in water, each material state has its own unique form. For neural nets to learn class-agnostic materials segmentation it is necessary to first collect and annotate data that capture this complexity. Collecting real-world images and manually annotating is limited both by the cost and limited precision of manual labor. In contrast, synthetic data is highly accurate and almost cost-free but fails to replicate the vast diversity of the material world. In this work, we suggest a method to bridge this crucial gap, by implanting patterns extracted from real-world images, in synthetic data. Hence, patterns automatically collected from natural images are used to map materials into synthetic scenes. This unsupervised approach allows the generated data to capture the vast complexity of the real world while maintaining the precision and scale of synthetic data. We also present the first general benchmark for class-agnostic material state segmentation. The benchmark images contain a wide range of real-world images of material states, from cooking, food, rocks, construction, plants, and liquids each in various states (wet/dry/stained/cooked/burned/worned/rusted/sediment/foam...). The annotation includes both partial similarity between regions with similar but not identical materials, and hard segmentation of only points of the exact same material state. We show that net trains on MatSeg significantly outperform existing state-of-the-art methods on this task.
翻訳日:2024-03-07 16:55:37 公開日:2024-03-05
# Book2Dial:教育チャットボットのコスト効果開発のための教科書からの教師と学生のインタラクションの生成

Book2Dial: Generating Teacher-Student Interactions from Textbooks for Cost-Effective Development of Educational Chatbots ( http://arxiv.org/abs/2403.03307v1 )

ライセンス: Link先を確認
Junling Wang, Jakub Macina, Nico Daheim, Sankalan Pal Chowdhury, Mrinmaya Sachan(参考訳) 教育チャットボットは、学生の学習を支援する有望なツールだ。 しかし、この領域では高品質なデータがほとんど利用できないため、教育における効果的なチャットボットの開発は困難である。 本稿では,教科書に基礎を置き,教師と学生の対話を合成する枠組みを提案する。 本手法は,教師が教科書の教材について対話的に質問する,学習相互作用の1つの側面を捉えている。 我々は、このような対話が満たすべき様々な品質基準を強調し、プロンプトや微調整の大きな言語モデルに依存するいくつかのアプローチを比較した。 我々は合成対話を用いて教育用チャットボットを訓練し、異なる教育領域でさらなる微調整の利点を示す。 しかし,人間の評価では,最高のデータ合成手法は今でも幻覚に悩まされており,過去の会話から情報を再送する傾向がある。 我々の研究は、サイズと品質のバランスをとる会話データを合成する今後の取り組みに対する洞察を提供する。 データとコードをオープンソースにします。

Educational chatbots are a promising tool for assisting student learning. However, the development of effective chatbots in education has been challenging, as high-quality data is seldom available in this domain. In this paper, we propose a framework for generating synthetic teacher-student interactions grounded in a set of textbooks. Our approaches capture one aspect of learning interactions where curious students with partial knowledge interactively ask a teacher questions about the material in the textbook. We highlight various quality criteria that such dialogues should fulfill and compare several approaches relying on either prompting or fine-tuning large language models. We use synthetic dialogues to train educational chatbots and show benefits of further fine-tuning in different educational domains. However, human evaluation shows that our best data synthesis method still suffers from hallucinations and tends to reiterate information from previous conversations. Our findings offer insights for future efforts in synthesizing conversational data that strikes a balance between size and quality. We will open-source our data and code.
翻訳日:2024-03-07 16:55:05 公開日:2024-03-05
# 両世界の最善:関係分類のための柔軟で一般化可能な神経シンボリックアプローチ

Best of Both Worlds: A Pliable and Generalizable Neuro-Symbolic Approach for Relation Classification ( http://arxiv.org/abs/2403.03305v1 )

ライセンス: Link先を確認
Robert Vacareanu, Fahmida Alam, Md Asiful Islam, Haris Riaz, Mihai Surdeanu(参考訳) 本稿では,ルールベース手法と現代ディープラーニング技術を組み合わせた新しい関係分類のためのニューロシンボリックアーキテクチャ(rc)を提案する。 このアプローチは、ルールベースのシステムの適応性とニューラルネットワークの一般化能力という、両方のパラダイムの強みを生かしている。 我々のアーキテクチャは、透明な分類のための宣言型ルールベースモデルと、セマンティックテキストマッチングによるルールの一般化性を高めるニューラルネットワークコンポーネントの2つのコンポーネントで構成されている。 特にsemantic matcherは、合成データのみで、教師なしのドメインに依存しない方法でトレーニングされています。 さらに、これらのコンポーネントは疎結合であり、セマンティクスマッチングを再トレーニングすることなくルールの変更を可能にする。 評価では、Few-Shot TACREDとFew-ShotバージョンのNYT29の2つの数ショット関係分類データセットに焦点を当てた。 提案手法は,人手によるトレーニングデータを見ることなく,従来の最先端モデルを4つの設定のうち3つで上回ることを示す。 さらに,提案手法はモジュール化され,柔軟性が保たれていること,すなわち,モデル全体を改善するために対応するルールを局所的に修正できることを示した。 tacredrelation \texttt{org:parents}のルールに対する人間の介入は、関係に対するパフォーマンスを最大26\%向上させ、他の関係に悪影響を及ぼすことなく、セマンティックマッチングコンポーネントを再トレーニングすることなく向上させる。

This paper introduces a novel neuro-symbolic architecture for relation classification (RC) that combines rule-based methods with contemporary deep learning techniques. This approach capitalizes on the strengths of both paradigms: the adaptability of rule-based systems and the generalization power of neural networks. Our architecture consists of two components: a declarative rule-based model for transparent classification and a neural component to enhance rule generalizability through semantic text matching. Notably, our semantic matcher is trained in an unsupervised domain-agnostic way, solely with synthetic data. Further, these components are loosely coupled, allowing for rule modifications without retraining the semantic matcher. In our evaluation, we focused on two few-shot relation classification datasets: Few-Shot TACRED and a Few-Shot version of NYT29. We show that our proposed method outperforms previous state-of-the-art models in three out of four settings, despite not seeing any human-annotated training data. Further, we show that our approach remains modular and pliable, i.e., the corresponding rules can be locally modified to improve the overall model. Human interventions to the rules for the TACRED relation \texttt{org:parents} boost the performance on that relation by as much as 26\% relative improvement, without negatively impacting the other relations, and without retraining the semantic matching component.
翻訳日:2024-03-07 16:54:37 公開日:2024-03-05
# Mad Libs: クロスドメインなドキュメント・レベル・イベント・アグメンテーション・データの追加

Mad Libs Are All You Need: Augmenting Cross-Domain Document-Level Event Argument Data ( http://arxiv.org/abs/2403.03304v1 )

ライセンス: Link先を確認
Joseph Gatto, Parker Seegmiller, Omar Sharif, Sarah M. Preum(参考訳) Document-Level Event Argument extract (DocEAE)は、低リソースのクロスドメイン設定において重大な制限がある、非常に難しい情報抽出問題である。 この問題に対処するため,新しいDocEAEデータ拡張フレームワークであるMad Lib Aug (MLA)を紹介した。 我々のアプローチは、人気のあるゲームの一部として使われている文書を分類的に隠蔽するMad LibsをLLMで生成し、解き、DocEAEのデータを生成するという直感を活用する。 MLAを用いてF1スコア全体の平均2.6ポイントの改善を実現する。 さらに、この手法は、すべての実験における拡張自由ベースラインと比較して、ゼロおよび少数ショットのイベントロールの3.9および5.2ポイントの平均的な増加を達成する。 また,クロスドメインDocEAEの分析を容易にするために,統計深度を用いて,ソースドメインで観測される役割に関するセマンティックな外れ値であるターゲットドメインにおける役割を識別する新たな指標であるRole-Depth F1(RDF1)を導入する。 実験の結果,MLA拡張によりRDF1の性能が平均5.85ポイント向上することが示された。

Document-Level Event Argument Extraction (DocEAE) is an extremely difficult information extraction problem -- with significant limitations in low-resource cross-domain settings. To address this problem, we introduce Mad Lib Aug (MLA), a novel generative DocEAE data augmentation framework. Our approach leverages the intuition that Mad Libs, which are categorically masked documents used as a part of a popular game, can be generated and solved by LLMs to produce data for DocEAE. Using MLA, we achieve a 2.6-point average improvement in overall F1 score. Moreover, this approach achieves a 3.9 and 5.2 point average increase in zero and few-shot event roles compared to augmentation-free baselines across all experiments. To better facilitate analysis of cross-domain DocEAE, we additionally introduce a new metric, Role-Depth F1 (RDF1), which uses statistical depth to identify roles in the target domain which are semantic outliers with respect to roles observed in the source domain. Our experiments show that MLA augmentation can boost RDF1 performance by an average of 5.85 points compared to non-augmented datasets.
翻訳日:2024-03-07 16:54:10 公開日:2024-03-05
# CenterDisks:ディスクカバー付きリアルタイムインスタンスセグメンテーション

CenterDisks: Real-time instance segmentation with disk covering ( http://arxiv.org/abs/2403.03296v1 )

ライセンス: Link先を確認
Katia Jodogne-Del Litto, Guillaume-Alexandre Bilodeau(参考訳) インスタンス分割法の精度を高めることは、しばしば速度を犠牲にして行われる。 粗い表現を用いることで、パラメータの数を削減し、リアルタイムマスクを得ることができる。 本稿では,マスク近似の予測のために,集合被覆問題から着想を得た。 訓練入力として興味のある対象の地対角二分マスクを与えられた場合,本手法は,その位置や半径を監視せずに,ディスクによる対象物の近似被覆率を予測することを学ぶ。 各オブジェクトは、異なるradiiを持つ固定数のディスクで表現される。 学習段階では、半径は円盤ではなく二次元ガウス関数の集合上で伝播する誤差を計算するために標準偏差に比例すると考えられる。 様々な道路利用者と密集した都市環境を示す挑戦的データセットを用いて,インスタンスセグメンテーション手法の訓練と試験を行った。 本手法は,RTX 3090 GPU 上での 0.040 秒の推論時間で IDD および KITTI データセットの最先端化を実現する。

Increasing the accuracy of instance segmentation methods is often done at the expense of speed. Using coarser representations, we can reduce the number of parameters and thus obtain real-time masks. In this paper, we take inspiration from the set cover problem to predict mask approximations. Given ground-truth binary masks of objects of interest as training input, our method learns to predict the approximate coverage of these objects by disks without supervision on their location or radius. Each object is represented by a fixed number of disks with different radii. In the learning phase, we consider the radius as proportional to a standard deviation in order to compute the error to propagate on a set of two-dimensional Gaussian functions rather than disks. We trained and tested our instance segmentation method on challenging datasets showing dense urban settings with various road users. Our method achieve state-of-the art results on the IDD and KITTI dataset with an inference time of 0.040 s on a single RTX 3090 GPU.
翻訳日:2024-03-07 16:53:49 公開日:2024-03-05
# 不適切な量子PAC学習

Proper vs Improper Quantum PAC learning ( http://arxiv.org/abs/2403.03295v1 )

ライセンス: Link先を確認
Ashwin Nayak, Pulkit Sinha(参考訳) PAC学習モデルにおける基本的な疑問は、適切な学習が不適切な学習よりも難しいかどうかである。 古典的なケースでは、VC次元が$d$のコンセプトクラスにはサンプル複雑性を持つ例がある: $\Omega\left(\frac d\epsilon\log\frac1\epsilon\right)$ for proper learning with error $\epsilon$, and the complexity for improper learning is O$! \left(\frac d\epsilon\right)$ そのような例の1つはクーポンコレクター問題から生じる。 arunachalam, belovs, childs, kothari, rosmanis, de wolf (tqc 2020)は、量子サンプルを用いた適切な学習と不適切な学習の効率に動機づけられ、類似の量子クーポンコレクター問題の研究を行った。 奇妙なことに、学習サイズ$k$$$[n]$の場合、問題はサンプル複雑性$\Theta(k\log\min\{k,n-k+1\})$であり、Coupon Collectorの$\Theta(k\log k)$の複雑さとは対照的である。 これにより、量子問題による2つの学習モードとArunachalamらとの分離の可能性を効果的に否定する。 \は、そのような分離がオープンな問題である可能性を示唆した。 そこで本研究では,bab hadiashar,nayak,sinha (ieee tit 2024) によって最近提示された$(1-o_k(1))k\ln\min\{k,n-k+1\}$のシャープな下限に一致するサンプル複雑性を持つ量子クーポンコレクタ問題のアルゴリズムを提案する。 次に、この問題の変種であるQuantum Padded Coupon Collectorを考案する。 本研究は,古典的クーポンコレクタ問題と学習モードの両問題とが一致し,量子学習の完全性と不適切なことの漸近的分離が示されることを示した。 このプロセスで私たちが開発する技術は、パッド化された任意の量子データに直接適用することができる。 我々は、パディングがより一般的に、古典的学習行動の他の形態を量子環境へ持ち上げることを望んでいる。

A basic question in the PAC model of learning is whether proper learning is harder than improper learning. In the classical case, there are examples of concept classes with VC dimension $d$ that have sample complexity $\Omega\left(\frac d\epsilon\log\frac1\epsilon\right)$ for proper learning with error $\epsilon$, while the complexity for improper learning is O$\!\left(\frac d\epsilon\right)$. One such example arises from the Coupon Collector problem. Motivated by the efficiency of proper versus improper learning with quantum samples, Arunachalam, Belovs, Childs, Kothari, Rosmanis, and de Wolf (TQC 2020) studied an analogue, the Quantum Coupon Collector problem. Curiously, they discovered that for learning size $k$ subsets of $[n]$ the problem has sample complexity $\Theta(k\log\min\{k,n-k+1\})$, in contrast with the complexity of $\Theta(k\log k)$ for Coupon Collector. This effectively negates the possibility of a separation between the two modes of learning via the quantum problem, and Arunachalam et al.\ posed the possibility of such a separation as an open question. In this work, we first present an algorithm for the Quantum Coupon Collector problem with sample complexity that matches the sharper lower bound of $(1-o_k(1))k\ln\min\{k,n-k+1\}$ shown recently by Bab Hadiashar, Nayak, and Sinha (IEEE TIT 2024), for the entire range of the parameter $k$. Next, we devise a variant of the problem, the Quantum Padded Coupon Collector. We prove that its sample complexity matches that of the classical Coupon Collector problem for both modes of learning, thereby exhibiting the same asymptotic separation between proper and improper quantum learning as mentioned above. The techniques we develop in the process can be directly applied to any form of padded quantum data. We hope that padding can more generally lift other forms of classical learning behaviour to the quantum setting.
翻訳日:2024-03-07 16:53:33 公開日:2024-03-05
# AI Insights:研究論文分析のためのChatGPTインテリジェンスを活用したケーススタディ

AI Insights: A Case Study on Utilizing ChatGPT Intelligence for Research Paper Analysis ( http://arxiv.org/abs/2403.03293v1 )

ライセンス: Link先を確認
Anjalee De Silva, Janaka L. Wijekoon, Rashini Liyanarachchi, Rrubaa Panchendrarajan, Weranga Rajapaksha(参考訳) 本稿では,学術文献調査の効果的な執筆のための研究論文の分析にchatbot: generative pre-trained transformer (chatgpt) バージョン3.5および4の有効性について述べる。 研究テーマとして,乳がん治療における人工知能の応用について検討した。 このトピックに関する研究論文は、Google Scholar、Pubmed、Scopusの3つの主要な出版データベースから収集された。 乳がん治療 (BCT) 関連論文の自動識別, スコープに応じた論文の編成, 調査用紙作成の鍵情報の同定など, 研究論文のカテゴリ, スコープ, 関連情報を同定するために, チャットGPTモデルを用いた。 GPT-4は研究論文の分類において77.3 %の精度を達成し、論文の50 %は GPT-4 のスコープで正しく同定された。 さらに, gpt-4は, 平均27\%の新しい単語で意思決定の理由を生み出すことができ, モデルが与えた理由の67\%は, 対象の専門家に完全に同意できることを示した。

This paper discusses the effectiveness of leveraging Chatbot: Generative Pre-trained Transformer (ChatGPT) versions 3.5 and 4 for analyzing research papers for effective writing of scientific literature surveys. The study selected the \textit{Application of Artificial Intelligence in Breast Cancer Treatment} as the research topic. Research papers related to this topic were collected from three major publication databases Google Scholar, Pubmed, and Scopus. ChatGPT models were used to identify the category, scope, and relevant information from the research papers for automatic identification of relevant papers related to Breast Cancer Treatment (BCT), organization of papers according to scope, and identification of key information for survey paper writing. Evaluations performed using ground truth data annotated using subject experts reveal, that GPT-4 achieves 77.3\% accuracy in identifying the research paper categories and 50\% of the papers were correctly identified by GPT-4 for their scopes. Further, the results demonstrate that GPT-4 can generate reasons for its decisions with an average of 27\% new words, and 67\% of the reasons given by the model were completely agreeable to the subject experts.
翻訳日:2024-03-07 16:52:46 公開日:2024-03-05
# 不均一データに基づく分散学習のための平均レートスケジューリング

Averaging Rate Scheduler for Decentralized Learning on Heterogeneous Data ( http://arxiv.org/abs/2403.03292v1 )

ライセンス: Link先を確認
Sai Aparna Aketi, Sakshi Choudhary, Kaushik Roy(参考訳) 最先端の分散学習アルゴリズムは通常、データ分散を独立に、同一分散(iid)にする必要がある。 しかし、現実的なシナリオでは、エージェント間でのデータ分布は著しく異質である。 本研究では,分散学習における不均一性の影響を低減するための簡易かつ効果的な手法として平均レートスケジューリングを提案する。 提案手法は, 従来の定平均化手法と比較して, 実験精度が約3%向上した。

State-of-the-art decentralized learning algorithms typically require the data distribution to be Independent and Identically Distributed (IID). However, in practical scenarios, the data distribution across the agents can have significant heterogeneity. In this work, we propose averaging rate scheduling as a simple yet effective way to reduce the impact of heterogeneity in decentralized learning. Our experiments illustrate the superiority of the proposed method (~3% improvement in test accuracy) compared to the conventional approach of employing a constant averaging rate.
翻訳日:2024-03-07 16:52:26 公開日:2024-03-05
# Level Set Teleportation: 最適化の観点から

Level Set Teleportation: An Optimization Perspective ( http://arxiv.org/abs/2403.03362v1 )

ライセンス: Link先を確認
Aaron Mishkin, Alberto Bietti, and Robert M. Gower(参考訳) 目的関数のレベルセット上の勾配ノルムを最大化することにより勾配法を高速化する最適化サブルーチンであるレベルセットテレポーテーションについて検討する。 降下補題は勾配降下(GD)が勾配の2乗ノルムに比例する目的を減少させることを意味するので、レベルセットのテレポーテーションはこの一段階の進行保証を最大化する。 ヘッセン安定度を満たす凸関数に対して、準線形/線形収束率の組合せは、最適性ギャップが小さいときに標準GDよりも厳密に高速であることを示す。 これは、レベルセットのテレポーテーションが収束率を改善も悪くもしないことを示す標準(強く)凸設定とは対照的である。 テレポーテーションを実際に評価するために,ヘシアンベクトル生成物のみを必要とする投影勾配型手法を開発した。 本手法は,テレポーテーション・オラクルにアクセス可能な勾配法が,様々な学習問題において,標準版よりも一様に優れていることを示す。

We study level set teleportation, an optimization sub-routine which seeks to accelerate gradient methods by maximizing the gradient norm on a level-set of the objective function. Since the descent lemma implies that gradient descent (GD) decreases the objective proportional to the squared norm of the gradient, level-set teleportation maximizes this one-step progress guarantee. For convex functions satisfying Hessian stability, we prove that GD with level-set teleportation obtains a combined sub-linear/linear convergence rate which is strictly faster than standard GD when the optimality gap is small. This is in sharp contrast to the standard (strongly) convex setting, where we show level-set teleportation neither improves nor worsens convergence rates. To evaluate teleportation in practice, we develop a projected-gradient-type method requiring only Hessian-vector products. We use this method to show that gradient methods with access to a teleportation oracle uniformly out-perform their standard versions on a variety of learning problems.
翻訳日:2024-03-07 16:45:50 公開日:2024-03-05
# 線形帯域問題に対する連鎖情報理論境界とタイト回帰率

Chained Information-Theoretic bounds and Tight Regret Rate for Linear Bandit Problems ( http://arxiv.org/abs/2403.03361v1 )

ライセンス: Link先を確認
Amaury Gouverneur, Borja Rodr\'iguez-G\'alvez, Tobias J. Oechtering, Mikael Skoglund(参考訳) 本稿では,バンディット問題に対するトンプソンサンプリングアルゴリズムの変種について,ベイズ的後悔について述べる。 これは [russo and van roy, 2015] の情報理論の枠組みと, [dong and van roy, 2020] からのレート・ディストリクト解析に基づいて構築され,d$-dimensional linear bandit 設定に対して $o(d\sqrt{t \log(t)})$ の後悔率で縛られていることが証明された。 我々は、計量作用空間のバンドイト問題に焦点をあて、連鎖論法を用いて、トンプソン・サンプリングの変種に対する作用空間の計量エントロピーに依存する新しい境界を確立する。 報酬の適切な連続性仮定の下で、我々は$O(d\sqrt{T})$を$d$次元線形バンディット問題に対して厳密なレートで提供する。

This paper studies the Bayesian regret of a variant of the Thompson-Sampling algorithm for bandit problems. It builds upon the information-theoretic framework of [Russo and Van Roy, 2015] and, more specifically, on the rate-distortion analysis from [Dong and Van Roy, 2020], where they proved a bound with regret rate of $O(d\sqrt{T \log(T)})$ for the $d$-dimensional linear bandit setting. We focus on bandit problems with a metric action space and, using a chaining argument, we establish new bounds that depend on the metric entropy of the action space for a variant of Thompson-Sampling. Under suitable continuity assumption of the rewards, our bound offers a tight rate of $O(d\sqrt{T})$ for $d$-dimensional linear bandit problems.
翻訳日:2024-03-07 16:45:33 公開日:2024-03-05
# RACE-SM:ソーシャルオンランプマージのための強化学習に基づく自律制御

RACE-SM: Reinforcement Learning Based Autonomous Control for Social On-Ramp Merging ( http://arxiv.org/abs/2403.03359v1 )

ライセンス: Link先を確認
Jordan Poots(参考訳) 人力による交通制御における自律並列方式のオンランプ・マージは、自動運転車の制御における既存の問題であり続けている。 既存の非学習ベースの車両制御ソリューションは主にルールと最適化に依存している。 これらの手法は重要な課題を呈している。 近年のDeep Reinforcement Learningの進歩は将来性を示し、学術的な関心を集めているが、利用可能な学習ベースのアプローチは他の高速道路車両に不適切な注意を払っており、しばしば不正確な道路交通の前提に依存している。 また、並列型の場合はほとんど考慮されない。 社会に受け入れられる行動を生み出すために,エゴ車とその周辺車両に協調的あるいは協力的でないものの両方の有用性を明確に考慮した,アクセラレーションとレーン変更決定のための新しい学習モデルを提案する。 新たな報酬関数は、車両の社会的協力のレベルを重み付けするために社会価値オリエンテーションを利用し、モデルが指定した社会価値オリエンテーションに応じて重み付けされるエゴ車と周辺車両ユーティリティに分割される。 オンランプの2車線道路は、テーパースタイルとパラレルスタイルに分けられている。 シミュレーションの結果, 報酬関数設計における周辺車両の考察の重要性が示され, 提案モデルが衝突の観点で文献上のものと一致し, また周辺車両へのマージ効果を直接考慮して, 近距離ミスや反社会的行動を避ける社会的礼儀正しい行動が導入された。

Autonomous parallel-style on-ramp merging in human controlled traffic continues to be an existing issue for autonomous vehicle control. Existing non-learning based solutions for vehicle control rely on rules and optimization primarily. These methods have been seen to present significant challenges. Recent advancements in Deep Reinforcement Learning have shown promise and have received significant academic interest however the available learning based approaches show inadequate attention to other highway vehicles and often rely on inaccurate road traffic assumptions. In addition, the parallel-style case is rarely considered. A novel learning based model for acceleration and lane change decision making that explicitly considers the utility to both the ego vehicle and its surrounding vehicles which may be cooperative or uncooperative to produce behaviour that is socially acceptable is proposed. The novel reward function makes use of Social Value Orientation to weight the vehicle's level of social cooperation and is divided into ego vehicle and surrounding vehicle utility which are weighted according to the model's designated Social Value Orientation. A two-lane highway with an on-ramp divided into a taper-style and parallel-style section is considered. Simulation results indicated the importance of considering surrounding vehicles in reward function design and show that the proposed model matches or surpasses those in literature in terms of collisions while also introducing socially courteous behaviour avoiding near misses and anti-social behaviour through direct consideration of the effect of merging on surrounding vehicles.
翻訳日:2024-03-07 16:45:13 公開日:2024-03-05
# フェアネスのグローバル化--アフリカにおける植民地主義、AI、健康に関する混合研究

The Case for Globalizing Fairness: A Mixed Methods Study on Colonialism, AI, and Health in Africa ( http://arxiv.org/abs/2403.03357v1 )

ライセンス: Link先を確認
Mercy Asiedu, Awa Dieng, Alexander Haykel, Negar Rostamzadeh, Stephen Pfohl, Chirag Nagpal, Maria Nagawa, Abigail Oppong, Sanmi Koyejo, Katherine Heller(参考訳) 医療分野における機械学習(ML)技術の普及に伴い、これらのシステムが示すバイアスを理解し緩和する技術の開発が求められている。 健康のためのMLベースのソリューション開発における公平性の考慮は、アフリカに特に影響を及ぼす。この論文は、アフリカをケーススタディとして、世界の健康に対する公平性を探究することを目的としている。 我々は,アフリカにおけるフェアネスを考慮した不均一性の軸の提案と,それらがML対応の異なる医療モダリティでどのような役割を果たすのかを,スコーピングレビューにより検討する。 次に,アフリカを対象とする一般人口調査参加者672人と,ML,健康,政策の専門家28人との質的研究を行い,格差の軸に関する確証的証拠を得た。 我々の分析は、関心の属性として植民地主義に焦点を当て、人工知能(AI)、健康、植民地主義の相互作用を調べる。 事前に特定された属性のうち、植民地の歴史、起源の国、国民所得のレベルは、参加者がAIシステムに偏見をもたらすと信じている格差の特定の軸であり、しかしながら、専門家と一般人口の意見の相違も見られた。 専門家は一般的に、アフリカにおけるAI技術の発展と実装に関する植民地史の関連性について共通の見解を表明したが、調査対象者の大多数は、AIと植民地主義に直接関連があるとは考えていなかった。 これらの知見に基づき,アフリカにおける健康のための公平なMLソリューション開発のための実践的提言を行った。

With growing application of machine learning (ML) technologies in healthcare, there have been calls for developing techniques to understand and mitigate biases these systems may exhibit. Fair-ness considerations in the development of ML-based solutions for health have particular implications for Africa, which already faces inequitable power imbalances between the Global North and South.This paper seeks to explore fairness for global health, with Africa as a case study. We conduct a scoping review to propose axes of disparities for fairness consideration in the African context and delineate where they may come into play in different ML-enabled medical modalities. We then conduct qualitative research studies with 672 general population study participants and 28 experts inML, health, and policy focused on Africa to obtain corroborative evidence on the proposed axes of disparities. Our analysis focuses on colonialism as the attribute of interest and examines the interplay between artificial intelligence (AI), health, and colonialism. Among the pre-identified attributes, we found that colonial history, country of origin, and national income level were specific axes of disparities that participants believed would cause an AI system to be biased.However, there was also divergence of opinion between experts and general population participants. Whereas experts generally expressed a shared view about the relevance of colonial history for the development and implementation of AI technologies in Africa, the majority of the general population participants surveyed did not think there was a direct link between AI and colonialism. Based on these findings, we provide practical recommendations for developing fairness-aware ML solutions for health in Africa.
翻訳日:2024-03-07 16:44:43 公開日:2024-03-05
# 深層学習のための仮説空間

Hypothesis Spaces for Deep Learning ( http://arxiv.org/abs/2403.03353v1 )

ライセンス: Link先を確認
Rui Wang, Yuesheng Xu, Mingsong Yan(参考訳) 本稿では,ディープニューラルネットワーク(DNN)を用いた深層学習のための仮説空間を提案する。 DNNを物理変数とパラメータ変数の2つの変数の関数として扱うことにより、DNNの所定の深さと幅によって決定される重み行列とバイアスのセットに位置するパラメータ変数に対するDNNの原始集合を考える。 次に、弱*位相における原始dnn集合の線型スパンを完備化し、物理変数の関数のバナッハ空間を構築する。 このようなバナッハ空間が再生カーネルバナッハ空間(RKBS)であることを証明し、その再生カーネルを構築する。 学習モデルの解に対する代表者定理を確立することにより,RKBSにおける正規化学習と最小補間問題という2つの学習モデルについて検討する。 これらの学習モデルの解は、与えられたデータと再生核によって決定される有限個のカーネルセッションの線形結合として表現できる。

This paper introduces a hypothesis space for deep learning that employs deep neural networks (DNNs). By treating a DNN as a function of two variables, the physical variable and parameter variable, we consider the primitive set of the DNNs for the parameter variable located in a set of the weight matrices and biases determined by a prescribed depth and widths of the DNNs. We then complete the linear span of the primitive DNN set in a weak* topology to construct a Banach space of functions of the physical variable. We prove that the Banach space so constructed is a reproducing kernel Banach space (RKBS) and construct its reproducing kernel. We investigate two learning models, regularized learning and minimum interpolation problem in the resulting RKBS, by establishing representer theorems for solutions of the learning models. The representer theorems unfold that solutions of these learning models can be expressed as linear combination of a finite number of kernel sessions determined by given data and the reproducing kernel.
翻訳日:2024-03-07 16:44:14 公開日:2024-03-05
# 磁場-弾性3Dトランスモンにおける準粒子効果

Quasiparticle effects in magnetic-field-resilient 3D transmons ( http://arxiv.org/abs/2403.03351v1 )

ライセンス: Link先を確認
J. Krause, G. Marchegiani, L. M. Janssen, G. Catelani, Yoichi Ando, and C. Dickel(参考訳) 最近の研究は、al/alo$_x$/al接合における上層および下層膜の厚さが異なることから生じる超伝導ギャップ非対称性に準粒子誘起の量子ビットのデコヒーレンスが依存することを示した。 磁場は超伝導ギャップをその場で変化させることができるため、この依存性を調べるための重要なチューニングノブである。 本研究では, 面内界0.41Tまでの3Dトランスモンのパリティ切替時間の測定を行った。 低磁場では、パリティ測定のために小さなパリティ分割はクォートパルスシーケンスを必要とする。 我々は、平面内磁場によるパリティ寿命の非単調な進化を計測し、0.2Tまで増加し、高い磁場で減少する。 超伝導ギャップ非対称性が観測行動において重要な役割を果たすことを示す。 磁場ゼロでは、量子ビット周波数は超伝導ギャップ差とほぼ共鳴し、準粒子とのエネルギー交換を好んでパリティスイッチング率を高める。 磁場が高くなると、クビット周波数は減少し、ギャップ差から脱離し、パリティ寿命が初期的に増加する一方、フォトンアシストクビット遷移は増加し、その後の高磁場での減少が生じる。 従来のトランスモンキュービットのパリティ切替機構についてより深い洞察を与えるとともに、al-alo$_x$-al jjsをマヨラナゼロモードに基づいたトポロジカルキュービットのパリティ読み出しと操作のためにアーキテクチャで使用できることを確立した。

Recent research shows that quasiparticle-induced decoherence of superconducting qubits depends on the superconducting-gap asymmetry originating from the different thicknesses of the top and bottom films in Al/AlO$_x$/Al junctions. Magnetic field is a key tuning knob to investigate this dependence as it can change the superconducting gaps in situ. We present measurements of the parity-switching time of a field-resilient 3D transmon with in-plane field up to 0.41T. At low fields, small parity splitting requires qutrit pulse sequences for parity measurements. We measure a non-monotonic evolution of the parity lifetime with in-plane magnetic field, increasing up to 0.2T, followed by a decrease at higher fields. We demonstrate that the superconducting-gap asymmetry plays a crucial role in the observed behavior. At zero field, the qubit frequency is nearly resonant with the superconducting-gap difference, favoring the energy exchange with the quasiparticles and so enhancing the parity-switching rate. With a higher magnetic field, the qubit frequency decreases and gets detuned from the gap difference, causing the initial increase of the parity lifetime, while photon-assisted qubit transitions increase, producing the subsequent decrease at higher fields. Besides giving a deeper insight into the parity-switching mechanism in conventional transmon qubits, we establish that Al-AlO$_x$-Al JJs could be used in architectures for the parity-readout and manipulation of topological qubits based on Majorana zero modes.
翻訳日:2024-03-07 16:43:58 公開日:2024-03-05
# 量子力学エミュレーション

Quantum Dynamical Emulation ( http://arxiv.org/abs/2403.03350v1 )

ライセンス: Link先を確認
Jacob M. Leamer, Denys I. Bondar, and Gerard McCaul(参考訳) 非ユニタリダイナミクスの解を重み付きユニタリ操作の集合にマッピングするための構成的手法である \textit{quantum dynamical emulation} の概念を導入する。 これにより、Imaginary Time Quantum Dynamical Emulation (ITQDE)と呼ばれる実時間と虚時間の間の新しい対応を導出することができる。 これにより、リアルタイムに反対方向に進化した状態の重なりから想像上の時間進化を構築することができる。 我々は、ITQDEを用いて進化した1つの軌道が、基底状態や熱状態の推測だけでなく、完全なハミルトンスペクトルに関する情報の解決にも利用できることを示した。 我々はさらに、ハバード・ストラトノヴィッチ変換の一般化を含む新しい熱力学結果の導出にitqdeを用いる。 我々は、この前提に基づく量子システムのスペクトルを計算するための量子アルゴリズムを開発した。 本手法の有用性を数値シミュレーションと量子ハードウェア実装を用いて実証する。

We introduce the concept of \textit{Quantum Dynamical Emulation}, a constructive method for mapping the solutions of non-unitary dynamics to a weighted set of unitary operations. This allows us to derive a new correspondence between real and imaginary time, which we term Imaginary Time Quantum Dynamical Emulation (ITQDE). This enables an imaginary time evolution to be constructed from the overlaps of states evolved in opposite directions in real time. We show that a single trajectory evolved using ITQDE can be used not only to infer ground and thermal states, but also to resolve information about the complete Hamiltonian spectrum. We further employ ITQDE to derive novel thermodynamic results, including a generalisation of the Hubbard-Stratonovich transform. We go on to develop a quantum algorithm for computing the spectra of quantum systems that is based on this premise. We demonstrate the utility of this method through numerical simulation, as well as quantum hardware implementations.
翻訳日:2024-03-07 16:43:34 公開日:2024-03-05
# ハイパースペクトル画像クラスタリングのためのコンセンサス制約付きパリモニア・ガウス混合モデル

A consensus-constrained parsimonious Gaussian mixture model for clustering hyperspectral images ( http://arxiv.org/abs/2403.03349v1 )

ライセンス: Link先を確認
Ganesh Babu, Aoife Gowen, Michael Fop, Isobel Claire Gormley(参考訳) 食品試料調査におけるハイパースペクトルイメージングの利用は, 分光計測の性能向上と低コスト化により増加している。 食品エンジニアは、ハイパースペクトル画像を使用して食品サンプルのタイプと品質を分類する。 これらの手法を訓練するには、各トレーニング画像の各ピクセルにラベルを付ける必要がある。 通常、計算的に安価なしきい値ベースのアプローチはピクセルのラベル付けに使われ、分類法はそれらのラベルに基づいて訓練される。 しかし、閾値に基づくアプローチは主観的であり、異なる条件と異なる食品で撮影されたハイパースペクトル画像間で一般化することはできない。 ここでは, モデルに基づくクラスタリング手法を用いて超スペクトル画像に画素をラベル付けするために, コンセンサス制約付きパリモニア・ガウス混合モデル (ccpgmm) を提案する。 ccPGMMは、少数のピクセルのラベルに関する利用可能な情報と、画像内の他のピクセルをクラスタリングする際に、それらのピクセルと隣接するピクセルの関係を制約として利用する。 潜在変数モデルは、基礎となる少数の潜在因子の観点から、高次元データを表現するために使用される。 計算実現性を確保するために、複数の変数のランダムに選択されたサブセットにデータを分割し、制約されたクラスタリングを各データサブセットに適用するコンセンサスクラスタリングアプローチを採用し、コンセンサスクラスタリングソリューションを提供するために、クラスタリング結果をすべてのデータサブセットに集約する。 ccPGMM法は,3種類の穀類,トウモロコシ,米,小麦の模擬データセットおよび実ハイパースペクトル画像に適用した。 クラスタリング性能と計算効率は,他の最先端手法と比較して向上した。

The use of hyperspectral imaging to investigate food samples has grown due to the improved performance and lower cost of spectroscopy instrumentation. Food engineers use hyperspectral images to classify the type and quality of a food sample, typically using classification methods. In order to train these methods, every pixel in each training image needs to be labelled. Typically, computationally cheap threshold-based approaches are used to label the pixels, and classification methods are trained based on those labels. However, threshold-based approaches are subjective and cannot be generalized across hyperspectral images taken in different conditions and of different foods. Here a consensus-constrained parsimonious Gaussian mixture model (ccPGMM) is proposed to label pixels in hyperspectral images using a model-based clustering approach. The ccPGMM utilizes available information on the labels of a small number of pixels and the relationship between those pixels and neighbouring pixels as constraints when clustering the rest of the pixels in the image. A latent variable model is used to represent the high-dimensional data in terms of a small number of underlying latent factors. To ensure computational feasibility, a consensus clustering approach is employed, where the data are divided into multiple randomly selected subsets of variables and constrained clustering is applied to each data subset; the clustering results are then consolidated across all data subsets to provide a consensus clustering solution. The ccPGMM approach is applied to simulated datasets and real hyperspectral images of three types of puffed cereal, corn, rice, and wheat. Improved clustering performance and computational efficiency are demonstrated when compared to other current state-of-the-art approaches.
翻訳日:2024-03-07 16:43:19 公開日:2024-03-05
# 連鎖蒸留における相互情報の最大化学習

Learning to Maximize Mutual Information for Chain-of-Thought Distillation ( http://arxiv.org/abs/2403.03348v1 )

ライセンス: Link先を確認
Xin Chen, Hanxian Huang, Yanjun Gao, Yi Wang, Jishen Zhao, Ke Ding(参考訳) 知識蒸留は、大規模で複雑なモデルから小さなモデルへ知識を伝達する技術であり、効率的なAIデプロイメントに向けた重要なステップである。 CoT蒸留を利用した新しい手法であるDistilling Step-by-Step (DSS) は、より大型のモデルに対して優れた推論能力を持つ小型モデルを投入することで、約束を証明している。 dssでは、蒸留モデルは、マルチタスク学習フレームワークを介して合理性を生成し、ラベルを同時予測する能力を得る。 しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。 この目的のために,情報ボトルネックの観点から2つのタスクの相互関係を調査し,2つのタスクの表現特徴の相互情報最大化として定式化する。 学習に基づく手法を用いて,この最適化問題の解法を提案する。 4つのデータセットにまたがる実験結果から,本手法は最先端DSSよりも優れていることが示された。 本研究は,言語モデルの蒸留およびCoTの応用に関する今後の研究に対する洞察に富んだガイダンスを提供する。 コードとモデルはまもなくリリースされる。

Knowledge distillation, the technique of transferring knowledge from large, complex models to smaller ones, marks a pivotal step towards efficient AI deployment. Distilling Step-by-Step (DSS), a novel method utilizing chain-of-thought (CoT) distillation, has demonstrated promise by imbuing smaller models with the superior reasoning capabilities of their larger counterparts. In DSS, the distilled model acquires the ability to generate rationales and predict labels concurrently through a multi-task learning framework. However, DSS overlooks the intrinsic relationship between the two training tasks, leading to ineffective integration of CoT knowledge with the task of label prediction. To this end, we investigate the mutual relationship of the two tasks from Information Bottleneck perspective and formulate it as maximizing the mutual information of the representation features of the two tasks. We propose a variational approach to solve this optimization problem using a learning-based method. Our experimental results across four datasets demonstrate that our method outperforms the state-of-the-art DSS. Our findings offer insightful guidance for future research on language model distillation as well as applications involving CoT. Code and models will be released soon.
翻訳日:2024-03-07 16:42:52 公開日:2024-03-05
# 豊かな監督による視覚言語事前学習の強化

Enhancing Vision-Language Pre-training with Rich Supervisions ( http://arxiv.org/abs/2403.03346v1 )

ライセンス: Link先を確認
Yuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel, Srikar Appalaraju, Shabnam Ghadar, Vijay Mahadevan, Zhuowen Tu, Stefano Soatto(参考訳) 大規模Webスクリーンショットのレンダリングから得られたデータを用いて,視覚言語モデルのための新しい事前学習パラダイムであるScreenShots (S4)を提案する。 webのスクリーンショットを使うと、画像とテキストのペアを使っていないビジュアルとテキストのヒントが宝庫から解放される。 S4では,HTML要素の固有木構造階層と空間的局所化を利用して,大規模アノテートデータを用いた10の事前学習タスクを慎重に設計する。 これらのタスクは、異なるドメインにわたる下流タスクに似ている。 我々は,現在のスクリーンショット事前学習の目的と比較して,9つのダウンストリームタスクにおける画像-テキストモデルの性能を大幅に向上させることを実証した。テーブル検出の最大76.1%,ウィジェットキャプションの少なくとも1%である。

We propose Strongly Supervised pre-training with ScreenShots (S4) - a novel pre-training paradigm for Vision-Language Models using data from large-scale web screenshot rendering. Using web screenshots unlocks a treasure trove of visual and textual cues that are not present in using image-text pairs. In S4, we leverage the inherent tree-structured hierarchy of HTML elements and the spatial localization to carefully design 10 pre-training tasks with large scale annotated data. These tasks resemble downstream tasks across different domains and the annotations are cheap to obtain. We demonstrate that, compared to current screenshot pre-training objectives, our innovative pre-training method significantly enhances performance of image-to-text model in nine varied and popular downstream tasks - up to 76.1% improvements on Table Detection, and at least 1% on Widget Captioning.
翻訳日:2024-03-07 16:42:32 公開日:2024-03-05
# コードを持続的に学習する: llmベースのグリーンコード生成に関する実証的研究

Learn to Code Sustainably: An Empirical Study on LLM-based Green Code Generation ( http://arxiv.org/abs/2403.03344v1 )

ライセンス: Link先を確認
Tina Vartziotis, Ippolyti Dellatolas, George Dasoulas, Maximilian Schmidt, Florian Schneider, Tim Hoffmann, Sotirios Kotsopoulos, Michael Keckeisen(参考訳) 情報技術の利用の増加は、データセンターからのエネルギー消費と二酸化炭素排出量のかなりのシェアを生み出した。 これらの貢献は、ビッグデータ分析の需要の増加、デジタル化の増大、大規模人工知能(AI)モデルの開発によって増加すると期待されている。 ソフトウェア開発の環境への影響に対処する必要性は、グリーン(持続可能な)コーディングへの関心を高め、AIモデルの使用はエネルギー効率の向上につながると主張している。 ここでは、グリーンコードに関する実証的研究と、グリーンコーディングプラクティスの概要、およびaiモデルの持続可能性意識の定量化に使用されるメトリクスを提供する。 本稿では,自動生成コードの持続可能性を評価する。 この研究で考慮された自動生成コードは、生成可能な商用AI言語モデル、GitHub Copilot、OpenAI ChatGPT-3、Amazon CodeWhispererによって生成される。 本手法では,これらaiモデルの持続可能性意識を定量化するために,持続可能性指標に基づくコードの「グリーンキャパシティ」の定義を提案する。 我々は,3つのAI言語モデルが生成する人為的コードの性能とグリーンキャパシティを比較し,難解な問題文に応答する。 我々の調査結果は、持続可能なソフトウェア開発に貢献するaiモデルの現在の能力に光を当てた。

The increasing use of information technology has led to a significant share of energy consumption and carbon emissions from data centers. These contributions are expected to rise with the growing demand for big data analytics, increasing digitization, and the development of large artificial intelligence (AI) models. The need to address the environmental impact of software development has led to increased interest in green (sustainable) coding and claims that the use of AI models can lead to energy efficiency gains. Here, we provide an empirical study on green code and an overview of green coding practices, as well as metrics used to quantify the sustainability awareness of AI models. In this framework, we evaluate the sustainability of auto-generated code. The auto-generate codes considered in this study are produced by generative commercial AI language models, GitHub Copilot, OpenAI ChatGPT-3, and Amazon CodeWhisperer. Within our methodology, in order to quantify the sustainability awareness of these AI models, we propose a definition of the code's "green capacity", based on certain sustainability metrics. We compare the performance and green capacity of human-generated code and code generated by the three AI language models in response to easy-to-hard problem statements. Our findings shed light on the current capacity of AI models to contribute to sustainable software development.
翻訳日:2024-03-07 16:42:17 公開日:2024-03-05
# フェルミの黄金律とクラマース・クローニグの関係を用いた多体チャーン数へのホール導電率の関連

Relating the Hall conductivity to the many-body Chern number using Fermi's Golden rule and Kramers-Kronig relations ( http://arxiv.org/abs/2403.03340v1 )

ライセンス: Link先を確認
Nathan Goldman and Tomoki Ozawa(参考訳) 相関絶縁体の量子化されたホール導電性は、ねじれた境界条件の空間で定義される位相不変量である多体チャーン数によって与えられるという驚くほど単純な証明を提供する。 クボの公式に基づく従来の証明とは対照的に、このアプローチは円二元論の枠組みにおいてクラマース・クローニッヒ関係とフェルミの黄金律を組み合わせることに完全に依存している。 この教育的導出は、直接励起速度をモニターできる量子工学系に直接的な意味を持つ概念的に単純な画像である円形ドライブ上で単粒子の励起を監視することによって、相関した絶縁体のホール伝導度を決定する方法を示している。

This pedagogical piece provides a surprisingly simple demonstration that the quantized Hall conductivity of correlated insulators is given by the many-body Chern number, a topological invariant defined in the space of twisted boundary conditions. In contrast to conventional proofs, generally based on the Kubo formula, our approach entirely relies on combining Kramers-Kronig relations and Fermi's golden rule within a circular-dichroism framework. This pedagogical derivation illustrates how the Hall conductivity of correlated insulators can be determined by monitoring single-particle excitations upon a circular drive, a conceptually simple picture with direct implications for quantum-engineered systems, where excitation rates can be directly monitored.
翻訳日:2024-03-07 16:41:56 公開日:2024-03-05
# 公共交通機関の停留とディスパッチ問題の解決へのオンラインアプローチ

An Online Approach to Solving Public Transit Stationing and Dispatch Problem ( http://arxiv.org/abs/2403.03339v1 )

ライセンス: Link先を確認
Jose Paolo Talusan, Chaeeun Han, Ayan Mukhopadhyay, Aron Laszka, Dan Freudberg, Abhishek Dubey(参考訳) 公共バスの交通システムは、現代社会の大部分に重要な交通機関を提供している。 そのため、オンタイムのパフォーマンスと信頼性の高いサービスの品質を維持することが非常に重要です。 不幸なことに、過密、車両の故障、および交通事故による混乱は、しばしばサービス性能の低下に繋がる。 交通機関は限られた数の車両を予備に保管し、障害発生時の経路を緩和するために派遣するが、この手順はしばしばアドホックであり、不確実性下にある旅行に資源(車両)を割り当てるために人間の経験や直感に依存しなければならない。 本稿では,非近視的逐次的決定手順を用いた解法と決定法について述べる。 (a)トラブルを予知し、ディスラプションの多い付近で積極的にバスを停車させるのが有利である場合 (b)特定の問題に対してどの車両を派遣するかを決定する。 提案手法は,米国中規模都市におけるメトロポリタン交通公社と共同で開発され,半マルコフ決定問題(モンテカルロ木探索法として解決)としてモデル化され,これらの2つの連結決定問題に対して,全体報酬(提供者数)を最大化する方法で回答を得ることができることを示した。 生成モデルから可能な多くの未来をサンプリングし、それぞれ木に割り当てられ、ルート並列化を用いて処理される。 私たちはパートナーエージェンシーから3年間のデータを使ってアプローチを検証する。 実験の結果, 提案手法は, 死者数を40%削減しつつ, 乗客を2%増やすことができた。

Public bus transit systems provide critical transportation services for large sections of modern communities. On-time performance and maintaining the reliable quality of service is therefore very important. Unfortunately, disruptions caused by overcrowding, vehicular failures, and road accidents often lead to service performance degradation. Though transit agencies keep a limited number of vehicles in reserve and dispatch them to relieve the affected routes during disruptions, the procedure is often ad-hoc and has to rely on human experience and intuition to allocate resources (vehicles) to affected trips under uncertainty. In this paper, we describe a principled approach using non-myopic sequential decision procedures to solve the problem and decide (a) if it is advantageous to anticipate problems and proactively station transit buses near areas with high-likelihood of disruptions and (b) decide if and which vehicle to dispatch to a particular problem. Our approach was developed in partnership with the Metropolitan Transportation Authority for a mid-sized city in the USA and models the system as a semi-Markov decision problem (solved as a Monte-Carlo tree search procedure) and shows that it is possible to obtain an answer to these two coupled decision problems in a way that maximizes the overall reward (number of people served). We sample many possible futures from generative models, each is assigned to a tree and processed using root parallelization. We validate our approach using 3 years of data from our partner agency. Our experiments show that the proposed framework serves 2% more passengers while reducing deadhead miles by 40%.
翻訳日:2024-03-07 16:41:40 公開日:2024-03-05
# オンライン健康談話における新たな意見のマイニングのための大規模言語モデルの範囲

Scope of Large Language Models for Mining Emerging Opinions in Online Health Discourse ( http://arxiv.org/abs/2403.03336v1 )

ライセンス: Link先を確認
Joseph Gatto, Madhusudan Basak, Yash Srivastava, Philip Bohlman, Sarah M. Preum(参考訳) 本稿では,オンラインヘルスコミュニティにおける新たな意見マイニングのキュレーションと評価のための LLM を利用したフレームワークを開発する。 われわれは、Redditから得られた(タイトル、コメント)ペア間のペアのスタンス検出問題として、新興の意見マイニングを定式化しています。 クレームは明示的にあるいは暗黙的にユーザによって表現される。 詳細は (i)クレーム識別方法 --ポストタイトルがクレームを含んでいるかどうかを識別するタスクと (II) LLMを用いた姿勢検出のための意見マイニングによる評価フレームワーク。 我々は,新たな検査データセットであるLong COVID-Stance(LC-stance)をリリースすることによって,オンライン健康コミュニティにおける請求項の識別とスタンス検出のタスクにおいてLCMを評価することを可能にした。 長期間のcovid-19は、不確実で複雑な治療ガイドラインを持つ、新たなポスト共発性障害です。 LC-StanceはRedditコミュニティからの長い新型コロナウイルス治療に関する談話を含んでいる。 評価の結果, GPT-4 はゼロショット位置検出における先行作業よりも優れていた。 次に,詳細なllmモデル診断を行い,クレームタイプ(暗黙的あるいは明示的なクレーム)とコメント長をモデルエラーの原因として特定した。

In this paper, we develop an LLM-powered framework for the curation and evaluation of emerging opinion mining in online health communities. We formulate emerging opinion mining as a pairwise stance detection problem between (title, comment) pairs sourced from Reddit, where post titles contain emerging health-related claims on a topic that is not predefined. The claims are either explicitly or implicitly expressed by the user. We detail (i) a method of claim identification -- the task of identifying if a post title contains a claim and (ii) an opinion mining-driven evaluation framework for stance detection using LLMs. We facilitate our exploration by releasing a novel test dataset, Long COVID-Stance, or LC-stance, which can be used to evaluate LLMs on the tasks of claim identification and stance detection in online health communities. Long Covid is an emerging post-COVID disorder with uncertain and complex treatment guidelines, thus making it a suitable use case for our task. LC-Stance contains long COVID treatment related discourse sourced from a Reddit community. Our evaluation shows that GPT-4 significantly outperforms prior works on zero-shot stance detection. We then perform thorough LLM model diagnostics, identifying the role of claim type (i.e. implicit vs explicit claims) and comment length as sources of model error.
翻訳日:2024-03-07 16:41:13 公開日:2024-03-05
# DIVERSE: ビデオコメントスタンス分析によるアメリカ軍のインターネットビューの解読 - スタンス分類のための新しいベンチマークデータセット

DIVERSE: Deciphering Internet Views on the U.S. Military Through Video Comment Stance Analysis, A Novel Benchmark Dataset for Stance Classification ( http://arxiv.org/abs/2403.03334v1 )

ライセンス: Link先を確認
Iain J. Cruickshank, Lynnette Hui Xian Ng(参考訳) ソーシャルメディアテキストのスタンス検出は、予防接種や議論などの争点における反対意見を持つユーザグループの識別を含む下流タスクの重要な要素である。 特に、姿勢は、エンティティに対する意見の表示を提供する。 本稿は、米軍のビデオに対する姿勢を示す173,000以上のYouTubeビデオコメントのデータセットであるDIVERSEを紹介する。 この姿勢は、人間による手動アノテーションとは対照的に、文中のトーンの弱いシグナルを指標として利用する、人間の指示による機械支援のラベル付け手法によってアノテートされる。 これらの弱い信号は、ヘイトスピーチと皮肉の存在、特定のキーワードの存在、テキストの感情、および2つの大きな言語モデルからのスタンス推論から成り立っている。 弱い信号は、各コメントが最終スタンスラベルで注釈付けされる前に、データプログラミングモデルを使用して統合される。 平均すると、ビデオには200のコメントがあり、コメントの姿勢は、アメリカ陸軍とチャンネルに投稿されたビデオの両方の「アゲインスト」的な特徴にわずかに向けられている。

Stance detection of social media text is a key component of downstream tasks involving the identification of groups of users with opposing opinions on contested topics such as vaccination and within arguments. In particular, stance provides an indication of an opinion towards an entity. This paper introduces DIVERSE, a dataset of over 173,000 YouTube video comments annotated for their stance towards videos of the U.S. military. The stance is annotated through a human-guided, machine-assisted labeling methodology that makes use of weak signals of tone within the sentence as supporting indicators, as opposed to using manual annotations by humans. These weak signals consist of the presence of hate speech and sarcasm, the presence of specific keywords, the sentiment of the text, and the stance inference from two Large Language Models. The weak signals are then consolidated using a data programming model before each comment is annotated with a final stance label. On average, the videos have 200 comments each, and the stance of the comments skews slightly towards the "against" characterization for both the U.S. Army and the videos posted on the channel.
翻訳日:2024-03-07 16:40:51 公開日:2024-03-05
# CoRMF:臨界オーダーのリカレント平均値が解ける

CoRMF: Criticality-Ordered Recurrent Mean Field Ising Solver ( http://arxiv.org/abs/2403.03391v1 )

ライセンス: Link先を確認
Zhenyu Pan, Ammar Gilani, En-Jui Kuo, Zhuo Liu(参考訳) 本稿では,RNNに基づく効率的なIsingモデル解法であるCriticality-ordered Recurrent Mean Field (CoRMF)を提案する。 N$-spin Isingモデルの臨界順序付きスピン列は、ミッションクリティカルエッジをgreedyアルゴリズムでソートすることで導入され、自己回帰的平均場分解をリカレントニューラルネットワーク(RNN)で利用し最適化することができる。 我々の方法には2つの特徴がある。 (i) 基礎となるIsingグラフの近似木構造を活用することにより、新たに得られた臨界度順序は、変動平均場とRNNの統一を可能にし、一般的な難解なIsingモデルを確率的推論で効率的に探索することができる。 (ii)十分にモジュール化され、モデル非依存であり、同時に十分に表現可能であり、そのため最小限の努力で全ての前方イジング推論問題に適用できる。 分散還元モンテカルロ勾配推定器を用いて、CoRFMはデータ/エビデンスなしで自己学習方式でIsing問題を解き、RNNから直接サンプリングすることで推論タスクを実行することができる。 理論的には, 行列カット分解機械を用いて, ナイーブ平均場よりも強固な誤差境界を確立する。 数値的には、一連のイジングデータセット上でこのフレームワークの有用性を示す。

We propose an RNN-based efficient Ising model solver, the Criticality-ordered Recurrent Mean Field (CoRMF), for forward Ising problems. In its core, a criticality-ordered spin sequence of an $N$-spin Ising model is introduced by sorting mission-critical edges with greedy algorithm, such that an autoregressive mean-field factorization can be utilized and optimized with Recurrent Neural Networks (RNNs). Our method has two notable characteristics: (i) by leveraging the approximated tree structure of the underlying Ising graph, the newly-obtained criticality order enables the unification between variational mean-field and RNN, allowing the generally intractable Ising model to be efficiently probed with probabilistic inference; (ii) it is well-modulized, model-independent while at the same time expressive enough, and hence fully applicable to any forward Ising inference problems with minimal effort. Computationally, by using a variance-reduced Monte Carlo gradient estimator, CoRFM solves the Ising problems in a self-train fashion without data/evidence, and the inference tasks can be executed by directly sampling from RNN. Theoretically, we establish a provably tighter error bound than naive mean-field by using the matrix cut decomposition machineries. Numerically, we demonstrate the utility of this framework on a series of Ising datasets.
翻訳日:2024-03-07 16:36:43 公開日:2024-03-05
# 複雑度問題:純粋相関の存在下での特徴学習のダイナミクス

Complexity Matters: Dynamics of Feature Learning in the Presence of Spurious Correlations ( http://arxiv.org/abs/2403.03375v1 )

ライセンス: Link先を確認
GuanWen Qiu, Da Kuang, Surbhi Goel(参考訳) 既存の研究は、ニューラルネットワーク最適化のコア機能よりも学習しやすいとしばしば主張するが、それらの相対的単純さの影響はいまだ調査されていない。 さらに、主に機能学習の学習ダイナミクスを駆使するエンドパフォーマンスに焦点を当てている。 本稿では,boolean関数解析に基礎を置く理論的枠組みと関連する合成データセットを提案する。これにより,(コア特徴に比較して)相対的複雑性と,(ラベルに関して)スプリアス特徴の相関強度をきめ細かく制御し,スプリアス相関下での機能学習のダイナミクスを研究する。 提案手法では,(1) 主特徴の学習速度の低下,(2) 主特徴と主特徴の学習フェーズが必ずしも分離できないこと,(3) 主特徴が完全に学習されても,主特徴が忘れられてしまうこと,など,いくつかの興味深い現象が明らかになった。 その結果,前層の再トレーニングの成功を正当化し,スプリアス相関を解消し,スプリアス特徴の早期学習を生かした一般的なデバイアスアルゴリズムの限界を特定することができた。 単層ReLUネットワークを用いてXOR特徴を学習する場合の理論的解析により実験結果を支持する。

Existing research often posits spurious features as "easier" to learn than core features in neural network optimization, but the impact of their relative simplicity remains under-explored. Moreover they mainly focus on the end performance intead of the learning dynamics of feature learning. In this paper, we propose a theoretical framework and associated synthetic dataset grounded in boolean function analysis which allows for fine-grained control on the relative complexity (compared to core features) and correlation strength (with respect to the label) of spurious features to study the dynamics of feature learning under spurious correlation. Our setup uncovers several interesting phenomenon: (1) stronger spurious correlations or simpler spurious features slow down the rate of learning for the core features, (2) learning phases of spurious features and core features are not always separable, (3) spurious features are not forgotten even after core features are fully learned. We show that our findings justify the success of retraining the last layer to remove spurious correlation and also identifies limitations of popular debiasing algorithms that exploit early learning of spurious features. We support our empirical findings with theoretical analyses for the case of learning XOR features with a one-hidden-layer ReLU network.
翻訳日:2024-03-07 16:34:14 公開日:2024-03-05
# 超伝導回路におけるノイズによる量子冷凍

Quantum refrigeration powered by noise in a superconducting circuit ( http://arxiv.org/abs/2403.03373v1 )

ライセンス: Link先を確認
Simon Sundelin, Mohammed Ali Aamir, Vyom Manish Kulkarni, Claudia Castillo-Moreno, Simone Gasparinetti(参考訳) ノイズの強調は、しばしば量子デバイスに障害をもたらすが、ブラウン型量子冷蔵庫の文脈において資産となる。 ここでは, 定常状態の冷却エンジンを燃料として, 雑音支援型量子輸送を応用した新しい量子熱機械の実証を行う。 この装置は超伝導人工分子と2つのマイクロ波導波路の間の対称性選択的結合を利用する。 これらの導波路は温度の異なる熱貯水池として作用し, 合成熱場を用いて制御する。 分子の人工原子と縦に結合した第3チャネルを介して、劣化ノイズを注入する。 貯水池の相対温度を変動させ, 分解能1aW以下で熱電流を測定することにより, 量子熱機関, 熱加速器, 冷凍機として動作可能であることを示す。 熱マイクロ波導波路に結合した超伝導量子マシンを用いた量子熱力学研究の新たな道を開く。

While dephasing noise frequently presents obstacles for quantum devices, it can become an asset in the context of a Brownian-type quantum refrigerator. Here we demonstrate a novel quantum thermal machine that leverages noise-assisted quantum transport to fuel a cooling engine in steady state. The device exploits symmetry-selective couplings between a superconducting artificial molecule and two microwave waveguides. These waveguides act as thermal reservoirs of different temperatures, which we regulate by employing synthesized thermal fields. We inject dephasing noise through a third channel that is longitudinally coupled to an artificial atom of the molecule. By varying the relative temperatures of the reservoirs, and measuring heat currents with a resolution below 1 aW, we demonstrate that the device can be operated as a quantum heat engine, thermal accelerator, and refrigerator. Our findings open new avenues for investigating quantum thermodynamics using superconducting quantum machines coupled to thermal microwave waveguides.
翻訳日:2024-03-07 16:33:34 公開日:2024-03-05
# TartanAviation:端末空域運用のための画像・音声・ADS-B軌道データセット

TartanAviation: Image, Speech, and ADS-B Trajectory Datasets for Terminal Airspace Operations ( http://arxiv.org/abs/2403.03372v1 )

ライセンス: Link先を確認
Jay Patrikar, Joao Dantas, Brady Moon, Milad Hamidi, Sourish Ghosh, Nikhil Keetha, Ian Higgins, Atharva Chandak, Takashi Yoneyama, and Sebastian Scherer(参考訳) 我々は,ターミナルエリアの空域操作に特化したオープンソースのマルチモーダルデータセットであるtartanaviationを紹介する。 TartanAviationは、空港境界内に設置された設定を用いて、画像、音声、ADS-B軌道データを同時に収集することで、空港環境の全体像を提供する。 データセットは、航空機の運用、季節、航空機の種類、気象条件の多様性を捉えるために、数ヶ月にわたって、塔と塔のない飛行場の両方で収集された。 タルタンアビエーションは合計で3.1M画像、3374時間の航空交通管制音声データ、661日のADS-B軌道データを提供している。 データはフィルタリングされ、処理され、検証され、キュレートされたデータセットを生成する。 データセットに加えて、データセットの収集と事前処理に使用されるコードベースもオープンソース化し、アクセシビリティとユーザビリティをさらに強化しています。 このデータセットには潜在的なユースケースが多数あり、特にAIと機械学習技術を航空交通制御システムに統合し、空域における自律航空機の採用を促進する上で不可欠であると考えています。

We introduce TartanAviation, an open-source multi-modal dataset focused on terminal-area airspace operations. TartanAviation provides a holistic view of the airport environment by concurrently collecting image, speech, and ADS-B trajectory data using setups installed inside airport boundaries. The datasets were collected at both towered and non-towered airfields across multiple months to capture diversity in aircraft operations, seasons, aircraft types, and weather conditions. In total, TartanAviation provides 3.1M images, 3374 hours of Air Traffic Control speech data, and 661 days of ADS-B trajectory data. The data was filtered, processed, and validated to create a curated dataset. In addition to the dataset, we also open-source the code-base used to collect and pre-process the dataset, further enhancing accessibility and usability. We believe this dataset has many potential use cases and would be particularly vital in allowing AI and machine learning technologies to be integrated into air traffic control systems and advance the adoption of autonomous aircraft in the airspace.
翻訳日:2024-03-07 16:33:09 公開日:2024-03-05
# F$^3$Loc:Floorplanローカライゼーションのための融合とフィルタリング

F$^3$Loc: Fusion and Filtering for Floorplan Localization ( http://arxiv.org/abs/2403.03370v1 )

ライセンス: Link先を確認
Changan Chen, Rui Wang, Christoph Vogel, Marc Pollefeys(参考訳) 本稿では,フロアプラン内の自己局所化に対する効率的なデータ駆動ソリューションを提案する。 フロアプランデータは容易で、長期持続的で、本質的に視覚的な外観の変化に対して堅牢である。 本手法では,地図や位置情報のリトレーニングや,関心領域の画像の大規模なデータベースの要求は不要である。 本稿では,観測と新しい時間フィルタリングモジュールからなる新しい確率モデルを提案する。 内部で効率的なレイベース表現で運用されているこの観測モジュールは、画像から水平の深さを予測し、どちらの手法の利点からも恩恵を受けるために結果を融合するシングルとマルチビューモジュールで構成されている。 本手法は,従来のコンシューマハードウェア上で動作し,アップライトイメージを要求される競合する手法の共通制限を克服する。 当社のシステムは完全にリアルタイムの要件を満たしていますが、最先端をかなり上回っています。

In this paper we propose an efficient data-driven solution to self-localization within a floorplan. Floorplan data is readily available, long-term persistent and inherently robust to changes in the visual appearance. Our method does not require retraining per map and location or demand a large database of images of the area of interest. We propose a novel probabilistic model consisting of an observation and a novel temporal filtering module. Operating internally with an efficient ray-based representation, the observation module consists of a single and a multiview module to predict horizontal depth from images and fuses their results to benefit from advantages offered by either methodology. Our method operates on conventional consumer hardware and overcomes a common limitation of competing methods that often demand upright images. Our full system meets real-time requirements, while outperforming the state-of-the-art by a significant margin.
翻訳日:2024-03-07 16:32:38 公開日:2024-03-05
# フェデレート学習によるclopidogrel治療障害の自動検出

Leveraging Federated Learning for Automatic Detection of Clopidogrel Treatment Failures ( http://arxiv.org/abs/2403.03368v1 )

ライセンス: Link先を確認
Samuel Kim and Min Sang Kim(参考訳) 抗血小板薬であるclopidogrelの有効性は個人によって大きく異なり、患者のケアを最適化するための正確な予測モデルの開発が必要となる。 本研究では,clopidogrel 治療障害検出にフェデレート学習戦略を応用した。 本研究は、複数の医療機関の協力力を活用し、患者データを保護しながら、機械学習モデルを共同で訓練することを可能にする。 広域かつ多様な人口を包含する英国バイオバンクデータセットを用いて,地理的センタに基づくデータを分割し,連合学習の性能評価を行った。 この結果から,集中学習がAUC(Area Under the Curve)のより高い値とより高速な収束を実現する一方で,フェデレーション学習アプローチは,この性能ギャップを大幅に狭めることができることがわかった。 以上の知見は,clopidogrel治療障害検出における連合学習の可能性を強調し,データプライバシを尊重しながら,パーソナライズされた治療戦略を通じて患者ケアを強化する有望な手段を提供する。 本研究は, 医療におけるフェデレートラーニング研究の進展に寄与し, 各種医療状況に対する安全かつプライバシ保護予測モデルの基礎となる。

The effectiveness of clopidogrel, a widely used antiplatelet medication, varies significantly among individuals, necessitating the development of precise predictive models to optimize patient care. In this study, we leverage federated learning strategies to address clopidogrel treatment failure detection. Our research harnesses the collaborative power of multiple healthcare institutions, allowing them to jointly train machine learning models while safeguarding sensitive patient data. Utilizing the UK Biobank dataset, which encompasses a vast and diverse population, we partitioned the data based on geographic centers and evaluated the performance of federated learning. Our results show that while centralized training achieves higher Area Under the Curve (AUC) values and faster convergence, federated learning approaches can substantially narrow this performance gap. Our findings underscore the potential of federated learning in addressing clopidogrel treatment failure detection, offering a promising avenue for enhancing patient care through personalized treatment strategies while respecting data privacy. This study contributes to the growing body of research on federated learning in healthcare and lays the groundwork for secure and privacy-preserving predictive models for various medical conditions.
翻訳日:2024-03-07 16:32:17 公開日:2024-03-05
# グリーン関数からの交換相関エネルギー

Exchange-correlation energy from Green's functions ( http://arxiv.org/abs/2403.03364v1 )

ライセンス: Link先を確認
Steven Crisostomo, E.K.U Gross, and Kieron Burke(参考訳) DFT計算は有用な基底状態エネルギーと密度をもたらすが、グリーンの関数技術(例えば$GW$)は主にスペクトル関数を生成するために用いられる。 ガリツキー-ミグダル公式から、dftの交換相関をグリーン関数から直接抽出する。 このスペクトル表現は、DFTの揺動散逸定理の代替となり、個々の単一粒子と多粒子の寄与を識別する。 結果は均一な電子ガスと2サイトハバードモデルで示される。

DFT calculations yield useful ground-state energies and densities, while Green's function techniques (such as $GW$) are mostly used to produce spectral functions. From the Galitskii-Migdal formula, we extract the exchange-correlation of DFT directly from a Green's function. This spectral representation provides an alternative to the fluctuation-dissipation theorem of DFT, identifying distinct single-particle and many-particle contributions. Results are illustrated on the uniform electron gas and the two-site Hubbard model.
翻訳日:2024-03-07 16:31:31 公開日:2024-03-05
# 人とロボットのインタラクション制御のための社会ロボットの視覚知覚の改善

Improving Visual Perception of a Social Robot for Controlled and In-the-wild Human-robot Interaction ( http://arxiv.org/abs/2403.01766v2 )

ライセンス: Link先を確認
Wangjie Zhong, Leimin Tian, Duy Tho Le, Hamid Rezatofighi(参考訳) ソーシャルロボットは、ユーザーや環境を理解するのに視覚を頼りにすることが多い。 コンピュータビジョンのためのデータ駆動アプローチの最近の進歩は、ソーシャルロボットの視覚知覚を強化するためにディープラーニングモデルを適用する大きな可能性を示している。 しかし,より資源効率のよい浅層学習モデルとは対照的に,ディープラーニング手法の高度な計算要求は,実世界のインタラクションやユーザエクスペリエンスに与える影響について重要な疑問を提起する。 ソーシャルロボットが深層学習に基づく視覚知覚モデルを採用すると、客観的相互作用性能と主観的ユーザ体験がどう影響するかは明らかでない。 ペッパーロボットの視覚知覚機能を改善するために最先端の人間の知覚・追跡モデルを用い,制御された実験研究と人工の人間とロボットのインタラクション研究を行い,この新たな知覚機能を評価した。

Social robots often rely on visual perception to understand their users and the environment. Recent advancements in data-driven approaches for computer vision have demonstrated great potentials for applying deep-learning models to enhance a social robot's visual perception. However, the high computational demands of deep-learning methods, as opposed to the more resource-efficient shallow-learning models, bring up important questions regarding their effects on real-world interaction and user experience. It is unclear how will the objective interaction performance and subjective user experience be influenced when a social robot adopts a deep-learning based visual perception model. We employed state-of-the-art human perception and tracking models to improve the visual perception function of the Pepper robot and conducted a controlled lab study and an in-the-wild human-robot interaction study to evaluate this novel perception function for following a specific user with other people present in the scene.
翻訳日:2024-03-07 11:59:48 公開日:2024-03-05
# 分散グラフを用いたグラフニューラルネットワークの一般化

Generalizing Graph Neural Networks on Out-Of-Distribution Graphs ( http://arxiv.org/abs/2111.10657v3 )

ライセンス: Link先を確認
Shaohua Fan, Xiao Wang, Chuan Shi, Peng Cui and Bai Wang(参考訳) グラフニューラルネットワーク(GNN)は,トレーニンググラフとテストグラフの非依存的な分布変化を考慮せずに提案され,OF-Distribution(OOD)設定上でのGNNの一般化能力の低下を招く。 このような退化の根本的な理由は、ほとんどのGNNがI.I.D仮説に基づいて開発されているからである。 このような設定では、gnnはスプリアス相関であるにもかかわらず、トレーニングセットに存在する微妙な統計相関を予測のために利用する傾向がある。 しかし、このような急激な相関関係はテスト環境で変化し、GNNの失敗につながる可能性がある。 したがって、スプリアス相関の影響の排除は安定gnnにとって不可欠である。 そこで我々は,StableGNNと呼ばれる一般的な因果表現フレームワークを提案する。 主なアイデアは、まずグラフデータからハイレベルな表現を抽出し、モデルがスプリアス相関を取り除くのを助けるために因果推論の識別能力に頼ることである。 特に,グラフプーリング層を用いてグラフベース表現を高レベル表現として抽出する。 さらに,偏りのあるトレーニング分布を補正するための因果変数識別正規化器を提案する。 したがって、GNNはより安定した相関に集中する。 合成および実世界のoodグラフデータセットの広範な実験により、提案フレームワークの有効性、柔軟性、解釈性が検証された。

Graph Neural Networks (GNNs) are proposed without considering the agnostic distribution shifts between training and testing graphs, inducing the degeneration of the generalization ability of GNNs on Out-Of-Distribution (OOD) settings. The fundamental reason for such degeneration is that most GNNs are developed based on the I.I.D hypothesis. In such a setting, GNNs tend to exploit subtle statistical correlations existing in the training set for predictions, even though it is a spurious correlation. However, such spurious correlations may change in testing environments, leading to the failure of GNNs. Therefore, eliminating the impact of spurious correlations is crucial for stable GNNs. To this end, we propose a general causal representation framework, called StableGNN. The main idea is to extract high-level representations from graph data first and resort to the distinguishing ability of causal inference to help the model get rid of spurious correlations. Particularly, we exploit a graph pooling layer to extract subgraph-based representations as high-level representations. Furthermore, we propose a causal variable distinguishing regularizer to correct the biased training distribution. Hence, GNNs would concentrate more on the stable correlations. Extensive experiments on both synthetic and real-world OOD graph datasets well verify the effectiveness, flexibility and interpretability of the proposed framework.
翻訳日:2024-03-07 04:41:26 公開日:2024-03-05
# ニューラルネットワークリリーフ:神経活動に基づく刈り取りアルゴリズム

Neural network relief: a pruning algorithm based on neural activity ( http://arxiv.org/abs/2109.10795v3 )

ライセンス: Link先を確認
Aleksandr Dekhovich, David M.J. Tax, Marcel H.F. Sluiter, Miguel A. Bessa(参考訳) 現在のディープニューラルネットワーク(DNN)は、オーバーパラメータ化され、各タスクの推論中にほとんどのニューロン接続を使用する。 しかし、人間の脳は異なるタスクのための特別な領域を開発し、そのニューロン接続のごく一部で推論を行う。 重要でない接続を無効にし、dnnの過剰パラメータ化に取り組み、発火パターンを変調する単純な重要度スコアメトリックを導入する反復プルーニング戦略を提案する。 目的は、与えられたタスクをより単純なサブネットワークで解くことができる最小の接続数を見つけることである。 CIFAR-10/100 および Tiny-ImageNet 上の VGG および ResNet アーキテクチャの最先端アルゴリズムに比べて,MNIST 上での LeNet アーキテクチャの性能は大幅に向上した。 このアプローチは、AdamとSGDの2つの異なるオプティマイザに対してもうまく機能します。 このアルゴリズムは、現在のハードウェアやソフトウェアの実装を考えるときにフロップを最小化するように設計されていないが、技術の状況と比較すると合理的に機能する。

Current deep neural networks (DNNs) are overparameterized and use most of their neuronal connections during inference for each task. The human brain, however, developed specialized regions for different tasks and performs inference with a small fraction of its neuronal connections. We propose an iterative pruning strategy introducing a simple importance-score metric that deactivates unimportant connections, tackling overparameterization in DNNs and modulating the firing patterns. The aim is to find the smallest number of connections that is still capable of solving a given task with comparable accuracy, i.e. a simpler subnetwork. We achieve comparable performance for LeNet architectures on MNIST, and significantly higher parameter compression than state-of-the-art algorithms for VGG and ResNet architectures on CIFAR-10/100 and Tiny-ImageNet. Our approach also performs well for the two different optimizers considered -- Adam and SGD. The algorithm is not designed to minimize FLOPs when considering current hardware and software implementations, although it performs reasonably when compared to the state of the art.
翻訳日:2024-03-07 04:40:54 公開日:2024-03-05
# 対物的効果の一般化:A Combinatorial Definition

Counterfactual Effect Generalization: A Combinatorial Definition ( http://arxiv.org/abs/2108.04376v4 )

ライセンス: Link先を確認
Andre F. Ribeiro(参考訳) 因果効果の「非現実的」定義は、偏見と正確さから導出され、一般化可能ではない。 介入効果の外部妥当性(EV)に関するコンビニアル定義を提案する。 まず,効果観察の「背景」の概念を定義する。 次に、その(観測可能で観測不能な)背景集合に基づいて効果一般化の条件を定式化する。 これは効果一般化の2つの限界を明らかにしている:(1)効果がすべての可算背景の下で観測された場合、または(2)背景が十分にランダム化されたとき。 結果の組合せ的枠組みを用いて, 既定の正当性, 多重効果の同時推定, バイアス分散トレードオフ, 統計的パワー, 現行の予測・説明技術への接続などの問題を再検討する。 方法論的には,非実験試料の組合せ列挙とランダム化問題により,逆実数定義に追従するパラメトリック推定問題を置き換えることも可能である。 我々は、この非パラメトリックなフレームワークを用いて、一般的な教師付き、説明、因果効果推定器のパフォーマンスにおけるトレードオフ(外部妥当性、無知性、精度)を実証する。 また,この手法は非i.i.d.サンプルでの使用も可能にしている。 新型コロナウイルスのパンデミックは、いくつかの不完全なサンプルで予測を提供するための学習ソリューションの必要性を強調した。 このプレス問題に応用例を示す。

The widely used 'Counterfactual' definition of Causal Effects was derived for unbiasedness and accuracy - and not generalizability. We propose a Combinatorial definition for the External Validity (EV) of intervention effects. We first define the concept of an effect observation 'background'. We then formulate conditions for effect generalization based on their sets of (observable and unobservable) backgrounds. This reveals two limits for effect generalization: (1) when effects are observed under all their enumerable backgrounds, or, (2) when backgrounds have become sufficiently randomized. We use the resulting combinatorial framework to re-examine several issues in the original counterfactual formulation: out-of-sample validity, concurrent estimation of multiple effects, bias-variance tradeoffs, statistical power, and connections to current predictive and explaining techniques. Methodologically, the definitions also allow us to also replace the parametric estimation problems that followed the counterfactual definition by combinatorial enumeration and randomization problems in non-experimental samples. We use this non-parametric framework to demonstrate (External Validity, Unconfoundness and Precision) tradeoffs in the performance of popular supervised, explaining, and causal-effect estimators. We demonstrate the approach also allows for the use of these methods in non-i.i.d. samples. The COVID19 pandemic highlighted the need for learning solutions to provide predictions in severally incomplete samples. We demonstrate applications in this pressing problem.
翻訳日:2024-03-07 04:40:36 公開日:2024-03-05
# 同期対人訓練による2D-3D整合性に基づく3次元人物位置推定

3D Human Pose Estimation Based on 2D-3D Consistency with Synchronized Adversarial Training ( http://arxiv.org/abs/2106.04274v4 )

ライセンス: Link先を確認
Yicheng Deng, Cheng Sun, Yongqi Sun, and Jiahui Zhu(参考訳) 一つの画像から3次元のポーズを推定することは、この分野で行われている膨大な作業にもかかわらず、依然として難しい問題である。 一般的に、ほとんどの手法はニューラルネットワークを直接使用し、特定の制約(例えば、再投射制約、関節角、骨長制約)を無視している。 いくつかの方法はこれらの制約を考慮しながらネットワークを個別に訓練するが、深度あいまいさの問題を効果的に解決することはできない。 本稿では,3次元ポーズから2次元ポーズへの分布のマッピング学習に再投影ネットワークを用いた3次元ポーズ推定のためのGANモデルを提案する。 我々は、ジェネレータ、再投影ネットワーク、判別器を同期的に訓練する新しい戦略を採用する。 さらに, 典型的なキネマティック連鎖空間 (KCS) に着想を得て, 重み付き KCS 行列を導入し, 関節角度と骨長の制約を課す判別器の入力の1つとする。 また,Human3.6Mによる実験結果から,本手法が最先端の手法よりも優れていることが示された。

3D human pose estimation from a single image is still a challenging problem despite the large amount of work that has been performed in this field. Generally, most methods directly use neural networks and ignore certain constraints (e.g., reprojection constraints, joint angle, and bone length constraints). While a few methods consider these constraints but train the network separately, they cannot effectively solve the depth ambiguity problem. In this paper, we propose a GAN-based model for 3D human pose estimation, in which a reprojection network is employed to learn the mapping of the distribution from 3D poses to 2D poses, and a discriminator is employed for 2D-3D consistency discrimination. We adopt a novel strategy to synchronously train the generator, the reprojection network and the discriminator. Furthermore, inspired by the typical kinematic chain space (KCS) matrix, we introduce a weighted KCS matrix and take it as one of the discriminator's inputs to impose joint angle and bone length constraints. The experimental results on Human3.6M show that our method significantly outperforms state-of-the-art methods in most cases.
翻訳日:2024-03-07 04:40:13 公開日:2024-03-05
# AutoGL: グラフ学習を自動化するライブラリ

AutoGL: A Library for Automated Graph Learning ( http://arxiv.org/abs/2104.04987v4 )

ライセンス: Link先を確認
Ziwei Zhang, Yijian Qin, Zeyang Zhang, Chaoyu Guan, Jie Cai, Heng Chang, Jiyan Jiang, Haoyang Li, Zixin Sun, Beini Xie, Yang Yao, Yipeng Zhang, Xin Wang, Wenwu Zhu(参考訳) 近年、グラフ上での機械学習の研究関心や応用の高まりを目撃している。 しかし、異なるグラフデータセットとタスクに対して最適な機械学習アルゴリズムを手動で設計することは、柔軟で労働集約的であり、専門家の知識を必要とし、適応性と適用性を制限する。 グラフデータセットとタスクに対して最適な機械学習アルゴリズムを自動設計することを目的とした、グラフ上の自動機械学習(AutoML)が注目されている。 しかし、既存のライブラリはグラフ上でAutoMLを完全にサポートできない。 このギャップを埋めるため,我々は,グラフ上で自動機械学習を行うための最初の専用ライブラリであるautomated graph learning(autogl)を提案する。 autoglはオープンソースであり、使いやすく、拡張も柔軟である。 具体的には,バックエンドからデバイスとのインターフェース,完全自動グラフ学習パイプライン,グラフアプリケーションをサポートする3層アーキテクチャを提案する。 自動機械学習パイプラインはさらに、オートフィーチャーエンジニアリング、ニューラルアーキテクチャ検索、ハイパーパラメータ最適化、モデルトレーニング、オートアンサンブルという、グラフ上の既存のAutoMLメソッドの大部分をカバーする5つの機能モジュールが含まれている。 各モジュールに対して、多くの最先端のメソッドとフレキシブルなベースクラスとAPIを提供しています。 さらに、AutoGLライブラリの使用例を示す実験結果も提供します。 また、パイプラインのカスタマイズやアプリケーションの強化を容易にするAutoGLの軽量バージョンであるAutoGL-lightと、グラフニューラルアーキテクチャ検索のベンチマークも提供する。 AutoGLのコードはhttps://github.com/THUMNLab/AutoGLで公開されている。

Recent years have witnessed an upsurge in research interests and applications of machine learning on graphs. However, manually designing the optimal machine learning algorithms for different graph datasets and tasks is inflexible, labor-intensive, and requires expert knowledge, limiting its adaptivity and applicability. Automated machine learning (AutoML) on graphs, aiming to automatically design the optimal machine learning algorithm for a given graph dataset and task, has received considerable attention. However, none of the existing libraries can fully support AutoML on graphs. To fill this gap, we present Automated Graph Learning (AutoGL), the first dedicated library for automated machine learning on graphs. AutoGL is open-source, easy to use, and flexible to be extended. Specifically, we propose a three-layer architecture, consisting of backends to interface with devices, a complete automated graph learning pipeline, and supported graph applications. The automated machine learning pipeline further contains five functional modules: auto feature engineering, neural architecture search, hyper-parameter optimization, model training, and auto ensemble, covering the majority of existing AutoML methods on graphs. For each module, we provide numerous state-of-the-art methods and flexible base classes and APIs, which allow easy usage and customization. We further provide experimental results to showcase the usage of our AutoGL library. We also present AutoGL-light, a lightweight version of AutoGL to facilitate customizing pipelines and enriching applications, as well as benchmarks for graph neural architecture search. The codes of AutoGL are publicly available at https://github.com/THUMNLab/AutoGL.
翻訳日:2024-03-07 04:39:52 公開日:2024-03-05
# フェデレーション学習の新たな潮流:モデル融合からフェデレーションX学習へ

Emerging Trends in Federated Learning: From Model Fusion to Federated X Learning ( http://arxiv.org/abs/2102.12920v4 )

ライセンス: Link先を確認
Shaoxiong Ji and Yue Tan and Teemu Saravirta and Zhiqin Yang and Yixin Liu and Lauri Vasankari and Shirui Pan and Guodong Long and Anwar Walid(参考訳) フェデレーション学習(federated learning)は,マルチパーティ計算とモデル集約を通じてデータ収集とモデルトレーニングを分離する,新たな学習パラダイムである。 柔軟な学習環境として、連合学習は他の学習フレームワークと統合する可能性がある。 我々は、他の学習アルゴリズムとともに、フェデレーション学習を集中的に調査する。 具体的には,バニラフェデレーション平均化アルゴリズムの改良と適応アグリゲーション,正規化,クラスタ化法,ベイズ法などのモデル融合手法の見直しについて検討する。 また,近年のトレンドに続き,他の学習パラダイムと交差するフェデレーション学習,いわゆるフェデレーション学習,メタラーニング,トランスファーラーニング,教師なし学習,強化学習についても議論している。 本調査は,芸術の現状,課題,今後の方向性を概観する。

Federated learning is a new learning paradigm that decouples data collection and model training via multi-party computation and model aggregation. As a flexible learning setting, federated learning has the potential to integrate with other learning frameworks. We conduct a focused survey of federated learning in conjunction with other learning algorithms. Specifically, we explore various learning algorithms to improve the vanilla federated averaging algorithm and review model fusion methods such as adaptive aggregation, regularization, clustered methods, and Bayesian methods. Following the emerging trends, we also discuss federated learning in the intersection with other learning paradigms, termed federated X learning, where X includes multitask learning, meta-learning, transfer learning, unsupervised learning, and reinforcement learning. This survey reviews the state of the art, challenges, and future directions.
翻訳日:2024-03-07 04:39:28 公開日:2024-03-05
# 深層ニューラルネットワークを正しい科学的な理由から正しいものにするには

Making deep neural networks right for the right scientific reasons by interacting with their explanations ( http://arxiv.org/abs/2001.05371v4 )

ライセンス: Link先を確認
Patrick Schramowski, Wolfgang Stammer, Stefano Teso, Anna Brugger, Xiaoting Shao, Hans-Georg Luigs, Anne-Katrin Mahlein, Kristian Kersting(参考訳) ディープニューラルネットワークは多くの実世界のアプリケーションで優れた性能を示している。 残念ながら、“Clever Hans”のような振る舞い – データセット内のコンバウンド要因の活用 – がハイパフォーマンスを実現する可能性がある。 本稿では,「説明的対話型学習(xil)」の新たな学習設定を紹介し,植物表現型研究タスクにおけるその利点について述べる。 xilは科学者をトレーニングループに追加し、説明に対するフィードバックを提供することで、オリジナルのモデルをインタラクティブに修正する。 我々の実験結果によると、XILは機械学習におけるClever Hansの瞬間を避けるのに役立ち、基盤となるモデルへの信頼を奨励(あるいは妨げ)する。

Deep neural networks have shown excellent performances in many real-world applications. Unfortunately, they may show "Clever Hans"-like behavior -- making use of confounding factors within datasets -- to achieve high performance. In this work, we introduce the novel learning setting of "explanatory interactive learning" (XIL) and illustrate its benefits on a plant phenotyping research task. XIL adds the scientist into the training loop such that she interactively revises the original model via providing feedback on its explanations. Our experimental results demonstrate that XIL can help avoiding Clever Hans moments in machine learning and encourages (or discourages, if appropriate) trust into the underlying model.
翻訳日:2024-03-07 04:37:49 公開日:2024-03-05
# マスキング言語モデルを用いた文脈テキストの修飾

Contextual Text Denoising with Masked Language Models ( http://arxiv.org/abs/1910.14080v2 )

ライセンス: Link先を確認
Yifu Sun, Haoming Jiang(参考訳) 近年,ディープラーニングモデルの助けを借りて,自然言語処理(NLP)タスクに大幅な進歩が加えられている。 残念ながら、最先端のモデルはノイズの多いテキストに対して脆弱です。 そこで本研究では,マスク付きマスキング言語モデルに基づく新しい文脈文修飾アルゴリズムを提案する。 提案アルゴリズムはモデルの再トレーニングを必要とせず、ペアクリーニングトレーニングデータに追加のトレーニングを加えることなく任意のNLPシステムに統合することができる。 提案手法を合成雑音および自然雑音下で評価し,提案アルゴリズムがコンテキスト情報を用いて雑音テキストを補正し,複数の下流タスクにおける雑音入力の性能を向上させることを示す。

Recently, with the help of deep learning models, significant advances have been made in different Natural Language Processing (NLP) tasks. Unfortunately, state-of-the-art models are vulnerable to noisy texts. We propose a new contextual text denoising algorithm based on the ready-to-use masked language model. The proposed algorithm does not require retraining of the model and can be integrated into any NLP system without additional training on paired cleaning training data. We evaluate our method under synthetic noise and natural noise and show that the proposed algorithm can use context information to correct noise text and improve the performance of noisy inputs in several downstream tasks.
翻訳日:2024-03-07 04:37:34 公開日:2024-03-05
# 記号回帰データセットの再考と科学的発見のためのベンチマーク

Rethinking Symbolic Regression Datasets and Benchmarks for Scientific Discovery ( http://arxiv.org/abs/2206.10540v5 )

ライセンス: Link先を確認
Yoshitomo Matsubara, Naoya Chiba, Ryo Igarashi, Yoshitaka Ushiku(参考訳) 本稿では,その科学的発見の可能性に焦点を当てたシンボリック回帰(SR)のデータセットと評価基準を再検討する。 feynman lectures on physicsに基づく既存のデータセットで使われる式セットに着目し,120のデータセットを再現し,srsd(symbolive regression for scientific discovery)の性能について検討した。 120個のSRSDデータセットのそれぞれに対して、この公式とその変数の特性を慎重にレビューし、合理的に現実的なサンプリング範囲を設計し、新しいSRSDデータセットを使用して、SRメソッドがそれらのデータセットから物理法則を(再)発見できるかどうかを評価する。 また、ダミー変数を含む120のデータセットを作成し、SRメソッドが必要な変数のみを選択できるかどうかを調べる。 さらに、予測方程式と真の方程式木との間の正規化編集距離(NED)を用いて、既存のSRメトリクスが与えられた入力に対するターゲット値とSRモデルの予測値の間の二進的または誤りである重要な問題に対処する。 各種SRSD手法を用いて新しいSRSDデータセットのベンチマーク実験を行った。 実験結果から,我々はより現実的な性能評価を行い,NEDは既存のSR測定値よりも極めて高い相関性を示した。 コードのリポジトリと240のsrsdデータセットを公開します。

This paper revisits datasets and evaluation criteria for Symbolic Regression (SR), specifically focused on its potential for scientific discovery. Focused on a set of formulas used in the existing datasets based on Feynman Lectures on Physics, we recreate 120 datasets to discuss the performance of symbolic regression for scientific discovery (SRSD). For each of the 120 SRSD datasets, we carefully review the properties of the formula and its variables to design reasonably realistic sampling ranges of values so that our new SRSD datasets can be used for evaluating the potential of SRSD such as whether or not an SR method can (re)discover physical laws from such datasets. We also create another 120 datasets that contain dummy variables to examine whether SR methods can choose necessary variables only. Besides, we propose to use normalized edit distances (NED) between a predicted equation and the true equation trees for addressing a critical issue that existing SR metrics are either binary or errors between the target values and an SR model's predicted values for a given input. We conduct benchmark experiments on our new SRSD datasets using various representative SR methods. The experimental results show that we provide a more realistic performance evaluation, and our user study shows that the NED correlates with human judges significantly more than an existing SR metric. We publish repositories of our code and 240 SRSD datasets.
翻訳日:2024-03-07 04:31:11 公開日:2024-03-05
# Pseudo-Labeling の信頼性

Confident Sinkhorn Allocation for Pseudo-Labeling ( http://arxiv.org/abs/2206.05880v5 )

ライセンス: Link先を確認
Vu Nguyen and Hisham Husain and Sachin Farfade and Anton van den Hengel(参考訳) 半教師付き学習は、ラベル付きデータへの機械学習の依存を減らす重要なツールである。 画像や自然言語などの構造化データに対して、事前訓練されたモデルやデータ拡張による空間的・意味的構造の利用によって、うまく適用されてきた。 しかし、データに適切な構造や不変性がない場合には、これらの手法は適用できない。 その単純さのため、擬似ラベル法(PL)メソッドはドメインの仮定なしに広く利用することができる。 しかし、plの欲望のメカニズムは閾値に敏感であり、過信によって間違った割り当てがなされた場合、うまくいかない。 本稿では,疑似ラベルリングにおける不確実性の役割を理論的に検討し,信頼度の高いサンプルのみへの最適移動を通じて最適な疑似ラベル割り当てを同定するssummit sinkhorn allocation (csa)を提案する。 CSAは、半教師付き学習のこの事実上重要な領域において、現在の最先端技術よりも優れています。 さらに,KL(Kulback-Leibler)の発散に依存する既存のPACBayes境界をアンサンブルモデルに拡張・改善するために,積分確率測定を用いることを提案する。 私たちのコードはhttps://github.com/amzn/confident-sinkhorn-allocationで公開されています。

Semi-supervised learning is a critical tool in reducing machine learning's dependence on labeled data. It has been successfully applied to structured data, such as images and natural language, by exploiting the inherent spatial and semantic structure therein with pretrained models or data augmentation. These methods are not applicable, however, when the data does not have the appropriate structure, or invariances. Due to their simplicity, pseudo-labeling (PL) methods can be widely used without any domain assumptions. However, the greedy mechanism in PL is sensitive to a threshold and can perform poorly if wrong assignments are made due to overconfidence. This paper studies theoretically the role of uncertainty to pseudo-labeling and proposes Confident Sinkhorn Allocation (CSA), which identifies the best pseudo-label allocation via optimal transport to only samples with high confidence scores. CSA outperforms the current state-of-the-art in this practically important area of semi-supervised learning. Additionally, we propose to use the Integral Probability Metrics to extend and improve the existing PACBayes bound which relies on the Kullback-Leibler (KL) divergence, for ensemble models. Our code is publicly available at https://github.com/amzn/confident-sinkhorn-allocation.
翻訳日:2024-03-07 04:30:36 公開日:2024-03-05
# 粒子はジグザグを動かすことができるか?

Can a particle moves zigzag in time? ( http://arxiv.org/abs/2203.04200v3 )

ライセンス: Link先を確認
Sergey G. Rubin(参考訳) 時間ジグザグを含む量子遷移の振幅を考える。 この議論はミンコフスキー計量と標準量子力学の枠組みにおいて新しい仮定を加えることなく行われる。 波動関数は時間ジグザグの瞬間に特異であることが示されている。 それでも、時間ジグザグは量子レベルでは抑制されないが、振幅への寄与はゼロであると主張する。 結果は単一粒子と非相互作用スカラー場に対して有効である。

Amplitudes of quantum transitions containing time zigzags are considered. The discussion is carried out in the framework of the Minkowski metric and standard quantum mechanics without adding new postulates. It is shown that the wave function is singular at the instant of the time zigzag. Nevertheless, we argue that time zigzags are not suppressed at the quantum level, but their contribution to the amplitude is zero. The result is valid for a single particle and a non-interacting scalar field.
翻訳日:2024-03-07 04:27:29 公開日:2024-03-05
# ソフトウェア工学実験における金融インセンティブの異なる手法を用いた実験実験

A Laboratory Experiment on Using Different Financial-Incentivization Schemes in Software-Engineering Experimentation ( http://arxiv.org/abs/2202.10985v5 )

ライセンス: Link先を確認
Dmitri Bershadskyy (1), Jacob Kr\"uger (2), G\"ul \c{C}al{\i}kl{\i} (3), Siegmar Otto (4), Sarah Zabel (1 and 4), Jannik Greif (1), Robert Heyer (5) ((1) Otto-von-Guericke University Magdeburg, Germany (2) Eindhoven University of Technology, The Netherlands (3) University of Glasgow, UK (4) University of Hohenheim, Germany (5) Leibniz Institute for Analytical Sciences Dortmund and Bielefeld University, Germany)(参考訳) ソフトウェア工学の研究では、多くの経験的研究がオープンソースや業界開発者によって行われている。 しかし、経済学や心理学のような他の研究コミュニティとは対照的に、参加者の行動を動機づけ、パフォーマンスに報いる戦略として金銭的インセンティブ(すなわち、お金を払うこと)を使用する実験はごくわずかである。 最新のSIGSOFT Empirical Standardsでは、調査への参加の増加のためだけに、実際のモチベーションや実験の振る舞いを模倣するためではなく、支払いについて言及している。 本稿では、金融インセンティブの異なるスキームが開発者に与える影響を研究することによって、このギャップに対処する制御実験を報告する。 そこで我々はまず,(1)従業員が好むパフォーマンス依存型スキーム,(2)パフォーマンス非依存型スキーム,(3)オープンソース開発を模倣するスキームの3つのインセンティブを設計した実世界の金融インセンティブに関する調査を行った。 そして,これらの3つのスキームが参加者のパフォーマンスに与える影響について検討した。 提案手法は,ソフトウェア工学実験における参加者のパフォーマンスに影響を及ぼす可能性が示唆された。 サンプルサイズが小さいため,統計的に有意ではないものの,明確な傾向は観察できる。 私たちのコントリビューションは、ファイナンシャルインセンティブが実験参加者や実世界のシナリオに与える影響を理解し、研究者が実験を設計し、開発者を補償する組織を指導する上で役立ちます。

In software-engineering research, many empirical studies are conducted with open-source or industry developers. However, in contrast to other research communities like economics or psychology, only few experiments use financial incentives (i.e., paying money) as a strategy to motivate participants' behavior and reward their performance. The most recent version of the SIGSOFT Empirical Standards mentions payouts only for increasing participation in surveys, but not for mimicking real-world motivations and behavior in experiments. Within this article, we report a controlled experiment in which we tackled this gap by studying how different financial incentivization schemes impact developers. For this purpose, we first conducted a survey on financial incentives used in the real-world, based on which we designed three incentivization schemes: (1) a performance-dependent scheme that employees prefer, (2) a scheme that is performance-independent, and (3) a scheme that mimics open-source development. Then, using a between-subject experimental design, we explored how these three schemes impact participants' performance. Our findings indicate that the different schemes can impact participants' performance in software-engineering experiments. Due to the small sample sizes, our results are not statistically significant, but we can still observe clear tendencies. Our contributions help understand the impact of financial incentives on participants in experiments as well as real-world scenarios, guiding researchers in designing experiments and organizations in compensating developers.
翻訳日:2024-03-07 04:27:22 公開日:2024-03-05
# $\nabla$を信頼する: 因果発見のためのグラディエントベースのインターベンションターゲット

Trust Your $\nabla$: Gradient-based Intervention Targeting for Causal Discovery ( http://arxiv.org/abs/2211.13715v4 )

ライセンス: Link先を確認
Mateusz Olko, Micha{\l} Zaj\k{a}c, Aleksandra Nowak, Nino Scherrer, Yashas Annadani, Stefan Bauer, {\L}ukasz Kuci\'nski, Piotr Mi{\l}o\'s(参考訳) データから因果構造を推論することは、科学における基本的な重要性の課題である。 観測データはしばしばシステムの因果構造を一意に識別するには不十分である。 介入(実験)を行うことで識別性が向上するが、そのようなサンプルは通常、入手が困難で高価である。 したがって、因果発見のための実験的設計アプローチは、最も有益な介入目標を推定することで介入回数を最小化することを目的としている。 そこで本研究では,勾配に基づく因果発見フレームワークの勾配推定器を「信頼」し,介入獲得関数のシグナルを提供する,新しい勾配に基づく介入ターゲティング手法gitを提案する。 我々は、シミュレーションおよび実世界のデータセットにおいて広範な実験を行い、GITが低データ体制において、競争ベースラインに匹敵する性能を示す。

Inferring causal structure from data is a challenging task of fundamental importance in science. Observational data are often insufficient to identify a system's causal structure uniquely. While conducting interventions (i.e., experiments) can improve the identifiability, such samples are usually challenging and expensive to obtain. Hence, experimental design approaches for causal discovery aim to minimize the number of interventions by estimating the most informative intervention target. In this work, we propose a novel Gradient-based Intervention Targeting method, abbreviated GIT, that 'trusts' the gradient estimator of a gradient-based causal discovery framework to provide signals for the intervention acquisition function. We provide extensive experiments in simulated and real-world datasets and demonstrate that GIT performs on par with competitive baselines, surpassing them in the low-data regime.
翻訳日:2024-03-07 04:21:20 公開日:2024-03-05
# 属性プライバシによるグループフェアネスのアライメントについて

On the Alignment of Group Fairness with Attribute Privacy ( http://arxiv.org/abs/2211.10209v3 )

ライセンス: Link先を確認
Jan Aalmoes and Vasisht Duddu and Antoine Boutet(参考訳) グループフェアネスとプライバシは、信頼できる機械学習モデルの設計における基本的な側面である。 これまでの研究は、グループフェアネスと異なるプライバシー概念の対立を強調してきた。 ブラックボックスの設定において、グループフェアネスと属性プライバシという特定のプライバシー概念との整合性を初めて示す。 属性推論攻撃(AIA)に対する抵抗によって定量化された属性プライバシは、ターゲットモデルの出力予測において識別不可能性を必要とする。 グループフェアネスは、AIAの緩和と属性プライバシの達成を保証する。 これを示すために,私たちはまず,クラスの不均衡が敏感な属性を持つ実世界のデータセット用にカスタマイズされた,既存のaiaの拡張であるadaptaiaを紹介します。 理論的および広範な実証分析を通じて,AdaptAIAに対する2つの標準群フェアネスアルゴリズム(対逆脱バイアス,指数勾配降下)の有効性を実証した。 さらに、グループフェアネスの使用は属性プライバシをもたらすため、現在不足しているAIAに対する防御として機能する。 全体として、グループフェアネスは属性プライバシと一致しており、既存のモデルユーティリティとのトレードオフ以外の追加コストは発生しない。

Group fairness and privacy are fundamental aspects in designing trustworthy machine learning models. Previous research has highlighted conflicts between group fairness and different privacy notions. We are the first to demonstrate the alignment of group fairness with the specific privacy notion of attribute privacy in a blackbox setting. Attribute privacy, quantified by the resistance to attribute inference attacks (AIAs), requires indistinguishability in the target model's output predictions. Group fairness guarantees this thereby mitigating AIAs and achieving attribute privacy. To demonstrate this, we first introduce AdaptAIA, an enhancement of existing AIAs, tailored for real-world datasets with class imbalances in sensitive attributes. Through theoretical and extensive empirical analyses, we demonstrate the efficacy of two standard group fairness algorithms (i.e., adversarial debiasing and exponentiated gradient descent) against AdaptAIA. Additionally, since using group fairness results in attribute privacy, it acts as a defense against AIAs, which is currently lacking. Overall, we show that group fairness aligns with attribute privacy at no additional cost other than the already existing trade-off with model utility.
翻訳日:2024-03-07 04:21:06 公開日:2024-03-05
# 入力制御のない量子過程の学習

Learning quantum processes without input control ( http://arxiv.org/abs/2211.05005v3 )

ライセンス: Link先を確認
Marco Fanizza, Yihui Quek, Matteo Rosati(参考訳) 古典確率変数を入力とし、量子状態を出力するプロセスに対して、一般的な統計学習理論を導入する。 我々の設定は、制御できない古典的パラメータによって支配される量子過程を学習したいという現実的な状況によって動機付けられている。 この枠組みは、例えば、天文学的な現象、乱れたシステム、観察者が制御していない生物学的プロセスの研究に適用できる。 概念クラスが無限であっても、この設定において有限個のサンプルで高い確率で学習するアルゴリズムを提供する。 そこで本研究では,既存アルゴリズムのシャドウトモグラフィと仮説選択の見直しと適応を行い,それらの保証と興味のある損失関数のデータへの統一収束を組み合わせる。 副産物として、古典量子状態のシャドウトモグラフィーを行うための十分な条件が得られ、多くのコピーが量子レジスタの次元に依存するが、古典的状態の次元には依存しない。 量子回路や物理的動機付けのあるクラス、例えばランダムな摂動を持つハミルトン系やデータに依存した位相シフト系などに基づいて、この方法で学習できるプロセスの具体例を与える。

We introduce a general statistical learning theory for processes that take as input a classical random variable and output a quantum state. Our setting is motivated by the practical situation in which one desires to learn a quantum process governed by classical parameters that are out of one's control. This framework is applicable, for example, to the study of astronomical phenomena, disordered systems and biological processes not controlled by the observer. We provide an algorithm for learning with high probability in this setting with a finite amount of samples, even if the concept class is infinite. To do this, we review and adapt existing algorithms for shadow tomography and hypothesis selection, and combine their guarantees with the uniform convergence on the data of the loss functions of interest. As a by-product we obtain sufficient conditions for performing shadow tomography of classical-quantum states with a number of copies which depends on the dimension of the quantum register, but not on the dimension of the classical one. We give concrete examples of processes that can be learned in this manner, based on quantum circuits or physically motivated classes, such as systems governed by Hamiltonians with random perturbations or data-dependent phase-shifts.
翻訳日:2024-03-07 04:20:29 公開日:2024-03-05
# PCB-RandNet:自律走行シーンにおけるLIDARセマンティックセグメンテーションのためのランダムサンプリングの再考

PCB-RandNet: Rethinking Random Sampling for LIDAR Semantic Segmentation in Autonomous Driving Scene ( http://arxiv.org/abs/2209.13797v2 )

ライセンス: Link先を確認
Huixian Cheng, XianFeng Han, Hang Jiang, Dehong He, Guoqiang Xiao(参考訳) 大規模lidarポイントクラウドの高速かつ効率的なセマンティクスセグメンテーションは、自動運転における根本的な問題である。 この目標を達成するために、既存のポイントベースのメソッドは主に大規模なポイントクラウドを処理するためにランダムサンプリング戦略を採用する。 しかし,我々の定量的・定性的な研究では,lidar点が空間全体にわたって不均一あるいは長尾の分布に従うため,ランダムサンプリングは自律運転のシナリオには適さない可能性があり,距離範囲の異なる点から十分な情報を取得できないため,モデルの学習能力が低下する。 この問題を軽減するために、よりバランスのとれた分布を維持し、異なる空間分布下でのセグメンテーション性能を向上させることができる新しい極柱平衡ランダムサンプリング法を提案する。 さらに,セグメント化性能を向上し,異なるサンプリング手法によるモデルの分散を低減するため,サンプリング一貫性損失が導入された。 実験の結果,SemanticKITTIとSemanticPOSSのベンチマークでは,それぞれ2.8%,4.0%の改善が得られた。 ソースコードはhttps://github.com/huixiancheng/PCB-RandNetで入手できる。

Fast and efficient semantic segmentation of large-scale LiDAR point clouds is a fundamental problem in autonomous driving. To achieve this goal, the existing point-based methods mainly choose to adopt Random Sampling strategy to process large-scale point clouds. However, our quantative and qualitative studies have found that Random Sampling may be less suitable for the autonomous driving scenario, since the LiDAR points follow an uneven or even long-tailed distribution across the space, which prevents the model from capturing sufficient information from points in different distance ranges and reduces the model's learning capability. To alleviate this problem, we propose a new Polar Cylinder Balanced Random Sampling method that enables the downsampled point clouds to maintain a more balanced distribution and improve the segmentation performance under different spatial distributions. In addition, a sampling consistency loss is introduced to further improve the segmentation performance and reduce the model's variance under different sampling methods. Extensive experiments confirm that our approach produces excellent performance on both SemanticKITTI and SemanticPOSS benchmarks, achieving a 2.8% and 4.0% improvement, respectively. The source code is available at https://github.com/huixiancheng/PCB-RandNet.
翻訳日:2024-03-07 04:18:14 公開日:2024-03-05
# 半球特殊化を伴う両側脳における深層学習

Deep learning in a bilateral brain with hemispheric specialization ( http://arxiv.org/abs/2209.06862v7 )

ライセンス: Link先を確認
Chandramouli Rajagopalan, David Rawlinson, Elkhonon Goldberg, Gideon Kowadlo(参考訳) 地球上の両側対称動物の脳は左半球と右半球に分けられる。 半球の解剖学と機能には大きな重なりがあるが、非対称性があり、異なる特性を持つことを専門としている。 いくつかの計算モデルは、意味的および視覚的処理タスクに関する人間のデータを再現することに焦点を当てた半球の非対称性を模倣している。 本研究では,二元的アーキテクチャにおける二重半球の相互作用が,与えられたタスクにおいてうまく動作するかを理解することを目的とした。 自然界で観察される側方化を模倣する二者間ニューラルネットワークを提案し,左半球は特異性,右半球は汎用性に特化している。 所望の特殊化を達成するために異なるトレーニング目標を使い、2つの異なるcnnバックボーン(resnetとvgg)を持つイメージ分類タスクでテストしました。 分析の結果、半球は重み付き注意を実装したネットワークヘッドによって悪用される相補的な特徴を示していることがわかった。 両アーキテクチャは、差分特殊化を生かさない類似の表現能力のベースラインを、特殊性や一般性のための2つの訓練目標に基づいて訓練された一方的なネットワークの従来のアンサンブルを除いて上回った。 その結果、両立主義の有効性が示され、生物学的脳における両立主義の議論に寄与し、その原理が新しいaiシステムの帰納的バイアスとなる可能性がある。

The brains of all bilaterally symmetric animals on Earth are divided into left and right hemispheres. The anatomy and functionality of the hemispheres have a large degree of overlap, but there are asymmetries and they specialize to possess different attributes. Several computation models mimic hemispheric asymmetries with a focus on reproducing human data on semantic and visual processing tasks. In this study, we aimed to understand how dual hemispheres in a bilateral architecture interact to perform well in a given task. We propose a bilateral artificial neural network that imitates lateralization observed in nature: that the left hemisphere specializes in specificity and the right in generalities. We used different training objectives to achieve the desired specialization and tested it on an image classification task with two different CNN backbones -- ResNet and VGG. Our analysis found that the hemispheres represent complementary features that are exploited by a network head which implements a type of weighted attention. The bilateral architecture outperformed a range of baselines of similar representational capacity that don't exploit differential specialization, with the exception of a conventional ensemble of unilateral networks trained on a dual training objective for specifics and generalities. The results demonstrate the efficacy of bilateralism, contribute to the discussion of bilateralism in biological brains and the principle may serves as an inductive bias for new AI systems.
翻訳日:2024-03-07 04:17:50 公開日:2024-03-05
# 空間変動一般化ガウスモデルに基づく共同画像復元と特徴抽出のための変分アプローチ

A Variational Approach for Joint Image Recovery and Feature Extraction Based on Spatially-Varying Generalised Gaussian Models ( http://arxiv.org/abs/2209.01375v3 )

ライセンス: Link先を確認
Emilie Chouzenoux, Marie-Caroline Corbineau, Jean-Christophe Pesquet, Gabriele Scrivanti(参考訳) 再構成/特徴抽出の連立問題は画像処理において難しい課題である。 画像の復元と特徴の抽出を共同で行う。 本稿では,まず,この問題の非滑らかかつ非凸な変分定式化を提案する。 この目的のために、指数を含むパラメータが空間不変である全多元一般化ガウス事前を導入する。 第二に、提案した非凸目的関数の構造を効率的に活用する交互近位最適化アルゴリズムを設計する。 また,このアルゴリズムの収束を解析する。 連成除染作業における数値実験で示すように,提案手法は高品質な結果をもたらす。

The joint problem of reconstruction / feature extraction is a challenging task in image processing. It consists in performing, in a joint manner, the restoration of an image and the extraction of its features. In this work, we firstly propose a novel nonsmooth and non-convex variational formulation of the problem. For this purpose, we introduce a versatile generalised Gaussian prior whose parameters, including its exponent, are space-variant. Secondly, we design an alternating proximal-based optimisation algorithm that efficiently exploits the structure of the proposed non-convex objective function. We also analyse the convergence of this algorithm. As shown in numerical experiments conducted on joint deblurring/segmentation tasks, the proposed method provides high-quality results.
翻訳日:2024-03-07 04:17:27 公開日:2024-03-05
# 連合型エッジラーニングにおける知識蒸留--調査

Knowledge Distillation in Federated Edge Learning: A Survey ( http://arxiv.org/abs/2301.05849v3 )

ライセンス: Link先を確認
Zhiyuan Wu, Sheng Sun, Yuwei Wang, Min Liu, Xuefeng Jiang, Runhan Li, Bo Gao(参考訳) モバイルとモノのインターネット(IoT)デバイスのインテリジェントなサービスとプライバシ保護の需要の増加は、デバイスがプライベートデータを共有せずにデバイス上で機械学習(ML)モデルを協調訓練するFEL(Federated Edge Learning)の広範な応用を動機付けている。 デバイスハードウェア、多様なユーザ行動、ネットワークインフラストラクチャによって制限されたFELのアルゴリズム設計は、リソース、パーソナライゼーション、ネットワーク環境に関連する課題に直面している。 幸いなことに、知識蒸留(KD)はFELにおける上記の課題に取り組む重要な手法として活用されている。 本稿では,KD が FEL に適用した作業について検討し,既存の KD ベースの FEL アプローチの限界とオープンな問題について議論し,実際の展開のガイダンスを提供する。

The increasing demand for intelligent services and privacy protection of mobile and Internet of Things (IoT) devices motivates the wide application of Federated Edge Learning (FEL), in which devices collaboratively train on-device Machine Learning (ML) models without sharing their private data. Limited by device hardware, diverse user behaviors and network infrastructure, the algorithm design of FEL faces challenges related to resources, personalization and network environments. Fortunately, Knowledge Distillation (KD) has been leveraged as an important technique to tackle the above challenges in FEL. In this paper, we investigate the works that KD applies to FEL, discuss the limitations and open problems of existing KD-based FEL approaches, and provide guidance for their real deployment.
翻訳日:2024-03-07 04:11:38 公開日:2024-03-05
# ほぼ最適非パラメトリックシーケンステストと依存性のある観測による信頼度シーケンス

Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences with Possibly Dependent Observations ( http://arxiv.org/abs/2212.14411v3 )

ライセンス: Link先を確認
Aurelien Bibaut, Nathan Kallus, Michael Lindon(参考訳) 任意の停止時間で有効な逐次テストとそのインプリート信頼シーケンスは、柔軟な統計的推測とオンザフライ決定を約束する。 しかし、強い保証は、実際には未発見のパラメトリックシーケンシャルテストや、過剰にカバーし、最適な拒絶時間を持つ濃度境界ベースのシーケンスに限られる。 本研究では, \cite{robbins 1970boundary} の遅延開始正規混合確率比テストについて検討し,一般の非パラメトリックデータ生成プロセスにおいて,漸近的型-i-error と期待-rejection-time の保証を行う。 type-i-errorの結果は、主にmartingaleの強い不変性原理を活用し、これらのテスト(およびそれらの暗黙の信頼度列)が所望の$\alpha$-レベルに近づくtype-iエラー率を持つことを保証する。 期待排除時間の結果は、主に it\^o の補題に触発された同一性を利用しており、特定の漸近的な方法では、期待拒否時間は $\alpha$ レベルのテストの中で最小に近づくことを暗示している。 平均治療効果などの方程式を推定したパラメータの逐次推定に本結果を適用する方法を示す。 この結果から,これらの実験を汎用性,非パラメトリック性,準最適性として確立した。 これを数値実験で説明する。

Sequential tests and their implied confidence sequences, which are valid at arbitrary stopping times, promise flexible statistical inference and on-the-fly decision making. However, strong guarantees are limited to parametric sequential tests that under-cover in practice or concentration-bound-based sequences that over-cover and have suboptimal rejection times. In this work, we consider \cite{robbins1970boundary}'s delayed-start normal-mixture sequential probability ratio tests, and we provide the first asymptotic type-I-error and expected-rejection-time guarantees under general non-parametric data generating processes, where the asymptotics are indexed by the test's burn-in time. The type-I-error results primarily leverage a martingale strong invariance principle and establish that these tests (and their implied confidence sequences) have type-I error rates approaching a desired $\alpha$-level. The expected-rejection-time results primarily leverage an identity inspired by It\^o's lemma and imply that, in certain asymptotic regimes, the expected rejection time approaches the minimum possible among $\alpha$-level tests. We show how to apply our results to sequential inference on parameters defined by estimating equations, such as average treatment effects. Together, our results establish these (ostensibly parametric) tests as general-purpose, non-parametric, and near-optimal. We illustrate this via numerical experiments.
翻訳日:2024-03-07 04:11:23 公開日:2024-03-05
# エージェントを用いたヒト歩行分析装置の開発のための人筋のモデリングとシミュレーション

Agent-based Modeling and Simulation of Human Muscle For Development of Human Gait Analyzer Application ( http://arxiv.org/abs/2212.12760v2 )

ライセンス: Link先を確認
Sina Saadati, Mohammadreza Razzazi(参考訳) 運動障害や障害の影響を受ける筋肉はごく一部に過ぎないが、健康な筋肉と不健康な筋肉は医療療法によって区別されない。 本稿では,歩行周期中に下肢の神経刺激を計算し,筋肉群が正常に動作していないかどうかを確認する方法を提案する。 このため,ヒト筋肉のエージェントモデルが提案されている。 この剤は、筋肉によって生じる力に神経刺激を変換することができ、その逆も可能である。 医学教育、研究、人工装具開発など多くの研究に利用することができる。 ブートスアルゴリズムは、人体の生体力学的モデルに基づいて設計され、各筋肉群によって生成された力を計算し、人間の運動の逆ダイナミクスを行う。 ヒトの筋肉・ブーツ・アルゴリズムのエージェント駆動モデルを用いて、歩行周期中に各筋が受ける神経刺激の数を算出できるユーザフレンドリーなアプリケーションを開発した。 この応用は臨床の専門家が健康な筋肉と不健康な筋肉を区別するために利用できる。

Despite the fact that only a small portion of muscles are affected in motion disease and disorders, medical therapies do not distinguish between healthy and unhealthy muscles. In this paper, a method is devised in order to calculate the neural stimuli of the lower body during gait cycle and check if any group of muscles are not acting properly. For this reason, an agent-based model of human muscle is proposed. The agent is able to convert neural stimuli to force generated by the muscle and vice versa. It can be used in many researches including medical education and research and prosthesis development. Then, Boots algorithm is designed based on a biomechanical model of human lower body to do a reverse dynamics of human motion by computing the forces generated by each muscle group. Using the agent-driven model of human muscle and boots algorithm, a user-friendly application is developed which can calculate the number of neural stimuli received by each muscle during gait cycle. The application can be used by clinical experts to distinguish between healthy and unhealthy muscles.
翻訳日:2024-03-07 04:10:20 公開日:2024-03-05
# 顔生成における一対多対応の記憶

Memories are One-to-Many Mapping Alleviators in Talking Face Generation ( http://arxiv.org/abs/2212.05005v3 )

ライセンス: Link先を確認
Anni Tang, Tianyu He, Xu Tan, Jun Ling, Li Song(参考訳) 対話顔生成は、入力音声によって駆動される対象者の写実的映像像を生成することを目的としている。 入力音声から出力映像への1対1マッピング(例えば、1つの音声コンテンツが複数の可視性を持つ)の性質から、以前の作品のように決定論的なマッピングを学ぶことはトレーニングのあいまいさをもたらし、その結果は劣る。 この1対多マッピングは、部分的には2段階のフレームワーク(すなわち、音声対表現モデルとニューラルレンダリングモデル)によって緩和されるが、十分な情報(感情、しわなど)が得られないので、まだ不十分である。 本稿では,不足している情報を暗黙記憶で補完するmemfaceと,それぞれ2段階の感覚に従う明示記憶を提案する。 より具体的には、暗黙記憶は、音声表現共有空間における高レベルセマンティクスを捉えるのに、暗黙記憶は、ピクセルレベルの詳細を合成するために、ニューラルレンダリングモデルで使用される。 実験の結果,提案するmemfaceは,複数のシナリオにまたがる最先端の成果を一貫して,かつ著しく上回ることがわかった。

Talking face generation aims at generating photo-realistic video portraits of a target person driven by input audio. Due to its nature of one-to-many mapping from the input audio to the output video (e.g., one speech content may have multiple feasible visual appearances), learning a deterministic mapping like previous works brings ambiguity during training, and thus causes inferior visual results. Although this one-to-many mapping could be alleviated in part by a two-stage framework (i.e., an audio-to-expression model followed by a neural-rendering model), it is still insufficient since the prediction is produced without enough information (e.g., emotions, wrinkles, etc.). In this paper, we propose MemFace to complement the missing information with an implicit memory and an explicit memory that follow the sense of the two stages respectively. More specifically, the implicit memory is employed in the audio-to-expression model to capture high-level semantics in the audio-expression shared space, while the explicit memory is employed in the neural-rendering model to help synthesize pixel-level details. Our experimental results show that our proposed MemFace surpasses all the state-of-the-art results across multiple scenarios consistently and significantly.
翻訳日:2024-03-07 04:07:55 公開日:2024-03-05
# 動的グラフからの直進非巡回グラフ構造学習

Directed Acyclic Graph Structure Learning from Dynamic Graphs ( http://arxiv.org/abs/2211.17029v2 )

ライセンス: Link先を確認
Shaohua Fan, Shuyang Zhang, Xiao Wang, Chuan Shi(参考訳) 特徴(変数)の有向非巡回グラフ(DAG)の構造を推定することは、潜在データ生成プロセスを明らかにし、様々なアプリケーションに因果的な洞察を提供する上で重要な役割を果たす。 様々な種類のデータを用いた構造学習に関する研究が数多く行われているが、動的グラフの構造学習はまだ検討されておらず、ユビキタスな動的グラフデータにおけるノード特徴生成機構の学習問題の研究を行っている。 動的グラフでは,ノード特徴間の同時関係と時間差関係を同時に推定する。 これらの2種類の関係はDAGを形成し、簡潔な方法で特徴生成プロセスを効果的に特徴付けることができる。 このようなDAGを学習するために、学習問題を連続的なスコアベース最適化問題として、学習されたDAGの妥当性を測定するための微分可能なスコア関数と、学習したDAGの非周期性を確保するための滑らかな非循環性制約とからなる。 これらの2つの成分は、成熟した連続最適化手法によって最小化できる、制約のない拡張ラグランジアン目的に変換される。 GraphNOTEARSというアルゴリズムは、現実世界のアプリケーションで発生する可能性のある幅広い設定でシミュレーションされたデータに基づいて、ベースラインを上回ります。 また,実世界のyelpデータセットから構築した2つの動的グラフに対して提案手法を適用し,ドメイン知識に準拠したノード機能間の接続を学習できることを実証した。

Estimating the structure of directed acyclic graphs (DAGs) of features (variables) plays a vital role in revealing the latent data generation process and providing causal insights in various applications. Although there have been many studies on structure learning with various types of data, the structure learning on the dynamic graph has not been explored yet, and thus we study the learning problem of node feature generation mechanism on such ubiquitous dynamic graph data. In a dynamic graph, we propose to simultaneously estimate contemporaneous relationships and time-lagged interaction relationships between the node features. These two kinds of relationships form a DAG, which could effectively characterize the feature generation process in a concise way. To learn such a DAG, we cast the learning problem as a continuous score-based optimization problem, which consists of a differentiable score function to measure the validity of the learned DAGs and a smooth acyclicity constraint to ensure the acyclicity of the learned DAGs. These two components are translated into an unconstraint augmented Lagrangian objective which could be minimized by mature continuous optimization techniques. The resulting algorithm, named GraphNOTEARS, outperforms baselines on simulated data across a wide range of settings that may encounter in real-world applications. We also apply the proposed approach on two dynamic graphs constructed from the real-world Yelp dataset, demonstrating our method could learn the connections between node features, which conforms with the domain knowledge.
翻訳日:2024-03-07 04:07:06 公開日:2024-03-05
# 大規模PDE解法のためのニューラル演算子のインクリメンタル空間とスペクトル学習

Incremental Spatial and Spectral Learning of Neural Operators for Solving Large-Scale PDEs ( http://arxiv.org/abs/2211.15188v4 )

ライセンス: Link先を確認
Robert Joseph George, Jiawei Zhao, Jean Kossaifi, Zongyi Li, Anima Anandkumar(参考訳) Fourier Neural Operators (FNO) は乱流のような偏微分方程式(PDE)を解くための原理的なアプローチを提供する。 FNOの中核は、フーリエ領域における離散化収束表現を利用するスペクトル層であり、一定の周波数の集合について重みを学習する。 しかし、FNOの訓練には2つの重要な課題がある。 (i)高分解能入力に対するフーリエ変換は計算量が多いが,流体の流れなど多くのPDEを解くためには細部細部が必要である。 (II)スペクトル層における関連する周波数のセットの選択は困難であり、過度に多くのモードが過度に適合するが、過度に過度に不適合することがある。 これらの問題に対処するために、インクリメンタルフーリエニューラルオペレータ(iFNO)を導入し、モデルが使用する周波数モードの数とトレーニングデータの解像度の両方を徐々に増加させる。 iFNOは各種データセット間の一般化性能を維持したり改善したりしながら、トレーニング時間を短縮する。 提案手法は,既存のフーリエニューラル演算子に比べて周波数モードが20%少なく,30%高速トレーニングを実現するとともに,テスト誤差が10%低減することを示す。

Fourier Neural Operators (FNO) offer a principled approach to solving challenging partial differential equations (PDE) such as turbulent flows. At the core of FNO is a spectral layer that leverages a discretization-convergent representation in the Fourier domain, and learns weights over a fixed set of frequencies. However, training FNO presents two significant challenges, particularly in large-scale, high-resolution applications: (i) Computing Fourier transform on high-resolution inputs is computationally intensive but necessary since fine-scale details are needed for solving many PDEs, such as fluid flows, (ii) selecting the relevant set of frequencies in the spectral layers is challenging, and too many modes can lead to overfitting, while too few can lead to underfitting. To address these issues, we introduce the Incremental Fourier Neural Operator (iFNO), which progressively increases both the number of frequency modes used by the model as well as the resolution of the training data. We empirically show that iFNO reduces total training time while maintaining or improving generalization performance across various datasets. Our method demonstrates a 10% lower testing error, using 20% fewer frequency modes compared to the existing Fourier Neural Operator, while also achieving a 30% faster training.
翻訳日:2024-03-07 04:06:20 公開日:2024-03-05
# SATBA:空間的注意に基づく見えないバックドア攻撃

SATBA: An Invisible Backdoor Attack Based On Spatial Attention ( http://arxiv.org/abs/2302.13056v3 )

ライセンス: Link先を確認
Huasong Zhou, Xiaowei Xu, Xiaodong Wang, and Leon Bevan Bullock(参考訳) バックドア攻撃は、AIセキュリティに対する新たな脅威として浮上している。 これらの攻撃には、隠れトリガーパターンを含むデータセットに対するDeep Neural Network(DNN)のトレーニングが含まれる。 中毒モデルは通常良性試料に作用するが、トリガーパターンを含む試料に異常な挙動を示す。 しかし、既存のバックドア攻撃のほとんどは、2つの重大な欠点に悩まされている: そのトリガーパターンは、バックドアディフェンスや人間の検査によって見えやすく容易に検出され、インジェクションプロセスによって自然なサンプルの特徴やトリガーパターンが失われ、攻撃の成功率とモデル精度が低下する。 本稿では,空間的注意とU-netモデルを用いて,これらの制約を克服するSATBAという新しいバックドアアタックを提案する。 攻撃プロセスは、空間的注意を用いて意味のあるデータの特徴を抽出し、クリーンな画像に関連するトリガーパターンを生成する。 次に、U字型モデルを使用して、これらのトリガーパターンを特徴損失を引き起こすことなく、元のデータに埋め込む。 3つの標準データセットにわたる3つの画像分類DNNに対する攻撃を評価する。 その結果,SATBAはバックドア防御に対する堅牢性を保ちながら高い攻撃成功率を達成した。 さらに,攻撃戦略のステルス性を強調するため,画像類似性実験を行った。 SATBAは,従来の手法の欠点に対処し,検出を回避し,高い攻撃成功率を維持する上での有効性を示した。

Backdoor attack has emerged as a novel and concerning threat to AI security. These attacks involve the training of Deep Neural Network (DNN) on datasets that contain hidden trigger patterns. Although the poisoned model behaves normally on benign samples, it exhibits abnormal behavior on samples containing the trigger pattern. However, most existing backdoor attacks suffer from two significant drawbacks: their trigger patterns are visible and easy to detect by backdoor defense or even human inspection, and their injection process results in the loss of natural sample features and trigger patterns, thereby reducing the attack success rate and model accuracy. In this paper, we propose a novel backdoor attack named SATBA that overcomes these limitations using spatial attention and an U-net based model. The attack process begins by using spatial attention to extract meaningful data features and generate trigger patterns associated with clean images. Then, an U-shaped model is used to embed these trigger patterns into the original data without causing noticeable feature loss. We evaluate our attack on three prominent image classification DNN across three standard datasets. The results demonstrate that SATBA achieves high attack success rate while maintaining robustness against backdoor defenses. Furthermore, we conduct extensive image similarity experiments to emphasize the stealthiness of our attack strategy. Overall, SATBA presents a promising approach to backdoor attack, addressing the shortcomings of previous methods and showcasing its effectiveness in evading detection and maintaining high attack success rate.
翻訳日:2024-03-07 04:00:24 公開日:2024-03-05
# 基本量子サブルーチン:複数の有マーク要素の発見と総和数

Basic quantum subroutines: finding multiple marked elements and summing numbers ( http://arxiv.org/abs/2302.10244v3 )

ライセンス: Link先を確認
Joran van Apeldoorn, Sander Gribling, Harold Nieuwboer(参考訳) 最小の量子メモリを持つ設定において、最適な数$O(\sqrt{Nk})$とゲート複雑性におけるポリ対数的オーバーヘッドのみを用いて、$k$マークされた要素を$N$の一覧で見つける方法を示す。 以前のアルゴリズムでは、ゲートの複雑さで$k$のオーバーヘッドを発生させたり、クエリの複雑さで$\log(k)$を増加させたりしていた。 次に、$s = \sum_{i=1}^N v_i$, $v=(v_i) \in [0,1]^N$の乗法的な$\delta$-approximationを求める問題を考える。 我々は、少なくとも1-\rho$の確率で、$o(\sqrt{n \log(1/\rho) / \delta})$量子クエリ($\rho$の穏やかな仮定の下で)を使用するアルゴリズムを与える。 これにより、1/\delta$ と $\log(1/\rho)$ への依存度は振幅推定の直接的な適用よりも向上する。 改良された$\log(1/\rho)$ 依存を得るには、最初の結果を使う。

We show how to find all $k$ marked elements in a list of size $N$ using the optimal number $O(\sqrt{N k})$ of quantum queries and only a polylogarithmic overhead in the gate complexity, in the setting where one has a small quantum memory. Previous algorithms either incurred a factor $k$ overhead in the gate complexity, or had an extra factor $\log(k)$ in the query complexity. We then consider the problem of finding a multiplicative $\delta$-approximation of $s = \sum_{i=1}^N v_i$ where $v=(v_i) \in [0,1]^N$, given quantum query access to a binary description of $v$. We give an algorithm that does so, with probability at least $1-\rho$, using $O(\sqrt{N \log(1/\rho) / \delta})$ quantum queries (under mild assumptions on $\rho$). This quadratically improves the dependence on $1/\delta$ and $\log(1/\rho)$ compared to a straightforward application of amplitude estimation. To obtain the improved $\log(1/\rho)$ dependence we use the first result.
翻訳日:2024-03-07 03:59:57 公開日:2024-03-05
# クリロフ宇宙における断熱への近道

Shortcuts to Adiabaticity in Krylov Space ( http://arxiv.org/abs/2302.05460v2 )

ライセンス: Link先を確認
Kazutaka Takahashi, Adolfo del Campo(参考訳) 断熱性へのショートカットは量子状態の準備のための高速なプロトコルを提供し、補助的な反断熱制御を使用することで断熱戦略における緩やかな運転の要求を回避できる。 彼らの開発は単純なシステムで十分に確立されているが、工学と実装は多くの自由度を持つ多体量子システムでは困難である。 逆ダイアバティックな項、すなわち断熱ゲージポテンシャルの方程式は、クリロフ基底を導入することで解くことができる。 クリロフ基底は、ダイナミクスが展開する極小作用素部分空間にまたがり、対ダイアバティックな項を構築する効率的な方法を提供する。 我々はパラダイム的単一粒子モデルと多粒子モデルに戦略を適用する。 反断熱項の性質は、アルゴリズム的手法によりクリロフ基底の構成の過程で得られたランツォス係数に反映される。 クリャロフ基底の膨張が反断熱項における多体相互作用をどのように組み込むかを検討する。

Shortcuts to adiabaticity provide fast protocols for quantum state preparation in which the use of auxiliary counterdiabatic controls circumvents the requirement of slow driving in adiabatic strategies. While their development is well established in simple systems, their engineering and implementation are challenging in many-body quantum systems with many degrees of freedom. We show that the equation for the counterdiabatic term, equivalently the adiabatic gauge potential, is solved by introducing a Krylov basis. The Krylov basis spans the minimal operator subspace in which the dynamics unfolds and provides an efficient way to construct the counterdiabatic term. We apply our strategy to paradigmatic single- and many-particle models. The properties of the counterdiabatic term are reflected in the Lanczos coefficients obtained in the course of the construction of the Krylov basis by an algorithmic method. We examine how the expansion in the Krylov basis incorporates many-body interactions in the counterdiabatic term.
翻訳日:2024-03-07 03:59:16 公開日:2024-03-05
# 力・トルクセンサのないロボットマニピュレーション

Fine Robotic Manipulation without Force/Torque Sensor ( http://arxiv.org/abs/2301.13413v2 )

ライセンス: Link先を確認
Shilin Shan, Quang-Cuong Pham(参考訳) フォースセンシングとフォースコントロールは多くの産業用途に欠かせない。 通常は6軸のフォース/トルク(F/T)センサーがロボットの手首と端エフェクターの間に装着され、環境がロボットに与える力とトルク(外部レンチ)を測定する。 典型的な6軸F/Tセンサーは高い精度で測定できるが、ドリフトや外部衝撃に対して高価で脆弱である。 ロボットの内部信号のみを使用して外部レンチを推定する既存の方法は、スコープが限られている:例えば、レンチ推定精度は、高い精度の力制御を必要とするアセンブリのようなタスクとは対照的に、主として自由空間の動きと単純な接触において検証された。 本稿では,トレーニングデータ構造に特に注意を向けることで,外部レンチを内部信号のみに基づいて,幅広いシナリオで正確に推定することが可能である,というニューラルネットに基づく手法を提案する。 例示として,100ミクロンクリアランスのピン挿入実験とハンドガイド実験を,外部f/tセンサや関節トルクセンサを使わずに実施した。 我々の結果は、既存の270万台の産業用ロボットに、追加ハードウェアを使わずにフォースセンシングとフォースコントロール機能を搭載する可能性を開く。

Force Sensing and Force Control are essential to many industrial applications. Typically, a 6-axis Force/Torque (F/T) sensor is mounted between the robot's wrist and the end-effector in order to measure the forces and torques exerted by the environment onto the robot (the external wrench). Although a typical 6-axis F/T sensor can provide highly accurate measurements, it is expensive and vulnerable to drift and external impacts. Existing methods aiming at estimating the external wrench using only the robot's internal signals are limited in scope: for example, wrench estimation accuracy was mostly validated in free-space motions and simple contacts as opposed to tasks like assembly that require high-precision force control. Here we present a Neural Network based method and argue that by devoting particular attention to the training data structure, it is possible to accurately estimate the external wrench in a wide range of scenarios based solely on internal signals. As an illustration, we demonstrate a pin insertion experiment with 100-micron clearance and a hand-guiding experiment, both performed without external F/T sensors or joint torque sensors. Our result opens the possibility of equipping the existing 2.7 million industrial robots with Force Sensing and Force Control capabilities without any additional hardware.
翻訳日:2024-03-07 03:58:14 公開日:2024-03-05
# LiDAR-CSデータセット:3Dオブジェクト検出のためのクロスセンサー付きLiDARポイントクラウドデータセット

LiDAR-CS Dataset: LiDAR Point Cloud Dataset with Cross-Sensors for 3D Object Detection ( http://arxiv.org/abs/2301.12515v2 )

ライセンス: Link先を確認
Jin Fang, Dingfu Zhou, Jingjing Zhao, Chenming Wu, Chulin Tang, Cheng-Zhong Xu and Liangjun Zhang(参考訳) ここ数年,3dポイント雲の研究が著しく進展し,その自律運転シナリオにおける利用が広く普及している。 しかし、ディープラーニング手法は注釈付きデータに大きく依存しており、しばしばドメインの一般化問題に直面している。 通常、それらに含まれるテクスチャ情報に関係している2D画像とは異なり、3D点雲から派生した特徴は点の分布に影響される。 3Dドメイン適応ベンチマークの欠如は、あるベンチマーク(Waymoなど)でモデルをトレーニングし、別のデータセット(KITTIなど)で評価する一般的なプラクティスにつながります。 この設定はシナリオとセンサーという2つの異なる領域ギャップをもたらし、その手法を正確に分析し評価することが困難になる。 そこで本研究では,6つの異なるセンサ群の下に,大規模アノテートされたLiDAR点群を含むクロスセンサを用いたLiDARデータセット(LiDAR-CS Dataset)を提案する。 我々の知る限り、LiDAR-CSデータセットは、リアルタイムトラフィックにおける3Dオブジェクト検出の領域におけるセンサ関連ギャップに対処する最初のデータセットである。 さらに, 各種ベースライン検出器を用いて性能評価と解析を行い, その可能性を示した。 プロジェクトページ: https://opendriving.github.io/lidar-cs。

Over the past few years, there has been remarkable progress in research on 3D point clouds and their use in autonomous driving scenarios has become widespread. However, deep learning methods heavily rely on annotated data and often face domain generalization issues. Unlike 2D images whose domains usually pertain to the texture information present in them, the features derived from a 3D point cloud are affected by the distribution of the points. The lack of a 3D domain adaptation benchmark leads to the common practice of training a model on one benchmark (e.g. Waymo) and then assessing it on another dataset (e.g. KITTI). This setting results in two distinct domain gaps: scenarios and sensors, making it difficult to analyze and evaluate the method accurately. To tackle this problem, this paper presents LiDAR Dataset with Cross Sensors (LiDAR-CS Dataset), which contains large-scale annotated LiDAR point cloud under six groups of different sensors but with the same corresponding scenarios, captured from hybrid realistic LiDAR simulator. To our knowledge, LiDAR-CS Dataset is the first dataset that addresses the sensor-related gaps in the domain of 3D object detection in real traffic. Furthermore, we evaluate and analyze the performance using various baseline detectors and demonstrated its potential applications. Project page: https://opendriving.github.io/lidar-cs.
翻訳日:2024-03-07 03:57:52 公開日:2024-03-05
# オフライン強化学習のための明示的行動密度を用いた制約付きポリシー最適化

Constrained Policy Optimization with Explicit Behavior Density for Offline Reinforcement Learning ( http://arxiv.org/abs/2301.12130v2 )

ライセンス: Link先を確認
Jing Zhang, Chi Zhang, Wenjia Wang, Bing-Yi Jing(参考訳) 環境と対話できないため、オフライン強化学習(RL)手法は、アウト・オブ・ディストリビューション(OOD)ポイントを推定する課題に直面している。 この問題に対処する既存のメソッドは、OODアクションを除外するためのポリシーを制御するか、$Q$関数を悲観的にする。 しかし、これらの手法は過度に保守的であるか、OOD領域を正確に識別できない可能性がある。 この問題を解決するために,フローGANモデルを用いて行動ポリシーの密度を明示的に推定する明示的行動密度(CPED)法による制約付きポリシー最適化を提案する。 明示密度を推定することにより、CPEDは安全領域を正確に識別し、領域内の最適化を可能にする。 さらに,フローGAN推定器とCPEDの性能保証のために,CPEDが最適な$Q$関数値を見出すことができることを示す。 実証的には、CPEDは様々な標準的なオフライン強化学習タスクにおいて既存の選択肢よりも優れており、より高い期待リターンをもたらす。

Due to the inability to interact with the environment, offline reinforcement learning (RL) methods face the challenge of estimating the Out-of-Distribution (OOD) points. Existing methods for addressing this issue either control policy to exclude the OOD action or make the $Q$ function pessimistic. However, these methods can be overly conservative or fail to identify OOD areas accurately. To overcome this problem, we propose a Constrained Policy optimization with Explicit Behavior density (CPED) method that utilizes a flow-GAN model to explicitly estimate the density of behavior policy. By estimating the explicit density, CPED can accurately identify the safe region and enable optimization within the region, resulting in less conservative learning policies. We further provide theoretical results for both the flow-GAN estimator and performance guarantee for CPED by showing that CPED can find the optimal $Q$-function value. Empirically, CPED outperforms existing alternatives on various standard offline reinforcement learning tasks, yielding higher expected returns.
翻訳日:2024-03-07 03:57:31 公開日:2024-03-05
# 規則化とカットオフによるイベント駆動スパイクニューラルネットワークの最適化

Optimising Event-Driven Spiking Neural Network with Regularisation and Cutoff ( http://arxiv.org/abs/2301.09522v3 )

ライセンス: Link先を確認
Dengyu Wu and Gaojie Jin and Han Yu and Xinping Yi and Xiaowei Huang(参考訳) ニューラルネットワークをより密接に模倣した次世代の人工知能ニューラルネットワーク(ANN)であるSpiking Neural Network(SNN)は、計算効率の有望な改善を提供する。 しかし、現在のSNNトレーニング手法は、SNNの動的推論の可能性を見越して、固定時間ステップアプローチを主に採用している。 本稿では,SNNとイベント駆動処理の結婚を,推論中にいつでもSNNを終了させ,効率的な推論を実現するSNNの遮断を検討することを提案する。 推論効率の良いSNNを実現するために,Top-Kカットオフと正規化という2つの新しい最適化手法を提案する。 トップkカットオフ手法はsnnの推論を最適化し、この正規化はカットオフの最適化性能を持つsnnのトレーニングと構築に影響を与える。 我々は、CIFAR10-DVS、N-Caltech101、DVS128 Gestureなど、Cifar10/100、Tiny-ImageNet、イベントベースのデータセットなど、複数のベンチマークフレームベースのダットセットで広範な実験を行う。 実験により,ANN-to-SNN変換とダイレクトトレーニングの両手法の有効性を実証し,既存の手法と統合した場合の精度向上と推論時間の短縮に両手法の互換性と潜在的なメリットを確認した。 コード提供: https://github.com/dengyu-wu/snn-regularization-cutoff

Spiking neural network (SNN), next generation of artificial neural network (ANN) that more closely mimic natural neural networks offers promising improvements in computational efficiency. However, current SNN training methodologies predominantly employ a fixed timestep approach, overlooking the potential of dynamic inference in SNN. In this paper, we strengthen the marriage between SNN and event-driven processing with a proposal to consider cutoff in SNN, which can terminate SNN anytime during the inference to achieve efficient inference. Two novel optimisation techniques are presented to achieve inference efficient SNN: a Top-K cutoff and a regularisation. The Top-K cutoff technique optimises the inference of SNN, and the regularisation are proposed to affect the training and construct SNN with optimised performance for cutoff. We conduct an extensive set of experiments on multiple benchmark frame-based datsets, such as Cifar10/100, Tiny-ImageNet and event-based datasets, including CIFAR10-DVS, N-Caltech101 and DVS128 Gesture. The experimental results demonstrate the effectiveness of our techniques in both ANN-to-SNN conversion and direct training, affirming their compatibility and potential benefits in enhancing accuracy and reducing inference timestep when integrated with existing methods. Code available: https://github.com/Dengyu-Wu/SNN-Regularisation-Cutoff
翻訳日:2024-03-07 03:56:32 公開日:2024-03-05
# グラフ注意に基づく部分観測可能平均場多元強化学習

Partially Observable Mean Field Multi-Agent Reinforcement Learning Based on Graph-Attention ( http://arxiv.org/abs/2304.12653v2 )

ライセンス: Link先を確認
Min Yang, Guanjun Liu, Ziyuan Zhou(参考訳) 従来のマルチエージェント強化学習アルゴリズムは大規模マルチエージェント環境では難しい。 近年,平均場理論の導入により,マルチエージェント強化学習のスケーラビリティが向上している。 本稿では、各エージェントが一定の範囲内で他のエージェントを観察できる部分観測可能マルチエージェント強化学習(MARL)について考察する。 この部分的観測性は、エージェントが周囲のエージェントの行動の質を評価する能力に影響する。 本稿では,より効果的な行動を選択するために,局所観測からより効果的な情報を取り出す手法の開発に着目する。 この分野での以前の研究では、近傍エージェントの平均アクションを更新するために確率分布や重み付け平均場を用いるが、近隣エージェントの特徴情報を十分に考慮せず、局所最適となる。 In this paper, we propose a novel multi-agent reinforcement learning algorithm, Partially Observable Mean Field Multi-Agent Reinforcement Learning based on Graph--Attention (GAMFQ) to remedy this flaw. GAMFQ uses a graph attention module and a mean field module to describe how an agent is influenced by the actions of other agents at each time step. This graph attention module consists of a graph attention encoder and a differentiable attention mechanism, and this mechanism outputs a dynamic graph to represent the effectiveness of neighborhood agents against central agents. The mean--field module approximates the effect of a neighborhood agent on a central agent as the average effect of effective neighborhood agents. 我々は,MAgentsフレームワークにおける3つの課題に対してGAMFQを評価する。 実験により、GAMFQは最先端の部分的に観測可能な平均場強化学習アルゴリズムを含むベースラインを上回っていることが示された。

Traditional multi-agent reinforcement learning algorithms are difficultly applied in a large-scale multi-agent environment. The introduction of mean field theory has enhanced the scalability of multi-agent reinforcement learning in recent years. This paper considers partially observable multi-agent reinforcement learning (MARL), where each agent can only observe other agents within a fixed range. This partial observability affects the agent's ability to assess the quality of the actions of surrounding agents. This paper focuses on developing a method to capture more effective information from local observations in order to select more effective actions. Previous work in this field employs probability distributions or weighted mean field to update the average actions of neighborhood agents, but it does not fully consider the feature information of surrounding neighbors and leads to a local optimum. In this paper, we propose a novel multi-agent reinforcement learning algorithm, Partially Observable Mean Field Multi-Agent Reinforcement Learning based on Graph--Attention (GAMFQ) to remedy this flaw. GAMFQ uses a graph attention module and a mean field module to describe how an agent is influenced by the actions of other agents at each time step. This graph attention module consists of a graph attention encoder and a differentiable attention mechanism, and this mechanism outputs a dynamic graph to represent the effectiveness of neighborhood agents against central agents. The mean--field module approximates the effect of a neighborhood agent on a central agent as the average effect of effective neighborhood agents. We evaluate GAMFQ on three challenging tasks in the MAgents framework. Experiments show that GAMFQ outperforms baselines including the state-of-the-art partially observable mean-field reinforcement learning algorithms.
翻訳日:2024-03-07 03:50:23 公開日:2024-03-05
# 階層型コントラスト学習による不均一グラフニューラルネットワーク

Hierarchical Contrastive Learning Enhanced Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2304.12228v2 )

ライセンス: Link先を確認
Nian Liu, Xiao Wang, Hui Han, Chuan Shi(参考訳) 新興技術としてのヘテロジニアスグラフニューラルネットワーク(hgnn)は、ヘテロジニアス情報ネットワーク(hin)を扱う能力が優れていることを示している。 しかし、ほとんどのhgnnは半教師あり学習法に従っており、ラベルは通常実際のアプリケーションでは使用できないため、現実の広い使用範囲を制限している。 近年,自己指導型学習は最もエキサイティングな学習パラダイムの1つとなり,ラベルがない場合に大きな可能性を示す。 本稿では,自己教師型HGNNの問題点を考察し,HGNNのための新しいコントラスト学習機構であるHeCoを提案する。 正と負のサンプルのみに焦点を当てた従来のコントラスト学習とは異なり、HeCoはクロスビューコントラストメカニズムを採用している。 具体的には、ノード埋め込みを学習するために、HIN(ネットワークスキーマとメタパスビュー)の2つのビューを提案し、局所構造と高次構造の両方を同時にキャプチャする。 そこで,2つの視点から肯定的,否定的な埋め込みを抽出できる,クロスビューコントラスト学習とビューマスク機構を提案する。 これにより、2つのビューが相互に監督し、最終的にハイレベルなノード埋め込みを学ぶことができる。 さらに,hecoの性能をさらに高めるため,より硬い負の試料を高品質で生成する手法を2つ追加した。 不変要素の他に、ビュー固有の要因は、最終埋め込みに含めるべき異なるノード間の多様な構造情報を補完的に提供します。 したがって、各ビューを独立して探索し、HeCo++と呼ばれる修正モデルを提案する必要があります。 特に、heco++は、クロスビューやイントラビューコントラストを含む階層的コントラスト学習を行い、それぞれの構造のマイニングを強化することを目的としている。

Heterogeneous graph neural networks (HGNNs) as an emerging technique have shown superior capacity of dealing with heterogeneous information network (HIN). However, most HGNNs follow a semi-supervised learning manner, which notably limits their wide use in reality since labels are usually scarce in real applications. Recently, contrastive learning, a self-supervised method, becomes one of the most exciting learning paradigms and shows great potential when there are no labels. In this paper, we study the problem of self-supervised HGNNs and propose a novel co-contrastive learning mechanism for HGNNs, named HeCo. Different from traditional contrastive learning which only focuses on contrasting positive and negative samples, HeCo employs cross-view contrastive mechanism. Specifically, two views of a HIN (network schema and meta-path views) are proposed to learn node embeddings, so as to capture both of local and high-order structures simultaneously. Then the cross-view contrastive learning, as well as a view mask mechanism, is proposed, which is able to extract the positive and negative embeddings from two views. This enables the two views to collaboratively supervise each other and finally learn high-level node embeddings. Moreover, to further boost the performance of HeCo, two additional methods are designed to generate harder negative samples with high quality. Besides the invariant factors, view-specific factors complementally provide the diverse structure information between different nodes, which also should be contained into the final embeddings. Therefore, we need to further explore each view independently and propose a modified model, called HeCo++. Specifically, HeCo++ conducts hierarchical contrastive learning, including cross-view and intra-view contrasts, which aims to enhance the mining of respective structures.
翻訳日:2024-03-07 03:49:59 公開日:2024-03-05
# 多重不変集合をもつ非線形系の持ち上げと再構成について

On the lifting and reconstruction of nonlinear systems with multiple invariant sets ( http://arxiv.org/abs/2304.11860v4 )

ライセンス: Link先を確認
Shaowu Pan and Karthik Duraisamy(参考訳) クープマン作用素(koopman operator)は、不変部分空間における可観測性の進化に焦点をあてることで、非線形ダイナミクスに関する線型視点を与える。 可観測性は通常、クープマン固有関数から線形に再構成される。 過去数年間のクープマン作用素の広範な使用にもかかわらず、クープマン作用素を複数の不連続不変量集合(例えば孤立不動点からのアトラクションの盆地)を持つ力学系に適用する可能性について、いくつかの誤解がある。 本稿では,まず,複数の不連続不変量集合を持つ非線形システムの線形再構成に基づくクープマン作用素の機構について,簡単な説明を行う。 次に、データ効率の良い方法でクープマン固有関数を構成するために、そのような不変集合間の離散対称性の使用について議論する。 最後に、koopman作用素の学習に対称性を利用する利点を説明するために、いくつかの数値例が提供されている。

The Koopman operator provides a linear perspective on non-linear dynamics by focusing on the evolution of observables in an invariant subspace. Observables of interest are typically linearly reconstructed from the Koopman eigenfunctions. Despite the broad use of Koopman operators over the past few years, there exist some misconceptions about the applicability of Koopman operators to dynamical systems with more than one disjoint invariant sets (e.g., basins of attractions from isolated fixed points). In this work, we first provide a simple explanation for the mechanism of linear reconstruction-based Koopman operators of nonlinear systems with multiple disjoint invariant sets. Next, we discuss the use of discrete symmetry among such invariant sets to construct Koopman eigenfunctions in a data efficient manner. Finally, several numerical examples are provided to illustrate the benefits of exploiting symmetry for learning the Koopman operator.
翻訳日:2024-03-07 03:49:30 公開日:2024-03-05
# Car-Following Models: 複数分野のレビュー

Car-Following Models: A Multidisciplinary Review ( http://arxiv.org/abs/2304.07143v4 )

ライセンス: Link先を確認
Tianya Terry Zhang, Ph.D., Peter J. Jin, Ph.D., Sean T. McQuade, Ph.D., Alexandre Bayen, Ph.D., Benedetto Piccoli(参考訳) CFアルゴリズムは交通シミュレーションの重要な要素であり、高度運転支援システム(ADAS)を搭載した多くの生産車両に統合されている。 自動車追従行動モデルからの洞察は、車両同士の相互作用から生じる様々なマクロ現象の原因を理解するのに役立つ。 カーフォローモデルには、交通工学、物理学、動的システム制御、認知科学、機械学習、強化学習を含む複数の分野が含まれる。 本稿では,その基礎となる原則と設計論理に基づいて,微視的な交通流と制御モデルの違い,相補性,重なりを強調する広範な調査を行う。 理論に基づくキネマティックモデル、心理物理モデル、適応クルーズ制御モデルから強化学習(RL)や模倣学習(IL)といったデータ駆動アルゴリズムまで、代表的なアルゴリズムをレビューする。 原稿はこれらのモデルの強みと限界を説明し、異なる文脈でそれらの応用を探求している。 本レビューでは,様々な分野にわたる既存研究を総合し,知識ギャップを埋め,車追従モデルの最新動向とその応用を解明し,今後の研究に向けたガイダンスを提供する。

Car-following (CF) algorithms are crucial components of traffic simulations and have been integrated into many production vehicles equipped with Advanced Driving Assistance Systems (ADAS). Insights from the model of car-following behavior help us understand the causes of various macro phenomena that arise from interactions between pairs of vehicles. Car-following models encompass multiple disciplines, including traffic engineering, physics, dynamic system control, cognitive science, machine learning, and reinforcement learning. This paper presents an extensive survey that highlights the differences, complementarities, and overlaps among microscopic traffic flow and control models based on their underlying principles and design logic. It reviews representative algorithms, ranging from theory-based kinematic models, Psycho-Physical Models, and Adaptive cruise control models to data-driven algorithms like Reinforcement Learning (RL) and Imitation Learning (IL). The manuscript discusses the strengths and limitations of these models and explores their applications in different contexts. This review synthesizes existing researches across different domains to fill knowledge gaps and offer guidance for future research by identifying the latest trends in car following models and their applications.
翻訳日:2024-03-07 03:48:54 公開日:2024-03-05
# トポロジ的不確実性下での探索的学習支援コミュニティ検出のための統一フレームワーク

A Unified Framework for Exploratory Learning-Aided Community Detection Under Topological Uncertainty ( http://arxiv.org/abs/2304.04497v3 )

ライセンス: Link先を確認
Yu Hou, Cong Tran, Ming Li, Won-Yong Shin(参考訳) ソーシャルネットワークでは,様々なネットワーク分析課題において,コミュニティ構造の発見が根本的な問題として注目されている。 しかし、プライバシーの懸念やアクセス制限のため、ネットワーク構造はしばしば不確かであり、コストのかかるネットワークトポロジー取得なしに、確立されたコミュニティ検出アプローチは有効ではない。 この課題に対処するために,ネットワークがトポロジ的に未知な場合(あるいは部分的にのみ知られている場合)に,ノードメタデータによる探索学習により重複するコミュニティを検出する統合フレームワークMETA-CODEを提案する。 具体的には、META-CODEは、初期ネットワーク推論ステップに加えて、3つの反復ステップで構成される。 1)新しい再構成損失を訓練したグラフニューラルネットワーク(gnns)に基づくノードレベルのコミュニティ・アフィリエーション埋め込み 2)コミュニティ対応型ノードクエリによるネットワーク探索 3) エッジ接続型Siameseニューラルネットワークモデルを用いたネットワーク推定を行った。 2つの大規模ネットワークを含む5つの実世界のデータセットに関する広範な実験を通じて、以下のことを実証した。 (a)ベンチマークコミュニティ検出法よりもMETA-CODEの方が優れており、既存の競合相手に比べて最大151.27%向上している。 b) META-CODE における各モジュールの影響 (c)経験的評価と理論的知見に基づくMETA-CODEにおけるノードクエリの有効性 (d)推論されたネットワークの収束、及び (e)メタコードの計算効率。

In social networks, the discovery of community structures has received considerable attention as a fundamental problem in various network analysis tasks. However, due to privacy concerns or access restrictions, the network structure is often uncertain, thereby rendering established community detection approaches ineffective without costly network topology acquisition. To tackle this challenge, we present META-CODE, a unified framework for detecting overlapping communities via exploratory learning aided by easy-to-collect node metadata when networks are topologically unknown (or only partially known). Specifically, META-CODE consists of three iterative steps in addition to the initial network inference step: 1) node-level community-affiliation embeddings based on graph neural networks (GNNs) trained by our new reconstruction loss, 2) network exploration via community-affiliation-based node queries, and 3) network inference using an edge connectivity-based Siamese neural network model from the explored network. Through extensive experiments on five real-world datasets including two large networks, we demonstrated: (a) the superiority of META-CODE over benchmark community detection methods, achieving remarkable gains up to 151.27% compared to the best existing competitor, (b) the impact of each module in META-CODE, (c) the effectiveness of node queries in META-CODE based on empirical evaluations and theoretical findings, (d) the convergence of the inferred network, and (e) the computational efficiency of META-CODE.
翻訳日:2024-03-07 03:48:34 公開日:2024-03-05
# 無秩序なSU(N)対称ハイゼンベルク鎖における有限サイズ潜熱状態

Finite-size subthermal regime in disordered SU(N)-symmetric Heisenberg chains ( http://arxiv.org/abs/2304.03099v2 )

ライセンス: Link先を確認
Dimitris Saraidaris, Jheng-Wei Li, Andreas Weichselbaum, Jan von Delft, Dmitry A. Abanin(参考訳) SU(N)対称性は強い障害が存在する場合でも多体局在化(MBL)相とは相容れない。 しかし、最近の研究では、有限サイズのSU(2)系は、固有状態熱化仮説の崩壊と、領域と体積法則の中間である励起固有状態エントロピーによって特徴づけられる非エルゴード的、亜熱的挙動を示すことが示されている。 本研究では, 時間依存密度行列再正規化群 (tDMRG) 法を用いて, SU(2)対称乱れハイゼンベルク模型の先行研究を大規模システムに拡張する。 我々は弱い絡み合った初期状態から長い時間までのクエンチダイナミクスをシミュレートし、強い障害において堅牢な潜熱挙動を見いだした。 システム規模が大きくなるにつれて熱化傾向が高まるが, 準熱水系は中間の時間スケールで維持されるため, 実験的にアクセス可能である。 弱い障害では, 熱化のサインが観察されるが, エントロピーは従来の熱化システムとは対照的に, 緩やかなサブ線形成長を示す。 さらに,SU(3)対称乱れハイゼンベルク模型の力学について検討した。 同様に、強い障害は系を潜熱状態へと誘導するが、熱化相はSU(2)の場合よりも広い。 本研究は,非アベリア連続対称性を持つスピン鎖における亜熱水系のロバスト性を示し,それ以前の研究で示唆された大規模システムサイズと長期スケールでの最終的な熱化と整合性を示した。

SU(N) symmetry is incompatible with the many-body localized (MBL) phase, even when strong disorder is present. However, recent studies have shown that finite-size SU(2) systems exhibit non-ergodic, subthermal behavior, characterized by the breakdown of the eigenstate thermalization hypothesis, and by the excited eigenstates entanglement entropy that is intermediate between area and volume law. In this work, we extend previous studies of the SU(2)-symmetric disordered Heisenberg model to larger systems, using the time-dependent density matrix renormalization group (tDMRG) method. We simulate quench dynamics from weakly entangled initial states up to long times, finding robust subthermal behavior at stronger disorder. Although we find an increased tendency towards thermalization at larger system sizes, the subthermal regime persists at intermediate time scales, nevertheless, and therefore should be accessible experimentally. At weaker disorder, we observe signatures of thermalization, however, entanglement entropy exhibits slow sublinear growth, in contrast to conventional thermalizing systems. Furthermore, we study dynamics of the SU(3)-symmetric disordered Heisenberg model. Similarly, strong disorder drives the system into subthermal regime, albeit thermalizing phase is broader compared to the SU(2) case. Our findings demonstrate the robustness of the subthermal regime in spin chains with non-Abelian continuous symmetry, and are consistent with eventual thermalization at large system sizes and long time scales, suggested by previous works.
翻訳日:2024-03-07 03:48:15 公開日:2024-03-05
# パーソナライズド言語モデルを用いた翻訳における文脈特異性の参照レス解析

Reference-less Analysis of Context Specificity in Translation with Personalised Language Models ( http://arxiv.org/abs/2303.16618v3 )

ライセンス: Link先を確認
Sebastian Vincent, Alice Dowek, Rowanne Sumner, Charlotte Blundell, Emily Preston, Chris Bayliss, Chris Oakley, Carolina Scarton(参考訳) 言語モデル(LM)を外部の文脈に知覚することで、特定の特徴を持つ個人の話し言葉パターンをより効果的に捉えることができる。 本研究は、リッチキャラクタとフィルムアノテーションがいかにして拡張性のあるLMをパーソナライズできるかを調査する。 次に,機械翻訳における文脈特異性評価におけるモデルの利用について検討する。 我々は,非文脈モデルと比較してパープレキシティを最大6.5%低減するために,リッチな文脈情報を利用するlmsを構築し,話者固有のデータを持たないシナリオによく一般化し,メタデータによって表現される人口統計学的特徴の組み合わせに依存する。 研究は2つのコーパスで一致しており,そのうちの1つ(Cornell-rich)も本論文の寄与である。 次に、パーソナライズされたLMを用いて、機械翻訳設定における文脈外コンテキストと翻訳仮説の共起を計測する。 以上の結果から,コンテクストモデルの優れた参照ベーススコアに反映される非コンテクストモデルよりも,コンテクスト機械翻訳モデルにより,コンテクスト翻訳がコンテキスト固有である程度が保存可能であることが示唆された。

Sensitising language models (LMs) to external context helps them to more effectively capture the speaking patterns of individuals with specific characteristics or in particular environments. This work investigates to what extent rich character and film annotations can be leveraged to personalise LMs in a scalable manner. We then explore the use of such models in evaluating context specificity in machine translation. We build LMs which leverage rich contextual information to reduce perplexity by up to 6.5% compared to a non-contextual model, and generalise well to a scenario with no speaker-specific data, relying on combinations of demographic characteristics expressed via metadata. Our findings are consistent across two corpora, one of which (Cornell-rich) is also a contribution of this paper. We then use our personalised LMs to measure the co-occurrence of extra-textual context and translation hypotheses in a machine translation setting. Our results suggest that the degree to which professional translations in our domain are context-specific can be preserved to a better extent by a contextual machine translation model than a non-contextual model, which is also reflected in the contextual model's superior reference-based scores.
翻訳日:2024-03-07 03:46:28 公開日:2024-03-05
# 対戦ゲームのための適応的バックグラウンド音楽:多楽器ボリューム変調アプローチ

Adaptive Background Music for a Fighting Game: A Multi-Instrument Volume Modulation Approach ( http://arxiv.org/abs/2303.15734v3 )

ライセンス: Link先を確認
Ibrahim Khan, Thai Van Nguyen, Chollakorn Nimpattanavong, Ruck Thawonmas(参考訳) 本稿では,適応的なBGMを追加することで,DareFightingICEのバックグラウンド音楽(BGM)を強化する取り組みについて述べる。 適応的なBGMは、"Air on G-String"と呼ばれるクラシック曲を演奏する5つの異なる楽器で構成されている。 bgmは、楽器のボリュームを変化させて適応する。 各楽器はゲームの異なる要素に接続されている。 次に、音声のみを入力として使用する深層強化学習AI(Blind DL AI)を用いて、適応的BGMを評価する実験を行う。 その結果,適応的BGMを使わずにプレイするよりも,適応的BGMを併用したBlind DL AIの性能が向上した。

This paper presents our work to enhance the background music (BGM) in DareFightingICE by adding an adaptive BGM. The adaptive BGM consists of five different instruments playing a classical music piece called "Air on G-String." The BGM adapts by changing the volume of the instruments. Each instrument is connected to a different element of the game. We then run experiments to evaluate the adaptive BGM by using a deep reinforcement learning AI that only uses audio as input (Blind DL AI). The results show that the performance of the Blind DL AI improves while playing with the adaptive BGM as compared to playing without the adaptive BGM.
翻訳日:2024-03-07 03:46:06 公開日:2024-03-05
# Moessbauer Nucleiを用いた導波路QED

Waveguide QED with Moessbauer Nuclei ( http://arxiv.org/abs/2305.11647v3 )

ライセンス: Link先を確認
Petar Andrejic, Leon Merten Lohse, Adriana Palffy(参考訳) 埋め込みm\"ossbauer原子核を持つ薄膜ナノ構造は、格子入射時に硬x線結合を持つx線量子光学応用に成功している。 ここでは理論上,硬X線を前方入射(前結合)に結合する新しい幾何学を論じ,核X線共鳴による導波路QEDのステージを設定する。 本研究では, 1次元導波路における電界-核相互作用のグリーン関数形式に基づく一般モデルを示し, 時空間応答における動的ビートとして観測できる核前方散乱と, 誘導モードのスペクトルで観測される放牧からの共振構造の両方の側面を組み合わせていることを示す。 多重モードの干渉は重要な役割を果たすことが示され、実際的なフォトリソグラフィーのスケールでは、数十ミクロンの波長のビートが発生する。 これにより、特別なサンプルジオメトリを設計し、共鳴応答やマイクロストリップ導波路を探索し、硬X線量子光学のための新しい幾何学的設計のツールボックスを開くことができる。

Thin-film nanostructures with embedded M\"ossbauer nuclei have been successfully used for x-ray quantum optical applications with hard x-rays coupling in grazing incidence. Here we address theoretically a new geometry, in which hard x-rays are coupled in forward incidence (front coupling), setting the stage for waveguide QED with nuclear x-ray resonances. We present in a self-contained manner a general model based on the Green's function formalism of the field-nucleus interaction in one dimensional waveguides, and show that it combines aspects of both nuclear forward scattering, visible as dynamical beating in the spatio-temporal response, and the resonance structure from grazing incidence, visible in the spectrum of guided modes. The interference of multiple modes is shown to play an important role, resulting in beats with wavelengths on the order of tens of microns, on the scale of practical photolithography. This allows for the design of special sample geometries to explore the resonant response or micro-striped waveguides, opening a new toolbox of geometrical design for hard X-ray quantum optics.
翻訳日:2024-03-07 03:40:55 公開日:2024-03-05
# ベクトルモデル波動関数:量子力学角モータの空間記述とウェーブパレット形成

The Vector-Model Wavefunction: spatial description and wavepacket formation of quantum-mechanical angular momenta ( http://arxiv.org/abs/2305.11456v3 )

ライセンス: Link先を確認
T. Peter Rakitzis, Michail E. Koutrakis, George E. Katsoprinakis(参考訳) 量子力学において、空間波動関数は粒子の位置や運動量の分布を記述するが、角運動量$j$ではない。 これとは対照的に、空間波動関数 $j_m (\phi,\theta,\chi)=~e^{i m \phi} \delta (\theta - \theta_m) ~e^{i(j+1/2)\chi}$ は3次元の実体として$|jm>$状態を扱うもので、角運動作用素の漸近固有函数である。 j_m (\phi,\theta,\chi)$は、粒子と軌道角波束の計算学的に単純な記述($j$と$m$のガウス分布から構成される)を与え、$\Delta m \Delta \phi $, $\Delta j \Delta \chi$, $\Delta\phi\Delta\theta$の効果的な波束角不確実性関係と軌道面上の粒子-波束角運動の位置を予測する。 粒子波の回転は、連続的および非破壊的な$j$回転測定によって実験的に観測することができる。 また、Clebsch-Gordan係数、ウィグナーd関数、素粒子のジャイロ磁性比$g=2$、m状態相関行列要素$<j_3m_3|j_{1X} j_{2X}|j_3m_3>$のよく知られた漸近式を決定するために$j_m(\phi,\theta,\chi)$を用いる。 興味深いことに、低い j に対して、$j=1/2$ であるとしても、これらの式は正確(最後の2つ)または優れた近似(最初の2つ)であり、$j_m (\phi,\theta,\chi)$ は量子力学的角運動量の有用な空間的記述を与え、古典的角運動量との滑らかな接続を提供する。

In quantum mechanics, spatial wavefunctions describe distributions of a particle's position or momentum, but not of angular momentum $j$. In contrast, here we show that a spatial wavefunction, $j_m (\phi,\theta,\chi)=~e^{i m \phi} \delta (\theta - \theta_m) ~e^{i(j+1/2)\chi}$, which treats $j$ in the $|jm>$ state as a three-dimensional entity, is an asymptotic eigenfunction of angular-momentum operators; $\phi$, $\theta$, $\chi$ are the Euler angles, and $cos \theta_m=(m/|j|)$ is the Vector-Model polar angle. The $j_m (\phi,\theta,\chi)$ gives a computationally simple description of particle and orbital-angular-momentum wavepackets (constructed from Gaussian distributions in $j$ and $m$) which predicts the effective wavepacket angular uncertainty relations for $\Delta m \Delta \phi $, $\Delta j \Delta \chi$, and $\Delta\phi\Delta\theta$, and the position of the particle-wavepacket angular motion on the orbital plane. The particle-wavepacket rotation can be experimentally probed through continuous and non-destructive $j$-rotation measurements. We also use the $j_m (\phi,\theta,\chi)$ to determine well-known asymptotic expressions for Clebsch-Gordan coefficients, Wigner d-functions, the gyromagnetic ratio of elementary particles, $g=2$, and the m-state-correlation matrix elements, $<j_3 m_3|j_{1X} j_{2X}|j_3 m_3>$. Interestingly, for low j, even down to $j=1/2$, these expressions are either exact (the last two) or excellent approximations (the first two), showing that $j_m (\phi,\theta,\chi)$ gives a useful spatial description of quantum-mechanical angular momentum, and provides a smooth connection with classical angular momentum.
翻訳日:2024-03-07 03:40:06 公開日:2024-03-05
# 対話における会話分析におけるChatGPTの可能性:実証的研究

Uncovering the Potential of ChatGPT for Discourse Analysis in Dialogue: An Empirical Study ( http://arxiv.org/abs/2305.08391v2 )

ライセンス: Link先を確認
Yaxin Fan and Feng Jiang and Peifeng Li and Haizhou Li(参考訳) chatgptのような大規模言語モデルは、多くの下流タスクにおいて顕著な能力を示しているが、対話の談話構造を理解する能力は、理解と推論の高レベルな能力を必要とするため、いまだに探求されていない。 本稿では,対話の基礎となるリニア・階層的談話構造の深い意味理解に着目し,トピックセグメンテーションと談話解析という2つの談話分析タスクにおいて,chatgptの性能を体系的に検証することを目的とする。 ChatGPTにこれらのタスクを完了するよう指示するために、最初はタスク記述、出力形式、構造化された入力からなるプロンプトテンプレートを作成します。 そして,4つの話題セグメンテーションデータセットと2つの談話パーシングデータセットの実験を行った。 実験の結果,ChatGPTは一般ドメイン会話における話題構造を識別する能力を示したが,特定のドメイン会話ではかなり困難であった。 また、ChatGPTはトピック構造よりも複雑な修辞構造をほとんど理解していないことがわかった。 我々のより深い調査は、ChatGPTは人間のアノテーションよりも合理的なトピック構造を提供するが、階層的なレトリック構造を線形に解析するだけであることを示している。 さらに、ChatGPTにおける文脈内学習(例えば、チェーン・オブ・シント)の影響を掘り下げ、様々なプロンプトコンポーネントに関するアブレーション研究を行い、将来の研究のための研究基盤を提供する。 コードは \url{https://github.com/yxfansuda/gptfordda} で入手できる。

Large language models, like ChatGPT, have shown remarkable capability in many downstream tasks, yet their ability to understand discourse structures of dialogues remains less explored, where it requires higher level capabilities of understanding and reasoning. In this paper, we aim to systematically inspect ChatGPT's performance in two discourse analysis tasks: topic segmentation and discourse parsing, focusing on its deep semantic understanding of linear and hierarchical discourse structures underlying dialogue. To instruct ChatGPT to complete these tasks, we initially craft a prompt template consisting of the task description, output format, and structured input. Then, we conduct experiments on four popular topic segmentation datasets and two discourse parsing datasets. The experimental results showcase that ChatGPT demonstrates proficiency in identifying topic structures in general-domain conversations yet struggles considerably in specific-domain conversations. We also found that ChatGPT hardly understands rhetorical structures that are more complex than topic structures. Our deeper investigation indicates that ChatGPT can give more reasonable topic structures than human annotations but only linearly parses the hierarchical rhetorical structures. In addition, we delve into the impact of in-context learning (e.g., chain-of-thought) on ChatGPT and conduct the ablation study on various prompt components, which can provide a research foundation for future work. The code is available at \url{https://github.com/yxfanSuda/GPTforDDA}.
翻訳日:2024-03-07 03:38:36 公開日:2024-03-05
# 逆数生成モデルを用いた微調整言語モデル

Fine-tuning Language Models with Generative Adversarial Reward Modelling ( http://arxiv.org/abs/2305.06176v3 )

ライセンス: Link先を確認
Zhang Ze Yu, Lau Jia Jaw, Zhang Hui, Bryan Kian Hsiang Low(参考訳) 人間のフィードバックによる強化学習(rlhf)は、命令チューニングによって出力を所望の人間の値に合わせることによって、大規模言語モデル(llm)の性能を著しく向上させることが実証されている。 しかしながら、RLHFは人間の評価者の専門性と生産性の制限によって制約されている。 この欠点に対する反応は、慎重に選択された専門家のデモンストレーションで監督された微調整(SFT)に戻ることである。 しかし、この方法が有効であることが証明されている一方で、必ずループ内の人的オーバーヘッドが増加する。 そこで本研究では,rlhfおよびsftへの生成的敵意フィードバック(rlgaf)による強化学習を提案する。これは生成的敵意トレーニングスタイルを用いて,llmがトレーニング例に直接露出することなく有用な人間専門家のデモンストレーションを学習することを可能にするもので,サンプル効率を維持しつつ優れた一般化能力を実現する。 予備的な知見は,RTGAFがLLHFとSFTの競合性能とLLMの出力を一致させるのに有効であり,それぞれ固有の制約に悩まされていないことを示唆し,AIアライメントの自動化に関するさらなる研究の道筋を示唆している。

Reinforcement Learning with Human Feedback (RLHF) has been demonstrated to significantly enhance the performance of large language models (LLMs) by aligning their outputs with desired human values through instruction tuning. However, RLHF is constrained by the expertise and productivity limitations of human evaluators. A response to this downside is to fall back to supervised fine-tuning (SFT) with additional carefully selected expert demonstrations. However, while this method has been proven to be effective, it invariably also leads to increased human-in-the-loop overhead. In this study, we propose another alternative approach: Reinforcement Learning with Generative Adversarial Feedback (RLGAF) to RLHF and SFT, which uses a generative adversarial training style to enable the LLMs to learn useful human expert demonstrations without being directly exposed to the training examples, thus enabling good generalization capabilities while preserving sample efficiency. Our preliminary findings indicate that RLGAF can help align LLMs outputs with competitive performance against RLHF and SFT, while not suffering from their respective inherent restrictions, suggesting promising avenues for further research on automating AI alignment.
翻訳日:2024-03-07 03:37:48 公開日:2024-03-05
# Jaynes-Cummingsモデルにおける量子ゲート忠実度に対するデコヒーレンスと量子速度制限の競合

Competition of decoherence and quantum speed limits for quantum-gate fidelity in the Jaynes-Cummings model ( http://arxiv.org/abs/2305.05019v3 )

ライセンス: Link先を確認
Sagar Silva Pratapsi, Lorenzo Buffoni, Stefano Gherardini(参考訳) 量子コンピュータは、レーザー、マイクロ波、伝送線などの外部の駆動フィールドで動作し、マルチビットレジスタ上で論理演算を実行し、システムを純粋な状態にしておく。 しかし、駆動と論理系は、駆動場の自由度を追跡した後、出力状態が純粋でないような方法で相関する可能性がある。 以前の研究では、結果の誤差はドライブのエネルギーと逆向きにスケールし、量子コンピューティングのエネルギー効率に制限を課すことが指摘されている。 本研究では,Jaynes-Cummingsモデルに着目し,時間とともに増大する絡み合いによる誤差と,量子速度制限による計算の最小時間という,競合する2つの現象の結果として,同じスケーリングを見ることができることを示す。 この証明は、いつでも論理キュービットの密度演算子に関連するスペクトル半径による計算誤差を定量化することによって可能となる。 さらに,選択された忠実度で与えられた目標状態を達成するためには,演算を専用パルスで操作するサブルーチンに分割するよりも,論理量子ビットの単一の駆動進化を行う方が精力的に効率的であることを証明した。

Quantum computers are operated by external driving fields, such as lasers, microwaves or transmission lines, that execute logical operations on multi-qubit registers, leaving the system in a pure state. However, the drive and the logical system might become correlated in such a way that, after tracing out the degrees of freedom of the driving field, the output state will not be pure. Previous works have pointed out that the resulting error scales inversely with the energy of the drive, thus imposing a limit on the energy-efficiency of quantum computing. In this study, focusing on the Jaynes-Cummings model, we show how the same scaling can be seen as a consequence of two competing phenomena: the entanglement-induced error, which grows with time, and a minimal time for computation imposed by quantum speed limits. This evidence is made possible by quantifying, at any time, the computation error via the spectral radius associated to the density operator of the logical qubit. Moreover, we also prove that, in order to attain a given target state at a chosen fidelity, it is energetically more efficient to perform a single driven evolution of the logical qubits rather than to split the computation in sub-routines, each operated by a dedicated pulse.
翻訳日:2024-03-07 03:37:22 公開日:2024-03-05
# 長距離双極子-双極子相互作用によるシステム次元の低減

Reducing system dimensionality with long-range collective dipole-dipole interactions ( http://arxiv.org/abs/2305.04777v3 )

ライセンス: Link先を確認
Ashwin K. Boddeti, Yi Wang, Xitlali G. Juarez, Alexandra Boltasseva, Teri W. Odom, Vladimir Shalaev, Hadiseh Alaeian, and Zubin Jacob(参考訳) 次元は長距離双極子-双極子相互作用(ddis)において重要な役割を果たす。 共振ナノフォトニック構造は、人口減衰ダイナミクスによって明らかになった相互作用するエミッタのアンサンブルの見かけの次元を変化させる。 長い距離のDDIを持つ共鳴ナノフォトニック構造における相互作用する量子エミッタの密接なアンサンブルの測定では、エミッタが3Dで分散されているにもかかわらず、有効次元が$\bar{d} = 2.20 (12)$に減少することを示した。 これは、見かけの次元が$\bar{d} = 3.00$である同次環境とは対照的である。 我々の研究は、相互作用するエミッタのアンサンブルで次元を操作するための有望な道を示す。

Dimensionality plays a crucial role in long-range dipole-dipole interactions (DDIs). We demonstrate that a resonant nanophotonic structure modifies the apparent dimensionality in an interacting ensemble of emitters, as revealed by population decay dynamics. Our measurements on a dense ensemble of interacting quantum emitters in a resonant nanophotonic structure with long-range DDIs reveal an effective dimensionality reduction to $\bar{d} = 2.20 (12)$, despite the emitters being distributed in 3D. This contrasts the homogeneous environment, where the apparent dimension is $\bar{d} = 3.00$. Our work presents a promising avenue to manipulate dimensionality in an ensemble of interacting emitters.
翻訳日:2024-03-07 03:37:00 公開日:2024-03-05
# 人工知能研究のためのゲームベースプラットフォーム

Game-based Platforms for Artificial Intelligence Research ( http://arxiv.org/abs/2304.13269v3 )

ライセンス: Link先を確認
Chengpeng Hu, Yunlong Zhao, Ziqi Wang, Haocheng Du, Jialin Liu(参考訳) ゲームは、現実世界のシナリオに広く存在する特徴に対して、人工知能研究のための完璧なテストベッドでした。 学習と最適化、動的かつ不確定な環境における意思決定、ゲーム理論、計画とスケジューリング、設計と教育は、ゲームと現実世界の問題の間で共有される共通の研究領域である。 多くのオープンソースゲームやゲームベースの環境が人工知能の研究のために実装されている。 シングルまたはマルチプレイヤー、コラボレーティブまたは対戦型ゲームに加えて、近年はクリエイティブデザインのためのプラットフォームの実装にも関心が高まっている。 これらのプラットフォームは、人工知能のアイデアとテクニックを探索し比較するための理想的なベンチマークを提供する。 本稿では,人工知能研究のゲームベースプラットフォームを概観し,特定のタイプの人工知能と,適切な人工知能技術を用いてゲームにおける特定のニーズをテストおよびマッチングするための適切なゲームとのマッチングに関するガイダンスを提供し,それらのプラットフォームの発展によって引き起こされる研究動向を考察し,展望を示す。

Games have been the perfect test-beds for artificial intelligence research for the characteristics that widely exist in real-world scenarios. Learning and optimisation, decision making in dynamic and uncertain environments, game theory, planning and scheduling, design and education are common research areas shared between games and real-world problems. Numerous open-source games or game-based environments have been implemented for studying artificial intelligence. In addition to single- or multi-player, collaborative or adversarial games, there has also been growing interest in implementing platforms for creative design in recent years. Those platforms provide ideal benchmarks for exploring and comparing artificial intelligence ideas and techniques. This paper reviews the game-based platforms for artificial intelligence research, provides guidance on matching particular types of artificial intelligence with suitable games for testing and matching particular needs in games with suitable artificial intelligence techniques, discusses the research trend induced by the evolution of those platforms, and gives an outlook.
翻訳日:2024-03-07 03:36:03 公開日:2024-03-05
# バイアス評価のための大規模言語モデルのソフトプロンプトチューニング

Soft-prompt Tuning for Large Language Models to Evaluate Bias ( http://arxiv.org/abs/2306.04735v2 )

ライセンス: Link先を確認
Jacob-Junqi Tian, David Emerson, Sevil Zanjani Miyandoab, Deval Pandya, Laleh Seyyed-Kalantari, Faiza Khan Khattak(参考訳) 近年,ラベル付きデータも必要とせず,良好な結果が得られるという利点から,大規模言語モデルの普及が盛んに行われている。 しかし、モデルパフォーマンスを改善するために最適なプロンプトを得るためには、プロンプトチューニングが必要である。 本稿では,感情分類タスクにおけるソフト・プロンプト・チューニングを用いて,Open Pre-trained Transformer (OPT)やGalactica言語モデルなどの大規模言語モデル(LLM)のバイアスを定量化する。 これらのモデルは、特定の集団に偏りやすい現実世界のデータに基づいて訓練されているため、これらの根本的な問題を特定することが重要である。 ソフトプロンプトを使ってバイアスを評価することで、手動でデザインされたプロンプトによって引き起こされる人間のバイアス注入を避けるという余分な利点が得られます。 グループフェアネス(バイアス)を用いて、異なる感度属性のモデルバイアスをチェックし、興味深いバイアスパターンを見つけます。 LLMは様々なアプリケーションで業界で使われてきたため、これらのモデルを実際にデプロイする前にバイアスを特定することが不可欠である。 当社はパイプラインをオープンソース化し、業界研究者に彼らのユースケースに私たちの作業を適用するように促しています。

Prompting large language models has gained immense popularity in recent years due to the advantage of producing good results even without the need for labelled data. However, this requires prompt tuning to get optimal prompts that lead to better model performances. In this paper, we explore the use of soft-prompt tuning on sentiment classification task to quantify the biases of large language models (LLMs) such as Open Pre-trained Transformers (OPT) and Galactica language model. Since these models are trained on real-world data that could be prone to bias toward certain groups of populations, it is important to identify these underlying issues. Using soft-prompts to evaluate bias gives us the extra advantage of avoiding the human-bias injection that can be caused by manually designed prompts. We check the model biases on different sensitive attributes using the group fairness (bias) and find interesting bias patterns. Since LLMs have been used in the industry in various applications, it is crucial to identify the biases before deploying these models in practice. We open-source our pipeline and encourage industry researchers to adapt our work to their use cases.
翻訳日:2024-03-07 03:31:58 公開日:2024-03-05
# ニューラルネットワークアンサンブルに対する入力勾配空間粒子推論

Input-gradient space particle inference for neural network ensembles ( http://arxiv.org/abs/2306.02775v3 )

ライセンス: Link先を確認
Trung Trinh, Markus Heinonen, Luigi Acerbi, Samuel Kaski(参考訳) ディープ・アンサンブル(Deep Ensembles, DE)は、単一ニューラルネットワーク上の摂動に対する精度の向上、校正、堅牢性を示す。 パーティクルベース変分推論(ParVI)法は,ネットワーク類似性カーネルに基づく反発項を形式化し,多様性を高める。 しかし, 過パラメータ化により重量空間反発は非効率であり, 直接関数空間反発はdesよりもほとんど改善しないことがわかった。 そこで本研究では,1次入力勾配の空間で反発を行うparviに基づくアンサンブル学習法であるfordeを提案する。 入力勾配は、翻訳までの関数を特徴付け、重みよりも寸法がはるかに小さいため、アンサンブル部材が機能的に異なることが保証される。 直感的には、入力勾配の多様化は各ネットワークに異なる特徴を学習させ、アンサンブルの堅牢性を改善することが期待されている。 画像分類データセットと転写学習タスクの実験により、FORDEは入力摂動による共変量シフトの下での精度と校正において、金標準のDESや他のアンサンブル法を著しく上回っていることが示された。

Deep Ensembles (DEs) demonstrate improved accuracy, calibration and robustness to perturbations over single neural networks partly due to their functional diversity. Particle-based variational inference (ParVI) methods enhance diversity by formalizing a repulsion term based on a network similarity kernel. However, weight-space repulsion is inefficient due to over-parameterization, while direct function-space repulsion has been found to produce little improvement over DEs. To sidestep these difficulties, we propose First-order Repulsive Deep Ensemble (FoRDE), an ensemble learning method based on ParVI, which performs repulsion in the space of first-order input gradients. As input gradients uniquely characterize a function up to translation and are much smaller in dimension than the weights, this method guarantees that ensemble members are functionally different. Intuitively, diversifying the input gradients encourages each network to learn different features, which is expected to improve the robustness of an ensemble. Experiments on image classification datasets and transfer learning tasks show that FoRDE significantly outperforms the gold-standard DEs and other ensemble methods in accuracy and calibration under covariate shift due to input perturbations.
翻訳日:2024-03-07 03:30:48 公開日:2024-03-05
# 量子計算による電力系統の動的解析における微分代数方程式の解法

Solving Differential-Algebraic Equations in Power System Dynamic Analysis with Quantum Computing ( http://arxiv.org/abs/2306.01961v3 )

ライセンス: Link先を確認
Huynh T. T. Tran, Hieu T. Nguyen, Long Thanh Vu, Samuel T. Ojetola(参考訳) 電力系統力学は一般に、ネットワークを構成する多数の成分が与えられた高次元非線形微分代数方程式(DAE)によってモデル化される。 これらのdaesの複雑性は分散エネルギー資源の浸透の増加によって指数関数的に増大するが、電力網と他のエネルギーシステムとの相互接続の増大により計算時間が敏感になる。 本稿では,電力系統の動的解析におけるdaesの解法について,量子コンピューティングアルゴリズムを用いて述べる。 本研究では,電力系統のDAEを指数還元法を用いて正規微分方程式(ODE)に等価に変換し,そのデータを振幅符号化を用いて量子ビットに符号化する。 系の非線形性は、停止テイラー展開を伴うハミルトンのシミュレーションによって捉えられ、状態変数は量子線形方程式解法によって更新される。 この結果から,電力系統のDAEを計算複雑性多項式を用いて精度よく解くことが可能であることが示唆された。 また,複雑な計算概念,すなわちtaylor拡張,daes/odes変換,パワーエンジニアリングアプリケーションのための抽象表現を備えた量子コンピューティングソルバを実装するための,最近の科学機械学習における高度なツールの利用についても説明する。

Power system dynamics are generally modeled by high dimensional nonlinear differential-algebraic equations (DAEs) given a large number of components forming the network. These DAEs' complexity can grow exponentially due to the increasing penetration of distributed energy resources, whereas their computation time becomes sensitive due to the increasing interconnection of the power grid with other energy systems. This paper demonstrates the use of quantum computing algorithms to solve DAEs for power system dynamic analysis. We leverage a symbolic programming framework to equivalently convert the power system's DAEs into ordinary differential equations (ODEs) using index reduction methods and then encode their data into qubits using amplitude encoding. The system nonlinearity is captured by Hamiltonian simulation with truncated Taylor expansion so that state variables can be updated by a quantum linear equation solver. Our results show that quantum computing can solve the power system's DAEs accurately with a computational complexity polynomial in the logarithm of the system dimension. We also illustrate the use of recent advanced tools in scientific machine learning for implementing complex computing concepts, i.e. Taylor expansion, DAEs/ODEs transformation, and quantum computing solver with abstract representation for power engineering applications.
翻訳日:2024-03-07 03:30:27 公開日:2024-03-05
# ai生成テキストのマルチスケール正ラベル検出

Multiscale Positive-Unlabeled Detection of AI-Generated Texts ( http://arxiv.org/abs/2305.18149v4 )

ライセンス: Link先を確認
Yuchuan Tian, Hanting Chen, Xutao Wang, Zheyuan Bai, Qinghua Zhang, Ruifeng Li, Chao Xu, Yunhe Wang(参考訳) 最近の大型言語モデル(llm)のリリース、例えばchatgptは、人間に似たテキストを生成することに驚いているが、それらはテキストの真正性に影響を与える可能性がある。 以前の研究では、単純なml分類器、事前訓練されたモデルベースのゼロショットメソッド、微調整された言語分類モデルを含む、これらのai生成テキストを検出する方法を提案した。 しかし、メインストリーム検出器は常にSMS、ツイート、レビューなどの短いテキストで失敗する。 本稿では,長文を犠牲にすることなく短文検出の難しさを解決するために,MPU(Multiscale Positive-Unlabeled)トレーニングフレームワークを提案する。 まず, 短機械テキストの人間組立性を認め, これらの短機械テキストを部分的に「未ラベル化」とみなして, 部分的正の非ラベル化(PU)問題としてAIテキスト検出を言い換える。 次に,このpuコンテキストにおいて,多変量コーパスの正の事前推定に抽象的再帰モデルを用いる,長さに敏感な多変量pu損失を提案する。 さらに,トレーニングコーパスを強化するためのテキストマルチスケーリングモジュールも導入する。 実験の結果,MPU法は長いAI生成テキストの検出性能を向上し,言語モデル検出の短文検出を大幅に改善することがわかった。 MPUで訓練された言語モデルは、様々な短文および長文検出ベンチマークで既存の検出器より優れている。 コードはhttps://github.com/mindspore-lab/mindone/tree/examples/detect_chatgptとhttps://github.com/YuchuanTian/AIGC_text_detectorで入手できる。

Recent releases of Large Language Models (LLMs), e.g. ChatGPT, are astonishing at generating human-like texts, but they may impact the authenticity of texts. Previous works proposed methods to detect these AI-generated texts, including simple ML classifiers, pretrained-model-based zero-shot methods, and finetuned language classification models. However, mainstream detectors always fail on short texts, like SMSes, Tweets, and reviews. In this paper, a Multiscale Positive-Unlabeled (MPU) training framework is proposed to address the difficulty of short-text detection without sacrificing long-texts. Firstly, we acknowledge the human-resemblance property of short machine texts, and rephrase AI text detection as a partial Positive-Unlabeled (PU) problem by regarding these short machine texts as partially ``unlabeled". Then in this PU context, we propose the length-sensitive Multiscale PU Loss, where a recurrent model in abstraction is used to estimate positive priors of scale-variant corpora. Additionally, we introduce a Text Multiscaling module to enrich training corpora. Experiments show that our MPU method augments detection performance on long AI-generated texts, and significantly improves short-text detection of language model detectors. Language Models trained with MPU could outcompete existing detectors on various short-text and long-text detection benchmarks. The codes are available at https://github.com/mindspore-lab/mindone/tree/master/examples/detect_chatgpt and https://github.com/YuchuanTian/AIGC_text_detector.
翻訳日:2024-03-07 03:28:39 公開日:2024-03-05
# Quafu-RL: クラウド量子コンピュータによる量子強化学習

Quafu-RL: The Cloud Quantum Computers based Quantum Reinforcement Learning ( http://arxiv.org/abs/2305.17966v2 )

ライセンス: Link先を確認
BAQIS Quafu Group(参考訳) 量子コンピューティングの急速な発展に伴い、ハイブリッド量子古典機械学習は多くの分野において有望な計算上の優位性を示している。 量子強化学習は、最も難しい課題の1つであり、最近、古典的手法よりも正式に証明可能な理論上の利点で標準ベンチマーク環境を解く能力を示した。 しかし、量子プロセッサの進歩や、ノイズの多い中間スケール量子(NISQ)時代の量子コンピューティングクラウドの出現にもかかわらず、パラメータ化量子回路(PQC)に基づくアルゴリズムは、NISQデバイス上ではほとんど行われない。 本研究では,baqis quafu 量子コンピューティングクラウド上で,最大 136 量子ビットの様々な実デバイス上で,ベンチマーク量子強化問題を実行するための第一歩を踏み出す。 実験の結果,Reinforcement Learning (RL) エージェントはトレーニングと推論の段階でわずかに緩和された目標を達成することができることがわかった。 さらに、多目的進化アルゴリズムを用いて量子モデルにおけるハードウェア効率の良いPQCアーキテクチャを慎重に設計し、Quafuに適応可能な学習アルゴリズムを開発する。 量子クラウドプラットフォーム上で量子コンピュータを活用することによって、機械学習タスクを実現するための指針として、Quafu-RLが期待できる。

With the rapid advent of quantum computing, hybrid quantum-classical machine learning has shown promising computational advantages in many key fields. Quantum reinforcement learning, as one of the most challenging tasks, has recently demonstrated its ability to solve standard benchmark environments with formally provable theoretical advantages over classical counterparts. However, despite the progress of quantum processors and the emergence of quantum computing clouds in the noisy intermediate-scale quantum (NISQ) era, algorithms based on parameterized quantum circuits (PQCs) are rarely conducted on NISQ devices. In this work, we take the first step towards executing benchmark quantum reinforcement problems on various real devices equipped with at most 136 qubits on BAQIS Quafu quantum computing cloud. The experimental results demonstrate that the Reinforcement Learning (RL) agents are capable of achieving goals that are slightly relaxed both during the training and inference stages. Moreover, we meticulously design hardware-efficient PQC architectures in the quantum model using a multi-objective evolutionary algorithm and develop a learning algorithm that is adaptable to Quafu. We hope that the Quafu-RL be a guiding example to show how to realize machine learning task by taking advantage of quantum computers on the quantum cloud platform.
翻訳日:2024-03-07 03:28:09 公開日:2024-03-05
# 時代遅れの要素を識別する時間的過失

Mitigating Temporal Misalignment by Discarding Outdated Facts ( http://arxiv.org/abs/2305.14824v3 )

ライセンス: Link先を確認
Michael J.Q. Zhang and Eunsol Choi(参考訳) 大規模な言語モデルは、事前トレーニング中に見られる膨大な量の知識を保持できるが、そのような知識は時代遅れになりがちであり、更新するのは簡単ではない。 さらに、これらのモデルは、過去に収集されたデータについてのみ訓練されたにもかかわらず、現在に関する質問に答えるタスクとして、時間的ミスアライメントの下でしばしば使用される。 時間的ミスアライメントの効果を軽減するために,与えられた事実がいつまで真実であるかを予測するタスクとして,実時間予測を提案する。 実験では、どの事実が急速に変化しやすいかを特定することで、モデルが時代遅れの情報を引用することを避け、どの予測が最新の知識ソースを求める必要があるかを判断するのに役立つことを実証する。 また,時間的ミスアライメントの下では,知識集約型タスクのキャリブレーションのモデル化により,不安定な事実を排除し,知識集約型タスクのキャリブレーションが向上することを示す。 私たちのデータとコードはhttps://github.com/mikejqzhang/mitigating_misalignmentで公開されています。

While large language models are able to retain vast amounts of world knowledge seen during pretraining, such knowledge is prone to going out of date and is nontrivial to update. Furthermore, these models are often used under temporal misalignment, tasked with answering questions about the present, despite having only been trained on data collected in the past. To mitigate the effects of temporal misalignment, we propose fact duration prediction: the task of predicting how long a given fact will remain true. In our experiments, we demonstrate that identifying which facts are prone to rapid change can help models avoid reciting outdated information and determine which predictions require seeking out up-to-date knowledge sources. We also show how modeling fact duration improves calibration for knowledge-intensive tasks, such as open-retrieval question answering, under temporal misalignment, by discarding volatile facts. Our data and code are released publicly at https://github.com/mikejqzhang/mitigating_misalignment.
翻訳日:2024-03-07 03:27:25 公開日:2024-03-05
# Sophia: 言語モデル事前トレーニングのためのスケーラブルな確率的2次最適化

Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training ( http://arxiv.org/abs/2305.14342v4 )

ライセンス: Link先を確認
Hong Liu, Zhiyuan Li, David Hall, Percy Liang, Tengyu Ma(参考訳) 言語モデルの事前学習の膨大なコストを考えると、最適化アルゴリズムの非自明な改善は、トレーニングの時間とコストの物質的削減につながるだろう。 アダムとその変種は長年最先端であり、より洗練された第2次最適化(ヘシアンベース)はしばしばステップ毎のオーバーヘッドを負う。 本稿では,対角ヘッシアンの軽量推定を前提条件として用いた,スケーラブルな2次最適化手法であるソフィアを提案する。 この更新は、推定されたヘッセンの移動平均で分割された勾配の移動平均であり、次いで要素ワイドクリッピングである。 クリップは最悪のケースの更新サイズを制御し、非凸性の悪影響と軌道に沿ったヘッセンの急速な変化を和らげる。 sophiaは一握りのイテレーションで対角ヘッシアンを見積もるだけで、ステップ毎の平均時間とメモリオーバーヘッドは無視できる。 125mから1.5bまでのサイズのgptモデルを用いた言語モデリングでは、sophiaはステップ数、計算総数、壁時計時間においてadamと比較して2倍のスピードアップを達成し、50%のステップ数、計算総数、壁時計時間の短縮で同じパープレキシティを達成する。 理論的には、ソフィアはより単純化された設定で、異なるパラメータ次元のヘテロジニアス曲率に適応し、損失の条件数に依存しない実行時境界を持つことを示す。

Given the massive cost of language model pre-training, a non-trivial improvement of the optimization algorithm would lead to a material reduction on the time and cost of training. Adam and its variants have been state-of-the-art for years, and more sophisticated second-order (Hessian-based) optimizers often incur too much per-step overhead. In this paper, we propose Sophia, Second-order Clipped Stochastic Optimization, a simple scalable second-order optimizer that uses a light-weight estimate of the diagonal Hessian as the pre-conditioner. The update is the moving average of the gradients divided by the moving average of the estimated Hessian, followed by element-wise clipping. The clipping controls the worst-case update size and tames the negative impact of non-convexity and rapid change of Hessian along the trajectory. Sophia only estimates the diagonal Hessian every handful of iterations, which has negligible average per-step time and memory overhead. On language modeling with GPT models of sizes ranging from 125M to 1.5B, Sophia achieves a 2x speed-up compared to Adam in the number of steps, total compute, and wall-clock time, achieving the same perplexity with 50% fewer steps, less total compute, and reduced wall-clock time. Theoretically, we show that Sophia, in a much simplified setting, adapts to the heterogeneous curvatures in different parameter dimensions, and thus has a run-time bound that does not depend on the condition number of the loss.
翻訳日:2024-03-07 03:27:06 公開日:2024-03-05
# 非IIDフェデレーション学習におけるMomentumのメリット

Momentum Benefits Non-IID Federated Learning Simply and Provably ( http://arxiv.org/abs/2306.16504v3 )

ライセンス: Link先を確認
Ziheng Cheng, Xinmeng Huang, Pengfei Wu, Kun Yuan(参考訳) フェデレーション学習は、大規模機械学習の強力なパラダイムだが、信頼性の低いネットワーク接続、遅い通信、クライアント間のデータの不均一性など、大きな課題に直面している。 FedAvgとSCAFFOLDは、これらの課題に対処する2つの顕著なアルゴリズムである。 特に、FedAvgは中央サーバと通信する前に複数のローカル更新を使用するが、SCAFFOLDはローカル更新で‘client drift’を補うために各クライアントに制御変数を保持する。 これら2つのアルゴリズムの収束性を高めるために様々な方法が提案されているが、アルゴリズム構造に非現実的な調整を行うか、境界データの不均一性の仮定に依存する。 本稿では,FedAvgとSCAFFOLDの性能向上のための運動量の利用について検討する。 すべてのクライアントがトレーニングプロセスに参加すると、momentumを組み込むことで、一定の局所学習率を使用しても、境界データの不均一性の仮定に頼らずにfedavgを収束させることができることを実証する。 FedAvgの既存の分析では、局所的な学習率の低下にもかかわらず、境界データの均一性を要求されている。 部分的な顧客参加において,momentumは,追加の仮定を課さずに足場が確実に早く収束できることを示す。 さらに,FedAvg と SCAFFOLD の新たな分散還元拡張を開発するために運動量を用いて,最先端の収束率を示す。 実験結果はすべての理論的結果を支持する。

Federated learning is a powerful paradigm for large-scale machine learning, but it faces significant challenges due to unreliable network connections, slow communication, and substantial data heterogeneity across clients. FedAvg and SCAFFOLD are two prominent algorithms to address these challenges. In particular, FedAvg employs multiple local updates before communicating with a central server, while SCAFFOLD maintains a control variable on each client to compensate for ``client drift'' in its local updates. Various methods have been proposed to enhance the convergence of these two algorithms, but they either make impractical adjustments to the algorithmic structure or rely on the assumption of bounded data heterogeneity. This paper explores the utilization of momentum to enhance the performance of FedAvg and SCAFFOLD. When all clients participate in the training process, we demonstrate that incorporating momentum allows FedAvg to converge without relying on the assumption of bounded data heterogeneity even using a constant local learning rate. This is novel and fairly surprising as existing analyses for FedAvg require bounded data heterogeneity even with diminishing local learning rates. In partial client participation, we show that momentum enables SCAFFOLD to converge provably faster without imposing any additional assumptions. Furthermore, we use momentum to develop new variance-reduced extensions of FedAvg and SCAFFOLD, which exhibit state-of-the-art convergence rates. Our experimental results support all theoretical findings.
翻訳日:2024-03-07 03:21:08 公開日:2024-03-05
# MR画像における腰椎椎間板分割 : データセットと公開ベンチマーク

Lumbar spine segmentation in MR images: a dataset and a public benchmark ( http://arxiv.org/abs/2306.12217v3 )

ライセンス: Link先を確認
Jasper W. van der Graaf, Miranda L. van Hooff, Constantinus F. M. Buckens, Matthieu Rutten, Job L. C. van Susante, Robert Jan Kroeze, Marinus de Kleuver, Bram van Ginneken, Nikolas Lessmann(参考訳) 本稿では, 椎間板, 椎間板, 脊柱管を基準とした多中心性腰椎磁気共鳴画像(mri)データセットを提案する。 このデータセットには、腰痛の歴史を持つ218人の患者から447個の矢状T1とT2MRIシリーズが含まれ、4つの異なる病院から収集された。 反復的なデータアノテーションアプローチは、データセットの小さな部分にセグメンテーションアルゴリズムをトレーニングすることで、残りの画像の半自動セグメンテーションを可能にする。 アルゴリズムは初期セグメンテーションを提供し、その後レビューされ、手動で修正され、トレーニングデータに追加された。 本稿では,本アルゴリズムと nnU-Net の基準性能値について比較検討する。 97の系列を持つ39の研究で性能値が計算され、これはさらに、異なるセグメンテーションアルゴリズムの公正な比較を可能にする連続セグメンテーションチャレンジのセットアップに使用された。 本研究は腰椎椎間板分割の分野におけるより広範なコラボレーションを促進し,腰椎mriの診断価値を向上させる。

This paper presents a large publicly available multi-center lumbar spine magnetic resonance imaging (MRI) dataset with reference segmentations of vertebrae, intervertebral discs (IVDs), and spinal canal. The dataset includes 447 sagittal T1 and T2 MRI series from 218 patients with a history of low back pain and was collected from four different hospitals. An iterative data annotation approach was used by training a segmentation algorithm on a small part of the dataset, enabling semi-automatic segmentation of the remaining images. The algorithm provided an initial segmentation, which was subsequently reviewed, manually corrected, and added to the training data. We provide reference performance values for this baseline algorithm and nnU-Net, which performed comparably. Performance values were computed on a sequestered set of 39 studies with 97 series, which were additionally used to set up a continuous segmentation challenge that allows for a fair comparison of different segmentation algorithms. This study may encourage wider collaboration in the field of spine segmentation and improve the diagnostic value of lumbar spine MRI.
翻訳日:2024-03-07 03:19:46 公開日:2024-03-05
# Pseudorandom Unitaryは実でもスパースでもノイズロバストでもない

Pseudorandom unitaries are neither real nor sparse nor noise-robust ( http://arxiv.org/abs/2306.11677v3 )

ライセンス: Link先を確認
Tobias Haug, Kishor Bharti, Dax Enshan Koh(参考訳) Pseudorandom quantum state (PRSs) と pseudorandom unitary (PRUs) は、効率的な量子アルゴリズムに完全にランダムに現れながら効率的に構成できるという双対の性質を持っている。 本研究では,擬似ランダム性の基本的境界を確立する。 PRSとPRUは、エラーが発生する確率が無視可能である場合にのみ存在し、ノイズの多い中間スケールおよび早期フォールトトレラント量子コンピュータで生成を除外する。 さらに, PRUは虚偽性を必要とするが, PRSには制約がないことを示す。 これは、量子ランダム性が一般に量子力学の複素値形式を必要とするのに対して、ランダム量子状態は実数で十分であることを意味する。 さらに, PRS と PRU のコヒーレンスに関する下位境界を導出し, スパース PRU と PRS の存在を除外する。 また,PRS,PRU,疑似乱数スクランブラ(PRSS)の概念は,資源要求の観点から異なることを示す。 本稿では,資源マスクレードの少ない状態を高資源状態とする擬似資源の概念を紹介する。 疑似コヒーレンス,疑似純度,疑似虚像を定め,その仮性能力の観点から3種類の疑似リソースを同定する。 また,本研究では,実量子状態と虚量子状態の区別における指数関数的複雑性を,ユニタリイマジナリティの効率的な測定可能性とは対照的に,特性テストの効率性に関する厳密な境界を確立する。 最後に、コンプレックスから量子計算の実モデルへの変換は、効率的である逆過程とは対照的に非効率であることを示す。 この結果は, 特性試験の基本的な限界を確立し, 量子擬似ランダム性に関する貴重な知見を提供する。

Pseudorandom quantum states (PRSs) and pseudorandom unitaries (PRUs) possess the dual nature of being efficiently constructible while appearing completely random to any efficient quantum algorithm. In this study, we establish fundamental bounds on pseudorandomness. We show that PRSs and PRUs exist only when the probability that an error occurs is negligible, ruling out their generation on noisy intermediate-scale and early fault-tolerant quantum computers. Further, we show that PRUs need imaginarity while PRS do not have this restriction. This implies that quantum randomness requires in general a complex-valued formalism of quantum mechanics, while for random quantum states real numbers suffice. Additionally, we derive lower bounds on the coherence of PRSs and PRUs, ruling out the existence of sparse PRUs and PRSs. We also show that the notions of PRS, PRUs and pseudorandom scramblers (PRSSs) are distinct in terms of resource requirements. We introduce the concept of pseudoresources, where states which contain a low amount of a given resource masquerade as high-resource states. We define pseudocoherence, pseudopurity and pseudoimaginarity, and identify three distinct types of pseudoresources in terms of their masquerading capabilities. Our work also establishes rigorous bounds on the efficiency of property testing, demonstrating the exponential complexity in distinguishing real quantum states from imaginary ones, in contrast to the efficient measurability of unitary imaginarity. Lastly, we show that the transformation from a complex to a real model of quantum computation is inefficient, in contrast to the reverse process, which is efficient. Our results establish fundamental limits on property testing and provide valuable insights into quantum pseudorandomness.
翻訳日:2024-03-07 03:19:01 公開日:2024-03-05
# 線形アレイ光音響画像における学習による音速推定と収差補正

Learning-based sound speed estimation and aberration correction in linear-array photoacoustic imaging ( http://arxiv.org/abs/2306.11034v2 )

ライセンス: Link先を確認
Mengjie Shi, Tom Vercauteren, and Wenfeng Xia(参考訳) 光音響(PA)画像再構成は、伝搬媒質内の音速(SoS)の仕様を必要とする音響インバージョンを含む。 異種軟組織内におけるsosの空間分布に関する情報の欠如により、超音波画像(us画像)と同様のpa画像再構成において、均質なsos分布(例えば1540m/s)が仮定される。 SoSの変動を補うのに失敗すると収差アーチファクトが発生し、画質が低下する。 この問題に対処するために様々な方法が提案されているが、通常は複雑なハードウェアおよび/または時間を要するアルゴリズムを伴い、臨床翻訳を妨げている。 本研究では,米国臨床プローブを用いた二重モードpa/usイメージングシステムにおいて,sos推定とその後の収差補正のための深層学習フレームワークを提案する。 取得したPAとUSの画像は本質的に共登録されているため、ディープニューラルネットワークを用いたUSチャネルデータから推定したSoS分布は、正確なPA画像再構成のために組み込まれた。 このフレームワークは、デジタルファントムに基づく最初の事前学習段階を構成し、物理ファントムデータと関連するSoSマップを用いて転送学習によりさらに強化された。 この枠組みは, デジタルファントムと物理ファントムのSoS推定において, 10.2 m/sおよび15.2 m/sの根平均二乗誤差を達成し, 従来の0.69のアプローチと比較してPA再構成において最大0.86の類似度指数測定を行った。 PA画像の信号-雑音比の最大1.2倍の改善は、人間のボランティアによる研究でさらに実証された。 提案手法は,PA画像再構成を向上するための臨床・臨床応用に有用である可能性が示唆された。

Photoacoustic (PA) image reconstruction involves acoustic inversion that necessitates the specification of the speed of sound (SoS) within the medium of propagation. Due to the lack of information on the spatial distribution of the SoS within heterogeneous soft tissue, a homogeneous SoS distribution (such as 1540 m/s) is typically assumed in PA image reconstruction, similar to that of ultrasound (US) imaging. Failure to compensate the SoS variations leads to aberration artefacts, deteriorating the image quality. Various methods have been proposed to address this issue, but they usually involve complex hardware and/or time-consuming algorithms, hindering clinical translation. In this work, we introduce a deep learning framework for SoS estimation and subsequent aberration correction in a dual-modal PA/US imaging system exploiting a clinical US probe. As the acquired PA and US images were inherently co-registered, the estimated SoS distribution from US channel data using a deep neural network was incorporated for accurate PA image reconstruction. The framework comprised an initial pre-training stage based on digital phantoms, which was further enhanced through transfer learning using physical phantom data and associated SoS maps obtained from measurements. This framework achieved a root mean square error of 10.2 m/s and 15.2 m/s for SoS estimation on digital and physical phantoms, respectively and structural similarity index measures of up to 0.86 for PA reconstructions as compared to the conventional approach of 0.69. A maximum of 1.2 times improvement in signal-to-noise ratio of PA images was further demonstrated with a human volunteer study. Our results show that the proposed framework could be valuable in various clinical and preclinical applications to enhance PA image reconstruction.
翻訳日:2024-03-07 03:18:30 公開日:2024-03-05
# マスク変圧器を用いた拡散モデルの高速学習

Fast Training of Diffusion Models with Masked Transformers ( http://arxiv.org/abs/2306.09305v2 )

ライセンス: Link先を確認
Hongkai Zheng, Weili Nie, Arash Vahdat, Anima Anandkumar(参考訳) マスク変換器を用いた大規模拡散モデルの学習手法を提案する。 マスクトランスフォーマーは表現学習のために広く研究されてきたが、その生成学習への応用は視覚領域ではあまり研究されていない。 我々の研究は、拡散モデルのトレーニングコストを大幅に削減するためにマスク付きトレーニングを利用する最初のものである。 具体的には、トレーニング中に拡散した入力画像のパッチの割合(50%など)をランダムにマスクする。 マスク付きトレーニングでは,非マスキングパッチのみで動作するトランスフォーマーエンコーダと,フルパッチ上の軽量トランスフォーマーデコーダからなる非対称エンコーダデコーダアーキテクチャを導入する。 フルパッチの長距離理解を促進するために,マスク付きパッチを再構成する補助タスクを,マスクなしパッチのスコアを学習する復調スコアマッチング目的に加える。 ImageNet-256x256 と ImageNet-512x512 の実験は、我々のアプローチが、現在の Diffusion Transformer (DiT) モデルよりも競争力があり、より優れた生成性能を実現していることを示している。 そこで本手法は, 生成性能を犠牲にすることなく, 大規模変圧器を用いた拡散モデルを効率的に訓練する方法を示す。

We propose an efficient approach to train large diffusion models with masked transformers. While masked transformers have been extensively explored for representation learning, their application to generative learning is less explored in the vision domain. Our work is the first to exploit masked training to reduce the training cost of diffusion models significantly. Specifically, we randomly mask out a high proportion (e.g., 50%) of patches in diffused input images during training. For masked training, we introduce an asymmetric encoder-decoder architecture consisting of a transformer encoder that operates only on unmasked patches and a lightweight transformer decoder on full patches. To promote a long-range understanding of full patches, we add an auxiliary task of reconstructing masked patches to the denoising score matching objective that learns the score of unmasked patches. Experiments on ImageNet-256x256 and ImageNet-512x512 show that our approach achieves competitive and even better generative performance than the state-of-the-art Diffusion Transformer (DiT) model, using only around 30% of its original training time. Thus, our method shows a promising way of efficiently training large transformer-based diffusion models without sacrificing the generative performance.
翻訳日:2024-03-07 03:17:59 公開日:2024-03-05
# 実世界の知覚入力による動き予測に向けて:エンドツーエンドアプローチは競争的であるか?

Towards Motion Forecasting with Real-World Perception Inputs: Are End-to-End Approaches Competitive? ( http://arxiv.org/abs/2306.09281v4 )

ライセンス: Link先を確認
Yihong Xu, Lo\"ick Chambon, \'Eloi Zablocki, Micka\"el Chen, Alexandre Alahi, Matthieu Cord, Patrick P\'erez(参考訳) 動き予測は、自動運転車が周囲のエージェントの将来の軌道を予測できるようにするのに不可欠である。 そのためには、マッピング、検出、追跡、そして問題予測を、マルチステップパイプラインで解決する必要がある。 この複雑なシステムでは, 完全地図, 検出, 追跡を前提に, キュレーションデータを用いて従来の予測手法の進歩がみられた。 しかし、このパラダイムは上流モジュールからのエラーを無視する。 一方、アーキテクチャの認識と予測を緊密に統合したエンドツーエンドパラダイムは、この問題を解決することを約束している。 しかし,両手法間の評価プロトコルの互換性は認められず,比較は不可能であった。 実際、従来の予測手法は通常、実世界のパイプライン(上流検出、追跡、マッピングモジュールなど)でトレーニングやテストが行われていない。 本研究は,実世界の展開に予測モデルを近づけることを目的としている。 まず,実世界の知覚入力を用いた予測手法の統一評価パイプラインを提案し,従来の手法とエンドツーエンドの手法を初めて比較できるようにした。 第2に、我々の詳細な研究は、キュレートされたデータから知覚ベースのデータへ移行する際の大きなパフォーマンスギャップを明らかにする。 特に、このギャップ(1)は、精度の差だけでなく、知覚モジュールが提供する不完全な入力の性質にも起因しており、(2)単に知覚出力を微調整するだけで、自明に減少しないことを示す。 広範にわたる実験に基づき,実世界におけるより堅牢な動き予測に向けた改善とガイダンスを必要とする重要な領域を推奨する。 標準および実用条件下でのベンチマークモデルの評価ライブラリが提供される。

Motion forecasting is crucial in enabling autonomous vehicles to anticipate the future trajectories of surrounding agents. To do so, it requires solving mapping, detection, tracking, and then forecasting problems, in a multi-step pipeline. In this complex system, advances in conventional forecasting methods have been made using curated data, i.e., with the assumption of perfect maps, detection, and tracking. This paradigm, however, ignores any errors from upstream modules. Meanwhile, an emerging end-to-end paradigm, that tightly integrates the perception and forecasting architectures into joint training, promises to solve this issue. However, the evaluation protocols between the two methods were so far incompatible and their comparison was not possible. In fact, conventional forecasting methods are usually not trained nor tested in real-world pipelines (e.g., with upstream detection, tracking, and mapping modules). In this work, we aim to bring forecasting models closer to the real-world deployment. First, we propose a unified evaluation pipeline for forecasting methods with real-world perception inputs, allowing us to compare conventional and end-to-end methods for the first time. Second, our in-depth study uncovers a substantial performance gap when transitioning from curated to perception-based data. In particular, we show that this gap (1) stems not only from differences in precision but also from the nature of imperfect inputs provided by perception modules, and that (2) is not trivially reduced by simply finetuning on perception outputs. Based on extensive experiments, we provide recommendations for critical areas that require improvement and guidance towards more robust motion forecasting in the real world. The evaluation library for benchmarking models under standardized and practical conditions is provided: \url{https://github.com/valeoai/MFEval}.
翻訳日:2024-03-07 03:17:28 公開日:2024-03-05
# 文脈確率ブロックモデルにおける最適推論

Optimal Inference in Contextual Stochastic Block Models ( http://arxiv.org/abs/2306.07948v2 )

ライセンス: Link先を確認
O. Duranthon and L. Zdeborov\'a(参考訳) グラフと高次元ノード情報の両方がノードラベルと相関する属性グラフ上での教師なしコミュニティ検出のために,文脈確率ブロックモデル(cSBM)を提案した。 グラフ上の機械学習の文脈において、cSBMは半教師付きノード分類のためのグラフニューラルネットワーク(GNN)の性能を評価するための合成データセットとして広く使われている。 我々は、確率論的ベイズ最適化による推論問題の定式化を検討し、半教師付きcSBMに対する信念プロパゲーションに基づくアルゴリズムを導出する。 本稿では,本アルゴリズムが到達した精度と,本論文で提案したGNNアーキテクチャの性能との間には,かなりのギャップが存在することを示す。 このことは、より高性能なGNNアーキテクチャの開発において、cSBMが最適アルゴリズムの性能との比較とともに、我々の実装を通して容易にアクセス可能であることを示唆している。

The contextual stochastic block model (cSBM) was proposed for unsupervised community detection on attributed graphs where both the graph and the high-dimensional node information correlate with node labels. In the context of machine learning on graphs, the cSBM has been widely used as a synthetic dataset for evaluating the performance of graph-neural networks (GNNs) for semi-supervised node classification. We consider a probabilistic Bayes-optimal formulation of the inference problem and we derive a belief-propagation-based algorithm for the semi-supervised cSBM; we conjecture it is optimal in the considered setting and we provide its implementation. We show that there can be a considerable gap between the accuracy reached by this algorithm and the performance of the GNN architectures proposed in the literature. This suggests that the cSBM, along with the comparison to the performance of the optimal algorithm, readily accessible via our implementation, can be instrumental in the development of more performant GNN architectures.
翻訳日:2024-03-07 03:16:45 公開日:2024-03-05
# フェルミオン状態の複素性

Complexity of fermionic states ( http://arxiv.org/abs/2306.07584v2 )

ライセンス: Link先を確認
Tuomas I. Vanhala and Teemu Ojanen(参考訳) フェルミオン状態の量はどれくらいか? この根本的な問題に対処するために、粒子保存多フェルミオン状態の複雑さを、すべてのFock表現上で最小化されたFock空間確率分布のエントロピーとして定義する。 この複雑さは、状態を表すのに必要な最小の計算資源と物理的リソースを特徴付け、測定によって得られた情報を格納する。 あるいは、複雑度をフォック空間の絡み合い測度と見なすことができ、状態の固有多粒子絡み合いを記述することができる。 単一粒子相関行列固有値を用いて複雑性の普遍的下界を確立し、有限サイズの複雑性スケーリング仮説を定式化する。 接地状態は平均励起状態よりも指数関数的に複雑ではなく、Fock空間の一般状態よりも指数関数的に複雑ではない。 我々の研究は、フェルミオン状態における情報のエンコード量に根本的な意味を持っている。

How much information a fermionic state contains? To address this fundamental question, we define the complexity of a particle-conserving many-fermion state as the entropy of its Fock space probability distribution, minimized over all Fock representations. The complexity characterizes the minimum computational and physical resources required to represent the state and store the information obtained from it by measurements. Alternatively, the complexity can be regarded a Fock space entanglement measure describing the intrinsic many-particle entanglement in the state. We establish universal lower bound for the complexity in terms of the single-particle correlation matrix eigenvalues and formulate a finite-size complexity scaling hypothesis. Remarkably, numerical studies on interacting lattice models suggest a general model-independent complexity hierarchy: ground states are exponentially less complex than average excited states which, in turn, are exponentially less complex than generic states in the Fock space. Our work has fundamental implications on how much information is encoded in fermionic states.
翻訳日:2024-03-07 03:16:30 公開日:2024-03-05
# Dzyaloshinskii-Moriya相互作用を用いたRydberg原子を用いた量子スピンモデルのシミュレーションと漸近量子多体散乱状態の構築

Proposal for simulating quantum spin models with Dzyaloshinskii-Moriya interaction using Rydberg atoms, and construction of asymptotic quantum many-body scar states ( http://arxiv.org/abs/2306.05591v3 )

ライセンス: Link先を確認
Masaya Kunimi, Takafumi Tomita, Hosho Katsura, and Yusuke Kato(参考訳) 本稿では,Rydberg atom 量子シミュレータにおける Dzyaloshinskii-Moriya 相互作用を用いたチューナブル量子スピンモデルの実現法を提案する。 我々のスキームは2光子ラマン転移とスピン回転フレームへの変換を用いる。 提案手法で実験的に実現可能なDMIとゼーマンエネルギーのみを含むモデルの性質について検討する。 本モデルでは,非エルゴード力学を示す量子多体傷の完全かつ漸近的な特徴を示す。

We propose a method to realize tunable quantum spin models with Dzyaloshinskii-Moriya interaction (DMI) in Rydberg atom quantum simulators. Our scheme uses a two-photon Raman transition and transformation to the spin-rotating frame. We investigate the properties of the model including only the DMI and Zeeman energy, which can be experimentally realized in our scheme. We show that the model accommodates exact and asymptotic quantum many-body scars exhibiting nonergodic dynamics.
翻訳日:2024-03-07 03:15:50 公開日:2024-03-05
# 時間最適多ビットゲート:複雑度、効率的ヒューリスティックおよびゲート時間境界

Time-optimal multi-qubit gates: Complexity, efficient heuristic and gate-time bounds ( http://arxiv.org/abs/2307.11160v2 )

ライセンス: Link先を確認
Pascal Ba{\ss}ler, Markus Heinrich, Martin Kliesch(参考訳) マルチキュービット・エンタングリング相互作用は、いくつかの量子コンピューティングプラットフォームで自然に発生し、従来の2キュービットゲートよりもアドバンテージを約束する。 特に、固定されたマルチキュービットIsing型相互作用と単一キュービットXゲートはグローバルZZゲート(GZZゲート)の合成に利用できる。 本研究では,時間的最適な量子ゲートの合成がNPハードであることを最初に示す。 第二に、特別な時間最適マルチキュービットゲートの明示的な構成を提供する。 これらは一定のゲートタイムを持ち、線形に多数のxゲート層で実装できる。 第3に,高速マルチキュービットゲート合成のための多項式ランタイムを用いたヒューリスティックアルゴリズムを開発した。 第4に、最適GZZゲート時間に基づいて下界と上界を導出する。 GZZゲートの明示的な構成と数値的研究に基づいて、任意のGZZゲートが n 量子ビットの時間 O(n) で実行可能であると推測する。 我々のヒューリスティック合成アルゴリズムは、gzzゲートタイムに類似のスケーリングをもたらし、この意味で最適である。 我々は、高速なマルチキュービットゲートの効率的な合成により、量子アルゴリズムのより高速かつ、よりエラーの少ない実行が可能になることを期待する。

Multi-qubit entangling interactions arise naturally in several quantum computing platforms and promise advantages over traditional two-qubit gates. In particular, a fixed multi-qubit Ising-type interaction together with single-qubit X-gates can be used to synthesize global ZZ-gates (GZZ gates). In this work, we first show that the synthesis of such quantum gates that are time-optimal is NP-hard. Second, we provide explicit constructions of special time-optimal multi-qubit gates. They have constant gate times and can be implemented with linearly many X-gate layers. Third, we develop a heuristic algorithm with polynomial runtime for synthesizing fast multi-qubit gates. Fourth, we derive lower and upper bounds on the optimal GZZ gate-time. Based on explicit constructions of GZZ gates and numerical studies, we conjecture that any GZZ gate can be executed in a time O(n) for n qubits. Our heuristic synthesis algorithm leads to GZZ gate-times with a similar scaling, which is optimal in this sense. We expect that our efficient synthesis of fast multi-qubit gates allows for faster and, hence, also more error-robust execution of quantum algorithms.
翻訳日:2024-03-07 03:10:26 公開日:2024-03-05
# 量子電気機械による自律クロックの駆動

Powering an autonomous clock with quantum electromechanics ( http://arxiv.org/abs/2307.09122v2 )

ライセンス: Link先を確認
Oisin Culhane, Michael J. Kewming, Alessandro Silva, John Goold, Mark T. Mitchison(参考訳) 理論的には、電子トンネルにより駆動される自己振動を行うナノエレクトロメカニカルシステムからなる自律時計を解析する。 周期的な機械的運動は振り子の揺動と同様に時計の働きとして振る舞うが、電流の誘起振動はダニを読み出すのに使うことができる。 スローメカニカルモーションの準断熱限界におけるシステムのダイナミクスをシミュレートし、現在の自己相関関数からクロックダニの統計特性を推定する。 個々のダニの分布は、以前の文献から予想される精度、解像度、散逸のトレードオフを示す。 個々の音節の分布を超えて、Allan分散を計算することにより、異なる積分時間でクロック精度がどのように変化するかを検討する。 時間と印加電圧の関数としてアラン分散の非単調な特徴を観測し,ダニ間の時間相関の存在から説明できる。 これらの相関は、相関が持続する時間スケールよりもタイムキーピングに正確な利点をもたらすことが示されている。 その結果,ナノスケール時計が生成するダニ系列の非自明な特徴を示し,ナノ電気力学系を用いた時計熱力学の実験的研究の道筋を拓いた。

We theoretically analyse an autonomous clock comprising a nanoelectromechanical system, which undergoes self-oscillations driven by electron tunnelling. The periodic mechanical motion behaves as the clockwork, similar to the swinging of a pendulum, while induced oscillations in the electrical current can be used to read out the ticks. We simulate the dynamics of the system in the quasi-adiabatic limit of slow mechanical motion, allowing us to infer statistical properties of the clock's ticks from the current auto-correlation function. The distribution of individual ticks exhibits a tradeoff between accuracy, resolution, and dissipation, as expected from previous literature. Going beyond the distribution of individual ticks, we investigate how clock accuracy varies over different integration times by computing the Allan variance. We observe non-monotonic features in the Allan variance as a function of time and applied voltage, which can be explained by the presence of temporal correlations between ticks. These correlations are shown to yield a precision advantage for timekeeping over the timescales that the correlations persist. Our results illustrate the non-trivial features of the tick series produced by nanoscale clocks, and pave the way for experimental investigation of clock thermodynamics using nanoelectromechanical systems.
翻訳日:2024-03-07 03:09:37 公開日:2024-03-05
# DRAGON:視覚言語接地による補助ナビゲーションのための対話型ロボット

DRAGON: A Dialogue-Based Robot for Assistive Navigation with Visual Language Grounding ( http://arxiv.org/abs/2307.06924v3 )

ライセンス: Link先を確認
Shuijing Liu, Aamir Hasan, Kaiwen Hong, Runxuan Wang, Peixin Chang, Zachary Mizrachi, Justin Lin, D. Livingston McPherson, Wendy A. Rogers, and Katherine Driggs-Campbell(参考訳) 視覚障害者(PwVI)は周囲の空間の理解とナビゲーションが困難である。 現在のwayfinding技術は、ナビゲーションのみにフォーカスするか、環境に関する限られたコミュニケーションを提供する。 近年の視覚的接地とセマンティックナビゲーションの進歩に触発されて,対話システムを利用した誘導ロボットDRAGONと,環境と自然言語を関連付ける能力を提案する。 ユーザからのコマンドを理解することで、DRAGONはユーザを地図上の望ましいランドマークに誘導し、環境を記述し、視覚的な観察から質問に答えることができる。 対話の効果的な利用により、ロボットはユーザーの自由形式の記述を環境のランドマークに接地し、音声言語を介してユーザの意味情報を与えることができる。 我々は,日常的な室内環境において,目隠しされた参加者とユーザスタディを行う。 本研究は,DRAGONがユーザと円滑にコミュニケーションし,優れたガイド体験を提供し,ユーザと周囲環境を直感的に接続できることを実証するものである。 ビデオとコードはhttps://sites.google.com/view/dragon-wayfinding/homeで入手できる。

Persons with visual impairments (PwVI) have difficulties understanding and navigating spaces around them. Current wayfinding technologies either focus solely on navigation or provide limited communication about the environment. Motivated by recent advances in visual-language grounding and semantic navigation, we propose DRAGON, a guiding robot powered by a dialogue system and the ability to associate the environment with natural language. By understanding the commands from the user, DRAGON is able to guide the user to the desired landmarks on the map, describe the environment, and answer questions from visual observations. Through effective utilization of dialogue, the robot can ground the user's free-form descriptions to landmarks in the environment, and give the user semantic information through spoken language. We conduct a user study with blindfolded participants in an everyday indoor environment. Our results demonstrate that DRAGON is able to communicate with the user smoothly, provide a good guiding experience, and connect users with their surrounding environment in an intuitive manner. Videos and code are available at https://sites.google.com/view/dragon-wayfinding/home.
翻訳日:2024-03-07 03:07:46 公開日:2024-03-05
# トーリック符号における測定誘起相転移

Measurement-induced phase transitions in the toric code ( http://arxiv.org/abs/2307.02292v2 )

ライセンス: Link先を確認
Amir-Reza Negari, Subhayan Sahu, Timothy H. Hsieh(参考訳) トーリック符号のサブシステム上でランダムな単一キュービット計測を行うことにより,物質相がいかに異なるかを示す。 パルトン構成を用いて、そのような測定はランダムなガウステンソルネットワークにマッピングし、特に、ランダムなパウリ測定は、スイカ相関器が測定誘起絡みを正確に決定する古典ループモデルにマップする。 量子ビットの1次元境界を除く全ての測定は、ユニタリゲートと射影計測を含む1+1次元のハイブリッド回路を実現する。 異なるパウリ測定の確率の変動は、古典的モデルにおける短ループ位相と長ループ位相に対応する、異なる順序の位相間の非測定境界における遷移を駆動することを発見した。 さらに,バルク測定結果に基づく単一サイト境界ユニタリを用いることで,線形観測によって実験的に診断できる混合状態秩序相と遷移を生成する。 このことは、パルトン構造が物質相の生成と操作のための測定ベースの量子コンピューティングの自然な枠組みを提供することを示す。

We show how distinct phases of matter can be generated by performing random single-qubit measurements on a subsystem of toric code. Using a parton construction, such measurements map to random Gaussian tensor networks, and in particular, random Pauli measurements map to a classical loop model in which watermelon correlators precisely determine measurement-induced entanglement. Measuring all but a 1d boundary of qubits realizes hybrid circuits involving unitary gates and projective measurements in 1+1 dimensions. We find that varying the probabilities of different Pauli measurements can drive transitions in the un-measured boundary between phases with different orders and entanglement scaling, corresponding to short and long loop phases in the classical model. Furthermore, by utilizing single-site boundary unitaries conditioned on the bulk measurement outcomes, we generate mixed state ordered phases and transitions that can be experimentally diagnosed via linear observables. This demonstrates how parton constructions provide a natural framework for measurement-based quantum computing setups to produce and manipulate phases of matter.
翻訳日:2024-03-07 03:06:40 公開日:2024-03-05
# ウィリアムソンの同時シンプレクティック対角化について

On Williamson's Simultaneous Symplectic Diagonalization ( http://arxiv.org/abs/2308.00601v3 )

ライセンス: Link先を確認
Rudra Kamat(参考訳) ウィリアムソンの正規形式はシンプレクティックベクトル空間上の対称正定値線型自己同型でよく知られている。 本稿では、シンプレクティックベクトル空間上の2つの対称正定値線型自己同型が共通のシンプレクティック線型自己同型の下で同時に正規形式を許容できる場合を考える。

Williamson's normal form is well known for symmetric positive-definite linear automorphisms on a symplectic vector space. In this paper, we consider when two symmetric positive-definite linear automorphisms on a symplectic vector space can simultaneously admit a normal form under a common symplectic linear automorphism.
翻訳日:2024-03-07 02:59:43 公開日:2024-03-05
# 命題充足可能性問題を解決するために設計されたホップフィールドネットワークにおける連想メモリの利用について

On the use of associative memory in Hopfield networks designed to solve propositional satisfiability problems ( http://arxiv.org/abs/2307.16807v3 )

ライセンス: Link先を確認
Natalya Weber, Werner Koch, Ozan Erdem, Tom Froese(参考訳) ホップフィールドネットワークは生物学的に妥当なメカニズムを提供するため、多くの種類の計算問題を解決する上で魅力的な選択である。 自己最適化(SO)モデルは、生物学的に確立されたヘビアン学習規則と任意の初期状態への繰り返しのネットワークリセットを組み合わせることでホップフィールドネットワークに追加し、ネットワークに符号化された望ましい目標状態に対する自身の振る舞いを最適化する。 このプロセスをよりよく理解するために、まず、Lears問題とマップカラー化問題の2つの例を用いて、SAT形式の具体的組合せ問題をSOモデルで解くことを実証する。 さらに、ある条件下では、重要な情報が永久に失われる可能性を示し、学習したネットワークは、解決すべき課題に実際に不適当であるように見える最適解を生成する。 SOモデルの望ましくない副作用のように見えるものは、難解な問題を解決するためのプロセスに関する洞察を与えることができる。

Hopfield networks are an attractive choice for solving many types of computational problems because they provide a biologically plausible mechanism. The Self-Optimization (SO) model adds to the Hopfield network by using a biologically founded Hebbian learning rule, in combination with repeated network resets to arbitrary initial states, for optimizing its own behavior towards some desirable goal state encoded in the network. In order to better understand that process, we demonstrate first that the SO model can solve concrete combinatorial problems in SAT form, using two examples of the Liars problem and the map coloring problem. In addition, we show how under some conditions critical information might get lost forever with the learned network producing seemingly optimal solutions that are in fact inappropriate for the problem it was tasked to solve. What appears to be an undesirable side-effect of the SO model, can provide insight into its process for solving intractable problems.
翻訳日:2024-03-07 02:59:38 公開日:2024-03-05
# 事前知識制約を神経odeに統合する自己適応的ペナルティ法

A Self-Adaptive Penalty Method for Integrating Prior Knowledge Constraints into Neural ODEs ( http://arxiv.org/abs/2307.14940v3 )

ライセンス: Link先を確認
C. Coelho, M. Fernanda P. Costa, L. L. Ferr\'as(参考訳) 自然システムの連続力学は神経常微分方程式(ニューラルオデム)を用いて効果的にモデル化されている。 しかし、正確で有意義な予測には、モデルがこれらのシステムを支配する基礎となる規則や法則に従うことが不可欠である。 本研究では,制約付き自然系のモデリングを可能にするニューラルネットワークの自己適応型ペナルティアルゴリズムを提案する。 提案する自己適応ペナルティ関数はペナルティパラメータを動的に調整することができる。 事前知識の明示的な導入は、Neural ODEベースのモデルの解釈可能性を高めるのに役立つ。 提案手法は, 人口増加, 化学反応の進化, 減衰調和振動子運動という3つの自然系を事前の知識制約でモデル化することによって検証する。 数値実験と他のペナルティニューラルODEアプローチと<emph{vanilla}ニューラルODEとの比較により,制約された自然系のモデル化におけるニューラルODEに対する自己適応ペナルティアルゴリズムの有効性が示された。 さらに、自己適応型ペナルティアプローチは、信頼性と有意義な予測を備えたより正確で堅牢なモデルを提供する。

The continuous dynamics of natural systems has been effectively modelled using Neural Ordinary Differential Equations (Neural ODEs). However, for accurate and meaningful predictions, it is crucial that the models follow the underlying rules or laws that govern these systems. In this work, we propose a self-adaptive penalty algorithm for Neural ODEs to enable modelling of constrained natural systems. The proposed self-adaptive penalty function can dynamically adjust the penalty parameters. The explicit introduction of prior knowledge helps to increase the interpretability of Neural ODE -based models. We validate the proposed approach by modelling three natural systems with prior knowledge constraints: population growth, chemical reaction evolution, and damped harmonic oscillator motion. The numerical experiments and a comparison with other penalty Neural ODE approaches and \emph{vanilla} Neural ODE, demonstrate the effectiveness of the proposed self-adaptive penalty algorithm for Neural ODEs in modelling constrained natural systems. Moreover, the self-adaptive penalty approach provides more accurate and robust models with reliable and meaningful predictions.
翻訳日:2024-03-07 02:59:21 公開日:2024-03-05
# METAVerse: オフロードナビゲーションのためのメタラーニングトレーサビリティコストマップ

METAVerse: Meta-Learning Traversability Cost Map for Off-Road Navigation ( http://arxiv.org/abs/2307.13991v2 )

ライセンス: Link先を確認
Junwon Seo, Taekyung Kim, Seongyong Ahn, Kiho Kwak(参考訳) オフロード環境での自律航行には、正確な地形通過可能性の推定が必要である。 しかし,非構造環境におけるトラバーサビリティ推定は,車両とテランの相互作用に影響を与える要因が多様であることから,不確実性が高い。 したがって、様々な環境において正確にトラバーサビリティを予測できる一般化モデルを得ることは困難である。 本稿では,多様な環境における地形変動を正確にかつ確実に予測するグローバルモデル学習用メタラーニングフレームワークMETAVerseを提案する。 トラバーサビリティ予測ネットワークをトレーニングし、疎いLiDAR点雲から高密度で連続的なコストマップを生成し、車と地形の相互作用フィードバックを自己管理的に活用する。 メタラーニングは、複数の環境から収集したデータを用いてグローバルモデルを訓練し、推定の不確実性を効果的に最小化する。 デプロイ中に、最近のインタラクション体験を利用して、ネットワークをローカル環境に迅速に適応させるために、オンライン適応を行う。 総合的な評価を行うため,様々な地形から運転データを収集し,不確実性を最小化するグローバルモデルが得られることを示す。 さらに,モデル予測コントローラとモデルを統合することにより,不確かさの低減により,未構造地や未知地での安全で安定した航行が可能となることを示す。

Autonomous navigation in off-road conditions requires an accurate estimation of terrain traversability. However, traversability estimation in unstructured environments is subject to high uncertainty due to the variability of numerous factors that influence vehicle-terrain interaction. Consequently, it is challenging to obtain a generalizable model that can accurately predict traversability in a variety of environments. This paper presents METAVerse, a meta-learning framework for learning a global model that accurately and reliably predicts terrain traversability across diverse environments. We train the traversability prediction network to generate a dense and continuous-valued cost map from a sparse LiDAR point cloud, leveraging vehicle-terrain interaction feedback in a self-supervised manner. Meta-learning is utilized to train a global model with driving data collected from multiple environments, effectively minimizing estimation uncertainty. During deployment, online adaptation is performed to rapidly adapt the network to the local environment by exploiting recent interaction experiences. To conduct a comprehensive evaluation, we collect driving data from various terrains and demonstrate that our method can obtain a global model that minimizes uncertainty. Moreover, by integrating our model with a model predictive controller, we demonstrate that the reduced uncertainty results in safe and stable navigation in unstructured and unknown terrains.
翻訳日:2024-03-07 02:58:37 公開日:2024-03-05
# 湯川相互作用におけるインフレーションドシッター時空の1ループにおけるデコヒーレンスとエントロピー生成

Decoherence and entropy generation at one loop in the inflationary de Sitter spacetime for Yukawa interaction ( http://arxiv.org/abs/2307.13443v2 )

ライセンス: Link先を確認
Sourav Bhattacharya, Nitin Joshi(参考訳) デコヒーレンス機構は、初期の宇宙における原始宇宙論的摂動の量子から古典的な遷移と結びついていると考えられている。 本稿では,ミンコフスキー時空の湯川相互作用によって結合されたフェルミオンおよびスカラー場の量子場理論におけるデコヒーレンスに関するこれまでの分析を,デシッター背景のインフレーションに拡張する。 我々は,スカラー場をシステムとして,フェルミオンを環境として扱い,両フィールドを無質量化する。 このような開量子系に適した非平衡実効場理論の定式化を利用する。 観測者はスカラー場のガウス的2点コリレータのみを測定し、最も単純な現実的なシナリオであると仮定する。 デコヒーレンスの尺度として後期に生成されたフォン・ノイマンのエントロピーを計算するために、閉時間経路シュヴィンガー・ケルディッシュ形式論において、2点コリエーターによって満たされる運動方程式である1つのループ再正規化カダノフ・ベイム方程式を構築する。 これらの方程式は自己エネルギー補正に寄与する。 これを用いて、次は位相空間領域に関連するスカラーのループ補正統計プロパゲータを構築し、フォン・ノイマンエントロピーを計算する。 また、関連するパラメータに関してフォン・ノイマンのエントロピーの変動を計算する。 この結果と,システムと環境の両方がスカラーであるシナリオとの質的な類似性に注目した。 この結果は, 影響汎関数法を大規模湯川理論に用いた初期の結果と定性的に類似している。

The decoherence mechanism is believed to be possibly connected to the quantum to classical transition of the primordial cosmological perturbations in the early universe. In this paper, we extend our previous analysis on decoherence in a fermion and scalar quantum field theory coupled via the Yukawa interaction in the Minkowski spacetime, to the inflationary de Sitter background. We treat the scalar field as the system and the fermions as the environment, and both the fields are taken to be massless. We utilise a non-equilibrium effective field theory formalism, suitable for open quantum systems such as this. We assume that an observer measures only the Gaussian 2-point correlator for the scalar field, as the simplest realistic scenario. In order to compute the von Neumann entropy generated at late times as a measure of the decoherence, we construct the one loop renormalised Kadanoff-Baym equation, which is the equation of motion satisfied by the 2-point correlators in the closed time path Schwinger-Keldysh formalism. These equations account to the self energy corrections. Using this, we next construct the one loop corrected statistical propagator for the scalar, which is related to its phase space area, to compute the von Neumann entropy. We also compute the variation of the von Neumann entropy with respect to relevant parameters. We note the qualitative similarity between our findings and the scenario where both the system and the environment are scalars. Our result is also qualitatively similar to an earlier one found by using the influence functional technique for a massive Yukawa theory.
翻訳日:2024-03-07 02:57:20 公開日:2024-03-05
# 正規化による回帰における非パラメトリック線形特徴学習

Nonparametric Linear Feature Learning in Regression Through Regularisation ( http://arxiv.org/abs/2307.12754v3 )

ライセンス: Link先を確認
Bertille Follain, Francis Bach(参考訳) 表現学習は、特に非パラメトリック手法がしばしば苦労する高次元データの文脈において、自動特徴選択において重要な役割を果たす。 本研究では,関連する情報がデータの下次元線形部分空間,すなわちマルチインデックスモデルに存在する教師付き学習シナリオに注目した。 この部分空間が知られている場合、予測、計算、解釈を大幅に強化する。 この課題に対処するために,予測関数と線形部分空間を同時に推定する非パラメトリック予測を用いた線形特徴学習手法を提案する。 提案手法は経験的リスク最小化を採用し,機能デリバティブにペナルティを付与し,汎用性を確保する。 エルミート多項式の直交性と回転不変性を利用して、RegFeaLという推定器を導入する。 代替最小化を利用することで、データを反復的に回転させ、先行方向との整合を改善し、実際の設定で適切な次元を正確に推定する。 提案手法は,予測関数の定性的な推定を明示的な速度で行う。 また,各種実験におけるRegFeaLの性能を示す実験結果も提供する。

Representation learning plays a crucial role in automated feature selection, particularly in the context of high-dimensional data, where non-parametric methods often struggle. In this study, we focus on supervised learning scenarios where the pertinent information resides within a lower-dimensional linear subspace of the data, namely the multi-index model. If this subspace were known, it would greatly enhance prediction, computation, and interpretation. To address this challenge, we propose a novel method for linear feature learning with non-parametric prediction, which simultaneously estimates the prediction function and the linear subspace. Our approach employs empirical risk minimisation, augmented with a penalty on function derivatives, ensuring versatility. Leveraging the orthogonality and rotation invariance properties of Hermite polynomials, we introduce our estimator, named RegFeaL. By utilising alternative minimisation, we iteratively rotate the data to improve alignment with leading directions and accurately estimate the relevant dimension in practical settings. We establish that our method yields a consistent estimator of the prediction function with explicit rates. Additionally, we provide empirical results demonstrating the performance of RegFeaL in various experiments.
翻訳日:2024-03-07 02:56:51 公開日:2024-03-05
# 無線通信ネットワークにおける高効率連帯学習のための安全深層強化学習手法

A Safe Deep Reinforcement Learning Approach for Energy Efficient Federated Learning in Wireless Communication Networks ( http://arxiv.org/abs/2308.10664v3 )

ライセンス: Link先を確認
Nikolaos Koursioumpas, Lina Magoula, Nikolaos Petropouleas, Alexandros-Ioannis Thanopoulos, Theodora Panagea, Nancy Alonistioti, M. A. Gutierrez-Estevez, Ramin Khalili(参考訳) 新たな人工知能(AI)時代に向けて - 無線ネットワークを有効にし、AIの環境への影響に関する懸念が業界と学界の両方で高まっている。 Federated Learning(FL)は、分散AI技術を保存する重要なプライバシとして登場した。 現在FLで行われている努力にもかかわらず、その環境影響は未解決の問題である。 FLプロセスの全体エネルギー消費の最小化を目標とし,モデルの性能を確保しつつ,必要な総エネルギーを最小化するために,関連機器の計算・通信資源のオーケストレーションを提案する。 そこで本研究では,訓練中にペナルティ関数を導入し,環境制約に違反する戦略をペナルティ化し,安全なRLプロセスに寄与するソフトアクタ批判的深層強化学習(DRL)ソリューションを提案する。 エネルギー消費と通信のオーバーヘッドを更に低減することを目的として,計算コスト効率のよいfl環境とともにデバイスレベルの同期手法を提案する。 評価の結果,提案手法の有効性と頑健性は,ネットワーク環境やflアーキテクチャの異なる4つの最先端のベースラインソリューションと比較し,最大94%の消費電力削減を達成した。

Progressing towards a new era of Artificial Intelligence (AI) - enabled wireless networks, concerns regarding the environmental impact of AI have been raised both in industry and academia. Federated Learning (FL) has emerged as a key privacy preserving decentralized AI technique. Despite efforts currently being made in FL, its environmental impact is still an open problem. Targeting the minimization of the overall energy consumption of an FL process, we propose the orchestration of computational and communication resources of the involved devices to minimize the total energy required, while guaranteeing a certain performance of the model. To this end, we propose a Soft Actor Critic Deep Reinforcement Learning (DRL) solution, where a penalty function is introduced during training, penalizing the strategies that violate the constraints of the environment, and contributing towards a safe RL process. A device level synchronization method, along with a computationally cost effective FL environment are proposed, with the goal of further reducing the energy consumption and communication overhead. Evaluation results show the effectiveness and robustness of the proposed scheme compared to four state-of-the-art baseline solutions on different network environments and FL architectures, achieving a decrease of up to 94% in the total energy consumption.
翻訳日:2024-03-07 02:49:00 公開日:2024-03-05
# SE(3) 等変拡大結合流

SE(3) Equivariant Augmented Coupling Flows ( http://arxiv.org/abs/2308.10364v6 )

ライセンス: Link先を確認
Laurence I. Midgley and Vincent Stimper and Javier Antor\'an and Emile Mathieu and Bernhard Sch\"olkopf and Jos\'e Miguel Hern\'andez-Lobato(参考訳) 結合正規化フローは高速サンプリングと密度評価を可能にし、物理システムの確率的モデリングに最適なツールとなる。 しかし、標準結合構造は、se(3)と物理系の置換不変性を持つ原子の直交座標上で作用する内転流を妨げている。 本研究は,SE(3)と置換等式を付加次元に沿って座標分割して保持する結合流を提案する。 各層において、フローは原子の位置を学習されたSE(3)不変基底にマッピングし、そこではモノトニックな有理クアドラティックスプラインのような標準フロー変換を適用し、元の基底に戻る。 重要な点として,我々のフローは高速サンプリングと密度評価を保ち,重要サンプリングによる目標分布に対する予測の偏りのない推定を行うのに有用である。 DW4, LJ13, QM9-ポジションデータセットでトレーニングすると, 流れは等変連続正規化フローや拡散モデルと競合し, サンプリングは桁違いに高速になる。 さらに、我々の知る限りでは、我々は、その原子のカルテシアン位置のみをモデル化することによって、初めて、アラニンジペプチドのボルツマン分布を学習する。 最後に,DW4粒子系とLJ13粒子系のボルツマン分布から,エネルギー関数のみを用いて,我々の流れをおよそサンプルとしてトレーニングできることを実証した。

Coupling normalizing flows allow for fast sampling and density evaluation, making them the tool of choice for probabilistic modeling of physical systems. However, the standard coupling architecture precludes endowing flows that operate on the Cartesian coordinates of atoms with the SE(3) and permutation invariances of physical systems. This work proposes a coupling flow that preserves SE(3) and permutation equivariance by performing coordinate splits along additional augmented dimensions. At each layer, the flow maps atoms' positions into learned SE(3) invariant bases, where we apply standard flow transformations, such as monotonic rational-quadratic splines, before returning to the original basis. Crucially, our flow preserves fast sampling and density evaluation, and may be used to produce unbiased estimates of expectations with respect to the target distribution via importance sampling. When trained on the DW4, LJ13, and QM9-positional datasets, our flow is competitive with equivariant continuous normalizing flows and diffusion models, while allowing sampling more than an order of magnitude faster. Moreover, to the best of our knowledge, we are the first to learn the full Boltzmann distribution of alanine dipeptide by only modeling the Cartesian positions of its atoms. Lastly, we demonstrate that our flow can be trained to approximately sample from the Boltzmann distribution of the DW4 and LJ13 particle systems using only their energy functions.
翻訳日:2024-03-07 02:48:38 公開日:2024-03-05
# モニタリングされていない場所での時系列予測:水資源における機械学習技術の調査

Time Series Predictions in Unmonitored Sites: A Survey of Machine Learning Techniques in Water Resources ( http://arxiv.org/abs/2308.09766v2 )

ライセンス: Link先を確認
Jared D. Willard, Charuleka Varadharajan, Xiaowei Jia, Vipin Kumar(参考訳) 非監視地における動的環境変数の予測は、水資源科学にとって長年の課題である。 世界の淡水資源の大半は、管理に必要な重要な環境変数のモニタリングが不十分である。 しかし、過去数十年間の気候・土地利用の変化とそれに伴う水資源への影響により、河川流動や水質などの水文学変数の広範な予測の必要性がますます急激化している。 現代の機械学習手法は、大規模で多様なデータセットから情報を抽出する能力によって、水文時系列予測のためのプロセスベースで経験的なモデルよりも、ますます優れている。 本稿では,機械学習の流水,水質,その他の水資源予測への応用を概観し,深層学習モデルに流域特性を取り入れ,転移学習を行い,プロセス知識を機械学習モデルに組み込む新たな手法を用いて,機械学習の利用を改善する機会について論じる。 この分析は、米国の日々の時間スケールでの予測のために多くのサイト上に構築されたディープラーニング学習フレームワークに、これまでのほとんどの取り組みが焦点を当てていることを示唆している。 我々は、動的入力とサイト特性、機械的理解と空間的文脈、現代の機械学習フレームワークにおける説明可能なAI技術を含む、監視されていないサイトの時系列予測に関するいくつかのオープンな質問を識別する。

Prediction of dynamic environmental variables in unmonitored sites remains a long-standing challenge for water resources science. The majority of the world's freshwater resources have inadequate monitoring of critical environmental variables needed for management. Yet, the need to have widespread predictions of hydrological variables such as river flow and water quality has become increasingly urgent due to climate and land use change over the past decades, and their associated impacts on water resources. Modern machine learning methods increasingly outperform their process-based and empirical model counterparts for hydrologic time series prediction with their ability to extract information from large, diverse data sets. We review relevant state-of-the art applications of machine learning for streamflow, water quality, and other water resources prediction and discuss opportunities to improve the use of machine learning with emerging methods for incorporating watershed characteristics into deep learning models, transfer learning, and incorporating process knowledge into machine learning models. The analysis here suggests most prior efforts have been focused on deep learning learning frameworks built on many sites for predictions at daily time scales in the United States, but that comparisons between different classes of machine learning methods are few and inadequate. We identify several open questions for time series predictions in unmonitored sites that include incorporating dynamic inputs and site characteristics, mechanistic understanding and spatial context, and explainable AI techniques in modern machine learning frameworks.
翻訳日:2024-03-07 02:48:15 公開日:2024-03-05
# 統合性は魅力的です

Integrability is attractive ( http://arxiv.org/abs/2308.09745v3 )

ライセンス: Link先を確認
Hyeongjin Kim, Anatoli Polkovnikov(参考訳) 量子カオスと積分性の間の相互作用は、過去数十年にわたって広く研究されてきた。 我々は、断熱変換の複雑性を記述する量子幾何テンソルにエンコードされた幾何学の観点から、この話題にアプローチする。 特に、2つの独立結合によってパラメータ化されるスピン鎖の2つのジェネリックモデルを考える。 一方、可積分性破壊摂動は大域的であり、他方では可積分性は境界でのみ破られる。 どちらの場合も、結合空間の最も短い経路は可積分領域へと導かれ、この挙動は総称的であると論じる。 これらの地域は、自然の河川流域と同様の断熱的な流れの引き金となる。 物理的には、可積分領域への方向は可積分性に平行な方向よりも高速な緩和ダイナミクスによって特徴づけられ、それらの間の異方性は可積分点に近づくにつれて熱力学的極限に分岐する。 また, 連続相転移と同様に, 可積分からカオス的行動への遷移は両モデルとも普遍的であり, 局所可積分性破壊モデルがカオス的になるが, エルゴディシティは回避できることを示す。

The interplay between quantum chaos and integrability has been extensively studied in the past decades. We approach this topic from the point of view of geometry encoded in the quantum geometric tensor, which describes the complexity of adiabatic transformations. In particular, we consider two generic models of spin chains that are parameterized by two independent couplings. In one, the integrability breaking perturbation is global while, in the other, integrability is broken only at the boundary. In both cases, the shortest paths in the coupling space lead towards integrable regions and we argue that this behavior is generic. These regions thus act as attractors of adiabatic flows similar to river basins in nature. Physically, the directions towards integrable regions are characterized by faster relaxation dynamics than those parallel to integrability, and the anisotropy between them diverges in the thermodynamic limit as the system approaches the integrable point. We also provide evidence that the transition from integrable to chaotic behavior is universal for both models, similar to continuous phase transitions, and that the model with local integrability breaking quickly becomes chaotic but avoids ergodicity.
翻訳日:2024-03-07 02:47:50 公開日:2024-03-05
# 機械学習: 解決策と課題

Machine Unlearning: Solutions and Challenges ( http://arxiv.org/abs/2308.07061v2 )

ライセンス: Link先を確認
Jie Xu, Zihan Wu, Cong Wang and Xiaohua Jia(参考訳) 機械学習モデルは、機密性、不正、悪意のあるデータを不注意に記憶し、プライバシ侵害、セキュリティ脆弱性、パフォーマンス劣化のリスクを生じさせる可能性がある。 これらの問題に対処するために、機械学習は訓練されたモデルに対する特定の訓練データポイントの影響を選択的に除去する重要なテクニックとして登場した。 本稿では,機械学習における解の包括的分類と解析について述べる。 既存のソリューションを、データの影響を徹底的に除去する正確なアンラーニングアプローチと、データの影響を効率的に最小化するアンラーニングアプローチに分類する。 ソリューションを総合的にレビューすることで,その強みと限界を特定し,議論する。 さらに,機械学習を高度に進めるための今後の方向性を提案し,信頼性の高い適応型機械学習モデルの必須機能として確立する。 本稿では,オープン問題のロードマップを研究者に提供し,データ除去のための実世界のニーズへの影響力のある貢献を奨励する。

Machine learning models may inadvertently memorize sensitive, unauthorized, or malicious data, posing risks of privacy breaches, security vulnerabilities, and performance degradation. To address these issues, machine unlearning has emerged as a critical technique to selectively remove specific training data points' influence on trained models. This paper provides a comprehensive taxonomy and analysis of the solutions in machine unlearning. We categorize existing solutions into exact unlearning approaches that remove data influence thoroughly and approximate unlearning approaches that efficiently minimize data influence. By comprehensively reviewing solutions, we identify and discuss their strengths and limitations. Furthermore, we propose future directions to advance machine unlearning and establish it as an essential capability for trustworthy and adaptive machine learning models. This paper provides researchers with a roadmap of open problems, encouraging impactful contributions to address real-world needs for selective data removal.
翻訳日:2024-03-07 02:46:42 公開日:2024-03-05
# 電子健康記録における社会要因の同定のための大規模言語モデル

Large Language Models to Identify Social Determinants of Health in Electronic Health Records ( http://arxiv.org/abs/2308.06354v2 )

ライセンス: Link先を確認
Marco Guevara, Shan Chen, Spencer Thomas, Tafadzwa L. Chaunzwa, Idalid Franco, Benjamin Kann, Shalini Moningi, Jack Qian, Madeleine Goldstein, Susan Harper, Hugo JWL Aerts, Guergana K. Savova, Raymond H. Mak, Danielle S. Bitterman(参考訳) SDoH (Social Determinants of Health) は、患者の成績に重要な影響を与えるが、電子健康記録 (EHR) から不完全に収集される。 本研究は, EHRにおける自由テキストからSDoHを抽出する大規模言語モデルの有用性について検討し, 少ないが極めて価値のある臨床データの抽出を改善するために, 合成臨床テキストの役割について検討した。 800の患者ノートをSDoHカテゴリーにアノテートし,いくつかのトランスフォーマーモデルを評価した。 また,合成データ生成実験を行い,アルゴリズムバイアスの評価を行った。 我々の最高の性能モデルは、どのSDoHでもFlan-T5 XL(macro-F1 0.71)、Flan-T5 XXL(macro-F1 0.70)でした。 合成データによる微調整の利点は、モデルアーキテクチャやサイズによって異なり、より小さなFlan-T5モデル(ベースと大型)では、パフォーマンスが最大(デルタF1+0.12から+0.23)向上した。 モデル性能は病院内システムデータセットと似ているが、MIMIC-IIIデータセットでは悪い。 最も優れた微調整モデルでは、両方のタスクにおいてChatGPTファミリーモデルのゼロおよび少数ショットのパフォーマンスが向上した。 これらの微調整されたモデルは、人種・民族性や性別記述子をテキストに追加した場合の予測をChatGPTより変更する可能性が低く、アルゴリズムバイアスが低い(p<0.05。 患者レベルでは, 有害なSDoH症例の93.8%, ICD-10は2.0%であった。 本手法は,臨床ノートからsdoh情報を効果的に抽出し,gptゼロショットおよびマイショット設定と比較する。 これらのモデルは、SDoHに関する現実世界の証拠を高め、社会的支援を必要とする患者を特定する助けになるかもしれない。

Social determinants of health (SDoH) have an important impact on patient outcomes but are incompletely collected from the electronic health records (EHR). This study researched the ability of large language models to extract SDoH from free text in EHRs, where they are most commonly documented, and explored the role of synthetic clinical text for improving the extraction of these scarcely documented, yet extremely valuable, clinical data. 800 patient notes were annotated for SDoH categories, and several transformer-based models were evaluated. The study also experimented with synthetic data generation and assessed for algorithmic bias. Our best-performing models were fine-tuned Flan-T5 XL (macro-F1 0.71) for any SDoH, and Flan-T5 XXL (macro-F1 0.70). The benefit of augmenting fine-tuning with synthetic data varied across model architecture and size, with smaller Flan-T5 models (base and large) showing the greatest improvements in performance (delta F1 +0.12 to +0.23). Model performance was similar on the in-hospital system dataset but worse on the MIMIC-III dataset. Our best-performing fine-tuned models outperformed zero- and few-shot performance of ChatGPT-family models for both tasks. These fine-tuned models were less likely than ChatGPT to change their prediction when race/ethnicity and gender descriptors were added to the text, suggesting less algorithmic bias (p<0.05). At the patient-level, our models identified 93.8% of patients with adverse SDoH, while ICD-10 codes captured 2.0%. Our method can effectively extracted SDoH information from clinic notes, performing better compare to GPT zero- and few-shot settings. These models could enhance real-world evidence on SDoH and aid in identifying patients needing social support.
翻訳日:2024-03-07 02:46:27 公開日:2024-03-05
# コンパクト領域上のreluネットワークを用いたユニバーサル近似の最小幅

Minimum width for universal approximation using ReLU networks on compact domain ( http://arxiv.org/abs/2309.10402v2 )

ライセンス: Link先を確認
Namjun Kim, Chanho Min, Sejun Park(参考訳) 十分な幅の深いニューラルネットワークが普遍近似器であることは示されているが、幅が小さすぎる場合ではない。 普遍近似特性を許容する最小幅$w_{\min}$を特徴づけようとする試みはいくつかあったが、正確な値を発見したのはわずかであった。 本稿では、$[0,1]^{d_x}$から$\mathbb r^{d_y}$までの$l^p$関数の最小幅が、活性化関数がreluライクな場合(例えば、relu, gelu, softplus)にちょうど$\max\{d_x,d_y,2\}$であることを示す。 ReLU ネットワークの既知の結果と比較して、$w_{\min}=\max\{d_x+1,d_y\}$ が$\smash{\mathbb R^{d_x}}$ であるとき、まず、コンパクト領域上の近似は$\smash{\mathbb R^{d_x}}$ よりも小さい幅を必要とすることを示す。 次に、ReLUを含む一般的なアクティベーション関数を用いた一様近似に対して$w_{\min}$の低い境界を証明します。 最初の結果とともに、一般活性化関数に対する$L^p$と一様近似と入出力次元との二分法を示す。

It has been shown that deep neural networks of a large enough width are universal approximators but they are not if the width is too small. There were several attempts to characterize the minimum width $w_{\min}$ enabling the universal approximation property; however, only a few of them found the exact values. In this work, we show that the minimum width for $L^p$ approximation of $L^p$ functions from $[0,1]^{d_x}$ to $\mathbb R^{d_y}$ is exactly $\max\{d_x,d_y,2\}$ if an activation function is ReLU-Like (e.g., ReLU, GELU, Softplus). Compared to the known result for ReLU networks, $w_{\min}=\max\{d_x+1,d_y\}$ when the domain is $\smash{\mathbb R^{d_x}}$, our result first shows that approximation on a compact domain requires smaller width than on $\smash{\mathbb R^{d_x}}$. We next prove a lower bound on $w_{\min}$ for uniform approximation using general activation functions including ReLU: $w_{\min}\ge d_y+1$ if $d_x<d_y\le2d_x$. Together with our first result, this shows a dichotomy between $L^p$ and uniform approximations for general activation functions and input/output dimensions.
翻訳日:2024-03-07 02:41:22 公開日:2024-03-05
# パウリ雑音による表面符号復号の硬さ結果

Hardness results for decoding the surface code with Pauli noise ( http://arxiv.org/abs/2309.10331v3 )

ライセンス: Link先を確認
Alex Fischer, Akimasa Miyake(参考訳) 実際の量子コンピュータは、全ての量子ビットに対して同じ強度を持つ非分極ノイズのような単純なノイズの代わりに、複雑な量子ビット依存ノイズを受ける。 我々の復号アルゴリズムがこの特定のノイズに関する事前情報を考慮すると、量子誤り訂正をより効果的に行うことができる。 このことは、デコード問題への入力がシンドローム測定結果であるだけでなく、各キュービットに対する単一キュービットパウリ誤差の確率の形でのノイズモデルである表面符号復号の複雑さを考える動機となっている。 この設定では、曲面符号に対する量子極大極大復号法(QMLD)と退化量子極大復号法(DQMLD)がそれぞれNPハードおよび#Pハードであることを示す。 QMLD は SAT から直接、DQMLD は #SAT から直接、ブール式を qubit 依存の Pauli ノイズモデルに変換する方法と、公式の満足度特性を符号化するシンドロームのセットを示す。 また,QMLDとDQMLDの近似結果の硬度も示す。 これらは、多くの効率的な表面コードデコーダが平均ケースで正しいという経験的事実と矛盾しない最悪のケースの硬さの結果である(つまり、ほとんどのシンドロームや最も合理的なノイズモデルの場合)。 これらの硬さ結果は、独立な$X$および$Z$ノイズを持つ任意の安定化器符号に対するQMLDとDQMLDの既知の硬さ結果とよく似ている。

Real quantum computers will be subject to complicated, qubit-dependent noise, instead of simple noise such as depolarizing noise with the same strength for all qubits. We can do quantum error correction more effectively if our decoding algorithms take into account this prior information about the specific noise present. This motivates us to consider the complexity of surface code decoding where the input to the decoding problem is not only the syndrome-measurement results, but also a noise model in the form of probabilities of single-qubit Pauli errors for every qubit. In this setting, we show that quantum maximum likelihood decoding (QMLD) and degenerate quantum maximum likelihood decoding (DQMLD) for the surface code are NP-hard and #P-hard, respectively. We reduce directly from SAT for QMLD, and from #SAT for DQMLD, by showing how to transform a boolean formula into a qubit-dependent Pauli noise model and set of syndromes that encode the satisfiability properties of the formula. We also give hardness of approximation results for QMLD and DQMLD. These are worst-case hardness results that do not contradict the empirical fact that many efficient surface code decoders are correct in the average case (i.e., for most sets of syndromes and for most reasonable noise models). These hardness results are nicely analogous with the known hardness results for QMLD and DQMLD for arbitrary stabilizer codes with independent $X$ and $Z$ noise.
翻訳日:2024-03-07 02:40:28 公開日:2024-03-05
# 人工現実から現実へ:低リソース分子発見のための大規模言語モデルからの疑似データ活用

From Artificially Real to Real: Leveraging Pseudo Data from Large Language Models for Low-Resource Molecule Discovery ( http://arxiv.org/abs/2309.05203v3 )

ライセンス: Link先を確認
Yuhan Chen, Nuwa Xi, Yanrui Du, Haochun Wang, Jianyu Chen, Sendong Zhao, Bing Qin(参考訳) 分子発見は多くの科学分野の基盤となり、新しい材料や革新的な医薬品の設計を加速させた。 近年のシリカ分子発見は、分子構造を記述的アノテーションで橋渡しするクロスモーダル手法の有望な成果を浮き彫りにした。 しかし、これらのクロスモーダルメソッドは、しばしばデータ不足の問題に遭遇し、パフォーマンスとアプリケーションを妨げる。 本稿では,Large Language Models (LLM) が生成する人工現実データを活用することで,低リソースの課題に対処する。 まず,質の高い疑似データを構築するための検索に基づくプロンプト戦略を導入し,この疑似データを効果的に活用するための最適な方法を検討する。 実験によると、ドメイン適応のための擬似データの使用は、既存のすべてのメソッドよりも優れており、モデルスケールの縮小、データサイズ削減、トレーニングコストの削減、効率の向上も必要である。 さらに,疑似データ量の増加に伴い,低リソースのクロスモーダル分子の発見において,疑似データの潜在能力が著しく向上することを示す。 私たちのコードとデータはhttps://github.com/scir-hi/artificiallyr2rで入手できます。

Molecule discovery serves as a cornerstone in numerous scientific domains, fueling the development of new materials and innovative drug designs. Recent developments of in-silico molecule discovery have highlighted the promising results of cross-modal techniques, which bridge molecular structures with their descriptive annotations. However, these cross-modal methods frequently encounter the issue of data scarcity, hampering their performance and application. In this paper, we address the low-resource challenge by utilizing artificially-real data generated by Large Language Models (LLMs). We first introduce a retrieval-based prompting strategy to construct high-quality pseudo data, then explore the optimal method to effectively leverage this pseudo data. Experiments show that using pseudo data for domain adaptation outperforms all existing methods, while also requiring a smaller model scale, reduced data size and lower training cost, highlighting its efficiency. Furthermore, our method shows a sustained improvement as the volume of pseudo data increases, revealing the great potential of pseudo data in advancing low-resource cross-modal molecule discovery. Our code and data are available at https://github.com/SCIR-HI/ArtificiallyR2R.
翻訳日:2024-03-07 02:38:11 公開日:2024-03-05
# ソフトウェアコミュニティにおける重複質問検索と確認時間予測

Duplicate Question Retrieval and Confirmation Time Prediction in Software Communities ( http://arxiv.org/abs/2309.05035v3 )

ライセンス: Link先を確認
Rima Hazra, Debanjan Saha, Amruit Sahoo, Somnath Banerjee, Animesh Mukherjee(参考訳) 異なるドメインにおけるコミュニティ質問回答(CQA)は、複数のプラットフォームが利用可能であり、ユーザ間で大きな共有情報があるため、大規模に成長している。 このようなオンラインプラットフォームの急速な成長に伴い、大量のアーカイブデータによって、モデレーターは新しい質問に対して可能な重複を検索し、既存の質問ペアを正しいタイミングで重複として識別し確認することが困難になる。 この問題はaskubuntuのような大規模ソフトウェアシステムに対応するcqaにおいてさらに重要であり、モデレーターは何かを重複として理解するには専門家である必要がある。 このようなCQAプラットフォームの最大の課題は、モデレーター自身が専門家であり、そのため非常に高価な時間で非常に忙しいことである。 本研究では,モデレーターの作業を容易にするため,askubuntu cqaプラットフォームにおいて,(1)新たな質問に対する重複質問の検索,(2)重複質問確認時間予測という2つの重要な課題に取り組んでいる。 最初のタスクでは、新たに投稿された質問に対して、質問プールから重複した質問を検索することに焦点を当てる。 第2のタスクでは、重複として確認されるのに長い時間がかかる可能性のある2つの質問をランク付けするために回帰問題を解く。 重ね合わせ質問検索では,テキストとネットワークに基づく特徴を併用し,最先端のベースライン技術に勝るシアームニューラルネット方式を提案する。 DupPredictor と DUPE をそれぞれ5%, 7% で比較した。 重複した確認時間予測には、標準機械学習モデルとニューラルネットワークと、テキストとグラフベースの機能の両方を使用しました。 テキストとグラフでそれぞれ0.20と0.213(統計的に有意)のスピアマンのランク相関を求める。

Community Question Answering (CQA) in different domains is growing at a large scale because of the availability of several platforms and huge shareable information among users. With the rapid growth of such online platforms, a massive amount of archived data makes it difficult for moderators to retrieve possible duplicates for a new question and identify and confirm existing question pairs as duplicates at the right time. This problem is even more critical in CQAs corresponding to large software systems like askubuntu where moderators need to be experts to comprehend something as a duplicate. Note that the prime challenge in such CQA platforms is that the moderators are themselves experts and are therefore usually extremely busy with their time being extraordinarily expensive. To facilitate the task of the moderators, in this work, we have tackled two significant issues for the askubuntu CQA platform: (1) retrieval of duplicate questions given a new question and (2) duplicate question confirmation time prediction. In the first task, we focus on retrieving duplicate questions from a question pool for a particular newly posted question. In the second task, we solve a regression problem to rank a pair of questions that could potentially take a long time to get confirmed as duplicates. For duplicate question retrieval, we propose a Siamese neural network based approach by exploiting both text and network-based features, which outperforms several state-of-the-art baseline techniques. Our method outperforms DupPredictor and DUPE by 5% and 7% respectively. For duplicate confirmation time prediction, we have used both the standard machine learning models and neural network along with the text and graph-based features. We obtain Spearman's rank correlation of 0.20 and 0.213 (statistically significant) for text and graph based features respectively.
翻訳日:2024-03-07 02:37:47 公開日:2024-03-05
# 多言語基盤モデルのためのSeaEval:言語横断的アライメントから文化的推論へ

SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning ( http://arxiv.org/abs/2309.04766v3 )

ライセンス: Link先を確認
Bin Wang and Zhengyuan Liu and Xin Huang and Fangkai Jiao and Yang Ding and Ai Ti Aw and Nancy F. Chen(参考訳) マルチ言語基盤モデルのベンチマークであるSeaEvalを紹介する。 これらのモデルが自然言語をどのように理解し、理由づけしているかを特徴づけるだけでなく、文化の実践やニュアンス、価値観をいかに理解しているかも調べる。 標準的な精度指標とともに,意味論と多言語性の次元における基礎モデルの脆さについて検討する。 我々の分析は、オープンソースのモデルとクローズドモデルの両方にまたがっており、古典的なNLPタスク、推論、文化的理解に経験的な結果をもたらす。 主要な知見は,(1)言い換え指示が与えられた場合,ほとんどのモデルは様々な行動を示す。 2)多くのモデルはまだ露出バイアス(位置バイアス、ラベルバイアスなど)に苦しんでいる。 3) 事実,科学的,常識的知識に根ざした質問に対しては,意味論的に等価な多言語クエリに対して一貫した応答が期待できる。 しかし、ほとんどのモデルは、これらのクエリで驚くほど不整合性能を示している。 (4)多言語学習モデルでは「バランスの取れた多言語」能力は得られていない。 我々の取り組みは、より一般化可能な意味表現と拡張された多言語文脈化の必要性を強調している。 SeaEvalは、多言語および多文化シナリオに対するより徹底的な調査と評価のための発射台として機能する。

We present SeaEval, a benchmark for multilingual foundation models. In addition to characterizing how these models understand and reason with natural language, we also investigate how well they comprehend cultural practices, nuances, and values. Alongside standard accuracy metrics, we investigate the brittleness of foundation models in the dimensions of semantics and multilinguality. Our analyses span both open-sourced and closed models, leading to empirical results across classic NLP tasks, reasoning, and cultural comprehension. Key findings indicate (1) Most models exhibit varied behavior when given paraphrased instructions. (2) Many models still suffer from exposure bias (e.g., positional bias, majority label bias). (3) For questions rooted in factual, scientific, and commonsense knowledge, consistent responses are expected across multilingual queries that are semantically equivalent. Yet, most models surprisingly demonstrate inconsistent performance on these queries. (4) Multilingually-trained models have not attained "balanced multilingual" capabilities. Our endeavors underscore the need for more generalizable semantic representations and enhanced multilingual contextualization. SeaEval can serve as a launchpad for more thorough investigations and evaluations for multilingual and multicultural scenarios.
翻訳日:2024-03-07 02:37:02 公開日:2024-03-05
# 大規模言語モデル構築のための前頭前皮質刺激型アーキテクチャ

A Prefrontal Cortex-inspired Architecture for Planning in Large Language Models ( http://arxiv.org/abs/2310.00194v2 )

ライセンス: Link先を確認
Taylor Webb, Shanka Subhra Mondal, Chi Wang, Brian Krabach, Ida Momennejad(参考訳) 大きな言語モデル(LLM)は、様々なタスクにおいて印象的なパフォーマンスを示すが、多段階の推論や目標指向の計画を必要とするタスクにしばしば苦労する。 そこで我々は,前頭前皮質(PFC)の特別なモジュールの反復的相互作用によって計画が達成される,人間の脳からインスピレーションを得た。 これらのモジュールは競合監視、状態予測、状態評価、タスク分解、タスク調整などの機能を実行する。 LLMは、これらの機能を単独で行うことができる場合もあるが、目標を達成するために自律的に協調するのは難しい。 そこで本研究では,複数のLCM(GPT-4)モジュールを用いたブラックボックスアーキテクチャを提案する。 このアーキテクチャは、特定のPFCにインスパイアされたモジュールの相互作用によって計画を改善し、より大きな問題をLLMへの複数の短時間の自動呼び出しに分解する。 グラフトラバーサル,ハノイ塔,ロジスティクスの3つの挑戦的計画課題におけるアーキテクチャの組み合わせを評価し,標準LLM法(ゼロショットプロンプト,コンテキスト内学習,チェーン・オブ・シントなど)よりも大幅に改善されていることを確認した。 これらの結果は,認知神経科学の知識を活用し,llmの計画を改善することの利点を示す。

Large language models (LLMs) demonstrate impressive performance on a wide variety of tasks, but they often struggle with tasks that require multi-step reasoning or goal-directed planning. To address this, we take inspiration from the human brain, in which planning is accomplished via the recurrent interaction of specialized modules in the prefrontal cortex (PFC). These modules perform functions such as conflict monitoring, state prediction, state evaluation, task decomposition, and task coordination. We find that LLMs are sometimes capable of carrying out these functions in isolation, but struggle to autonomously coordinate them in the service of a goal. Therefore, we propose a black box architecture with multiple LLM-based (GPT-4) modules. The architecture improves planning through the interaction of specialized PFC-inspired modules that break down a larger problem into multiple brief automated calls to the LLM. We evaluate the combined architecture on three challenging planning tasks -- graph traversal, Tower of Hanoi, and logistics -- finding that it yields significant improvements over standard LLM methods (e.g., zero-shot prompting, in-context learning, and chain-of-thought). These results demonstrate the benefit of utilizing knowledge from cognitive neuroscience to improve planning in LLMs.
翻訳日:2024-03-07 02:30:46 公開日:2024-03-05
# language-extended indoor slam (lexis):リアルタイム視覚シーン理解のための汎用システム

Language-EXtended Indoor SLAM (LEXIS): A Versatile System for Real-time Visual Scene Understanding ( http://arxiv.org/abs/2309.15065v2 )

ライセンス: Link先を確認
Christina Kassab, Matias Mattamala, Lintong Zhang, and Maurice Fallon(参考訳) VersatileとAdaptiveなセマンティック理解は、自律的なシステムが周囲の理解と相互作用を可能にする。 既存の固定クラスモデルは、屋内移動および補助自律システムの適応性を制限する。 本研究では,大規模言語モデル(LLM)のオープンな語彙特性を利用したリアルタイム屋内局所マッピング(SLAM)システムであるLEXISを導入し,シーン理解と位置認識のための統一的なアプローチを提案する。 このアプローチはまず、環境のトポロジカルSLAMグラフ(ビジュアル慣性オドメトリー)を構築し、グラフノードにContrastive Language-Image Pretraining (CLIP)機能を組み込む。 この表現をフレキシブルな部屋分類とセグメンテーションに使用し,部屋中心の場所認識の基礎となっている。 これにより、ループクロージャ検索は意味のある場所へ向けられる。 提案システムは,公開データ,シミュレーションデータ,実世界データ,オフィス環境,家庭環境の両方を用いて評価を行う。 様々なレイアウトと寸法の部屋をうまく分類し、最先端(SOTA)を上回っている。 位置認識および軌道推定タスクでは、SOTAと同等の性能を達成し、全て同じ事前学習モデルも活用する。 最後に、システムを計画する可能性を実証する。

Versatile and adaptive semantic understanding would enable autonomous systems to comprehend and interact with their surroundings. Existing fixed-class models limit the adaptability of indoor mobile and assistive autonomous systems. In this work, we introduce LEXIS, a real-time indoor Simultaneous Localization and Mapping (SLAM) system that harnesses the open-vocabulary nature of Large Language Models (LLMs) to create a unified approach to scene understanding and place recognition. The approach first builds a topological SLAM graph of the environment (using visual-inertial odometry) and embeds Contrastive Language-Image Pretraining (CLIP) features in the graph nodes. We use this representation for flexible room classification and segmentation, serving as a basis for room-centric place recognition. This allows loop closure searches to be directed towards semantically relevant places. Our proposed system is evaluated using both public, simulated data and real-world data, covering office and home environments. It successfully categorizes rooms with varying layouts and dimensions and outperforms the state-of-the-art (SOTA). For place recognition and trajectory estimation tasks we achieve equivalent performance to the SOTA, all also utilizing the same pre-trained model. Lastly, we demonstrate the system's potential for planning.
翻訳日:2024-03-07 02:28:52 公開日:2024-03-05
# 体積論的に一貫性のある3dパンオプティカルマッピング

Volumetric Semantically Consistent 3D Panoptic Mapping ( http://arxiv.org/abs/2309.14737v2 )

ライセンス: Link先を確認
Yang Miao, Iro Armeni, Marc Pollefeys, Daniel Barath(参考訳) 非構造環境における自律型エージェントに適した包括的かつ正確で効率的な3Dマップを生成することを目的としたオンライン2D-to-3Dセマンティック・インスタンスマッピングアルゴリズムを提案する。 提案手法は,最近のアルゴリズムで用いられているVoxel-TSDF表現に基づいている。 マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。 さらなる改善は、グラフ最適化に基づくセマンティックラベリングとインスタンスリファインメントによって達成される。 提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。 SLAM推定データの代わりに基底真理軌道を入力として使用すると精度が著しく低下し,実世界のデータにおける結果と実際のパフォーマンスの間に大きなギャップが生じる。

We introduce an online 2D-to-3D semantic instance mapping algorithm aimed at generating comprehensive, accurate, and efficient semantic 3D maps suitable for autonomous agents in unstructured environments. The proposed approach is based on a Voxel-TSDF representation used in recent algorithms. It introduces novel ways of integrating semantic prediction confidence during mapping, producing semantic and instance-consistent 3D regions. Further improvements are achieved by graph optimization-based semantic labeling and instance refinement. The proposed method achieves accuracy superior to the state of the art on public large-scale datasets, improving on a number of widely used metrics. We also highlight a downfall in the evaluation of recent studies: using the ground truth trajectory as input instead of a SLAM-estimated one substantially affects the accuracy, creating a large gap between the reported results and the actual performance on real-world data.
翻訳日:2024-03-07 02:28:28 公開日:2024-03-05
# グラフコントラスト学習のための確率的学習

Provable Training for Graph Contrastive Learning ( http://arxiv.org/abs/2309.13944v3 )

ライセンス: Link先を確認
Yue Yu, Xiao Wang, Mengmei Zhang, Nian Liu, Chuan Shi(参考訳) グラフコントラスト学習(gcl)はラベルのない拡張グラフからノード埋め込みを学ぶための一般的なトレーニングアプローチとして登場した。 正のノード対間の類似性を最大化しつつ、負のノード対間の類似性を最小化するという鍵原理は確立されているが、いくつかの根本的な問題はいまだ不明である。 複雑なグラフ構造を考えると、いくつかのノードは一貫してよく訓練されているか? あるいは、グラフを拡張せずに原則に違反しているノードがあるのでしょうか? これらのノードを区別し、GCLのトレーニングをさらにガイドする方法? これらの疑問に答えるために、まず、GCLのトレーニングがすべてのノードで実際に不均衡であることを示す実験的な証拠を提示する。 この問題に対処するために、ノードが拡張範囲に関連するgclの原理に従う方法の下界である計量「ノードコンパクト性」を提案する。 さらに,正規化として二元クロスエントロピーに積分できるバウンド伝搬によって,理論的にノードコンパクト性の形式を導出する。 そこで本稿では,GCL の原則に従うノード埋め込みを符号化するための GCL のトレーニングを正規化するための PrOvable Training (POT) を提案する。 さまざまなベンチマークに関する広範な実験を通じて、POTは既存のGCLアプローチを一貫して改善し、フレンドリーなプラグインとして機能する。

Graph Contrastive Learning (GCL) has emerged as a popular training approach for learning node embeddings from augmented graphs without labels. Despite the key principle that maximizing the similarity between positive node pairs while minimizing it between negative node pairs is well established, some fundamental problems are still unclear. Considering the complex graph structure, are some nodes consistently well-trained and following this principle even with different graph augmentations? Or are there some nodes more likely to be untrained across graph augmentations and violate the principle? How to distinguish these nodes and further guide the training of GCL? To answer these questions, we first present experimental evidence showing that the training of GCL is indeed imbalanced across all nodes. To address this problem, we propose the metric "node compactness", which is the lower bound of how a node follows the GCL principle related to the range of augmentations. We further derive the form of node compactness theoretically through bound propagation, which can be integrated into binary cross-entropy as a regularization. To this end, we propose the PrOvable Training (POT) for GCL, which regularizes the training of GCL to encode node embeddings that follows the GCL principle better. Through extensive experiments on various benchmarks, POT consistently improves the existing GCL approaches, serving as a friendly plugin.
翻訳日:2024-03-07 02:27:52 公開日:2024-03-05
# CHSHテストはKCBS型量子コンテキストの観測に十分である

The CHSH Test is Sufficient to Observe the KCBS-Type Quantum Contextuality ( http://arxiv.org/abs/2309.12868v2 )

ライセンス: Link先を確認
Firat Diker(参考訳) 本研究では,Claus-Horne-Shimony-Holt (CHSH) と呼ばれるベル試験が非局所性だけでなく,KCBS型文脈性も示す。 この目的のために、KCBS型(非)コンテキスト性を示すクォート状態(3レベル量子状態)に対応する2量子状態の対称部分群について検討する。 その後、CHSHテストを適用し、このテストに拘束される新しい非コンテキスト性を見つける。 このことは、CHSHの不等式をKCBS型文脈性テストとして使用する限界を変更することで変更可能であることを示している。 また、必要な測定数は4つであり、kcbsテストの計測数より少ない(5つ)。

In this work, we show that the well-known Bell test called Clauser-Horne-Shimony-Holt (CHSH) does not only exhibit non-locality but also the KCBS-type contextuality. For this purpose, we investigate the symmetric subgroup of two-qubit states corresponding to qutrit states (three-level quantum states), which exhibit the KCBS-type (non-)contextuality. Later, we apply the CHSH test to them and find a new non-contextuality bound for this test. This shows us that the CHSH inequality can be modified by changing the limit to use it as a KCBS-type contextuality test. Also, the number of measurements required is four, less than the number of measurements in the KCBS test (That is five).
翻訳日:2024-03-07 02:27:08 公開日:2024-03-05
# 長距離化表面符号

Long-range-enhanced surface codes ( http://arxiv.org/abs/2309.11719v3 )

ライセンス: Link先を確認
Yifan Hong, Matteo Marinelli, Adam M. Kaufman, Andrew Lucas(参考訳) 曲面符号は1つの論理量子ビットに対する量子誤り訂正符号であり、2次元の空間的局所化パリティチェックによって保護される。 空間的局所性からの基本的な制約のため、より論理的な量子ビットを格納するには、エラーに対する表面コードの堅牢さを犠牲にするか、物理的量子ビットの数を増やす必要がある。 エラーに対する堅牢性を維持しつつ、表面コードに論理キュービットを追加するために必要な、空間的に非局所的なパリティチェックの最小数を制限した。 我々は、この境界をハイパーグラフ製品コード群を用いて漸近的に飽和させ、表面コードと定レート低密度パリティチェックコードを補間する。 量子コードの論理ゲートに対するフォールトトレラントプロトコルは、その古典的な親コードから継承することができる。 移動光学式ツイーザにおいて,トラップイオンや中性原子をベースとしたハードウェア用コードの実装を短期的に実施する。 長距離拡張曲面符号は、数百の物理量子ビットを用いた従来の曲面符号よりも優れており、短期デバイスにおける論理量子ビットの堅牢性を高めるための実用的な戦略である。

The surface code is a quantum error-correcting code for one logical qubit, protected by spatially localized parity checks in two dimensions. Due to fundamental constraints from spatial locality, storing more logical qubits requires either sacrificing the robustness of the surface code against errors or increasing the number of physical qubits. We bound the minimal number of spatially nonlocal parity checks necessary to add logical qubits to a surface code while maintaining, or improving, robustness to errors. We asymptotically saturate this bound using a family of hypergraph product codes, interpolating between the surface code and constant-rate low-density parity-check codes. Fault-tolerant protocols for logical gates in the quantum code can be inherited from its classical parent codes. We provide near-term practical implementations of this code for hardware based on trapped ions or neutral atoms in mobile optical tweezers. Long-range-enhanced surface codes outperform conventional surface codes using hundreds of physical qubits and represent a practical strategy to enhance the robustness of logical qubits to errors in near-term devices.
翻訳日:2024-03-07 02:26:33 公開日:2024-03-05
# 介入外挿のための表現の同定

Identifying Representations for Intervention Extrapolation ( http://arxiv.org/abs/2310.04295v2 )

ライセンス: Link先を確認
Sorawit Saengkyongam, Elan Rosenfeld, Pradeep Ravikumar, Niklas Pfister, Jonas Peters(参考訳) 識別可能かつ因果表現学習の前提は、一般化可能性や堅牢性の観点から現在の表現学習パラダイムを改善することである。 識別可能性に関する最近の議論の進展にもかかわらず、下流タスクに対するこれらの方法の具体的な利点を示すより理論的な結果が必要である。 本稿では, 介入が学習時に観察されない場合でも, 介入が結果にどのように影響するかを予測することによる介入外挿の課題を考察し, 介入が非直線的に影響しても, 識別可能な表現がこの課題に有効な解決策をもたらすことを示す。 我々の構成は、結果Y、潜伏特徴Zの非線形変換として生成される観察特徴X、およびZに影響を与える外因性行動変数Aを含む。介入外挿の目的は、Aのトレーニング支援外にあるAへの介入がAに影響を及ぼすかを予測することである。ここで、A on Zの効果が線形で、Z on Aが完全に支持されると、外挿が可能となる。 我々は、観測された特徴 x を a における非線形外挿を可能にする部分空間にマッピングすることを目的としており、隠れた表現は z-空間におけるアフィン変換まで識別可能であることを示し、介入外挿には十分である。 この知見に基づき,線形不変性制約を強制し,任意の種類のオートエンコーダと組み合わせることが可能な手法を提案する。 本研究は, 合成実験により理論的知見を検証し, 未確認介入の効果を予測することに成功していることを示す。

The premise of identifiable and causal representation learning is to improve the current representation learning paradigm in terms of generalizability or robustness. Despite recent progress in questions of identifiability, more theoretical results demonstrating concrete advantages of these methods for downstream tasks are needed. In this paper, we consider the task of intervention extrapolation: predicting how interventions affect an outcome, even when those interventions are not observed at training time, and show that identifiable representations can provide an effective solution to this task even if the interventions affect the outcome non-linearly. Our setup includes an outcome Y, observed features X, which are generated as a non-linear transformation of latent features Z, and exogenous action variables A, which influence Z. The objective of intervention extrapolation is to predict how interventions on A that lie outside the training support of A affect Y. Here, extrapolation becomes possible if the effect of A on Z is linear and the residual when regressing Z on A has full support. As Z is latent, we combine the task of intervention extrapolation with identifiable representation learning, which we call Rep4Ex: we aim to map the observed features X into a subspace that allows for non-linear extrapolation in A. We show that the hidden representation is identifiable up to an affine transformation in Z-space, which is sufficient for intervention extrapolation. The identifiability is characterized by a novel constraint describing the linearity assumption of A on Z. Based on this insight, we propose a method that enforces the linear invariance constraint and can be combined with any type of autoencoder. We validate our theoretical findings through synthetic experiments and show that our approach succeeds in predicting the effects of unseen interventions.
翻訳日:2024-03-07 02:20:44 公開日:2024-03-05
# イギリスとアイルランドの224km海底リンク上での量子通信可能性試験

Quantum communications feasibility tests over a UK-Ireland 224-km undersea link ( http://arxiv.org/abs/2310.04135v2 )

ライセンス: Link先を確認
Ben Amies-King, Karolina P. Schatz, Haofan Duan, Ayan Biswas, Jack Bailey, Adrian Felvinti, Jaimes Winward, Mike Dixon, Mariella Minder, Rupesh Kumar, Sophie Albosh, Marco Lucamarini(参考訳) 将来の量子インターネットは、光ファイバーネットワークを含む既存の通信インフラを活用し、現在の情報技術を上回る新しいアプリケーションを実現する。 このシナリオでは、イギリス(イギリス)のサウスポートとアイルランド(ie)のポートランの間で展開される工業用224km海底光ファイバーリンク上での量子通信の実現可能性検討を行う。 位相ドリフト, 偏光安定性, 絡み合った光子の到着時刻を特徴付けることにより, 初めて国際UK-IE量子通信を実現するためのリンクの適合性を実証した。

The future quantum internet will leverage existing communication infrastructures, including deployed optical fibre networks, to enable novel applications that outperform current information technology. In this scenario, we perform a feasibility study of quantum communications over an industrial 224 km submarine optical fibre link deployed between Southport in the United Kingdom (UK) and Portrane in the Republic of Ireland (IE). With a characterisation of phase drift, polarisation stability and arrival time of entangled photons, we demonstrate the suitability of the link to enable international UK-IE quantum communications for the first time.
翻訳日:2024-03-07 02:20:14 公開日:2024-03-05
# AXNav: 自然言語からアクセシビリティテストの再生

AXNav: Replaying Accessibility Tests from Natural Language ( http://arxiv.org/abs/2310.02424v3 )

ライセンス: Link先を確認
Maryam Taeb, Amanda Swearngin, Eldon Schoop, Ruijia Cheng, Yue Jiang, Jeffrey Nichols(参考訳) 開発者と品質保証テスターは、しばしば製品ライフサイクル全体を通してアクセシビリティ機能をテストするために手動テストに依存している。 残念ながら、手動テストは面倒で、多くの場合、圧倒的なスコープを持ち、他の開発マイルストーンのスケジュールが難しい。 近年、大規模言語モデル(llm)はuiの自動化など様々なタスクに使われているが、アクセシビリティテストをサポートする目的で、アシスト技術を制御するための使用について誰も検討していない。 本稿では,自然言語を用いたアクセシビリティテストワークフローの要件について検討する。 このことから、手動アクセシビリティテスト(例: ``Search for a show in VoiceOver'')を入力として、LLMとピクセルベースのUI理解モデルを組み合わせてテストを実行し、章入りのナビゲート可能なビデオを生成するシステムを構築する。 各ビデオでは、QAテスタを支援するために、アクセシビリティの問題の検出とフラグ付けにヒューリスティックを適用します(例えば、Large Textを有効にしてテキストサイズが増加しない、VoiceOverナビゲーションループなど)。 本システムを,アクセシビリティQA専門家による10名の参加者を対象に評価し,そのツールが現在の作業で非常に有用であることを示すとともに,手動で機能をテストする方法と同様のテストを行うことを示した。 この研究はまた、アクセシビリティテストにLLMを使うことに関する今後の研究の洞察を明らかにしている。

Developers and quality assurance testers often rely on manual testing to test accessibility features throughout the product lifecycle. Unfortunately, manual testing can be tedious, often has an overwhelming scope, and can be difficult to schedule amongst other development milestones. Recently, Large Language Models (LLMs) have been used for a variety of tasks including automation of UIs, however to our knowledge no one has yet explored their use in controlling assistive technologies for the purposes of supporting accessibility testing. In this paper, we explore the requirements of a natural language based accessibility testing workflow, starting with a formative study. From this we build a system that takes as input a manual accessibility test (e.g., ``Search for a show in VoiceOver'') and uses an LLM combined with pixel-based UI Understanding models to execute the test and produce a chaptered, navigable video. In each video, to help QA testers we apply heuristics to detect and flag accessibility issues (e.g., Text size not increasing with Large Text enabled, VoiceOver navigation loops). We evaluate this system through a 10 participant user study with accessibility QA professionals who indicated that the tool would be very useful in their current work and performed tests similarly to how they would manually test the features. The study also reveals insights for future work on using LLMs for accessibility testing.
翻訳日:2024-03-07 02:18:45 公開日:2024-03-05
# カスケード拡散モデルによる熱帯サイクロンの予測

Forecasting Tropical Cyclones with Cascaded Diffusion Models ( http://arxiv.org/abs/2310.01690v5 )

ライセンス: Link先を確認
Pritthijit Nath, Pancham Shukla, Shuai Wang, C\'esar Quilodr\'an-Casas(参考訳) 気候変動によって熱帯サイクロンがより強まるにつれて、alベースのモデリングの台頭は、数学的モデルに基づく従来の方法よりも安価でアクセスしやすいアプローチを提供する。 本研究は, 生成拡散モデルを利用して, 衛星画像, リモートセンシング, 大気データを統合することにより, サイクロン軌道と降水パターンを予測する。 予測、超解像、降水モデルという3つの主なタスクを組み込んだカスケードアプローチを採用している。 トレーニングデータセットには、2019年1月から2023年3月までの6つの主要な熱帯サイクロン盆地から51のサイクロンが含まれている。 実験により, 3つのタスクでそれぞれ0.5および20dBを超える優れた構造類似度 (SSIM) とピーク・ト・ノイズ比 (PSNR) の値を持つ36時間ロールアウトまでの正確な予測が得られた。 36時間の予測は1台のNvidia A30/RTX 2080 Tiで30分で作成できる。 この研究はまた、熱帯サイクロン予測のような気象予報における高性能需要の拡散モデルのようなal手法の有望な効率性を強調しつつ、計算上は手頃な価格のままであり、重要な予測ニーズと財政上の制約のある高度に脆弱な地域では理想的である。 url{https://github.com/nathzi1505/forecast-diffmodels} でアクセス可能なコード。

As tropical cyclones become more intense due to climate change, the rise of Al-based modelling provides a more affordable and accessible approach compared to traditional methods based on mathematical models. This work leverages generative diffusion models to forecast cyclone trajectories and precipitation patterns by integrating satellite imaging, remote sensing, and atmospheric data. It employs a cascaded approach that incorporates three main tasks: forecasting, super-resolution, and precipitation modelling. The training dataset includes 51 cyclones from six major tropical cyclone basins from January 2019 - March 2023. Experiments demonstrate that the final forecasts from the cascaded models show accurate predictions up to a 36-hour rollout, with excellent Structural Similarity (SSIM) and Peak-To-Noise Ratio (PSNR) values exceeding 0.5 and 20 dB, respectively, for all three tasks. The 36-hour forecasts can be produced in as little as 30 mins on a single Nvidia A30/RTX 2080 Ti. This work also highlights the promising efficiency of Al methods such as diffusion models for high-performance needs in weather forecasting, such as tropical cyclone forecasting, while remaining computationally affordable, making them ideal for highly vulnerable regions with critical forecasting needs and financial limitations. Code accessible at \url{https://github.com/nathzi1505/forecast-diffmodels}.
翻訳日:2024-03-07 02:17:27 公開日:2024-03-05
# PETA: パラメータ効率の良いトロイの木馬攻撃

PETA: Parameter-Efficient Trojan Attacks ( http://arxiv.org/abs/2310.00648v4 )

ライセンス: Link先を確認
Lauren Hong, Ting Wang(参考訳) パラメータ効率のよい微調整(PEFT)により、事前訓練された言語モデル(PLM)を特定のタスクに効率的に適応させることができる。 PEFTは最小限のパラメータのみをチューニングすることで、標準的な微調整に匹敵するパフォーマンスを達成する。 しかし、広く使われているにもかかわらず、PEFTのセキュリティ上の意味はほとんど解明されていない。 本稿では,2レベル最適化による下流適応を考慮し,PLMの重みを損なう新しいトロイの木馬攻撃 PETA について述べる。上層目標がモデルにバックドアを埋め込む一方で,下層目標がPEFTをシミュレートしてPLMのタスク固有性能を維持し,微調整後にバックドアが持続することを保証する。 ダウンストリームタスクやトリガー設計を幅広く評価することにより,攻撃者が被害者のトレーニングプロセスについて十分な知識を持っていない場合でも,攻撃成功率とクリーンな精度の両方において,petaの有効性を実証する。

Parameter-efficient fine-tuning (PEFT) enables efficient adaptation of pre-trained language models (PLMs) to specific tasks. By tuning only a minimal set of (extra) parameters, PEFT achieves performance that is comparable to standard fine-tuning. However, despite its prevalent use, the security implications of PEFT remain largely unexplored. In this paper, we take the initial steps and present PETA, a novel trojan attack that compromises the weights of PLMs by accounting for downstream adaptation through bilevel optimization: the upper-level objective embeds the backdoor into a model while the lower-level objective simulates PEFT to both retain the PLM's task-specific performance and ensure that the backdoor persists after fine-tuning. With extensive evaluation across a variety of downstream tasks and trigger designs, we demonstrate PETA's effectiveness in terms of both attack success rate and clean accuracy, even when the attacker does not have full knowledge of the victim user's training process.
翻訳日:2024-03-07 02:16:33 公開日:2024-03-05
# LLP-Bench:ラベル提供から学ぶための大規模タブラルベンチマーク

LLP-Bench: A Large Scale Tabular Benchmark for Learning from Label Proportions ( http://arxiv.org/abs/2310.10096v2 )

ライセンス: Link先を確認
Anand Brahmbhatt, Mohith Pokala, Rishi Saket and Aravindan Raghuveer(参考訳) LLP(Learning from Label Proportions)のタスクでは、モデルは個々のインスタンスのラベルを予測するために、インスタンスのグループ(例えばバッグ)とその対応するラベル比率に基づいて訓練される。 LLPは、画像と表の2種類のデータセットに対して、優先的に適用されている。 画像LLPでは、基礎となるデータセットからランダムにインスタンスをサンプリングすることで、固定サイズのバッグを生成する。 この方法で作られた袋はランダムバッグと呼ばれる。 Image LLPの実験は、主にCIFAR-*およびMNISTデータセット上のランダムバッグ上で行われている。 プライバシーに敏感なアプリケーションでは極めて重要なタスクであるにもかかわらず、タブ状のLPPはまだ、大規模なLPPベンチマークを持っていない。 表型llpのユニークな特性の1つは、バッグ内のすべてのインスタンスが特定の機能に対して同じ値を持つ機能バッグを作成する機能である。 先行研究で、機能バッグは実用的実世界のアプリケーション(chen et. al'23, saket et. al. '22)で非常に一般的であることが示されている。 本稿では,オープンで大規模な表型ベンチマークの欠如について述べる。 まず、Criteo CTR予測とCriteo Sponsored Search Conversion Logsデータセットから生成された70のLPPデータセット(62のフィーチャーバッグと8のランダムバッグデータセット)と、前者の分類と後者の回帰データセットからなるLPP-Benchを提案する。 これらのLPPデータセットは、基盤となる表データからバッグを構築する様々な方法を表している。 我々の知る限り、LPP-Benchは、構成データセットに広範な多様性を持つ最初の大規模表型LPPベンチマークである。 次に,LLPデータセットの硬さを特徴付ける4つの指標を提案する。 これら4つの指標を用いて,LLP-Benchの62個の特徴バッグデータセットの詳細な解析を行った。 最後に,全62データセットにおける9 sotaの性能と人気のある表型llp技術について述べる。

In the task of Learning from Label Proportions (LLP), a model is trained on groups (a.k.a bags) of instances and their corresponding label proportions to predict labels for individual instances. LLP has been applied pre-dominantly on two types of datasets - image and tabular. In image LLP, bags of fixed size are created by randomly sampling instances from an underlying dataset. Bags created via this methodology are called random bags. Experimentation on Image LLP has been mostly on random bags on CIFAR-* and MNIST datasets. Despite being a very crucial task in privacy sensitive applications, tabular LLP does not yet have a open, large scale LLP benchmark. One of the unique properties of tabular LLP is the ability to create feature bags where all the instances in a bag have the same value for a given feature. It has been shown in prior research that feature bags are very common in practical, real world applications [Chen et. al '23, Saket et. al. '22]. In this paper, we address the lack of a open, large scale tabular benchmark. First we propose LLP-Bench, a suite of 70 LLP datasets (62 feature bag and 8 random bag datasets) created from the Criteo CTR prediction and the Criteo Sponsored Search Conversion Logs datasets, the former a classification and the latter a regression dataset. These LLP datasets represent diverse ways in which bags can be constructed from underlying tabular data. To the best of our knowledge, LLP-Bench is the first large scale tabular LLP benchmark with an extensive diversity in constituent datasets. Second, we propose four metrics that characterize and quantify the hardness of a LLP dataset. Using these four metrics we present deep analysis of the 62 feature bag datasets in LLP-Bench. Finally we present the performance of 9 SOTA and popular tabular LLP techniques on all the 62 datasets.
翻訳日:2024-03-07 02:11:09 公開日:2024-03-05
# XRMDN:高ボラティリティを有する短期確率的ライダー需要予測のための拡張繰り返し混合密度ネットワーク

XRMDN: An Extended Recurrent Mixture Density Network for Short-Term Probabilistic Rider Demand Forecasting with High Volatility ( http://arxiv.org/abs/2310.09847v2 )

ライセンス: Link先を確認
Xiaoming Li, Hubert Normandin-Taillon, Chun Wang, Xiao Huang(参考訳) モビリティ・オン・デマンド(MoD)システムでは、ライダーの需要予測は運用上の意思決定とシステム最適化の基盤となる。 従来の予測手法は主に点推定を出力し、したがって需要予測に固有の不確実性を無視する。 さらにmod需要レベルは内因性と外因性の両方に影響され、高いボラティリティと動的ボラティリティをもたらす。 この変動性は従来の時系列予測手法の有効性を著しく損なう。 そこで本研究では,これらの課題に対処する新しいディープラーニングフレームワークであるExtended Recurrent Mixture Density Network (XRMDN)を提案する。 XRMDNは洗練されたアーキテクチャを利用して、関連モジュールを通じて要求残差と分散を処理し、内因性および外因性データの柔軟な取り込みを可能にする。 このアーキテクチャは、重み、平均、分散ニューラルネットワーク内の繰り返し接続を特徴とし、需要動向を十分に捉え、特に高ボラティリティシナリオにおいて予測精度を大幅に向上させる。 我々の総合的な実験分析は、実世界のMoDデータセットを利用して、XRMDNが既存のベンチマークモデルを上回ることを実証している。 この確率的需要予測の進歩はこの分野に大きな貢献をしており、modシステムの運用効率と顧客満足度を高めるための堅牢なツールを提供している。

In the realm of Mobility-on-Demand (MoD) systems, the forecasting of rider demand is a cornerstone for operational decision-making and system optimization. Traditional forecasting methodologies primarily yield point estimates, thereby neglecting the inherent uncertainty within demand projections. Moreover, MoD demand levels are profoundly influenced by both endogenous and exogenous factors, leading to high and dynamic volatility. This volatility significantly undermines the efficacy of conventional time series forecasting methods. In response, we propose an Extended Recurrent Mixture Density Network (XRMDN), a novel deep learning framework engineered to address these challenges. XRMDN leverages a sophisticated architecture to process demand residuals and variance through correlated modules, allowing for the flexible incorporation of endogenous and exogenous data. This architecture, featuring recurrent connections within the weight, mean, and variance neural networks, adeptly captures demand trends, thus significantly enhancing forecasting precision, particularly in high-volatility scenarios. Our comprehensive experimental analysis, utilizing real-world MoD datasets, demonstrates that XRMDN surpasses the existing benchmark models across various metrics, notably excelling in high-demand volatility contexts. This advancement in probabilistic demand forecasting marks a significant contribution to the field, offering a robust tool for enhancing operational efficiency and customer satisfaction in MoD systems.
翻訳日:2024-03-07 02:10:03 公開日:2024-03-05
# 猫の顔ランドマークの自動検出

Automated Detection of Cat Facial Landmarks ( http://arxiv.org/abs/2310.09793v2 )

ライセンス: Link先を確認
George Martvel, Ilan Shimshoni and Anna Zamansky(参考訳) 動物の感情コンピューティングの分野は急速に発展しており、表情の分析は重要な側面である。 この分野で現在直面している最も重要な課題の1つは、表情分析のためのモデルの開発を可能にする高品質で包括的なデータセットの不足である。 考えられるアプローチの1つは、人間や動物に示される顔のランドマークの利用である。 本稿では,猫顔面解剖学において,境界ボックスと48個の顔ランドマークを付記した,猫顔面画像の新しいデータセットを提案する。 また,拡張型ensembe法を用いたランドマーク検出畳み込み畳み込みニューラルネットワークモデルを提案する。 本モデルは猫の顔に優れた性能を示し,人間の顔のランドマーク検出に応用できる。

The field of animal affective computing is rapidly emerging, and analysis of facial expressions is a crucial aspect. One of the most significant challenges that researchers in the field currently face is the scarcity of high-quality, comprehensive datasets that allow the development of models for facial expressions analysis. One of the possible approaches is the utilisation of facial landmarks, which has been shown for humans and animals. In this paper we present a novel dataset of cat facial images annotated with bounding boxes and 48 facial landmarks grounded in cat facial anatomy. We also introduce a landmark detection convolution neural network-based model which uses a magnifying ensembe method. Our model shows excellent performance on cat faces and is generalizable to human facial landmark detection.
翻訳日:2024-03-07 02:09:38 公開日:2024-03-05
# 量子多体系の基底状態特性の証明

Certifying ground-state properties of quantum many-body systems ( http://arxiv.org/abs/2310.05844v4 )

ライセンス: Link先を確認
Jie Wang, Jacopo Surace, Ir\'en\'ee Fr\'erot, Beno\^it Legat, Marc-Olivier Renou, Victor Magron, Antonio Ac\'in(参考訳) 量子物理学におけるユビキタス問題は、多体系の基底状態の性質を理解することである。 システムサイズを増加させると、正確な対角化がすぐに不可能になるという事実に直面すると、変分的アプローチは一般的にスケーラブルな代替手段として採用される: エネルギーはすべての可能な状態のサブセット上で最小化され、解状態上で異なる物理量を計算する。 顕著な成功にもかかわらず、厳密に言えば、変分法が提供するものはすべて基底状態エネルギーの上限である。 一方、半有限計画法に基づく基底状態問題の緩和は相補的なアプローチであり、基底状態エネルギーの低い境界を与える。 しかし、現在の実装では、変分法も緩和法もエネルギー以外の基底状態にある他の観測物に証明可能な束縛を与えない。 本研究では,任意の順序の相関関数や構造因子,順序パラメータなど,基底状態における観測可能な任意の値に対する証明可能な境界を導出するために,この2つのアプローチの組み合わせが有効であることを示す。 このアプローチのパワーを1Dおよび2Dスピン1半ハイゼンベルクモデルのパラダイム的な例で説明する。 提案手法のスケーラビリティを向上させるため, 従来よりもはるかに高精度に数百個の粒子の粒度に到達するため, 検討されたシステムの対称性と疎性を利用する。 そこで本研究では,多体基底状態特性の検証可能な境界を,エネルギーを超えたスケーラブルな方法で得る方法を示す。

A ubiquitous problem in quantum physics is to understand the ground-state properties of many-body systems. Confronted with the fact that exact diagonalisation quickly becomes impossible when increasing the system size, variational approaches are typically employed as a scalable alternative: energy is minimised over a subset of all possible states and then different physical quantities are computed over the solution state. Despite remarkable success, rigorously speaking, all what variational methods offer are upper bounds on the ground-state energy. On the other hand, so-called relaxations of the ground-state problem based on semidefinite programming represent a complementary approach, providing lower bounds to the ground-state energy. However, in their current implementation, neither variational nor relaxation methods offer provable bound on other observables in the ground state beyond the energy. In this work, we show that the combination of the two classes of approaches can be used to derive certifiable bounds on the value of any observable in the ground state, such as correlation functions of arbitrary order, structure factors, or order parameters. We illustrate the power of this approach in paradigmatic examples of 1D and 2D spin-one-half Heisenberg models. To improve the scalability of the method, we exploit the symmetries and sparsity of the considered systems to reach sizes of hundreds of particles at much higher precision than previous works. Our analysis therefore shows how to obtain certifiable bounds on many-body ground-state properties beyond energy in a scalable way.
翻訳日:2024-03-07 02:06:44 公開日:2024-03-05
# 大規模言語モデルの空間理解の評価

Evaluating Spatial Understanding of Large Language Models ( http://arxiv.org/abs/2310.14540v2 )

ライセンス: Link先を確認
Yutaro Yamada, Yihan Bao, Andrew K. Lampinen, Jungo Kasai, Ilker Yildirim(参考訳) 大きな言語モデル(LLM)は、様々なタスクにまたがる優れた機能を示している。 トレーニング中のテキストのみを見るモデルにもかかわらず、最近のいくつかの研究は、LLM表現が基礎となる基礎概念の側面を暗黙的に捉えていることを示唆している。 本稿では,空間的関係という,特に健全な知識のLLM表現について考察する。 自然言語ナビゲーションタスクを設計,llm,特にgpt-3.5-turbo,gpt-4,llama2系列モデルを用いて空間構造を表現・推論する。 これらのタスクは、正方形、六角形、三角形の格子、環、木など、異なる空間構造におけるLLM性能のかなりのばらつきを示す。 広い誤差解析において,LLMの誤りは空間的要因と非空間的要因の両方を反映していることがわかった。 これらのことから, LLMは空間構造の特定の側面を暗黙的に捉えているように見えるが, 改善の余地は残されている。

Large language models (LLMs) show remarkable capabilities across a variety of tasks. Despite the models only seeing text in training, several recent studies suggest that LLM representations implicitly capture aspects of the underlying grounded concepts. Here, we explore LLM representations of a particularly salient kind of grounded knowledge -- spatial relationships. We design natural-language navigation tasks and evaluate the ability of LLMs, in particular GPT-3.5-turbo, GPT-4, and Llama2 series models, to represent and reason about spatial structures. These tasks reveal substantial variability in LLM performance across different spatial structures, including square, hexagonal, and triangular grids, rings, and trees. In extensive error analysis, we find that LLMs' mistakes reflect both spatial and non-spatial factors. These findings suggest that LLMs appear to capture certain aspects of spatial structure implicitly, but room for improvement remains.
翻訳日:2024-03-07 02:00:02 公開日:2024-03-05
# 量子テレポーテーションは対称性で保護された位相秩序を意味する

Quantum teleportation implies symmetry-protected topological order ( http://arxiv.org/abs/2310.12227v2 )

ライセンス: Link先を確認
Yifan Hong, David T. Stephen, Aaron J. Friedman(参考訳) 我々は、地域性からの洞察を用いて、幅広い種類のテレポーテーションプロトコルを制約する。 我々が考える「標準」テレポーテーションプロトコルでは、すべての結果依存ユニタリは、測定結果の線形関数に条件付けられたパウリ作用素である。 そのようなプロトコルはすべて、対称性を保護した位相的(SPT)順序を示す「資源状態」を作成することを含み、アベリアは対称性を保護している(\mathbb{Z}_2 \times \mathbb{Z}_2)^k$。 k$論理状態は、バルク内の対応する2k$文字列順序パラメータを測定し、結果依存のPaulisを適用することで、チェーンのエッジ間でテレポートされる。 したがって、この非自明なSPT状態の単一のクラスは、$k$ qubitsの標準的なテレポートに必要かつ十分である。 この結果を,クラスタ状態,変種,非安定化器ハイパーグラフ状態など,いくつかの例で説明する。

We constrain a broad class of teleportation protocols using insights from locality. In the "standard" teleportation protocols we consider, all outcome-dependent unitaries are Pauli operators conditioned on linear functions of the measurement outcomes. We find that all such protocols involve preparing a "resource state" exhibiting symmetry-protected topological (SPT) order with Abelian protecting symmetry $\mathcal{G}_{k}= (\mathbb{Z}_2 \times \mathbb{Z}_2)^k$. The $k$ logical states are teleported between the edges of the chain by measuring the corresponding $2k$ string order parameters in the bulk and applying outcome-dependent Paulis. Hence, this single class of nontrivial SPT states is both necessary and sufficient for the standard teleportation of $k$ qubits. We illustrate this result with several examples, including the cluster state, variants thereof, and a nonstabilizer hypergraph state.
翻訳日:2024-03-07 01:58:10 公開日:2024-03-05
# Zipformer: 音声認識のための高速で優れたエンコーダ

Zipformer: A faster and better encoder for automatic speech recognition ( http://arxiv.org/abs/2310.11230v3 )

ライセンス: Link先を確認
Zengwei Yao, Liyong Guo, Xiaoyu Yang, Wei Kang, Fangjun Kuang, Yifan Yang, Zengrui Jin, Long Lin, Daniel Povey(参考訳) Conformerは自動音声認識(ASR)のための最も人気のあるエンコーダモデルとなっている。 ローカル依存とグローバル依存の両方を学ぶために、トランスフォーマーに畳み込みモジュールを追加する。 本研究では,Zipformerと呼ばれる高速で,メモリ効率が高く,パフォーマンスも向上したトランスフォーマーについて述べる。 モデリングの変更は以下のとおりである。 1) 中間スタックが低フレームレートで作動するu-netライクエンコーダ構造 2) 効率のために注意重みを再利用するより多くのモジュールを備えた再編成されたブロック構造 3) BiasNormと呼ばれるLayerNormの修正版は、いくつかの長さ情報を保持できます。 4) 新しいアクティベーション機能 SwooshR と SwooshL は Swish より優れている。 また,各テンソルの現在のスケールで更新をスケールし,相対的な変化をほぼ同じ状態に保ちながら,パラメータスケールを明示的に学習する,scaledadamと呼ばれる新しい最適化器を提案する。 これはAdamよりも早く収束し、パフォーマンスを向上させる。 LibriSpeech、Aishell-1、WenetSpeechデータセットの大規模な実験は、提案したZipformerが他の最先端のASRモデルに対して有効であることを示す。 私たちのコードはhttps://github.com/k2-fsa/icefallで公開されています。

The Conformer has become the most popular encoder model for automatic speech recognition (ASR). It adds convolution modules to a transformer to learn both local and global dependencies. In this work we describe a faster, more memory-efficient, and better-performing transformer, called Zipformer. Modeling changes include: 1) a U-Net-like encoder structure where middle stacks operate at lower frame rates; 2) reorganized block structure with more modules, within which we re-use attention weights for efficiency; 3) a modified form of LayerNorm called BiasNorm allows us to retain some length information; 4) new activation functions SwooshR and SwooshL work better than Swish. We also propose a new optimizer, called ScaledAdam, which scales the update by each tensor's current scale to keep the relative change about the same, and also explictly learns the parameter scale. It achieves faster convergence and better performance than Adam. Extensive experiments on LibriSpeech, Aishell-1, and WenetSpeech datasets demonstrate the effectiveness of our proposed Zipformer over other state-of-the-art ASR models. Our code is publicly available at https://github.com/k2-fsa/icefall.
翻訳日:2024-03-07 01:57:28 公開日:2024-03-05
# 機械学習パイプラインの漏洩について

On Leakage in Machine Learning Pipelines ( http://arxiv.org/abs/2311.04179v2 )

ライセンス: Link先を確認
Leonard Sasse and Eliana Nicolaisen-Sobesky and Juergen Dukart and Simon B. Eickhoff and Michael G\"otz and Sami Hamdan and Vera Komeyer and Abhijit Kulkarni and Juha Lahnakoski and Bradley C. Love and Federico Raimondo and Kaustubh R. Patil(参考訳) 機械学習(ML)は予測モデリングのための強力なツールを提供する。 MLの人気は、物理学やマーケティング、医療など、さまざまな分野の応用において、サンプルレベルの予測が約束されることに由来する。 しかし、適切に実装され評価されていない場合、MLパイプラインは、通常、過度に最適化されたパフォーマンス見積と新しいデータへの一般化の失敗をもたらすリークを含む可能性がある。 これは深刻な負の財政と社会的影響をもたらす可能性がある。 私たちの目標は、MLパイプラインの設計、実装、評価においてリークにつながる原因に関する理解を広げることです。 具体例で示し、MLパイプラインで発生する可能性のあるさまざまな種類のリークについて、包括的概要と議論を提供する。

Machine learning (ML) provides powerful tools for predictive modeling. ML's popularity stems from the promise of sample-level prediction with applications across a variety of fields from physics and marketing to healthcare. However, if not properly implemented and evaluated, ML pipelines may contain leakage typically resulting in overoptimistic performance estimates and failure to generalize to new data. This can have severe negative financial and societal implications. Our aim is to expand understanding associated with causes leading to leakage when designing, implementing, and evaluating ML pipelines. Illustrated by concrete examples, we provide a comprehensive overview and discussion of various types of leakage that may arise in ML pipelines.
翻訳日:2024-03-07 01:51:00 公開日:2024-03-05
# 神経ネットワークのデコード:接続性と機能予測のための貯留層コンピューティングアプローチ

Decoding Neuronal Networks: A Reservoir Computing Approach for Predicting Connectivity and Functionality ( http://arxiv.org/abs/2311.03131v3 )

ライセンス: Link先を確認
Ilya Auslender, Giorgio Letti, Yasaman Heydari, Clara Zaccaria, Lorenzo Pavesi(参考訳) 本研究では,神経ネットワークにおける電気生理学的測定の課題について考察する。 我々の計算モデルはReservoir Computing Network(RCN)アーキテクチャに基づいて,神経培養の電気生理学的測定から得られた時空間データを解読する。 ネットワーク構造をマクロスケールで再構築することにより,ニューロンユニット間の接続性を明らかにする。 特に,ネットワーク接続マップの予測には,相互相関や転送エントロピーといった一般的な手法を上回っている。 さらに,局所的な視聴覚刺激を含む特定の入力に対するネットワーク応答を予測できることを実験的に検証した。

In this study, we address the challenge of analyzing electrophysiological measurements in neuronal networks. Our computational model, based on the Reservoir Computing Network (RCN) architecture, deciphers spatio-temporal data obtained from electrophysiological measurements of neuronal cultures. By reconstructing the network structure on a macroscopic scale, we reveal the connectivity between neuronal units. Notably, our model outperforms common methods like Cross-Correlation and Transfer-Entropy in predicting the network's connectivity map. Furthermore, we experimentally validate its ability to forecast network responses to specific inputs, including localized optogenetic stimuli.
翻訳日:2024-03-07 01:50:30 公開日:2024-03-05
# 格子正則化による陽イオン電磁力学におけるカシミール効果

Casimir effect in axion electrodynamics with lattice regularizations ( http://arxiv.org/abs/2310.18092v2 )

ライセンス: Link先を確認
Katsumasa Nakayama and Kei Suzuki(参考訳) カシミール効果は光子場と境界条件の相互作用によって引き起こされ、特にアクシオン電気力学で修飾された光子場はカシミールエネルギーのサイン・フリップにつながる可能性がある。 軸電力学におけるカシミール効果を導出するための理論的アプローチを提案する。 このアプローチは格子正則化に基づいており、カシミールエネルギーの格子間隔依存性を議論することができる。 このアプローチでは、カシミールエネルギーのサインフリップ挙動が正しく再現される。 格子上で計算された物理量の連続体極限を取ることにより、連続体理論と一致する結果が得られる。 このアプローチは非零温度でのカシミール効果にも適用できる。

The Casimir effect is induced by the interplay between photon fields and boundary conditions, and in particular, photon fields modified in axion electrodynamics may lead to the sign-flipping of the Casimir energy. We propose a theoretical approach to derive the Casimir effect in axion electrodynamics. This approach is based on a lattice regularization and enables us to discuss the dependence on the lattice spacing for the Casimir energy. With this approach, the sign-flipping behavior of the Casimir energy is correctly reproduced. By taking the continuum limit of physical quantity calculated on the lattice, we can obtain the results consistent with the continuum theory. This approach can also be applied to the Casimir effect at nonzero temperature.
翻訳日:2024-03-07 01:46:58 公開日:2024-03-05
# DISYRE: Unsupervised Anomaly Detection のための拡散誘導型合成保存法

DISYRE: Diffusion-Inspired SYnthetic REstoration for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2311.15453v2 )

ライセンス: Link先を確認
Sergio Naval Marimont and Matthew Baugh and Vasilis Siomos and Christos Tzelepis and Bernhard Kainz and Giacomo Tarroni(参考訳) 教師なし異常検出(unsupervised anomaly detection, uad)技術は、アノテーションに頼ることなく異常を識別し、ローカライズすることを目的としている。 拡散モデルは、所望の分布に属する確率、すなわちスコア関数 $\nabla_x \log p(x)$ をモデル化するために、入力を$x$ に変更することを学ぶ。 このようなスコア関数は、$\nabla_x \log p(x)$ がピクセル単位の異常スコアであるため、uad に潜在的に関係している。 しかし,拡散モデルはガウス雑音に基づく汚職過程を逆転するように訓練されており,学習したスコア関数は医学的異常に一般化する可能性は低い。 本研究は, UADに関連するスコア関数の学習方法の問題に対処し, DISYRE: Diffusion-Inspired SYnthetic Restorationを提案する。 拡散型パイプラインは維持するが,ガウス雑音の劣化を徐々に合成異常に置き換えて,学習したスコア関数を医学的,自然発生異常に一般化する。 我々は3つの一般的な脳MRI UADベンチマークでdisYREを評価し、3つのタスクのうち2つで他の方法よりもかなり優れています。

Unsupervised Anomaly Detection (UAD) techniques aim to identify and localize anomalies without relying on annotations, only leveraging a model trained on a dataset known to be free of anomalies. Diffusion models learn to modify inputs $x$ to increase the probability of it belonging to a desired distribution, i.e., they model the score function $\nabla_x \log p(x)$. Such a score function is potentially relevant for UAD, since $\nabla_x \log p(x)$ is itself a pixel-wise anomaly score. However, diffusion models are trained to invert a corruption process based on Gaussian noise and the learned score function is unlikely to generalize to medical anomalies. This work addresses the problem of how to learn a score function relevant for UAD and proposes DISYRE: Diffusion-Inspired SYnthetic REstoration. We retain the diffusion-like pipeline but replace the Gaussian noise corruption with a gradual, synthetic anomaly corruption so the learned score function generalizes to medical, naturally occurring anomalies. We evaluate DISYRE on three common Brain MRI UAD benchmarks and substantially outperform other methods in two out of the three tasks.
翻訳日:2024-03-07 01:41:12 公開日:2024-03-05
# 多項式時間における木型構造因果モデルの同定

Identification for Tree-shaped Structural Causal Models in Polynomial Time ( http://arxiv.org/abs/2311.14058v2 )

ライセンス: Link先を確認
Aaryan Gupta and Markus Bl\"aser(参考訳) 線形構造因果モデル(SCM)は、確率変数間の関係を表現・解析するために用いられる。 直接因果効果は有向エッジとして表現され、結合因子は両向エッジとして表現される。 ノード間の相関から因果パラメータを同定することは、人工知能におけるオープンな問題である。 本稿では,木を配向成分とするSCMについて検討する。 Van der Zander et al. (AISTATS'22, PLMR 151, pp. 6770--6792, 2022) は、この場合の同定問題に対する PSPACE-algorithm を与える。 本研究では,木形SCMの同定問題を解くランダム化多項式時間アルゴリズムを提案する。 すべての構造パラメータに対して、アルゴリズムは、汎用的に識別可能か、ジェネリックで2-識別可能か、ジェネリックで識別不能かを決定する。 (他にはあり得ない。) 最初の2つのケースでは、対応するパラメータに対して多項式の1つまたは2つの分数アフィン平方根項(FASTP)を提供する。

Linear structural causal models (SCMs) are used to express and analyse the relationships between random variables. Direct causal effects are represented as directed edges and confounding factors as bidirected edges. Identifying the causal parameters from correlations between the nodes is an open problem in artificial intelligence. In this paper, we study SCMs whose directed component forms a tree. Van der Zander et al. (AISTATS'22, PLMR 151, pp. 6770--6792, 2022) give a PSPACE-algorithm for the identification problem in this case, which is a significant improvement over the general Gr\"obner basis approach, which has doubly-exponential time complexity in the number of structural parameters. In this work, we present a randomized polynomial-time algorithm, which solves the identification problem for tree-shaped SCMs. For every structural parameter, our algorithms decides whether it is generically identifiable, generically 2-identifiable, or generically unidentifiable. (No other cases can occur.) In the first two cases, it provides one or two fractional affine square root terms of polynomials (FASTPs) for the corresponding parameter, respectively.
翻訳日:2024-03-07 01:40:44 公開日:2024-03-05
# LLMは推論モデルで問題を修正することができるか? より可能性の高いai計画モデルに向けて

Can LLMs Fix Issues with Reasoning Models? Towards More Likely Models for AI Planning ( http://arxiv.org/abs/2311.13720v2 )

ライセンス: Link先を確認
Turgay Caglar, Sirine Belhaj, Tathagata Chakraborti, Michael Katz, Sarath Sreedharan(参考訳) これは、自動化計画タスクにおけるモデル空間編集を目的として、大規模言語モデル(llm)のアプリケーションを調べる最初の仕事である。 この統合のステージを設定するために、ai計画文献で研究されているモデル空間問題の2つの異なるフレーバーを調査し、それらのタスクに対するllmの効果を探求する。 2段階のプロセスの一部としてCS手法と協調する統計信号の役割と独立モデル空間論者の役割の両方において、LCMが計画におけるモデル空間の課題を解決するために伝統的に用いられてきたアプローチであるコンビナトリアルサーチ(CS)とLLMの性能の対比を実証的に示す。 実験の結果,将来的な計画課題に対するモデル空間推論のエキサイティングな世界へのLSMのさらなる進出が示唆された。

This is the first work to look at the application of large language models (LLMs) for the purpose of model space edits in automated planning tasks. To set the stage for this union, we explore two different flavors of model space problems that have been studied in the AI planning literature and explore the effect of an LLM on those tasks. We empirically demonstrate how the performance of an LLM contrasts with combinatorial search (CS) -- an approach that has been traditionally used to solve model space tasks in planning, both with the LLM in the role of a standalone model space reasoner as well as in the role of a statistical signal in concert with the CS approach as part of a two-stage process. Our experiments show promising results suggesting further forays of LLMs into the exciting world of model space reasoning for planning tasks in the future.
翻訳日:2024-03-07 01:40:07 公開日:2024-03-05
# 良い特徴抽出器は、弱い教師付き病理学スライド分類に必要な全てである

A Good Feature Extractor Is All You Need for Weakly Supervised Pathology Slide Classification ( http://arxiv.org/abs/2311.11772v4 )

ライセンス: Link先を確認
Georg W\"olflein, Dyke Ferber, Asier Rabasco Meneghetti, Omar S. M. El Nahhas, Daniel Truhn, Zunamys I. Carrero, David J. Harrison, Ognjen Arandjelovi\'c, Jakob N. Kather(参考訳) 定常正規化は、計算病理学パイプラインにおいて重要な前処理ステップであると考えられている。 この信念は,多種多様な病理データセットを用いた自己教師付き学習を用いて訓練した強力な特徴抽出器の出現を動機として,弱教師付き全スライド画像分類の文脈において疑問を呈する。 この目的のために,9つのタスク,5つのデータセット,3つのダウンストリームアーキテクチャ,さまざまな前処理セットアップにわたる8000以上のトレーニングの実行を含む,現在利用可能な病的特徴抽出器の総合的な評価を行った。 特に,汚れの正規化や画像拡張の省略は下流のスライドレベルの分類性能を損なうことなく,メモリと計算の大幅な節約を伴っている。 比較的下流のパフォーマンス比較を容易にする新しい評価指標を用いて, 最良な抽出器を特定し, それらの潜在空間が, 染色や回転などの増強の変動に対して著しく頑健であることを示す。 従来のパッチレベルのベンチマーク研究とは対照的に,本手法は,外部検証コホートを用いた弱い監督条件下でのスライドレベルのバイオマーカー予測タスクに焦点をあてて臨床関連性を強調する。 本研究は,前処理ニーズを最小化し,特徴抽出器の選択を知らせることで,デジタル病理ワークフローを合理化する。 コードとデータはhttps://georg.woelflein.eu/good-featuresで入手できる。

Stain normalisation is thought to be a crucial preprocessing step in computational pathology pipelines. We question this belief in the context of weakly supervised whole slide image classification, motivated by the emergence of powerful feature extractors trained using self-supervised learning on diverse pathology datasets. To this end, we performed the most comprehensive evaluation of publicly available pathology feature extractors to date, involving more than 8,000 training runs across nine tasks, five datasets, three downstream architectures, and various preprocessing setups. Notably, we find that omitting stain normalisation and image augmentations does not compromise downstream slide-level classification performance, while incurring substantial savings in memory and compute. Using a new evaluation metric that facilitates relative downstream performance comparison, we identify the best publicly available extractors, and show that their latent spaces are remarkably robust to variations in stain and augmentations like rotation. Contrary to previous patch-level benchmarking studies, our approach emphasises clinical relevance by focusing on slide-level biomarker prediction tasks in a weakly supervised setting with external validation cohorts. Our findings stand to streamline digital pathology workflows by minimising preprocessing needs and informing the selection of feature extractors. Code and data are available at https://georg.woelflein.eu/good-features.
翻訳日:2024-03-07 01:39:06 公開日:2024-03-05
# RiskBench: リスク識別のためのシナリオベースのベンチマーク

RiskBench: A Scenario-based Benchmark for Risk Identification ( http://arxiv.org/abs/2312.01659v2 )

ライセンス: Link先を確認
Chi-Hsi Kung, Chieh-Chi Yang, Pang-Yuan Pao, Shu-Wei Lu, Pin-Lun Chen, Hsin-Cheng Lu, Yi-Ting Chen(参考訳) インテリジェント運転システムは、安全性能を高めるために学際的な努力を必要とするゼロコラボレーションモビリティエクスペリエンスの実現を目指している。 本研究は,動的トラヒック参加者と予期しないイベントに起因するリスクを識別し,分析するプロセスであるリスク識別に重点を置いている。 コミュニティでは大きな進歩がなされているが、リスク識別アルゴリズムの現在の評価では、独立したデータセットが使用されているため、直接比較が難しくなり、安全性向上に向けた集団的進歩が妨げられている。 この制限に対処するため,リスク識別のための大規模シナリオベースベンチマークである \textbf{RiskBench} を導入する。 我々は,様々なシナリオにおける根拠真理リスクの体系的収集を可能にするために,シナリオ分類と拡張パイプラインを設計する。 我々は,(1)リスクの検出と発見,(2)リスクの予測,(3)意思決定の促進を行う10のアルゴリズムの能力を評価する。 我々は,リスク同定に関する今後の研究を概説する。 我々の目的は、ゼロ衝突社会の実現に協力的な取り組みを奨励することである。 私たちは、データセットとベンチマークツールキットをプロジェクトのページに公開しました。

Intelligent driving systems aim to achieve a zero-collision mobility experience, requiring interdisciplinary efforts to enhance safety performance. This work focuses on risk identification, the process of identifying and analyzing risks stemming from dynamic traffic participants and unexpected events. While significant advances have been made in the community, the current evaluation of different risk identification algorithms uses independent datasets, leading to difficulty in direct comparison and hindering collective progress toward safety performance enhancement. To address this limitation, we introduce \textbf{RiskBench}, a large-scale scenario-based benchmark for risk identification. We design a scenario taxonomy and augmentation pipeline to enable a systematic collection of ground truth risks under diverse scenarios. We assess the ability of ten algorithms to (1) detect and locate risks, (2) anticipate risks, and (3) facilitate decision-making. We conduct extensive experiments and summarize future research on risk identification. Our aim is to encourage collaborative endeavors in achieving a society with zero collisions. We have made our dataset and benchmark toolkit publicly on the project page: https://hcis-lab.github.io/RiskBench/
翻訳日:2024-03-07 01:30:22 公開日:2024-03-05
# 異なる化学ドメイン間の伝達学習:小分子と化学反応データに基づく深層学習モデルによる有機材料の仮想スクリーニング

Transfer Learning across Different Chemical Domains: Virtual Screening of Organic Materials with Deep Learning Models Pretrained on Small Molecule and Chemical Reaction Data ( http://arxiv.org/abs/2311.18377v2 )

ライセンス: Link先を確認
Chengwei Zhang, Yushuang Zhai, Ziyang Gong, Hongliang Duan, Yuan-Bin She, Yun-Fang Yang, An Su(参考訳) 機械学習は、従来の計算要求技術よりもコスト効率が高いため、有機材料の仮想スクリーニングに好まれている。 しかし、有機材料のラベル付きデータの不足は、高度な機械学習モデルを訓練する上で大きな課題となる。 本研究は, 薬物様小分子のデータベースと化学反応を利用して, BERTモデルの事前学習を行い, 有機材料の仮想スクリーニングにおける性能を向上させる可能性を示す。 BERTモデルを5つの仮想スクリーニングタスクのデータで微調整することで、USPTO-SMILESデータセットで事前訓練されたバージョンは、3つのタスクで0.94以上、2つのタスクで0.81以上に達した。 この性能は、小さな分子や有機材料データベースで事前訓練されたモデルを超え、仮想スクリーニングデータで直接訓練された3つの伝統的な機械学習モデルを上回る。 USPTO-SMILES事前訓練されたBERTモデルの成功は、USPTOデータベースの多様な有機建築ブロックによるものであり、より広い化学空間の探索を提供する。 さらに、USPTOよりも広い反応範囲の反応データベースにアクセスすることで、モデルの性能がさらに向上する可能性が示唆された。 本研究は, 有機材料の効率的な仮想スクリーニングのために, 異なる化学領域に転移学習を適用する可能性を検証する。

Machine learning is becoming a preferred method for the virtual screening of organic materials due to its cost-effectiveness over traditional computationally demanding techniques. However, the scarcity of labeled data for organic materials poses a significant challenge for training advanced machine learning models. This study showcases the potential of utilizing databases of drug-like small molecules and chemical reactions to pretrain the BERT model, enhancing its performance in the virtual screening of organic materials. By fine-tuning the BERT models with data from five virtual screening tasks, the version pretrained with the USPTO-SMILES dataset achieved R2 scores exceeding 0.94 for three tasks and over 0.81 for two others. This performance surpasses that of models pretrained on the small molecule or organic materials databases and outperforms three traditional machine learning models trained directly on virtual screening data. The success of the USPTO-SMILES pretrained BERT model can be attributed to the diverse array of organic building blocks in the USPTO database, offering a broader exploration of the chemical space. The study further suggests that accessing a reaction database with a wider range of reactions than the USPTO could further enhance model performance. Overall, this research validates the feasibility of applying transfer learning across different chemical domains for the efficient virtual screening of organic materials.
翻訳日:2024-03-07 01:28:36 公開日:2024-03-05
# スペクトルグラフニューラルネットワークのための有効ユニバーサル多項式基底

An Effective Universal Polynomial Basis for Spectral Graph Neural Networks ( http://arxiv.org/abs/2311.18177v2 )

ライセンス: Link先を確認
Keke Huang, Pietro Li\`o(参考訳) グラフフィルタとも呼ばれるスペクトルグラフニューラルネットワーク(gnns)は、ヘテロフィリグラフの普及率を高めている。 最適グラフフィルタはフーリエ変換のラプラシアン固有分解に依存する。 禁止計算を回避するために、異なる多項式を利用する多数の多項式フィルタが提案され、所望のグラフフィルタを近似する。 しかし、多項式フィルタの大多数の多項式は事前定義され、すべてのグラフに固定され、異なるグラフにまたがる多様なヘテロフィ次数に適合しない。 この問題に対処するために,まず, 所望のグラフフィルタの多項式基底とグラフの次数との相関を, 徹底的な理論解析により検討する。 その後,グラフのヘテロフィア次数を組み込んだ適応的ヘテロフィア基底を開発する。 その後、このヘテロフィリー基底をホモフィリー基底と統合し、普遍多項式基底ユニバシスを生成する。 その結果,一般多項式フィルタUniFilterを考案した。 実世界のデータ集合と合成データ集合の両方に対する包括的実験は、ユニフィルタの優位性を著しく支持し、ユニバスの有効性と汎用性を示し、新しいグラフ解析法として有望な能力を示している。

Spectral Graph Neural Networks (GNNs), also referred to as graph filters have gained increasing prevalence for heterophily graphs. Optimal graph filters rely on Laplacian eigendecomposition for Fourier transform. In an attempt to avert the prohibitive computations, numerous polynomial filters by leveraging distinct polynomials have been proposed to approximate the desired graph filters. However, polynomials in the majority of polynomial filters are predefined and remain fixed across all graphs, failing to accommodate the diverse heterophily degrees across different graphs. To tackle this issue, we first investigate the correlation between polynomial bases of desired graph filters and the degrees of graph heterophily via a thorough theoretical analysis. Afterward, we develop an adaptive heterophily basis by incorporating graph heterophily degrees. Subsequently, we integrate this heterophily basis with the homophily basis, creating a universal polynomial basis UniBasis. In consequence, we devise a general polynomial filter UniFilter. Comprehensive experiments on both real-world and synthetic datasets with varying heterophily degrees significantly support the superiority of UniFilter, demonstrating the effectiveness and generality of UniBasis, as well as its promising capability as a new method for graph analysis.
翻訳日:2024-03-07 01:27:56 公開日:2024-03-05
# 多様なアンサンブルと拡散モデルによるバイアス緩和

Mitigating Biases with Diverse Ensembles and Diffusion Models ( http://arxiv.org/abs/2311.16176v2 )

ライセンス: Link先を確認
Luca Scimeca, Alexander Rubinstein, Damien Teney, Seong Joon Oh, Armand Mihai Nicolicioiu, Yoshua Bengio(参考訳) 複数の手がかりがターゲットラベルを予測しているデータにおける散発的な相関は、しばしば近道バイアスと呼ばれる現象につながり、モデルでは信頼できるものを無視しながら、誤った、分かりやすい手がかりに依存する。 本研究では,拡散確率モデル(DPM)を用いた短絡バイアス軽減のためのアンサンブル多様化フレームワークを提案する。 DPMは,特定のトレーニング間隔において,相関した入力特徴を示すサンプルを用いて訓練しても,新しい特徴の組み合わせで画像を生成することができることを示す。 我々は、この重要な特性を利用して合成反事実を生成し、アンサンブル不一致によるモデルの多様性を向上させる。 そこで本研究では,DPM誘導の多様化は,制御信号の追加を必要とせず,一次ショートカットキューへの依存を取り除くのに十分であることを示す。 さらに,複数の多様化目標に対して有効性を実証的に定量化し,さらに補助データ収集に依存する先行作業と同等に一般化および多様化性能の向上を図った。

Spurious correlations in the data, where multiple cues are predictive of the target labels, often lead to a phenomenon known as shortcut bias, where a model relies on erroneous, easy-to-learn cues while ignoring reliable ones. In this work, we propose an ensemble diversification framework exploiting Diffusion Probabilistic Models (DPMs) for shortcut bias mitigation. We show that at particular training intervals, DPMs can generate images with novel feature combinations, even when trained on samples displaying correlated input features. We leverage this crucial property to generate synthetic counterfactuals to increase model diversity via ensemble disagreement. We show that DPM-guided diversification is sufficient to remove dependence on primary shortcut cues, without a need for additional supervised signals. We further empirically quantify its efficacy on several diversification objectives, and finally show improved generalization and diversification performance on par with prior work that relies on auxiliary data collection.
翻訳日:2024-03-07 01:26:55 公開日:2024-03-05
# グラフ上の一般化ニューラル拡散フレームワーク

A Generalized Neural Diffusion Framework on Graphs ( http://arxiv.org/abs/2312.08616v4 )

ライセンス: Link先を確認
Yibo Li, Xiao Wang, Hongrui Liu, Chuan Shi(参考訳) 近年の研究では、GNNと拡散過程の関連が明らかにされており、多くの拡散に基づくGNNが提案されている。 しかしながら、これらの2つのメカニズムは密接に関連しているため、自然に1つの根本的な疑問が生じる: これらのGNNを正式に統一できる一般的な拡散フレームワークはあるか? この質問に対する回答は、GNNの学習プロセスの理解を深めるだけでなく、より広いクラスのGNNを設計するための新たな扉を開くかもしれない。 本稿では,より多くのgnnと拡散過程の関係を形式的に確立する,忠実性項を持つ一般拡散方程式の枠組みを提案する。 一方、この枠組みでは、グラフ拡散ネットワークの1つの特性、すなわち、現在の神経拡散過程は1次拡散方程式にのみ対応している。 しかし, 実験により, 高次隣人のラベルは実際には単相性を示しており, 上位隣人のラベルに基づく類似性は, 一階隣人の類似性を必要としないことがわかった。 この発見の動機は、新しい高次隣り合う拡散方程式を設計し、フレームワークに基づいた新しいタイプのグラフ拡散ネットワーク(HiD-Net)を導出することにある。 高次拡散方程式では、hid-netは攻撃に対してより強固であり、ホモフィリーグラフとヘテロフィリーグラフの両方で動作する。 我々は,HiD-Netと高次ランダムウォークの関係を理論的に解析するだけでなく,理論的収束保証を提供する。 グラフ拡散ネットワークにおけるHiD-Netの有効性を実験的に検証した。

Recent studies reveal the connection between GNNs and the diffusion process, which motivates many diffusion-based GNNs to be proposed. However, since these two mechanisms are closely related, one fundamental question naturally arises: Is there a general diffusion framework that can formally unify these GNNs? The answer to this question can not only deepen our understanding of the learning process of GNNs, but also may open a new door to design a broad new class of GNNs. In this paper, we propose a general diffusion equation framework with the fidelity term, which formally establishes the relationship between the diffusion process with more GNNs. Meanwhile, with this framework, we identify one characteristic of graph diffusion networks, i.e., the current neural diffusion process only corresponds to the first-order diffusion equation. However, by an experimental investigation, we show that the labels of high-order neighbors actually exhibit monophily property, which induces the similarity based on labels among high-order neighbors without requiring the similarity among first-order neighbors. This discovery motives to design a new high-order neighbor-aware diffusion equation, and derive a new type of graph diffusion network (HiD-Net) based on the framework. With the high-order diffusion equation, HiD-Net is more robust against attacks and works on both homophily and heterophily graphs. We not only theoretically analyze the relation between HiD-Net with high-order random walk, but also provide a theoretical convergence guarantee. Extensive experimental results well demonstrate the effectiveness of HiD-Net over state-of-the-art graph diffusion networks.
翻訳日:2024-03-07 01:20:25 公開日:2024-03-05
# VILA:ビジュアル言語モデルの事前トレーニングについて

VILA: On Pre-training for Visual Language Models ( http://arxiv.org/abs/2312.07533v3 )

ライセンス: Link先を確認
Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han(参考訳) ビジュアル言語モデル(vlms)は、最近大きな言語モデルの成功とともに急速に進歩した。 視覚的インプットでLLMを拡張するための視覚的インストラクションチューニングへの取り組みが増えているが、両モードで共同モデリングを行うことを学ぶ視覚言語事前学習プロセスの詳細な研究は欠如している。 本研究では, ステップバイステップ制御可能な比較により, LLM を VLM へ拡張することで, VLM の事前学習のための設計オプションを検討する。 1) 事前学習中のLLMの凍結は,ゼロショット性能が向上するが,LLMの凍結を必要とする非コンテキスト学習能力が欠如していること,(2) インターリーブされた事前学習データが有用であるのに対して,画像とテキストのペアだけでは最適ではないこと,(3) 微調整時に画像テキストデータにテキストのみの命令データを再解釈することで,テキストのみのタスクの劣化を軽減できるだけでなく,VLMタスクの精度も向上する,という3つの主な結果を紹介した。 強化された事前トレーニングレシピでは、Visual LanguageモデルファミリであるVILAを構築し、ベルやホイッスルを使わずに主要なベンチマークで最先端のモデル、例えばLLaVA-1.5を一貫して上回ります。 マルチモーダル事前学習は、マルチイメージ推論、強化されたコンテキスト内学習、より良い世界知識を含む、VILAの魅力的な特性を明らかにするのに役立つ。

Visual language models (VLMs) rapidly progressed with the recent success of large language models. There have been growing efforts on visual instruction tuning to extend the LLM with visual inputs, but lacks an in-depth study of the visual language pre-training process, where the model learns to perform joint modeling on both modalities. In this work, we examine the design options for VLM pre-training by augmenting LLM towards VLM through step-by-step controllable comparisons. We introduce three main findings: (1) freezing LLMs during pre-training can achieve decent zero-shot performance, but lack in-context learning capability, which requires unfreezing the LLM; (2) interleaved pre-training data is beneficial whereas image-text pairs alone are not optimal; (3) re-blending text-only instruction data to image-text data during instruction fine-tuning not only remedies the degradation of text-only tasks, but also boosts VLM task accuracy. With an enhanced pre-training recipe we build VILA, a Visual Language model family that consistently outperforms the state-of-the-art models, e.g., LLaVA-1.5, across main benchmarks without bells and whistles. Multi-modal pre-training also helps unveil appealing properties of VILA, including multi-image reasoning, enhanced in-context learning, and better world knowledge.
翻訳日:2024-03-07 01:19:31 公開日:2024-03-05
# A^3-CodGen: ローカルアウェア、グローバルアウェア、サードパーティライブラリアウェアを使ったコード再利用のためのリポジトリレベルコード生成フレームワーク

A^3-CodGen: A Repository-Level Code Generation Framework for Code Reuse with Local-Aware, Global-Aware, and Third-Party-Library-Aware ( http://arxiv.org/abs/2312.05772v4 )

ライセンス: Link先を確認
Dianshu Liao, Shidong Pan, Xiaoyu Sun, Xiaoxue Ren, Qing Huang, Zhenchang Xing, Huan Jin, Qinying Li(参考訳) コード生成ツールは、ソフトウェア開発プロセスの開発者を助けるために不可欠です。 既存のツールはしばしば作業コンテキスト、すなわちコードリポジトリと切り離され、生成されたコードは人間の開発者と似ていない。 本稿では,a^3-codgenと呼ばれる新しいコード生成フレームワークを提案する。このフレームワークは,コードリポジトリ内の情報を利用して,潜在的な論理エラーやコードの冗長性,ライブラリによる互換性問題の少ないコードを生成する。 本稿では,現在のコードファイルからのローカル認識情報,他のコードファイルからのグローバル認識情報,サードパーティライブラリ情報の3つのカテゴリを識別する。 その結果, A^3-CodGenフレームワークを採用することで, コードリポジトリ情報をLCMに抽出, ヒューズ, 供給し, より正確で, 効率的で, 再利用性の高いコードを生成することができた。 我々のフレームワークの有効性は、人間の開発者に比べて高い再利用率のコードを生成することでさらに強調されている。 この研究はコード生成の分野に大きく貢献し、開発者が実際にソフトウェア開発の進化する要求に対処するためのより強力なツールを提供する。

Code generation tools are essential to help developers in the software development process. Existing tools often disconnect with the working context, i.e., the code repository, causing the generated code to be not similar to human developers. In this paper, we propose a novel code generation framework, dubbed A^3-CodGen, to harness information within the code repository to generate code with fewer potential logical errors, code redundancy, and library-induced compatibility issues. We identify three categories of representative information for the code repository: local-aware information from current code file, global-aware information from other code files, and third-party-library information. Results demonstrate that by adopting the A^3-CodGen framework, we successfully extract, fuse, and feed code repository information into the LLM, generating more accurate, efficient, and highly reusable code. The effectiveness of our framework is further underscored by generating code with a higher reuse rate, compared to human developers. This research contributes significantly to the field of code generation, providing developers with a more powerful tool to address the evolving demands in software development in practice.
翻訳日:2024-03-07 01:18:34 公開日:2024-03-05
# ヘリカル点スプレッド関数工学による光学格子中の単一原子の3次元イメージング

Three-dimensional imaging of single atoms in an optical lattice via helical point-spread-function engineering ( http://arxiv.org/abs/2312.05341v2 )

ライセンス: Link先を確認
Tangi Legrand, Falk-Richard Winkelmann, Wolfgang Alt, Dieter Meschede, Andrea Alberti and Carrie A. Weidner(参考訳) 本稿では,位相のみの空間光変調器を用いた量子ガス顕微鏡システムにおける単一原子の3次元位置決定法を示し,高分解能イメージングシステムの点スプレッド関数を変化させる。 ここでは、単一原子が点源として生成する典型的な回折点を、撮像系の焦点面から原子の距離の関数として回転する二重点に修正する。 点スプレッド関数の回転角を焦点平面までの距離と結びつける簡単なモデルを提案し,数値的に検証した。 系内の収差が注意深く校正され補償される場合、この方法では1つの実験画像内の1つの格子内の原子の位置を決定でき、顕微鏡システムによる量子シミュレーションをさらに3次元の領域に拡張することができる。

We demonstrate a method for determining the three-dimensional location of single atoms in a quantum gas microscopy system using a phase-only spatial light modulator to modify the point-spread function of the high-resolution imaging system. Here, the typical diffracted spot generated by a single atom as a point source is modified to a double spot that rotates as a function of the atom's distance from the focal plane of the imaging system. We present and numerically validate a simple model linking the rotation angle of the point-spread function with the distance to the focal plane. We show that, when aberrations in the system are carefully calibrated and compensated for, this method can be used to determine an atom's position to within a single lattice site in a single experimental image, extending quantum simulation with microscopy systems further into the regime of three dimensions.
翻訳日:2024-03-07 01:17:01 公開日:2024-03-05
# 高等教育におけるジェネレーティブAI:大学政策・資源・ガイドラインを通してChatGPTを見る

Generative AI in Higher Education: Seeing ChatGPT Through Universities' Policies, Resources, and Guidelines ( http://arxiv.org/abs/2312.05235v2 )

ライセンス: Link先を確認
Hui Wang, Anh Dang, Zihao Wu, Son Mac(参考訳) ChatGPTのような生成人工知能(GenAI)技術の進歩は、教育経験を豊かにする機会を提供するだけでなく、誤用された場合の学術的完全性への懸念も引き起こす。 本研究は,高等教育におけるchatgptの利用について,米国トップクラスの大学が制定した学術的方針とガイドラインを分析し,大学や教育者が学界におけるジェナイの発展にどう対応・適応するかを検討することを目的とする。 データソースには、学術政策、声明、ガイドライン、および米国の上位100大学が提供する関連するリソースが含まれている。 その結果、ほとんどの大学はジェナイ統合に向けてオープンだが慎重なアプローチをとっていることが判明した。 主な懸念は、倫理的利用、正確性、データプライバシにある。 ほとんどの大学は、シラバステンプレートやサンプル、ワークショップ、共有記事、一対一のコンサルティングなど、さまざまなタイプのリソースを積極的に対応し提供しており、一般的な技術導入、倫理的懸念、教育的応用、予防戦略、データプライバシ、制限、探偵ツールに焦点を当てている。 この発見は、政策立案の教育者に対して2つの提案を提供する: 規律固有のポリシーを確立し、機密情報を慎重に管理すること、および教育実践における教育者にとっての4つの意味:その存在を受け入れること、その使用を学習目標に合わせること、誤用を防止するためにカリキュラムを進化させること、ai検出器に頼るのではなく多面評価戦略を採用すること。

The advancements in Generative Artificial Intelligence (GenAI) technologies such as ChatGPT provide opportunities to enrich educational experiences, but also raise concerns about academic integrity if misused. This study aims to explore how universities and educators respond and adapt to the development of GenAI in their academic contexts by analyzing academic policies and guidelines established by top-ranked US universities regarding the use of ChatGPT in higher education. The data sources include academic policies, statements, guidelines as well as relevant resources provided by the top 100 universities in the US. Results show that the majority of these universities adopt an open but cautious approach towards the integration of GenAI. Primary concerns lie in ethical usage, accuracy, and data privacy. Most universities actively respond and provide diverse types of resources, such as syllabus templates/samples, workshops, shared articles, and one-on-one consultations, with topics focusing on general technical introduction, ethical concerns, pedagogical applications, preventive strategies, data privacy, limitations, and detective tools. The findings provide two suggestions for educators in policy-making: establish discipline-specific policies, and manage sensitive information carefully, as well as four implications for educators in teaching practices: accept its presence, align its use with learning objectives, evolve curriculum to prevent misuse, and adopt multifaceted evaluation strategies rather than relying on AI detectors.
翻訳日:2024-03-07 01:16:47 公開日:2024-03-05
# A-SDM:冗長除去と性能最適化による安定拡散の加速

A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization ( http://arxiv.org/abs/2312.15516v3 )

ライセンス: Link先を確認
Jinchao Zhu, Yuxuan Wang, Xiaobing Tu, Siyuan Pan, Pengfei Wan, Gao Huang(参考訳) 安定拡散モデル(stable Diffusion Model, SDM)は、t2iの生成とi2iの生成モデルである。 サンプリングステップ、モデル蒸留、ネットワーク量子化を減らそうとする試みはいくつかあったが、これらの手法は一般に元のネットワークアーキテクチャを保っている。 数十億のスケールパラメータと高い計算要求は、モデルアーキテクチャ調整の研究を弱める。 そこで本研究では,まずネットワークの計算冗長性の部分を探索し,次にモデルの冗長性ブロックを掘り下げ,漸進的なインキュベーション戦略を通じてネットワーク性能を維持する。 第2に、モデル性能を維持するために、ブロックプルーニング部にクロス層マルチエキスパート条件畳み込み(CLME-Condconv)を加え、元の畳み込みパラメータを継承する。 第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。 最後に,教師モデルと学生モデルの出力をセマンティックレベルで調整するために,意味認識監視(SAS)を用いる。 実験により、本手法は、元のsdモデルの性能に近い軽量モデルを効果的に訓練でき、限られた資源でモデル速度を効果的に向上できることを示した。 実験により,本手法は,sdモデルの性能に近い軽量モデルを効果的に訓練し,限られた資源でモデル速度を効果的に向上できることを示した。 加速後、モデルのunet部分は22%高速であり、全体の速度は19%高速である。

The Stable Diffusion Model (SDM) is a popular and efficient text-to-image (t2i) generation and image-to-image (i2i) generation model. Although there have been some attempts to reduce sampling steps, model distillation, and network quantization, these previous methods generally retain the original network architecture. Billion scale parameters and high computing requirements make the research of model architecture adjustment scarce. In this work, we first explore the computational redundancy part of the network, and then prune the redundancy blocks of the model and maintain the network performance through a progressive incubation strategy. Secondly, in order to maintaining the model performance, we add cross-layer multi-expert conditional convolution (CLME-Condconv) to the block pruning part to inherit the original convolution parameters. Thirdly, we propose a global-regional interactive (GRI) attention to speed up the computationally intensive attention part. Finally, we use semantic-aware supervision (SAS) to align the outputs of the teacher model and student model at the semantic level. Experiments show that this method can effectively train a lightweight model close to the performance of the original SD model, and effectively improve the model speed under limited resources. Experiments show that the proposed method can effectively train a light-weight model close to the performance of the original SD model, and effectively improve the model speed under limited resources. After acceleration, the UNet part of the model is 22% faster and the overall speed is 19% faster.
翻訳日:2024-03-07 01:11:55 公開日:2024-03-05
# 北エフハニカムモデルにおける高密度渦格子の有効モデル

Effective models for dense vortex lattices in the Kitaev honeycomb model ( http://arxiv.org/abs/2312.14729v2 )

ライセンス: Link先を確認
David J. Alspaugh, Jean-No\"el Fuchs, Anna Ritz-Zwilling and Julien Vidal(参考訳) 北エフハニカムモデルにおいて,高密度渦構成のための低エネルギー有効モデルを導入する。 具体的には,渦フリープラーペットが渦フル背景に対して三角形格子を形成する渦の構成を考える。 渦密度によって、これらの「二重」構成は、翻訳と反転対称性によって分類された2つの族のいずれかに属する。 時間反転対称性破断項の関数として、ある族は偶数チャーン数を拡張されたギャップレス位相で割ったガッピング位相を示し、もう一方は偶数または奇数チャーン数を持つガッピング位相を臨界点で割った。 我々は,各家系に有効なモデルを構築し,これらのモデルのパラメータを状態の積分密度に適合させて決定し,キタエフハニカムモデルのエネルギースペクトルとチャーン数を再現する。 また、位相図を導き、これらのモデルの妥当性を決定する。

We introduce low-energy effective models for dense configurations of vortices in the Kitaev honeycomb model. Specifically, we consider configurations of vortices in which vortex-free plaquettes form triangular lattices against a vortex-full background. Depending on the vortex density, these "dual" configurations belong to either one of two families classified by translation and inversion symmetry. As a function of a time-reversal symmetry breaking term, one family exhibits gapped phases with even Chern numbers separated by extended gapless phases, while the other exhibits gapped phases with even or odd Chern numbers, separated by critical points. We construct an effective model for each family, determine the parameters of these models by fitting the integrated density of states, and reproduce energy spectra and Chern numbers of the Kitaev honeycomb model. We also derive phase diagrams and determine these models' validity.
翻訳日:2024-03-07 01:10:58 公開日:2024-03-05
# モーメントの観点からのハイブリッド古典量子系

Hybrid classical-quantum systems in terms of moments ( http://arxiv.org/abs/2312.13946v2 )

ライセンス: Link先を確認
David Brizuela and Sara F. Uria(参考訳) 古典的および量子的自由度を混合したハイブリッドシステムの力学を記述するための一貫した形式主義を示す。 システムの確率関数は、一般的には、古典分布関数と量子密度行列の組み合わせであり、対応するモーメントとして記述される。 次に、モーメントのダイナミクスが効果的なハミルトニアンによって支配されるようなハイブリッドポアソン括弧を定義する。 特に、任意の自由度数に対する任意の2つのモーメントの間のポアソン括弧の閉公式が提示され、純粋な量子の場合の文献から導かれた以前の式を補正する。 この公式は形式主義の実用的応用に特別な意味を持つ。 最後に、2つの結合振動子によって与えられる特定のハイブリッド系のダイナミクスについて検討する。 結合のため、特定の量子特性と古典的性質は異なるセクター間で伝達される。 特に、量子セクターは不確実性関係に違反することが許されているが、ハイブリッド系の全不確実性に対する最小の正の境界が存在することが明確に示される。

We present a consistent formalism to describe the dynamics of hybrid systems with mixed classical and quantum degrees of freedom. The probability function of the system, which, in general, will be a combination of the classical distribution function and the quantum density matrix, is described in terms of its corresponding moments. We then define a hybrid Poisson bracket, such that the dynamics of the moments is ruled by an effective Hamiltonian. In particular, a closed formula for the Poisson brackets between any two moments for an arbitrary number of degrees of freedom is presented, which corrects previous expressions derived in the literature for the purely quantum case. This formula is of special relevance for practical applications of the formalism. Finally, we study the dynamics of a particular hybrid system given by two coupled oscillators, one being quantum and the other classical. Due to the coupling, specific quantum and classical properties are transferred between different sectors. In particular, the quantum sector is allowed to violate the uncertainty relation, though we explicitly show that there exists a minimum positive bound of the total uncertainty of the hybrid system.
翻訳日:2024-03-07 01:09:21 公開日:2024-03-05
# 編集できますか? 大規模言語モデルによるコード編集指導の追跡能力の評価

Can It Edit? Evaluating the Ability of Large Language Models to Follow Code Editing Instructions ( http://arxiv.org/abs/2312.12450v4 )

ライセンス: Link先を確認
Federico Cassano, Luisa Li, Akul Sethi, Noah Shinn, Abby Brennan-Jones, Anton Lozhkov, Carolyn Jane Anderson, Arjun Guha(参考訳) 様々なコード合成タスクのための大規模言語モデルの開発と評価に、かなりの量の研究が集中している。 これには、自然言語命令からのコード合成、コードからのテストの合成、コードの説明の合成が含まれる。 対照的に、LLMを用いた命令コード編集の動作について検討する。 これらはモデルがプロンプトで提供されるコードのブロックを更新するよう指示されるタスクである。 編集命令は、追加または削除する機能、バグの説明、修正の要求、異なる種類のソリューションの要求、その他の多くの一般的なコード編集タスクを要求できる。 コード編集タスクのベンチマークを慎重に作成し,いくつかの最先端LCMを評価した。 我々の評価は、最先端のオープンモデルとクローズドモデルの間の大きなギャップを露呈する。 例えば、GPT-3.5-Turboでさえ、コード編集において最高のオープンモデルよりも8.8%良い。 また、新しく、慎重にキュレートされ、パーミッシブにライセンスされたコード編集セットと自然言語命令も導入しました。 このトレーニングセットを使うことで、オープンコードllmを微調整して、コード編集能力を大幅に改善できることを示します。

A significant amount of research is focused on developing and evaluating large language models for a variety of code synthesis tasks. These include synthesizing code from natural language instructions, synthesizing tests from code, and synthesizing explanations of code. In contrast, the behavior of instructional code editing with LLMs is understudied. These are tasks in which the model is instructed to update a block of code provided in a prompt. The editing instruction may ask for a feature to added or removed, describe a bug and ask for a fix, ask for a different kind of solution, or many other common code editing tasks. We introduce a carefully crafted benchmark of code editing tasks and use it evaluate several cutting edge LLMs. Our evaluation exposes a significant gap between the capabilities of state-of-the-art open and closed models. For example, even GPT-3.5-Turbo is 8.8% better than the best open model at editing code. We also introduce a new, carefully curated, permissively licensed training set of code edits coupled with natural language instructions. Using this training set, we show that we can fine-tune open Code LLMs to significantly improve their code editing capabilities.
翻訳日:2024-03-07 01:08:38 公開日:2024-03-05
# LoRAMoE: MoE-Styleプラグインによる大規模言語モデルにおける世界の知識獲得の軽減

LoRAMoE: Alleviate World Knowledge Forgetting in Large Language Models via MoE-Style Plugin ( http://arxiv.org/abs/2312.09979v3 )

ライセンス: Link先を確認
Shihan Dou, Enyu Zhou, Yan Liu, Songyang Gao, Jun Zhao, Wei Shen, Yuhao Zhou, Zhiheng Xi, Xiao Wang, Xiaoran Fan, Shiliang Pu, Jiang Zhu, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) Supervised Fine-tuning (SFT)は、大規模言語モデル(LLM)にとって重要なステップであり、人間の指示と整合し、下流タスクの能力を高めることができる。 命令データの増加は、モデルをより広範囲のダウンストリームタスクにアライメントするための直接的なソリューションであり、特に特定のタスクにおけるパフォーマンスを向上させる。 しかし、大規模な命令データの増加は、llmに格納された世界の知識を損なう可能性がある。 この課題に対処するため、我々はLoRAMoEを提案する。LoRAMoEはいくつかの低ランクアダプタ(LoRA)を導入し、Mixture of Experts(MoE)のプラグインバージョンのようなルータネットワークを用いてそれらを統合する。 バックボーンモデルを凍結し、LoRAの一部に、下流の課題を解決するために世界の知識を活用することに集中させ、世界の知識の最先端の忘れを和らげる。 実験の結果,LRAMoEは命令データの増加に伴い,LLMに格納された世界知識を維持しつつ,下流タスクの処理能力を大幅に向上させることができることがわかった。

Supervised fine-tuning (SFT) is a crucial step for large language models (LLMs), enabling them to align with human instructions and enhance their capabilities in downstream tasks. Increasing instruction data substantially is a direct solution to align the model with a broader range of downstream tasks or notably improve its performance on a specific task. However, we find that large-scale increases in instruction data can damage the world knowledge previously stored in LLMs. To address this challenge, we propose LoRAMoE, a novelty framework that introduces several low-rank adapters (LoRA) and integrates them by using a router network, like a plugin version of Mixture of Experts (MoE). It freezes the backbone model and forces a portion of LoRAs to focus on leveraging world knowledge to solve downstream tasks, to alleviate world knowledge-edge forgetting. Experimental results show that, as the instruction data increases, LoRAMoE can significantly improve the ability to process downstream tasks, while maintaining the world knowledge stored in the LLM.
翻訳日:2024-03-07 01:06:41 公開日:2024-03-05
# RDR:強化言語理解のためのRecap, Deliberate, Respond Method

RDR: the Recap, Deliberate, and Respond Method for Enhanced Language Understanding ( http://arxiv.org/abs/2312.09932v2 )

ライセンス: Link先を確認
Yuxin Zi, Hariram Veeramani, Kaushik Roy and Amit Sheth(参考訳) ニューラルネットワークパイプラインを用いた自然言語理解(NLU)は、入力データにのみ存在しない追加のコンテキストを必要とすることが多い。 先行研究により、NLUベンチマークはニューラルネットワークによる操作に感受性があることが明らかとなり、これらのモデルでは、符号化された外部知識内の統計的アーティファクトを利用して、下流タスクのパフォーマンス指標を人工的にインフレさせる。 提案手法はRecap, Deliberate, Respond(RDR)パラダイムと呼ばれ,ニューラルネットワークパイプラインに3つの異なる目的を組み込むことでこの問題に対処する。 第一に、Recapの目的は、その本質を要約しカプセル化するために、パラフレーズモデルを用いて入力テキストをパラフレーズ化することである。 次に、検討目的は、グラフ埋め込みモデルを用いて、入力テキストで言及されるエンティティに関連する外部グラフ情報をエンコードすることである。 最後に、response objectiveは、recapおよびdeliberationモジュールからの表現を利用して最終的な予測を生成する分類ヘッドモデルを用いる。 これら3つのモデルをカスケードし、複合損失を最小化することにより、ベンチマークをゲームする可能性を軽減し、基礎となるセマンティックパターンをキャプチャするロバストな方法を確立し、正確な予測を可能にする。 RDR法の有効性を評価するため,複数のGLUEベンチマークタスクの試験を行った。 以上の結果から,標準基準値の最大2\%向上とともに,競争基準値よりも性能が向上したことが示された。 さらに、RDRモデルが示す意味理解の観察された証拠を分析し、ベンチマークのゲームを避け、真の基礎となる意味パターンを正確に捉える能力を強調した。

Natural language understanding (NLU) using neural network pipelines often requires additional context that is not solely present in the input data. Through Prior research, it has been evident that NLU benchmarks are susceptible to manipulation by neural models, wherein these models exploit statistical artifacts within the encoded external knowledge to artificially inflate performance metrics for downstream tasks. Our proposed approach, known as the Recap, Deliberate, and Respond (RDR) paradigm, addresses this issue by incorporating three distinct objectives within the neural network pipeline. Firstly, the Recap objective involves paraphrasing the input text using a paraphrasing model in order to summarize and encapsulate its essence. Secondly, the Deliberation objective entails encoding external graph information related to entities mentioned in the input text, utilizing a graph embedding model. Finally, the Respond objective employs a classification head model that utilizes representations from the Recap and Deliberation modules to generate the final prediction. By cascading these three models and minimizing a combined loss, we mitigate the potential for gaming the benchmark and establish a robust method for capturing the underlying semantic patterns, thus enabling accurate predictions. To evaluate the effectiveness of the RDR method, we conduct tests on multiple GLUE benchmark tasks. Our results demonstrate improved performance compared to competitive baselines, with an enhancement of up to 2\% on standard metrics. Furthermore, we analyze the observed evidence for semantic understanding exhibited by RDR models, emphasizing their ability to avoid gaming the benchmark and instead accurately capture the true underlying semantic patterns.
翻訳日:2024-03-07 01:06:19 公開日:2024-03-05
# DevEval: 実践的なソフトウェアプロジェクトにおけるコード生成の評価

DevEval: Evaluating Code Generation in Practical Software Projects ( http://arxiv.org/abs/2401.06401v3 )

ライセンス: Link先を確認
Jia Li, Ge Li, Yunfei Zhao, Yongmin Li, Zhi Jin, Hao Zhu, Huanyu Liu, Kaibo Liu, Lecheng Wang, Zheng Fang, Lanshen Wang, Jiazheng Ding, Xuanming Zhang, Yihong Dong, Yuqi Zhu, Bin Gu, Mengfei Yang(参考訳) コード生成におけるLarge Language Models(LLM)の評価はオープンな問題である。 多くのベンチマークが提案されているが、非現実的なプログラムディストリビューション、依存関係の不足、小規模プロジェクトコンテキストなど、実用的なソフトウェアプロジェクトとは矛盾している。 したがって、実用プロジェクトでのLLMの能力はまだ不明である。 本稿では,実用的なプロジェクトにおける開発者の経験と整合した新しいベンチマークdevevalを提案する。 devevalは厳密なパイプラインを通して収集され、119の実践プロジェクトから2,690のサンプルと10のドメインを含んでいる。 以前のベンチマークと比較すると、DevEvalは実際のプログラム分布、十分な依存関係、十分な規模のプロジェクトコンテキストなど、複数の次元の実践的なプロジェクトと一致している。 DevEval上の5つの人気のあるLCM(gpt-4、gpt-3.5-turbo、CodeLLaMa、StarCoder)を評価し、コード生成における実際の能力を明らかにする。 例えば、gpt-3.5-turboの最も高いpass@1は実験で42である。 また,実践プロジェクトにおけるコード生成の課題と今後の方向性についても論じる。 私たちはdevevalをオープンソースとして公開し、実用的なプロジェクトでのコード生成を促進することを望んでいます。

How to evaluate Large Language Models (LLMs) in code generation is an open question. Many benchmarks have been proposed but are inconsistent with practical software projects, e.g., unreal program distributions, insufficient dependencies, and small-scale project contexts. Thus, the capabilities of LLMs in practical projects are still unclear. In this paper, we propose a new benchmark named DevEval, aligned with Developers' experiences in practical projects. DevEval is collected through a rigorous pipeline, containing 2,690 samples from 119 practical projects and covering 10 domains. Compared to previous benchmarks, DevEval aligns to practical projects in multiple dimensions, e.g., real program distributions, sufficient dependencies, and enough-scale project contexts. We assess five popular LLMs on DevEval (e.g., gpt-4, gpt-3.5-turbo, CodeLLaMa, and StarCoder) and reveal their actual abilities in code generation. For instance, the highest Pass@1 of gpt-3.5-turbo only is 42 in our experiments. We also discuss the challenges and future directions of code generation in practical projects. We open-source DevEval and hope it can facilitate the development of code generation in practical projects.
翻訳日:2024-03-07 01:01:46 公開日:2024-03-05
# groundinggpt:言語拡張マルチモーダルグラウンドモデル

GroundingGPT:Language Enhanced Multi-modal Grounding Model ( http://arxiv.org/abs/2401.06071v5 )

ライセンス: Link先を確認
Zhaowei Li, Qi Xu, Dong Zhang, Hang Song, Yiqing Cai, Qi Qi, Ran Zhou, Junting Pan, Zefeng Li, Van Tu Vu, Zhida Huang, Tao Wang(参考訳) マルチモーダルな大規模言語モデルは、様々なタスクにおいて異なるモーダルで印象的なパフォーマンスを示している。 しかし、既存のマルチモーダルモデルは、各モーダル内でのグローバルな情報の収集に重点を置いている。 したがって、これらのモデルは入力データの詳細な詳細を効果的に理解する能力がなく、より微妙な理解を必要とするタスクのパフォーマンスを制限している。 この制限に対処するためには、複数のモダリティをまたいできめ細かな理解を可能にし、幅広いタスクに適用性を高めるモデルを開発する必要がある。 本稿では,言語拡張型マルチモーダルグラウンドモデルである GroundingGPT を提案する。 他のマルチモーダルモデルのようなグローバルな情報をキャプチャする以外に、提案モデルでは、入力内のローカル情報の詳細な理解を要求するタスクに優れています。 ビデオ内の画像や瞬間における特定の領域の正確な識別と位置決定を示す。 この目的を達成するために,多様なデータセット構築パイプラインを設計し,モデルトレーニングのためのマルチモーダル・マルチグラニュラ性データセットを作成する。 私たちのモデルのコード、データセット、デモは、https: //github.com/lzw-lzw/GroundingGPTにある。

Multi-modal large language models have demonstrated impressive performance across various tasks in different modalities. However, existing multi-modal models primarily emphasize capturing global information within each modality while neglecting the importance of perceiving local information across modalities. Consequently, these models lack the ability to effectively understand the fine-grained details of input data, limiting their performance in tasks that require a more nuanced understanding. To address this limitation, there is a compelling need to develop models that enable fine-grained understanding across multiple modalities, thereby enhancing their applicability to a wide range of tasks. In this paper, we propose GroundingGPT, a language enhanced multi-modal grounding model. Beyond capturing global information like other multi-modal models, our proposed model excels at tasks demanding a detailed understanding of local information within the input. It demonstrates precise identification and localization of specific regions in images or moments in videos. To achieve this objective, we design a diversified dataset construction pipeline, resulting in a multi-modal, multi-granularity dataset for model training. The code, dataset, and demo of our model can be found at https: //github.com/lzw-lzw/GroundingGPT.
翻訳日:2024-03-07 01:01:26 公開日:2024-03-05
# DiffDA:気象スケールデータ同化のための拡散モデル

DiffDA: a Diffusion model for weather-scale Data Assimilation ( http://arxiv.org/abs/2401.05932v2 )

ライセンス: Link先を確認
Langwen Huang, Lukas Gianinazzi, Yuejiang Yu, Peter D. Dueben, Torsten Hoefler(参考訳) 正確なデータ同化による初期条件の生成は、気象予報と気候モデリングに不可欠である。 本研究では,予測状態とスパース観測を用いて大気変数を同化可能な拡散モデルとしてDiffDAを提案する。 天気予報モデルと天気予報専用拡散モデルとの類似性を認識し,事前学習したGraphCastニューラルネットワークを拡散モデルのバックボーンとして適用する。 ERA5リアナリシスデータセットからのシミュレーション観測に基づく実験により,地球規模の0.25 deg (~30 km) の観測と一致した同化大気データを生成することができる。 これはMLデータ同化モデルによって達成された最高解像度である。 実験の結果, 偏差観測(格子状データの0.77%未満)と48時間予測から得られた初期条件は, ERA5の最先端データ同化による初期条件と比較して, 平均24時間以上のリードタイムが失われる予測モデルに利用できることがわかった。 これにより、自動回帰データ同化による再分析データセットの作成など、実際のアプリケーションへのメソッドの適用が可能になる。

The generation of initial conditions via accurate data assimilation is crucial for weather forecasting and climate modeling. We propose DiffDA as a denoising diffusion model capable of assimilating atmospheric variables using predicted states and sparse observations. Acknowledging the similarity between a weather forecast model and a denoising diffusion model dedicated to weather applications, we adapt the pretrained GraphCast neural network as the backbone of the diffusion model. Through experiments based on simulated observations from the ERA5 reanalysis dataset, our method can produce assimilated global atmospheric data consistent with observations at 0.25 deg (~30km) resolution globally. This marks the highest resolution achieved by ML data assimilation models. The experiments also show that the initial conditions assimilated from sparse observations (less than 0.77% of gridded data) and 48-hour forecast can be used for forecast models with a loss of lead time of at most 24 hours compared to initial conditions from state-of-the-art data assimilation in ERA5. This enables the application of the method to real-world applications, such as creating reanalysis datasets with autoregressive data assimilation.
翻訳日:2024-03-07 01:01:06 公開日:2024-03-05
# 高次元空間における関数型データ分類のための新しい計算効率の高い特徴選択アルゴリズム

A new computationally efficient algorithm to solve Feature Selection for Functional Data Classification in high-dimensional spaces ( http://arxiv.org/abs/2401.05765v2 )

ライセンス: Link先を確認
Tobia Boschi, Francesca Bonin, Rodrigo Ordonez-Hurtado, Alessandra Pascale, and Jonathan Epperlein(参考訳) 本稿では,機能的分類のための特徴選択手法FSFCを紹介し,分類的応答と多変量長手特徴を有するシナリオにおいて,機能的データの特徴選択と分類を共同で行うという課題に対処する。 FSFCは、ロジスティック損失と機能的特徴を統合して、分類において最も重要な変数を特定する、新しく定義された最適化問題に取り組む。 最小化手続きに対処するために,関数型主成分を用い,dual augmented lagrangianアルゴリズムの新しい適応バージョンを開発した。 FSFCの計算効率は、特徴数が統計単位数よりかなり多いような高次元シナリオを扱うことができる。 シミュレーション実験により、FSFCは計算時間と分類精度において、他の機械学習およびディープラーニング手法よりも優れていることが示された。 さらに、FSFCの特徴選択能力を利用して、問題の次元を大幅に削減し、他の分類アルゴリズムの性能を高めることができる。 また, fsfcの有効性は, 4つの慢性疾患と他の健康要因, 人口統計因子の関係を解析し, 実データを用いて実証した。

This paper introduces a novel methodology for Feature Selection for Functional Classification, FSFC, that addresses the challenge of jointly performing feature selection and classification of functional data in scenarios with categorical responses and multivariate longitudinal features. FSFC tackles a newly defined optimization problem that integrates logistic loss and functional features to identify the most crucial variables for classification. To address the minimization procedure, we employ functional principal components and develop a new adaptive version of the Dual Augmented Lagrangian algorithm. The computational efficiency of FSFC enables handling high-dimensional scenarios where the number of features may considerably exceed the number of statistical units. Simulation experiments demonstrate that FSFC outperforms other machine learning and deep learning methods in computational time and classification accuracy. Furthermore, the FSFC feature selection capability can be leveraged to significantly reduce the problem's dimensionality and enhance the performances of other classification algorithms. The efficacy of FSFC is also demonstrated through a real data application, analyzing relationships between four chronic diseases and other health and demographic factors.
翻訳日:2024-03-07 01:00:46 公開日:2024-03-05
# 単一非自己回帰変換器を用いたマスケオーディオ生成

Masked Audio Generation using a Single Non-Autoregressive Transformer ( http://arxiv.org/abs/2401.04577v2 )

ライセンス: Link先を確認
Alon Ziv, Itai Gat, Gael Le Lan, Tal Remez, Felix Kreuk, Alexandre D\'efossez, Jade Copet, Gabriel Synnaeve, Yossi Adi(参考訳) 本稿では,複数の音声トークンストリーム上で直接動作するマスク付き生成シーケンスモデリング手法MAGNeTを紹介する。 前作とは異なり、MAGNeTは単段非自己回帰トランスで構成されている。 学習中,マスキングスケジューラから得られたマスキングトークンのスパンを予測し,推論中,複数の復号ステップを用いて徐々に出力シーケンスを構築する。 生成音声の品質をさらに高めるために,外部事前学習モデルを利用してマグネットから予測値を再調整・ランク付けし,後段の復号処理に使用する新しいリコーリング法を提案する。 最後に,自己回帰モデルと非自己回帰モデルを融合して,最初の数秒を自己回帰的に生成し,残りのシーケンスを並列に復号する,ハイブリッドバージョンのマグネットを探索する。 テキスト・ツー・ミュージックおよびテキスト・ツー・オーディオ生成のタスクにおけるマグネットの効率を実証し,客観的指標と人間研究の両方を考慮し,広範な経験的評価を行う。 提案手法は評価されたベースラインに匹敵するが、かなり高速である(自己回帰ベースラインよりもx7が速い)。 アブレーション研究と解析により,マグネットを構成する各成分の重要性,および自己回帰モデルと非自己回帰モデルとのトレードオフ,レイテンシ,スループット,生成品質について考察した。 サンプルはデモページhttps://pages.cs.huji.ac.il/adiyoss-lab/magnetで入手できます。

We introduce MAGNeT, a masked generative sequence modeling method that operates directly over several streams of audio tokens. Unlike prior work, MAGNeT is comprised of a single-stage, non-autoregressive transformer. During training, we predict spans of masked tokens obtained from a masking scheduler, while during inference we gradually construct the output sequence using several decoding steps. To further enhance the quality of the generated audio, we introduce a novel rescoring method in which, we leverage an external pre-trained model to rescore and rank predictions from MAGNeT, which will be then used for later decoding steps. Lastly, we explore a hybrid version of MAGNeT, in which we fuse between autoregressive and non-autoregressive models to generate the first few seconds in an autoregressive manner while the rest of the sequence is being decoded in parallel. We demonstrate the efficiency of MAGNeT for the task of text-to-music and text-to-audio generation and conduct an extensive empirical evaluation, considering both objective metrics and human studies. The proposed approach is comparable to the evaluated baselines, while being significantly faster (x7 faster than the autoregressive baseline). Through ablation studies and analysis, we shed light on the importance of each of the components comprising MAGNeT, together with pointing to the trade-offs between autoregressive and non-autoregressive modeling, considering latency, throughput, and generation quality. Samples are available on our demo page https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT.
翻訳日:2024-03-07 00:59:38 公開日:2024-03-05
# scdiffusion:拡散モデルを用いた高品質単細胞データの条件生成

scDiffusion: conditional generation of high-quality single-cell data using diffusion model ( http://arxiv.org/abs/2401.03968v2 )

ライセンス: Link先を確認
Erpai Luo, Minsheng Hao, Lei Wei, Xuegong Zhang(参考訳) 単細胞RNAシークエンシング(scRNA-seq)データは、単細胞レベルでの生命の法則を研究する上で重要である。 しかし、十分な高品質な scRNA-seq データを得るのは難しい。 データの可用性を損なうため、合成scRNA-seqデータを計算的に生成する生成モデルが提案されている。 しかしながら、現在のモデルで生成されたデータは、特に制御された条件でデータを生成する必要がある場合、まだあまり現実的ではない。 一方、Diffusionモデルは高い忠実度でデータを生成する能力を示し、scRNA-seq生成の新しい機会を提供する。 本研究では,拡散モデルと基礎モデルを組み合わせた生成モデルである scDiffusion を開発し,高品質な scRNA-seq データを制御条件で生成する。 拡散過程を同時に導くために複数の分類器を設計し、複数の条件の組み合わせでScDiffusionでデータを生成する。 また,勾配補間と呼ばれる新しい制御戦略を提案した。 この戦略により、モデルは所定の細胞状態から細胞発達の連続的な軌道を生成することができる。 実験の結果,ScDiffusionは実際のScRNA-seqデータとよく似た単一細胞遺伝子発現データを生成することができた。 また、 scDiffusionは稀な細胞型を含む特定の細胞型のデータを生成することができる。 さらに,scdiffusionの多条件生成により,トレーニングデータから得られた細胞型を生成することができた。 勾配補間戦略を活用し,マウス胚細胞の発達過程を連続的に追跡した。 これらの実験は、scDiffusionが実際のscRNA-seqデータを増強する強力なツールであり、細胞運命研究の洞察を与えることを実証している。

Single-cell RNA sequencing (scRNA-seq) data are important for studying the laws of life at single-cell level. However, it is still challenging to obtain enough high-quality scRNA-seq data. To mitigate the limited availability of data, generative models have been proposed to computationally generate synthetic scRNA-seq data. Nevertheless, the data generated with current models are not very realistic yet, especially when we need to generate data with controlled conditions. In the meantime, the Diffusion models have shown their power in generating data at high fidelity, providing a new opportunity for scRNA-seq generation. In this study, we developed scDiffusion, a generative model combining diffusion model and foundation model to generate high-quality scRNA-seq data with controlled conditions. We designed multiple classifiers to guide the diffusion process simultaneously, enabling scDiffusion to generate data under multiple condition combinations. We also proposed a new control strategy called Gradient Interpolation. This strategy allows the model to generate continuous trajectories of cell development from a given cell state. Experiments showed that scDiffusion can generate single-cell gene expression data closely resembling real scRNA-seq data. Also, scDiffusion can conditionally produce data on specific cell types including rare cell types. Furthermore, we could use the multiple-condition generation of scDiffusion to generate cell type that was out of the training data. Leveraging the Gradient Interpolation strategy, we generated a continuous developmental trajectory of mouse embryonic cells. These experiments demonstrate that scDiffusion is a powerful tool for augmenting the real scRNA-seq data and can provide insights into cell fate research.
翻訳日:2024-03-07 00:58:25 公開日:2024-03-05
# LLMLight:交通信号制御エージェントとしての大規模言語モデル

LLMLight: Large Language Models as Traffic Signal Control Agents ( http://arxiv.org/abs/2312.16044v4 )

ライセンス: Link先を確認
Siqi Lai, Zhao Xu, Weijia Zhang, Hao Liu and Hui Xiong(参考訳) 交通信号制御(TSC)は都市交通管理において重要な要素であり、道路網の効率を最適化し渋滞を軽減することを目的としている。 TSCの伝統的な手法は、主に輸送工学と強化学習(RL)に基づいており、様々な交通シナリオにまたがる一般化の限界を示し、解釈性に欠ける。 本稿では,大規模言語モデル (LLM) を用いた新しいフレームワーク LLMLight について述べる。 特に、このフレームワークはLLMにリアルタイムの交通状況の詳細を理解できるプロンプトで指示することから始まる。 LLMの高度な一般化機能を活用して、LLMLightは、効率的なトラフィック制御のための人間の直感に似た推論と意思決定プロセスを行う。 さらに,TSCタスクに適した専用のバックボーンLLMであるLightGPTを構築した。 微妙なトラフィックパターンと制御戦略を学ぶことで、LightGPTはLLMLightフレームワークを低コストで拡張する。 9つの実世界および合成データセットに対する大規模な実験は、LLMLightの顕著な効果、一般化能力、および9つの輸送ベースおよびRLベースベースラインに対する解釈可能性を示している。

Traffic Signal Control (TSC) is a crucial component in urban traffic management, aiming to optimize road network efficiency and reduce congestion. Traditional methods in TSC, primarily based on transportation engineering and reinforcement learning (RL), often exhibit limitations in generalization across varied traffic scenarios and lack interpretability. This paper presents LLMLight, a novel framework employing Large Language Models (LLMs) as decision-making agents for TSC. Specifically, the framework begins by instructing the LLM with a knowledgeable prompt detailing real-time traffic conditions. Leveraging the advanced generalization capabilities of LLMs, LLMLight engages a reasoning and decision-making process akin to human intuition for effective traffic control. Moreover, we build LightGPT, a specialized backbone LLM tailored for TSC tasks. By learning nuanced traffic patterns and control strategies, LightGPT enhances the LLMLight framework cost-effectively. Extensive experiments on nine real-world and synthetic datasets showcase the remarkable effectiveness, generalization ability, and interpretability of LLMLight against nine transportation-based and RL-based baselines.
翻訳日:2024-03-07 00:56:48 公開日:2024-03-05
# ccの問合せ:公共コーパスからの大規模ドメイン固有知識の発掘

Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora ( http://arxiv.org/abs/2401.14624v3 )

ライセンス: Link先を確認
Zhaoye Fei, Yunfan Shao, Linyang Li, Zhiyuan Zeng, Conghui He, Hang Yan, Dahua Lin and Xipeng Qiu(参考訳) 大規模言語モデルは様々なタスクにおいて顕著な可能性を示してきたが、特定のドメインに対するオープンソースのモデルやデータが不足している。 これまでは主に、リソースを手動で指定したり、特定のドメインで高品質なデータを収集することに注力してきた。 この制限に対処するため,大規模言語モデルに基づく効率的なデータ収集手法である$\textit{Query of CC}$を提案する。 この方法は,大型言語モデルを通じてシード情報をブートストラップし,公開コーパスから関連するデータを取得する。 特定のドメインに関する知識関連データを収集するだけでなく、潜在的な推論手順でデータを発掘する。 この手法の適用により,stemと人文科学を含む4つの主要な領域を包含する,knowledge pileと呼ばれる高品質なデータセットを収集した。 実験結果から,KNOWLEDGE PILEは数学および知識関連推論能力試験において,大規模言語モデルの性能を著しく向上することが示された。 学術的な共有を容易にするため、私たちはデータセットとコードをオープンソース化し、学術コミュニティに貴重な支援を提供します。

Large language models have demonstrated remarkable potential in various tasks, however, there remains a significant scarcity of open-source models and data for specific domains. Previous works have primarily focused on manually specifying resources and collecting high-quality data on specific domains, which significantly consume time and effort. To address this limitation, we propose an efficient data collection method $\textit{Query of CC}$ based on large language models. This method bootstraps seed information through a large language model and retrieves related data from public corpora. It not only collects knowledge-related data for specific domains but unearths the data with potential reasoning procedures. Through the application of this method, we have curated a high-quality dataset called KNOWLEDGE PILE, encompassing four major domains, including stem and humanities sciences, among others. Experimental results demonstrate that KNOWLEDGE PILE significantly improves the performance of large language models in mathematical and knowledge-related reasoning ability tests. To facilitate academic sharing, we open-source our dataset and code, providing valuable support to the academic community.
翻訳日:2024-03-07 00:51:36 公開日:2024-03-05
# ProCNS : 医療画像分割のためのプログレッシブプロトタイプ校正とノイズ抑制

ProCNS: Progressive Prototype Calibration and Noise Suppression for Weakly-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2401.14074v2 )

ライセンス: Link先を確認
Y. Liu, L. Lin, K. K. Y. Wong, X. Tang(参考訳) 弱い教師付きセグメンテーション(WSS)は、疎いアノテーション形式(ポイント、スクリブル、ブロックなど)を採用することによって、アノテーションコストとモデルパフォーマンスの対立を軽減するソリューションとして登場した。 典型的なアプローチは解剖学とトポロジーを事前に活用し、スパースアノテーションを擬似ラベルに直接拡張しようとする。 しかし, 医用画像の曖昧さへの注意の欠如, スパース・インスペクションの探究が不十分なため, 既存手法はノイズの多い地域で誤った疑似提案を発生させる傾向があり, 累積モデル誤差や性能劣化を引き起こす。 本稿では,プログレッシブプロトタイプキャリブレーションとノイズ抑圧の原理を考案した2つの相乗的モジュールを包含する新しいWSS手法ProCNSを提案する。 具体的には,空間的要素と意味的要素の対的な親和性を最大化するために,プロトタイプベースの地域空間親和性(prsa)損失をデザインする。 この親和性は入力画像とプロトタイプによる予測から得られる。 また,提案手法における雑音領域を適応的に識別しマスキングし,プロトタイプ計算時の誤干渉を低減させる,より豊かで代表的なプロトタイプ表現を得るための適応雑音知覚・マスキング(anpm)モジュールを提案する。 さらに,ANPMが同定した雑音領域に対して,特殊ソフトな擬似ラベルを生成し,補足的監視を行う。 異なるモダリティを含む3つの医用画像セグメンテーションタスクの広範囲にわたる実験により、提案手法が代表的最先端手法を著しく上回ることを示した。

Weakly-supervised segmentation (WSS) has emerged as a solution to mitigate the conflict between annotation cost and model performance by adopting sparse annotation formats (e.g., point, scribble, block, etc.). Typical approaches attempt to exploit anatomy and topology priors to directly expand sparse annotations into pseudo-labels. However, due to a lack of attention to the ambiguous edges in medical images and insufficient exploration of sparse supervision, existing approaches tend to generate erroneous and overconfident pseudo proposals in noisy regions, leading to cumulative model error and performance degradation. In this work, we propose a novel WSS approach, named ProCNS, encompassing two synergistic modules devised with the principles of progressive prototype calibration and noise suppression. Specifically, we design a Prototype-based Regional Spatial Affinity (PRSA) loss to maximize the pair-wise affinities between spatial and semantic elements, providing our model of interest with more reliable guidance. The affinities are derived from the input images and the prototype-refined predictions. Meanwhile, we propose an Adaptive Noise Perception and Masking (ANPM) module to obtain more enriched and representative prototype representations, which adaptively identifies and masks noisy regions within the pseudo proposals, reducing potential erroneous interference during prototype computation. Furthermore, we generate specialized soft pseudo-labels for the noisy regions identified by ANPM, providing supplementary supervision. Extensive experiments on three medical image segmentation tasks involving different modalities demonstrate that the proposed framework significantly outperforms representative state-of-the-art methods
翻訳日:2024-03-07 00:50:50 公開日:2024-03-05
# コンテキスト: グラフ構造化知識コンテキストによるオープンエンディングアンサー生成の境界を押し上げる

Context Matters: Pushing the Boundaries of Open-Ended Answer Generation with Graph-Structured Knowledge Context ( http://arxiv.org/abs/2401.12671v2 )

ライセンス: Link先を確認
Somnath Banerjee, Amruit Sahoo, Sayan Layek, Avik Dutta, Rima Hazra, Animesh Mukherjee(参考訳) 継続的に進行するAIの世界では、Large Language Models (LLMs)を通じてコンテキストリッチで意味のある応答を作成することが不可欠である。 研究者たちは、オープンエンドの質問に対して適切な回答を提供しようとすると、パラメータの少ないllmが遭遇する課題をより認識するようになった。 これらのハードルに対処するため、最先端戦略の統合、豊富な外部ドメイン知識のLLMへの拡張は、大幅な改善をもたらす。 本稿では,特にAskUbuntu,Unix,ServerFaultなどのドメイン固有のコミュニティ質問応答プラットフォームにおいて,知識グラフに基づく文脈検索とLLMの能力向上を併用した新しいフレームワークを提案する。 異なるパラメータサイズを持つ様々なllm実験を行い,知識を基礎づける能力を評価し,オープンエンド質問に対する回答の事実的正確さを判定する。 われわれの方法であるGraphContextGenは、テキストベースの検索システムよりも一貫して優れており、その堅牢性と多くのユースケースへの適応性を示している。 この進歩は、LLMとのペアリングコンテキストリッチなデータ検索の重要性を強調し、AIシステムにおける知識ソーシングと生成に対する新たなアプローチを提供する。 また,コンテクストデータ検索の豊富さから,生成した回答と合わせて重要なエンティティが,実際にはゴールド回答と一貫性を保っていることを示す。

In the continuously advancing AI landscape, crafting context-rich and meaningful responses via Large Language Models (LLMs) is essential. Researchers are becoming more aware of the challenges that LLMs with fewer parameters encounter when trying to provide suitable answers to open-ended questions. To address these hurdles, the integration of cutting-edge strategies, augmentation of rich external domain knowledge to LLMs, offers significant improvements. This paper introduces a novel framework that combines graph-driven context retrieval in conjunction to knowledge graphs based enhancement, honing the proficiency of LLMs, especially in domain specific community question answering platforms like AskUbuntu, Unix, and ServerFault. We conduct experiments on various LLMs with different parameter sizes to evaluate their ability to ground knowledge and determine factual accuracy in answers to open-ended questions. Our methodology GraphContextGen consistently outperforms dominant text-based retrieval systems, demonstrating its robustness and adaptability to a larger number of use cases. This advancement highlights the importance of pairing context rich data retrieval with LLMs, offering a renewed approach to knowledge sourcing and generation in AI systems. We also show that, due to rich contextual data retrieval, the crucial entities, along with the generated answer, remain factually coherent with the gold answer.
翻訳日:2024-03-07 00:49:35 公開日:2024-03-05
# AntEval: LLM駆動型エージェントにおける社会的相互作用能力の評価

AntEval: Evaluation of Social Interaction Competencies in LLM-Driven Agents ( http://arxiv.org/abs/2401.06509v3 )

ライセンス: Link先を確認
Yuanzhi Liang, Linchao Zhu, Yi Yang(参考訳) 大規模言語モデル(llm)は、さまざまなシナリオで人間の行動を再現する能力を示している。 しかし、複雑なマルチ文字の社会的相互作用を扱う能力は、主にロバストで定量的な評価方法がないために、まだ十分に研究されていない。 このギャップは、単純な交換、例えば小さな会話を超えて、よりニュアンス的な相互作用に熟練したエージェントの開発を遅らせた。 この課題に対処するために,新しいインタラクションフレームワークと評価方法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介した。 インタラクションフレームワークは、社会的インタラクション内の情報交換と意図表現を促進する複雑なインタラクション環境を育むことを目的としている。 さらに,エージェントのインタラクション能力の定量的・客観的評価を目的とした,情報交換精度(IEP)とインタラクション表現率ギャップ(IEG)の2つの指標を含む評価手法を導入する。 本研究は, これらの評価手法の有用性を浮き彫りにして, より自然な方法で人間のような複雑さと相互作用するエージェント構築能力の向上の可能性を示した。

Large Language Models (LLMs) have demonstrated their ability to replicate human behaviors across a wide range of scenarios. However, their capability in handling complex, multi-character social interactions has yet to be fully explored, primarily due to the absence of robust, quantitative evaluation methods. This gap has slowed the development of agents proficient in more nuanced interactions beyond simple exchanges, for example, small talk. To address this challenge, we introduce the Multi-Agent Interaction Evaluation Framework (AntEval), encompassing a novel interaction framework and evaluation methods. The interaction framework aims to foster an complex interaction environment that bolsters information exchange and intention expression within social interactions. Furthermore, we introduce evaluation methods, including two metrics: Information Exchanging Precision (IEP) and Interaction Expressiveness Gap (IEG), designed for the quantitative and objective assessment of agents' interaction competencies. Our findings highlight the utility of these evaluative methods and show significant potential for improving LLMs' ability to construct agents that interact in a more natural manner with human-like intricacy.
翻訳日:2024-03-07 00:47:07 公開日:2024-03-05
# 代数的量子場理論の因果公理:診断

The Causal Axioms of Algebraic Quantum Field Theory: A Diagnostic ( http://arxiv.org/abs/2401.06504v2 )

ライセンス: Link先を確認
Francisco Calder\'on(参考訳) 代数的量子場理論(aqft)は、この理論を相対論的因果関係(spectrum condition)、微小因果性(microcausality)、原始因果性(primitive causality)の3つの「因果公理(causal axioms)」とする。 本稿では,aqftに適した因果関係は,相対論的因果i状態のデシデラタの一部のみを捉えたためか,あるいは各公理がそれぞれのデシデラタムをどのように実装するかが不明なため,いずれも完全には説明できないことを,最小限の技術的手法で示すことを目的とする。 この診断後,4番目の条件である局所的原始因果性(LPC)が,すべてのデシラタを満足する意味で相対論的因果性を完全に特徴付けることを示す。 しかし、Hag and Schroer (1962) による構築から見てもわかるように、他の公理の長所はそれらによって暗示されているからである。 3つの因果公理の結合は、lpcが含まないqftにおけるlpcや他の重要な結果を暗示するものであり、lpcは3つの公理の欠点のいくつかを明らかにするのに役立つので、私は、これらの公理がaqftの因果構造を文学における戦略に対してどのように特徴付けるかという全体論的解釈を提唱する。

Algebraic quantum field theory (AQFT) puts forward three "causal axioms" that aim to characterize the theory as one that implements relativistic causation: the spectrum condition, microcausality, and primitive causality. In this paper, I aim to show, in a minimally technical way, that none of them fully explains the notion of causation appropriate for AQFT because they only capture some of the desiderata for relativistic causation I state or because it is often unclear how each axiom implements its respective desideratum. After this diagnostic, I will show that a fourth condition, local primitive causality (LPC), fully characterizes relativistic causation in the sense of fulfilling all the relevant desiderata. However, it only encompasses the virtues of the other axioms because it is implied by them, as I will show from a construction by Haag and Schroer (1962). Since the conjunction of the three causal axioms implies LPC and other important results in QFT that LPC does not imply, and since LPC helps clarify some of the shortcomings of the three axioms, I advocate for a holistic interpretation of how the axioms characterize the causal structure of AQFT against the strategy in the literature to rivalize the axioms and privilege one among them.
翻訳日:2024-03-07 00:46:48 公開日:2024-03-05
# ヘックス格子上の横磁場イジングモデルにおける閉じ込め

Confinement in the Transverse Field Ising model on the Heavy Hex lattice ( http://arxiv.org/abs/2402.01558v2 )

ライセンス: Link先を確認
Joseph Tindall and Dries Sels(参考訳) 装飾された六角形格子上の横フィールドIsingモデルにおける閉じ込めの出現について検討する。 信念伝達に最適化された無限のテンソルネットワーク状態を用いることで、破れた対称性状態からのクエンチが、持続的な振動とエントロピーの飽和によって引き起こされる非熱的振る舞いにどのようにつながるかを示す。 この現象は, 格子の特異な構造によるハドロン準粒子の様々なフレーバーの形状を考慮した, 基本励起の閉じ込めに基づく最小限のモデルを構築して説明する。 私たちのモデルは数値結果とよく一致している。 逆磁場および非対称破壊状態のより大きい値へのクエンチについて, 数値計算の結果, エントロピーの線形成長, 相関の伝播, 可観測物の温度平均への飽和など, 熱化の期待値が示された。 これらの結果は、最近の大規模量子計算の予期せぬ同化可能性の物理的説明を与える。

We study the emergence of confinement in the transverse field Ising model on a decorated hexagonal lattice. Using an infinite tensor network state optimised with belief propagation we show how a quench from a broken symmetry state leads to striking nonthermal behaviour underpinned by persistent oscillations and saturation of the entanglement entropy. We explain this phenomenon by constructing a minimal model based on the confinement of elementary excitations, which take the form of various flavors of hadronic quasiparticles due to the unique structure of the lattice. Our model is in excellent agreement with our numerical results. For quenches to larger values of the transverse field and/or from non-symmetry broken states, our numerical results displays the expected signatures of thermalisation: a linear growth of entanglement entropy in time, propagation of correlations and the saturation of observables to their thermal averages. These results provide a physical explanation for the unexpected simulability of a recent large scale quantum computation.
翻訳日:2024-03-07 00:41:04 公開日:2024-03-05
# PARISからLE-PARISへ:レコメンダシステムと協調型大規模言語モデルによる特許応答自動化に向けて

From PARIS to LE-PARIS: Toward Patent Response Automation with Recommender Systems and Collaborative Large Language Models ( http://arxiv.org/abs/2402.00421v2 )

ライセンス: Link先を確認
Jung-Mei Chu, Hao-Cheng Lo, Jieh Hsiang, and Chun-Chieh Cho(参考訳) 特許訴追において、oas(office actions)に対するタイムリーで効果的な対応は特許の確保に不可欠である。 しかし、過去の自動化と人工知能の研究は、この側面をほとんど見落としてきた。 このギャップを埋めるために,特許庁行動応答情報システム (PARIS) とその先進的なバージョンであるLarge Language Model (LLM) Enhanced PARIS (LE-PARIS) を導入した。 これらのシステムは、AIと連携してOA応答を処理する際の特許弁護士の効率を高めるように設計されている。 システムの主な特徴は、OAトピックデータベースの構築、レスポンステンプレートの開発、Recommender SystemsとLLMベースのレスポンス生成の実装である。 システムの有効性を検証するために,USPTO Office Actionデータベースと,我々のシステムとの弁護士インタラクションに基づく縦断データを用いたマルチパラダイム分析を行った。 5つの研究を通して,話題モデリングと提案したDelphiプロセスを用いたOAトピックの構築性,OA応答に適したLLMベースのハイブリッドレコメンデータシステムの有効性(研究3),生成した応答の品質(研究4),ユーザスタディによる現実シナリオにおけるシステム実践的価値(研究5)について検討した。 その結果,PARISとLE-PARISはともに重要な指標となり,弁護士のパフォーマンスに肯定的な影響を及ぼすことが明らかとなった。

In patent prosecution, timely and effective responses to Office Actions (OAs) are crucial for securing patents. However, past automation and artificial intelligence research have largely overlooked this aspect. To bridge this gap, our study introduces the Patent Office Action Response Intelligence System (PARIS) and its advanced version, the Large Language Model (LLM) Enhanced PARIS (LE-PARIS). These systems are designed to enhance the efficiency of patent attorneys in handling OA responses through collaboration with AI. The systems' key features include the construction of an OA Topics Database, development of Response Templates, and implementation of Recommender Systems and LLM-based Response Generation. To validate the effectiveness of the systems, we have employed a multi-paradigm analysis using the USPTO Office Action database and longitudinal data based on attorney interactions with our systems over six years. Through five studies, we have examined the constructiveness of OA topics (studies 1 and 2) using topic modeling and our proposed Delphi process, the efficacy of our proposed hybrid LLM-based recommender system tailored for OA responses (study 3), the quality of generated responses (study 4), and the systems' practical value in real-world scenarios through user studies (study 5). The results indicate that both PARIS and LE-PARIS significantly achieve key metrics and have a positive impact on attorney performance.
翻訳日:2024-03-07 00:39:37 公開日:2024-03-05
# 次元仮定に基づく量子ゲートのデバイス非依存認証

Device-independent certification of quantum gates under the dimension assumption ( http://arxiv.org/abs/2401.17006v2 )

ライセンス: Link先を確認
Jan N\"oller, Nikolai Miklin, Martin Kliesch, Mariami Gachechiladze(参考訳) 量子コンピューティングコンポーネントの認証は、量子ハードウェアの改善と量子アルゴリズムの校正に不可欠である。 本研究では,黒箱シナリオにおける単一量子ビット量子計算を次元仮定で証明する効率的な手法を提案する。 本手法は、所定のゲート列に対する量子計算の決定論的結果をテストすることに基づく。 量子ゲートは入力-出力相関に基づいて認証され、補助システムは不要である。 我々は、サンプル複雑性が1量子ビット位相シフトゲートの認証のために平均ゲート不貞性$\varepsilon$に対して o$(\varepsilon^{-1})$ として増加することを証明する。 さらに,提案手法は単一キュービット量子計算において共通なゲートセットの証明に利用できることを示す。 我々のアプローチは、自己検証から証明の強い概念と、量子システムの特徴から実際に高い関連性を持つアプローチのギャップを埋める第一歩を踏み出す。

Certification of quantum computing components can be crucial for quantum hardware improvements and the calibration of quantum algorithms. In this work, we propose an efficient method for certifying single-qubit quantum computation in a black-box scenario under the dimension assumption. The method is based on testing deterministic outcomes of quantum computation for predetermined gate sequences. Quantum gates are certified based on input-output correlations, with no auxiliary systems required. We prove that the sample complexity grows as O$(\varepsilon^{-1})$ with respect to the average gate infidelity $\varepsilon$ for the certification of a single-qubit phase shift gate. Furthermore, we show that the proposed method can be used to certify a gate set universal for single-qubit quantum computation. Our approach takes a first step in bridging the gap between strong notions of certification from self-testing and practically highly relevant approaches from quantum system characterization.
翻訳日:2024-03-07 00:38:29 公開日:2024-03-05
# 連続強化学習のための世界モデルにおけるリプレイ強化

Augmenting Replay in World Models for Continual Reinforcement Learning ( http://arxiv.org/abs/2401.16650v2 )

ライセンス: Link先を確認
Luke Yang, Levin Kuhlmann, Gideon Kowadlo(参考訳) 連続的なRLは、エージェントが一連のタスクにさらされる難しい問題であり、古いタスクを忘れずに新しいタスクを学習し、新しいタスクを学ぶことは、以前のタスクと将来のタスクのパフォーマンスを改善する。 最も一般的なアプローチはモデルフリーのrlアルゴリズムをベースとし、再生バッファは壊滅的な忘れを克服するために使われてきた。 しかし、バッファは非常に大きく、スケーラビリティを難しくすることが多い。 また、リプレイの概念は生物学的なインスピレーションから来ており、リプレイはモデルベースのrlを含む世界モデルに適用されていることを示唆する証拠がある。 本稿では,世界モデルとメモリ効率の良い分散マッチング・リプレイバッファを備えたモデルベースのrlアルゴリズムであるarded replayを用いたwmar,world modelを提案する。 これはよく知られたdreamerv3アルゴリズムに基づいており、単純なfifoバッファを持ち、連続rl設定ではテストされなかった。 我々は,OpenAI ProcGen と Atari の共通構造を持つタスクに対して,タスク・オラクルなしで WMAR 対 WMAR (FIFO のみ) を評価した。 その結果、wmarは連続rl上で好適な特性を持ち、計算オーバーヘッドをwmar(fifoのみ)と比較して大幅に削減できることがわかった。 WMARは、共有構造を持たないタスクにおけるDreamerV3よりも小さな利点があり、共有構造を持たないタスクの特徴をかなりよく忘れることができた。 その結果、メモリ効率の良いリプレイバッファを持つ世界モデルを用いたモデルベースrlは、継続的なrlへの効果的かつ実用的なアプローチとなり、将来の作業の正当化が期待できる。

Continual RL is a challenging problem where the agent is exposed to a sequence of tasks; it should learn new tasks without forgetting old ones, and learning the new task should improve performance on previous and future tasks. The most common approaches use model-free RL algorithms as a base, and replay buffers have been used to overcome catastrophic forgetting. However, the buffers are often very large making scalability difficult. Also, the concept of replay comes from biological inspiration, where evidence suggests that replay is applied to a world model, which implies model-based RL -- and model-based RL should have benefits for continual RL, where it is possible to exploit knowledge independent of the policy. We present WMAR, World Models with Augmented Replay, a model-based RL algorithm with a world model and memory efficient distribution matching replay buffer. It is based on the well-known DreamerV3 algorithm, which has a simple FIFO buffer and was not tested in a continual RL setting. We evaluated WMAR vs WMAR (FIFO only) on tasks with and without shared structure from OpenAI ProcGen and Atari respectively, and without a task oracle. We found that WMAR has favourable properties on continual RL with significantly reduced computational overhead compared to WMAR (FIFO only). WMAR had small benefits over DreamerV3 on tasks with shared structure and substantially better forgetting characteristics on tasks without shared structure; but at the cost of lower plasticity seen in a lower maximum on new tasks. The results suggest that model-based RL using a world model with a memory efficient replay buffer can be an effective and practical approach to continual RL, justifying future work.
翻訳日:2024-03-07 00:38:15 公開日:2024-03-05
# ソフトタッチによるノーム強化:より高速な創発, 幸せなエージェント

Norm Enforcement with a Soft Touch: Faster Emergence, Happier Agents ( http://arxiv.org/abs/2401.16461v3 )

ライセンス: Link先を確認
Sz-Ting Tzeng, Nirav Ajmeri, Munindar P. Singh(参考訳) マルチエージェントシステム(multiagent system)は、社会的規範を通じて相互作用を規制できる自律的なエージェントの社会である。 一般に、社会の規範はハードコードされていないが、エージェントの相互作用から生まれる。 特に、社会のエージェントがお互いの行動にどう反応し、他人の反応に反応するかは、社会においてどの規範が現れるかを決定する。 第1のエージェントから第2のエージェントへのコミュニケーションとして、他のエージェントの満足な行動や不満足な行動に対するエージェントによるこれらの反応を考えます。 これらのコミュニケーションを理解することは、一種の社会的知性である:これらのコミュニケーションは、エージェントを特定の行動に向かわせることによって、規範の発生を自然に促進する。 制裁が規範の出現につながることはよく知られているが、より広い種類の社会知能がマルチエージェントシステムにおける協力を促進する上でより効果的であることを示す。 そこで我々は,ソーシャルインテリジェンスをさまざまなコミュニケーションや理解を通じてモデル化するフレームワークであるNestを開発した。 そこで本研究では,nestをシミュレーションしたパンデミック環境を構築し,社会コミュニケーションの3種類の組み合わせを考慮に入れて,nestとベースラインを比較するシミュレーション実験を行った。 ネストエージェントからなる社会は、規範をより早く達成できることが分かる。 さらに、Nestエージェントは、ネガティブな制裁や目標の逸脱である望ましくない結果を効果的に回避し、同等の情報しか必要とせず、ベースラインエージェントよりも満足度が高い。

A multiagent system is a society of autonomous agents whose interactions can be regulated via social norms. In general, the norms of a society are not hardcoded but emerge from the agents' interactions. Specifically, how the agents in a society react to each other's behavior and respond to the reactions of others determines which norms emerge in the society. We think of these reactions by an agent to the satisfactory or unsatisfactory behaviors of another agent as communications from the first agent to the second agent. Understanding these communications is a kind of social intelligence: these communications provide natural drivers for norm emergence by pushing agents toward certain behaviors, which can become established as norms. Whereas it is well-known that sanctioning can lead to the emergence of norms, we posit that a broader kind of social intelligence can prove more effective in promoting cooperation in a multiagent system. Accordingly, we develop Nest, a framework that models social intelligence via a wider variety of communications and understanding of them than in previous work. To evaluate Nest, we develop a simulated pandemic environment and conduct simulation experiments to compare Nest with baselines considering a combination of three kinds of social communication: sanction, tell, and hint. We find that societies formed of Nest agents achieve norms faster. Moreover, Nest agents effectively avoid undesirable consequences, which are negative sanctions and deviation from goals, and yield higher satisfaction for themselves than baseline agents despite requiring only an equivalent amount of information.
翻訳日:2024-03-07 00:37:18 公開日:2024-03-05
# VampPrior混合モデル

The VampPrior Mixture Model ( http://arxiv.org/abs/2402.04412v2 )

ライセンス: Link先を確認
Andrew Stirn and David A. Knowles(参考訳) 深層潜伏変数モデル(DLVM)の現在のクラスタリングでは、a-prioriのクラスタ数を定義する必要があり、初期化が貧弱である。 これらの欠陥に対処することは、統合とクラスタリングを同時に行うことで、ディープラーニングベースのscrna-seq分析に大きなメリットがある。 我々は、vampprior (tomczak & welling, 2018) をdirichlet process gaussian mixed modelに適応させ、dlvmsに先立つ新しいvampprior mixed model (vmm) を実現した。 本稿では,変分推論と経験ベイズを交互に交互に推定し,変分パラメータと先行パラメータをきれいに区別する手法を提案する。 変分オートコーダでVMMを使用すると、ベンチマークデータセット上で非常に競争力のあるクラスタリング性能が得られる。 Augmenting scVI (Lopez et al., 2018), a popular scRNA-seq integration method, with the VMMは、その性能を著しく改善し、細胞を生物学的に意味のあるクラスターに自動的に配置する。

Current clustering priors for deep latent variable models (DLVMs) require defining the number of clusters a-priori and are susceptible to poor initializations. Addressing these deficiencies could greatly benefit deep learning-based scRNA-seq analysis by performing integration and clustering simultaneously. We adapt the VampPrior (Tomczak & Welling, 2018) into a Dirichlet process Gaussian mixture model, resulting in the VampPrior Mixture Model (VMM), a novel prior for DLVMs. We propose an inference procedure that alternates between variational inference and Empirical Bayes to cleanly distinguish variational and prior parameters. Using the VMM in a Variational Autoencoder attains highly competitive clustering performance on benchmark datasets. Augmenting scVI (Lopez et al., 2018), a popular scRNA-seq integration method, with the VMM significantly improves its performance and automatically arranges cells into biologically meaningful clusters.
翻訳日:2024-03-07 00:30:33 公開日:2024-03-05
# 量子プロセスにおける情報フローの定量化

Quantifying information flow in quantum processes ( http://arxiv.org/abs/2402.04213v2 )

ライセンス: Link先を確認
Leonardo Santos, Zhen-Peng Xu, Jyrki Piilo, Otfried G\"uhne(参考訳) 本稿では,一般量子プロセスにおける情報フローを定量化する枠組みを提案する。 そこで本稿では,量子チャネルのシグナリングパワーを紹介し,その動作特性について考察する。 この関数は高次写像への拡張をサポートし、一般的な量子因果ネットワークや不確定因果順序のプロセスにおける情報フローの評価を可能にする。 さらに,初期システム環境相関の存在下でも適用可能なオープンシステムにおける情報ダイナミクスへの厳密なアプローチを提供し,古典情報と量子情報バックフローの区別を可能にした。

We present a framework for quantifying information flow within general quantum processes. For this purpose, we introduce the signaling power of quantum channels and discuss its relevant operational properties. This function supports extensions to higher order maps, enabling the evaluation of information flow in general quantum causal networks and also processes with indefinite causal order. Furthermore, our results offer a rigorous approach to information dynamics in open systems that applies also in the presence of initial system-environment correlations, and allows for the distinction between classical and quantum information backflow.
翻訳日:2024-03-07 00:30:09 公開日:2024-03-05
# 医用画像セグメンテーションのための適応型Deep Supervisionを用いたDensely Decoded Networks

Densely Decoded Networks with Adaptive Deep Supervision for Medical Image Segmentation ( http://arxiv.org/abs/2402.02649v2 )

ライセンス: Link先を確認
Suraj Mishra and Danny Z. Chen(参考訳) ディープニューラルネットワークを用いた医用画像分割が成功している。 しかし、これらのネットワークの有効性は、密度の低い予測と頑健な特徴を抽出できないことによって制限されることが多い。 本研究では,'crutch'ネットワーク接続を選択的に導入し,高密度復号化ネットワーク(ddn)を提案する。 ネットワークデコーダ(1)のアップサンプリング段階におけるこのような「クラッチ」接続は、エンコーダからの高解像度特徴を取り入れたターゲットローカライゼーションを強化し、(2)多段階のコンテキスト情報フローを容易にすることでセグメンテーションを改善する。 さらに,適応的深層監視(ads)に基づくトレーニング戦略を提案し,入力データセットの特定の属性を活用・適応し,ロバストな特徴抽出を行う。 特にadsは、ネットワークの平均入力オブジェクトサイズと層別有効受容フィールド(lerf)をマッチングすることにより、補助的な監督を戦略的に配置し、展開する。 このような「コンパニオン目標」を特定の隠蔽層から含めることで、トレーニング中にネットワークが「無視」する可能性のある、いくつかの異なる入力依存機能にモデルが注意を払うのに役立つ。 当社の新しいネットワークとトレーニング戦略は、異なるモダリティの4つの多様なデータセット上で検証され、その効果を示しています。

Medical image segmentation using deep neural networks has been highly successful. However, the effectiveness of these networks is often limited by inadequate dense prediction and inability to extract robust features. To achieve refined dense prediction, we propose densely decoded networks (ddn), by selectively introducing 'crutch' network connections. Such 'crutch' connections in each upsampling stage of the network decoder (1) enhance target localization by incorporating high resolution features from the encoder, and (2) improve segmentation by facilitating multi-stage contextual information flow. Further, we present a training strategy based on adaptive deep supervision (ads), which exploits and adapts specific attributes of input dataset, for robust feature extraction. In particular, ads strategically locates and deploys auxiliary supervision, by matching the average input object size with the layer-wise effective receptive fields (lerf) of a network, resulting in a class of ddns. Such inclusion of 'companion objective' from a specific hidden layer, helps the model pay close attention to some distinct input-dependent features, which the network might otherwise 'ignore' during training. Our new networks and training strategy are validated on 4 diverse datasets of different modalities, demonstrating their effectiveness.
翻訳日:2024-03-07 00:28:23 公開日:2024-03-05
# マルチレベルおよび注意誘導トークン化に基づくゼロショットスケッチに基づくリモートセンシング画像検索

Zero-shot sketch-based remote sensing image retrieval based on multi-level and attention-guided tokenization ( http://arxiv.org/abs/2402.02141v2 )

ライセンス: Link先を確認
Bo Yang, Chen Wang, Xiaoshuang Ma, Beiping Song and Zhuang Liu(参考訳) リモートセンシングビッグデータの領域では,リモートセンシングデータベースから画像を効果的かつ効率的に取得することが重要な課題である。 手描きのスケッチを検索入力として利用すると、直感的でユーザフレンドリーなアドバンテージが得られるが、スケッチからのマルチレベル機能統合の可能性は未検討のままであり、最適でない検索性能をもたらす。 このギャップに対処するため,リモートセンシング画像のゼロショット・スケッチベース検索手法を導入し,マルチレベル特徴抽出,自己注意誘導型トークン化とフィルタリング,モダリティ間アテンション更新を実現した。 このアプローチでは視覚情報のみを使用し、スケッチや画像に関する意味知識を必要としない。 まず、クエリスケッチのトークン化にマルチレベルな自己意図的特徴抽出、および候補画像のトークン化に自己意識的特徴抽出を採用する。 次に、これらの2つのモダリティ間のトークン対応を確立するためにクロスアテンション機構を使用し、スケッチと画像の類似性の計算を容易にする。 提案手法は,複数のデータセットを用いたテストで示されるように,既存のスケッチに基づくリモートセンシング画像検索技術を大幅に上回っている。 特に、目に見えないカテゴリや新しいリモートセンシングデータを扱う際に、堅牢なゼロショット学習能力と強力な一般化性を示す。 この方法のスケーラビリティは、データベース内のすべての候補画像に対する検索トークンの事前計算によってさらに向上することができる。 クロスモーダルリモートセンシング画像検索におけるマルチレベル・注意誘導トークン化の可能性について考察した。 幅広いアクセシビリティと研究の促進のために、この研究で使われているコードとデータセットをオンラインで公開しました。 コードとデータセットはhttps://github.com/snowstormfly/cross-modal-retrieval-mlagtで入手できる。

Effectively and efficiently retrieving images from remote sensing databases is a critical challenge in the realm of remote sensing big data. Utilizing hand-drawn sketches as retrieval inputs offers intuitive and user-friendly advantages, yet the potential of multi-level feature integration from sketches remains underexplored, leading to suboptimal retrieval performance. To address this gap, our study introduces a novel zero-shot, sketch-based retrieval method for remote sensing images, leveraging multi-level feature extraction, self-attention-guided tokenization and filtering, and cross-modality attention update. This approach employs only vision information and does not require semantic knowledge concerning the sketch and image. It starts by employing multi-level self-attention guided feature extraction to tokenize the query sketches, as well as self-attention feature extraction to tokenize the candidate images. It then employs cross-attention mechanisms to establish token correspondence between these two modalities, facilitating the computation of sketch-to-image similarity. Our method significantly outperforms existing sketch-based remote sensing image retrieval techniques, as evidenced by tests on multiple datasets. Notably, it also exhibits robust zero-shot learning capabilities and strong generalizability in handling unseen categories and novel remote sensing data. The method's scalability can be further enhanced by the pre-calculation of retrieval tokens for all candidate images in a database. This research underscores the significant potential of multi-level, attention-guided tokenization in cross-modal remote sensing image retrieval. For broader accessibility and research facilitation, we have made the code and dataset used in this study publicly available online. Code and dataset are available at https://github.com/Snowstormfly/Cross-modal-retrieval-MLAGT.
翻訳日:2024-03-07 00:26:54 公開日:2024-03-05
# LLMにおけるニューロン相互作用と創発の探索:多フラクタル解析の観点から

Exploring Neuron Interactions and Emergence in LLMs: From the Multifractal Analysis Perspective ( http://arxiv.org/abs/2402.09099v3 )

ライセンス: Link先を確認
Xiongye Xiao, Chenyu Zhou, Heng Ping, Defu Cao, Yaxing Li, Yizhuo Zhou, Shixuan Li, Paul Bogdan(参考訳) 大規模モデルの出現に関する以前の研究は、主に、大規模言語モデル(LLM)の機能的機能とモデルサイズとのスケール性に焦点を当てていた。 しかしながら、我々の研究は従来のパラダイムを超越し、モデルのサイズだけでなく、トレーニングプロセス中のニューロン相互作用の複雑な振る舞いにも特に重点を置いて、LSMの出現に対する理解を深めることを目的としています。 自己組織化」と「マルチフラクタル解析」の概念を導入することで、トレーニング中にニューロンの相互作用が動的に進化し、単純なミクロレベルの相互作用が複雑なマクロレベルの振る舞いを引き起こす自然システムにおける現象を反映する「創発」へと導くかを探る。 トレーニング中のニューロン間の連続的な相互作用を定量的に解析するために,ニューロMFA(NeuroMFA)を提案する。 NeuroMFAを用いて、モデルサイズとトレーニングプロセスの両方のレンズを通してLLMの創発的挙動を包括的に検証し、大規模モデルの出現を研究するための新たな道を開く。

Prior studies on the emergence in large models have primarily focused on how the functional capabilities of large language models (LLMs) scale with model size. Our research, however, transcends this traditional paradigm, aiming to deepen our understanding of the emergence within LLMs by placing a special emphasis not just on the model size but more significantly on the complex behavior of neuron interactions during the training process. By introducing the concepts of "self-organization" and "multifractal analysis," we explore how neuron interactions dynamically evolve during training, leading to "emergence," mirroring the phenomenon in natural systems where simple micro-level interactions give rise to complex macro-level behaviors. To quantitatively analyze the continuously evolving interactions among neurons in large models during training, we propose the Neuron-based Multifractal Analysis (NeuroMFA). Utilizing NeuroMFA, we conduct a comprehensive examination of the emergent behavior in LLMs through the lens of both model size and training process, paving new avenues for research into the emergence in large models.
翻訳日:2024-03-07 00:21:37 公開日:2024-03-05
# 任意の次元におけるLandau-StreaterあるいはWerner-Holevoチャネル

The noisy Landau-Streater or the Werner-Holevo channel in arbitrary dimensions ( http://arxiv.org/abs/2402.07700v2 )

ライセンス: Link先を確認
Vahid Karimipour(参考訳) 量子チャネルの2つの重要なクラス、namly the werner-holevoとlandau-streater channelは、3次元、すなわちクトリット上で振る舞うときのみ関連していることが知られている。 本研究において、ランダウ・セプターチャネルの定義は、すべての次元のヴェルナー・ホルボチャネルと同値を保つような方法で拡張される。 このチャネルは、quditsに作用するノイズのモデルとして表現できるように修正される。 次に, 結果として発生する雑音チャネルのプロピテンスを調査し, マルコフ進化の結果では得られない条件を決定する。 さらに,古典的および量子的情報を絡み合うことなく伝達する能力について検討する。 特に、純(または高ノイズ)ランダウ・セプタまたはヴェルナー・ホールボチャネルが絡み合っており、従って容量がゼロであるのに対し、量子容量に対する下界を見つけることにより、ノイズレベルが臨界値よりも低い場合、量子容量はゼロでないことを示す。 この値は、すべての次元においておよそ0.4$である。 最後に、偶数次元において、このチャネルはユニタリ操作の観点で分解されることを示す。 これは、そのような分解が可能であることが証明された3次元の場合とは対照的であり、他の量子写像の観点でも不可能である。

Two important classes of quantum channels, namly the Werner-Holevo and the Landau-Streater channels are known to be related only in three dimensions, i.e. when acting on qutrits. In this work, the definition of the Landau-Streater channel is extended in such a way which retains its equivalence to the Werner-Holevo channel in all dimensions. This channel is then modified to be representable as a model of noise acting on qudits. We then investigate propeties of the resulting noisy channel and determine the conditions under which it cannot be the result of a Markovian evolution. Furthermore, we investigate its different capacities for transmitting classical and quantum information with or without entanglement. In particular, while the pure (or high noise) Landau-Streater or the Werner-Holevo channel is entanglement breaking and hence has zero capacity, by finding a lower bound for the quantum capacity, we show that when the level of noise is lower than a critical value the quantum capacity will be non-zero. Surprizingly this value turns out to be approximately equal to $0.4$ in all dimensions. Finally we show that, in even dimensions, this channel has a decomposition in terms of unitary operations. This is in contrast with the three dimensional case where it has been proved that such a decomposition is possible is impossible, even in terms of other quantum maps.
翻訳日:2024-03-07 00:20:23 公開日:2024-03-05
# GTM: 特徴領域の自動回帰生成による一般軌道モデリング

GTM: General Trajectory Modeling with Auto-regressive Generation of Feature Domains ( http://arxiv.org/abs/2402.07232v2 )

ライセンス: Link先を確認
Yan Lin, Jilin Hu, Shengnan Guo, Bin Yang, Christian S. Jensen, Youfang Lin, Huaiyu Wan(参考訳) 車両の移動は、しばしば軌道、すなわちタイムスタンプされた位置のシーケンスの形で捉えられる。 移動時間推定、軌道回復、軌道予測など、軌跡を含む様々なタスクを目標とする多くの手法が存在する。 しかし、ほとんどのメソッドは特定のタスクのみを対象としており、他のタスクに一般化することはできない。 さらに、既存の手法は長い軌道では性能が悪く、また再サンプリングされたスパース軌道では性能が劣ることが多い。 これらの欠点に対処するために,正規およびスパース軌道に基づく様々なタスクを,再学習や余分な予測モジュールを必要とせずに支援することを目的とした一般軌道モデル(GTM)を提案する。 GTMは適応性と堅牢性を達成するために設計されている。 まず、gtmは、各ドメインが与えられたタスクの特定の入力および出力要求を満たすために独立してマスキングおよび生成されるように、軌跡のフィーチャを3つの異なるドメインに分離する。 第2に、GTMは、再サンプリングされたスパース軌道を再構成することで事前訓練される。 このプロセスにより、GTMはスパース軌道から詳細な時空間情報と道路セグメント情報を抽出し、軌跡がスパースであるときに一貫した性能を確保することができる。 2つの実世界の軌道データセットにおける3つの代表的な軌道関連タスクを含む実験は、gtmの意図する特性性能に関する洞察を与え、gtmがその目的を達成することができることを示す。

Vehicle movement is frequently captured in the form of trajectories, i.e., sequences of timestamped locations. Numerous methods exist that target different tasks involving trajectories such as travel-time estimation, trajectory recovery, and trajectory prediction. However, most methods target only one specific task and cannot be generalized to other tasks. Moreover, existing methods often perform poorly on long trajectories, while also underperforming on re-sampled, sparse trajectories. To address these shortcomings, we propose the General Trajectory Model (GTM) that aims to support different tasks based on regular and sparse trajectories without the need for retraining or extra prediction modules. GTM is designed expressly to achieve adaptability and robustness. First, GTM separates the features in trajectories into three distinct domains, such that each domain can be masked and generated independently to meet specific input and output requirements of a given task. Second, GTM is pre-trained by reconstructing densely sampled trajectories given re-sampled sparse counterparts. This process enables GTM to extract detailed spatio-temporal and road segment information from sparse trajectories, ensuring consistent performance when trajectories are sparse. Experiments involving three representative trajectory-related tasks on two real-world trajectory datasets provide insight into the intended properties performance of GTM and offer evidence that GTM is capable of meeting its objectives.
翻訳日:2024-03-07 00:19:20 公開日:2024-03-05
# 擬似ラベルを用いたドメイン適応

Domain Adaptation Using Pseudo Labels ( http://arxiv.org/abs/2402.06809v2 )

ライセンス: Link先を確認
Sachin Chhabra, Hemanth Venkateswara and Baoxin Li(参考訳) ラベル付きターゲットデータがない場合、教師なしのドメイン適応アプローチは、ターゲットの分類器を訓練するために、ソースとターゲットドメインの限界分布を調整することを求める。 教師なしドメインアライメント手順はカテゴリに依存しず、最終的にカテゴリを誤認する。 我々は,複数段階の擬似ラベル修正手法を用いて,対象ドメインの正確なラベルを決定するために事前学習ネットワークを配置することでこの問題に対処する。 フィルタは疑似ラベルの信頼性、距離(整合性)、一貫性に基づいている。 複数のデータセットに対する結果から, 複雑な最先端技術と比較して, 簡単な手順の有効性が示された。

In the absence of labeled target data, unsupervised domain adaptation approaches seek to align the marginal distributions of the source and target domains in order to train a classifier for the target. Unsupervised domain alignment procedures are category-agnostic and end up misaligning the categories. We address this problem by deploying a pretrained network to determine accurate labels for the target domain using a multi-stage pseudo-label refinement procedure. The filters are based on the confidence, distance (conformity), and consistency of the pseudo labels. Our results on multiple datasets demonstrate the effectiveness of our simple procedure in comparison with complex state-of-the-art techniques.
翻訳日:2024-03-07 00:18:56 公開日:2024-03-05
# 大規模言語モデルに対するエントロピー規則化トークンレベルポリシー最適化

Entropy-Regularized Token-Level Policy Optimization for Large Language Models ( http://arxiv.org/abs/2402.06700v2 )

ライセンス: Link先を確認
Muning Wen, Cheng Deng, Jun Wang, Weinan Zhang and Ying Wen(参考訳) 大規模言語モデル(llm)は、対話的意思決定タスクにおいて知的エージェントとしての約束を示している。 伝統的なアプローチは、しばしば厳密に設計されたプロンプト、高品質な例、文脈内学習、教師付き微調整(RLHF)のための追加の報酬モデルに依存する。 強化学習(Reinforcement Learning, RL)は、タスク固有の環境に直接関与することで、これらの依存関係を克服するLLMの動的代替手段を提供する。 それでも、大きなハードルに直面している。 1) 探索を必要とする指数的に広大な活動空間から生じる不安定性 2)行動レベルの報酬信号に基づいてトークン単位のクレジットを割り当てることの課題は,報酬の最大化とコーパスデータの正確なモデル化の相違をもたらす。 これらの課題に対応するために,トークンレベルでLLMを最適化するためのエントロピー拡張RL法であるEntropy-Regularized Token-level Policy Optimization (ETPO)を導入する。 ETPOの中心となるのは、RLプロセスと言語モデリングの原則を調和させるように設計された、新しいソフトなベルマンアップデートです。 この手法は、Q関数の更新を粗いアクションレベルの視点からより粒度の細かいトークンレベルの視点へ分解し、最適化整合性の理論的証明に裏付ける。 重要なことに、この分解は行動探索において線形時間複雑性をもたらす。 我々は,データサイエンスコード生成を多段階対話型タスクとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。その結果,ETPOはCodeLlama-7Bモデル上で効果的な性能向上を実現し,RLHFから受け継いだ変種PPOベースラインを超えていることが示された。 このことは、LEMの対話的意思決定能力を洗練するための堅牢な方法としてのETPOの可能性の基盤となっている。 私たちのコードはhttps://github.com/morning9393/etpoでオープンソースです。

Large Language Models (LLMs) have shown promise as intelligent agents in interactive decision-making tasks. Traditional approaches often depend on meticulously designed prompts, high-quality examples, or additional reward models for in-context learning, supervised fine-tuning, or RLHF. Reinforcement learning (RL) presents a dynamic alternative for LLMs to overcome these dependencies by engaging directly with task-specific environments. Nonetheless, it faces significant hurdles: 1) instability stemming from the exponentially vast action space requiring exploration; 2) challenges in assigning token-level credit based on action-level reward signals, resulting in discord between maximizing rewards and accurately modeling corpus data. In response to these challenges, we introduce Entropy-Regularized Token-level Policy Optimization (ETPO), an entropy-augmented RL method tailored for optimizing LLMs at the token level. At the heart of ETPO is our novel per-token soft Bellman update, designed to harmonize the RL process with the principles of language modeling. This methodology decomposes the Q-function update from a coarse action-level view to a more granular token-level perspective, backed by theoretical proof of optimization consistency. Crucially, this decomposition renders linear time complexity in action exploration. We assess the effectiveness of ETPO within a simulated environment that models data science code generation as a series of multi-step interactive tasks; results show that ETPO achieves effective performance improvement on the CodeLlama-7B model and surpasses a variant PPO baseline inherited from RLHF. This underlines ETPO's potential as a robust method for refining the interactive decision-making capabilities of LLMs. Our code is open-sourced at https://github.com/morning9393/ETPO.
翻訳日:2024-03-07 00:18:47 公開日:2024-03-05
# Magic Mirror on the Wall, How to Benchmark Quantum Error Correction Codes, overall ?

Magic Mirror on the Wall, How to Benchmark Quantum Error Correction Codes, Overall ? ( http://arxiv.org/abs/2402.11105v3 )

ライセンス: Link先を確認
Avimita Chatterjee and Swaroop Ghosh(参考訳) 量子誤り訂正符号(qecc)は、ノイズやエラーの悪影響から量子状態を保護することによって量子コンピューティングを進歩させる上で重要である。 既存のものの新しい開発や修正を含む様々なQECCの開発により、特定の条件に合わせて適切なQECCを選択することが重要である。 QECCの分野では大幅な改善があったが、それらを一貫した基準で評価するための統一的な方法論はいまだ解明されていない。 このギャップに対処するため,本論文では,QECCの最初のベンチマークフレームワークを提案する。 8つの重要なQECCを評価し,その分析のための8つのパラメータからなる包括的スイートを提案する。 提案手法は普遍的なベンチマーク手法を確立し,量子誤り訂正の複雑さを強調し,QECCの選択は各シナリオのユニークな要件と制限に依存することを示す。 さらに、与えられたシナリオの特定の要求に適応するQECCを選択するための体系的な戦略を開発し、量子誤り訂正に対する調整されたアプローチを容易にする。 さらに,ユーザが提供したシナリオの特徴を評価する新しいQECCレコメンデーションツールを導入し,各コードに対して達成可能な最大距離とともに,最も適度なQECCのスペクトルを推奨する。 このツールは適応可能なように設計されているので、新しいqeccを取り入れ、最小限の労力でパラメータを変更することができ、量子コンピューティングの進化の風景にその関連性が保証される。

Quantum Error Correction Codes (QECCs) are pivotal in advancing quantum computing by protecting quantum states against the adverse effects of noise and errors. With a variety of QECCs developed, including new developments and modifications of existing ones, selecting an appropriate QECC tailored to specific conditions is crucial. Despite significant improvements in the field of QECCs, a unified methodology for evaluating them on a consistent basis has remained elusive. Addressing this gap, this paper presents the first benchmarking framework for QECCs, introducing a set of universal parameters. By evaluating eight prominent QECCs, we propose a comprehensive suite of eight parameters for their analysis. Our methodology establishes a universal benchmarking approach and highlights the complexity of quantum error correction, indicating that the choice of a QECC depends on the unique requirements and limitations of each scenario. Furthermore, we develop a systematic strategy for selecting QECCs that adapts to the specific requirements of a given scenario, facilitating a tailored approach to quantum error correction. Additionally, we introduce a novel QECC recommendation tool that assesses the characteristics of a given scenario provided by the user, subsequently recommending a spectrum of QECCs from most to least suitable, along with the maximum achievable distance for each code. This tool is designed to be adaptable, allowing for the inclusion of new QECCs and the modification of their parameters with minimal effort, ensuring its relevance in the evolving landscape of quantum computing.
翻訳日:2024-03-07 00:11:25 公開日:2024-03-05
# ASGEA: エンティティアライメントのためのAlign-Subgraphsからのロジックルールのエクスプロイト

ASGEA: Exploiting Logic Rules from Align-Subgraphs for Entity Alignment ( http://arxiv.org/abs/2402.11000v2 )

ライセンス: Link先を確認
Yangyifei Luo, Zhuo Chen, Lingbing Guo, Qian Li, Wenxuan Zeng, Zhixin Cai, Jianxin Li(参考訳) エンティティアライメント(EA)は、同じ現実世界のオブジェクトを表す異なる知識グラフにまたがるエンティティを識別することを目的としている。 最近の埋め込みベースのEAメソッドは、EAで最先端のパフォーマンスを達成したが、純粋に埋め込み距離に依存し、一対の整列したエンティティの背後にあるロジックルールを無視しているため、解釈可能性の問題に直面した。 本稿では,アライメント・サブグラフから論理ルールを利用するためのアライメント・サブグラフ・エンティティアライメント(asgea)フレームワークを提案する。 ASGEAは橋としてアンカーリンクを使用し、Align-Subgraphを構築し、KGにまたがる経路に沿って展開する。 さらに,解釈可能なパスベースグラフニューラルネットワークASGNNを設計し,KG間の論理規則を効果的に識別し,統合する。 また,ノードレベルのマルチモーダルアテンション機構とマルチモーダルアンカーを組み合わせることで,Align-Subgraphの拡張を行う。 実験の結果,既存の組込み方式に比べて,MMEA(Multi-Modal EA)タスクにおけるASGEAの優れた性能が示された。

Entity alignment (EA) aims to identify entities across different knowledge graphs that represent the same real-world objects. Recent embedding-based EA methods have achieved state-of-the-art performance in EA yet faced interpretability challenges as they purely rely on the embedding distance and neglect the logic rules behind a pair of aligned entities. In this paper, we propose the Align-Subgraph Entity Alignment (ASGEA) framework to exploit logic rules from Align-Subgraphs. ASGEA uses anchor links as bridges to construct Align-Subgraphs and spreads along the paths across KGs, which distinguishes it from the embedding-based methods. Furthermore, we design an interpretable Path-based Graph Neural Network, ASGNN, to effectively identify and integrate the logic rules across KGs. We also introduce a node-level multi-modal attention mechanism coupled with multi-modal enriched anchors to augment the Align-Subgraph. Our experimental results demonstrate the superior performance of ASGEA over the existing embedding-based methods in both EA and Multi-Modal EA (MMEA) tasks.
翻訳日:2024-03-07 00:10:34 公開日:2024-03-05
# 可積分散逸性Bose-HubbardモデルにおけるLiouvillian皮膚効果と分断凝縮物

Liouvillian skin effects and fragmented condensates in an integrable dissipative Bose-Hubbard model ( http://arxiv.org/abs/2402.10261v2 )

ライセンス: Link先を確認
Christopher Ekman, Emil J. Bergholtz(参考訳) 強い相互作用を持つ非平衡系は、非常に基本的な関心を持つが、その固有の複雑さは分析を困難にしている。 可解性を回避したボース・ハバードモデルの力学は、ホッピング振幅に一致する速度に調整された損失が存在する場合、任意の相互作用強度で正確に解くことができる。 驚くべきことに、対応するリウヴィリアンの完全可解性と関連する有効な非エルミート・ハミルトニアンの可積分性は、乱れと総称境界条件の付加によって生き残る。 ベーテ・アンサッツの解を分析することで、弱い相互作用がシステムの質的特徴を変化させ、非エルミートモット・スキン効果、障害誘発局在、高度に縮退した例外点、断片化された凝縮のボースガラス様相を特徴とする複雑な動的位相図が導かれることが判明した。 寒冷原子を用いたモデルの実現について論じる。

Strongly interacting non-equilibrium systems are of great fundamental interest, yet their inherent complexity make then notoriously hard to analyze. We demonstrate that the dynamics of the Bose-Hubbard model, which by itself evades solvability, can be solved exactly at any interaction strength in the presence of loss tuned to a rate matching the hopping amplitude. Remarkably, the full solvability of the corresponding Liouvillian, and the integrability of the pertinent effective non-Hermitian Hamiltonian, survives the addition of disorder and generic boundary conditions. By analyzing the Bethe ansatz solutions we find that even weak interactions change the qualitative features of the system, leading to an intricate dynamical phase diagram featuring non-Hermitian Mott-skin effects, disorder induced localization, highly degenerate exceptional points, and a Bose glass-like phase of fragmented condensates. We discuss realistic implementations of this model with cold atoms.
翻訳日:2024-03-07 00:09:19 公開日:2024-03-05
# 連続グルコースモニタリングとメンテナンスのためのニューラルコントロールシステム

Neural Control System for Continuous Glucose Monitoring and Maintenance ( http://arxiv.org/abs/2402.13852v2 )

ライセンス: Link先を確認
Azmine Toushik Wasi(参考訳) 血糖値の精密モニタリングは、糖尿病患者にとって深刻な合併症を避けるために重要である。 連続グルコースレベルモニタリングにはいくつかの方法があるが、メンテナンス装置の研究は限られている。 このギャップを緩和するために,差分予測制御を用いた連続グルコースモニタリングと管理のためのニューラルコントロールシステムを提案する。 我々のアプローチは、洗練されたニューラルポリシーと微分可能なモデリングによって導かれ、インスリン供給をリアルタイムで調整し、体内のグルコースレベルを最適化する。 このエンド・ツー・エンドの手法は効率を最大化し、経験的証拠によって確認されたように、パーソナライズされたケアを提供し、健康結果を改善する。

Precise glucose level monitoring is critical for people with diabetes to avoid serious complications. While there are several methods for continuous glucose level monitoring, research on maintenance devices is limited. To mitigate the gap, we provide a novel neural control system for continuous glucose monitoring and management that uses differential predictive control. Our approach, led by a sophisticated neural policy and differentiable modeling, constantly adjusts insulin supply in real-time, thereby improving glucose level optimization in the body. This end-to-end method maximizes efficiency, providing personalized care and improved health outcomes, as confirmed by empirical evidence.
翻訳日:2024-03-07 00:02:29 公開日:2024-03-05
# 生体力学モデルと合成トレーニングデータを用いた映像からの3次元運動量推定

3D Kinematics Estimation from Video with a Biomechanical Model and Synthetic Training Data ( http://arxiv.org/abs/2402.13172v4 )

ライセンス: Link先を確認
Zhi-Yi Lin, Bofan Lyu, Judith Cueto Fernandez, Eline van der Kruk, Ajay Seth, Xucong Zhang(参考訳) 身体の正確な3次元運動学的推定は、リハビリテーション、傷害予防、診断など、人体の健康とモビリティの様々な応用において不可欠であり、運動中に経験される生体力学的負荷を理解するのに役立つ。 従来のマーカーに基づくモーションキャプチャーは、財務投資、時間、専門知識の点で高価である。 さらに、正確なアノテーションを持つデータセットの不足のため、既存のマーカーレスモーションキャプチャメソッドは、信頼性の低い2dキーポイント検出、限られた解剖学的精度、低い一般化能力といった課題を抱えている。 本研究では,生体力学的事前情報と時空間情報を考慮した2つの入力ビューから3Dキネマティクスを直接出力するバイオメカニクス対応ネットワークを提案する。 モデルをトレーニングするために,SMPL-XモデルとフルボディOpenSim骨格モデルから体メッシュを整列させて生成した,正確なキネマティクスアノテーションを用いた合成データセットOdaHを作成する。 広範な実験により,提案手法は合成データのみを訓練し,複数のデータセットで評価された場合,従来の最先端手法を上回っており,映像ベースモーションキャプチャ向上に向けた有望な方向性を明らかにした。

Accurate 3D kinematics estimation of human body is crucial in various applications for human health and mobility, such as rehabilitation, injury prevention, and diagnosis, as it helps to understand the biomechanical loading experienced during movement. Conventional marker-based motion capture is expensive in terms of financial investment, time, and the expertise required. Moreover, due to the scarcity of datasets with accurate annotations, existing markerless motion capture methods suffer from challenges including unreliable 2D keypoint detection, limited anatomic accuracy, and low generalization capability. In this work, we propose a novel biomechanics-aware network that directly outputs 3D kinematics from two input views with consideration of biomechanical prior and spatio-temporal information. To train the model, we create synthetic dataset ODAH with accurate kinematics annotations generated by aligning the body mesh from the SMPL-X model and a full-body OpenSim skeletal model. Our extensive experiments demonstrate that the proposed approach, only trained on synthetic data, outperforms previous state-of-the-art methods when evaluated across multiple datasets, revealing a promising direction for enhancing video-based human motion capture
翻訳日:2024-03-07 00:01:38 公開日:2024-03-05
# 中毒がモデルパラメータとニューロン活性化に及ぼす影響の測定 : CodeBERTを事例として

Measuring Impacts of Poisoning on Model Parameters and Neuron Activations: A Case Study of Poisoning CodeBERT ( http://arxiv.org/abs/2402.12936v2 )

ライセンス: Link先を確認
Aftab Hussain, Md Rafiqul Islam Rabin, Navid Ayoobi, Mohammad Amin Alipour(参考訳) 大きな言語モデル(LLM)はソフトウェア開発プラクティスに革命をもたらしたが、その安全性、特に隠れたバックドア、いわゆるトロイの木馬に関する懸念が生まれている。 バックドア攻撃は、トレーニングデータにトリガーを挿入することで、攻撃者がモデルの振る舞いを悪意を持って操作できる。 本稿では,コードモデルにおける潜在的なバックドア信号を検出するためのモデルパラメータの解析に焦点をあてる。 具体的には、クリーンで有毒なCodeBERTモデルの注意重みとバイアス、アクティベーション値、コンテキスト埋め込みについて検討する。 以上の結果から,CodeBERTモデルでは,有毒試料の活性化値とコンテキスト埋め込みに顕著なパターンがみられたが,注意重みとバイアスは有意差は認められなかった。 この研究は、パラメータとアクティベーションの分析を通じて、コードのLLMにおけるバックドア信号のホワイトボックス検出の継続的な取り組みに寄与する。

Large language models (LLMs) have revolutionized software development practices, yet concerns about their safety have arisen, particularly regarding hidden backdoors, aka trojans. Backdoor attacks involve the insertion of triggers into training data, allowing attackers to manipulate the behavior of the model maliciously. In this paper, we focus on analyzing the model parameters to detect potential backdoor signals in code models. Specifically, we examine attention weights and biases, activation values, and context embeddings of the clean and poisoned CodeBERT models. Our results suggest noticeable patterns in activation values and context embeddings of poisoned samples for the poisoned CodeBERT model; however, attention weights and biases do not show any significant differences. This work contributes to ongoing efforts in white-box detection of backdoor signals in LLMs of code through the analysis of parameters and activations.
翻訳日:2024-03-07 00:01:15 公開日:2024-03-05
# DiffusionNOCS: Sim2Real Multi-Modal Category-level Pose Estimationにおける対称性と不確かさの管理

DiffusionNOCS: Managing Symmetry and Uncertainty in Sim2Real Multi-Modal Category-level Pose Estimation ( http://arxiv.org/abs/2402.12647v2 )

ライセンス: Link先を確認
Takuya Ikeda, Sergey Zakharov, Tianyi Ko, Muhammad Zubair Irshad, Robert Lee, Katherine Liu, Rares Ambrus, Koichi Nishiwaki(参考訳) 本稿ではカテゴリレベルのポーズ推定の課題に対処する。 このタスクの現在の最先端の手法は、対称オブジェクトを扱う場合や、合成データトレーニングのみを通じて新しい環境に一般化しようとする場合の課題に直面している。 本研究では, 部分物体形状の復元に不可欠な高次正準写像を推定し, ポーズ推定に不可欠な対応性を確立するために, 拡散に依存する確率モデルを提案する。 さらに,マルチモーダル入力表現を用いた拡散モデルの強みを活かし,性能向上のために重要なコンポーネントを導入する。 本稿では,本手法の有効性を実データで検証することで実証する。 我々の生成した合成データのみに基づいてトレーニングされているにもかかわらず、我々のアプローチは最先端のパフォーマンスと前例のない一般化品質を達成し、ターゲットドメインで特別にトレーニングされたデータでもベースラインよりも優れています。

This paper addresses the challenging problem of category-level pose estimation. Current state-of-the-art methods for this task face challenges when dealing with symmetric objects and when attempting to generalize to new environments solely through synthetic data training. In this work, we address these challenges by proposing a probabilistic model that relies on diffusion to estimate dense canonical maps crucial for recovering partial object shapes as well as establishing correspondences essential for pose estimation. Furthermore, we introduce critical components to enhance performance by leveraging the strength of the diffusion models with multi-modal input representations. We demonstrate the effectiveness of our method by testing it on a range of real datasets. Despite being trained solely on our generated synthetic data, our approach achieves state-of-the-art performance and unprecedented generalization qualities, outperforming baselines, even those specifically trained on the target domain.
翻訳日:2024-03-07 00:00:13 公開日:2024-03-05
# グラフニューラルネットワークにおけるノード属性の攻撃

Attacks on Node Attributes in Graph Neural Networks ( http://arxiv.org/abs/2402.12426v2 )

ライセンス: Link先を確認
Ying Xu, Michael Lanier, Anindya Sarkar, Yevgeniy Vorobeychik(参考訳) グラフは、現代のソーシャルメディアやリテラシーアプリケーションで広く使われている複雑なネットワークをモデル化するのによく使われる。 本研究は,これらのグラフの脆弱性を,特徴に基づく敵攻撃の適用を通じて調査し,決定時間攻撃と毒殺攻撃の両方に焦点をあてる。 ノード属性とグラフ構造を対象とするNet AttackやMeta Attackのような技術モデルとは対照的に,本研究では特にノード属性を対象とする。 分析では,テキストデータセットのHellaswagとグラフデータセットのCoraとCiteSeerを使用し,さまざまな評価基盤を提供しました。 本研究は,平均ノード埋め込みとグラフコントラスト学習戦略を用いた中毒攻撃と比較して,pgdを用いた意思決定時間攻撃の方が強いことを示唆する。 これはグラフデータセキュリティに対する洞察を与え、グラフベースのモデルが最も脆弱な場所をピンポイントすることで、そのような攻撃に対する強力な防御メカニズムの開発を通知する。

Graphs are commonly used to model complex networks prevalent in modern social media and literacy applications. Our research investigates the vulnerability of these graphs through the application of feature based adversarial attacks, focusing on both decision time attacks and poisoning attacks. In contrast to state of the art models like Net Attack and Meta Attack, which target node attributes and graph structure, our study specifically targets node attributes. For our analysis, we utilized the text dataset Hellaswag and graph datasets Cora and CiteSeer, providing a diverse basis for evaluation. Our findings indicate that decision time attacks using Projected Gradient Descent (PGD) are more potent compared to poisoning attacks that employ Mean Node Embeddings and Graph Contrastive Learning strategies. This provides insights for graph data security, pinpointing where graph-based models are most vulnerable and thereby informing the development of stronger defense mechanisms against such attacks.
翻訳日:2024-03-06 23:59:55 公開日:2024-03-05
# mafin:model augmented fine-tuningによるブラックボックス埋め込みの拡張

Mafin: Enhancing Black-Box Embeddings with Model Augmented Fine-Tuning ( http://arxiv.org/abs/2402.12177v3 )

ライセンス: Link先を確認
Mingtian Zhang, Shawn Lan, Peter Hayes, David Barber(参考訳) Retrieval Augmented Generation (RAG) は、Large Language Models (LLMs) における幻覚を緩和する有効なソリューションとして登場した。 RAGの検索段階は通常、クエリとパスをベクトルに変換してセマンティクスをキャプチャする事前訓練された埋め込みモデルを含む。 しかし、標準的な事前学習型埋め込みモデルは、特定のドメイン知識に適用した場合に準最適性能を示し、微調整を必要とする。 本稿では,組込みがブラックボックスモデルからのみ利用できるシナリオについて述べる。 mafin (model augmented fine-tuning) - 学習可能な埋め込みモデルで拡張することでブラックボックス埋め込みモデルを微調整するための新しいアプローチである。 その結果,mafinは小さな拡張モデルのトレーニングだけで,ブラックボックス埋め込みの性能を大幅に向上できることがわかった。 ラベル付きデータセットとラベル付きデータセットの両方において,提案手法の有効性を検証する。

Retrieval Augmented Generation (RAG) has emerged as an effective solution for mitigating hallucinations in Large Language Models (LLMs). The retrieval stage in RAG typically involves a pre-trained embedding model, which converts queries and passages into vectors to capture their semantics. However, a standard pre-trained embedding model may exhibit sub-optimal performance when applied to specific domain knowledge, necessitating fine-tuning. This paper addresses scenarios where the embeddings are only available from a black-box model. We introduce Model augmented fine-tuning (Mafin) -- a novel approach for fine-tuning a black-box embedding model by augmenting it with a trainable embedding model. Our results demonstrate that Mafin significantly enhances the performance of the black-box embeddings by only requiring the training of a small augmented model. We validate the effectiveness of our method on both labeled and unlabeled datasets, illustrating its broad applicability and efficiency.
翻訳日:2024-03-06 23:59:34 公開日:2024-03-05
# オンラインローカル偽発見率制御:資源配分アプローチ

Online Local False Discovery Rate Control: A Resource Allocation Approach ( http://arxiv.org/abs/2402.11425v2 )

ライセンス: Link先を確認
Ruicheng Ao, Hongyu Chen, David Simchi-Levi, Feng Zhu(参考訳) オンライン局所的偽発見率(fdr: online local false discovery rate)制御では,複数のテストが順次実施され,期待される発見回数を最大化することが課題である。 我々は,この問題をオンライン資源配分問題として,高いレベルからオンライン・ナップサック問題と見なすことができ,外在的無作為予算補充の不確実性が増す,受取消し決定問題として定式化する。 一般到着分布から始めて、$O(\sqrt{T})$ regret を達成するための簡単なポリシーを提案する。 このような後悔率は一般的には実現不可能であることを示すことで結果を補完する。 その後、焦点を離散的な到着分布に移す。 オンラインリソース割り当て文献における多くの既存の再解決ヒューリスティックは、標準設定における有界損失を達成したとしても、$\Omega(\sqrt{T})$あるいは$\Omega(T)$後悔を引き起こす可能性がある。 標準政策があまりに楽観的になりすぎ、到着を過度に受け入れる傾向があるという観測から、予算バッファーを組み込んだ新しい政策を提案する。 我々は、小さな対数バッファが$\Omega(\sqrt{T})$または$\Omega(T)$から$O(\ln^2T)$への後悔を減らすのに十分であることを示す。 理論的結果を検証するため, 数値実験を行った。 提案方式は,本論文で検討した問題を超えた幅広い応用が可能であり,本論文では,オンライン資源配分問題における不正受入れ回避と不正拒絶の軽減と,外部予算補充のバランスを取るために効果的な政策を設計すべきであることを強調する。

We consider the problem of online local false discovery rate (FDR) control where multiple tests are conducted sequentially, with the goal of maximizing the total expected number of discoveries. We formulate the problem as an online resource allocation problem with accept/reject decisions, which from a high level can be viewed as an online knapsack problem, with the additional uncertainty of exogenous random budget replenishment. We start with general arrival distributions and propose a simple policy that achieves a $O(\sqrt{T})$ regret. We complement the result by showing that such regret rate is in general not improvable. We then shift our focus to discrete arrival distributions. We find that many existing re-solving heuristics in the online resource allocation literature, albeit achieve bounded loss in canonical settings, may incur a $\Omega(\sqrt{T})$ or even a $\Omega(T)$ regret. With the observation that canonical policies tend to be too optimistic and over accept arrivals, we propose a novel policy that incorporates budget buffers. We show that small additional logarithmic buffers suffice to reduce the regret from $\Omega(\sqrt{T})$ or even $\Omega(T)$ to $O(\ln^2 T)$. Numerical experiments are conducted to validate our theoretical findings. Our formulation may have wider applications beyond the problem considered in this paper, and our results emphasize how effective policies should be designed to reach a balance between circumventing wrong accept and reducing wrong reject in online resource allocation problems with exogenous budget replenishment.
翻訳日:2024-03-06 23:57:53 公開日:2024-03-05
# ロート翻訳のリー群における最適輸送

Optimal Transport on the Lie Group of Roto-translations ( http://arxiv.org/abs/2402.15322v2 )

ライセンス: Link先を確認
Daan Bon, Gautam Pai, Gijs Bellaard, Olga Mula, Remco Duits(参考訳) ロト翻訳群SE2は、画像データをこのリー群で定義された多方向表現に引き上げる手法により、画像解析に積極的に関心を寄せている。 このことは、画像デノイズ、測地線追跡、ロト翻訳同変深層学習のための横断保存流の衝撃的な応用につながった。 本稿では,SE2に特に焦点をあてた,リー群上での最適輸送のための計算フレームワークを開発する。 輸送写像としての群作用の非最適性、最適輸送の不変性と等式、測地線距離近似を用いたエントロピック-正則化された最適輸送計画の品質など、いくつかの理論的貢献をする。 リー群の高速かつ高精度な距離近似とgpuフレンドリーなグループ畳み込みを用いて効率的に実装できるシンクホーン型アルゴリズムを開発した。 実験の貴重な進歩を報告します 1)画像バーリセントリック補間, 2)平面配向場の補間,及び 3) ワッサーシュタイン勾配はSE2上に流れる。 画像からse2に画像を持ち上げ,左不変の異方性指標を用いた最適輸送の枠組みは,画像内の優等な輪郭に沿って等変輸送を導く。 これはR^2上のそれよりも鋭く、より有意義な補間をもたらす

The roto-translation group SE2 has been of active interest in image analysis due to methods that lift the image data to multi-orientation representations defined on this Lie group. This has led to impactful applications of crossing-preserving flows for image de-noising, geodesic tracking, and roto-translation equivariant deep learning. In this paper, we develop a computational framework for optimal transportation over Lie groups, with a special focus on SE2. We make several theoretical contributions (generalizable to matrix Lie groups) such as the non-optimality of group actions as transport maps, invariance and equivariance of optimal transport, and the quality of the entropic-regularized optimal transport plan using geodesic distance approximations. We develop a Sinkhorn like algorithm that can be efficiently implemented using fast and accurate distance approximations of the Lie group and GPU-friendly group convolutions. We report valuable advancements in the experiments on 1) image barycentric interpolation, 2) interpolation of planar orientation fields, and 3) Wasserstein gradient flows on SE2. We observe that our framework of lifting images to SE2 and optimal transport with left-invariant anisotropic metrics leads to equivariant transport along dominant contours and salient line structures in the image. This yields sharper and more meaningful interpolations compared to their counterparts on R^2
翻訳日:2024-03-06 23:51:03 公開日:2024-03-05
# GraphEdit: グラフ構造学習のための大規模言語モデル

GraphEdit: Large Language Models for Graph Structure Learning ( http://arxiv.org/abs/2402.15183v4 )

ライセンス: Link先を確認
Zirui Guo, Lianghao Xia, Yanhua Yu, Yuling Wang, Zixuan Yang, Wei Wei, Liang Pang, Tat-Seng Chua, Chao Huang(参考訳) グラフ構造学習(GSL)は、新しいグラフ構造を生成することにより、グラフ構造データ中のノード間の固有の依存関係と相互作用をキャプチャすることに焦点を当てる。 グラフニューラルネットワーク(GNN)は、ノード単位の依存性をエンコードするために再帰的なメッセージパッシングを利用する、有望なGSLソリューションとして登場した。 しかし、既存のGSL法の多くは、データノイズやスパーシリティといった課題に対して、監督信号として明示的なグラフ構造情報に大きく依存している。 本研究では,大規模言語モデル(LLM)を利用したグラフ構造化データの複雑なノード関係の学習手法であるGraphEditを提案する。 グラフ構造上の命令チューニングによるLCMの推論能力の向上により、明示的なグラフ構造情報に関連する制約を克服し、グラフ構造学習の信頼性を高めることを目指す。 このアプローチはノイズの多いコネクションを効果的に解消するだけでなく、グローバルの観点からノード毎の依存関係を識別し、グラフ構造を包括的に理解する。 複数のベンチマークデータセットに対する広範な実験を行い、さまざまな設定でグラフ編集の有効性と堅牢性を示す。 私たちは、モデル実装をhttps://github.com/HKUDS/GraphEdit.comで公開しました。

Graph Structure Learning (GSL) focuses on capturing intrinsic dependencies and interactions among nodes in graph-structured data by generating novel graph structures. Graph Neural Networks (GNNs) have emerged as promising GSL solutions, utilizing recursive message passing to encode node-wise inter-dependencies. However, many existing GSL methods heavily depend on explicit graph structural information as supervision signals, leaving them susceptible to challenges such as data noise and sparsity. In this work, we propose GraphEdit, an approach that leverages large language models (LLMs) to learn complex node relationships in graph-structured data. By enhancing the reasoning capabilities of LLMs through instruction-tuning over graph structures, we aim to overcome the limitations associated with explicit graph structural information and enhance the reliability of graph structure learning. Our approach not only effectively denoises noisy connections but also identifies node-wise dependencies from a global perspective, providing a comprehensive understanding of the graph structure. We conduct extensive experiments on multiple benchmark datasets to demonstrate the effectiveness and robustness of GraphEdit across various settings. We have made our model implementation available at: https://github.com/HKUDS/GraphEdit.
翻訳日:2024-03-06 23:50:40 公開日:2024-03-05
# palo: 5b人のための多言語大規模マルチモーダルモデル

PALO: A Polyglot Large Multimodal Model for 5B People ( http://arxiv.org/abs/2402.14818v2 )

ライセンス: Link先を確認
Muhammad Maaz, Hanoona Rasheed, Abdelrahman Shaker, Salman Khan, Hisham Cholakal, Rao M. Anwer, Tim Baldwin, Michael Felsberg, Fahad S. Khan(参考訳) より包括的な視覚言語モデル(VLM)を追求するために,PALOと呼ばれる大規模多言語マルチモーダルモデルを導入する。 PALOは、英語、中国語、ヒンディー語、スペイン語、フランス語、アラビア語、ベンガル語、ロシア語、ウルドゥー語、日本語を含む10の主要言語で視覚的推論機能を提供する。 提案手法は,英語からの多モーダルな命令データセットを,微調整された大言語モデルを用いて対象言語に適応させる半自動翻訳手法により,手作業の最小化によるスケーラビリティを確保しつつ,高い言語忠実度を確保する。 多様な命令セットを組み込むことで、ヒンディー語、アラビア語、ベンガル語、ウルドゥー語など、複数の言語で全体的なパフォーマンスが向上する。 得られたモデルは3つのスケール(1.7B, 7B, 13Bパラメータ)でトレーニングされ、強力なベースラインに比べて大幅に改善されている。 また,言語間における視覚言語推論能力を評価するために,近日中に提案する多言語マルチモーダルベンチマークも提案する。 コード: https://github.com/mbzuai-oryx/palo。

In pursuit of more inclusive Vision-Language Models (VLMs), this study introduces a Large Multilingual Multimodal Model called PALO. PALO offers visual reasoning capabilities in 10 major languages, including English, Chinese, Hindi, Spanish, French, Arabic, Bengali, Russian, Urdu, and Japanese, that span a total of ~5B people (65% of the world population). Our approach involves a semi-automated translation approach to adapt the multimodal instruction dataset from English to the target languages using a fine-tuned Large Language Model, thereby ensuring high linguistic fidelity while allowing scalability due to minimal manual effort. The incorporation of diverse instruction sets helps us boost overall performance across multiple languages especially those that are underrepresented like Hindi, Arabic, Bengali, and Urdu. The resulting models are trained across three scales (1.7B, 7B and 13B parameters) to show the generalization and scalability where we observe substantial improvements compared to strong baselines. We also propose the first multilingual multimodal benchmark for the forthcoming approaches to evaluate their vision-language reasoning capabilities across languages. Code: https://github.com/mbzuai-oryx/PALO.
翻訳日:2024-03-06 23:50:20 公開日:2024-03-05
# SpanSeq:ディープラーニングプロジェクトの開発と評価のための類似性に基づくシーケンスデータ分割手法

SpanSeq: Similarity-based sequence data splitting method for improved development and assessment of deep learning projects ( http://arxiv.org/abs/2402.14482v2 )

ライセンス: Link先を確認
Alfred Ferrer Florensa, Jose Juan Almagro Armenteros, Henrik Nielsen, Frank M{\o}ller Aarestrup, Philip Thomas Lanken Conradsen Clausen(参考訳) 近年, 計算生物学におけるディープラーニングモデルの利用が大幅に増加しており, 自然言語処理などの分野の進歩とともに, さらなる発展が期待されている。 これらのモデルは、入力とターゲットの間の複雑な関係を描画できるが、開発時に使用されるデータのプールからノイズの偏差を学習する傾向が強い。 目に見えないデータ(一般化する能力)の性能を評価するために、利用可能なデータ(トレイン/バリデーション)とテストセットをランダムに分割することが一般的である。 この手法は, 標準ではあるが, 既存のデータベースにおけるサンプル間の類似性から, 一般化に関する疑わしい評価がされている。 本研究では,データセット間のデータ漏洩を回避するために,ほとんどの生物配列(遺伝子,タンパク質,ゲノム)にスケール可能な,機械学習のためのデータベース分割手法であるspanseqを提案する。 また,集合間の類似性を抑制することなく,最先端モデルdeeplocの開発を再現し,ランダムに分割したデータベースがモデル評価に与える影響を確認するだけでなく,その影響をモデル開発に拡大する効果についても検討した。 SpanSeqはhttps://github.com/genomicepidemiology/SpanSeqでダウンロードできる。

The use of deep learning models in computational biology has increased massively in recent years, and is expected to do so further with the current advances in fields like Natural Language Processing. These models, although able to draw complex relations between input and target, are also largely inclined to learn noisy deviations from the pool of data used during their development. In order to assess their performance on unseen data (their capacity to generalize), it is common to randomly split the available data in development (train/validation) and test sets. This procedure, although standard, has lately been shown to produce dubious assessments of generalization due to the existing similarity between samples in the databases used. In this work, we present SpanSeq, a database partition method for machine learning that can scale to most biological sequences (genes, proteins and genomes) in order to avoid data leakage between sets. We also explore the effect of not restraining similarity between sets by reproducing the development of the state-of-the-art model DeepLoc, not only confirming the consequences of randomly splitting databases on the model assessment, but expanding those repercussions to the model development. SpanSeq is available for downloading and installing at https://github.com/genomicepidemiology/SpanSeq.
翻訳日:2024-03-06 23:49:00 公開日:2024-03-05
# AlphaTensorによる量子回路最適化

Quantum Circuit Optimization with AlphaTensor ( http://arxiv.org/abs/2402.14396v2 )

ライセンス: Link先を確認
Francisco J. R. Ruiz, Tuomas Laakkonen, Johannes Bausch, Matej Balog, Mohammadamin Barekatain, Francisco J. H. Heras, Alexander Novikov, Nathan Fitzpatrick, Bernardino Romera-Paredes, John van de Wetering, Alhussein Fawzi, Konstantinos Meichanetzidis, Pushmeet Kohli(参考訳) フォールトトレラント量子コンピュータを実現する上で重要な課題は回路最適化である。 フォールトトレラント量子計算における最も高価なゲート(すなわちtゲート)に着目し、tカウント最適化の問題、すなわち与えられた回路を実装するのに必要なtゲートの数を最小化する。 そこで我々は,T数最適化とテンソル分解の関係を利用して,深層強化学習に基づくAlphaTensor-Quantumを開発した。 既存のTカウント最適化法とは異なり、AlphaTensor-Quantumは量子計算に関するドメイン固有の知識を取り入れ、ガジェットを活用することができる。 alphatensor-quantumは、(ガジェットを使わずに比較しても)一連の算術ベンチマークで既存のt-count最適化の手法を上回っている。 興味深いことに、有限体の乗法であるカラツバの手法に似た効率的なアルゴリズムを発見する。 AlphaTensor-Quantumはまた、ショアのアルゴリズムや量子化学シミュレーションで使われる算術計算に最適な人間設計の解を見つけ、関連する量子回路を完全に自動化して数百時間の研究を節約できることを示した。

A key challenge in realizing fault-tolerant quantum computers is circuit optimization. Focusing on the most expensive gates in fault-tolerant quantum computation (namely, the T gates), we address the problem of T-count optimization, i.e., minimizing the number of T gates that are needed to implement a given circuit. To achieve this, we develop AlphaTensor-Quantum, a method based on deep reinforcement learning that exploits the relationship between optimizing T-count and tensor decomposition. Unlike existing methods for T-count optimization, AlphaTensor-Quantum can incorporate domain-specific knowledge about quantum computation and leverage gadgets, which significantly reduces the T-count of the optimized circuits. AlphaTensor-Quantum outperforms the existing methods for T-count optimization on a set of arithmetic benchmarks (even when compared without making use of gadgets). Remarkably, it discovers an efficient algorithm akin to Karatsuba's method for multiplication in finite fields. AlphaTensor-Quantum also finds the best human-designed solutions for relevant arithmetic computations used in Shor's algorithm and for quantum chemistry simulation, thus demonstrating it can save hundreds of hours of research by optimizing relevant quantum circuits in a fully automated way.
翻訳日:2024-03-06 23:48:40 公開日:2024-03-05
# Recursive Speculative Decoding: 置き換えのないサンプリングによるLCM推論の高速化

Recursive Speculative Decoding: Accelerating LLM Inference via Sampling Without Replacement ( http://arxiv.org/abs/2402.14160v2 )

ライセンス: Link先を確認
Wonseok Jeon, Mukul Gagrani, Raghavv Goel, Junyoung Park, Mingu Lee, Christopher Lott(参考訳) 投機的復号化(英: Speculative decoding)は、小言語モデルが目標LLMにより並列に検証されるドラフトトケンシーケンスを生成する大言語モデル(LLM)の推論高速化手法である。 近年の研究では, 単一系列の投機的復号化よりも優れた性能を達成し, ドラフト・トケン・ツリーの確立によってこの手法が進歩している。 しかし、これらは独立して木の各レベルでトークンを生成し、木全体の多様性を活用できない。 さらに、その経験的優位性は配列の固定長に対して示され、木に基づく手法では LLM により多くの計算資源を暗黙的に与えている。 既存の研究は、リソースバウンドデバイスの重要性にもかかわらず、固定目標の計算予算で実証的な研究を行っていない。 本稿では,新規なツリーベース手法である再帰的投機的復号法(rsd)を提案する。 rsdのドラフト作成の間、木は並列に置き換えられずにトークンを描画するgumbel-top-$k$のトリックか、早期に検出されそうにないドラフトシーケンスとllmの計算コストを減少させる確率的ビーム探索によって構築される。 Llama 2 と OPT モデルを用いて RSD を実験的に評価した結果,RSD は固定のドラフトシーケンス長や LLM の固定的な計算予算において,ベースライン法よりも優れていた。

Speculative decoding is an inference-acceleration method for large language models (LLMs) where a small language model generates a draft-token sequence which is further verified by the target LLM in parallel. Recent works have advanced this method by establishing a draft-token tree, achieving superior performance over a single-sequence speculative decoding. However, those works independently generate tokens at each level of the tree, not leveraging the tree's entire diversifiability. Besides, their empirical superiority has been shown for fixed length of sequences, implicitly granting more computational resource to LLM for the tree-based methods. None of the existing works has conducted empirical studies with fixed target computational budgets despite its importance to resource-bounded devices. We present Recursive Speculative Decoding (RSD), a novel tree-based method that samples draft tokens without replacement and maximizes the diversity of the tree. During RSD's drafting, the tree is built by either Gumbel-Top-$k$ trick that draws tokens without replacement in parallel or Stochastic Beam Search that samples sequences without replacement while early-truncating unlikely draft sequences and reducing the computational cost of LLM. We empirically evaluate RSD with Llama 2 and OPT models, showing that RSD outperforms the baseline methods, consistently for fixed draft sequence length and in most cases for fixed computational budgets at LLM.
翻訳日:2024-03-06 23:48:20 公開日:2024-03-05
# BiVRec:双方向ビューベースのマルチモーダルシーケンスレコメンデーション

BiVRec: Bidirectional View-based Multimodal Sequential Recommendation ( http://arxiv.org/abs/2402.17334v2 )

ライセンス: Link先を確認
Jiaxi Hu, Jingtong Gao, Xiangyu Zhao, Yuehong Hu, Yuxuan Liang, Yiqi Wang, Ming He, Zitao Liu, Hongzhi Yin(参考訳) シーケンシャルレコメンデータシステムへのマルチモーダル情報の統合は、最近の研究で大きな注目を集めている。 マルチモーダルシーケンシャルレコメンデーションモデルの初期段階では、メインストリームのパラダイムはID優先レコメンデーションであり、マルチモーダル情報はサイド情報として融合された。 しかし、転送可能性と情報侵入の制限により、別のパラダイムが出現し、マルチモーダル機能は推奨のために直接使用されるようになり、データセット間のレコメンデーションを可能にした。 それでも、ユーザーid情報を見落とし、情報利用率の低下とトレーニングコストの高騰を招いた。 そこで本研究では,idとマルチモーダルビューの両方で協調してレコメンデーションタスクを訓練し,その相乗的関係を利用してレコメンデーションパフォーマンスを双方向に向上させる,革新的なフレームワークであるbivrecを提案する。 情報の不均一性問題に取り組むために,まず構造化されたユーザ関心表現を構築し,それらの間の相乗的関係を学習する。 Specifically, BivRec comprises three modules: Multi-scale Interest Embedding, comprehensively modeling user interests by expanding user interaction sequences with multi-scale patching; Intra-View Interest Decomposition, constructing highly structured interest representations using carefully designed Gaussian attention and Cluster attention; and Cross-View Interest Learning, learning the synergistic relationship between the two recommendation views through coarse-grained overall semantic similarity and fine-grained interest allocation similarity BiVRec achieves state-of-the-art performance on five datasets and showcases various practical advantages.

The integration of multimodal information into sequential recommender systems has attracted significant attention in recent research. In the initial stages of multimodal sequential recommendation models, the mainstream paradigm was ID-dominant recommendations, wherein multimodal information was fused as side information. However, due to their limitations in terms of transferability and information intrusion, another paradigm emerged, wherein multimodal features were employed directly for recommendation, enabling recommendation across datasets. Nonetheless, it overlooked user ID information, resulting in low information utilization and high training costs. To this end, we propose an innovative framework, BivRec, that jointly trains the recommendation tasks in both ID and multimodal views, leveraging their synergistic relationship to enhance recommendation performance bidirectionally. To tackle the information heterogeneity issue, we first construct structured user interest representations and then learn the synergistic relationship between them. Specifically, BivRec comprises three modules: Multi-scale Interest Embedding, comprehensively modeling user interests by expanding user interaction sequences with multi-scale patching; Intra-View Interest Decomposition, constructing highly structured interest representations using carefully designed Gaussian attention and Cluster attention; and Cross-View Interest Learning, learning the synergistic relationship between the two recommendation views through coarse-grained overall semantic similarity and fine-grained interest allocation similarity BiVRec achieves state-of-the-art performance on five datasets and showcases various practical advantages.
翻訳日:2024-03-06 23:40:59 公開日:2024-03-05
# トランスフォーマによるコードブック対応生成型エンドツーエンド意味コミュニケーション

Codebook-enabled Generative End-to-end Semantic Communication Powered by Transformer ( http://arxiv.org/abs/2402.16868v2 )

ライセンス: Link先を確認
Peigen Ye, Yaping Sun, Shumin Yao, Hao Chen, Xiaodong Xu, Shuguang Cui(参考訳) コードブックベースの生成セマンティックコミュニケーションは、送信機と受信機の間でコードブックを共有する際には、インデックスのみを送信する必要があるため、注目を集める。 しかし,符号ベクトル間の意味的関係が対応する符号指標の距離に必ずしも関係しているとは限らないため,符号ブック対応の意味的通信システムの性能はチャネルノイズの影響を受けやすい。 したがって、ノイズに対するシステムの堅牢性を改善するには、慎重に設計する必要がある。 本稿では,まずセマンティックコーデックとコードブックを共同で構築し,次にベクタ・インデクス変換器をコードブックで案内し,チャネルノイズの影響を解消し,画像生成を実現するロバストなコードブック支援画像意味通信システムを提案する。 高品質なコードブックをTransformerに提供することにより、受信側で生成された画像は、視覚的知覚の観点から比較した手法よりも優れる。 最後に、JPEG+LDPCと従来のジョイントソースチャネル符号化(JSCC)法に比較して、数値的な結果と生成画像は、生成セマンティック通信方式の利点を示す。

Codebook-based generative semantic communication attracts increasing attention, since only indices are required to be transmitted when the codebook is shared between transmitter and receiver. However, due to the fact that the semantic relations among code vectors are not necessarily related to the distance of the corresponding code indices, the performance of the codebook-enabled semantic communication system is susceptible to the channel noise. Thus, how to improve the system robustness against the noise requires careful design. This paper proposes a robust codebook-assisted image semantic communication system, where semantic codec and codebook are first jointly constructed, and then vector-to-index transformer is designed guided by the codebook to eliminate the effects of channel noise, and achieve image generation. Thanks to the assistance of the high-quality codebook to the Transformer, the generated images at the receiver outperform those of the compared methods in terms of visual perception. In the end, numerical results and generated images demonstrate the advantages of the generative semantic communication method over JPEG+LDPC and traditional joint source channel coding (JSCC) methods.
翻訳日:2024-03-06 23:40:15 公開日:2024-03-05
# balanced truncationを用いた対角状態空間層を有するs4の学習法

Learning Method for S4 with Diagonal State Space Layers using Balanced Truncation ( http://arxiv.org/abs/2402.15993v2 )

ライセンス: Link先を確認
Haruka Ezoe and Kazuhiro Sato(参考訳) 本研究では,センサデータ解析やリアルタイム解析など,エッジインテリジェンスアプリケーションにおける長期データ処理に適した,対角状態空間(DSS)層を組み込んだ構造化状態空間シーケンス(S4)モデルの新たな学習手法を提案する。 本手法は,DSS層に適用された制御理論におけるモデル縮小手法であるバランストルーニケーションを用いて,推論時の計算コストを削減する。 縮小モデルからパラメータを利用することにより、S4モデルの初期化プロセスが洗練され、広く使われているSkiw-HiPPO初期化よりも性能が向上する。 数値実験により,dss層を有するs4モデルが従来のモデルよりも精度と効率の指標において優れていた。 さらに,本手法を用いて訓練したモデルでは,原モデルの精度が常に向上し,本手法が原モデルの強度を効果的に活用できることが示唆された。

We introduce a novel learning method for Structured State Space Sequence (S4) models incorporating Diagonal State Space (DSS) layers, tailored for processing long-sequence data in edge intelligence applications, including sensor data analysis and real-time analytics. This method utilizes the balanced truncation, a prevalent model reduction technique in control theory, applied specifically to DSS layers to reduce computational costs during inference. By leveraging parameters from the reduced model, we refine the initialization process of S4 models, outperforming the widely used Skew-HiPPO initialization in terms of performance. Numerical experiments demonstrate that our trained S4 models with DSS layers surpass conventionally trained models in accuracy and efficiency metrics. Furthermore, our observations reveal a positive correlation: higher accuracy in the original model consistently leads to increased accuracy in models trained using our method, suggesting that our approach effectively leverages the strengths of the original model.
翻訳日:2024-03-06 23:37:01 公開日:2024-03-05
# DenseMamba: 効率的な大規模言語モデルのためのDense Hidden Connectionを備えた状態空間モデル

DenseMamba: State Space Models with Dense Hidden Connection for Efficient Large Language Models ( http://arxiv.org/abs/2403.00818v2 )

ライセンス: Link先を確認
Wei He, Kai Han, Yehui Tang, Chengcheng Wang, Yujie Yang, Tianyu Guo, Yunhe Wang(参考訳) 大規模言語モデル(LLM)は、一般的に使用されるTransformerアーキテクチャの過剰な計算とメモリ要求のため、大変な問題に直面している。 状態空間モデル(SSM)は新しいタイプの基盤ネットワークアーキテクチャであり、より低い計算複雑性を提供するが、その性能はTransformersと完全に競合していない。 本稿では,SSM層間の隠れ情報の流れを改善する新しい手法であるDenseSSMを紹介する。 浅い層を深い層に選択的に統合することで、DenseSSMは最終的な出力に不可欠なきめ細かい情報を保持できる。 Dense接続を強化したDenseSSMは、トレーニングの並列化性と推論効率を維持している。 提案手法はRetNetやMambaといった様々なSSMタイプに適用可能である。 DenseSSMは同様のモデルサイズで大幅に改善され、DenseRetNetは、公開ベンチマークで最大5%の精度でオリジナルのRetNetを上回った。 コードはhttps://github.com/wailordhe/densessmで評価できる

Large language models (LLMs) face a daunting challenge due to the excessive computational and memory requirements of the commonly used Transformer architecture. While state space model (SSM) is a new type of foundational network architecture offering lower computational complexity, their performance has yet to fully rival that of Transformers. This paper introduces DenseSSM, a novel approach to enhance the flow of hidden information between layers in SSMs. By selectively integrating shallowlayer hidden states into deeper layers, DenseSSM retains fine-grained information crucial for the final output. Dense connections enhanced DenseSSM still maintains the training parallelizability and inference efficiency. The proposed method can be widely applicable to various SSM types like RetNet and Mamba. With similar model size, DenseSSM achieves significant improvements, exemplified by DenseRetNet outperforming the original RetNet with up to 5% accuracy improvement on public benchmarks. code is avalaible at https://github.com/WailordHe/DenseSSM
翻訳日:2024-03-06 21:43:52 公開日:2024-03-05
# 3DGStream:フォトリアリスティックフリー視点ビデオの効率的なストリーミングのための3Dガウスのオンザフライトレーニング

3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos ( http://arxiv.org/abs/2403.01444v2 )

ライセンス: Link先を確認
Jiakai Sun, Han Jiao, Guangyuan Li, Zhanjie Zhang, Lei Zhao, Wei Xing(参考訳) 多視点ビデオからダイナミックシーンのfvvs(photo-realistic free-viewpoint videos)を構築することは、難題である。 現在のニューラルレンダリング技術による顕著な進歩にもかかわらず、これらの手法は一般的にオフライントレーニングのために完全なビデオシーケンスを必要とし、リアルタイムレンダリングができない。 これらの制約に対処するために,実世界のダイナミックシーンの高速FVVストリーミングを目的とした3DGStreamを提案する。 提案手法は,12秒以内のフレーム毎の高速再構成と200FPSのリアルタイムレンダリングを実現する。 具体的には3Dガウス(3DG)を用いてシーンを表現している。 フレーム毎に3dgを直接最適化するna\"iveアプローチではなく、コンパクトニューラルネットワーク変換キャッシュ(ntc)を使用して3dgの変換と回転をモデル化し、各fvvフレームに必要なトレーニング時間とストレージを大幅に削減します。 さらに,動的シーンにおける創発的オブジェクトを扱うための適応的3dg付加戦略を提案する。 実験により、3DGStreamは、最先端の手法と比較してレンダリング速度、画質、トレーニング時間、モデルストレージにおいて競争力を発揮することが示された。

Constructing photo-realistic Free-Viewpoint Videos (FVVs) of dynamic scenes from multi-view videos remains a challenging endeavor. Despite the remarkable advancements achieved by current neural rendering techniques, these methods generally require complete video sequences for offline training and are not capable of real-time rendering. To address these constraints, we introduce 3DGStream, a method designed for efficient FVV streaming of real-world dynamic scenes. Our method achieves fast on-the-fly per-frame reconstruction within 12 seconds and real-time rendering at 200 FPS. Specifically, we utilize 3D Gaussians (3DGs) to represent the scene. Instead of the na\"ive approach of directly optimizing 3DGs per-frame, we employ a compact Neural Transformation Cache (NTC) to model the translations and rotations of 3DGs, markedly reducing the training time and storage required for each FVV frame. Furthermore, we propose an adaptive 3DG addition strategy to handle emerging objects in dynamic scenes. Experiments demonstrate that 3DGStream achieves competitive performance in terms of rendering speed, image quality, training time, and model storage when compared with state-of-the-art methods.
翻訳日:2024-03-06 21:29:22 公開日:2024-03-05
# KorMedMCQA:韓国の医療専門家資格試験のための多項目質問回答ベンチマーク

KorMedMCQA: Multi-Choice Question Answering Benchmark for Korean Healthcare Professional Licensing Examinations ( http://arxiv.org/abs/2403.01469v2 )

ライセンス: Link先を確認
Sunjun Kweon, Byungjin Choi, Minkyu Kim, Rae Woong Park, Edward Choi(参考訳) KorMedMCQAは,韓国の医療専門家による2012年から2023年までの認定試験から得られた,韓国初のマルチチョイス質問応答(MCQA)ベンチマークである。 このデータセットは、医師、看護師、薬剤師の免許試験から選択された質問から成り、様々な主題を扱っている。 我々は,プロプライエタリ/オープンソース,マルチリンガル/韓国付加事前訓練モデル,臨床コンテキスト事前訓練モデルなど,さまざまな大規模言語モデルのベースライン実験を行い,さらなる拡張の可能性を強調した。 我々はHuggingFace(https://huggingface.co/datasets/sean0042/KorMedMCQA)でデータを公開し、LM-Harnessを通じて評価スクリプトを提供し、韓国の医療環境におけるさらなる探索と進展を招いている。

We introduce KorMedMCQA, the first Korean multiple-choice question answering (MCQA) benchmark derived from Korean healthcare professional licensing examinations, covering from the year 2012 to year 2023. This dataset consists of a selection of questions from the license examinations for doctors, nurses, and pharmacists, featuring a diverse array of subjects. We conduct baseline experiments on various large language models, including proprietary/open-source, multilingual/Korean-additional pretrained, and clinical context pretrained models, highlighting the potential for further enhancements. We make our data publicly available on HuggingFace (https://huggingface.co/datasets/sean0042/KorMedMCQA) and provide a evaluation script via LM-Harness, inviting further exploration and advancement in Korean healthcare environments.
翻訳日:2024-03-06 21:16:18 公開日:2024-03-05
# アラートとしての文脈内シャープネス:幻覚軽減のための内的表現的視点

In-Context Sharpness as Alerts: An Inner Representation Perspective for Hallucination Mitigation ( http://arxiv.org/abs/2403.01548v2 )

ライセンス: Link先を確認
Shiqi Chen, Miao Xiong, Junteng Liu, Zhengxuan Wu, Teng Xiao, Siyang Gao, Junxian He(参考訳) 大規模言語モデル(llm)は、しばしば事実エラーを幻覚し、生み出すが、これらのエラーの原因を理解することは、まだ限られている。 本研究では,内的表現の観点から LLM の幻覚のメカニズムを探求し,幻覚に関連する有能なパターンを見出す: 正しい世代は,不正確なトークンよりも,暗黙のトークンの隠蔽状態において,よりシャープな文脈アクティベーションを持つ傾向がある。 この知見を活かしたエントロピーに基づく計量法を提案し、文脈内隠れ状態の「シャープネス」を定量化し、復号過程に組み込んで制約付き復号法を定式化する。 様々な知識探索および幻覚ベンチマークの実験は、例えば、TrathfulQAで最大8.6ポイントの改善を達成するなど、我々のアプローチの一貫性のある有効性を示している。 この研究は幻覚の理解を深め、幻覚緩和の現実的な解決策となると信じている。

Large language models (LLMs) frequently hallucinate and produce factual errors, yet our understanding of why they make these errors remains limited. In this study, we delve into the underlying mechanisms of LLM hallucinations from the perspective of inner representations, and discover a salient pattern associated with hallucinations: correct generations tend to have sharper context activations in the hidden states of the in-context tokens, compared to the incorrect ones. Leveraging this insight, we propose an entropy-based metric to quantify the ``sharpness'' among the in-context hidden states and incorporate it into the decoding process to formulate a constrained decoding approach. Experiments on various knowledge-seeking and hallucination benchmarks demonstrate our approach's consistent effectiveness, for example, achieving up to an 8.6 point improvement on TruthfulQA. We believe this study can improve our understanding of hallucinations and serve as a practical solution for hallucination mitigation.
翻訳日:2024-03-06 20:58:17 公開日:2024-03-05
# 動的クエリによる効率的なアクションカウント

Efficient Action Counting with Dynamic Queries ( http://arxiv.org/abs/2403.01543v2 )

ライセンス: Link先を確認
Zishi Li, Xiaoxuan Ma, Qiuyan Shang, Wentao Zhu, Hai Ci, Yu Qiao, and Yizhou Wang(参考訳) 時間的反復カウントは、ビデオ内で繰り返される行動サイクルの定量化を目的としている。 既存の手法の大半は、動作の反復性を特徴付けるために類似性相関行列に依存しているが、そのスケーラビリティは2次計算の複雑さのために妨げられている。 本稿では,反復動作サイクルを線形計算複雑性でローカライズするために,アクションクエリ表現を用いた新しい手法を提案する。 この表現に基づいて, 時間反復計数における本質的な課題に取り組むために, 二つの重要な要素を更に開発する。 まず,オープンセットのアクションカウントを容易にするために,アクションクエリの動的更新スキームを提案する。 静的なアクションクエリとは異なり、このアプローチは動的にビデオ機能をアクションクエリに組み込み、より柔軟で汎用的な表現を提供する。 次に,興味のある動作と背景雑音の動作を区別するために,クエリ間のコントラスト学習を取り入れ,異なるアクションクエリに対応する映像表現を規則化する。 その結果,提案手法は,特に映像の長いシーケンス,目に見えない動作,様々な速度での動作において,従来よりも顕著に優れていた。 挑戦的なRepCountAベンチマークでは、OBOの精度が26.5%向上し、平均誤差が22.7%、計算負荷が94.1%減少した。 コードはhttps://github.com/lizishi/detrcで入手できる。

Temporal repetition counting aims to quantify the repeated action cycles within a video. The majority of existing methods rely on the similarity correlation matrix to characterize the repetitiveness of actions, but their scalability is hindered due to the quadratic computational complexity. In this work, we introduce a novel approach that employs an action query representation to localize repeated action cycles with linear computational complexity. Based on this representation, we further develop two key components to tackle the essential challenges of temporal repetition counting. Firstly, to facilitate open-set action counting, we propose the dynamic update scheme on action queries. Unlike static action queries, this approach dynamically embeds video features into action queries, offering a more flexible and generalizable representation. Secondly, to distinguish between actions of interest and background noise actions, we incorporate inter-query contrastive learning to regularize the video representations corresponding to different action queries. As a result, our method significantly outperforms previous works, particularly in terms of long video sequences, unseen actions, and actions at various speeds. On the challenging RepCountA benchmark, we outperform the state-of-the-art method TransRAC by 26.5% in OBO accuracy, with a 22.7% mean error decrease and 94.1% computational burden reduction. Code is available at https://github.com/lizishi/DeTRC.
翻訳日:2024-03-06 20:57:14 公開日:2024-03-05
# 群集ナビゲーションのための混合ストラテジーナッシュ平衡

Mixed-Strategy Nash Equilibrium for Crowd Navigation ( http://arxiv.org/abs/2403.01537v2 )

ライセンス: Link先を確認
Muchen Sun, Francesca Baldini, Peter Trautman, Todd Murphey(参考訳) 群集ナビゲーションのための混合戦略ナッシュ均衡を求める問題に対処する。 混合戦略のナッシュ均衡は、ロボットが群衆の中で不確実で協調的な人間の行動を予測するための厳密なモデルを提供するが、その計算コストはスケーラブルでリアルタイムな意思決定には高すぎることが多い。 ここでは、単純反復ベイズ更新スキームが混合戦略ソーシャルナビゲーションゲームのナッシュ平衡に収束することを証明する。 さらに,人間のデータセットから学習したガウス過程としてエージェント戦略を初期化することにより,ゲーム構築のためのデータ駆動フレームワークを提案する。 提案する混合戦略nash均衡モデルに基づき,既存のナビゲーション手法に統合し,ラップトップcpu上でリアルタイムに動作可能なサンプリングベースのクラウドナビゲーションフレームワークを開発した。 我々は、非構造化環境におけるシミュレーション環境と実世界の人的データセットの両方において、我々のフレームワークを評価する。 本フレームワークは,安全性とナビゲーション効率の両面において,非学習的手法と学習的手法の両方を一貫して上回り,メタプランナ上での人間レベルの集団ナビゲーション性能に達する。

We address the problem of finding mixed-strategy Nash equilibrium for crowd navigation. Mixed-strategy Nash equilibrium provides a rigorous model for the robot to anticipate uncertain yet cooperative human behavior in crowds, but the computation cost is often too high for scalable and real-time decision-making. Here we prove that a simple iterative Bayesian updating scheme converges to the Nash equilibrium of a mixed-strategy social navigation game. Furthermore, we propose a data-driven framework to construct the game by initializing agent strategies as Gaussian processes learned from human datasets. Based on the proposed mixed-strategy Nash equilibrium model, we develop a sampling-based crowd navigation framework that can be integrated into existing navigation methods and runs in real-time on a laptop CPU. We evaluate our framework in both simulated environments and real-world human datasets in unstructured environments. Our framework consistently outperforms both non-learning and learning-based methods on both safety and navigation efficiency and reaches human-level crowd navigation performance on top of a meta-planner.
翻訳日:2024-03-06 20:56:17 公開日:2024-03-05
# マルチモーダル学習による生物分子と自然言語の活用

Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey ( http://arxiv.org/abs/2403.01528v2 )

ライセンス: Link先を確認
Qizhi Pei, Lijun Wu, Kaiyuan Gao, Jinhua Zhu, Yue Wang, Zun Wang, Tao Qin, and Rui Yan(参考訳) 生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。 このアプローチは、テキストデータソースに含まれる生体分子のリッチで多面的な記述を活用し、基本的理解を高め、生体分子特性予測のような下流の計算タスクを可能にする。 様々な分子モデリング技術によって記述された生体分子の構造的および機能的特徴と自然言語で表現されたニュアンス的な物語が融合することで、生体分子を包括的に表現し分析するための新しい道が開かれた。 バイオ分子を囲む文脈言語データをモデリングに組み込むことで、BLは言語を通して伝達される象徴的特性と定量的構造的特性の両方を包含する全体像を捉えることを目指している。 本稿では,生物分子と自然言語の相互モデリングによって得られた最近の進歩を広範囲に分析する。 1) 塩基配列, 2次元グラフ, 3次元構造を含む生体分子の技術的表現を概説することから始める。 2) 言語と分子データソースの効果的なマルチモーダル統合の基礎となる理論的および重要な目的について検討する。 (3)本研究分野において現在までに実現されている実践的応用について調査する。 (4) 今後の作業を容易にするために利用可能なリソースやデータセットをコンパイルして要約する。 (5)今後,この分野の進展を続けるために,さらなる調査と投資に値する有望な研究の方向性を見いだす。 関連リソースと内容は \url{https://github.com/QizhiPei/Awesome-Biomolecule-Language-Cross-Modeling} で更新されている。

The integration of biomolecular modeling with natural language (BL) has emerged as a promising interdisciplinary area at the intersection of artificial intelligence, chemistry and biology. This approach leverages the rich, multifaceted descriptions of biomolecules contained within textual data sources to enhance our fundamental understanding and enable downstream computational tasks such as biomolecule property prediction. The fusion of the nuanced narratives expressed through natural language with the structural and functional specifics of biomolecules described via various molecular modeling techniques opens new avenues for comprehensively representing and analyzing biomolecules. By incorporating the contextual language data that surrounds biomolecules into their modeling, BL aims to capture a holistic view encompassing both the symbolic qualities conveyed through language as well as quantitative structural characteristics. In this review, we provide an extensive analysis of recent advancements achieved through cross modeling of biomolecules and natural language. (1) We begin by outlining the technical representations of biomolecules employed, including sequences, 2D graphs, and 3D structures. (2) We then examine in depth the rationale and key objectives underlying effective multi-modal integration of language and molecular data sources. (3) We subsequently survey the practical applications enabled to date in this developing research area. (4) We also compile and summarize the available resources and datasets to facilitate future work. (5) Looking ahead, we identify several promising research directions worthy of further exploration and investment to continue advancing the field. The related resources and contents are updating in \url{https://github.com/QizhiPei/Awesome-Biomolecule-Language-Cross-Modeling}.
翻訳日:2024-03-06 20:54:10 公開日:2024-03-05
# ベトナムの包括的検索型世代と大規模言語モデルに向けて

Towards Comprehensive Vietnamese Retrieval-Augmented Generation and Large Language Models ( http://arxiv.org/abs/2403.01616v2 )

ライセンス: Link先を確認
Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh, Le Thanh Huong, Dinh Viet Sang(参考訳) 本稿では,ベトナムのレトリーバル強化世代(RAG)とLarge Language Models(LLM)のためのオープンデータセットと事前学習モデルの開発と普及を通じて,ベトナム語理解・生成の進展への貢献について述べる。

This paper presents our contributions towards advancing the state of Vietnamese language understanding and generation through the development and dissemination of open datasets and pre-trained models for Vietnamese Retrieval-Augmented Generation (RAG) and Large Language Models (LLMs).
翻訳日:2024-03-06 20:36:33 公開日:2024-03-05
# 手書き数式認識のための注意誘導機構

Attention Guidance Mechanism for Handwritten Mathematical Expression Recognition ( http://arxiv.org/abs/2403.01756v2 )

ライセンス: Link先を確認
Yutian Liu, Wenjun Ke, Jianguo Wei(参考訳) 手書きの数学的表現認識(HMER)は、数学的表現の複雑なレイアウトのため、画像からテキストへのタスクにおいて困難であり、オーバーパーシングやアンダーパーシングといった問題に悩まされている。 これらの問題を解決するため,従来のhmer手法では履歴アライメント情報を利用して注意機構を改善する。 しかし、この手法では、後の復号ステップで解析すべき画像領域の誤注意を補正できないため、アンダーパーシングに対処する際の制限がある。 この不注意により、アテンションモジュールは現在のデコードステップに将来のコンテキストを組み込むため、アライメントプロセスを混乱させる。 この問題に対処するために,無関係領域における注意重みを明示的に抑制し,適切な注意重みを向上し,意図した文脈外の情報へのアクセスを阻害する注意誘導機構を提案する。 注意誘導の種類によって,複数の頭部の注意を協調する自己誘導と,隣接する時間ステップからの注意を一体化する隣接誘導の2つの補完的アプローチを考案する。 提案手法は,crohme 2014/2016/2019データセットにおける表現認識率60.75%/61.81%/63.30%を達成した。

Handwritten mathematical expression recognition (HMER) is challenging in image-to-text tasks due to the complex layouts of mathematical expressions and suffers from problems including over-parsing and under-parsing. To solve these, previous HMER methods improve the attention mechanism by utilizing historical alignment information. However, this approach has limitations in addressing under-parsing since it cannot correct the erroneous attention on image areas that should be parsed at subsequent decoding steps. This faulty attention causes the attention module to incorporate future context into the current decoding step, thereby confusing the alignment process. To address this issue, we propose an attention guidance mechanism to explicitly suppress attention weights in irrelevant areas and enhance the appropriate ones, thereby inhibiting access to information outside the intended context. Depending on the type of attention guidance, we devise two complementary approaches to refine attention weights: self-guidance that coordinates attention of multiple heads and neighbor-guidance that integrates attention from adjacent time steps. Experiments show that our method outperforms existing state-of-the-art methods, achieving expression recognition rates of 60.75% / 61.81% / 63.30% on the CROHME 2014/ 2016/ 2019 datasets.
翻訳日:2024-03-06 19:55:05 公開日:2024-03-05
# TNF: マルチモーダル医療データ分類のためのトリブランチニューラルフュージョン

TNF: Tri-branch Neural Fusion for Multimodal Medical Data Classification ( http://arxiv.org/abs/2403.01802v2 )

ライセンス: Link先を確認
Tong Zheng, Shusaku Sone, Yoshitaka Ushiku, Yuki Oba, Jiaxin Ma(参考訳) 本稿では,マルチモーダル医療画像と表データの分類を目的としたTNF(Tri-branch Neural Fusion)アプローチを提案する。 また、マルチモーダル分類におけるラベルの不整合に対処する2つの解決策も導入している。 従来のマルチモダリティ医療データ分類の手法は、通常、2つの異なる入力モダリティから特徴をマージするシングルラベルアプローチに依存している。 これは、機能が相互に排他的であったり、ラベルが異なる場合に問題となり、精度が低下する。 これを克服するために、tnfアプローチでは、イメージモダリティ用と表モダリティ用、イメージと表データの両方を融合する第3のハイブリッドアウトプットという、3つの別々のアウトプットを管理するトリブランチフレームワークを実装しています。 最後の決定は、3つの枝の全ての可能性を統合するアンサンブル法によってなされる。 様々な畳み込みニューラルネットワークや複数のデータセットにわたるトランスフォーマーベースのアーキテクチャにおいて、従来の融合法やアンサンブル法よりも優れていることを示す広範な実験を通じて、tnfの有効性を検証する。

This paper presents a Tri-branch Neural Fusion (TNF) approach designed for classifying multimodal medical images and tabular data. It also introduces two solutions to address the challenge of label inconsistency in multimodal classification. Traditional methods in multi-modality medical data classification often rely on single-label approaches, typically merging features from two distinct input modalities. This becomes problematic when features are mutually exclusive or labels differ across modalities, leading to reduced accuracy. To overcome this, our TNF approach implements a tri-branch framework that manages three separate outputs: one for image modality, another for tabular modality, and a third hybrid output that fuses both image and tabular data. The final decision is made through an ensemble method that integrates likelihoods from all three branches. We validate the effectiveness of TNF through extensive experiments, which illustrate its superiority over traditional fusion and ensemble methods in various convolutional neural networks and transformer-based architectures across multiple datasets.
翻訳日:2024-03-06 19:49:18 公開日:2024-03-05
# atomovideo:高忠実度画像対ビデオ生成技術

AtomoVideo: High Fidelity Image-to-Video Generation ( http://arxiv.org/abs/2403.01800v2 )

ライセンス: Link先を確認
Litong Gong, Yiran Zhu, Weijie Li, Xiaoyang Kang, Biao Wang, Tiezheng Ge, Bo Zheng(参考訳) 近年,優れたテキスト対画像生成技術に基づく映像生成が急速に進展している。 本研究では,AtomoVideo という画像合成のための高忠実度フレームワークを提案する。 マルチグラニュラ性画像インジェクションに基づき、生成された映像を所定の画像に対して高い忠実度を達成する。 さらに,高品質なデータセットとトレーニング戦略のおかげで,時間的一貫性と安定性を維持しつつ,高い運動強度を実現している。 当社のアーキテクチャはビデオフレーム予測タスクに柔軟に拡張し,反復生成による長いシーケンス予測を可能にした。 さらに、アダプタトレーニングの設計により、既存のパーソナライズされたモデルとコントロール可能なモジュールをうまく組み合わせることができる。 atomovideoは、定量的かつ定性的に評価することで、一般的な方法よりも優れた結果を得ることができます。

Recently, video generation has achieved significant rapid development based on superior text-to-image generation techniques. In this work, we propose a high fidelity framework for image-to-video generation, named AtomoVideo. Based on multi-granularity image injection, we achieve higher fidelity of the generated video to the given image. In addition, thanks to high quality datasets and training strategies, we achieve greater motion intensity while maintaining superior temporal consistency and stability. Our architecture extends flexibly to the video frame prediction task, enabling long sequence prediction through iterative generation. Furthermore, due to the design of adapter training, our approach can be well combined with existing personalized models and controllable modules. By quantitatively and qualitatively evaluation, AtomoVideo achieves superior results compared to popular methods, more examples can be found on our project website: https://atomo-video.github.io/.
翻訳日:2024-03-06 19:48:33 公開日:2024-03-05
# NPHardEval4V:マルチモーダル大言語モデルの動的推論ベンチマーク

NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language Models ( http://arxiv.org/abs/2403.01777v2 )

ライセンス: Link先を確認
Lizhou Fan, Wenyue Hua, Xiang Li, Kaijie Zhu, Mingyu Jin, Lingyao Li, Haoyang Ling, Jinkui Chi, Jindong Wang, Xin Ma, Yongfeng Zhang(参考訳) MLLM(Multimodal Large Language Models)の推論能力を理解することは重要な研究分野である。 本研究では,MLLMの純粋推論能力の評価において,既存のギャップに対処することを目的とした動的ベンチマーク NPHardEval4V を提案する。 本ベンチマークは,モデル全体の性能から,画像認識や後続命令などの様々な要因の影響を解消し,推論能力の評価にのみ焦点をあてる場を提供することを目的としている。 NPHardEvalからの質問のテキスト記述を画像表現に変換することで構築される。 本研究により,異なるモデル間での推論能力の相違が明らかとなり,MLLMの比較的弱い性能が示唆された。 また,マルチモーダル入力がモデル性能に与える影響を示すため,mllmsの推論能力に視覚,テキスト,視覚とテキストの組み合わせを含む様々なプロンプトスタイルが与える影響について検討した。 主に静的評価に焦点を当てた従来のベンチマークとは異なり、我々のベンチマークは、オーバーフィットを防止し、モデルのより正確できめ細かい評価を保証するために毎月更新される。 このベンチマークはMLLMにおける推論能力のさらなる発展の理解と指導に役立つと考えている。 ベンチマークデータセットとコードはhttps://github.com/lizhouf/nphardeval4vで入手できる。

Understanding the reasoning capabilities of Multimodal Large Language Models (MLLMs) is an important area of research. In this study, we introduce a dynamic benchmark, NPHardEval4V, aimed at addressing the existing gaps in evaluating the pure reasoning abilities of MLLMs. Our benchmark aims to provide a venue to disentangle the effect of various factors such as image recognition and instruction following, from the overall performance of the models, allowing us to focus solely on evaluating their reasoning abilities. It is built by converting textual description of questions from NPHardEval to image representations. Our findings reveal significant discrepancies in reasoning abilities across different models and highlight the relatively weak performance of MLLMs compared to LLMs in terms of reasoning. We also investigate the impact of different prompting styles, including visual, text, and combined visual and text prompts, on the reasoning abilities of MLLMs, demonstrating the different impacts of multimodal inputs in model performance. Unlike traditional benchmarks, which focus primarily on static evaluations, our benchmark will be updated monthly to prevent overfitting and ensure a more authentic and fine-grained evaluation of the models. We believe that this benchmark can aid in understanding and guide the further development of reasoning abilities in MLLMs. The benchmark dataset and code are available at https://github.com/lizhouf/NPHardEval4V
翻訳日:2024-03-06 19:44:30 公開日:2024-03-05
# Albertina PT* family によるポルトガルにおけるオープンニューラルエンコーダの生態系形成

Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family ( http://arxiv.org/abs/2403.01897v2 )

ライセンス: Link先を確認
Rodrigo Santos, Jo\~ao Rodrigues, Lu\'is Gomes, Jo\~ao Silva, Ant\'onio Branco, Henrique Lopes Cardoso, Tom\'as Freitas Os\'orio, Bernardo Leite(参考訳) ポルトガル語のニューラルエンコーディングを促進するために,本稿では,この言語用に開発されている大規模言語モデルの極めて希少なエコシステムの拡張を表現した基礎エンコーダモデルを提案する。 英語以外のほとんどの言語と同様に、ポルトガル語はこれらの基礎言語資源に関して低リソースであり、最初の9億のパラメータAlbertinaと3億3500万のBertimbauがある。 この2つのモデルを最初のセットとして、150億のパラメータを持つより大きなトップパフォーマンス駆動モデルと、1億のパラメータを持つより小さな効率駆動モデルを備えたポルトガルの最先端オープンエンコーダのエコシステムの拡張について紹介する。 この主要な目標を達成する一方で、このエコシステムに関連するさらなる結果、すなわちSuperGLUEベンチマークに基づいたポルトガル向けの新しいデータセットも得られた。

To foster the neural encoding of Portuguese, this paper contributes foundation encoder models that represent an expansion of the still very scarce ecosystem of large language models specifically developed for this language that are fully open, in the sense that they are open source and openly distributed for free under an open license for any purpose, thus including research and commercial usages. Like most languages other than English, Portuguese is low-resourced in terms of these foundational language resources, there being the inaugural 900 million parameter Albertina and 335 million Bertimbau. Taking this couple of models as an inaugural set, we present the extension of the ecosystem of state-of-the-art open encoders for Portuguese with a larger, top performance-driven model with 1.5 billion parameters, and a smaller, efficiency-driven model with 100 million parameters. While achieving this primary goal, further results that are relevant for this ecosystem were obtained as well, namely new datasets for Portuguese based on the SuperGLUE benchmark, which we also distribute openly.
翻訳日:2024-03-06 19:16:29 公開日:2024-03-05
# ブリッジ増大ギャップに対するフーリエ基底関数:画像分類における周波数増大の再考

Fourier-basis Functions to Bridge Augmentation Gap: Rethinking Frequency Augmentation in Image Classification ( http://arxiv.org/abs/2403.01944v2 )

ライセンス: Link先を確認
Puru Vaish, Shunxin Wang and Nicola Strisciuglio(参考訳) コンピュータビジョンモデルは通常、トレーニング中に説明されなかった予期せぬ入力の変化のために、現実世界のシナリオにデプロイされた際の性能低下を目撃する。 データ拡張は、データバラエティの増大とトレーニングとテストデータの分散ギャップの低減を目的としているため、この問題に対処するために一般的に使用される。 しかし、一般的な視覚増強はコンピュータビジョンモデルの広範な堅牢性を保証するものではない。 本稿では,周波数領域の増補と視覚増補で残された増補ギャップを埋めるための補完的手法である補助フーリエ・ベーシス増補(afa)を提案する。 本稿では,Fourier-basis付加雑音による拡張の有用性を,単純かつ効率的な対向条件で示す。 以上の結果から,afaは,共通の腐敗に対するモデルの頑健性,oodの一般化,摂動の増加に対するモデルの性能の一貫性,モデルの標準性能に対する欠如に有益であることが示された。 パフォーマンスをさらに向上させるために、他の拡張技術とシームレスに統合することができる。 コードとモデルは、https://github.com/nis-research/afa-augmentにある。

Computer vision models normally witness degraded performance when deployed in real-world scenarios, due to unexpected changes in inputs that were not accounted for during training. Data augmentation is commonly used to address this issue, as it aims to increase data variety and reduce the distribution gap between training and test data. However, common visual augmentations might not guarantee extensive robustness of computer vision models. In this paper, we propose Auxiliary Fourier-basis Augmentation (AFA), a complementary technique targeting augmentation in the frequency domain and filling the augmentation gap left by visual augmentations. We demonstrate the utility of augmentation via Fourier-basis additive noise in a straightforward and efficient adversarial setting. Our results show that AFA benefits the robustness of models against common corruptions, OOD generalization, and consistency of performance of models against increasing perturbations, with negligible deficit to the standard performance of models. It can be seamlessly integrated with other augmentation techniques to further boost performance. Code and models can be found at: https://github.com/nis-research/afa-augment
翻訳日:2024-03-06 19:10:21 公開日:2024-03-05
# 画像付き3次元点雲による木計数

Tree Counting by Bridging 3D Point Clouds with Imagery ( http://arxiv.org/abs/2403.01932v2 )

ライセンス: Link先を確認
Lei Li, Tianfang Zhang, Zhongyu Jiang, Cheng-Yen Yang, Jenq-Neng Hwang, Stefan Oehmcke, Dimitri Pierre Johannes Gominski, Fabian Gieseke, Christian Igel(参考訳) 森林管理の持続的支援,気候変動緩和戦略の評価,木炭クレジットの信頼構築には,リモートセンシングデータに基づく木数計測の正確かつ一貫した手法が必要である。 2次元リモートセンシング画像は、主に高層キャノピーを示すが、高層キャノピーを持つ地域では個々の木の分化が容易ではなく、高層キャノピーが密集している場合に容易に木を分離できない。 我々は,3次元LiDAR測定と2次元画像の融合を利用して,正確な木数計測を行う。 我々は,3次元空中LiDARデータと2次元画像を用いて,森林内の木を数える深層学習手法の比較を行った。 このアプローチは,3Dポイントクラウドや2Dイメージの操作など,最先端のアルゴリズムと比較される。 我々は、木カウントベンチマークを定義するために使用するneontreecountデータセットの異なるメソッドを実証的に評価する。 実験の結果、fusecountnetはより正確な木数を産出することが示された。

Accurate and consistent methods for counting trees based on remote sensing data are needed to support sustainable forest management, assess climate change mitigation strategies, and build trust in tree carbon credits. Two-dimensional remote sensing imagery primarily shows overstory canopy, and it does not facilitate easy differentiation of individual trees in areas with a dense canopy and does not allow for easy separation of trees when the canopy is dense. We leverage the fusion of three-dimensional LiDAR measurements and 2D imagery to facilitate the accurate counting of trees. We compare a deep learning approach to counting trees in forests using 3D airborne LiDAR data and 2D imagery. The approach is compared with state-of-the-art algorithms, like operating on 3D point cloud and 2D imagery. We empirically evaluate the different methods on the NeonTreeCount data set, which we use to define a tree-counting benchmark. The experiments show that FuseCountNet yields more accurate tree counts.
翻訳日:2024-03-06 19:09:14 公開日:2024-03-05
# 凸最適化とカラムサブセット選択による行列補完

Matrix Completion with Convex Optimization and Column Subset Selection ( http://arxiv.org/abs/2403.01919v2 )

ライセンス: Link先を確認
Antonina Krajewska and Ewa Niewiadomska-Szynkiewicz(参考訳) 本稿では,行列回復問題に対する二段階法を提案する。 提案手法は列サブセット選択と低ランク行列補完問題の理論的基礎を組み合わせたものである。 提案手法では,各ステップにおいて凸最適化タスクを解く。 本研究では,カラム選択行列補完法(csmc法)を実装した2つのアルゴリズムを提案する。 提案手法を形式的に解析し,必要な仮定と正しい解を求める確率を定式化した。 本論文の第2部では,実験結果について述べる。 数値実験によりアルゴリズムの正確性と性能が検証された。 本研究では, 行列サイズ, ランク, 欠落要素の割合が解の質や計算時間に与える影響について検討するため, 合成データについて実験を行った。 提案手法は,レコメンデーションシステムにおける映像レートの予測と画像インパインティングという2つの実生活問題に適用した。 解析の結果,csmcは凸最適化に基づく行列補完アルゴリズムに匹敵する品質の解を提供することがわかった。 しかし、csmcは実行時の大幅な節約を提供する。

We introduce a two-step method for the matrix recovery problem. Our approach combines the theoretical foundations of the Column Subset Selection and Low-rank Matrix Completion problems. The proposed method, in each step, solves a convex optimization task. We present two algorithms that implement our Columns Selected Matrix Completion (CSMC) method, each dedicated to a different size problem. We performed a formal analysis of the presented method, in which we formulated the necessary assumptions and the probability of finding a correct solution. In the second part of the paper, we present the results of the experimental work. Numerical experiments verified the correctness and performance of the algorithms. To study the influence of the matrix size, rank, and the proportion of missing elements on the quality of the solution and the computation time, we performed experiments on synthetic data. The presented method was applied to two real-life problems problems: prediction of movie rates in a recommendation system and image inpainting. Our thorough analysis shows that CSMC provides solutions of comparable quality to matrix completion algorithms, which are based on convex optimization. However, CSMC offers notable savings in terms of runtime.
翻訳日:2024-03-06 19:05:22 公開日:2024-03-05
# 認知は必要なすべて -- 大規模言語モデル上のaiの次のレイヤ

Cognition is All You Need -- The Next Layer of AI Above Large Language Models ( http://arxiv.org/abs/2403.02164v2 )

ライセンス: Link先を確認
Nova Spivack, Sam Douglas, Michelle Crames, Tim Connors(参考訳) 大規模言語モデルを用いたチャットボットのような会話型aiツールの複雑な実世界の知識作業への応用に関する最近の研究は、推論と多段階問題解決に関する限界を示している。 具体的には、既存のチャットボットが浅い推論と理解をシミュレートする一方で、問題が複雑化するにつれてエラーが発生しやすい。 これらのシステムが複雑な知識労働に対処できなかったのは、それらが実際の認知を実行していないためである。 本稿では,大規模言語モデルの前後でプログラム的に定義されたニューロシンボリック認知を実現するための高レベルフレームワークであるcognitive aiを提案する。 具体的には,複雑な多段階知識作業を行うaiシステムのロードマップとして機能する認知型aiのための2層機能アーキテクチャを提案する。 我々は、認知AIがAGIのような高度なAIの進化に欠かせない先駆者であり、AGIは独自の確率論的アプローチでは達成できないと主張する。 結論として,大規模言語モデル,ai導入サイクル,商用認知型ai開発における意味について論じた。

Recent studies of the applications of conversational AI tools, such as chatbots powered by large language models, to complex real-world knowledge work have shown limitations related to reasoning and multi-step problem solving. Specifically, while existing chatbots simulate shallow reasoning and understanding they are prone to errors as problem complexity increases. The failure of these systems to address complex knowledge work is due to the fact that they do not perform any actual cognition. In this position paper, we present Cognitive AI, a higher-level framework for implementing programmatically defined neuro-symbolic cognition above and outside of large language models. Specifically, we propose a dual-layer functional architecture for Cognitive AI that serves as a roadmap for AI systems that can perform complex multi-step knowledge work. We propose that Cognitive AI is a necessary precursor for the evolution of higher forms of AI, such as AGI, and specifically claim that AGI cannot be achieved by probabilistic approaches on their own. We conclude with a discussion of the implications for large language models, adoption cycles in AI, and commercial Cognitive AI development.
翻訳日:2024-03-06 18:20:34 公開日:2024-03-05
# LLMを用いた製品属性値の抽出と正規化

Using LLMs for the Extraction and Normalization of Product Attribute Values ( http://arxiv.org/abs/2403.02130v2 )

ライセンス: Link先を確認
Nick Baumann, Alexander Brinkmann, Christian Bizer(参考訳) eコマースウェブサイトでの製品提供は、しばしばテキスト製品タイトルとテキスト製品記述で構成される。 ファセット製品フィルタリングやコンテンツベースの製品レコメンデーションなどの機能を提供するためには,Webサイトは非構造化製品記述から属性値ペアを抽出する必要がある。 本稿では,OpenAI の GPT-3.5 や GPT-4 などの大規模言語モデル (LLM) を用いて,製品タイトルや製品記述から属性値の抽出と正規化を行う可能性について検討する。 本稿ではWDC製品属性値抽出(WDC PAVE)データセットについて紹介する。 WDC PAVEは87のウェブサイトから提供され、スキーマ$を提供する。 $orgアノテーション。 提案は5つのカテゴリに属し、それぞれが特定の属性のセットを特徴とする。 データセットは、手動で検証された属性値のペアを2つの形式で提供する。 (i)直接抽出された値 (ii)正規化属性値。 属性値の正規化は、名前展開、一般化、測定単位の正規化、文字列ラングリングといった、以下の種類の演算を行うシステムを必要とする。 実験の結果, GPT-4はPLMに基づく抽出法を10%上回り, F1スコア91%を達成した。 製品属性値の抽出と正規化のために、GPT-4は、特にストリングラングリングや名前展開に強く、抽出シナリオと同じような性能を達成する。

Product offers on e-commerce websites often consist of a textual product title and a textual product description. In order to provide features such as faceted product filtering or content-based product recommendation, the websites need to extract attribute-value pairs from the unstructured product descriptions. This paper explores the potential of using large language models (LLMs), such as OpenAI's GPT-3.5 and GPT-4, to extract and normalize attribute values from product titles and product descriptions. For our experiments, we introduce the WDC Product Attribute-Value Extraction (WDC PAVE) dataset. WDC PAVE consists of product offers from 87 websites that provide schema$.$org annotations. The offers belong to five different categories, each featuring a specific set of attributes. The dataset provides manually verified attribute-value pairs in two forms: (i) directly extracted values and (ii) normalized attribute values. The normalization of the attribute values requires systems to perform the following types of operations: name expansion, generalization, unit of measurement normalization, and string wrangling. Our experiments demonstrate that GPT-4 outperforms PLM-based extraction methods by 10%, achieving an F1-Score of 91%. For the extraction and normalization of product attribute values, GPT-4 achieves a similar performance to the extraction scenario, while being particularly strong at string wrangling and name expansion.
翻訳日:2024-03-06 18:16:26 公開日:2024-03-05
# 正規化流れによる相互情報推定

Mutual Information Estimation via Normalizing Flows ( http://arxiv.org/abs/2403.02187v2 )

ライセンス: Link先を確認
Ivan Butakov, Alexander Tolmachev, Sofia Malanchuk, Anna Neopryatnaya, Alexey Frolov(参考訳) 本稿では,正規化フローベース推定器の導入による相互情報(MI)推定問題に対する新しいアプローチを提案する。 推定器は、MIの既知のクローズドフォーム表現を用いて、元のデータをターゲット分布にマッピングする。 このアプローチが元のデータに対するmiの推定結果をもたらすことを実証する。 提案手法の利点を示すため,高次元データを用いた実験を行った。

We propose a novel approach to the problem of mutual information (MI) estimation via introducing normalizing flows-based estimator. The estimator maps original data to the target distribution with known closed-form expression for MI. We demonstrate that our approach yields MI estimates for the original data. Experiments with high-dimensional data are provided to show the advantages of the proposed estimator.
翻訳日:2024-03-06 18:07:23 公開日:2024-03-05
# Neural Redshift: ランダムネットワークはランダム関数ではない

Neural Redshift: Random Networks are not Random Functions ( http://arxiv.org/abs/2403.02241v2 )

ライセンス: Link先を確認
Damien Teney, Armand Nicolicioiu, Valentin Hartmann, Ehsan Abbasnejad(参考訳) ニューラルネットワーク(NN)の一般化能力に対する我々の理解はまだ不十分である。 一般的な説明は、勾配降下(GD)の暗黙のバイアスに基づくものであるが、勾配のない手法によるモデルの能力や、最近トレーニングされていないネットワークで観測された単純さのバイアスは考慮できない。 本稿では,nnsにおける他の一般化源を求める。 発見。 GDとは独立してアーキテクチャが提供する帰納バイアスを理解するために,未学習のランダムウェイトネットワークについて検討する。 単純な mlp でさえも強い帰納的バイアスを示しており、重み空間における一様サンプリングは、複雑性の観点から関数の非常に偏りのある分布をもたらす。 しかし、一般的な知恵とは異なり、nnは固有の「単純化バイアス」を持たない。 この性質は、ReLUs、残留接続、層正規化などのコンポーネントに依存する。 代替アーキテクチャは、あらゆるレベルの複雑さに対してバイアスで構築することができる。 トランスフォーマーはこれらすべてのプロパティをビルディングブロックから継承する。 意味。 グラデーションベーストレーニングによらず,深層学習の成功の新たな説明を提供する。 トレーニングされたモデルによって実装されたソリューションを制御するための、有望な道を示している。

Our understanding of the generalization capabilities of neural networks (NNs) is still incomplete. Prevailing explanations are based on implicit biases of gradient descent (GD) but they cannot account for the capabilities of models from gradient-free methods nor the simplicity bias recently observed in untrained networks. This paper seeks other sources of generalization in NNs. Findings. To understand the inductive biases provided by architectures independently from GD, we examine untrained, random-weight networks. Even simple MLPs show strong inductive biases: uniform sampling in weight space yields a very biased distribution of functions in terms of complexity. But unlike common wisdom, NNs do not have an inherent "simplicity bias". This property depends on components such as ReLUs, residual connections, and layer normalizations. Alternative architectures can be built with a bias for any level of complexity. Transformers also inherit all these properties from their building blocks. Implications. We provide a fresh explanation for the success of deep learning independent from gradient-based training. It points at promising avenues for controlling the solutions implemented by trained models.
翻訳日:2024-03-06 17:58:42 公開日:2024-03-05
# フィードバックにより安定化された強熱機械騒音

Strong Thermomechanical Noise Squeezing Stabilized by Feedback ( http://arxiv.org/abs/2403.02328v2 )

ライセンス: Link先を確認
Aida Mashaal, Lucio Stefan, Andrea Ranfagni, Letizia Catalini, Ilia Chernobrovkin, Thibault Capelle, Eric Langman, and Albert Schliesser(参考訳) センサとして使用される高調波発振器の4次雑音をスクイーズすることで、特定の測定方式における感度を高めることができる。 標準的アプローチは、振動周波数のパラメトリック変調に基づいており、通常は少なくとも3dBのスクイーズに制限される。 しかし、これは反スキーズ二次のさらなる安定化によって克服できる。 本稿では,この手法を高強度の窒化ケイ素膜共振器に適用し,数ナノグラムの有効質量と108以上の品質因子を日常的に有する。 圧電または容量パラメトリック変調を用いて性能をベンチマークする。 記録的な17dbと21dbの最大熱力学的スクイーズをそれぞれ観察し、デバイス設計に最小限の変更を加えるだけでさらに大きな値が得られると論じた。 最後に、この手法と量子制限運動測定の組み合わせの完全な量子理論を提供し、量子スクイーズが適度な低温で達成可能であると結論付ける。

Squeezing the quadrature noise of a harmonic oscillator used as a sensor can enhance its sensitivity in certain measurment schemes. The canonical approach, based on parametric modulation of the oscillation frequency, is usually limited to a squeezing of at most 3 dB. However, this can be overcome by additional stabilization of the anti-squeezed quadrature. Here, we apply this approach to highly-stressed silicon nitride membrane resonators, with effective masses of the order few nanograms and quality factors routinely exceeding 108, which hold promise for sensing applications in both the classical and quantum regimes. We benchmark their performance using either piezo or capacitive parametric modulation. We observe maximum thermomechanical squeezing by record-high 17 dB and 21 dB, respectively, and we argue that even larger values can be attained with minimal changes to the device design. Finally, we provide a full quantum theory of a combination of this approach with quantum-limited motion measurement and conclude that quantum squeezing is attainable at moderate cryogenic temperatures.
翻訳日:2024-03-06 17:39:43 公開日:2024-03-05
# UniCtrl: 学習自由統一注意制御によるテキスト・ビデオ拡散モデルの時空間整合性の改善

UniCtrl: Improving the Spatiotemporal Consistency of Text-to-Video Diffusion Models via Training-Free Unified Attention Control ( http://arxiv.org/abs/2403.02332v2 )

ライセンス: Link先を確認
Xuweiyi Chen, Tian Xia, and Sihan Xu(参考訳) ビデオ拡散モデルはビデオ生成のために開発されており、通常はテキストと画像条件を統合して生成されたコンテンツの制御を強化する。 進歩にもかかわらず、特にテキストプロンプトを制御条件として使用する場合、フレーム間の一貫性の確保は依然として課題である。 そこで本研究では,テキスト対ビデオモデルによる映像の時空間的一貫性と動きの多様性を改善するために,新たなプラグ・アンド・プレイ方式であるunictrlを提案する。 UniCtrlは、フレーム間の自己アテンション制御を通じて、異なるフレーム間のセマンティック一貫性を保証すると同時に、モーションインジェクションと時空間同期によって、運動品質と時空間一貫性を高める。 実験の結果、UniCtrlは様々なテキスト・ビデオ・モデルを強化し、その有効性と普遍性を確認した。

Video Diffusion Models have been developed for video generation, usually integrating text and image conditioning to enhance control over the generated content. Despite the progress, ensuring consistency across frames remains a challenge, particularly when using text prompts as control conditions. To address this problem, we introduce UniCtrl, a novel, plug-and-play method that is universally applicable to improve the spatiotemporal consistency and motion diversity of videos generated by text-to-video models without additional training. UniCtrl ensures semantic consistency across different frames through cross-frame self-attention control, and meanwhile, enhances the motion quality and spatiotemporal consistency through motion injection and spatiotemporal synchronization. Our experimental results demonstrate UniCtrl's efficacy in enhancing various text-to-video models, confirming its effectiveness and universality.
翻訳日:2024-03-06 17:26:16 公開日:2024-03-05
# chatcite: 比較文献要約のためのヒューマンワークフローガイダンス付きllmエージェント

ChatCite: LLM Agent with Human Workflow Guidance for Comparative Literature Summary ( http://arxiv.org/abs/2403.02574v1 )

ライセンス: Link先を確認
Yutong Li, Lu Chen, Aiwei Liu, Kai Yu, Lijie Wen(参考訳) 文献レビューは研究プロセスにおいて不可欠のステップである。 先行研究の比較分析を行いながら、研究問題を理解し、現在の研究状況を理解する利点を提供する。 しかし、文献の要約は困難で時間を要する。 前回のllmに基づく文献レビュー研究は,文献検索,スクリーニング,要約を含む全過程に焦点を当てた。 しかし、要約の段階では、単純なCoT法は広範囲な比較要約を提供する能力に欠けることが多い。 そこで本研究では,まず独立した文献要約のステップに注目し,人間によるワークフローガイダンスを備えたLLMエージェントChatCiteを紹介する。 このエージェントは、人間のワークフローを模倣して、まず関連する文献からキー要素を抽出し、リフレクティブインクリメンタルメカニズムを用いて要約を生成する。 生成した要約の質をよりよく評価するために,人間の評価基準を参考に,LLMに基づく自動評価指標Gスコアを考案した。 チャットチングエージェントは実験で他のモデルよりも様々な次元で優れていた。 ChatCiteが生成した文献要約は、文学レビューの起草にも直接利用できる。

The literature review is an indispensable step in the research process. It provides the benefit of comprehending the research problem and understanding the current research situation while conducting a comparative analysis of prior works. However, literature summary is challenging and time consuming. The previous LLM-based studies on literature review mainly focused on the complete process, including literature retrieval, screening, and summarization. However, for the summarization step, simple CoT method often lacks the ability to provide extensive comparative summary. In this work, we firstly focus on the independent literature summarization step and introduce ChatCite, an LLM agent with human workflow guidance for comparative literature summary. This agent, by mimicking the human workflow, first extracts key elements from relevant literature and then generates summaries using a Reflective Incremental Mechanism. In order to better evaluate the quality of the generated summaries, we devised a LLM-based automatic evaluation metric, G-Score, in refer to the human evaluation criteria. The ChatCite agent outperformed other models in various dimensions in the experiments. The literature summaries generated by ChatCite can also be directly used for drafting literature reviews.
翻訳日:2024-03-06 16:41:17 公開日:2024-03-05
# 情報化と伝達コストの学習によるオンライン最小化

Learning-augmented Online Minimization of Age of Information and Transmission Costs ( http://arxiv.org/abs/2403.02573v1 )

ライセンス: Link先を確認
Zhongdong Liu, Keyuan Zhang, Bin Li, Yin Sun, Y. Thomas Hou, and Bo Ji(参考訳) 資源制約のあるソース(例えば小さなセンサ)が時間に敏感なデータを送信し、時間に制約のある無線チャネルを介して目的地に送信する離散時間システムを考える。 各トランスミッションは固定的な伝送コスト(例えばエネルギーコスト)を発生させ、トランスミッションの無いトランスミッションは情報年齢によって表される停滞コストをもたらす。 ソースは送信と安定化コストのトレードオフをバランスさせなければなりません。 この課題に対処するため,送信コストと安定化コストの合計を最小化し,最悪の性能保証を確保するために,ロバストなオンラインアルゴリズムを開発した。 オンラインアルゴリズムは堅牢だが、概して保守的であり、典型的なシナリオでは平均的なパフォーマンスが劣っている。 対照的に、過去のデータと予測モデルを活用することで、機械学習(ML)アルゴリズムは平均的なケースでよく機能する。 しかし、通常は最悪のパフォーマンス保証がない。 両世界の最善を尽くすため、我々は2つの望ましい特性を示す学習型オンラインアルゴリズムをデザインする。 (i)一貫性:ML予測が正確かつ信頼されたときに最適なオフラインアルゴリズムを密接に近似すること。 (ii)堅牢性: 最悪の場合のパフォーマンスを保証する ml予測でさえ不正確である。 最後に,オンラインアルゴリズムが経験的に良好に動作し,学習提示アルゴリズムが一貫性とロバスト性の両方を達成することを示すために,広範なシミュレーションを行う。

We consider a discrete-time system where a resource-constrained source (e.g., a small sensor) transmits its time-sensitive data to a destination over a time-varying wireless channel. Each transmission incurs a fixed transmission cost (e.g., energy cost), and no transmission results in a staleness cost represented by the Age-of-Information. The source must balance the tradeoff between transmission and staleness costs. To address this challenge, we develop a robust online algorithm to minimize the sum of transmission and staleness costs, ensuring a worst-case performance guarantee. While online algorithms are robust, they are usually overly conservative and may have a poor average performance in typical scenarios. In contrast, by leveraging historical data and prediction models, machine learning (ML) algorithms perform well in average cases. However, they typically lack worst-case performance guarantees. To achieve the best of both worlds, we design a learning-augmented online algorithm that exhibits two desired properties: (i) consistency: closely approximating the optimal offline algorithm when the ML prediction is accurate and trusted; (ii) robustness: ensuring worst-case performance guarantee even ML predictions are inaccurate. Finally, we perform extensive simulations to show that our online algorithm performs well empirically and that our learning-augmented algorithm achieves both consistency and robustness.
翻訳日:2024-03-06 16:40:59 公開日:2024-03-05
# DPAdapter:雑音耐性事前学習による差分私的深層学習の改善

DPAdapter: Improving Differentially Private Deep Learning through Noise Tolerance Pre-training ( http://arxiv.org/abs/2403.02571v1 )

ライセンス: Link先を確認
Zihao Wang, Rui Zhu, Dongruo Zhou, Zhikun Zhang, John Mitchell, Haixu Tang, and XiaoFeng Wang(参考訳) 近年の進歩は、機械学習モデルをトレーニングするための個人データの保護において、 \textit{differential privacy} (DP) の重要性を強調している。 しかし、DPを組み込むことは、トレーニングプロセスに導入される摂動により、重要なモデル性能の劣化を招き、 {differentially private machine learning} (DPML) 分野における重大な課題が提示される。 この目的のために、いくつかの緩和策が提案され、通常、新しいDPMLアルゴリズムを定式化したり、異なる文脈で調和するためにDP定義を緩和する。 これらのイニシアチブにもかかわらず、DPがモデル、特に大規模モデルで引き起こした減少は依然として深刻であり、モデルユーティリティの連続的障害を確実に回避する革新的な解決が必要である。 DPAdapterは,パラメータのロバスト性を高め,DPMLアルゴリズムのモデル性能を向上する先駆的手法である。 この戦略の背後にある基本的な直感は、頑健なパラメータを持つモデルは本質的にDPが導入したノイズに耐性があり、摂動にもかかわらず優れた性能を維持することである。 dpadapterは、より正確な摂動推定と効率的な勾配降下を提供し、ノイズに対するパラメータロバスト性を改善するために、2バッチ戦略を利用して、シャープネス認識最小化(sam)技術を修正し、強化する。 特に、DPAdapterはプラグイン・アンド・プレイコンポーネントとして機能し、既存のDPMLアルゴリズムと組み合わせてパフォーマンスをさらに向上させることができる。 我々の実験によると、DPAdapterは最先端のDPMLアルゴリズムを大幅に強化し、平均精度は72.92\%から77.09\%に向上し、プライバシー予算は$\epsilon=4$である。

Recent developments have underscored the critical role of \textit{differential privacy} (DP) in safeguarding individual data for training machine learning models. However, integrating DP oftentimes incurs significant model performance degradation due to the perturbation introduced into the training process, presenting a formidable challenge in the {differentially private machine learning} (DPML) field. To this end, several mitigative efforts have been proposed, typically revolving around formulating new DPML algorithms or relaxing DP definitions to harmonize with distinct contexts. In spite of these initiatives, the diminishment induced by DP on models, particularly large-scale models, remains substantial and thus, necessitates an innovative solution that adeptly circumnavigates the consequential impairment of model utility. In response, we introduce DPAdapter, a pioneering technique designed to amplify the model performance of DPML algorithms by enhancing parameter robustness. The fundamental intuition behind this strategy is that models with robust parameters are inherently more resistant to the noise introduced by DP, thereby retaining better performance despite the perturbations. DPAdapter modifies and enhances the sharpness-aware minimization (SAM) technique, utilizing a two-batch strategy to provide a more accurate perturbation estimate and an efficient gradient descent, thereby improving parameter robustness against noise. Notably, DPAdapter can act as a plug-and-play component and be combined with existing DPML algorithms to further improve their performance. Our experiments show that DPAdapter vastly enhances state-of-the-art DPML algorithms, increasing average accuracy from 72.92\% to 77.09\% with a privacy budget of $\epsilon=4$.
翻訳日:2024-03-06 16:40:40 公開日:2024-03-05
# LLMからコードへのより良い多言語構造推論

Eliciting Better Multilingual Structured Reasoning from LLMs through Code ( http://arxiv.org/abs/2403.02567v1 )

ライセンス: Link先を確認
Bryan Li and Tamer Alkhouli and Daniele Bonadiman and Nikolaos Pappas and Saab Mansour(参考訳) 大規模言語モデル(LLM)の開発は推論の進歩を示しているが、研究は英語や単純な推論に限られている。 本稿では,6言語にまたがる4つのタスクをカバーする多言語構造推論と説明データセット「xstreet」を提案する。 xSTREETは、英語と非英語の推論タスクの基本的なLLMパフォーマンスのギャップを露呈する。 次に、このギャップを改善する2つの方法を提案し、コードで訓練されたllmがよりよい推論者であるという知見に基づいています。 まず、トレーニング時に、プログラムコードをそのまま維持しながら、機械翻訳を用いた多言語コメントによるコードデータセットの拡張を行う。 第二に、推論時に、ステップバイステップのコードプリミティブを組み込んだプロンプト構造を使うことで、トレーニングと推論の間のギャップを橋渡しし、新しい事実を導き、解決策を見つけ出す。 提案手法はxSTREETにおける多言語的性能の向上を示し,特に科学的常識推論サブタスクにおいて顕著である。 さらに,本モデルでは非推論タスクの回帰を示さず,汎用能力の維持を図っている。

Development of large language models (LLM) have shown progress on reasoning, though studies have been limited to English or simple reasoning tasks. We thus introduce a multilingual structured reasoning and explanation dataset, termed xSTREET, that covers four tasks across six languages. xSTREET exposes a gap in base LLM performance between English and non-English reasoning tasks. We then propose two methods to remedy this gap, building on the insight that LLMs trained on code are better reasoners. First, at training time, we augment a code dataset with multi-lingual comments using machine translation while keeping program code as-is. Second, at inference time, we bridge the gap between training and inference by employing a prompt structure that incorporates step-by-step code primitives to derive new facts and find a solution. Our methods show improved multilingual performance on xSTREET, most notably on the scientific commonsense reasoning subtask. Furthermore, the models show no regression on non-reasoning tasks, thus showing our techniques maintain general-purpose abilities.
翻訳日:2024-03-06 16:40:07 公開日:2024-03-05
# 確率論的学習による3次元医用画像分割の弱化

Enhancing Weakly Supervised 3D Medical Image Segmentation through Probabilistic-aware Learning ( http://arxiv.org/abs/2403.02566v1 )

ライセンス: Link先を確認
Zhaoxin Fan, Runmin Jiang, Junhao Wu, Xin Huang, Tianyang Wang, Heng Huang, Min Xu(参考訳) 3次元画像分割は、疾患の診断と治療計画に重要な意味を持つ課題である。 近年の深層学習の進歩は、完全に教師付き医療画像のセグメンテーションを著しく強化している。 しかし、このアプローチは、特に3Dボリュームにおいて、労働集約的で時間を要するフルアノテート・グラウンド・トゥルース・レーベルに大きく依存している。 この限界を克服するため,我々は3次元医用イメージング用に特別に設計された,弱い教師付き学習パイプラインを提案する。 このパイプラインは,分散アノテーションから高密度セグメンテーションマスクを合成する確率ベース擬似ラベル生成手法,確率的トランスフォーマーネットワーク内のロバスト特徴抽出のための確率的多頭自己アテンションネットワーク,アノテーション信頼によるトレーニング強化のための確率的セグメンテーション損失関数の3つの革新的なコンポーネントを統合している。 提案手法は, 完全教師付き手法のパフォーマンスに匹敵するだけでなく, CTおよびMRIデータセットにおける既存の弱教師付き手法を上回り, 特定の臓器に対するDiceスコアを最大18.1%向上させる。 コードはhttps://github.com/runminjiang/pw4medsegで入手できる。

3D medical image segmentation is a challenging task with crucial implications for disease diagnosis and treatment planning. Recent advances in deep learning have significantly enhanced fully supervised medical image segmentation. However, this approach heavily relies on labor-intensive and time-consuming fully annotated ground-truth labels, particularly for 3D volumes. To overcome this limitation, we propose a novel probabilistic-aware weakly supervised learning pipeline, specifically designed for 3D medical imaging. Our pipeline integrates three innovative components: a probability-based pseudo-label generation technique for synthesizing dense segmentation masks from sparse annotations, a Probabilistic Multi-head Self-Attention network for robust feature extraction within our Probabilistic Transformer Network, and a Probability-informed Segmentation Loss Function to enhance training with annotation confidence. Demonstrating significant advances, our approach not only rivals the performance of fully supervised methods but also surpasses existing weakly supervised methods in CT and MRI datasets, achieving up to 18.1% improvement in Dice scores for certain organs. The code is available at https://github.com/runminjiang/PW4MedSeg.
翻訳日:2024-03-06 16:39:48 公開日:2024-03-05
# 手話AI研究におけるシステミックバイアス:研究アジェンダを再評価するための難解な呼びかけ

Systemic Biases in Sign Language AI Research: A Deaf-Led Call to Reevaluate Research Agendas ( http://arxiv.org/abs/2403.02563v1 )

ライセンス: Link先を確認
Aashaka Desai, Maartje De Meulder, Julie A. Hochgesang, Annemarie Kocab, Alex X. Lu(参考訳) 手話認識、生成、翻訳AIの研究は、そのような技術の倫理的発展を求める声が上がっている。 これらの研究は個々の研究者の行動を改善するのに不可欠であるが、特に非署名研究者が支配する分野における研究の質問や方法を形成する体系的バイアスや修辞の分析に関する議論の欠如が顕著である。 そこで我々は手話AIに関する最近の101論文を体系的にレビューする。 我々の分析は、認識されるコミュニケーション障壁への対処、代表的データセットの使用の欠如、言語基盤の欠如したアノテーションの使用、欠陥のあるモデルに基づく手法の開発など、手話AI研究の現状における重大なバイアスを明らかにしている。 我々は、この分野には聴覚障害者の利害関係者からの有意義なインプットが欠けているという立場をとり、その代わりに研究者にとって最も都合のよい決定であるか、あるいは最も重要であると認識されているかによって駆動される。 この分野は、Deaf研究者が手話AIで会話をリードするためのスペースを作らなければならない。

Growing research in sign language recognition, generation, and translation AI has been accompanied by calls for ethical development of such technologies. While these works are crucial to helping individual researchers do better, there is a notable lack of discussion of systemic biases or analysis of rhetoric that shape the research questions and methods in the field, especially as it remains dominated by hearing non-signing researchers. Therefore, we conduct a systematic review of 101 recent papers in sign language AI. Our analysis identifies significant biases in the current state of sign language AI research, including an overfocus on addressing perceived communication barriers, a lack of use of representative datasets, use of annotations lacking linguistic foundations, and development of methods that build on flawed models. We take the position that the field lacks meaningful input from Deaf stakeholders, and is instead driven by what decisions are the most convenient or perceived as important to hearing researchers. We end with a call to action: the field must make space for Deaf researchers to lead the conversation in sign language AI.
翻訳日:2024-03-06 16:39:26 公開日:2024-03-05
# テクスチャを用いたセマンティックヒューマンメッシュ再構築

Semantic Human Mesh Reconstruction with Textures ( http://arxiv.org/abs/2403.02561v1 )

ライセンス: Link先を確認
Xiaoyu Zhan, Jianxin Yang, Yuanqi Li, Jie Guo, Yanwen Guo, Wenping Wang(参考訳) 近年,3次元メッシュ再構築の分野は大きな進歩を遂げている。 しかしながら、現在の手法は、不安定な結果、低品質メッシュ、UVアンラッピングとスキンウェイトが欠如しているため、産業用途での使用において依然として課題に直面している。 本稿では,セマンティック・ヒューマンメッシュをテクスチャと高精度で再構築可能な新しいパイプラインであるSHERTを提案する。 shertは、詳細な表面(例えばメッシュとsdf)と対応するsmpl-xモデルの間にセマンティックおよび正規のサンプリングを適用し、部分サンプリングされたセマンティックメッシュを取得し、特別に設計された自己教師付き補完および精細化ネットワークによって完全なセマンティックメッシュを生成する。 完全なセマンティックメッシュをベースとして、画像とテキストの両方によって駆動される人間のテクスチャを作成するためにテクスチャ拡散モデルを用いる。 再構成メッシュには、安定した紫外線アンラッピング、高品質なトライアングルメッシュ、一貫性のあるセマンティック情報がある。 与えられたsmpl-xモデルは意味情報と形状事前情報を提供し、shertは不正確な入力でもうまく機能する。 また、セマンティック情報により、顔、体、手などの異なる身体部位の置き換えやアニメーションも容易になる。 定量的および定性的実験により、SHERTは最先端の手法より優れた高忠実で堅牢なセマンティックメッシュを生成することができることを示した。

The field of 3D detailed human mesh reconstruction has made significant progress in recent years. However, current methods still face challenges when used in industrial applications due to unstable results, low-quality meshes, and a lack of UV unwrapping and skinning weights. In this paper, we present SHERT, a novel pipeline that can reconstruct semantic human meshes with textures and high-precision details. SHERT applies semantic- and normal-based sampling between the detailed surface (eg mesh and SDF) and the corresponding SMPL-X model to obtain a partially sampled semantic mesh and then generates the complete semantic mesh by our specifically designed self-supervised completion and refinement networks. Using the complete semantic mesh as a basis, we employ a texture diffusion model to create human textures that are driven by both images and texts. Our reconstructed meshes have stable UV unwrapping, high-quality triangle meshes, and consistent semantic information. The given SMPL-X model provides semantic information and shape priors, allowing SHERT to perform well even with incorrect and incomplete inputs. The semantic information also makes it easy to substitute and animate different body parts such as the face, body, and hands. Quantitative and qualitative experiments demonstrate that SHERT is capable of producing high-fidelity and robust semantic meshes that outperform state-of-the-art methods.
翻訳日:2024-03-06 16:39:07 公開日:2024-03-05
# 生成的モデリング研究のための臨床人工知能(mi-claim)チェックリストの更新

Updating the Minimum Information about CLinical Artificial Intelligence (MI-CLAIM) checklist for generative modeling research ( http://arxiv.org/abs/2403.02558v1 )

ライセンス: Link先を確認
Brenda Y. Miao, Irene Y. Chen, Christopher YK Williams, Jays\'on Davidson, Augusto Garcia-Agundez, Harry Sun, Travis Zack, Atul J. Butte, Madhumita Sushil(参考訳) 大規模言語モデル(llms)、視覚言語モデル(vlms)、拡散モデルを含む生成モデルの最近の進歩は、医学における自然言語と画像処理の分野を加速させ、生物医学モデルの開発と展開の方法に大きなパラダイムシフトをもたらした。 これらのモデルは、新しいタスクに非常に適応できるが、その使い方のスケーリングと評価は、以前のフレームワークでは対処できなかった新しい課題を示す。 特に、特別なトレーニングデータ("zero-" または "few-shot" アプローチ)をほとんど持たない有用なアウトプットを生成するためのこれらのモデルの能力と、アウトプットの開放された性質は、これらのモデルの使用と評価に更新されたガイドラインの開発を必要とする。 米国大統領令141103および臨床AI評価のための新興国ネットワークによって特定される臨床AIツールの開発における標準とベストプラクティスのギャップに対応するため、我々は「臨床人工知能モデリングに関する最小情報」(MI-CLAIM)チェックリストに基づいてこれらのガイドラインの一部を策定し始める。 2020年に開発されたmi-claim checklistは、医療における人工知能(ai)の透明で再現可能な研究を促進するために必要な最小限の情報に関するガイドラインを6つのステップで提供した。 本稿では, 臨床研究における従来のAIモデルと比較して, 学習, 評価, 解釈可能性, 再現性の違いを強調したチェックリストの変更を提案する。 この更新されたチェックリストは、コホート選択報告の明確化や、倫理的基準に沿った追加項目の追加も目指している。

Recent advances in generative models, including large language models (LLMs), vision language models (VLMs), and diffusion models, have accelerated the field of natural language and image processing in medicine and marked a significant paradigm shift in how biomedical models can be developed and deployed. While these models are highly adaptable to new tasks, scaling and evaluating their usage presents new challenges not addressed in previous frameworks. In particular, the ability of these models to produce useful outputs with little to no specialized training data ("zero-" or "few-shot" approaches), as well as the open-ended nature of their outputs, necessitate the development of updated guidelines in using and evaluating these models. In response to gaps in standards and best practices for the development of clinical AI tools identified by US Executive Order 141103 and several emerging national networks for clinical AI evaluation, we begin to formalize some of these guidelines by building on the "Minimum information about clinical artificial intelligence modeling" (MI-CLAIM) checklist. The MI-CLAIM checklist, originally developed in 2020, provided a set of six steps with guidelines on the minimum information necessary to encourage transparent, reproducible research for artificial intelligence (AI) in medicine. Here, we propose modifications to the original checklist that highlight differences in training, evaluation, interpretability, and reproducibility of generative models compared to traditional AI models for clinical research. This updated checklist also seeks to clarify cohort selection reporting and adds additional items on alignment with ethical standards.
翻訳日:2024-03-06 16:38:39 公開日:2024-03-05
# Eコマースにおけるパーソナライズドクエリ自動補完のための検索インテンションネットワーク

Search Intenion Network for Personalized Query Auto-Completion in E-Commerce ( http://arxiv.org/abs/2403.02609v1 )

ライセンス: Link先を確認
Wei Bao, Mi Zhang, Tao Zhang, Chengfu Huo(参考訳) Query Auto-Completion(QAC), as an important part of the modern search engine, plays a key role in complementing user queries and helping them refine their search intentions.Today's QAC systems in real-world scenarios face two major challenges:1)intention equivocality(IE): during the user's typing process,the prefix often contains a combination of characters and subwords, which makes the current intention ambiguous and difficult to model.2)intention transfer (IT):previous works make personalized recommendations based on users' historical sequences, but ignore the search intention transfer.However, the current intention extracted from prefix may be contrary to the historical preferences.

Query Auto-Completion(QAC), as an important part of the modern search engine, plays a key role in complementing user queries and helping them refine their search intentions.Today's QAC systems in real-world scenarios face two major challenges:1)intention equivocality(IE): during the user's typing process,the prefix often contains a combination of characters and subwords, which makes the current intention ambiguous and difficult to model.2)intention transfer (IT):previous works make personalized recommendations based on users' historical sequences, but ignore the search intention transfer.However, the current intention extracted from prefix may be contrary to the historical preferences.
翻訳日:2024-03-06 16:31:08 公開日:2024-03-05
# DNNLasso: マトリックス変数データのためのスケーラブルなグラフ学習

DNNLasso: Scalable Graph Learning for Matrix-Variate Data ( http://arxiv.org/abs/2403.02608v1 )

ライセンス: Link先を確認
Meixia Lin and Yangjing Zhang(参考訳) 本稿では,2つの精度行列を別々にモデル化した行列変量観測の行関係と列依存性を共同学習する問題を考察する。 一般化された行列-変量ガウス図形モデルにおけるクロネッカー積精度行列の複雑な構造のため、グラフのカルテジアン積に基づくスパーサークロネッカー-サム構造が最近提案されている。 しかし、既存のクロネッカー・サム構造精密行列の推定方法は、大規模データセットに対してうまくスケールしない。 本稿では,Kronecker-sum構造的精度行列を推定するための,対角非負のグラフィカルラッソモデルであるDNNLassoを紹介する。 私たちのコードはhttps://github.com/yangjingzhang/dnnlassoで入手できます。

We consider the problem of jointly learning row-wise and column-wise dependencies of matrix-variate observations, which are modelled separately by two precision matrices. Due to the complicated structure of Kronecker-product precision matrices in the commonly used matrix-variate Gaussian graphical models, a sparser Kronecker-sum structure was proposed recently based on the Cartesian product of graphs. However, existing methods for estimating Kronecker-sum structured precision matrices do not scale well to large scale datasets. In this paper, we introduce DNNLasso, a diagonally non-negative graphical lasso model for estimating the Kronecker-sum structured precision matrix, which outperforms the state-of-the-art methods by a large margin in both accuracy and computational time. Our code is available at https://github.com/YangjingZhang/DNNLasso.
翻訳日:2024-03-06 16:30:59 公開日:2024-03-05
# MEBS:マルチスロットディスプレイ広告のためのマルチタスクエンドツーエンドバイドシェーディング

MEBS: Multi-task End-to-end Bid Shading for Multi-slot Display Advertising ( http://arxiv.org/abs/2403.02607v1 )

ライセンス: Link先を確認
Zhen Gong, Lvyin Niu, Yang Zhao, Miao Xu, Zhenzhe Zheng, Haoqi Zhang, Zhilin Zhang, Fan Wu, Rongquan Bai, Chuan Yu, Jian Xu and Bo Zheng(参考訳) オンライン入札とオークションは、オンライン広告業界の重要な側面である。 従来、広告表示のスロットは1つしかなく、現在のほとんどの研究はそれに焦点を当てている。 現在、マルチスロットディスプレイ広告は徐々に普及し、多くの広告を一覧に表示し、ユーザー全体に表示するようになっている。 しかし、マルチスロットディスプレイ広告はコスト効率が異なる。 広告主には、最も経済的な広告ポジションを獲得するために入札価格を調整するインセンティブがある。 本研究では,マルチタスク・エンド・ツー・エンド・バイド・シェーディング(MEBS)法を用いた入札価格調整のためのマルチスロットディスプレイ広告における入札シェーディングを提案する。 提案手法の最適性を理論的に証明し,その性能を実験的に検証する。 大規模なオフラインおよびオンライン実験を通じて,本手法の有効性と効率を実証し,Gross Merchandise Volumeで7.01%,Return on Investmentで7.42%,広告購入で3.26%のリフトを得た。

Online bidding and auction are crucial aspects of the online advertising industry. Conventionally, there is only one slot for ad display and most current studies focus on it. Nowadays, multi-slot display advertising is gradually becoming popular where many ads could be displayed in a list and shown as a whole to users. However, multi-slot display advertising leads to different cost-effectiveness. Advertisers have the incentive to adjust bid prices so as to win the most economical ad positions. In this study, we introduce bid shading into multi-slot display advertising for bid price adjustment with a Multi-task End-to-end Bid Shading(MEBS) method. We prove the optimality of our method theoretically and examine its performance experimentally. Through extensive offline and online experiments, we demonstrate the effectiveness and efficiency of our method, and we obtain a 7.01% lift in Gross Merchandise Volume, a 7.42% lift in Return on Investment, and a 3.26% lift in ad buy count.
翻訳日:2024-03-06 16:30:42 公開日:2024-03-05
# 自己監督型学習による超解法における一般化の促進

Low-Res Leads the Way: Improving Generalization for Super-Resolution by Self-Supervised Learning ( http://arxiv.org/abs/2403.02601v1 )

ライセンス: Link先を確認
Haoyu Chen, Wenbo Li, Jinjin Gu, Jingjing Ren, Haoze Sun, Xueyi Zou, Zhensong Zhang, Youliang Yan, Lei Zhu(参考訳) 画像スーパーレゾリューション(sr)では、合成データセットのパフォーマンスと現実世界の分解シナリオとのギャップを埋めることが課題である。 本研究は,SRモデルの現実画像への適応性を高めるために,教師付き事前学習と自己教師付き学習を組み合わせる,新しい「Low-Res Leads the Way」トレーニングフレームワークを導入する。 提案手法では,低分解能(LR)再構成ネットワークを用いて,LR画像から劣化埋め込みを抽出し,LR再構成のための超解出力とマージする。 自己教師付き学習のために見えないLR画像を活用することで、モデリング空間をターゲット領域に適応させ、ペアの高解像度(HR)画像を必要としないSRモデルの微調整を容易にする。 離散ウェーブレット変換(DWT)の統合により、高周波の詳細に焦点を当てる。 大規模評価の結果,既存の手法よりも高い精度でSRモデルの一般化と詳細な復元能力の向上が得られた。 私たちのトレーニングレジームは普遍的に互換性があり、ネットワークアーキテクチャの変更を必要とせず、現実世界のsrアプリケーションにとって実用的なソリューションになります。

For image super-resolution (SR), bridging the gap between the performance on synthetic datasets and real-world degradation scenarios remains a challenge. This work introduces a novel "Low-Res Leads the Way" (LWay) training framework, merging Supervised Pre-training with Self-supervised Learning to enhance the adaptability of SR models to real-world images. Our approach utilizes a low-resolution (LR) reconstruction network to extract degradation embeddings from LR images, merging them with super-resolved outputs for LR reconstruction. Leveraging unseen LR images for self-supervised learning guides the model to adapt its modeling space to the target domain, facilitating fine-tuning of SR models without requiring paired high-resolution (HR) images. The integration of Discrete Wavelet Transform (DWT) further refines the focus on high-frequency details. Extensive evaluations show that our method significantly improves the generalization and detail restoration capabilities of SR models on unseen real-world datasets, outperforming existing methods. Our training regime is universally compatible, requiring no network architecture modifications, making it a practical solution for real-world SR applications.
翻訳日:2024-03-06 16:30:26 公開日:2024-03-05
# testam: 専門家の混合による時空間的注意モデル

TESTAM: A Time-Enhanced Spatio-Temporal Attention Model with Mixture of Experts ( http://arxiv.org/abs/2403.02600v1 )

ライセンス: Link先を確認
Hyunwook Lee, Sungahn Ko(参考訳) 道路網の複雑化や道路の種類,イベントによる急激な速度変化などにより,正確な交通予測は困難である。 近年の研究では,適応グラフ埋め込みによる動的空間モデリングや,時間特性やその場モデリングに対する考慮の少ないグラフ注意に注目している。 本稿では,時間的モデリング,静的グラフによる時空間モデリング,動的グラフによる動的時空間依存性モデリングの3つの専門家による混合専門家モデルを用いて,再帰的および非再帰的トラフィックパターンを個別にモデル化する,testamという新しいディープラーニングモデルを提案する。 異なる専門家を導入して適切なルーティングを行うことで、TESTAMは、空間的に孤立したノード、非常に関連性の高いノード、繰り返しおよび非再帰的なイベントなど、さまざまな状況をモデル化することができる。 適切なルーティングのために,ガティング問題を擬似ラベルを用いた分類問題に再構成する。 METR-LA,PEMS-BAY,EXPY-TKYの3つの公共交通ネットワークデータセットによる実験結果から,TESTAMは再帰的および非再帰的トラフィックのより優れた表示とモデル化を実現することが示された。 公式コードはhttps://github.com/HyunWookL/TESTAMで公開しました。

Accurate traffic forecasting is challenging due to the complex dependency on road networks, various types of roads, and the abrupt speed change due to the events. Recent works mainly focus on dynamic spatial modeling with adaptive graph embedding or graph attention having less consideration for temporal characteristics and in-situ modeling. In this paper, we propose a novel deep learning model named TESTAM, which individually models recurring and non-recurring traffic patterns by a mixture-of-experts model with three experts on temporal modeling, spatio-temporal modeling with static graph, and dynamic spatio-temporal dependency modeling with dynamic graph. By introducing different experts and properly routing them, TESTAM could better model various circumstances, including spatially isolated nodes, highly related nodes, and recurring and non-recurring events. For the proper routing, we reformulate a gating problem into a classification problem with pseudo labels. Experimental results on three public traffic network datasets, METR-LA, PEMS-BAY, and EXPY-TKY, demonstrate that TESTAM achieves a better indication and modeling of recurring and non-recurring traffic. We published the official code at https://github.com/HyunWookL/TESTAM
翻訳日:2024-03-06 16:30:01 公開日:2024-03-05
# 量子アニーリング手法を用いたポートフォリオ最適化手法の比較分析

Comparative analysis of diverse methodologies for portfolio optimization leveraging quantum annealing techniques ( http://arxiv.org/abs/2403.02599v1 )

ライセンス: Link先を確認
Zhijie Tang, Alex Lu Dou, Arit Kumar Bishwas(参考訳) ポートフォリオ最適化(PO)は、投資目標達成を支援するために金融サービスに広く採用されている。 最適な資産配分を提供することで、POは投資に関連するリスクとリターンを効果的にバランスさせる。 しかし、関連する資産や制約の数が増えるにつれて、ポートフォリオ最適化の問題がますます解決しにくくなり、NPハード問題に陥ることに注意する必要がある。 このようなシナリオでは、モンテカルロ法のような古典的なアルゴリズムは、ポートフォリオの在庫数が増加すると、この課題に対処する上での限界を示す。 量子アニールアルゴリズムは、NISQ時代の複雑なポートフォリオ最適化問題の解決を約束する。 多くの研究は、標準量子アニーリングアプローチに対する様々な量子アニーリングアルゴリズムの利点を実証している。 本研究では,ランダムに生成した単周期離散平均分散ポートフォリオ最適化インスタンスを数値的に検討する。 我々は,従来型でない量子アニーリングアルゴリズムの応用について検討し,前方アニーリングと逆アニーリングの2つのスケジュールを用いた。 提案手法は,tts(time-to-solution)と多種多様なアプローチの成功確率を比較し,従来の前処理スケジュールを用いた場合の成功確率を高める効果を示す。 さらに、逆アニーリングスケジュールの実装により、選択された非従来型量子アニーリングアルゴリズムの性能が大幅に向上することが判明した。

Portfolio optimization (PO) is extensively employed in financial services to assist in achieving investment objectives. By providing an optimal asset allocation, PO effectively balances the risk and returns associated with investments. However, it is important to note that as the number of involved assets and constraints increases, the portfolio optimization problem can become increasingly difficult to solve, falling into the category of NP-hard problems. In such scenarios, classical algorithms, such as the Monte Carlo method, exhibit limitations in addressing this challenge when the number of stocks in the portfolio grows. Quantum annealing algorithm holds promise for solving complex portfolio optimization problems in the NISQ era. Many studies have demonstrated the advantages of various quantum annealing algorithm variations over the standard quantum annealing approach. In this work, we conduct a numerical investigation of randomly generated unconstrained single-period discrete mean-variance portfolio optimization instances. We explore the application of a variety of unconventional quantum annealing algorithms, employing both forward annealing and reverse annealing schedules. By comparing the time-to-solution(TTS) and success probabilities of diverse approaches, we show that certain methods exhibit advantages in enhancing the success probability when utilizing conventional forward annealing schedules. Furthermore, we find that the implementation of reverse annealing schedules can significantly improve the performance of select unconventional quantum annealing algorithms.
翻訳日:2024-03-06 16:29:37 公開日:2024-03-05
# 複数の共変量シフトと不均衡を伴う画像データセットのプーリング

Pooling Image Datasets With Multiple Covariate Shift and Imbalance ( http://arxiv.org/abs/2403.02598v1 )

ライセンス: Link先を確認
Sotirios Panagiotis Chytas, Vishnu Suresh Lokhande, Peiran Li, Vikas Singh(参考訳) 小さなサンプルサイズは多くの分野で一般的であり、画像と疾患の結果の間の弱いが関連する関係を研究するために、複数の機関でほぼ同様のデータセットをプールする必要がある。 このようなデータは、共変量(二次的非画像データ)においてシフト/不均衡を示すことが多い。 このようなニュアサンス変数の制御は標準的な統計解析では一般的であるが、過剰パラメータモデルには直接適用されない。 その結果, 不変表現学習の戦略が有意義な出発点となることを示したが, 現在の手法のレパートリーは, 一度に数個の共変数のシフト/不均衡を説明することに限られている。 本稿では,カテゴリ理論の観点からこの問題を眺めることによって,複雑なマルチステージトレーニングパイプラインを完全に回避する,シンプルで効果的なソリューションが提供されることを示す。 本手法は,実データを用いた広範囲な実験により有効性を示す。 さらに,本手法は,自己教師あり学習から3次元再構築におけるマッチング問題まで,少なくとも5つ以上の異なる問題設定に対する統一的な視点を提供する。

Small sample sizes are common in many disciplines, which necessitates pooling roughly similar datasets across multiple institutions to study weak but relevant associations between images and disease outcomes. Such data often manifest shift/imbalance in covariates (i.e., secondary non-imaging data). Controlling for such nuisance variables is common within standard statistical analysis, but the ideas do not directly apply to overparameterized models. Consequently, recent work has shown how strategies from invariant representation learning provides a meaningful starting point, but the current repertoire of methods is limited to accounting for shifts/imbalances in just a couple of covariates at a time. In this paper, we show how viewing this problem from the perspective of Category theory provides a simple and effective solution that completely avoids elaborate multi-stage training pipelines that would otherwise be needed. We show the effectiveness of this approach via extensive experiments on real datasets. Further, we discuss how this style of formulation offers a unified perspective on at least 5+ distinct problem settings, from self-supervised learning to matching problems in 3D reconstruction.
翻訳日:2024-03-06 16:29:15 公開日:2024-03-05
# 音楽:不正確・厳密な手法による分散最適化のための高速化収束

MUSIC: Accelerated Convergence for Distributed Optimization With Inexact and Exact Methods ( http://arxiv.org/abs/2403.02589v1 )

ライセンス: Link先を確認
Mou Wu, Haibin Liao, Zhengtao Ding, Yonggang Xiao(参考訳) グラディエント型分散最適化手法は,ネットワークエージェントシステム上での最小化学習課題を解決する上で最も重要なツールのひとつに成長した。 しかし、1イテレーションあたりの勾配更新は、収束のsubstantiveaccelerateを達成するのが難しい。 本稿では,各エージェントが複数のローカルアップデートと1つのコンビネーションを各イテレーションで実行できるようにする,music と呼ばれる高速化フレームワークを提案する。 さらに重要なことは、このフレームワークに不正確な正確な分散最適化手法を組み込むことで、加速線形収束と高い通信効率を示す2つの新しいアルゴリズムを開発することである。 我々の厳密な収束分析は、不正確な政策から生じる定常的エラーの原因を明らかにし、効果的な解決策を提供する。 合成データと実データに基づく数値結果は、理論的な動機付けと分析の両方と性能上の利点を示しています。

Gradient-type distributed optimization methods have blossomed into one of the most important tools for solving a minimization learning task over a networked agent system. However, only one gradient update per iteration is difficult to achieve a substantive acceleration of convergence. In this paper, we propose an accelerated framework named as MUSIC allowing each agent to perform multiple local updates and a single combination in each iteration. More importantly, we equip inexact and exact distributed optimization methods into this framework, thereby developing two new algorithms that exhibit accelerated linear convergence and high communication efficiency. Our rigorous convergence analysis reveals the sources of steady-state errors arising from inexact policies and offers effective solutions. Numerical results based on synthetic and real datasets demonstrate both our theoretical motivations and analysis, as well as performance advantages.
翻訳日:2024-03-06 16:28:56 公開日:2024-03-05
# ゼロショットイベント検出のためのイベント定義の改善

Improving Event Definition Following For Zero-Shot Event Detection ( http://arxiv.org/abs/2403.02586v1 )

ライセンス: Link先を確認
Zefan Cai, Po-Nien Kung, Ashima Suvarna, Mingyu Derek Ma, Hritik Bansal, Baobao Chang, P. Jeffrey Brantingham, Wei Wang, Nanyun Peng(参考訳) ゼロショットイベント検出の既存のアプローチは通常、既知のイベントタイプにアノテートされたデータセット上のモデルをトレーニングし、未認識のイベント定義でそれらをプロンプトする。 これらのアプローチは散発的な成功をもたらすが、概して期待に届かない。 本研究は,イベント定義に従うためのトレーニングモデルによるゼロショットイベント検出の改善を目的とする。 既存のイベント抽出データセットは、いくつかのイベントタイプのために多くの高品質な例をアノテートすることに焦点を当てている一方で、モデルがイベント定義に従うことを学ぶ上では、さまざまなイベントタイプと定義が鍵となると仮定しています。 仮説を検証するため,自動生成したDiverse Event Definition (DivED)データセットを構築し,比較研究を行う。 私たちの実験では、多数のイベントタイプ(200)と多様なイベント定義が、イベント抽出性能を著しく向上させる可能性があることが分かりました。 スケーリング以外にも、トレーニング中にイベントオントロジー情報とハードネガティブなサンプルを組み込んで、パフォーマンスをさらに向上します。 これらの結果から,ゼロショットイベント検出の3つのオープンベンチマークにおいて,gpt-3.5のようなsoma大規模言語モデルを上回るパフォーマンスを実現するために,llama-2-7bモデルを拡張データセット上で微調整した。

Existing approaches on zero-shot event detection usually train models on datasets annotated with known event types, and prompt them with unseen event definitions. These approaches yield sporadic successes, yet generally fall short of expectations. In this work, we aim to improve zero-shot event detection by training models to better follow event definitions. We hypothesize that a diverse set of event types and definitions are the key for models to learn to follow event definitions while existing event extraction datasets focus on annotating many high-quality examples for a few event types. To verify our hypothesis, we construct an automatically generated Diverse Event Definition (DivED) dataset and conduct comparative studies. Our experiments reveal that a large number of event types (200) and diverse event definitions can significantly boost event extraction performance; on the other hand, the performance does not scale with over ten examples per event type. Beyond scaling, we incorporate event ontology information and hard-negative samples during training, further boosting the performance. Based on these findings, we fine-tuned a LLaMA-2-7B model on our DivED dataset, yielding performance that surpasses SOTA large language models like GPT-3.5 across three open benchmarks on zero-shot event detection.
翻訳日:2024-03-06 16:28:41 公開日:2024-03-05
# 受動光ネットワークを用いた高レート16ノード量子アクセスネットワーク

High-Rate 16-node quantum access network based on passive optical network ( http://arxiv.org/abs/2403.02585v1 )

ライセンス: Link先を確認
Yan Pan, Yiming Bian, Yang Li, Xuesong Xu, Li Ma, Heng Wang, Yujie Luo, Jiayi Dou, Yaodi Pi, Jie Yang, Wei Huang, Song Yu, Stefano Pirandola, Yichen Zhang, and Bingjie Xu(参考訳) 量子鍵分布は情報理論的なセキュアな通信を提供することができ、現実のアプリケーションのための量子セキュアネットワークの構築に向かっている。 多くの構築された量子セキュアネットワークにおいて、ポイントツーマルチポイント(PTMP)トポロジは特に量子アクセスネットワークにおいて最も一般的なスキームの1つである。 しかし、秘密鍵レートの高いカスタムプロトコルがなく、ptmp方式の古典的な光学ネットワークと互換性があるため、多数のユーザを持つ高性能量子アクセスネットワークの効率的な方法はまだ存在しない。 本稿では、高効率コヒーレントなPTMPプロトコルを新規に設計し、1つの送信機と複数の受信機間の独立秘密鍵生成を可能にする、受動光ネットワークに基づく高速16ノード量子アクセスネットワークの実験実験を行った。 このような成果は、よく設計されたリアルタイムショットノイズ校正法、一連の高度なデジタル信号処理アルゴリズム、そして高い確率で柔軟な後処理戦略によるものである。 最後に,実験結果から,送信機とユーザ間の平均秘密鍵レートは約2.086Mbpsであり,従来よりも2桁高いことがわかった。 低コスト、優れた互換性、広い帯域幅の利点により、我々の研究は実用的なptmp量子アクセスネットワークを構築する方法を広げ、スケーラブルな量子セキュアネットワークに向けた重要なステップを構成しています。

Quantum key distribution can provide information-theoretical secure communication, which is now heading towards building the quantum secure network for real-world applications. In most built quantum secure networks, point-to-multipoint (PTMP) topology is one of the most popular schemes, especially for quantum access networks. However, due to the lack of custom protocols with high secret key rate and compatible with classical optical networks for PTMP scheme, there is still no efficient way for a high-performance quantum access network with a multitude of users. Here, we report an experimental demonstration of a high-rate 16-nodes quantum access network based on passive optical network, where a high-efficient coherent-state PTMP protocol is novelly designed to allow independent secret key generation between one transmitter and multiple receivers concurrently. Such accomplishment is attributed to a well-designed real-time shot-noise calibration method, a series of advanced digital signal processing algorithms and a flexible post-processing strategy with high success probability. Finally, the experimental results show that the average secret key rate is around 2.086 Mbps between the transmitter and each user, which is two orders of magnitude higher than previous demonstrations. With the advantages of low cost, excellent compatibility, and wide bandwidth, our work paves the way for building practical PTMP quantum access networks, thus constituting an important step towards scalable quantum secure networks.
翻訳日:2024-03-06 16:28:17 公開日:2024-03-05
# 生成的ソフトウェア工学

Generative Software Engineering ( http://arxiv.org/abs/2403.02583v1 )

ライセンス: Link先を確認
Yuan Huang, Yinan Chen, Xiangping Chen, Junqi Chen, Rui Peng, Zhicao Tang, Jinbo Huang, Furen Xu, Zibin Zheng(参考訳) ディープラーニング技術の急速な開発、計算能力の向上、膨大なトレーニングデータの提供により、事前訓練されたモデルと大規模言語モデル(LLM)が大幅に進歩した。 BERTやTransformerのようなアーキテクチャやChatGPTのようなLLMに基づく事前訓練されたモデルは、驚くべき言語機能を示し、ソフトウェア工学の応用を見出した。 ソフトウェアエンジニアリングタスクは、多くのカテゴリに分けられる。その中では、生成タスクが研究者の最も関心事である。そこでは、事前学習されたモデルとLLMが強力な言語表現と文脈認識能力を持ち、多様なトレーニングデータを活用して、微調整、移行学習、迅速なエンジニアリングを通じて生成タスクに適応することができる。 これらの利点は、生成タスクにおいて効果的なツールとなり、優れたパフォーマンスを示している。 本稿では,事前学習モデルとLLMを用いたSEにおける生成タスクの総合的な文献レビューを行う。 ソフトウェア工学手法に基づくSE生成タスクを正確に分類し、関連する高度な事前学習モデルとLCM、および使用するデータセットと評価指標を要約する。 さらに,既存手法の重要な強み,弱み,ギャップを特定し,潜在的な研究方向を提案する。 本総説は,SE内の生成作業における事前学習モデルとLCMの適用に関する詳細な分析とガイダンスを提供することを目的としている。

The rapid development of deep learning techniques, improved computational power, and the availability of vast training data have led to significant advancements in pre-trained models and large language models (LLMs). Pre-trained models based on architectures such as BERT and Transformer, as well as LLMs like ChatGPT, have demonstrated remarkable language capabilities and found applications in Software engineering. Software engineering tasks can be divided into many categories, among which generative tasks are the most concern by researchers, where pre-trained models and LLMs possess powerful language representation and contextual awareness capabilities, enabling them to leverage diverse training data and adapt to generative tasks through fine-tuning, transfer learning, and prompt engineering. These advantages make them effective tools in generative tasks and have demonstrated excellent performance. In this paper, we present a comprehensive literature review of generative tasks in SE using pre-trained models and LLMs. We accurately categorize SE generative tasks based on software engineering methodologies and summarize the advanced pre-trained models and LLMs involved, as well as the datasets and evaluation metrics used. Additionally, we identify key strengths, weaknesses, and gaps in existing approaches, and propose potential research directions. This review aims to provide researchers and practitioners with an in-depth analysis and guidance on the application of pre-trained models and LLMs in generative tasks within SE.
翻訳日:2024-03-06 16:27:50 公開日:2024-03-05
# veglue: オブジェクトアラインジョイント消去による視覚インテリメントシステムのテスト

VEglue: Testing Visual Entailment Systems via Object-Aligned Joint Erasing ( http://arxiv.org/abs/2403.02581v1 )

ライセンス: Link先を確認
Zhiyuan Chang, Mingyang Li, Junjie Wang, Cheng Li, Qing Wang(参考訳) ビジュアルエンタテメント(VE)は、約束が画像によって定義され、仮説が文によって記述される画像-文対からなるマルチモーダル推論タスクである。 目的は、画像が文を意味的に包含するかどうかを予測することである。 veシステムは多くの下流タスクで広く採用されている。 メタモルフィックテストはAIアルゴリズムで最も一般的なテクニックだが、VEテストには大きな課題がある。 彼らは、画像とテキストのペアの関係が破壊される原因となる単一のモダリティの摂動のみを考慮するか、またはVEシステムによる決定誤差をほとんど検出できない入力に対して浅い摂動を行う。 画像中のオブジェクトが推論の基本的な要素であるという事実から,VEシステムテストのためのオブジェクト整合型共同消去手法VEglueを提案する。 まず、前提内のオブジェクト領域と仮説内のオブジェクト記述をアライメントし、リンクされていないオブジェクトとリンクされていないオブジェクトを識別する。 そして、アライメント情報に基づいて、2つのモードのオブジェクトを共同で消去する3つのメタモルフィック関係を設計する。 2つの公開データセットを含む4つの広く使われているVEシステム上でVEglueを評価する。 その結果、veglueは平均で11,609件の問題を検出できたが、これはベースラインよりも194%-2,846%多い。 さらに、VEglueは平均52.5%の課題発見率(IFR)に達し、ベースラインの17.1%-38.2%を大きく上回った。 さらに,veglue が生成するテストを利用して ve システムを再トレーニングし,本テストセットの精度を犠牲にすることなく,新たに生成されたテストのモデル性能(精度50.8%向上)を大きく改善した。

Visual entailment (VE) is a multimodal reasoning task consisting of image-sentence pairs whereby a promise is defined by an image, and a hypothesis is described by a sentence. The goal is to predict whether the image semantically entails the sentence. VE systems have been widely adopted in many downstream tasks. Metamorphic testing is the commonest technique for AI algorithms, but it poses a significant challenge for VE testing. They either only consider perturbations on single modality which would result in ineffective tests due to the destruction of the relationship of image-text pair, or just conduct shallow perturbations on the inputs which can hardly detect the decision error made by VE systems. Motivated by the fact that objects in the image are the fundamental element for reasoning, we propose VEglue, an object-aligned joint erasing approach for VE systems testing. It first aligns the object regions in the premise and object descriptions in the hypothesis to identify linked and un-linked objects. Then, based on the alignment information, three Metamorphic Relations are designed to jointly erase the objects of the two modalities. We evaluate VEglue on four widely-used VE systems involving two public datasets. Results show that VEglue could detect 11,609 issues on average, which is 194%-2,846% more than the baselines. In addition, VEglue could reach 52.5% Issue Finding Rate (IFR) on average, and significantly outperform the baselines by 17.1%-38.2%. Furthermore, we leverage the tests generated by VEglue to retrain the VE systems, which largely improves model performance (50.8% increase in accuracy) on newly generated tests without sacrificing the accuracy on the original test set.
翻訳日:2024-03-06 16:27:26 公開日:2024-03-05
# CLIPモデルの反転から何を学びますか?

What do we learn from inverting CLIP models? ( http://arxiv.org/abs/2403.02580v1 )

ライセンス: Link先を確認
Hamid Kazemi, Atoosa Chegini, Jonas Geiping, Soheil Feizi, Tom Goldstein(参考訳) 私たちは、CLIPモデルを調べるためにインバージョンベースのアプローチを採用する。 そこで本研究では,CLIPモデルの反転により,特定のターゲットプロンプトとのセマンティックアライメントを示す画像が生成されることを明らかにした。 これらの逆画像を利用してクリップモデルの様々な側面、例えば概念をブレンドする能力やジェンダーバイアスを包含する能力について洞察を得る。 特に,NSFW (Not Safe For Work) 画像のモデル逆転過程を観察する。 この現象は「美しい風景」のような意味的に無意味なプロンプトや、有名人の名前を含むプロンプトでも起こる。

We employ an inversion-based approach to examine CLIP models. Our examination reveals that inverting CLIP models results in the generation of images that exhibit semantic alignment with the specified target prompts. We leverage these inverted images to gain insights into various aspects of CLIP models, such as their ability to blend concepts and inclusion of gender biases. We notably observe instances of NSFW (Not Safe For Work) images during model inversion. This phenomenon occurs even for semantically innocuous prompts, like "a beautiful landscape," as well as for prompts involving the names of celebrities.
翻訳日:2024-03-06 16:26:55 公開日:2024-03-05
# 変圧器の信号伝搬予測の幾何学的ダイナミクス

Geometric Dynamics of Signal Propagation Predict Trainability of Transformers ( http://arxiv.org/abs/2403.02579v1 )

ライセンス: Link先を確認
Aditya Cowsik, Tamra Nebabu, Xiao-Liang Qi, Surya Ganguli(参考訳) 深部変圧器における前方信号伝搬と勾配バック伝搬について検討し, 深部変圧器の訓練性を確保するための初期化ハイパーパラメータの簡易かつ十分な条件を導出する。 我々のアプローチは、$n$相互作用粒子の離散時間力学系の観点から、変換器層を通して伝播する$n$トークンの表現の進化を扱う。 この粒子系の進化する幾何の単純な更新方程式を導出し、置換対称性の単純性から始める。 我々の更新方程式は、MLP層がなければ、このシステムは変圧器のランク崩壊に関する先行研究と整合して一直線に崩壊することを示している。 しかし、従来の研究とは異なり、我々の進化方程式は非線形MLP層の存在下で粒子の幾何を定量的に追跡することができ、注意的およびMLP残差接続の強さや重量分散などの初期化ハイパーパラメータの関数として秩序-カオス相転移を示す。 秩序相では粒子は魅力的で直線に崩壊するが、カオス相では粒子は反発的であり、通常のn$-simplex に収束する。 我々は2つのリアプノフ指数を解析的に導出する: この粒子系におけるカオスの端から逸脱する角度指数と、指数的成長の速度や逆伝播勾配の崩壊を制御する勾配指数である。 実験を通して、トレーニング開始時の2つの指数によって、トレーニング終了時の最終的なテスト損失が十分に予測され、これらの2つの指数の同時消滅が、最小限のテスト損失を達成するのに必要かつ十分な条件をもたらすことを示す。

We investigate forward signal propagation and gradient back propagation in deep, randomly initialized transformers, yielding simple necessary and sufficient conditions on initialization hyperparameters that ensure trainability of deep transformers. Our approach treats the evolution of the representations of $n$ tokens as they propagate through the transformer layers in terms of a discrete time dynamical system of $n$ interacting particles. We derive simple update equations for the evolving geometry of this particle system, starting from a permutation symmetric simplex. Our update equations show that without MLP layers, this system will collapse to a line, consistent with prior work on rank collapse in transformers. However, unlike prior work, our evolution equations can quantitatively track particle geometry in the additional presence of nonlinear MLP layers, and it reveals an order-chaos phase transition as a function of initialization hyperparameters, like the strength of attentional and MLP residual connections and weight variances. In the ordered phase the particles are attractive and collapse to a line, while in the chaotic phase the particles are repulsive and converge to a regular $n$-simplex. We analytically derive two Lyapunov exponents: an angle exponent that governs departures from the edge of chaos in this particle system, and a gradient exponent that governs the rate of exponential growth or decay of backpropagated gradients. We show through experiments that, remarkably, the final test loss at the end of training is well predicted just by these two exponents at the beginning of training, and that the simultaneous vanishing of these two exponents yields a simple necessary and sufficient condition to achieve minimal test loss.
翻訳日:2024-03-06 16:26:45 公開日:2024-03-05
# AceMap: 学術グラフによる知識発見

AceMap: Knowledge Discovery through Academic Graph ( http://arxiv.org/abs/2403.02576v1 )

ライセンス: Link先を確認
Xinbing Wang, Luoyi Fu, Xiaoying Gan, Ying Wen, Guanjie Zheng, Jiaxin Ding, Liyao Xiang, Nanyang Ye, Meng Jin, Shiyu Liang, Bin Lu, Haiwen Wang, Yi Xu, Cheng Deng, Shao Zhang, Huquan Kang, Xingli Wang, Qi Li, Zhixin Guo, Jiexing Qi, Pan Liu, Yuyang Ren, Lyuwen Wu, Jungang Yang, Jianping Zhou, Chenghu Zhou(参考訳) 科学文献の指数的な成長には、効果的な管理と貴重な洞察の抽出が必要である。 既存の科学検索エンジンはリレーショナルデータベースに基づく検索結果の提供に長けているが、科学機関間のコラボレーションの分析やアイデアの進化、さらには学術出版物における内容の詳細な分析は無視されることが多い。 不均一グラフの表現とそのようなグラフの効果的な測定、分析、採掘は重要な課題である。 これらの課題に対処するため,学術グラフによる知識発見を目的とした学術システムであるAceMapを提示する。 本稿では,豊かな視覚情報,テキスト情報,数値情報を含む大規模学術出版物を用いた総合的なacemapデータベースを構築するためのデータベース構築手法を提案する。 AceMapはまた、学術機関間の関連や論理的関係を探求する革新的な可視化、定量化、分析手法も採用している。 AceMapは、ネブラルグラフを中心とした大規模学術ネットワーク可視化技術を導入し、複数の観点から学術ネットワークの包括的なビューを提供する。 さらに、AceMapは、異なる学術団体の知識内容を定量的に測定する構造エントロピーに基づく統一された計量を提案する。 さらにacemapは、引用関係と概念共起を通じて学術的アイデアの進化を追跡し、この進化過程から得られた簡潔な要約を生成するなど、高度な分析機能を提供している。 さらに、AceMapはマシン読み取り手法を使用して、異なるフィールドの交差点で潜在的な新しいアイデアを生成する。 大規模言語モデルと知識グラフの統合を探求することは、将来のアイデア進化の研究にとって有望な方向である。 詳しくは \url{https://www.acemap.info} をご覧ください。

The exponential growth of scientific literature requires effective management and extraction of valuable insights. While existing scientific search engines excel at delivering search results based on relational databases, they often neglect the analysis of collaborations between scientific entities and the evolution of ideas, as well as the in-depth analysis of content within scientific publications. The representation of heterogeneous graphs and the effective measurement, analysis, and mining of such graphs pose significant challenges. To address these challenges, we present AceMap, an academic system designed for knowledge discovery through academic graph. We present advanced database construction techniques to build the comprehensive AceMap database with large-scale academic publications that contain rich visual, textual, and numerical information. AceMap also employs innovative visualization, quantification, and analysis methods to explore associations and logical relationships among academic entities. AceMap introduces large-scale academic network visualization techniques centered on nebular graphs, providing a comprehensive view of academic networks from multiple perspectives. In addition, AceMap proposes a unified metric based on structural entropy to quantitatively measure the knowledge content of different academic entities. Moreover, AceMap provides advanced analysis capabilities, including tracing the evolution of academic ideas through citation relationships and concept co-occurrence, and generating concise summaries informed by this evolutionary process. In addition, AceMap uses machine reading methods to generate potential new ideas at the intersection of different fields. Exploring the integration of large language models and knowledge graphs is a promising direction for future research in idea evolution. Please visit \url{https://www.acemap.info} for further exploration.
翻訳日:2024-03-06 16:26:12 公開日:2024-03-05
# PPS-QMIX:マルチエージェント強化学習の収束促進のための周期的パラメータ共有

PPS-QMIX: Periodically Parameter Sharing for Accelerating Convergence of Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2403.02635v1 )

ライセンス: Link先を確認
Ke Zhang, DanDan Zhu, Qiuhan Xu, Hao Zhou and Ce Zheng(参考訳) マルチエージェント強化学習(MARL)の訓練は、各エージェントの分布シフトによって引き起こされる時間を要するプロセスである。 1つの欠点は、MARLの各エージェントの戦略が独立しているが、実際に協力していることである。 したがって、マルチエージェント強化学習における垂直課題は、効率的にトレーニングプロセスを加速する方法である。 この問題に対処するため、現在の研究では、複数のエージェントにまたがる集中型機能(cf)を活用して、各エージェントに対するチーム報酬の貢献を学びました。 しかし、CFに基づく手法は、値ネットワークの推定において他のエージェントとの結合誤差を導入する。 そこで我々は,MARLのトレーニングを加速するために,A-PPS(Average Periodically Parameter Sharing),RS-PPS(Reward-Scalability Periodically Parameter Sharing),PP-PPS(Partial Personalized Periodically Parameter Sharing)という3つの簡単な手法を提案する。 エージェントはトレーニングプロセス中に定期的にQ値ネットワークを共有する。 同じアイデンティティを持つエージェントが収集した報酬をスケーラビリティとして適用し、異なるパラメータを共有する期間に部分ニューラルネットワークを更新する。 従来のMARL手法QMIXにアプローチを適用し,StarCraft Multi-Agent Challenge(SMAC)環境における様々なタスクに対するアプローチを評価する。 数値実験の性能は、平均10\%-30\%の改善により大幅に向上し、QMIXでは不可能なタスクを勝ち取ることができる。 私たちのコードはhttps://github.com/ColaZhang22/PPS-QMIXからダウンロードできます。

Training for multi-agent reinforcement learning(MARL) is a time-consuming process caused by distribution shift of each agent. One drawback is that strategy of each agent in MARL is independent but actually in cooperation. Thus, a vertical issue in multi-agent reinforcement learning is how to efficiently accelerate training process. To address this problem, current research has leveraged a centralized function(CF) across multiple agents to learn contribution of the team reward for each agent. However, CF based methods introduce joint error from other agents in estimation of value network. In so doing, inspired by federated learning, we propose three simple novel approaches called Average Periodically Parameter Sharing(A-PPS), Reward-Scalability Periodically Parameter Sharing(RS-PPS) and Partial Personalized Periodically Parameter Sharing(PP-PPS) mechanism to accelerate training of MARL. Agents share Q-value network periodically during the training process. Agents which has same identity adapt collected reward as scalability and update partial neural network during period to share different parameters. We apply our approaches in classical MARL method QMIX and evaluate our approaches on various tasks in StarCraft Multi-Agent Challenge(SMAC) environment. Performance of numerical experiments yield enormous enhancement, with an average improvement of 10\%-30\%, and enable to win tasks that QMIX cannot. Our code can be downloaded from https://github.com/ColaZhang22/PPS-QMIX
翻訳日:2024-03-06 16:20:58 公開日:2024-03-05
# 光子効率光通信用グリーディ受信機

Greedy receiver for photon-efficient optical communication ( http://arxiv.org/abs/2403.02634v1 )

ライセンス: Link先を確認
Karol {\L}ukanowski(参考訳) 光通信において、送信機は変調フォーマットで定義された一連の光状態に情報を符号化し、特定のチャネル条件を満たすように選択され、出力において十分に識別可能である。 様々な受信機アーキテクチャは復調性能を改善するために設計されており、最終的に量子理論によって制限されている。 本研究では,局所最適グリードアルゴリズムに基づく新しい受信機を導入し,パルス位置変調に適用する。 受信機は、これまで提案された全ての信号強度系における戦略の誤差確率を低減し、検出プロセスの数値最適化による結果に匹敵する結果を得る。 対照的に、概念的には単純であり、それゆえ任意に高い変調次数にスケールできるため、数値的手法は難解になる。 深宇宙光通信の光子星型状態特性では、フレディ受信機は状態判別誤差の確率に基づいて量子最適ヘルストロームに接近する。 数光子パルスの状態では、他の方法で提供される誤差の低減は桁違いに大きくなる。

In optical communication the transmitter encodes information into a set of light states defined by the modulation format, selected to accommodate specific channel conditions and to remain sufficiently distinguishable at the output. Various receiver architectures have been designed to improve the demodulation performance, ultimately limited by quantum theory. In this work I introduce a new receiver based on a locally optimal greedy algorithm and apply it to pulse position modulation. The receiver reduces the error probabilities of previously proposed strategies in all signal strength regimes and achieves results comparable with those obtained by numerical optimization of the detection process. In contrast, however, it is conceptually simple and therefore can be scaled to arbitrarily high modulation orders for which numerical methods become intractable. In the photon-starved regime characteristic of deep space optical communication, the greedy receiver approaches the quantum-optimal Helstrom bound on state discrimination error probability. In the regime of few-photon pulses, the error reduction offered over the other methods grows up to an order of magnitude.
翻訳日:2024-03-06 16:20:32 公開日:2024-03-05
# FedHCDR:ハイパーグラフ信号デカップリングによるクロスドメイン勧告

FedHCDR: Federated Cross-Domain Recommendation with Hypergraph Signal Decoupling ( http://arxiv.org/abs/2403.02630v1 )

ライセンス: Link先を確認
Hongyu Zhang, Dongyi Zheng, Lin Zhong, Xu Yang, Jiyuan Feng, Yunqing Feng, Qing Liao(参考訳) 近年,複数のドメインのユーザデータを用いて推薦性能を向上させるクロスドメイン勧告 (CDR) が注目されている。 しかし、現在のCDRメソッドでは、ドメイン間でユーザデータを共有する必要があるため、GDPR(General Data Protection Regulation)に違反する。 その結果,Federated Cross-Domain Recommendation (FedCDR) には多くのアプローチが提案されている。 それでも、異なる領域にわたるデータの異質性は、フェデレート学習の全体的なパフォーマンスに必然的に影響を及ぼす。 本研究では,ハイパーグラフ信号デカップリングを用いた新しいFederated Cross-Domain RecommendationフレームワークであるFedHCDRを提案する。 具体的には、ドメイン間のデータの均一性に対処するため、ハイパーグラフ信号デカップリング(HSD)と呼ばれるアプローチを導入し、ユーザ機能をドメイン排他的およびドメイン共有機能に分離する。 このアプローチでは、ハイパスおよびローパスハイパーグラフフィルタを使用して、ローカルグローバル双方向転送アルゴリズムによって訓練されたドメイン排他的およびドメイン共有ユーザ表現を分離する。 さらに、ユーザハイパーグラフを摂動させることにより、ドメイン共有ユーザ関係情報の学習を強化するために、ハイパーグラフコントラスト学習(HCL)モジュールを考案する。 3つの実世界のシナリオで実施された大規模な実験は、FedHCDRが既存のベースラインを大幅に上回ることを示した。

In recent years, Cross-Domain Recommendation (CDR) has drawn significant attention, which utilizes user data from multiple domains to enhance the recommendation performance. However, current CDR methods require sharing user data across domains, thereby violating the General Data Protection Regulation (GDPR). Consequently, numerous approaches have been proposed for Federated Cross-Domain Recommendation (FedCDR). Nevertheless, the data heterogeneity across different domains inevitably influences the overall performance of federated learning. In this study, we propose FedHCDR, a novel Federated Cross-Domain Recommendation framework with Hypergraph signal decoupling. Specifically, to address the data heterogeneity across domains, we introduce an approach called hypergraph signal decoupling (HSD) to decouple the user features into domain-exclusive and domain-shared features. The approach employs high-pass and low-pass hypergraph filters to decouple domain-exclusive and domain-shared user representations, which are trained by the local-global bi-directional transfer algorithm. In addition, a hypergraph contrastive learning (HCL) module is devised to enhance the learning of domain-shared user relationship information by perturbing the user hypergraph. Extensive experiments conducted on three real-world scenarios demonstrate that FedHCDR outperforms existing baselines significantly.
翻訳日:2024-03-06 16:20:16 公開日:2024-03-05
# 顔のメッシュ登録のための幾何・測光ジョイントアライメント

Towards Geometric-Photometric Joint Alignment for Facial Mesh Registration ( http://arxiv.org/abs/2403.02629v1 )

ライセンス: Link先を確認
Xizhi Wang and Yaxiong Wang and Mengjian Li(参考訳) 本稿では,図形と測光情報を組み合わせることにより,人間の表情を正確に整列する幾何測光ジョイントアライメント(gpja)法を提案する。 人間の頭部を登録する一般的な方法は、幾何学的処理のアプローチでランドマークを顔のテンプレートメッシュに合わせることを伴うが、フォトメトリックの一貫性は見過ごされることが多い。 gpjaはこの制限を克服し、可微分レンダリングを利用して頂点を目標表現にアライメントし、幾何学と測光線の同時アライメントを自動で達成し、セマンティックアノテーションやトレーニング用のアライメントメッシュを必要とせずに実現している。 全体的なレンダリングアライメント戦略と、堅牢で高速な収束のためのマルチスケールの正規化最適化が特徴である。 この方法は、頂点位置の微分を監督に利用し、滑らかさを保証し、幾何学進化中の位相的欠陥を回避する勾配に基づくアルゴリズムを用いる。 実験結果は,従来のICPに基づく手法と最先端のディープラーニングに基づく手法を超越した,様々な表現の下で忠実なアライメントを示す。 本手法は,多視点ステレオ顔スキャンからトポロジーに一貫性のある顔モデルを得る効率を高める。

This paper presents a Geometric-Photometric Joint Alignment(GPJA) method, for accurately aligning human expressions by combining geometry and photometric information. Common practices for registering human heads typically involve aligning landmarks with facial template meshes using geometry processing approaches, but often overlook photometric consistency. GPJA overcomes this limitation by leveraging differentiable rendering to align vertices with target expressions, achieving joint alignment in geometry and photometric appearances automatically, without the need for semantic annotation or aligned meshes for training. It features a holistic rendering alignment strategy and a multiscale regularized optimization for robust and fast convergence. The method utilizes derivatives at vertex positions for supervision and employs a gradient-based algorithm which guarantees smoothness and avoids topological defects during the geometry evolution. Experimental results demonstrate faithful alignment under various expressions, surpassing the conventional ICP-based methods and the state-of-the-art deep learning based method. In practical, our method enhances the efficiency of obtaining topology-consistent face models from multi-view stereo facial scanning.
翻訳日:2024-03-06 16:19:54 公開日:2024-03-05
# インタラクティブな継続的学習 - 高速でスロー思考

Interactive Continual Learning: Fast and Slow Thinking ( http://arxiv.org/abs/2403.02628v1 )

ライセンス: Link先を確認
Biqing Qi, Xingquan Chen, Junqi Gao, Jianxing Liu, Ligang Wu and Bowen Zhou(参考訳) 高度な生命形態は、神経認知機構の相乗的相互作用によって維持され、生涯を通して継続的に知識を取得し、伝達する。 対照的に、現代の機械学習パラダイムは連続学習(CL)の側面をエミュレートする際の限界を示す。 それでも、大きな言語モデル(LLM)の出現は、これらのモデルとの相互作用を通じてCLを実現するための有望な道を示す。 本稿では,相補的学習システム理論を基礎として,様々なサイズのモデル間の協調的な相互作用によって実現される新しい対話型連続学習(icl)フレームワークを提案する。 具体的には, ViT モデルを System1 として,マルチモーダル LLM を System2 として割り当てる。 メモリモジュールがクラス情報からタスクを推論し、Set2Set検索を強化するために、クラス知識タスクマルチヘッドアテンション(CKT-MHA)を提案する。 さらに,図形表現の強化によるSystem1のメモリ検索を改善するために,von Mises-Fisher(vMF)分布に基づくCL-vMF機構を導入する。 一方,von Mises-Fisher Outlier Detection and Interaction (vMF-ODI) 戦略を導入し,複雑な推論実現のためのSystem1とSystem2の連携を強化する。 提案したICLの包括的評価は,既存の手法と比較して,忘れられ,優れた性能を示す。

Advanced life forms, sustained by the synergistic interaction of neural cognitive mechanisms, continually acquire and transfer knowledge throughout their lifespan. In contrast, contemporary machine learning paradigms exhibit limitations in emulating the facets of continual learning (CL). Nonetheless, the emergence of large language models (LLMs) presents promising avenues for realizing CL via interactions with these models. Drawing on Complementary Learning System theory, this paper presents a novel Interactive Continual Learning (ICL) framework, enabled by collaborative interactions among models of various sizes. Specifically, we assign the ViT model as System1 and multimodal LLM as System2. To enable the memory module to deduce tasks from class information and enhance Set2Set retrieval, we propose the Class-Knowledge-Task Multi-Head Attention (CKT-MHA). Additionally, to improve memory retrieval in System1 through enhanced geometric representation, we introduce the CL-vMF mechanism, based on the von Mises-Fisher (vMF) distribution. Meanwhile, we introduce the von Mises-Fisher Outlier Detection and Interaction (vMF-ODI) strategy to identify hard examples, thus enhancing collaboration between System1 and System2 for complex reasoning realization. Comprehensive evaluation of our proposed ICL demonstrates significant resistance to forgetting and superior performance relative to existing methods.
翻訳日:2024-03-06 16:19:34 公開日:2024-03-05
# モデリングコラボレータ:LLMツールを用いた最小人力による主観的視覚分類の実現

Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use ( http://arxiv.org/abs/2403.02626v1 )

ライセンス: Link先を確認
Imad Eddine Toubal, Aditya Avinash, Neil Gordon Alldrin, Jan Dlabal, Wenlei Zhou, Enming Luo, Otilia Stretcu, Hao Xiong, Chun-Ta Lu, Howard Zhou, Ranjay Krishna, Ariel Fuxman, Tom Duerig(参考訳) コンテンツモデレーションから野生生物保護まで、ニュアンスや主観的な視覚概念を認識するためにモデルを必要とするアプリケーションの数は増えている。 伝統的に、このような概念のための分類器の開発には、トレーニングに必要なデータを識別し注釈付けするために、時間、日、あるいは数ヶ月単位で測定するかなりの手作業が必要になる。 イメージ分類器の迅速なブートストラップを可能にするAgile Modelingテクニックが最近提案されているが、ユーザーは単一の分類器をトレーニングするためにのみ、単調で反復的なデータラベルに30分以上費やす必要がある。 FiskeのCognitive Miser理論に基づいて、人間のラベリングを自然言語の相互作用に置き換え、概念を桁違いに定義するのに要する労力を削減し、2000枚の画像をラベル付けすることから、わずか100枚以上の自然言語の相互作用まで、手作業による作業を軽減する新しいフレームワークを提案する。 我々のフレームワークは、大規模言語モデルと視覚言語モデルの両方の基盤モデルの最近の進歩を活用し、会話や学習データポイントの自動ラベル付けによって概念空間を彫り出す。 最も重要なことは、私たちのフレームワークがクラウドソースアノテーションを不要にすることです。 さらに、当社のフレームワークは最終的に、コストに敏感なシナリオでデプロイ可能な軽量な分類モデルを生成します。 15の主観的概念と2つのパブリックイメージ分類データセットにまたがって、トレーニングされたモデルは、従来のアジャイルモデリング、ALIGN、CLIP、CuPLといった最先端のゼロショット分類モデル、PaLI-Xのような大規模な視覚的質問応答モデルよりも優れています。

From content moderation to wildlife conservation, the number of applications that require models to recognize nuanced or subjective visual concepts is growing. Traditionally, developing classifiers for such concepts requires substantial manual effort measured in hours, days, or even months to identify and annotate data needed for training. Even with recently proposed Agile Modeling techniques, which enable rapid bootstrapping of image classifiers, users are still required to spend 30 minutes or more of monotonous, repetitive data labeling just to train a single classifier. Drawing on Fiske's Cognitive Miser theory, we propose a new framework that alleviates manual effort by replacing human labeling with natural language interactions, reducing the total effort required to define a concept by an order of magnitude: from labeling 2,000 images to only 100 plus some natural language interactions. Our framework leverages recent advances in foundation models, both large language models and vision-language models, to carve out the concept space through conversation and by automatically labeling training data points. Most importantly, our framework eliminates the need for crowd-sourced annotations. Moreover, our framework ultimately produces lightweight classification models that are deployable in cost-sensitive scenarios. Across 15 subjective concepts and across 2 public image classification datasets, our trained models outperform traditional Agile Modeling as well as state-of-the-art zero-shot classification models like ALIGN, CLIP, CuPL, and large visual question-answering models like PaLI-X.
翻訳日:2024-03-06 16:19:11 公開日:2024-03-05
# 短期的および長期的治療効果のパレート最適推定と政策学習

Pareto-Optimal Estimation and Policy Learning on Short-term and Long-term Treatment Effects ( http://arxiv.org/abs/2403.02624v1 )

ライセンス: Link先を確認
Yingrong Wang, Anpeng Wu, Haoxuan Li, Weiming Liu, Qiaowei Miao, Ruoxuan Xiong, Fei Wu, Kun Kuang(参考訳) 本稿では,短期効果と長期効果の両方から得られる報酬を最大化する最も効果的な治療法を見極めるために,パレート最適推定法と政策学習法の開発に焦点をあてる。 例えば、薬の高用量では患者の回復速度(短期)が上昇するが、重度の長期的副作用を引き起こすこともある。 近年の研究では短期的あるいは長期的効果に関する問題やその両方について検討されているが、最適な治療を達成するためのトレードオフの方法がいまだに未解決の課題である。 さらに、従来の因果表現学習を用いて複数の目的を直接推定する場合、様々なタスク間の最適化方向も矛盾する可能性がある。 本稿では,これらの課題を体系的に検討し,パレートオプティカル推定(poe)とパレートオプティカルポリシー学習(popl)を組み合わせたパレート効率の高いアルゴリズムを提案する。 POEは、表現バランシングと複数のタスクにおける推定効率の向上を備えた連続的なParetoモジュールを組み込んでいる。 POPLについては、様々な治療レベルに関連する短期および長期の成果を導き出し、これらの結果から生じるパレートフロンティアの探索を促進する。 合成データと実世界のデータの両方の結果から,本手法の優越性が示された。

This paper focuses on developing Pareto-optimal estimation and policy learning to identify the most effective treatment that maximizes the total reward from both short-term and long-term effects, which might conflict with each other. For example, a higher dosage of medication might increase the speed of a patient's recovery (short-term) but could also result in severe long-term side effects. Although recent works have investigated the problems about short-term or long-term effects or the both, how to trade-off between them to achieve optimal treatment remains an open challenge. Moreover, when multiple objectives are directly estimated using conventional causal representation learning, the optimization directions among various tasks can conflict as well. In this paper, we systematically investigate these issues and introduce a Pareto-Efficient algorithm, comprising Pareto-Optimal Estimation (POE) and Pareto-Optimal Policy Learning (POPL), to tackle them. POE incorporates a continuous Pareto module with representation balancing, enhancing estimation efficiency across multiple tasks. As for POPL, it involves deriving short-term and long-term outcomes linked with various treatment levels, facilitating an exploration of the Pareto frontier emanating from these outcomes. Results on both the synthetic and real-world datasets demonstrate the superiority of our method.
翻訳日:2024-03-06 16:18:41 公開日:2024-03-05
# 自動運転のための世界モデル:最初の調査

World Models for Autonomous Driving: An Initial Survey ( http://arxiv.org/abs/2403.02622v1 )

ライセンス: Link先を確認
Yanchen Guan, Haicheng Liao, Zhenning Li, Guohui Zhang, Chengzhong Xu(参考訳) 自動運転の急速に発展する状況において、将来の出来事を正確に予測し、その影響を評価する能力は、安全性と効率の両方において最重要であり、意思決定プロセスにおいて重要な役割を果たす。 世界モデルは変革的なアプローチとして現れており、自律運転システムは大量のセンサーデータを合成し、解釈し、将来のシナリオを予測し、情報ギャップを補うことができる。 本稿では,自律運転における世界モデルの現状と今後の発展について,その理論的基盤,実践的応用,および既存の限界を克服するための継続的な研究成果を概説する。 自動運転技術の進歩における世界モデルの役割を強調するこの調査は、研究コミュニティの基盤的基準となり、この急成長する分野への迅速なアクセスと理解を促進し、継続的なイノベーションと探索を刺激することを目指している。

In the rapidly evolving landscape of autonomous driving, the capability to accurately predict future events and assess their implications is paramount for both safety and efficiency, critically aiding the decision-making process. World models have emerged as a transformative approach, enabling autonomous driving systems to synthesize and interpret vast amounts of sensor data, thereby predicting potential future scenarios and compensating for information gaps. This paper provides an initial review of the current state and prospective advancements of world models in autonomous driving, spanning their theoretical underpinnings, practical applications, and the ongoing research efforts aimed at overcoming existing limitations. Highlighting the significant role of world models in advancing autonomous driving technologies, this survey aspires to serve as a foundational reference for the research community, facilitating swift access to and comprehension of this burgeoning field, and inspiring continued innovation and exploration.
翻訳日:2024-03-06 16:18:18 公開日:2024-03-05
# エッジでの機械学習モデルのトレーニング:調査

Training Machine Learning models at the Edge: A Survey ( http://arxiv.org/abs/2403.02619v1 )

ライセンス: Link先を確認
Aymen Rayane Khouas, Mohamed Reda Bouadjenek, Hakim Hacid, and Sunil Aryal(参考訳) エッジコンピューティング(ec)は近年大きな注目を集めており、エッジに人工知能(ai)機能を統合することで効率性を高めている。 主にエッジにおける機械学習(ML)モデルのデプロイメントと推論に重点を置いているが、トレーニングの側面はいまだ検討されていない。 この調査は、エッジでのMLモデルのトレーニングを最適化するエッジラーニング(EL)に重点を置いている。 目的は、ELにおける多様なアプローチや方法論を包括的に探求し、既存の知識を合成し、課題を特定し、将来の動向を明らかにすることである。 scopusの高度な探索を利用してelに関する関連文献を同定し,分散学習手法,特に連合学習 (fl) における研究努力の集中を明らかにした。 この調査はさらに、エッジ学習のためにMLを最適化するために使用されるテクニックを比較するためのガイドラインと、ELで利用可能なさまざまなフレームワーク、ライブラリ、シミュレーションツールの探索を提供する。 そこで本研究では,エッジコンピューティングと機械学習の交点における現状と今後の方向性の総合的な理解に寄与し,最適化手法とエッジ学習用に設計された手法とのインフォメーション比較を行う。

Edge Computing (EC) has gained significant traction in recent years, promising enhanced efficiency by integrating Artificial Intelligence (AI) capabilities at the edge. While the focus has primarily been on the deployment and inference of Machine Learning (ML) models at the edge, the training aspect remains less explored. This survey delves into Edge Learning (EL), specifically the optimization of ML model training at the edge. The objective is to comprehensively explore diverse approaches and methodologies in EL, synthesize existing knowledge, identify challenges, and highlight future trends. Utilizing Scopus' advanced search, relevant literature on EL was identified, revealing a concentration of research efforts in distributed learning methods, particularly Federated Learning (FL). This survey further provides a guideline for comparing techniques used to optimize ML for edge learning, along with an exploration of different frameworks, libraries, and simulation tools available for EL. In doing so, the paper contributes to a holistic understanding of the current landscape and future directions in the intersection of edge computing and machine learning, paving the way for informed comparisons between optimization methods and techniques designed for edge learning.
翻訳日:2024-03-06 16:18:02 公開日:2024-03-05
# 産業用サイバー物理システムの細粒度適応異常診断のための教師なし時空間状態推定

Unsupervised Spatio-Temporal State Estimation for Fine-grained Adaptive Anomaly Diagnosis of Industrial Cyber-physical Systems ( http://arxiv.org/abs/2403.02616v1 )

ライセンス: Link先を確認
Haili Sun, Yan Huang, Lansheng Han, Cai Fu, Chunjie Zhou(参考訳) 多変量時系列(MTS)からのネットワーク攻撃などの異常行動の正確な検出と診断は、産業用サイバー物理システム(CPS)の安定かつ効果的な運用を保証するために重要である。 しかし、既存の研究はシステム作業状態間の論理的依存関係にほとんど注意を払わず、異常信号の進化機構を説明するのに困難である。 産業用CPSの作業状態の時空間関係と進化機構を明らかにするために,MTSの異常を識別・診断するための微粒化適応型異常診断法(MAD-Transformer)を提案する。 MAD-Transformerはまず時間状態行列を構築し、時間次元におけるシステム状態の変化パターンを特徴づけ、推定する。 そして、異常をよりよく特定するために、システム内のセンサ間状態相関関係を捉えるために、空間状態行列も構築される。 その後、これらの2種類の状態行列に基づいて、直列時空間アテンションモジュールの3分岐構造は、MSS間の時系列、時間、空間依存性を同時に捉えるように設計されている。 その後、3つのアライメント損失関数とレコンストラクション損失関数を併用してモデルを最適化する。 最後に、残差行列と元の行列を比較して異常を判定し、診断する。 我々は,3つのアプリケーションドメイン(サービス監視,空間・地球探査,水処理)にまたがる5つの公開データセットと,石油精製シミュレーションデータセットの比較実験を行った。 その結果,MAD-Transformerは短時間で微粒な異常を適応的に検出でき,ノイズの堅牢性や局所化性能の点で最先端のベースラインを上回っていることがわかった。

Accurate detection and diagnosis of abnormal behaviors such as network attacks from multivariate time series (MTS) are crucial for ensuring the stable and effective operation of industrial cyber-physical systems (CPS). However, existing researches pay little attention to the logical dependencies among system working states, and have difficulties in explaining the evolution mechanisms of abnormal signals. To reveal the spatio-temporal association relationships and evolution mechanisms of the working states of industrial CPS, this paper proposes a fine-grained adaptive anomaly diagnosis method (i.e. MAD-Transformer) to identify and diagnose anomalies in MTS. MAD-Transformer first constructs a temporal state matrix to characterize and estimate the change patterns of the system states in the temporal dimension. Then, to better locate the anomalies, a spatial state matrix is also constructed to capture the inter-sensor state correlation relationships within the system. Subsequently, based on these two types of state matrices, a three-branch structure of series-temporal-spatial attention module is designed to simultaneously capture the series, temporal, and space dependencies among MTS. Afterwards, three associated alignment loss functions and a reconstruction loss are constructed to jointly optimize the model. Finally, anomalies are determined and diagnosed by comparing the residual matrices with the original matrices. We conducted comparative experiments on five publicly datasets spanning three application domains (service monitoring, spatial and earth exploration, and water treatment), along with a petroleum refining simulation dataset collected by ourselves. The results demonstrate that MAD-Transformer can adaptively detect fine-grained anomalies with short duration, and outperforms the state-of-the-art baselines in terms of noise robustness and localization performance.
翻訳日:2024-03-06 16:17:41 公開日:2024-03-05
# 構成関係推論における大規模言語モデルの限界を探る

Exploring the Limitations of Large Language Models in Compositional Relation Reasoning ( http://arxiv.org/abs/2403.02615v1 )

ライセンス: Link先を確認
Jinman Zhao, Xueyan Zhang(参考訳) 本稿では,大言語モデル(llms)による構成関係を推論する能力の包括的評価について,位置関係,比較,個人的,数学的,アイデンティティ,その他6種類の異なる構成関係をカバーするように設計された,1500のテストケースを包含するベンチマークを用いて述べる。 多言語能力の重要性を認め,これらの症例の中国語,日本語,フランス語,韓国語への翻訳を含むように評価を拡大した。 我々のMCR(Multilingual composition Relation)ベンチマークは,多言語文脈における構成関係推論におけるLLMの堅牢性と適応性について検討することを目的としている。

We present a comprehensive evaluation of large language models(LLMs)' ability to reason about composition relations through a benchmark encompassing 1,500 test cases in English, designed to cover six distinct types of composition relations: Positional, Comparative, Personal, Mathematical, Identity, and Other. Acknowledging the significance of multilingual capabilities, we expanded our assessment to include translations of these cases into Chinese, Japanese, French, and Korean. Our Multilingual Composition Relation (MCR) benchmark aims at investigating the robustness and adaptability of LLMs in handling composition relation reasoning across diverse linguistic contexts.
翻訳日:2024-03-06 16:17:10 公開日:2024-03-05
# 単一光子量子ウォークによるオンデマンド確率分布を持つ真の量子乱数の生成

Generation of True Quantum Random Numbers with On-Demand Probability Distributions via Single-Photon Quantum Walks ( http://arxiv.org/abs/2403.02614v1 )

ライセンス: Link先を確認
Chaoying Meng, Miao Cai, Yufang Yang, Haodong Wu, Zhixiang Li, Yaping Ruan, Yong Zhang, Han Zhang, Keyu Xia, Franco Nori(参考訳) ランダム数は、確率過程のシミュレーションから古典的および量子暗号まで、様々な分野の中心にある。 これらの応用における真のランダム性の必要性は、量子システムの固有ランダム性に基づいて乱数を生成するための様々な提案を動機付けた。 任意に定義された確率分布を持つ真の乱数の生成は、アプリケーションにとって非常に望ましいが、非常に難しい。 ここでは,1光子量子ウォークが,勾配降下(GD)アルゴリズムで所要の `coin'' パラメータが見つかると,オンデマンド確率分布を持つ多ビット乱数を生成することを示す。 理論的および実験的結果は, 種々の分布に対して高い忠実度を示す。 このGD強化単光子システムは、柔軟で信頼性の高い量子乱数生成器を構築するための便利な方法を提供する。 マルチビット乱数は高次元量子鍵分布に必要な資源である。

Random numbers are at the heart of diverse fields, ranging from simulations of stochastic processes to classical and quantum cryptography. The requirement for true randomness in these applications has motivated various proposals for generating random numbers based on the inherent randomness of quantum systems. The generation of true random numbers with arbitrarily defined probability distributions is highly desirable for applications, but it is very challenging. Here we show that single-photon quantum walks can generate multi-bit random numbers with on-demand probability distributions, when the required ``coin'' parameters are found with the gradient descent (GD) algorithm. Our theoretical and experimental results exhibit high fidelity for various selected distributions. This GD-enhanced single-photon system provides a convenient way for building flexible and reliable quantum random number generators. Multi-bit random numbers are a necessary resource for high-dimensional quantum key distribution.
翻訳日:2024-03-06 16:16:57 公開日:2024-03-05
# 大規模言語モデルとビデオゲーム:予備的なスコーピングのレビュー

Large Language Models and Video Games: A Preliminary Scoping Review ( http://arxiv.org/abs/2403.02613v1 )

ライセンス: Link先を確認
Penny Sweetser(参考訳) 大型言語モデル(LLM)は、ビデオゲームの設計、開発、研究に興味深い可能性を秘めている。 ゲームにおける生成AIに関するこれまでの研究に基づいて、多くの研究者が、ゲームにおけるLLMのパワーとポテンシャルについて調査している。 ゲームにおけるLSM関連の研究が最近急増していることを考えると、すでに調査すべき研究がたくさんある。 ゲームにおけるLLM研究の現状のスナップショットを取得し,今後の研究基盤の整備を支援するため,これまでに出版された関連論文のスコーピングレビューを行った。 本稿では,2022年から2024年初頭にかけて,ゲームai,ゲーム開発,物語,ゲーム研究,レビューといった分野を中心に,llmとビデオゲームに関する76の論文をレビューする。 本稿では,この分野の初期段階と今後の研究とレビューの土台を提示する。

Large language models (LLMs) hold interesting potential for the design, development, and research of video games. Building on the decades of prior research on generative AI in games, many researchers have sped to investigate the power and potential of LLMs for games. Given the recent spike in LLM-related research in games, there is already a wealth of relevant research to survey. In order to capture a snapshot of the state of LLM research in games, and to help lay the foundation for future work, we carried out an initial scoping review of relevant papers published so far. In this paper, we review 76 papers published between 2022 to early 2024 on LLMs and video games, with key focus areas in game AI, game development, narrative, and game research and reviews. Our paper provides an early state of the field and lays the groundwork for future research and reviews on this topic.
翻訳日:2024-03-06 16:16:43 公開日:2024-03-05
# マルチピラミド変換器とコントラスト学習を用いた顕微鏡デフォーカスデブロの統一化

A Unified Framework for Microscopy Defocus Deblur with Multi-Pyramid Transformer and Contrastive Learning ( http://arxiv.org/abs/2403.02611v1 )

ライセンス: Link先を確認
Yuelin Zhang, Pengyu Zheng, Wanquan Yan, Chengyu Fang, Shing Shin Cheng(参考訳) Defocus blurは顕微鏡画像における永続的な問題であり、細胞顕微鏡および顕微鏡手術における病理解釈と医療介入に害を与える。 この問題に対処するため,マルチピラミドトランス (MPT) と拡張周波数コントラスト正規化 (EFCR) を含む統合フレームワークを提案し,顕微鏡デブロアにおける2つの課題に対処する。 MPTは、ネットワークの各段階で明示的なピラミッド構造を採用しており、長距離の空間的相互作用とグローバルなチャネルコンテキストを捉えるために、CSWA、ISCA、FEFNといった機能強化フィードフォワードネットワークを統合している。 EFCRは、周波数帯域の異なる遅延デブレ信号を探索することで、特徴不足問題に対処する。 また、余分なデータからクロスドメイン情報を学ぶためのデブラル知識転送を可能にし、ラベル付きおよびラベルなしデータのデブラル性能を向上させる。 広範な実験とダウンストリームタスク検証によって、フレームワークは複数のデータセットにわたって最先端のパフォーマンスを達成している。 プロジェクトページ: https://github.com/PieceZhang/MPT-CataBlur.com

Defocus blur is a persistent problem in microscope imaging that poses harm to pathology interpretation and medical intervention in cell microscopy and microscope surgery. To address this problem, a unified framework including multi-pyramid transformer (MPT) and extended frequency contrastive regularization (EFCR) is proposed to tackle two outstanding challenges in microscopy deblur: longer attention span and feature deficiency. The MPT employs an explicit pyramid structure at each network stage that integrates the cross-scale window attention (CSWA), the intra-scale channel attention (ISCA), and the feature-enhancing feed-forward network (FEFN) to capture long-range cross-scale spatial interaction and global channel context. The EFCR addresses the feature deficiency problem by exploring latent deblur signals from different frequency bands. It also enables deblur knowledge transfer to learn cross-domain information from extra data, improving deblur performance for labeled and unlabeled data. Extensive experiments and downstream task validation show the framework achieves state-of-the-art performance across multiple datasets. Project page: https://github.com/PieceZhang/MPT-CataBlur.
翻訳日:2024-03-06 16:16:29 公開日:2024-03-05
# ChatGPT4PCG 2コンペティション:サイエンスバードのレベルジェネレーションのためのプロンプトエンジニアリング

ChatGPT4PCG 2 Competition: Prompt Engineering for Science Birds Level Generation ( http://arxiv.org/abs/2403.02610v1 )

ライセンス: Link先を確認
Pittawat Taveekitworachai, Febri Abdullah, Mury F. Dewantoro, Yi Xia, Pratch Suntichaikul, Ruck Thawonmas, Julian Togelius, Jochen Renz(参考訳) 本稿では2024年のIEEE Conference on Gamesで第2回ChatGPT4PCGコンテストを開催する。 コンペティションのこのエディションでは、最初のエディションに従っていますが、いくつかの改善と変更を行います。 参加者の提出を柔軟にし、評価パイプラインにいくつかの改善を加えるとともに、新しい評価基準を導入する。 第1版から続き、手続き的コンテンツ生成(PCG)のためのプロンプトエンジニアリング(PE)の領域を育成し、探求することを目指している。 最初の競争は成功したが、様々な制限によって妨げられ、我々はこの版でこれらの制限を緩和することを目指していた。 繰り返し構造の生成を目的とした提出を阻止するための新しい指標として多様性を導入する。 さらに、条件やイテレーションを含む制御フローを必要とする高度なpeアプローチを実装する際の柔軟性を高めるため、プロンプトテキストファイルの代わりにpythonプログラムの提出を可能にする。 また,類似度評価のための分類器の改良と機能シグネチャの高性能化により,評価パイプラインを改良した。 我々は,新しい指標と改良された分類器の有効性を徹底的に評価した。 さらに、レベル生成のためのChatGPTを指示する関数シグネチャを選択するためのアブレーション研究を行う。 最後に,Pythonにおける各種PE手法の実装例を示し,その予備性能を評価する。 この競争が、PEとPCG全般について学ぶためのリソースとプラットフォームとして機能することを願っている。

This paper presents the second ChatGPT4PCG competition at the 2024 IEEE Conference on Games. In this edition of the competition, we follow the first edition, but make several improvements and changes. We introduce a new evaluation metric along with allowing a more flexible format for participants' submissions and making several improvements to the evaluation pipeline. Continuing from the first edition, we aim to foster and explore the realm of prompt engineering (PE) for procedural content generation (PCG). While the first competition saw success, it was hindered by various limitations; we aim to mitigate these limitations in this edition. We introduce diversity as a new metric to discourage submissions aimed at producing repetitive structures. Furthermore, we allow submission of a Python program instead of a prompt text file for greater flexibility in implementing advanced PE approaches, which may require control flow, including conditions and iterations. We also make several improvements to the evaluation pipeline with a better classifier for similarity evaluation and better-performing function signatures. We thoroughly evaluate the effectiveness of the new metric and the improved classifier. Additionally, we perform an ablation study to select a function signature to instruct ChatGPT for level generation. Finally, we provide implementation examples of various PE techniques in Python and evaluate their preliminary performance. We hope this competition serves as a resource and platform for learning about PE and PCG in general.
翻訳日:2024-03-06 16:16:07 公開日:2024-03-05
# g-evonas:ネットワーク成長に基づく進化的ニューラルアーキテクチャ探索

G-EvoNAS: Evolutionary Neural Architecture Search Based on Network Growth ( http://arxiv.org/abs/2403.02667v1 )

ライセンス: Link先を確認
Juan Zou, Weiwei Jiang, Yizhang Xia, Yuan Liu, Zhanglu Hou(参考訳) 進化的パラダイムは近年ニューラルネットワーク探索(nas)にうまく適用されている。 グローバルスペースの膨大な検索複雑さのため、現在の研究は主に、モデル全体を構築するために、または手動で設計されたベンチマークモジュールに基づいてモデル全体を求めるために、部分的なアーキテクチャを積み重ねることを模索している。 上記の2つの方法は,探索空間を狭めることで探索難度を下げる試みである。 本稿では,グローバル空間におけるネットワークアーキテクチャを効率的に探索するために,ネットワーク成長(G-EvoNAS)に基づく計算効率の高いニューラルネットワーク進化探索フレームワークを提案する。 完全なネットワークは、徐々に異なるブロックを深くすることで得られる。 プロセスは浅いネットワークから始まり、成長し進化し、徐々に完全なネットワークへと深まり、グローバル空間における検索の複雑さを減らします。 そして、ネットワークのランク付け精度を向上させるために、異なる成長段階のエリートグループに従ってスーパーネットを刈り取ることにより、スーパーネット内の各ネットワークの重み結合を低減する。 G-EvoNASはCIFAR10、CIFAR100、ImageNetの3つの画像分類データセットでテストされており、手書きのネットワークやNASネットワークを含む最先端のアルゴリズムと比較されている。 実験の結果、G-EvoNASは0.2GPU日で最先端の設計に匹敵するニューラルネットワークアーキテクチャを見出すことができた。

The evolutionary paradigm has been successfully applied to neural network search(NAS) in recent years. Due to the vast search complexity of the global space, current research mainly seeks to repeatedly stack partial architectures to build the entire model or to seek the entire model based on manually designed benchmark modules. The above two methods are attempts to reduce the search difficulty by narrowing the search space. To efficiently search network architecture in the global space, this paper proposes another solution, namely a computationally efficient neural architecture evolutionary search framework based on network growth (G-EvoNAS). The complete network is obtained by gradually deepening different Blocks. The process begins from a shallow network, grows and evolves, and gradually deepens into a complete network, reducing the search complexity in the global space. Then, to improve the ranking accuracy of the network, we reduce the weight coupling of each network in the SuperNet by pruning the SuperNet according to elite groups at different growth stages. The G-EvoNAS is tested on three commonly used image classification datasets, CIFAR10, CIFAR100, and ImageNet, and compared with various state-of-the-art algorithms, including hand-designed networks and NAS networks. Experimental results demonstrate that G-EvoNAS can find a neural network architecture comparable to state-of-the-art designs in 0.2 GPU days.
翻訳日:2024-03-06 16:11:12 公開日:2024-03-05
# シリコンスピン量子ビットにおける透過ノイズのパッシブおよびアクティブ抑制

Passive and active suppression of transduced noise in silicon spin qubits ( http://arxiv.org/abs/2403.02666v1 )

ライセンス: Link先を確認
Jaemin Park, Hyeongyu Jang, Hanseo Sohn, Jonginn Yun, Younguk Song, Byungwoo Kang, Lucas E. A. Stehouwer, Davide Degli Esposti, Giordano Scappucci, and Dohun Kim(参考訳) デコヒーレンスソースへの対処と緩和は、回路実行を通して低いゲートエラーを一貫して維持する必要があるスケーラブルな量子コンピューティングシステムの開発において重要な役割を果たす。 等方的に精製されたシリコンなどの核スピンフリー材料は、電子スピン量子ビットに対して本質的に有望なコヒーレンス特性を示すが、強磁場勾配の下で磁気ノイズに変換されると、データ取得時間に匹敵する時間枠内で安定な量子ビット動作を妨げてしまう。 ここでは、シリコンスピン量子ビットの伝達ノイズに対する開ループ抑制技術と閉ループ抑制技術の両方を実証し、強いデコヒーレンス場勾配があっても1量子ビットゲートの忠実度が99.6%を超える不均一コヒーレンス時間(ラビ振動品質)を2倍以上に改善した。 ゲートセットトモグラフィーを用いることで,適応的量子ビット制御によりシステム内の非マルコフノイズも低減され,ゲートの安定性が検証される。 この手法は複数のハミルトニアンパラメータの学習に使用することができ、回路パラメータの断続的な校正に役立ち、一般的な量子回路の繰り返し実行において有用なサブルーチンを提供する。

Addressing and mitigating decoherence sources plays an essential role in the development of a scalable quantum computing system, which requires low gate errors to be consistently maintained throughout the circuit execution. While nuclear spin-free materials, such as isotopically purified silicon, exhibit intrinsically promising coherence properties for electron spin qubits, the omnipresent charge noise, when converted to magnetic noise under a strong magnetic field gradient, often hinders stable qubit operation within a time frame comparable to the data acquisition time. Here, we demonstrate both open- and closed-loop suppression techniques for the transduced noise in silicon spin qubits, resulting in a more than two-fold (ten-fold) improvement of the inhomogeneous coherence time (Rabi oscillation quality) that leads to a single-qubit gate fidelity of over 99.6% even in the presence of a strong decoherence field gradient. Utilizing gate set tomography, we show that adaptive qubit control also reduces the non-Markovian noise in the system, which validates the stability of the gate fidelity. The technique can be used to learn multiple Hamiltonian parameters and is useful for the intermittent calibration of the circuit parameters with affordable experimental overhead, providing a useful subroutine during the repeated execution of general quantum circuits.
翻訳日:2024-03-06 16:10:49 公開日:2024-03-05
# 私のガス料金を節約する方法:固形化プログラムにおける現実世界のガス問題を理解し、検出する

How to Save My Gas Fees: Understanding and Detecting Real-world Gas Issues in Solidity Programs ( http://arxiv.org/abs/2403.02661v1 )

ライセンス: Link先を確認
Mengting He, Shihao Xia, Boqin Qin, Nobuko Yoshida, Tingting Yu, Linhai Song, Yiying Zhang(参考訳) パブリックブロックチェーンシステムであるethereum上でのスマートコントラクトの実行は、計算とデータストアの消費に対してガス料金と呼ばれる料金を請求する。 プログラマがスマートコントラクト(例えばSolidityプログラミング言語)を開発すると、不要により多くのガス料金を引き起こすコードスニペットを無意識に書くことができる。 これらの問題、あるいは私たちがガス廃棄物と呼ぶものは、ユーザにとって大きな金銭的浪費につながる可能性がある。 しかし、それらを検出するための体系的な検査や効果的なツールは行われていない。 本稿では,イーサリアムユーザがガス料金を2つの重要なステップで削減することを支援する。我々は,その根本原因を理解して固形で書かれた一般的なスマートコントラクトのガス廃棄物について,最初の実証研究を行い,その研究結果に基づいて,ガス廃棄物を効果的に検出するための静的ツールであるpecatchを開発した。 全体としては,将来的なツール開発,言語改善,プログラマの意識を高めるためのガス汚泥調査から7つの知見と4つの提案を導き,また,有名なSolidityライブラリの383のガス廃棄物を指摘できる8つのガス汚泥チェッカーを開発した。

The execution of smart contracts on Ethereum, a public blockchain system, incurs a fee called gas fee for its computation and data-store consumption. When programmers develop smart contracts (e.g., in the Solidity programming language), they could unknowingly write code snippets that unnecessarily cause more gas fees. These issues, or what we call gas wastes, could lead to significant monetary waste for users. Yet, there have been no systematic examination of them or effective tools for detecting them. This paper takes the initiative in helping Ethereum users reduce their gas fees in two important steps: we conduct the first empirical study on gas wastes in popular smart contracts written in Solidity by understanding their root causes and fixing strategies; we then develop a static tool, PeCatch, to effectively detect gas wastes with simple fixes in Solidity programs based on our study findings. Overall, we make seven insights and four suggestions from our gas-waste study, which could foster future tool development, language improvement, and programmer awareness, and develop eight gas-waste checkers, which pinpoint 383 previously unknown gas wastes from famous Solidity libraries.
翻訳日:2024-03-06 16:10:23 公開日:2024-03-05
# 量子アドバンテージ:古典的なデータストレージにおける単一Qubitの実験エッジ

Quantum Advantage: A Single Qubit's Experimental Edge in Classical Data Storage ( http://arxiv.org/abs/2403.02659v1 )

ライセンス: Link先を確認
Chen Ding, Edwin Peter Lobo, Mir Alimuddin, Xiao-Yue Xu, Shuo Zhang, Manik Banik, Wan-Su Bao, He-Liang Huang(参考訳) 古典的情報保存における基本量子システムの有効性を立証するフォトニック量子プロセッサの実験を行う。 この利点は、通信資源 qubit と古典ビット (c-bit) でそれぞれプレイする単純な二部ゲームの種類を考えることで確立される。 Holevo と Frenkel-Weiner の no-go 定理によって説明されるように、従来の知恵は、送信者と受信者がそれらの間の共有ランダム性または古典的相関を持つシナリオではそのような量子的優位性は達成できないことを示唆している。 特に,参加選手が任意の形態のランダム性に欠けるシナリオにおいて,報告する利点が示される。 実験では,変動三角偏光計の開発を行い,対象とする量子優位性の確立に必須な正の演算子値測定を実現する。 単一量子ビットの堅牢な通信優位性を示すことに加えて、我々の実験は、短期量子技術における即時応用への道を開く。 さらに、量子符号化復号装置のための半デバイス非依存の非古典性証明スキームを構成しており、我々の研究の直接的な技術応用を超えて幅広い意味合いを裏付けている。

We implement an experiment on a photonic quantum processor establishing efficacy of an elementary quantum system in classical information storage. The advantage is established by considering a class of simple bipartite games played with the communication resource qubit and classical bit (c-bit), respectively. Conventional wisdom, as articulated by the no-go theorems of Holevo and Frenkel-Weiner, suggests that such a quantum advantage is unattainable in scenarios wherein sender and receiver possess shared randomness or classical correlation between them. Notably, the advantage we report is demonstrated in a scenario where participating players lack any form of shared randomness. Our experiment involves the development of a variational triangular polarimeter, enabling the realization of positive operator value measurements crucial for establishing the targeted quantum advantage. In addition to demonstrating a robust communication advantage of a single qubit our experiment also opens avenues for immediate applications in near-term quantum technologies. Furthermore, it constitutes a semi-device-independent non-classicality certification scheme for the quantum encoding-decoding apparatus, underscoring the broader implications of our work beyond its immediate technological applications.
翻訳日:2024-03-06 16:09:59 公開日:2024-03-05
# 計測専用クライアントを用いた捕捉イオン型検証可能なブラインド量子コンピューティングのハードウェア要件

Hardware requirements for trapped-ion based verifiable blind quantum computing with a measurement-only client ( http://arxiv.org/abs/2403.02656v1 )

ライセンス: Link先を確認
Janice van Dam, Guus Avis, Tzula B Propp, Francisco Ferreira da Silva, Joshua A Slater, Tracy E Northup, Stephanie Wehner(参考訳) ブラインド量子コンピューティングでは、単純なクライアントデバイスを持つユーザは、サーバが計算に関する知識を得ることができないように、リモート量子サーバ上で量子計算を行うことができる。 本稿では,イオントラップをサーバとして,遠隔測定のみのクライアントとして,検証可能なブラインド量子コンピューティングのハードウェア要件を数値的に検討する。 クライアントは量子コンピューティングリソースに直接アクセスしないが、捕捉されたイオンによって放出される光子を測定することで、リモートでサーバ上で量子プログラムを実行することができる。 本稿では,量子ネットワーク用離散イベントシミュレータNetSquidにおけるトラップイオン量子デバイスの数値モデルを提案する。 これを用いて、検証可能なブラインド量子コンピューティングプロトコルを実行するために、パラメータ毎の最小ハードウェア要件を決定する。 クライアントとサーバを50km間隔で分離する単一キュービット回転が可能である5キュービット線形グラフ状態をベンチマークする。 現在のイオントラップは、パラメータ毎の最小要件を満たしているが、現在の不完全性が組み合わさることで、既存の技術を使って50km以上のブラインド計算を安全に実行することは不可能である。 遺伝的アルゴリズムを用いて、必要な総改善を最小化するハードウェアパラメータのセットを決定し、ハードウェアがしきい値のエラー確率に達する方向を見つけ、実験的な実証を可能にする。 このようにして、50kmの距離で検証可能なブラインド量子コンピューティングの実装を実現するために必要な、短期的な実験的進歩の道を開く。

In blind quantum computing, a user with a simple client device can perform a quantum computation on a remote quantum server such that the server cannot gain knowledge about the computation. Here, we numerically investigate hardware requirements for verifiable blind quantum computing using an ion trap as server and a distant measurement-only client. While the client has no direct access to quantum-computing resources, it can remotely execute quantum programs on the server by measuring photons emitted by the trapped ion. We introduce a numerical model for trapped-ion quantum devices in NetSquid, a discrete-event simulator for quantum networks. Using this, we determine the minimal hardware requirements on a per-parameter basis to perform the verifiable blind quantum computing protocol. We benchmark these for a five-qubit linear graph state, with which any single-qubit rotation can be performed, where client and server are separated by 50 km. Current state-of-the-art ion traps satisfy the minimal requirements on a per-parameter basis, but all current imperfections combined make it impossible to perform the blind computation securely over 50 km using existing technology. Using a genetic algorithm, we determine the set of hardware parameters that minimises the total improvements required, finding directions along which to improve hardware to reach our threshold error probability that would enable experimental demonstration. In this way, we lay a path for the near-term experimental progress required to realise the implementation of verifiable blind quantum computing over a 50 km distance.
翻訳日:2024-03-06 16:09:37 公開日:2024-03-05
# AlloyInEcore: 自動モデル推論のためのメタオブジェクト施設への一階関係論理の埋め込み

AlloyInEcore: Embedding of First-Order Relational Logic into Meta-Object Facility for Automated Model Reasoning ( http://arxiv.org/abs/2403.02652v1 )

ライセンス: Link先を確認
Ferhat Erata, Arda Goknil, Ivan Kurtev, Bedir Tekinerdogan(参考訳) AlloyInEcoreは静的なセマンティクスでメタモデルを指定するツールで、モデルの自動的形式推論を容易にする。 ソフトウェア開発プロジェクトでは,ソフトウェアシステムをさまざまなモデル(要件モデル,アーキテクチャモデル,テストモデル,ソースコードなど)で指定する必要がある。 正しいシステム仕様と完全なシステム仕様を保証するために、これらのモデルを推論することが重要です。 AlloyInEcoreを使うと、静的なセマンティクスでメタモデルを指定することができ、セマンティクスを使って自動的に一貫性のないモデルを検出し、部分的なモデルを完成させる。 自動車分野における3つの産業ケーススタディで評価されている(https://modelwriter.github.io/alloyinecore/)。

We present AlloyInEcore, a tool for specifying metamodels with their static semantics to facilitate automated, formal reasoning on models. Software development projects require that software systems be specified in various models (e.g., requirements models, architecture models, test models, and source code). It is crucial to reason about those models to ensure the correct and complete system specifications. AlloyInEcore allows the user to specify metamodels with their static semantics, while, using the semantics, it automatically detects inconsistent models, and completes partial models. It has been evaluated on three industrial case studies in the automotive domain (https://modelwriter.github.io/AlloyInEcore/).
翻訳日:2024-03-06 16:09:12 公開日:2024-03-05
# ワイヤレスのスピードで学ぶ:nextgにおけるai対応mimoのオンラインリアルタイム学習

Learning at the Speed of Wireless: Online Real-Time Learning for AI-Enabled MIMO in NextG ( http://arxiv.org/abs/2403.02651v1 )

ライセンス: Link先を確認
Jiarui Xu, Shashank Jere, Yifei Song, Yi-Hung Kao, Lizhong Zheng, and Lingjia Liu(参考訳) 人工知能(AI)と機械学習(ML)を空気インターフェースに統合することは、次世代(NextG)セルネットワークの重要な技術として想定されている。 空気インターフェースでは、マルチインプット・マルチアウトプット(MIMO)とマルチユーザMIMO(MU-MIMO)や大規模/フルディメンジョンMIMO(MIMO)が、複雑化と設計の難しさを生かした一連のセルネットワークにおいて重要な実現要因となっている。 AI/MLツールを活用してMIMOの課題に対処するための積極的な調査を開始することは、AI対応のNextGエアインターフェースへの重要なステップとなる。 NextGのエアインターフェースでは、MU-MIMOスケジューリングやランク/リンク適応といったMIMO操作によって、サブミリ秒単位の動作適応によって、基礎となる無線環境が極めてダイナミックになる。 膨大な数の運用適応可能性を考えると、オンラインリアルタイムAI/MLベースのアプローチは有望なパラダイムである、と私たちは主張する。 この目的のために、我々は本質的な課題を概説し、MIMO操作のためのオンラインリアルタイムAI/MLベースのソリューションの設計に関する洞察を提供する。 その後、MIMO-OFDMチャネル推定のためのオンラインリアルタイムAI/MLベースの方法が提示され、NextGの様々なMIMO操作にまたがる同様の技術を開発するための潜在的なロードマップとして機能する。

Integration of artificial intelligence (AI) and machine learning (ML) into the air interface has been envisioned as a key technology for next-generation (NextG) cellular networks. At the air interface, multiple-input multiple-output (MIMO) and its variants such as multi-user MIMO (MU-MIMO) and massive/full-dimension MIMO have been key enablers across successive generations of cellular networks with evolving complexity and design challenges. Initiating active investigation into leveraging AI/ML tools to address these challenges for MIMO becomes a critical step towards an AI-enabled NextG air interface. At the NextG air interface, the underlying wireless environment will be extremely dynamic with operation adaptations performed on a sub-millisecond basis by MIMO operations such as MU-MIMO scheduling and rank/link adaptation. Given the enormously large number of operation adaptation possibilities, we contend that online real-time AI/ML-based approaches constitute a promising paradigm. To this end, we outline the inherent challenges and offer insights into the design of such online real-time AI/ML-based solutions for MIMO operations. An online real-time AI/ML-based method for MIMO-OFDM channel estimation is then presented, serving as a potential roadmap for developing similar techniques across various MIMO operations in NextG.
翻訳日:2024-03-06 16:08:59 公開日:2024-03-05
# 拡散時間ステップによる学習者のパラメータ化

Few-shot Learner Parameterization by Diffusion Time-steps ( http://arxiv.org/abs/2403.02649v1 )

ライセンス: Link先を確認
Zhongqi Yue, Pan Zhou, Richang Hong, Hanwang Zhang, Qianru Sun(参考訳) 大規模なマルチモーダルファウンデーションモデルを使用しても、ほとんどショット学習は難しい - もし適切な帰納的バイアスがなければ、クラスラベルと突発的に相関する視覚的に顕著な属性を取り除きながら、ニュアンスされたクラス属性を保持することはほとんど不可能である。 この目的のために、拡散モデル(dm)の時間ステップがニュアンスクラス属性を分離できるインダクティブバイアス、すなわち、前方拡散が各時間ステップで画像にノイズを付加するので、ニュアンス属性は通常、視覚的に顕著であるスプリアス属性よりも早い時間ステップで失われる。 そこで本研究では,TiF(Time-step Few-shot)学習者を提案する。 テキストコンディションdm用のクラス固有の低ランクアダプタをトレーニングし、失われた属性を補い、プロンプトによって画像がノイズの多いものから正確に再構築できるようにします。 したがって、小さな時間ステップでは、アダプタとプロンプトは基本的に、nuancedクラス属性のみのパラメータ化である。 テスト画像では、パラメータ化を使用して、分類のためのニュアンスクラス属性のみを抽出できる。 TiF学習者は、OpenCLIPとそのアダプタを様々な細粒度でカスタマイズされた数発の学習タスクで大幅に上回っている。 コードはhttps://github.com/yue-zhongqi/tif。

Even when using large multi-modal foundation models, few-shot learning is still challenging -- if there is no proper inductive bias, it is nearly impossible to keep the nuanced class attributes while removing the visually prominent attributes that spuriously correlate with class labels. To this end, we find an inductive bias that the time-steps of a Diffusion Model (DM) can isolate the nuanced class attributes, i.e., as the forward diffusion adds noise to an image at each time-step, nuanced attributes are usually lost at an earlier time-step than the spurious attributes that are visually prominent. Building on this, we propose Time-step Few-shot (TiF) learner. We train class-specific low-rank adapters for a text-conditioned DM to make up for the lost attributes, such that images can be accurately reconstructed from their noisy ones given a prompt. Hence, at a small time-step, the adapter and prompt are essentially a parameterization of only the nuanced class attributes. For a test image, we can use the parameterization to only extract the nuanced class attributes for classification. TiF learner significantly outperforms OpenCLIP and its adapters on a variety of fine-grained and customized few-shot learning tasks. Codes are in https://github.com/yue-zhongqi/tif.
翻訳日:2024-03-06 16:08:33 公開日:2024-03-05
# Square Rootを廃止する - AdaGradの新しい効率的なスケール不変バージョン

Remove that Square Root: A New Efficient Scale-Invariant Version of AdaGrad ( http://arxiv.org/abs/2403.02648v1 )

ライセンス: Link先を確認
Sayantan Choudhury, Nazarii Tupitsa, Nicolas Loizou, Samuel Horvath, Martin Takac, Eduard Gorbunov(参考訳) 適応的手法は、学習率チューニングを安価にするため、機械学習で非常に人気がある。 本稿では、有名なAdaGradアルゴリズムのスケール不変適応を示すKATEという新しい最適化アルゴリズムを提案する。 一般化線形モデルの場合のKATEのスケール不変性を証明する。 さらに、一般の滑らかな非凸問題に対して、KATE に対して$O \left(\frac{\log T}{\sqrt{T}} \right)$の収束率を確立し、AdaGrad と Adam の最もよく知られた問題と一致する。 また,画像分類や実データ上のテキスト分類といった複雑な機械学習タスクを含む,さまざまな問題を伴う数値実験において,kateとadamとadagradを比較した。 結果は、KATEがAdaGradを一貫して上回り、すべての考慮されたシナリオでAdamのパフォーマンスにマッチ/オーバーパスしていることを示している。

Adaptive methods are extremely popular in machine learning as they make learning rate tuning less expensive. This paper introduces a novel optimization algorithm named KATE, which presents a scale-invariant adaptation of the well-known AdaGrad algorithm. We prove the scale-invariance of KATE for the case of Generalized Linear Models. Moreover, for general smooth non-convex problems, we establish a convergence rate of $O \left(\frac{\log T}{\sqrt{T}} \right)$ for KATE, matching the best-known ones for AdaGrad and Adam. We also compare KATE to other state-of-the-art adaptive algorithms Adam and AdaGrad in numerical experiments with different problems, including complex machine learning tasks like image classification and text classification on real data. The results indicate that KATE consistently outperforms AdaGrad and matches/surpasses the performance of Adam in all considered scenarios.
翻訳日:2024-03-06 16:08:10 公開日:2024-03-05
# finreport: ニュースファクタ分析モデルによる説明可能な決算予測

FinReport: Explainable Stock Earnings Forecasting via News Factor Analyzing Model ( http://arxiv.org/abs/2403.02647v1 )

ライセンス: Link先を確認
Xiangyu Li, Xinjie Shen, Yawen Zeng, Xiaofen Xing, Jin Xu(参考訳) 株価予測の課題は、現実のシナリオにおける投資家の需要により、かなり注目されている。 しかし、金融機関と比較して、一般投資家が要因を掘り下げてニュースを分析するのは容易ではない。 一方,金融分野の大規模言語モデルは対話ロボットという形でユーザに提供することができるが,適切な質問をするためには,財務知識が必要である。 ユーザエクスペリエンスを実現するために,一般投資家が情報を収集し,分析し,要約後にレポートを生成するための自動システムFinReportを構築することを目的とする。 具体的には、finreportは金融ニュースの発表と、レポートのプロフェッショナリズムを保証するための多要素モデルに基づいています。 finreportは、ニュースファクタライゼーションモジュール、リターン予測モジュール、リスク評価モジュールという3つのモジュールで構成されている。 ニュース情報を理解し、株価要因と組み合わせ、リターン予測モジュールは、市場感情に対するニュースの影響を分析することを目的としており、リスク評価モジュールは投資リスクを制御するために採用されている。 実世界のデータセットに関する広範囲な実験により,提案するfinreportの有効性と説明可能性が検証された。 私たちのコードとデータセットはhttps://github.com/frinkleko/finreportで利用可能です。

The task of stock earnings forecasting has received considerable attention due to the demand investors in real-world scenarios. However, compared with financial institutions, it is not easy for ordinary investors to mine factors and analyze news. On the other hand, although large language models in the financial field can serve users in the form of dialogue robots, it still requires users to have financial knowledge to ask reasonable questions. To serve the user experience, we aim to build an automatic system, FinReport, for ordinary investors to collect information, analyze it, and generate reports after summarizing. Specifically, our FinReport is based on financial news announcements and a multi-factor model to ensure the professionalism of the report. The FinReport consists of three modules: news factorization module, return forecasting module, risk assessment module. The news factorization module involves understanding news information and combining it with stock factors, the return forecasting module aim to analysis the impact of news on market sentiment, and the risk assessment module is adopted to control investment risk. Extensive experiments on real-world datasets have well verified the effectiveness and explainability of our proposed FinReport. Our codes and datasets are available at https://github.com/frinkleko/FinReport.
翻訳日:2024-03-06 16:07:52 公開日:2024-03-05
# 5g rfドメインにおけるジャミング検出のための空中ダブルスレッショルド深層学習器

Over-The-Air Double-Threshold Deep Learner for Jamming Detection in 5G RF domain ( http://arxiv.org/abs/2403.02645v1 )

ライセンス: Link先を確認
Ghazal Asemian, Mohammadreza Amini, Burak Kantarci, Melike Erol-Kantarci(参考訳) 5G無線通信の進化に伴い、同期信号ブロック(SSB)はデバイスの同期とサービスのアクセシビリティにおいて重要な役割を果たす。 しかし、一次同期信号と二次同期信号(pssとsss)を含むssb伝送の予測可能な性質のため、妨害攻撃は重要な脅威である。 RF領域の知識を活用することで、5Gネットワークにおけるジャマーを検出するための新しい深層学習技術を提案する。 ネットワークパラメータに大きく依存する既存のジャミング検出アルゴリズムとは異なり、SSBに着目したダブルしきい値のディープラーニングジャミング検出を導入する。 検出方法はRF領域の特徴に着目し,既存のネットワークインフラストラクチャと統合することなくネットワークの堅牢性を向上させる。 ヌルリソース要素(EPNRE)特性あたりのPSS相関とエネルギーを抽出するプリプロセッシングブロックを統合することにより,正常信号と妨害信号とを高精度に区別する。 さらに、離散ウェーブレット変換(dwt)を組み込むことにより、トレーニングと検出の有効性を最適化する。 また、ディープカスケード学習モデルによって補完されるアーキテクチャに、ダブルしきい値のダブルディープニューラルネットワーク(DT-DDNN)を導入し、ノイズ比(SJNR)を妨害する信号の変動に対するモデルの感度を高める。 提案手法は,86.0%の単一閾値dnn設計と83.2%の非処理iqサンプルdnn設計に匹敵する15dbから30dbのsjnrを,超低ジャミングパワーで96.4%検出できた。 DT-DDNNの性能は,実検層から得られた実5G信号の解析によって検証され,シミュレーション結果と強く一致している。

With the evolution of 5G wireless communications, the Synchronization Signal Block (SSB) plays a critical role in the synchronization of devices and accessibility of services. However, due to the predictable nature of SSB transmission, including the Primary and Secondary Synchronization Signals (PSS and SSS), jamming attacks are critical threats. By leveraging RF domain knowledge, this work presents a novel deep learning-based technique for detecting jammers in 5G networks. Unlike the existing jamming detection algorithms that mostly rely on network parameters, we introduce a double threshold deep learning jamming detector by focusing on the SSB. The detection method is focused on RF domain features and improves the robustness of the network without requiring integration with the pre-existing network infrastructure. By integrating a preprocessing block that extracts PSS correlation and energy per null resource elements (EPNRE) characteristics, our method distinguishes between normal and jammed received signals with high precision. Additionally, by incorporation of Discrete Wavelet Transform (DWT), the efficacy of training and detection are optimized. A double threshold double Deep Neural Network (DT-DDNN) is also introduced to the architecture complemented by a deep cascade learning model to increase the sensitivity of the model to variations of signal to jamming noise ratio (SJNR). Results show that the proposed method achieves 96.4% detection rate in extra low jamming power, i.e., SJNR between 15 to 30 dB which outperforms the single threshold DNN design with 86.0% detection rate and unprocessed IQ sample DNN design with 83.2% detection rate. Ultimately, performance of DT-DDNN is validated through the analysis of real 5G signals obtained from a practical testbed, demonstrating a strong alignment with the simulation results.
翻訳日:2024-03-06 16:07:31 公開日:2024-03-05
# UFO:オフロードセマンティック地形図推定のための不確実なLiDAR画像融合

UFO: Uncertainty-aware LiDAR-image Fusion for Off-road Semantic Terrain Map Estimation ( http://arxiv.org/abs/2403.02642v1 )

ライセンス: Link先を確認
Ohn Kim, Junwon Seo, Seongyong Ahn, Chong Hui Kim(参考訳) 自律的なオフロードナビゲーションは環境の正確なセマンティックな理解を必要とし、しばしば様々な下流タスクのための鳥眼ビュー(BEV)表現に変換される。 学習に基づく手法はセンサデータから直接局所的なセマンティック地形図を生成することに成功したが、オフロード環境におけるそれらの有効性は、不確実な地形の特徴を正確に表現することの難しさによって妨げられている。 本稿では,BEVにおける高密度地形分類図を生成するための学習ベース融合法を提案する。 複数スケールでLiDAR画像融合を行うことで,RGB画像と単一スイープLiDARスキャンから生成された意味マップの精度を向上させる。 不確実性を認識した擬似ラベルを利用することで、正確な3Dアノテーションを必要とせず、オフロード環境で確実に学習することができる。 本手法は,オフロード走行データを用いて徹底的な実験を行い,オフロード走行環境における信頼性の向上と,オフロード環境における安全かつ信頼性の高い自律航法の有効性を実証する。

Autonomous off-road navigation requires an accurate semantic understanding of the environment, often converted into a bird's-eye view (BEV) representation for various downstream tasks. While learning-based methods have shown success in generating local semantic terrain maps directly from sensor data, their efficacy in off-road environments is hindered by challenges in accurately representing uncertain terrain features. This paper presents a learning-based fusion method for generating dense terrain classification maps in BEV. By performing LiDAR-image fusion at multiple scales, our approach enhances the accuracy of semantic maps generated from an RGB image and a single-sweep LiDAR scan. Utilizing uncertainty-aware pseudo-labels further enhances the network's ability to learn reliably in off-road environments without requiring precise 3D annotations. By conducting thorough experiments using off-road driving datasets, we demonstrate that our method can improve accuracy in off-road terrains, validating its efficacy in facilitating reliable and safe autonomous navigation in challenging off-road settings.
翻訳日:2024-03-06 16:07:00 公開日:2024-03-05
# HoloVIC:マルチセンサホログラフィーの大規模データセットとベンチマーク

HoloVIC: Large-scale Dataset and Benchmark for Multi-Sensor Holographic Intersection and Vehicle-Infrastructure Cooperative ( http://arxiv.org/abs/2403.02640v1 )

ライセンス: Link先を確認
Cong Ma, Lei Qiao, Chengkai Zhu, Kai Liu, Zelong Kong, Qing Li, Xueqi Zhou, Yuheng Kan, Wei Wu(参考訳) 自動運転車(V2X)は、近年の自動運転分野における一般的な話題である。 自動車インフラ協力(vic)は重要な研究分野の1つである。 盲点や咬合などの交通条件の複雑さのため、単視点道路サイドセンシングシステムの認識能力が大幅に制限される。 路面認識の精度をさらに高め,車両側により良い情報を提供するため,本論文では,大規模多センサホログラフィック車両・インフラ協調データセットであるHoloVICを構築するために,様々なレイアウトのホログラフィック交差点を構築した。 私たちのデータセットには3種類のセンサー(Camera, Lidar, Fisheye)が含まれており、異なる交差点に基づいて4つのセンサーレイアウトを採用している。 各交差点は同期データをキャプチャする6-18センサーを備えている。 自動運転車はこれらの交差点を通過してVICデータを収集する。 HoloVICには、さまざまなセンサーから100k以上の同期フレームが含まれている。 さらに,カメラ,魚眼,ライダーに基づいて3dバウンディングボックスをアノテーションした。 また、異なるデバイスと連続するフレーム間で同じオブジェクトのidを連続的に関連付ける。 本研究は,HoloVICに基づく4つの課題を定式化した。 これらのタスクのベンチマークも提供しています。

Vehicle-to-everything (V2X) is a popular topic in the field of Autonomous Driving in recent years. Vehicle-infrastructure cooperation (VIC) becomes one of the important research area. Due to the complexity of traffic conditions such as blind spots and occlusion, it greatly limits the perception capabilities of single-view roadside sensing systems. To further enhance the accuracy of roadside perception and provide better information to the vehicle side, in this paper, we constructed holographic intersections with various layouts to build a large-scale multi-sensor holographic vehicle-infrastructure cooperation dataset, called HoloVIC. Our dataset includes 3 different types of sensors (Camera, Lidar, Fisheye) and employs 4 sensor-layouts based on the different intersections. Each intersection is equipped with 6-18 sensors to capture synchronous data. While autonomous vehicles pass through these intersections for collecting VIC data. HoloVIC contains in total on 100k+ synchronous frames from different sensors. Additionally, we annotated 3D bounding boxes based on Camera, Fisheye, and Lidar. We also associate the IDs of the same objects across different devices and consecutive frames in sequence. Based on HoloVIC, we formulated four tasks to facilitate the development of related research. We also provide benchmarks for these tasks.
翻訳日:2024-03-06 16:06:41 公開日:2024-03-05
# 偽正サンプリングに基づく3次元物体検出精度向上のためのデータ拡張

False Positive Sampling-based Data Augmentation for Enhanced 3D Object Detection Accuracy ( http://arxiv.org/abs/2403.02639v1 )

ライセンス: Link先を確認
Jiyong Oh, Junhaeng Lee, Woongchan Byun, Minsang Kong and Sang Hun Lee(参考訳) 近年,3次元物体検出モデルの性能向上に焦点が当てられている。 様々なアプローチの中で、接地サンプリングは、限られた接地データによって生じる課題に対処するための拡張技術として提案されている。 しかし、地中真実サンプリングの固有の問題は、偽陽性の増加傾向にある。 そこで本研究では, 偽陽性サンプリングと呼ばれる新しい拡張手法を開発し, 3次元物体検出モデルの性能向上を図ることを目的としている。 偽陽性サンプリングは、モデルの予測において偽陽性と認識される点雲を用いてモデルを再訓練する。 本研究では, 地中正と偽正のサンプリングを併用するアルゴリズムと, 偽正のサンプルデータベース構築のためのアルゴリズムを提案する。 さらに, 偽陽性サンプリングによる性能向上の背景にある原則を分析し, 偽陽性サンプリング技術と地味サンプリング技術の両方を含むサンプリング戦略にカリキュラム学習の概念を適用した手法を提案する。 実験の結果,偽陽性サンプリングを用いたモデルでは偽陽性が減少し,オブジェクト検出性能が向上した。 KITTIとWaymo Openのデータセットでは、偽陽性サンプリングモデルがベースラインモデルを上回っている。

Recent studies have focused on enhancing the performance of 3D object detection models. Among various approaches, ground-truth sampling has been proposed as an augmentation technique to address the challenges posed by limited ground-truth data. However, an inherent issue with ground-truth sampling is its tendency to increase false positives. Therefore, this study aims to overcome the limitations of ground-truth sampling and improve the performance of 3D object detection models by developing a new augmentation technique called false-positive sampling. False-positive sampling involves retraining the model using point clouds that are identified as false positives in the model's predictions. We propose an algorithm that utilizes both ground-truth and false-positive sampling and an algorithm for building the false-positive sample database. Additionally, we analyze the principles behind the performance enhancement due to false-positive sampling and propose a technique that applies the concept of curriculum learning to the sampling strategy that encompasses both false-positive and ground-truth sampling techniques. Our experiments demonstrate that models utilizing false-positive sampling show a reduction in false positives and exhibit improved object detection performance. On the KITTI and Waymo Open datasets, models with false-positive sampling surpass the baseline models by a large margin.
翻訳日:2024-03-06 16:06:23 公開日:2024-03-05
# BSDP: オンラインオープンワールドオブジェクト検出のためのブレインインスパイアされたストリーミングデュアルレベル摂動

BSDP: Brain-inspired Streaming Dual-level Perturbations for Online Open World Object Detection ( http://arxiv.org/abs/2403.02637v1 )

ライセンス: Link先を確認
Yu Chen, Liyan Ma, Liping Jing, Jian Yu(参考訳) 人間は既知のカテゴリと未知のカテゴリを容易に区別することができ、学習したオブジェクトを忘れることなく何度も繰り返すのではなく、一度学習することで未知のオブジェクトを認識することができる。 したがって、深層学習モデルに人々の学習方法をシミュレートすることを目指している。 我々は,OnLine Open World Object Detection (OLOWOD)のような学習方法について言及する。 既存のOWODアプローチは未知のカテゴリの同定に注意を払う一方で、漸進的な学習も非常に重要である。 さらに、いくつかの神経科学の研究は、特定のノイズによって脳が新たな接続や神経経路を形成でき、学習速度と効率が向上することを示している。 本稿では,古い知識を忘れることなく,新しい知識を学習しやすくするために,古いサンプルの二重レベル情報を新しいサンプルの摂動として捉えた。 そこで我々は,OLOWOD問題を解くために,Brain-inspired Streaming Dual-level Perturbations (BSDP) と呼ばれる簡単なプラグアンドプレイ手法を提案する。 Specifically, (1) we first calculate the prototypes of previous categories and use the distance between samples and the prototypes as the sample selecting strategy to choose old samples for replay; (2) then take the prototypes as the streaming feature-level perturbations of new samples, so as to improve the plasticity of the model through revisiting the old knowledge; (3) and also use the distribution of the features of the old category samples to generate adversarial data in the form of streams as the data-level perturbations to enhance the robustness of the model to new categories. 我々は,PASCAL VOCとMS-COCOのBSDPを実証的に評価し,提案手法と学習方法の有望な性能を示す優れた結果を得た。

Humans can easily distinguish the known and unknown categories and can recognize the unknown object by learning it once instead of repeating it many times without forgetting the learned object. Hence, we aim to make deep learning models simulate the way people learn. We refer to such a learning manner as OnLine Open World Object Detection(OLOWOD). Existing OWOD approaches pay more attention to the identification of unknown categories, while the incremental learning part is also very important. Besides, some neuroscience research shows that specific noises allow the brain to form new connections and neural pathways which may improve learning speed and efficiency. In this paper, we take the dual-level information of old samples as perturbations on new samples to make the model good at learning new knowledge without forgetting the old knowledge. Therefore, we propose a simple plug-and-play method, called Brain-inspired Streaming Dual-level Perturbations(BSDP), to solve the OLOWOD problem. Specifically, (1) we first calculate the prototypes of previous categories and use the distance between samples and the prototypes as the sample selecting strategy to choose old samples for replay; (2) then take the prototypes as the streaming feature-level perturbations of new samples, so as to improve the plasticity of the model through revisiting the old knowledge; (3) and also use the distribution of the features of the old category samples to generate adversarial data in the form of streams as the data-level perturbations to enhance the robustness of the model to new categories. We empirically evaluate BSDP on PASCAL VOC and MS-COCO, and the excellent results demonstrate the promising performance of our proposed method and learning manner.
翻訳日:2024-03-06 16:06:03 公開日:2024-03-05
# 因果歩行:フロントドア調整によるマルチホップファクト検証

Causal Walk: Debiasing Multi-Hop Fact Verification with Front-Door Adjustment ( http://arxiv.org/abs/2403.02698v1 )

ライセンス: Link先を確認
Congzhi Zhang, Linhai Zhang, Deyu Zhou(参考訳) 従来のマルチホップ事実検証モデルは、アノテーションアーティファクトからの急激な相関に依存しやすいため、バイアスのないデータセットのパフォーマンスが明らかに低下する。 様々なデバイアス作品の中で、因果推論に基づく手法は、カジュアルな介入や偽りの推論といった理論的に保証されたデバイアスを行うことで普及した。 しかし、既存の因果推論に基づくデバイアス法は、主に、浅いバイアスパターンに対処する単一ホップ推論タスクとして事実検証を定式化するが、複数の証拠ホップに隠された複雑なバイアスパターンには対処できない。 この課題に対処するために,正面調整による因果的視点からマルチホップ事実検証を行う新しい手法であるCausal Walkを提案する。 具体的には、構造因果モデルにおいて、処理(入力クレームエビデンスグラフ)と結果(正確性ラベル)の間の推論経路を、共同創設者をブロックするメディエータとして導入する。 フロントドア調整により、治療と結果との因果効果は、ランダムウォークの考えを適用して推定される治療と仲介者の間の因果効果と、正規化重み付け幾何学平均近似により推定される仲介者と結果との間の因果効果とに分解される。 提案手法の有効性を検討するために, 大規模言語モデルの助けを借りて, 逆マルチホップ事実検証データセットと対称マルチホップ事実検証データセットを提案する。 実験の結果、因果ウォークは既存のデータセットと新しく構築されたデータセットの両方において、いくつかの以前のデバイアスメソッドよりも優れていた。 コードとデータはhttps://github.com/zcccccz/causalwalkでリリースされる。

Conventional multi-hop fact verification models are prone to rely on spurious correlations from the annotation artifacts, leading to an obvious performance decline on unbiased datasets. Among the various debiasing works, the causal inference-based methods become popular by performing theoretically guaranteed debiasing such as casual intervention or counterfactual reasoning. However, existing causal inference-based debiasing methods, which mainly formulate fact verification as a single-hop reasoning task to tackle shallow bias patterns, cannot deal with the complicated bias patterns hidden in multiple hops of evidence. To address the challenge, we propose Causal Walk, a novel method for debiasing multi-hop fact verification from a causal perspective with front-door adjustment. Specifically, in the structural causal model, the reasoning path between the treatment (the input claim-evidence graph) and the outcome (the veracity label) is introduced as the mediator to block the confounder. With the front-door adjustment, the causal effect between the treatment and the outcome is decomposed into the causal effect between the treatment and the mediator, which is estimated by applying the idea of random walk, and the causal effect between the mediator and the outcome, which is estimated with normalized weighted geometric mean approximation. To investigate the effectiveness of the proposed method, an adversarial multi-hop fact verification dataset and a symmetric multi-hop fact verification dataset are proposed with the help of the large language model. Experimental results show that Causal Walk outperforms some previous debiasing methods on both existing datasets and the newly constructed datasets. Code and data will be released at https://github.com/zcccccz/CausalWalk.
翻訳日:2024-03-06 16:03:06 公開日:2024-03-05
# スパースターゲットにおけるノイズミスリード回転不変アルゴリズム

Noise misleads rotation invariant algorithms on sparse targets ( http://arxiv.org/abs/2403.02697v1 )

ライセンス: Link先を確認
Manfred K. Warmuth (1), Wojciech Kot{\l}owski (2), Matt Jones (3), Ehsan Amid (1) ((1) Google Inc., (2) Institute of Computing Science, Poznan University of Technology, Poznan, Poland, (3) University of Colorado Boulder, Colorado, USA)(参考訳) 回転不変アルゴリズムのクラスは、例の数が問題の「次元」以下であるとき、スパース線形問題を学習しても準最適であることが知られている。 このクラスは、完全に接続された入力層(回転対称分布で初期化)を持つ勾配降下訓練ニューラルネットを含む。 最も単純な問題は、$d$の機能からひとつの機能を学ぶことです。 この場合、分類エラーや回帰損失は、1-k/n$で増加する。 これらの下限は、例の$k$が次元$d$に達すると空白になる。 このスパース線形問題にノイズを加えると、回転不変量アルゴリズムは$d$以上の例を見ても最適でないことが分かる。 我々は、回転対称性問題に対するベイズ最適アルゴリズムの下限を通してこれを証明する。 すると、単純非回転不変アルゴリズムの同じ問題において、より低い上限が証明される。 最後に、多くの標準最適化アルゴリズムの勾配流れの軌跡を単純なケースで解析し、スパースターゲットへの進入や遠ざかる方法を示す。 我々は、軌道分類はスパース目標を活用できるアルゴリズムを設計するのに有用であると信じており、より低い境界を証明できる手法は、異なる不変性のクラスを許容する他のアルゴリズム群を分析するのに不可欠である。

It is well known that the class of rotation invariant algorithms are suboptimal even for learning sparse linear problems when the number of examples is below the "dimension" of the problem. This class includes any gradient descent trained neural net with a fully-connected input layer (initialized with a rotationally symmetric distribution). The simplest sparse problem is learning a single feature out of $d$ features. In that case the classification error or regression loss grows with $1-k/n$ where $k$ is the number of examples seen. These lower bounds become vacuous when the number of examples $k$ reaches the dimension $d$. We show that when noise is added to this sparse linear problem, rotation invariant algorithms are still suboptimal after seeing $d$ or more examples. We prove this via a lower bound for the Bayes optimal algorithm on a rotationally symmetrized problem. We then prove much lower upper bounds on the same problem for simple non-rotation invariant algorithms. Finally we analyze the gradient flow trajectories of many standard optimization algorithms in some simple cases and show how they veer toward or away from the sparse targets. We believe that our trajectory categorization will be useful in designing algorithms that can exploit sparse targets and our method for proving lower bounds will be crucial for analyzing other families of algorithms that admit different classes of invariances.
翻訳日:2024-03-06 16:02:33 公開日:2024-03-05
# 分散ロバスト性バランスのための制御可能なプロンプトチューニング

Controllable Prompt Tuning For Balancing Group Distributional Robustness ( http://arxiv.org/abs/2403.02695v1 )

ライセンス: Link先を確認
Hoang Phan and Andrew Gordon Wilson and Qi Lei(参考訳) 異なるグループやドメインで構成されたデータに基づいてトレーニングされたモデルは、分散シフト下で深刻なパフォーマンス低下に苦しむことがある。 最近の手法は最悪のグループ目標の最適化に重点を置いているが、これはしばしば他のグループでの優れたパフォーマンスを犠牲にしている。 この問題に対処するために,グループ間で優れた性能を実現する最適化手法を導入し,それらの性能を著しく犠牲にすることなく,優れた解を求める。 しかし、このような最適化を直接適用するには、ネットワーク全体のパラメータを更新することが必要であり、計算コストと課題の両方が伴う。 そこで本研究では,提案手法とプロンプトチューニング手法を結合したcpt(controllable prompt tuning)を導入する。 スプリアス相関ベンチマークでは、トランスフォーマタと非トランスフォーマタアーキテクチャ、およびユニモーダルデータとマルチモーダルデータの両方で最先端の結果が得られるが、調整可能なパラメータはわずか0.4%である。

Models trained on data composed of different groups or domains can suffer from severe performance degradation under distribution shifts. While recent methods have largely focused on optimizing the worst-group objective, this often comes at the expense of good performance on other groups. To address this problem, we introduce an optimization scheme to achieve good performance across groups and find a good solution for all without severely sacrificing performance on any of them. However, directly applying such optimization involves updating the parameters of the entire network, making it both computationally expensive and challenging. Thus, we introduce Controllable Prompt Tuning (CPT), which couples our approach with prompt-tuning techniques. On spurious correlation benchmarks, our procedures achieve state-of-the-art results across both transformer and non-transformer architectures, as well as unimodal and multimodal data, while requiring only 0.4% tunable parameters.
翻訳日:2024-03-06 16:02:14 公開日:2024-03-05
# 大規模言語モデルのためのプライバシ対応セマンティックキャッシュ

Privacy-Aware Semantic Cache for Large Language Models ( http://arxiv.org/abs/2403.02694v1 )

ライセンス: Link先を確認
Waris Gill (1), Mohamed Elidrisi (2), Pallavi Kalapatapu (2), Ali Anwar (3), Muhammad Ali Gulzar (1) ((1) Virginia Tech, USA, (2) Cisco, USA (3) University of Minnesota, Minneapolis, USA)(参考訳) ChatGPT、Google Bard、Claude、Llama 2のような大規模言語モデル(LLM)は、自然言語処理と検索エンジンのダイナミクスに革命をもたらした。 しかし、これらのモデルは非常に高い計算コストがかかる。 例えば、GPT-3は1750億のパラメータで構成されており、これらのモデルに対する推測もまた数十億の浮動小数点演算を必要とする。 キャッシングは、繰り返しクエリのLSM推論コストを削減するための自然なソリューションである。 しかし、既存のキャッシュ手法ではLLMクエリ間のセマンティックな類似性を見つけることができず、許容できない偽のヒット・アンド・ミスレートにつながる。 本稿では, LLMのセマンティックキャッシュであるMeanCacheを紹介し, セマンティックに類似したクエリを識別し, キャッシュヒットやミスを判定する。 MeanCacheを使用すると、ユーザーのセマンティックに類似したクエリに対する応答は、LLMを再クエリするのではなく、ローカルキャッシュから取得できるため、コスト、サービスプロバイダの負荷、環境への影響を低減できる。 meancacheは連合学習(federated learning, fl)を活用して,プライバシに違反することなく,多数のユーザにわたってクエリ類似性を分散的にトレーニングする。 各ユーザのデバイスにローカルキャッシュを配置してFLを使用することで、MeanCacheはレイテンシとコストを低減し、モデルパフォーマンスを向上させる。 GPTCacheに対してベンチマークを行った結果,MeanCacheはFスコアが約17%高く,セマンティックキャッシュのヒットアンドミス判定時に20%精度が向上していることがわかった。 さらに、MeanCacheはストレージ要件を83%削減し、セマンティックキャッシュのヒットアンドミス決定を11%高速化すると同時に、GPTCacheを上回っている。

Large Language Models (LLMs) like ChatGPT, Google Bard, Claude, and Llama 2 have revolutionized natural language processing and search engine dynamics. However, these models incur exceptionally high computational costs. For instance, GPT-3 consists of 175 billion parameters and inference on these models also demands billions of floating-point operations. Caching is a natural solution to reduce LLM inference costs on repeated queries. However, existing caching methods are incapable of finding semantic similarities among LLM queries, leading to unacceptable false hit-and-miss rates. This paper introduces MeanCache, a semantic cache for LLMs that identifies semantically similar queries to determine cache hit or miss. Using MeanCache, the response to a user's semantically similar query can be retrieved from a local cache rather than re-querying the LLM, thus reducing costs, service provider load, and environmental impact. MeanCache leverages Federated Learning (FL) to collaboratively train a query similarity model in a distributed manner across numerous users without violating privacy. By placing a local cache in each user's device and using FL, MeanCache reduces the latency and costs and enhances model performance, resulting in lower cache false hit rates. Our experiments, benchmarked against the GPTCache, reveal that MeanCache attains an approximately 17% higher F-score and a 20% increase in precision during semantic cache hit-and-miss decisions. Furthermore, MeanCache reduces the storage requirement by 83% and accelerates semantic cache hit-and-miss decisions by 11%, while still surpassing GPTCache.
翻訳日:2024-03-06 16:01:59 公開日:2024-03-05
# InjecAgent: ツール統合大規模言語モデルエージェントにおける間接プロンプトインジェクションのベンチマーク

InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents ( http://arxiv.org/abs/2403.02691v1 )

ライセンス: Link先を確認
Qiusi Zhan, Zhixiang Liang, Zifan Ying, Daniel Kang(参考訳) 最近の研究はLLMをエージェントとして具体化し、ツールにアクセスし、アクションを実行し、外部コンテンツ(メールやウェブサイトなど)と対話できるようになっている。 しかし、外部コンテンツは間接的プロンプトインジェクション(IPI)攻撃のリスクを導入し、悪意のある命令がLLMによって処理されたコンテンツに埋め込まれ、これらのエージェントを操作してユーザに対する有害なアクションを実行する。 このような攻撃による潜在的に深刻な結果を考えると、これらのリスクを評価し緩和するためのベンチマークを確立することが不可欠である。 本稿では,ツール統合LDMエージェントのIPI攻撃に対する脆弱性を評価するためのベンチマークであるInjecAgentを紹介する。 InjecAgentは17の異なるユーザーツールと62の攻撃ツールをカバーする1,054のテストケースで構成されている。 攻撃意図を,ユーザへの直接的な被害とプライベートデータの流出という2つの主要なタイプに分類する。 我々は,30種類の異なるllmエージェントを評価し,反応プロパントgpt-4が攻撃の24%に対して脆弱であることを示す。 攻撃指示をハッキングプロンプトで補強する強化設定に関するさらなる調査は、さらなる成功率の増加を示し、ReAct-prompted GPT-4の攻撃成功率をほぼ2倍にしている。 LLMエージェントの広範な展開に関して,本研究は疑問を投げかける。 私たちのベンチマークはhttps://github.com/uiuc-kang-lab/injecagentで利用可能です。

Recent work has embodied LLMs as agents, allowing them to access tools, perform actions, and interact with external content (e.g., emails or websites). However, external content introduces the risk of indirect prompt injection (IPI) attacks, where malicious instructions are embedded within the content processed by LLMs, aiming to manipulate these agents into executing detrimental actions against users. Given the potentially severe consequences of such attacks, establishing benchmarks to assess and mitigate these risks is imperative. In this work, we introduce InjecAgent, a benchmark designed to assess the vulnerability of tool-integrated LLM agents to IPI attacks. InjecAgent comprises 1,054 test cases covering 17 different user tools and 62 attacker tools. We categorize attack intentions into two primary types: direct harm to users and exfiltration of private data. We evaluate 30 different LLM agents and show that agents are vulnerable to IPI attacks, with ReAct-prompted GPT-4 vulnerable to attacks 24% of the time. Further investigation into an enhanced setting, where the attacker instructions are reinforced with a hacking prompt, shows additional increases in success rates, nearly doubling the attack success rate on the ReAct-prompted GPT-4. Our findings raise questions about the widespread deployment of LLM Agents. Our benchmark is available at https://github.com/uiuc-kang-lab/InjecAgent.
翻訳日:2024-03-06 16:01:30 公開日:2024-03-05
# 雑音ラベル学習のための遷移行列によるディリクレに基づくサンプル単位重み付け

Dirichlet-based Per-Sample Weighting by Transition Matrix for Noisy Label Learning ( http://arxiv.org/abs/2403.02690v1 )

ライセンス: Link先を確認
HeeSun Bae, Seungjae Shin, Byeonghu Na, Il-Chul Moon(参考訳) ノイズラベルを用いた学習では,ノイズラベル分布とクリーンラベル分布の関係を明示的にモデル化した遷移行列を用いて,分類器とリスクの統計的一貫性を実現する。 これまでの研究では、この遷移行列をうまく推定する方法に焦点が当てられていた。 本稿では,遷移行列の有効利用が重要であり,再サンプリングに基づく新しい利用方法を提案する。 具体的には、まず、現在の利用が実装に潜在的な制限を持つことを実証する。 Reweightingの拡張として、Dirichletディストリビューションベースのサンプル単位重みサンプリング(DWS)フレームワークを提案し、DWSフレームワーク下での再重み付けと再サンプリングを比較する。 DWSの分析により,雑音遷移行列を用いた再サンプリング手法であるRENTを提案する。 経験的に、RENTは様々なベンチマークデータセット上で、リ重み付けを含む既存の遷移行列利用法を一貫して上回っている。 私たちのコードは \url{https://github.com/BaeHeeSun/RENT} で利用可能です。

For learning with noisy labels, the transition matrix, which explicitly models the relation between noisy label distribution and clean label distribution, has been utilized to achieve the statistical consistency of either the classifier or the risk. Previous researches have focused more on how to estimate this transition matrix well, rather than how to utilize it. We propose good utilization of the transition matrix is crucial and suggest a new utilization method based on resampling, coined RENT. Specifically, we first demonstrate current utilizations can have potential limitations for implementation. As an extension to Reweighting, we suggest the Dirichlet distribution-based per-sample Weight Sampling (DWS) framework, and compare reweighting and resampling under DWS framework. With the analyses from DWS, we propose RENT, a REsampling method with Noise Transition matrix. Empirically, RENT consistently outperforms existing transition matrix utilization methods, which includes reweighting, on various benchmark datasets. Our code is available at \url{https://github.com/BaeHeeSun/RENT}.
翻訳日:2024-03-06 16:01:04 公開日:2024-03-05
# 効率的なビデオセマンティックセグメンテーションのためのDeep Common Feature Mining

Deep Common Feature Mining for Efficient Video Semantic Segmentation ( http://arxiv.org/abs/2403.02689v1 )

ライセンス: Link先を確認
Yaoyan Zheng, Hongyu Yang, Di Huang(参考訳) 近年,ビデオセマンティックセグメンテーションの進歩は時間的相関を利用して大きく進展している。 それでも、冗長な計算や機能伝播プロセスの信頼性といった永続的な課題は、さらなるイノベーションの必要性を強調している。 そこで我々は,機能共有の概念を活用することで,これらの課題に戦略的に対処する新しいアプローチであるDeep Common Feature Mining(DCFM)を提案する。 dcfmは機能を2つの補完コンポーネントに明示的に分解する。 キーフレームから抽出された共通表現は、隣接する非キーフレームに必須の高レベル情報を付与する。 同時に、各ビデオフレームから派生した独立機能は、急速に変化する情報をキャプチャし、セグメンテーションに不可欠なフレーム固有の手がかりを提供する。 このような分解を実現するために,分散アノテートデータに適した対称なトレーニング戦略を採用し,共通情報に富んだ堅牢な高レベル表現をバックボーンに学習させる。 さらに,クラス内特徴の類似性を強化し,時間的一貫性を高めるために,自己教師付き損失関数を組み込んだ。 vspwとcityscapesデータセットの実験的評価により,本手法の有効性が示され,精度と効率のバランスが向上した。

Recent advancements in video semantic segmentation have made substantial progress by exploiting temporal correlations. Nevertheless, persistent challenges, including redundant computation and the reliability of the feature propagation process, underscore the need for further innovation. In response, we present Deep Common Feature Mining (DCFM), a novel approach strategically designed to address these challenges by leveraging the concept of feature sharing. DCFM explicitly decomposes features into two complementary components. The common representation extracted from a key-frame furnishes essential high-level information to neighboring non-key frames, allowing for direct re-utilization without feature propagation. Simultaneously, the independent feature, derived from each video frame, captures rapidly changing information, providing frame-specific clues crucial for segmentation. To achieve such decomposition, we employ a symmetric training strategy tailored for sparsely annotated data, empowering the backbone to learn a robust high-level representation enriched with common information. Additionally, we incorporate a self-supervised loss function to reinforce intra-class feature similarity and enhance temporal consistency. Experimental evaluations on the VSPW and Cityscapes datasets demonstrate the effectiveness of our method, showing a superior balance between accuracy and efficiency.
翻訳日:2024-03-06 16:00:49 公開日:2024-03-05
# DOCTOR: 自己補正型フォトニックテンソル加速器に向けた温度変化に対する動的オンチップ修復

DOCTOR: Dynamic On-Chip Remediation Against Temporally-Drifting Thermal Variations Toward Self-Corrected Photonic Tensor Accelerators ( http://arxiv.org/abs/2403.02688v1 )

ライセンス: Link先を確認
Haotian Lu, Sanmitra Banerjee, Jiaqi Gu(参考訳) フォトニックコンピューティングは計算集約型人工知能(AI)ワークロードを加速するための有望なソリューションとして登場し、特にリソース制限、レイテンシに敏感なエッジコンピューティング環境において、非並列なスピードとエネルギー効率を提供する。 しかしながら、アナログフォトニックテンソル加速器の配備は、ハードウェアノイズや環境変動による信頼性上の課題に直面する。 オフチップノイズ認識トレーニングとオンチップトレーニングは、中等度で静的な雑音を伴う光ニューラルアクセラレータの変動耐性を高めるために提案されているが、リアルタイムのその場校正機構を必要とする時間的変動による顕著な性能劣化を観察する。 この課題に対処するため,我々はDOCTORと呼ばれる軽量な動的オンチップ修復フレームワークを提案し,時間的ドリフトノイズに対して適応的かつその場での精度回復を実現する。 DOCTORフレームワークは、適応的プローブを用いてチップステータスをインテリジェントに監視し、高速なトレーニングフリーキャリブレーションを行い、必要に応じて精度を回復する。 また,デバイスとテンソルコア間の不均一な空間変動分布を認識し,ノイズの多いデバイスでクリティカルタスクを実行するのを避けるために,ばらつき対応アーキテクチャリマップ戦略を提案する。 広範な実験により,提案手法はドリフト変動下での持続的性能を34%高い精度と2-3桁のオーバヘッドで保証できることがわかった。

Photonic computing has emerged as a promising solution for accelerating computation-intensive artificial intelligence (AI) workloads, offering unparalleled speed and energy efficiency, especially in resource-limited, latency-sensitive edge computing environments. However, the deployment of analog photonic tensor accelerators encounters reliability challenges due to hardware noises and environmental variations. While off-chip noise-aware training and on-chip training have been proposed to enhance the variation tolerance of optical neural accelerators with moderate, static noises, we observe a notable performance degradation over time due to temporally drifting variations, which requires a real-time, in-situ calibration mechanism. To tackle this challenging reliability issues, for the first time, we propose a lightweight dynamic on-chip remediation framework, dubbed DOCTOR, providing adaptive, in-situ accuracy recovery against temporally drifting noises. The DOCTOR framework intelligently monitors the chip status using adaptive probing and performs fast in-situ training-free calibration to restore accuracy when necessary. Recognizing nonuniform spatial variation distributions across devices and tensor cores, we also propose a variation-aware architectural remapping strategy to avoid executing critical tasks on noisy devices. Extensive experiments show that our proposed framework can guarantee sustained performance under drifting variations with 34% higher accuracy and 2-3 orders-of-magnitude lower overhead compared to state-of-the-art on-chip training methods.
翻訳日:2024-03-06 16:00:28 公開日:2024-03-05
# DareFightingICEコンペティションの強化 - サウンドデザインとAIコンペティション

Enhanced DareFightingICE Competitions: Sound Design and AI Competitions ( http://arxiv.org/abs/2403.02687v1 )

ライセンス: Link先を確認
Ibrahim Khan, Chollakorn Nimpattanavong, Thai Van Nguyen, Kantinan Plupattanakit, Ruck Thawonmas(参考訳) 本稿では,視覚障害者(vips)に焦点を当てた戦闘ゲームプラットフォームであるdrefightingiceプラットフォームを,unityゲームエンジンで新たに改良した。 また、新しいプラットフォームが使用される2024年のieee conference on games(cog)で、darefightingice sound design competitionとdarefightingice ai competitionという2つのスタンドアロンコンペティションにdarefightingiceコンペティションを分離した。 この新プラットフォームは、古いDareFightingICEプラットフォームの強化版で、3Dサウンドを伝えるためのより良いオーディオシステムと、AIエージェントに音声データを送信するためのより良い方法を備えている。 この強化とUnityの利用により、新しいDareFightingICEプラットフォームは、VIPの新機能の追加や将来のオーディオ研究において、よりアクセスしやすいものになる。 また,音設計コンペティションにおける音響設計の評価方法も改良され,将来的なCoGの競争が続くにつれて,VIPの音設計の精度が向上する。 コンペティションとコンペティションの関連は,時間とともにコンペティションの品質を相互に向上させることで,より広範なゲームコミュニティであるvipsにおいて,見過ごされがちなセグメントを表現する上で,これらのコンペティションの重要な部分となります。

This paper presents a new and improved DareFightingICE platform, a fighting game platform with a focus on visually impaired players (VIPs), in the Unity game engine. It also introduces the separation of the DareFightingICE Competition into two standalone competitions called DareFightingICE Sound Design Competition and DareFightingICE AI Competition--at the 2024 IEEE Conference on Games (CoG)--in which a new platform will be used. This new platform is an enhanced version of the old DareFightingICE platform, having a better audio system to convey 3D sound and a better way to send audio data to AI agents. With this enhancement and by utilizing Unity, the new DareFightingICE platform is more accessible in terms of adding new features for VIPs and future audio research. This paper also improves the evaluation method for evaluating sound designs in the Sound Design Competition which will ensure a better sound design for VIPs as this competition continues to run at future CoG. To the best of our knowledge, both of our competitions are first of their kind, and the connection between the competitions to mutually improve the entries' quality with time makes these competitions an important part of representing an often overlooked segment within the broader gaming community, VIPs.
翻訳日:2024-03-06 15:59:57 公開日:2024-03-05
# 量子貯水池計算におけるエコー状態特性の階層性

Hierarchy of the echo state property in quantum reservoir computing ( http://arxiv.org/abs/2403.02686v1 )

ライセンス: Link先を確認
Shumpei Kobayashi and Quoc Hoan Tran and Kohei Nakajima(参考訳) エコー状態特性(ESP)は貯水池計算(RC)フレームワークの基本概念であり、初期状態と遠い過去の入力に依存せず、貯水池ネットワークの出力のみのトレーニングを保証する。 しかし、espの伝統的な定義は、統計的性質が進化する非定常系を記述していない。 この問題に対処するために、潜在的に非定常なシステムのために設計された \textit{non-stationary ESP} と、サブシステムがESPを持つシステムのために設計された \textit{subspace/subset ESP} の2つの新しいカテゴリを紹介した。 定義に従うと、量子貯水池計算機(QRC)における非定常ESPと典型的なハミルトン力学および非線形自己回帰移動平均(NARMA)タスクを用いた入力符号化法との対応を数値的に示す。 また,貯水池内の入力依存成分を定量化する線形/非線形メモリ容量を計算することで対応を確認した。 本研究は,非定常システムとサブシステムを利用したQRCおよび非定常RCシステムの実用設計の新たな理解について述べる。

The echo state property (ESP) represents a fundamental concept in the reservoir computing (RC) framework that ensures output-only training of reservoir networks by being agnostic to the initial states and far past inputs. However, the traditional definition of ESP does not describe possible non-stationary systems in which statistical properties evolve. To address this issue, we introduce two new categories of ESP: \textit{non-stationary ESP}, designed for potentially non-stationary systems, and \textit{subspace/subset ESP}, designed for systems whose subsystems have ESP. Following the definitions, we numerically demonstrate the correspondence between non-stationary ESP in the quantum reservoir computer (QRC) framework with typical Hamiltonian dynamics and input encoding methods using non-linear autoregressive moving-average (NARMA) tasks. We also confirm the correspondence by computing linear/non-linear memory capacities that quantify input-dependent components within reservoir states. Our study presents a new understanding of the practical design of QRC and other possibly non-stationary RC systems in which non-stationary systems and subsystems are exploited.
翻訳日:2024-03-06 15:59:26 公開日:2024-03-05
# 人口に対応するための学習:メタラーニングアプローチ

Learning to Defer to a Population: A Meta-Learning Approach ( http://arxiv.org/abs/2403.02683v1 )

ライセンス: Link先を確認
Dharmesh Tailor, Aditya Patra, Rajeev Verma, Putra Manggala, Eric Nalisnick(参考訳) 遅延学習(L2D)フレームワークは、人間の専門家に難しい決定を割り当てることによって、自律システムの安全性と堅牢性を実現する。 L2Dに関する既存の作業はすべて、各専門家が十分に識別されていると仮定し、もし専門家が変更するならば、システムは再トレーニングされるべきである。 本研究では,この制約を緩和し,テスト時に決して経験のない専門家に対処できるl2dシステムを定式化する。 メタラーニングを用いて最適化とモデルベースの両方を考慮し、これを実現する。 現在利用可能なエキスパートを特徴づける小さなコンテキストセットがあれば、フレームワークはその遅延ポリシーを迅速に適用できます。 モデルに基づくアプローチでは、与えられたテストポイントに類似したコンテキストセット内のポイントを検索できる注意機構を採用し、専門家の能力をより正確に評価する。 実験では,画像認識,交通標識検出,皮膚病変診断ベンチマークについて検証を行った。

The learning to defer (L2D) framework allows autonomous systems to be safe and robust by allocating difficult decisions to a human expert. All existing work on L2D assumes that each expert is well-identified, and if any expert were to change, the system should be re-trained. In this work, we alleviate this constraint, formulating an L2D system that can cope with never-before-seen experts at test-time. We accomplish this by using meta-learning, considering both optimization- and model-based variants. Given a small context set to characterize the currently available expert, our framework can quickly adapt its deferral policy. For the model-based approach, we employ an attention mechanism that is able to look for points in the context set that are similar to a given test point, leading to an even more precise assessment of the expert's abilities. In the experiments, we validate our methods on image recognition, traffic sign detection, and skin lesion diagnosis benchmarks.
翻訳日:2024-03-06 15:59:07 公開日:2024-03-05
# Time Weaver: 条件付き時系列生成モデル

Time Weaver: A Conditional Time Series Generation Model ( http://arxiv.org/abs/2403.02682v1 )

ライセンス: Link先を確認
Sai Shankar Narasimhan, Shubhankar Agarwal, Oguzhan Akcin, Sujay Sanghavi, Sandeep Chinchali(参考訳) 都市の電力需要パターンを、天候、電気自動車の存在、そして冬の凍結時に容量計画に使用できる場所に基づいて生成することを想像してみてください。 このような実世界の時系列は、しばしばペア化された異種コンテキストメタデータ(ウェザー、ロケーションなど)で富む。 時系列生成に対する現在のアプローチは、これらの対のメタデータを無視することが多く、その不均一性は、画像、オーディオ、ビデオドメインから時系列ドメインへの既存の条件付き生成アプローチを適用する上で、いくつかの実用的な課題を提起する。 このギャップに対処するために,時系列生成を大幅に改善するために,異種メタデータをカテゴリ,連続,さらには時間変数として活用する,新しい拡散ベースモデルであるtime weaverを紹介する。 さらに,画像から時系列領域への標準評価指標の拡張が不十分であることを示す。 これらのメトリクスは、生成した時系列でメタデータ特有の特徴を再現することの特異性を損なう条件付き生成アプローチを罰しない。 そこで我々は,条件生成の特異性と生成時系列のリアリズムを正確に捉える新しい評価基準を考案した。 time weaverはgenerative adversarial networks (gans)のような最先端のベンチマークを上回っており、実世界のエネルギー、医療、空気品質、交通データに関するダウンストリーム分類タスクでは最大27%も上回っている。

Imagine generating a city's electricity demand pattern based on weather, the presence of an electric vehicle, and location, which could be used for capacity planning during a winter freeze. Such real-world time series are often enriched with paired heterogeneous contextual metadata (weather, location, etc.). Current approaches to time series generation often ignore this paired metadata, and its heterogeneity poses several practical challenges in adapting existing conditional generation approaches from the image, audio, and video domains to the time series domain. To address this gap, we introduce Time Weaver, a novel diffusion-based model that leverages the heterogeneous metadata in the form of categorical, continuous, and even time-variant variables to significantly improve time series generation. Additionally, we show that naive extensions of standard evaluation metrics from the image to the time series domain are insufficient. These metrics do not penalize conditional generation approaches for their poor specificity in reproducing the metadata-specific features in the generated time series. Thus, we innovate a novel evaluation metric that accurately captures the specificity of conditional generation and the realism of the generated time series. We show that Time Weaver outperforms state-of-the-art benchmarks, such as Generative Adversarial Networks (GANs), by up to 27% in downstream classification tasks on real-world energy, medical, air quality, and traffic data sets.
翻訳日:2024-03-06 15:58:40 公開日:2024-03-05
# ディープニューラルネットワーク最適化のための部分ヘシアン付きSGD

SGD with Partial Hessian for Deep Neural Networks Optimization ( http://arxiv.org/abs/2403.02681v1 )

ライセンス: Link先を確認
Ying Sun, Hongwei Yong, Lei Zhang(参考訳) 古典的最適化問題の解法における2次アルゴリズムの有効性により、深層ニューラルネットワーク(dnn)を訓練する2次最適化器の設計が近年研究の関心を集めている。 しかし、DNNの中間機能は非常に高次元であるため、ネットワーク最適化のためにHessian行列を直接計算し保存することは困難である。 以前の2階法のほとんどは不正確にヘッセン情報を近似し、不安定な性能をもたらす。 本研究では,チャネルワイドパラメータを更新するための2階最適化器と,他のパラメータを更新するための1階確率勾配降下(SGD)最適化器を組み合わせた複合オプティマイザを提案する。 チャネルワイドパラメータの関連するヘッセン行列は対角線であり、ヘッセンフリー法から直接正確に抽出可能であることを示す。 提案手法は,SGDと部分ヘシアン(SGD-PH)を併用し,一階最適化と二階最適化の両方の利点を継承する。 一階オプティマイザと比較して、既存の二階オプティマイザと比較して、一階オプティマイザの優れた一般化性能を維持しながら、ヘッセン行列からの一定の量の情報を用いて最適化を支援する。 画像分類タスクの実験は,提案した最適化SGD-PHの有効性を示す。 コードは \url{https://github.com/myingysun/SGDPH} で公開されている。

Due to the effectiveness of second-order algorithms in solving classical optimization problems, designing second-order optimizers to train deep neural networks (DNNs) has attracted much research interest in recent years. However, because of the very high dimension of intermediate features in DNNs, it is difficult to directly compute and store the Hessian matrix for network optimization. Most of the previous second-order methods approximate the Hessian information imprecisely, resulting in unstable performance. In this work, we propose a compound optimizer, which is a combination of a second-order optimizer with a precise partial Hessian matrix for updating channel-wise parameters and the first-order stochastic gradient descent (SGD) optimizer for updating the other parameters. We show that the associated Hessian matrices of channel-wise parameters are diagonal and can be extracted directly and precisely from Hessian-free methods. The proposed method, namely SGD with Partial Hessian (SGD-PH), inherits the advantages of both first-order and second-order optimizers. Compared with first-order optimizers, it adopts a certain amount of information from the Hessian matrix to assist optimization, while compared with the existing second-order optimizers, it keeps the good generalization performance of first-order optimizers. Experiments on image classification tasks demonstrate the effectiveness of our proposed optimizer SGD-PH. The code is publicly available at \url{https://github.com/myingysun/SGDPH}.
翻訳日:2024-03-06 15:57:55 公開日:2024-03-05
# 高品質な画像テキストデータフィルタを用いたマルチモーダル言語モデル

Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters ( http://arxiv.org/abs/2403.02677v1 )

ライセンス: Link先を確認
Weizhi Wang, Khalil Mrini, Linjie Yang, Sateesh Kumar, Yu Tian, Xifeng Yan, Heng Wang(参考訳) 本稿では,MLM(Multimodal Language Models)を利用して画像テキストデータをフィルタリングする新しいフレームワークを提案する。 提案手法は,MLMの最近の進歩を取り入れたフィルタリング手法(CLIPScoreなど)よりも優れている。 画像テキストデータの質を総合的に測定するために、4つの異なる相補的メトリクスを設計する。 MLMをデータフィルタとして微調整するための高品質な命令データを構築するために,新しいパイプラインを構築した。 CLIPScoreと比較して、MLMフィルタはより正確で包括的なスコアを生成し、フィルタデータの品質を直接改善し、事前訓練されたモデルの性能を向上させる。 人気ファウンデーションモデル(CLIPとBLIP2)および様々なダウンストリームタスクにおいて、CLIPScoreよりも大幅に改善された。 MLMフィルタは様々なモデルやタスクに一般化することができ、CLIPScoreのドロップイン代替として使用できる。 MLMフィルタの設計選択を検証するための追加のアブレーション研究を行った。

We propose a novel framework for filtering image-text data by leveraging fine-tuned Multimodal Language Models (MLMs). Our approach outperforms predominant filtering methods (e.g., CLIPScore) via integrating the recent advances in MLMs. We design four distinct yet complementary metrics to holistically measure the quality of image-text data. A new pipeline is established to construct high-quality instruction data for fine-tuning MLMs as data filters. Comparing with CLIPScore, our MLM filters produce more precise and comprehensive scores that directly improve the quality of filtered data and boost the performance of pre-trained models. We achieve significant improvements over CLIPScore on popular foundation models (i.e., CLIP and BLIP2) and various downstream tasks. Our MLM filter can generalize to different models and tasks, and be used as a drop-in replacement for CLIPScore. An additional ablation study is provided to verify our design choices for the MLM filter.
翻訳日:2024-03-06 15:57:11 公開日:2024-03-05
# 文法的誤り訂正のためのメタ評価の再検討

Revisiting Meta-evaluation for Grammatical Error Correction ( http://arxiv.org/abs/2403.02674v1 )

ライセンス: Link先を確認
Masamune Kobayashi, Masato Mita, Mamoru Komachi(参考訳) メトリクスは、文法的誤り訂正(gec)における自動評価の基礎であり、人間の判断との相関に依存するメトリクス(メタ評価)を評価する。 しかしながら、gecにおける従来のメタ評価は、評価粒度の不一致によるバイアスや、古典的なシステムを用いた古い設定など、いくつかの課題に直面している。 これらの問題はメトリクスの誤解釈を引き起こし、GEC技術の適用性を阻害する可能性がある。 これらの課題に対処するために,GECメタ評価のための新しいデータセットSEEDAを提案する。 SEEDAは、編集ベースと文ベースという2つの異なる粒度に沿った人間の評価による補正で構成され、大きな言語モデル(LLM)を含む12の最先端システムと異なる焦点を持つ2つの人間の修正を含んでいる。 文レベルのメタ評価の粒度の調整による相関性の改善の結果,既存の研究では編集基準が過小評価されていた可能性が示唆された。 さらに、古典的なシステムからニューラルネットワークへ変化すると、ほとんどのメトリクスの相関は減少し、伝統的なメトリクスは、多くの編集を施した流動的な修正文を評価するのに比較的貧弱であることを示す。

Metrics are the foundation for automatic evaluation in grammatical error correction (GEC), with their evaluation of the metrics (meta-evaluation) relying on their correlation with human judgments. However, conventional meta-evaluations in English GEC encounter several challenges including biases caused by inconsistencies in evaluation granularity, and an outdated setup using classical systems. These problems can lead to misinterpretation of metrics and potentially hinder the applicability of GEC techniques. To address these issues, this paper proposes SEEDA, a new dataset for GEC meta-evaluation. SEEDA consists of corrections with human ratings along two different granularities: edit-based and sentence-based, covering 12 state-of-the-art systems including large language models (LLMs), and two human corrections with different focuses. The results of improved correlations by aligning the granularity in the sentence-level meta-evaluation, suggest that edit-based metrics may have been underestimated in existing studies. Furthermore, correlations of most metrics decrease when changing from classical to neural systems, indicating that traditional metrics are relatively poor at evaluating fluently corrected sentences with many edits.
翻訳日:2024-03-06 15:56:42 公開日:2024-03-05
# 精密医学への道のりにおける初期量子コンピューティング応用

Early quantum computing applications on the path towards precision medicine ( http://arxiv.org/abs/2403.02733v1 )

ライセンス: Link先を確認
Frederik F. Fl\"other(参考訳) ここ数年、量子コンピューティングのラボから産業への移行が急速に進んでいる。 医療と生命科学では40以上の概念実証実験や研究が行われており、それらの多くは実際の量子ハードウェア上で実行されている。 主要な投資は、医学における量子アプリケーションやハードウェアに割り当てられた数十億ドルで行われてきた。 医薬や生命科学の用途に加えて、臨床や医学の応用もますます多くなってきている。 本章では、ゲノム学と臨床研究、診断、治療と介入を含む、(手術)医療に関連する3つの重要なユースケースに焦点を当てる。 研究している組織の例とユースケースが述べられ、実用的な量子コンピューティングアプリケーションの開発をさらに加速するアイデアが述べられている。

The last few years have seen rapid progress in transitioning quantum computing from lab to industry. In healthcare and life sciences, more than 40 proof-of-concept experiments and studies have been conducted; an increasing number of these are even run on real quantum hardware. Major investments have been made with hundreds of millions of dollars already allocated towards quantum applications and hardware in medicine. In addition to pharmaceutical and life sciences uses, clinical and medical applications are now increasingly coming into the picture. This chapter focuses on three key use case areas associated with (precision) medicine, including genomics and clinical research, diagnostics, and treatments and interventions. Examples of organizations and the use cases they have been researching are given; ideas how the development of practical quantum computing applications can be further accelerated are described.
翻訳日:2024-03-06 15:51:35 公開日:2024-03-05
# ニューラルネットワークを用いた制約系モデリングのための2段階学習法

A Two-Stage Training Method for Modeling Constrained Systems With Neural Networks ( http://arxiv.org/abs/2403.02730v1 )

ライセンス: Link先を確認
C. Coelho, M. Fernanda P. Costa, L.L. Ferr\'as(参考訳) 実世界のシステムは、しばしば制約付き最適化問題として定式化される。 ニューラルネットワーク(NN)に制約を組み込む手法(Neural Ordinary Differential Equations(Neural ODE)など)が用いられている。 しかし、これらは試行錯誤による手動チューニングを必要とするハイパーパラメータを導入し、生成されたモデルに制約が組み込まれることに疑問を呈する。 本稿では,モデル制約系に対する単純かつ効果的かつペナルティのないアプローチであるニューラルODEの2段階トレーニング手法について詳述する。 このアプローチでは、制約付き最適化問題は2つの段階で解決される2つの制約なしサブプロブレムとして書き換えられる。 最初の段階は、制約違反の尺度を最小化することで、実現可能なNNパラメータを見つけることを目的としている。 第2段階は、許容領域内に留まりながら損失関数を最小化し、最適なNNパラメータを見つけることを目的としている。 実験により,本手法が制約を満たすモデルを生成し,予測性能を向上させることを実証した。 これにより、重要なシステムプロパティへの準拠の確保と、データ量要求の削減に寄与する。 さらに,提案手法により最適解への収束性が向上し,ニューラルodeモデルの説明性が向上することを示す。 提案する2段階のトレーニング手法は,任意のnnアーキテクチャで使用できる。

Real-world systems are often formulated as constrained optimization problems. Techniques to incorporate constraints into Neural Networks (NN), such as Neural Ordinary Differential Equations (Neural ODEs), have been used. However, these introduce hyperparameters that require manual tuning through trial and error, raising doubts about the successful incorporation of constraints into the generated model. This paper describes in detail the two-stage training method for Neural ODEs, a simple, effective, and penalty parameter-free approach to model constrained systems. In this approach the constrained optimization problem is rewritten as two unconstrained sub-problems that are solved in two stages. The first stage aims at finding feasible NN parameters by minimizing a measure of constraints violation. The second stage aims to find the optimal NN parameters by minimizing the loss function while keeping inside the feasible region. We experimentally demonstrate that our method produces models that satisfy the constraints and also improves their predictive performance. Thus, ensuring compliance with critical system properties and also contributing to reducing data quantity requirements. Furthermore, we show that the proposed method improves the convergence to an optimal solution and improves the explainability of Neural ODE models. Our proposed two-stage training method can be used with any NN architectures.
翻訳日:2024-03-06 15:51:25 公開日:2024-03-05
# HARGPT:LLMはゼロショット人間活動認識器か?

HARGPT: Are LLMs Zero-Shot Human Activity Recognizers? ( http://arxiv.org/abs/2403.02727v1 )

ライセンス: Link先を確認
Sijie Ji, Xinzhe Zheng, Chenshu Wu(参考訳) 物理世界を理解するために,Cyber-Physical Systems (CPS)とシームレスに統合された基礎モデルとして,LLM(Large Language Models)の可能性について議論が続いている。 本稿では, ゼロショット人間行動認識(HAR)が可能なLDMについて, 以下の疑問に答えるために, ケーススタディを実施している。 HARGPTは,LLMが生のIMUデータを理解し,ゼロショット方式でHARタスクを適切なプロンプトのみで実行できることを示し,肯定的な回答を示す。 HARGPTは生のIMUデータをLSMに入力し、ロールプレイとステップバイステップ戦略を利用してプロンプトを行う。 異なるクラス間類似性を持つ2つの公開データセットを用いて,gpt4上でhargptをベンチマークし,従来の機械学習と最先端の深層分類モデルに基づいて,さまざまなベースラインを比較した。 注目すべきは、LLMは生のIMUデータから人間の活動を認識し、両方のデータセットのベースラインを一貫して上回っていることだ。 以上の結果から,LLMは知識ベースに基づいて生のIMUデータを解釈し,実世界の生のセンサデータを効果的に分析する有望な可能性を秘めていることが明らかとなった。

There is an ongoing debate regarding the potential of Large Language Models (LLMs) as foundational models seamlessly integrated with Cyber-Physical Systems (CPS) for interpreting the physical world. In this paper, we carry out a case study to answer the following question: Are LLMs capable of zero-shot human activity recognition (HAR). Our study, HARGPT, presents an affirmative answer by demonstrating that LLMs can comprehend raw IMU data and perform HAR tasks in a zero-shot manner, with only appropriate prompts. HARGPT inputs raw IMU data into LLMs and utilizes the role-play and think step-by-step strategies for prompting. We benchmark HARGPT on GPT4 using two public datasets of different inter-class similarities and compare various baselines both based on traditional machine learning and state-of-the-art deep classification models. Remarkably, LLMs successfully recognize human activities from raw IMU data and consistently outperform all the baselines on both datasets. Our findings indicate that by effective prompting, LLMs can interpret raw IMU data based on their knowledge base, possessing a promising potential to analyze raw sensor data of the physical world effectively.
翻訳日:2024-03-06 15:51:06 公開日:2024-03-05
# ジェネレーティブAIにおけるバイアス

Bias in Generative AI ( http://arxiv.org/abs/2403.02726v1 )

ライセンス: Link先を確認
Mi Zhou, Vibhanshu Abhishek, Timothy Derdenger, Jaymo Kim, Kannan Srinivasan(参考訳) 本研究では,汎用人工知能(ai)ツールであるmidjourney,stable diffusion,dalle 2で生成した画像を分析し,ai生成器の潜在的なバイアスについて検討した。 分析の結果,(1)システマティックな性別や人種的偏見,(2)表情や外見の微妙な偏見など,AIジェネレータの2つの大まかな関心領域が明らかになった。 まず、すべてのAIジェネレータが女性やアフリカ系アメリカ人に対する偏見を示していた。 さらに、我々の分析で明らかになった明らかな性別や人種の偏見は、労働力統計やGoogleの画像と比較すると、現状よりもさらに顕著であり、我々の社会で積極的に試みている有害な偏見が増していることがわかった。 第2に,感情や外見の描写において,よりニュアンス的な偏見が明らかになった。 例えば、女性はより笑顔と幸福で若く描かれ、男性はより中立的な表現と怒りを持つ年長者として描かれ、生成的AIモデルが意図せず女性を男性よりも寛容で有能でないと描写するリスクがあった。 このようなニュアンスバイアスは、その過度な性質上、無意識に知覚を透過し、修正がより難しいため、より問題となる可能性がある。 バイアスの程度はモデルによって異なるが、バイアスの方向は商用とオープンソースのAIジェネレータの両方で一貫していた。 これらのツールが一般的になるにつれて、我々の研究は、生成的AIの様々なバイアスを特定し緩和する緊急性を強調し、AI技術がより包括的な未来においてすべての人類に利益をもたらすことを確実にするコミットメントを強化する。

This study analyzed images generated by three popular generative artificial intelligence (AI) tools - Midjourney, Stable Diffusion, and DALLE 2 - representing various occupations to investigate potential bias in AI generators. Our analysis revealed two overarching areas of concern in these AI generators, including (1) systematic gender and racial biases, and (2) subtle biases in facial expressions and appearances. Firstly, we found that all three AI generators exhibited bias against women and African Americans. Moreover, we found that the evident gender and racial biases uncovered in our analysis were even more pronounced than the status quo when compared to labor force statistics or Google images, intensifying the harmful biases we are actively striving to rectify in our society. Secondly, our study uncovered more nuanced prejudices in the portrayal of emotions and appearances. For example, women were depicted as younger with more smiles and happiness, while men were depicted as older with more neutral expressions and anger, posing a risk that generative AI models may unintentionally depict women as more submissive and less competent than men. Such nuanced biases, by their less overt nature, might be more problematic as they can permeate perceptions unconsciously and may be more difficult to rectify. Although the extent of bias varied depending on the model, the direction of bias remained consistent in both commercial and open-source AI generators. As these tools become commonplace, our study highlights the urgency to identify and mitigate various biases in generative AI, reinforcing the commitment to ensuring that AI technologies benefit all of humanity for a more inclusive future.
翻訳日:2024-03-06 15:50:44 公開日:2024-03-05
# グラフニューラルネットワークのための最小トポロジー攻撃

Minimum Topology Attacks for Graph Neural Networks ( http://arxiv.org/abs/2403.02723v1 )

ライセンス: Link先を確認
Mengmei Zhang, Xiao Wang, Chuan Shi, Lingjuan Lyu, Tianchi Yang, Junping Du(参考訳) グラフニューラルネットワーク(GNN)の普及に伴い、敵のトポロジ攻撃に対する堅牢性に大きな注目を集めている。 多くの攻撃手法が提案されているが、主に固定予算攻撃に焦点を当てており、目標ノードの固定予算内で最も敵対的な摂動を見つけることを目的としている。 しかし、各ノードの様々な堅牢性を考えると、固定予算によって生じる必然的なジレンマ、すなわち予算が比較的小さい場合には摂動が成功せず、大きすぎると余分な摂動が不可視性を損なう。 このジレンマを破るために,我々は,各ノードに対する攻撃の成功に十分な最小摂動を適応的に見つけることを目的とした,minimum-budget topology attackという新しいタイプのトポロジー攻撃を提案する。 そこで本研究では,離散トポロジにおける非凸制約最適化を効果的に解くために,動的射影勾配降下アルゴリズムに基づくMiBTackと呼ばれる攻撃モデルを提案する。 3つのGNNと4つの実世界のデータセットの大規模な結果から、MiBTackは最小の摂動エッジで分類されたすべてのターゲットノードをうまく導くことができる。 さらに、得られた最小予算は、ノードのロバスト性を測定するために使用できるため、現在の固定予算トポロジ攻撃が提供するもの以上の、ノードのロバスト性、トポロジ、不確実性の関係を探索することができる。

With the great popularity of Graph Neural Networks (GNNs), their robustness to adversarial topology attacks has received significant attention. Although many attack methods have been proposed, they mainly focus on fixed-budget attacks, aiming at finding the most adversarial perturbations within a fixed budget for target node. However, considering the varied robustness of each node, there is an inevitable dilemma caused by the fixed budget, i.e., no successful perturbation is found when the budget is relatively small, while if it is too large, the yielding redundant perturbations will hurt the invisibility. To break this dilemma, we propose a new type of topology attack, named minimum-budget topology attack, aiming to adaptively find the minimum perturbation sufficient for a successful attack on each node. To this end, we propose an attack model, named MiBTack, based on a dynamic projected gradient descent algorithm, which can effectively solve the involving non-convex constraint optimization on discrete topology. Extensive results on three GNNs and four real-world datasets show that MiBTack can successfully lead all target nodes misclassified with the minimum perturbation edges. Moreover, the obtained minimum budget can be used to measure node robustness, so we can explore the relationships of robustness, topology, and uncertainty for nodes, which is beyond what the current fixed-budget topology attacks can offer.
翻訳日:2024-03-06 15:50:14 公開日:2024-03-05
# マルチスケールサブグラフコントラスト学習

Multi-Scale Subgraph Contrastive Learning ( http://arxiv.org/abs/2403.02719v1 )

ライセンス: Link先を確認
Yanbei Liu, Yu Zhao, Xiao Wang, Lei Geng and Zhitao Xiao(参考訳) グラフレベルのコントラスト学習は、2つの拡張グラフを対比して各グラフの表現を学習することを目的としており、注目されている。 先行研究は通常、グラフとその拡張グラフを正の対、さもなくば負の対と仮定する。 しかしながら、グラフ構造が常に複雑で多スケールであることはよく知られているので、基本的な疑問が生じる。 実験分析により,拡張グラフ構造の意味情報は元のグラフ構造と一致しない可能性があり,2つの拡張グラフが正対か負対かは,多スケール構造と高い相関関係にあることが明らかとなった。 そこで本研究では,細粒度な意味情報を特徴付けることができるマルチスケール・サブグラフコントラスト学習手法を提案する。 具体的には,サブグラフサンプリングに基づいて異なるスケールでグローバルおよびローカルなビューを生成し,それらの意味的関連に基づいて複数のコントラスト関係を構築し,よりリッチな自己教師付き信号を提供する。 8つのグラフ分類実世界のデータセットに関する広範な実験とパラメトリック解析は,提案手法の有効性をよく示している。

Graph-level contrastive learning, aiming to learn the representations for each graph by contrasting two augmented graphs, has attracted considerable attention. Previous studies usually simply assume that a graph and its augmented graph as a positive pair, otherwise as a negative pair. However, it is well known that graph structure is always complex and multi-scale, which gives rise to a fundamental question: after graph augmentation, will the previous assumption still hold in reality? By an experimental analysis, we discover the semantic information of an augmented graph structure may be not consistent as original graph structure, and whether two augmented graphs are positive or negative pairs is highly related with the multi-scale structures. Based on this finding, we propose a multi-scale subgraph contrastive learning method which is able to characterize the fine-grained semantic information. Specifically, we generate global and local views at different scales based on subgraph sampling, and construct multiple contrastive relationships according to their semantic associations to provide richer self-supervised signals. Extensive experiments and parametric analysis on eight graph classification real-world datasets well demonstrate the effectiveness of the proposed method.
翻訳日:2024-03-06 15:49:45 公開日:2024-03-05
# dp-cre:分離コントラスト学習と記憶構造保存による連続的関係抽出

DP-CRE: Continual Relation Extraction via Decoupled Contrastive Learning and Memory Structure Preservation ( http://arxiv.org/abs/2403.02718v1 )

ライセンス: Link先を確認
Mengyi Huang, Meng Xiao, Ludi Wang, Yi Du(参考訳) 連続関係抽出(CRE)は、非定常データストリームから関係知識を漸進的に学習することを目的としている。 新しいリレーショナルタスクの導入は、以前の学習した情報を過大評価することができるため、この領域では破滅的な忘れることが大きな課題となる。 現在のリプレイベースのトレーニングパラダイムは、すべてのデータを統一的に優先順位付けし、複数のラウンドを通じてメモリサンプルをトレーニングする。 この問題に対処するために,事前情報保存と新たな知識獲得のプロセスを切り離したDecouPled CRE(DP-CRE)フレームワークを導入する。 この枠組みは,新たな関係クラスが出現するにつれて,埋め込み空間における変化を検証し,知識の保存と獲得を明確に管理する。 大規模な実験により、DP-CREは他のCREベースラインを2つのデータセットで大幅に上回った。

Continuous Relation Extraction (CRE) aims to incrementally learn relation knowledge from a non-stationary stream of data. Since the introduction of new relational tasks can overshadow previously learned information, catastrophic forgetting becomes a significant challenge in this domain. Current replay-based training paradigms prioritize all data uniformly and train memory samples through multiple rounds, which would result in overfitting old tasks and pronounced bias towards new tasks because of the imbalances of the replay set. To handle the problem, we introduce the DecouPled CRE (DP-CRE) framework that decouples the process of prior information preservation and new knowledge acquisition. This framework examines alterations in the embedding space as new relation classes emerge, distinctly managing the preservation and acquisition of knowledge. Extensive experiments show that DP-CRE significantly outperforms other CRE baselines across two datasets.
翻訳日:2024-03-06 15:49:27 公開日:2024-03-05
# 事前学習モデルに基づく行動警告識別の可能性

Pre-trained Model-based Actionable Warning Identification: A Feasibility Study ( http://arxiv.org/abs/2403.02716v1 )

ライセンス: Link先を確認
Xiuting Ge and Chunrong Fang and Quanjun Zhang and Daoyuan Wu and Bowen Yu and Qirui Zheng and An Guo and Shangwei Lin and Zhihong Zhao and Yang Liu and Zhenyu Chen(参考訳) Actionable Warning Identification (AWI)は、静的コードアナライザのユーザビリティ向上に重要な役割を果たす。 現在、ラベル付き警告からAWI分類器を主に学習する機械学習(ML)ベースのAWIアプローチが特に一般的である。 しかし、これらのアプローチは、分類器を開発するためのラベル付き警告の数が限られているため、性能が制限される問題に直面している。 最近では、何十億ものテキスト/コードトークンを通じてトレーニングされ、様々なコード関連のタスクでかなりの成功を収めたPTM(Pre-Trained Models)が、上記の問題を回避する可能性がある。 それにもかかわらず、AWI上でのPTMの性能は体系的に研究されておらず、それらの長所と短所を理解するのにギャップが残されている。 本稿では,AWI に様々な PTM を適用する可能性について検討する。 10の大規模およびオープンソースプロジェクトから10K以上のSpotBugs警告を広範囲に評価することにより、調査対象のPTMは、最先端のMLベースのAWIアプローチよりも、一貫して9.85%〜21.12%向上していることがわかった。 さらに、典型的なptmベースのawiワークフローにおける3つの主要な側面(データ前処理、モデルトレーニング、モデル予測)の影響を調べる。 さらに,現在のPTMのAWIにおける性能低下の原因を明らかにする。 本研究は,今後,PTMベースのAWIを強化するための実践的ガイドラインを提供する。

Actionable Warning Identification (AWI) plays a pivotal role in improving the usability of static code analyzers. Currently, Machine Learning (ML)-based AWI approaches, which mainly learn an AWI classifier from labeled warnings, are notably common. However, these approaches still face the problem of restricted performance due to the direct reliance on a limited number of labeled warnings to develop a classifier. Very recently, Pre-Trained Models (PTMs), which have been trained through billions of text/code tokens and demonstrated substantial success applications on various code-related tasks, could potentially circumvent the above problem. Nevertheless, the performance of PTMs on AWI has not been systematically investigated, leaving a gap in understanding their pros and cons. In this paper, we are the first to explore the feasibility of applying various PTMs for AWI. By conducting the extensive evaluation on 10K+ SpotBugs warnings from 10 large-scale and open-source projects, we observe that all studied PTMs are consistently 9.85%~21.12% better than the state-of-the-art ML-based AWI approaches. Besides, we investigate the impact of three primary aspects (i.e., data preprocessing, model training, and model prediction) in the typical PTM-based AWI workflow. Further, we identify the reasons for current PTMs' underperformance on AWI. Based on our findings, we provide several practical guidelines to enhance PTM-based AWI in future work.
翻訳日:2024-03-06 15:49:09 公開日:2024-03-05
# 横断言語ホライズン:ベトナム大言語モデルの微細化と包括的評価

Crossing Linguistic Horizons: Finetuning and Comprehensive Evaluation of Vietnamese Large Language Models ( http://arxiv.org/abs/2403.02715v1 )

ライセンス: Link先を確認
Sang T. Truong, Duc Q. Nguyen, Toan Nguyen, Dong D. Le, Nhi N. Truong, Tho Quan, Sanmi Koyejo(参考訳) 大規模言語モデル(LLM)の最近の進歩は、人工知能の進化における重要性を裏付けている。 しかし、多言語データセットでの広範な事前トレーニングにもかかわらず、オープンソースのllmはベトナム語の処理において限定的な効果を示している。 この課題は、ベトナムのLLM評価に適した、体系的なベンチマークデータセットとメトリクスが存在しないことで悪化している。 これらの問題を緩和するため,我々はベトナムに特化したllmを微調整し,10の共通タスクと31のメトリクスを包含する総合評価フレームワークを開発した。 以上の結果より, ベトナムでは, 微調整LDMは理解能力と生成能力が向上していることが明らかとなった。 さらに,よりパラメータの多いモデルではバイアスや未調整のアウトプットが増加し,LLMの性能に影響を及ぼす要因はトレーニングや微調整のデータセットの品質である。 これらの知見は,LLMの性能向上において,高品質なデータセットを用いた精密微調整の重要性を浮き彫りにした。

Recent advancements in large language models (LLMs) have underscored their importance in the evolution of artificial intelligence. However, despite extensive pretraining on multilingual datasets, available open-sourced LLMs exhibit limited effectiveness in processing Vietnamese. The challenge is exacerbated by the absence of systematic benchmark datasets and metrics tailored for Vietnamese LLM evaluation. To mitigate these issues, we have finetuned LLMs specifically for Vietnamese and developed a comprehensive evaluation framework encompassing 10 common tasks and 31 metrics. Our evaluation results reveal that the fine-tuned LLMs exhibit enhanced comprehension and generative capabilities in Vietnamese. Moreover, our analysis indicates that models with more parameters can introduce more biases and uncalibrated outputs and the key factor influencing LLM performance is the quality of the training or fine-tuning datasets. These insights underscore the significance of meticulous fine-tuning with high-quality datasets in enhancing LLM performance.
翻訳日:2024-03-06 15:48:44 公開日:2024-03-05
# domainverse:チューニングフリー適応ドメイン一般化のための実世界の分散シフトに対するベンチマーク

DomainVerse: A Benchmark Towards Real-World Distribution Shifts For Tuning-Free Adaptive Domain Generalization ( http://arxiv.org/abs/2403.02714v1 )

ライセンス: Link先を確認
Feng Hou, Jin Yuan, Ying Yang, Yang Liu, Yang Zhang, Cheng Zhong, Zhongchao Shi, Jianping Fan, Yong Rui and Zhiqiang He(参考訳) ドメイン適応やドメイン一般化といった従来のクロスドメインタスクは、ソースドメインデータによるトレーニングモデルに大きく依存しています。 近年の視覚言語モデル(VLM)の進歩により、学習済みのソースモデルを事前のドメイン知識を備えた任意のターゲットドメインに直接適応させるクロスドメインタスクが変化し、このタスクを適応ドメイン一般化(ADG)と命名する。 しかし、現在のクロスドメインデータセットには、非現実的ドメイン、不明瞭なドメイン定義、細かい粒度のドメイン分解のできないなど、多くの制限があります。 ドメインシフトの階層的定義の導入により、domainverseは390の細粒度の現実的なドメインから約0.5万の画像からなる。 構築したDomainVerseとVLMの助けを借りて、調整不要適応型ドメイン一般化のためのDomain CLIPとDomain++ CLIPという2つの手法を提案する。 包括的かつ包括的な実験は、データセットの重要性と提案手法の有効性を示す。

Traditional cross-domain tasks, including domain adaptation and domain generalization, rely heavily on training model by source domain data. With the recent advance of vision-language models (VLMs), viewed as natural source models, the cross-domain task changes to directly adapt the pre-trained source model to arbitrary target domains equipped with prior domain knowledge, and we name this task Adaptive Domain Generalization (ADG). However, current cross-domain datasets have many limitations, such as unrealistic domains, unclear domain definitions, and the inability to fine-grained domain decomposition, which drives us to establish a novel dataset DomainVerse for ADG. Benefiting from the introduced hierarchical definition of domain shifts, DomainVerse consists of about 0.5 million images from 390 fine-grained realistic domains. With the help of the constructed DomainVerse and VLMs, we propose two methods called Domain CLIP and Domain++ CLIP for tuning-free adaptive domain generalization. Extensive and comprehensive experiments demonstrate the significance of the dataset and the effectiveness of the proposed methods.
翻訳日:2024-03-06 15:48:30 公開日:2024-03-05
# Android in the Zoo:GUIエージェントのためのアクションのチェーン

Android in the Zoo: Chain-of-Action-Thought for GUI Agents ( http://arxiv.org/abs/2403.02713v1 )

ライセンス: Link先を確認
Jiwen Zhang, Jihao Wu, Yihua Teng, Minghui Liao, Nuo Xu, Xiao Xiao, Zhongyu Wei, Duyu Tang(参考訳) 大きな言語モデル(LLM)は、スマートフォン向けの自律的なGUIエージェントの急増につながり、APIの一連のアクションを予測することによって自然言語によって引き起こされるタスクを完了させる。 タスクは過去のアクションや視覚的な観察に大きく依存しているが、既存の研究は通常、中間のスクリーンショットや画面操作による意味的な情報はほとんど考慮されていない。 これを解決するために、この研究は、前回のアクション、現在のスクリーン、さらに重要なことは、どのアクションを実行するべきか、選択されたアクションによって導かれる結果について、アクション思考を記述する、Chain-of-Action-Thought (dubed CoAT)を提示する。 オフザシェル LLM 上のゼロショット設定では、CoAT は標準コンテキストモデリングと比較して目標の進捗を著しく改善する。 本研究をさらに促進するために,18,643種類のスクリーンアクションペアとチェーン・オブ・アクション・イン・ザ・ゾウアノテーションを含むベンチマークandroid-in-the-zoo(aitz)を構築した。 実験の結果、AitZデータセット上で2億のモデルを微調整すると、CogAgent-Chat-18Bで同等のパフォーマンスが得られることがわかった。

Large language model (LLM) leads to a surge of autonomous GUI agents for smartphone, which completes a task triggered by natural language through predicting a sequence of actions of API. Even though the task highly relies on past actions and visual observations, existing studies typical consider little semantic information carried out by intermediate screenshots and screen operations. To address this, this work presents Chain-of-Action-Thought (dubbed CoAT), which takes the description of the previous actions, the current screen, and more importantly the action thinking of what actions should be performed and the outcomes led by the chosen action. We demonstrate that, in a zero-shot setting upon an off-the-shell LLM, CoAT significantly improves the goal progress compared to standard context modeling. To further facilitate the research in this line, we construct a benchmark Android-In-The-Zoo (AitZ), which contains 18,643 screen-action pairs together with chain-of-action-thought annotations. Experiments show that fine-tuning a 200M model on our AitZ dataset achieves on par performance with CogAgent-Chat-18B.
翻訳日:2024-03-06 15:48:11 公開日:2024-03-05
# Breeze-7B技術報告

Breeze-7B Technical Report ( http://arxiv.org/abs/2403.02712v1 )

ライセンス: Link先を確認
Chan-Jan Hsu, Chang-Le Liu, Feng-Ting Liao, Po-Chun Hsu, Yi-Chang Chen, Da-Shan Shiu(参考訳) Breeze-7BはMistral-7Bをベースとしたオープンソースの言語モデルであり、伝統的な中国語における言語理解とチャットボット指向の機能の改善の必要性に対処するために設計された。 本稿では,Breeze-7Bモデルの事前訓練,微調整,評価段階について概説する。 ベースモデルとチャットモデルのBreeze-7Bファミリは、言語理解とチャットボット指向のタスクにおいて優れたパフォーマンスを示し、複雑性クラスに匹敵するモデルのいくつかのベンチマークでトップに達した。

Breeze-7B is an open-source language model based on Mistral-7B, designed to address the need for improved language comprehension and chatbot-oriented capabilities in Traditional Chinese. This technical report provides an overview of the additional pretraining, finetuning, and evaluation stages for the Breeze-7B model. The Breeze-7B family of base and chat models exhibits good performance on language comprehension and chatbot-oriented tasks, reaching the top in several benchmarks among models comparable in its complexity class.
翻訳日:2024-03-06 15:47:50 公開日:2024-03-05
# fastocc:2d鳥の目視と遠近視を利用した3次元占有率予測の高速化

FastOcc: Accelerating 3D Occupancy Prediction by Fusing the 2D Bird's-Eye View and Perspective View ( http://arxiv.org/abs/2403.02710v1 )

ライセンス: Link先を確認
Jiawei Hou, Xiaoyan Li, Wenhao Guan, Gang Zhang, Di Feng, Yuheng Du, Xiangyang Xue, Jian Pu(参考訳) 自律運転において、3D占有率予測は、従来の3Dオブジェクト検出や鳥の目視(BEV)セマンティックセグメンテーションのような認識タスクと比較して、3Dシーンのより包括的な理解のために、ボクセル的なステータスとセマンティックラベルを出力する。 最近の研究者は、ビュー変換技術、接地ラベル生成、優れたパフォーマンスを達成するための精巧なネットワーク設計など、このタスクの様々な側面を調査している。 しかし、自動運転車で走る上で重要な推論速度は無視されている。 この目的のためにFastOccと呼ばれる新しい手法が提案されている。 入力画像解像度、画像バックボーン、ビュートランスフォーメーション、占有率予測ヘッドを含む4つの部分からネットワーク効果と遅延を慎重に解析することにより、占有率予測ヘッドはその精度を保ちながらモデルを加速するかなりのポテンシャルを有することがわかった。 このコンポーネントの改善を目的として、時間を要する3D畳み込みネットワークを新しい残像型アーキテクチャに置き換える。これにより、特徴は主に軽量な2D BEV畳み込みネットワークによって消化され、元の画像特徴から補足された3Dボクセル機能を統合することで補償される。 Occ3D-nuScenesベンチマークの実験は、FastOccが高速な推論速度で最先端の結果を達成することを示した。

In autonomous driving, 3D occupancy prediction outputs voxel-wise status and semantic labels for more comprehensive understandings of 3D scenes compared with traditional perception tasks, such as 3D object detection and bird's-eye view (BEV) semantic segmentation. Recent researchers have extensively explored various aspects of this task, including view transformation techniques, ground-truth label generation, and elaborate network design, aiming to achieve superior performance. However, the inference speed, crucial for running on an autonomous vehicle, is neglected. To this end, a new method, dubbed FastOcc, is proposed. By carefully analyzing the network effect and latency from four parts, including the input image resolution, image backbone, view transformation, and occupancy prediction head, it is found that the occupancy prediction head holds considerable potential for accelerating the model while keeping its accuracy. Targeted at improving this component, the time-consuming 3D convolution network is replaced with a novel residual-like architecture, where features are mainly digested by a lightweight 2D BEV convolution network and compensated by integrating the 3D voxel features interpolated from the original image features. Experiments on the Occ3D-nuScenes benchmark demonstrate that our FastOcc achieves state-of-the-art results with a fast inference speed.
翻訳日:2024-03-06 15:47:41 公開日:2024-03-05
# 勾配誘導モデル摂動による医用視覚質問応答タスクの一般化の促進

Enhancing Generalization in Medical Visual Question Answering Tasks via Gradient-Guided Model Perturbation ( http://arxiv.org/abs/2403.02707v1 )

ライセンス: Link先を確認
Gang Liu, Hongyang Li, Zerui He, Shenjun Zhong(参考訳) 事前学習された視覚言語モデルを活用することは、下流視覚質問応答(VQA)アプリケーションの性能向上に広く採用されている。 しかし、医療用VQAの専門分野において、利用可能なデータの不足は、信頼性の高いモデル一般化を実現する上で重要な障壁となる。 データ中心およびモデル中心の観点から、モデル一般化を強化するために多くの方法が提案されている。 データ拡張技術はデータセットを豊かにするのに対して、さまざまな正規化アプローチは、特に限られたデータサンプルのトレーニングにおいて、モデルの過度な適合を防止することを目的としている。 本稿では,下流医療用VQAタスクのモデル一般化を改善するため,事前学習と微調整の両段階における多モードモデルの視覚的エンコーダに勾配誘導パラメータ摂動を組み込む手法を提案する。 小さな摂動は、最適化者の過去の更新方向とは逆の、最適化ランドスケープにおける移動平均勾配の方向と整合して、適応的に生成される。 その後、モデルのビジュアルエンコーダに注入される。 その結果,画像キャプションデータセットが大幅に小さくても,VQA-RADとSLAKEの双方で競合する結果が得られることがわかった。

Leveraging pre-trained visual language models has become a widely adopted approach for improving performance in downstream visual question answering (VQA) applications. However, in the specialized field of medical VQA, the scarcity of available data poses a significant barrier to achieving reliable model generalization. Numerous methods have been proposed to enhance model generalization, addressing the issue from data-centric and model-centric perspectives. Data augmentation techniques are commonly employed to enrich the dataset, while various regularization approaches aim to prevent model overfitting, especially when training on limited data samples. In this paper, we introduce a method that incorporates gradient-guided parameter perturbations to the visual encoder of the multimodality model during both pre-training and fine-tuning phases, to improve model generalization for downstream medical VQA tasks. The small perturbation is adaptively generated by aligning with the direction of the moving average gradient in the optimization landscape, which is opposite to the directions of the optimizer's historical updates. It is subsequently injected into the model's visual encoder. The results show that, even with a significantly smaller pre-training image caption dataset, our approach achieves competitive outcomes on both VQA-RAD and SLAKE datasets.
翻訳日:2024-03-06 15:47:13 公開日:2024-03-05
# ゲームプレイ改善のための対戦ゲーム適応型バックグラウンド音楽

Fighting Game Adaptive Background Music for Improved Gameplay ( http://arxiv.org/abs/2403.02701v1 )

ライセンス: Link先を確認
Ibrahim Khan, Thai Van Nguyen, Chollakorn Nimpattanavong, Ruck Thawonmas(参考訳) 本稿では,DareFightingICEにおける背景音楽(BGM)の適応的機能の追加による改善について述べる。 適応型BGMは、2022年のDareFightingICEコンペティションの勝者サウンドデザインのBGMを演奏する3つの異なるカテゴリーの楽器で構成されている。 BGMは、各楽器の音量を変更することで適応する。 各カテゴリーはゲームの異なる要素に接続されている。 次に、音声のみを入力として使用する深層強化学習AIエージェント(Blind DL AI)を用いて、適応的BGMを評価する実験を行う。 その結果,適応的BGMを使わずにプレイするよりも,適応的BGMを併用したBlind DL AIの性能が向上した。

This paper presents our work to enhance the background music (BGM) in DareFightingICE by adding adaptive features. The adaptive BGM consists of three different categories of instruments playing the BGM of the winner sound design from the 2022 DareFightingICE Competition. The BGM adapts by changing the volume of each category of instruments. Each category is connected to a different element of the game. We then run experiments to evaluate the adaptive BGM by using a deep reinforcement learning AI agent that only uses audio as input (Blind DL AI). The results show that the performance of the Blind DL AI improves while playing with the adaptive BGM as compared to playing without the adaptive BGM.
翻訳日:2024-03-06 15:46:51 公開日:2024-03-05
# 観測可能な測定のための量子ゼノモンテカルロ

Quantum Zeno Monte Carlo for observable measurement ( http://arxiv.org/abs/2403.02763v1 )

ライセンス: Link先を確認
Mancheon Han, Hyowon Park, and Sangkook Choi(参考訳) 論理量子プロセッサの出現は、誤り訂正量子計算の初期段階の始まりである。 ノイズの多い中間スケール量子 (NISQ) 時代とフォールトトレラント量子コンピューティング (FTQC) 時代の間の橋渡しとして、これらのデバイスとその後継者は古典的な課題の解決に革命をもたらす可能性がある。 量子コンピュータの重要な応用は、量子システムの可観測性を計算することである。 この問題は、量子多体および最適化問題の解決に不可欠である。 しかし、誤り訂正能力が限られているため、この新しい時代はまだノイズの影響を受けやすいため、新しい量子アルゴリズムは多項式複雑性とノイズ耐性を必要とする。 本稿では,量子ゼノモンテカルロと呼ばれる新しい雑音耐性・アンサツフリーアルゴリズムを提案する。 量子ゼノ効果とモンテカルロ積分を利用して、ターゲット固有状態への多段階の断熱遷移を行う。 静止状態エネルギー、励起状態エネルギー、グリーン関数などの動的物理的性質と同様に、変分パラメータを使わずに効率的に静的な性質を見つけることができる。 このアルゴリズムは、量子位相推定よりも大幅に低い多項式計算コストと量子回路深さを提供する。

The advent of logical quantum processors marks the beginning of the early stages of error-corrected quantum computation. As a bridge between the noisy intermediate scale quantum (NISQ) era and the fault-tolerant quantum computing (FTQC) era, these devices and their successors have the potential to revolutionize the solution of classically challenging problems. An important application of quantum computers is to calculate observables of quantum systems. This problem is crucial for solving quantum many-body and optimization problems. However, due to limited error correction capabilities, this new era are still susceptible to noise, thereby necessitating new quantum algorithms with polynomial complexity as well as noisy-resilency. This paper proposes a new noise-resilient and ansatz-free algorithm, called Quantum Zeno Monte Carlo. It utilizes the quantum Zeno effect and Monte Carlo integration for multi-step adiabatic transitions to the target eigenstates. It can efficiently find static as well as dynamic physical properties such as ground state energy, excited state energies, and Green's function without the use of variational parameters. This algorithm offers a polynomial computational cost and quantum circuit depth that is significantly lower than the quantum phase estimation.
翻訳日:2024-03-06 15:41:07 公開日:2024-03-05
# 変分量子アルゴリズムの最適解における雑音誘起遷移

Noise-induced transition in optimal solutions of variational quantum algorithms ( http://arxiv.org/abs/2403.02762v1 )

ライセンス: Link先を確認
Andy C. Y. Li, Imanol Hernandez(参考訳) 変分量子アルゴリズムは、ノイズの多い中間スケール量子(NISQ)ハードウェア上で実用的な量子優位性を実現するための有望な候補である。 しかし、これらのアルゴリズムに関連するノイズの多いコスト関数の最適化は、量子アドバンテージに関連するシステムサイズにとって困難である。 本研究では,スピンチェーンモデルの基底状態を計算する変分量子固有ソルバ(vqe)アルゴリズムを解析し,雑音による最適解への急変を観測し,最適化に対するノイズの影響について検討する。 我々は、数値シミュレーション、IBM量子プロセッサユニット(QPU)を用いた実演、およびこの遷移の起源を示す理論的解析を紹介する。 本研究は,ノイズによる特徴を真のアルゴリズム結果と誤解しないように,注意深い分析が重要であることを示唆している。

Variational quantum algorithms are promising candidates for delivering practical quantum advantage on noisy intermediate-scale quantum (NISQ) hardware. However, optimizing the noisy cost functions associated with these algorithms is challenging for system sizes relevant to quantum advantage. In this work, we investigate the effect of noise on optimization by studying a variational quantum eigensolver (VQE) algorithm calculating the ground state of a spin chain model, and we observe an abrupt transition induced by noise to the optimal solutions. We will present numerical simulations, a demonstration using an IBM quantum processor unit (QPU), and a theoretical analysis indicating the origin of this transition. Our findings suggest that careful analysis is crucial to avoid misinterpreting the noise-induced features as genuine algorithm results.
翻訳日:2024-03-06 15:40:51 公開日:2024-03-05
# eコマースレコメンデーションにおける大規模言語モデルと機械学習の連携

Emerging Synergies Between Large Language Models and Machine Learning in Ecommerce Recommendations ( http://arxiv.org/abs/2403.02760v1 )

ライセンス: Link先を確認
Xiaonan Xu, Zheng Xu, Zhipeng Ling, Zhengyu Jin, ShuQian Du(参考訳) 電子商取引やWebアプリケーションの普及に伴い、レコメンダシステムは私たちの日常生活の重要な部分となり、ユーザの好みに基づいたパーソナライズされたレコメンデーションを提供しています。 ディープニューラルネットワーク(DNN)は、ユーザとアイテム間のインタラクションをシミュレートし、テキスト情報を組み込むことによってレコメンデーションシステムの改善に大きな進歩を遂げているが、これらのDNNベースのアプローチには、ユーザの興味を効果的に理解することの難しさや、テキスト情報の取得など、いくつかの制限がある。 様々な参照/未確認のレコメンデーションシナリオや予測の理由を一般化することは不可能である。 同時に、ChatGPTとGPT-4に代表される大規模言語モデル(LLM)の出現は、言語理解と生成の基本的なタスクにおける優れた能力と、その印象的な一般化と推論能力によって、自然言語処理(NLP)と人工知能(AI)の分野に革命をもたらした。 その結果、最近の研究はレコメンデーションシステムを改善するためにLLMの力を活用しようとしている。 推薦システム分野におけるこの研究方向の急速な発展を考えると、研究者や関係分野の実践者が洞察を得るためには、既存のLLM主導のレコメンデーションシステムを体系的にレビューする必要がある。 より具体的には、LLMを特徴エンコーダとして使用したユーザとアイテムの表現を学習するための代表的アプローチを最初に導入した。 次に, 事前学習, 微調整, プロンプトの3つのパラダイムから, 協調フィルタリングにおけるLLM手法の最近の進歩を概観した。 最後に、この新興分野の今後の方向性について包括的に議論した。

With the boom of e-commerce and web applications, recommender systems have become an important part of our daily lives, providing personalized recommendations based on the user's preferences. Although deep neural networks (DNNs) have made significant progress in improving recommendation systems by simulating the interaction between users and items and incorporating their textual information, these DNN-based approaches still have some limitations, such as the difficulty of effectively understanding users' interests and capturing textual information. It is not possible to generalize to different seen/unseen recommendation scenarios and reason about their predictions. At the same time, the emergence of large language models (LLMs), represented by ChatGPT and GPT-4, has revolutionized the fields of natural language processing (NLP) and artificial intelligence (AI) due to their superior capabilities in the basic tasks of language understanding and generation, and their impressive generalization and reasoning capabilities. As a result, recent research has sought to harness the power of LLM to improve recommendation systems. Given the rapid development of this research direction in the field of recommendation systems, there is an urgent need for a systematic review of existing LLM-driven recommendation systems for researchers and practitioners in related fields to gain insight into. More specifically, we first introduced a representative approach to learning user and item representations using LLM as a feature encoder. We then reviewed the latest advances in LLMs techniques for collaborative filtering enhanced recommendation systems from the three paradigms of pre-training, fine-tuning, and prompting. Finally, we had a comprehensive discussion on the future direction of this emerging field.
翻訳日:2024-03-06 15:40:35 公開日:2024-03-05
# インメモリ学習:大規模言語モデルのための宣言型学習フレームワーク

In-Memory Learning: A Declarative Learning Framework for Large Language Models ( http://arxiv.org/abs/2403.02757v1 )

ライセンス: Link先を確認
Bo Wang, Tianxiang Sun, Hang Yan, Siyin Wang, Qingyuan Cheng, Xipeng Qiu(参考訳) エージェントが人間ラベルのデータに頼らずに環境と協調できるかどうかの探求は興味深い研究トピックである。 宣言的記憶が過去の経験を要約する上で重要な役割を果たす知的生物のアライメントプロセスからインスピレーションを得て,新しい学習枠組みを提案する。 エージェントは過去の経験から洞察を十分に抽出し、既存のノートを精錬して更新し、環境におけるパフォーマンスを高める。 このプロセス全体がメモリコンポーネント内を透過し、自然言語で実装されるので、このフレームワークをインメモリ学習と呼ぶ。 また,自己改善プロセスを評価するために設計されたベンチマークの重要な機能についても検討した。 体系的な実験を通じて,我々のフレームワークの有効性を実証し,この問題に対する洞察を与える。

The exploration of whether agents can align with their environment without relying on human-labeled data presents an intriguing research topic. Drawing inspiration from the alignment process observed in intelligent organisms, where declarative memory plays a pivotal role in summarizing past experiences, we propose a novel learning framework. The agents adeptly distill insights from past experiences, refining and updating existing notes to enhance their performance in the environment. This entire process transpires within the memory components and is implemented through natural language, so we character this framework as In-memory Learning. We also delve into the key features of benchmarks designed to evaluate the self-improvement process. Through systematic experiments, we demonstrate the effectiveness of our framework and provide insights into this problem.
翻訳日:2024-03-06 15:40:01 公開日:2024-03-05
# 大規模言語モデルのための汎用能力保存型ロールプロンプティングガイド付きドメイン適応

Role Prompting Guided Domain Adaptation with General Capability Preserve for Large Language Models ( http://arxiv.org/abs/2403.02756v1 )

ライセンス: Link先を確認
Rui Wang, Fei Mi, Yi Chen, Boyang Xue, Hongru Wang, Qi Zhu, Kam-Fai Wong, Ruifeng Xu(参考訳) 特定のドメインに合わせると、LLMは破滅的な忘れを経験し、一般的な能力を妥協し、最適なユーザエクスペリエンスをもたらす傾向があります。 さらに、複数のドメインに対する汎用モデルを同時に作成することで、ドメイン間の混乱によって全体的なパフォーマンスが低下することが多い。 これらの問題に対応するため、RolE Prompting Guided Multi-Domain Adaptation (REGA) 戦略を提案する。 この新しいアプローチは、3つのキーコンポーネントを通してマルチドメインLLM適応を効果的に管理する。 1) 自己蒸留は, 壊滅的な忘れを緩和するために, 一般ドメインの例題を構成, 再生する。 2) ロールプロンプトは、一般的なドメインに中央プロンプトを割り当て、各ドメインにユニークなロールプロンプトを割り当てて、トレーニング中のドメイン間混乱を最小限にする。 3) ロール統合 ドメイン固有のデータのごく一部を、中央プロンプトの指導の下でトレーニングされた一般ドメインデータに再利用し、統合する。 中央プロンプトは合理化された推論プロセスに使用され、異なるドメインのプロンプトを切り替える必要がなくなる。 実験の結果、REGAは破滅的な忘れとドメイン間の混乱を効果的に軽減することが示された。 これにより、標準の微調整モデルよりもドメイン固有のパフォーマンスが向上すると同時に、堅牢な汎用性も維持できる。

The growing interest in Large Language Models (LLMs) for specialized applications has revealed a significant challenge: when tailored to specific domains, LLMs tend to experience catastrophic forgetting, compromising their general capabilities and leading to a suboptimal user experience. Additionally, crafting a versatile model for multiple domains simultaneously often results in a decline in overall performance due to confusion between domains. In response to these issues, we present the RolE Prompting Guided Multi-Domain Adaptation (REGA) strategy. This novel approach effectively manages multi-domain LLM adaptation through three key components: 1) Self-Distillation constructs and replays general-domain exemplars to alleviate catastrophic forgetting. 2) Role Prompting assigns a central prompt to the general domain and a unique role prompt to each specific domain to minimize inter-domain confusion during training. 3) Role Integration reuses and integrates a small portion of domain-specific data to the general-domain data, which are trained under the guidance of the central prompt. The central prompt is used for a streamlined inference process, removing the necessity to switch prompts for different domains. Empirical results demonstrate that REGA effectively alleviates catastrophic forgetting and inter-domain confusion. This leads to improved domain-specific performance compared to standard fine-tuned models, while still preserving robust general capabilities.
翻訳日:2024-03-06 15:39:48 公開日:2024-03-05
# 個人属性予測によるグループ活動の学習

Learning Group Activity Features Through Person Attribute Prediction ( http://arxiv.org/abs/2403.02753v1 )

ライセンス: Link先を確認
Chihiro Nakatani, Hiroaki Kawashima, Norimichi Ukita(参考訳) 本稿では,多人数活動の特徴をコンパクトな潜在ベクトルとして学習するグループ活動特徴(GAF)学習を提案する。 教師付き学習にグループアクティビティの手動アノテーションを必要とする先行作業とは異なり,本手法はグループアクティビティアノテーションを使わずに個人属性予測を通じてgafを学習する。 グループ内の人の属性を予測するためにGAFが必要とされるように、ネットワーク全体をエンドツーエンドで学習することにより、GAFは多人数活動の特徴として訓練される。 人属性として,その単純さからアノテーションが容易であり,手作業によるアノテーションが不要であることから,人のアクションクラスと外観特徴を使用するように提案する。 さらに,各対象者の特徴を適切に抽出するために,複雑なGAFをアンタングルする位置誘導属性予測を導入する。 提案手法は2つの公開データセット上でSOTA法を定量的に定性的に上回ることを示す。 また,GAFの可視化により,詳細なグループ活動クラスを表すGAFを学習することを示す。 コード:https://github.com/chihina/GAFL-CVPR2024。

This paper proposes Group Activity Feature (GAF) learning in which features of multi-person activity are learned as a compact latent vector. Unlike prior work in which the manual annotation of group activities is required for supervised learning, our method learns the GAF through person attribute prediction without group activity annotations. By learning the whole network in an end-to-end manner so that the GAF is required for predicting the person attributes of people in a group, the GAF is trained as the features of multi-person activity. As a person attribute, we propose to use a person's action class and appearance features because the former is easy to annotate due to its simpleness, and the latter requires no manual annotation. In addition, we introduce a location-guided attribute prediction to disentangle the complex GAF for extracting the features of each target person properly. Various experimental results validate that our method outperforms SOTA methods quantitatively and qualitatively on two public datasets. Visualization of our GAF also demonstrates that our method learns the GAF representing fined-grained group activity classes. Code: https://github.com/chihina/GAFL-CVPR2024.
翻訳日:2024-03-06 15:39:27 公開日:2024-03-05
# スキップ接続型デノイングオートエンコーダを用いた超音波画像のスペックルノイズ低減

Speckle Noise Reduction in Ultrasound Images using Denoising Auto-encoder with Skip Connection ( http://arxiv.org/abs/2403.02750v1 )

ライセンス: Link先を確認
Suraj Bhute, Subhamoy Mandal, Debashree Guha(参考訳) 超音波は非侵襲的な診断に広く用いられる医療ツールであるが、画像にはスペックルノイズが含まれており、解像度とコントラストとノイズ比を下げることができる。 これにより、画像の特徴の抽出、認識、分析がより困難になるだけでなく、コンピュータ支援診断技術の精度や医師による画像の解釈能力が損なわれる可能性がある。 したがってスペックルノイズの低減は超音波画像の前処理において重要なステップである。 研究者はいくつかのスペックル削減法を提案したが、関連する全ての要素を考慮する方法はない。 本稿では,ノイズを効果的に低減しながら特徴やエッジを保存できるという点で,正中性,ガウス性,両側性,平均値,ワイナー値,異方性,雑音除去型オートエンコーダの7つの手法を比較した。 本研究では, 乳がんの超音波画像改善のために, スキップ接続を有する畳み込みノイズ除去オートエンコーダ, ディープラーニング法を用いた。 この方法は様々なレベルでスペックルノイズを付加する。 深層学習法の結果を従来の画像強調法と比較したところ,提案法の方が有効であることが判明した。 これらのアルゴリズムの性能を評価するために、確立された3つの評価指標を使用し、フィルタ画像と統計的データの両方を提示する。

Ultrasound is a widely used medical tool for non-invasive diagnosis, but its images often contain speckle noise which can lower their resolution and contrast-to-noise ratio. This can make it more difficult to extract, recognize, and analyze features in the images, as well as impair the accuracy of computer-assisted diagnostic techniques and the ability of doctors to interpret the images. Reducing speckle noise, therefore, is a crucial step in the preprocessing of ultrasound images. Researchers have proposed several speckle reduction methods, but no single method takes all relevant factors into account. In this paper, we compare seven such methods: Median, Gaussian, Bilateral, Average, Weiner, Anisotropic and Denoising auto-encoder without and with skip connections in terms of their ability to preserve features and edges while effectively reducing noise. In an experimental study, a convolutional noise-removing auto-encoder with skip connection, a deep learning method, was used to improve ultrasound images of breast cancer. This method involved adding speckle noise at various levels. The results of the deep learning method were compared to those of traditional image enhancement methods, and it was found that the proposed method was more effective. To assess the performance of these algorithms, we use three established evaluation metrics and present both filtered images and statistical data.
翻訳日:2024-03-06 15:39:07 公開日:2024-03-05
# 不定因数順序を持つ量子相関に対するtsirelson境界

Tsirelson bounds for quantum correlations with indefinite causal order ( http://arxiv.org/abs/2403.02749v1 )

ライセンス: Link先を確認
Zixuan Liu and Giulio Chiribella(参考訳) 量子論は、原理的には因果不等式に違反する過程、ベル不等式(ベル不等式)と相似し、一定の順序で作用する一組の当事者によって観測される相関を制約する。 因果不等式の導入以来、ツイレルソンの境界に類似した最大量子違反を決定することは未解決の問題のままである。 ここでは、任意の量子過程による因果不等式を不定因果順序で破る一般的な方法を提案する。 最大違反は一般に代数的最大値よりも小さいことを証明し、オレシコフ・ブルクナー・コスタ因果不等式(英語版)のパラダイム的例に対してトシレルソン的境界を決定する。 意外なことに、任意の因果不等式の代数的最大化は、情報が実験室内で不確定な方向に流れることを可能にする新しいタイプのプロセスによって達成できる。 可能な相関の分類において、これらの過程はベルシナリオにおける無符号過程と似た役割を果たす。

Quantum theory is in principle compatible with processes that violate causal inequalities, an analogue of Bell inequalities that constrain the correlations observed by a set of parties operating in a definite order. Since the introduction of causal inequalities, determining their maximum quantum violation, analogue to Tsirelson's bound, has remained an open problem. Here we provide a general method for bounding the violation of causal inequalities by arbitrary quantum processes with indefinite causal order. We prove that the maximum violation is generally smaller than the algebraic maximum, and determine a Tsirelson-like bound for the paradigmatic example of the Oreshkov-Brukner-Costa causal inequality. Surprisingly, we find that the algebraic maximum of arbitrary causal inequalities can be achieved by a new type of processes that allow for information to flow in an indefinite direction within the parties' laboratories. In the classification of the possible correlations, these processes play a similar role as the no-signalling processes in Bell scenarios.
翻訳日:2024-03-06 15:38:39 公開日:2024-03-05
# 逆パワー法による結合schr\"odinger方程式の数値解法

A numerical algorithm for solving the coupled Schr\"odinger equations using inverse power method ( http://arxiv.org/abs/2403.02747v1 )

ライセンス: Link先を確認
Jiaxing Zhao, Shuzhe Shi(参考訳) 逆パワー法は行列の固有ベクトルを求める数値アルゴリズムである。 本研究では,任意の数の成分を結合するschr\"odinger方程式を数値的に解くために,逆パワー法に基づく反復アルゴリズムを開発した。 このようなアルゴリズムは多体システムにも適用できる。 本手法のパワーと精度を示すため,外部スカラー電位と定磁場の存在下でのディラック方程式の解法を,ソースコードを公開して提案する例を示す。

The inverse power method is a numerical algorithm to obtain the eigenvectors of a matrix. In this work, we develop an iteration algorithm, based on the inverse power method, to numerically solve the Schr\"odinger equation that couples an arbitrary number of components. Such an algorithm can also be applied to the multi-body systems. To show the power and accuracy of this method, we also present an example of solving the Dirac equation under the presence of an external scalar potential and a constant magnetic field, with source code publicly available.
翻訳日:2024-03-06 15:38:19 公開日:2024-03-05
# 厳密な指導を伴わない学習:低解像度歴史ラベルによる大規模高解像度土地被覆マップの更新

Learning without Exact Guidance: Updating Large-scale High-resolution Land Cover Maps from Low-resolution Historical Labels ( http://arxiv.org/abs/2403.02746v1 )

ライセンス: Link先を確認
Zhuohong Li, Wei He, Jiepan Li, Fangxiao Lu, Hongyan Zhang(参考訳) 大規模な高解像度(HR)の土地被覆マッピングは、地球の表面を調査し、人類が直面する多くの課題を解決するために不可欠である。 しかし、複雑な地形、様々な地形、広範にわたる地理的領域での正確な訓練ラベルの不足などによって妨げられている非自明な作業である。 本稿では,l2hnet (low-to-high network) v2を用いて,低解像度(lr)の歴史的土地被覆データを用いた大規模hr土地被覆マッピングのガイドを行う。 特に、既存の土地被覆マッピングアプローチは、ローカルな土地の詳細を保存するのにcnnが優勢であるが、様々な地形におけるグローバルモデリングが不十分であることを示している。 そこで、パラフォーマにおける並列cnn変換機能抽出器を、ダウンサンプリングフリーcnnブランチとトランスフォーマブランチからなる並列cnn変換機能抽出器で設計し、局所的およびグローバル的コンテクスト情報を同時取得する。 さらに、トレーニングデータの空間的ミスマッチに直面して、擬似ラベル支援トレーニング(PLAT)モジュールを用いて、HR画像の弱い教師付きセマンティックセグメンテーションのためにLRラベルを合理的に洗練する。 2つの大規模データセットの実験は、LR履歴ラベルからHRランドカバーマップを自動更新する他の最先端手法よりもParaformerの方が優れていることを示す。

Large-scale high-resolution (HR) land-cover mapping is a vital task to survey the Earth's surface and resolve many challenges facing humanity. However, it is still a non-trivial task hindered by complex ground details, various landforms, and the scarcity of accurate training labels over a wide-span geographic area. In this paper, we propose an efficient, weakly supervised framework (Paraformer), a.k.a. Low-to-High Network (L2HNet) V2, to guide large-scale HR land-cover mapping with easy-access historical land-cover data of low resolution (LR). Specifically, existing land-cover mapping approaches reveal the dominance of CNNs in preserving local ground details but still suffer from insufficient global modeling in various landforms. Therefore, we design a parallel CNN-Transformer feature extractor in Paraformer, consisting of a downsampling-free CNN branch and a Transformer branch, to jointly capture local and global contextual information. Besides, facing the spatial mismatch of training data, a pseudo-label-assisted training (PLAT) module is adopted to reasonably refine LR labels for weakly supervised semantic segmentation of HR images. Experiments on two large-scale datasets demonstrate the superiority of Paraformer over other state-of-the-art methods for automatically updating HR land-cover maps from LR historical labels.
翻訳日:2024-03-06 15:38:10 公開日:2024-03-05
# CURATRON:大規模言語モデルのロバストアライメントのための完全ロバスト選好データ

CURATRON: Complete Robust Preference Data for Robust Alignment of Large Language Models ( http://arxiv.org/abs/2403.02745v1 )

ライセンス: Link先を確認
Son The Nguyen, Niranjan Uma Naresh, Theja Tulabandhula(参考訳) 本稿では,プライオリティ・ラーニング(pl)による大規模言語モデル(llm)と人間の価値の整合に関する課題について,不完全で腐敗したデータの問題に着目した。 本稿では,これらのデータセット内の値を堅牢かつ完全に再計算する新しい手法を提案する。 特に、古典的なBradley-Terry-Luce (BTL) モデル(Bradley and Terry, 1952) やその特定の一般化など、いくつかの既存モデルを堅牢化する保証多項式時間ランク付けアルゴリズムを考案する。 我々の知識を最大限に活用するため,本研究は,モデル応答毎にo(n)パーティベートした対数比較結果を許容しながら,高い確率で {\epsilon}-オプティカルランキングを確実に回復するアルゴリズムを提案する。 さらに, 部分的に観察された環境では, 頑健な回復結果が得られた。 実験により,本アルゴリズムは一般およびLLM選好データセット設定において,逆ノイズや観測されていない比較をうまく処理することを確認した。 この作業は、データセットキュレーションパイプラインに、行方不明で悪意ある操作された入力を処理する能力を備えることによって、より信頼性が高く倫理的に整合したAIモデルの開発とスケーリングに寄与する。

This paper addresses the challenges of aligning large language models (LLMs) with human values via preference learning (PL), with a focus on the issues of incomplete and corrupted data in preference datasets. We propose a novel method for robustly and completely recalibrating values within these datasets to enhance LLMs resilience against the issues. In particular, we devise a guaranteed polynomial time ranking algorithm that robustifies several existing models, such as the classic Bradley--Terry--Luce (BTL) (Bradley and Terry, 1952) model and certain generalizations of it. To the best of our knowledge, our present work is the first to propose an algorithm that provably recovers an {\epsilon}-optimal ranking with high probability while allowing as large as O(n) perturbed pairwise comparison results per model response. Furthermore, we show robust recovery results in the partially observed setting. Our experiments confirm that our algorithms handle adversarial noise and unobserved comparisons well in both general and LLM preference dataset settings. This work contributes to the development and scaling of more reliable and ethically aligned AI models by equipping the dataset curation pipeline with the ability to handle missing and maliciously manipulated inputs.
翻訳日:2024-03-06 15:37:37 公開日:2024-03-05
# 麻酔科における中国語大言語モデルの育成に向けて

Towards Training A Chinese Large Language Model for Anesthesiology ( http://arxiv.org/abs/2403.02742v1 )

ライセンス: Link先を確認
Zhonghai Wang, Jie Jiang, Yibing Zhan, Bohao Zhou, Yanhong Li, Chong Zhang, Liang Ding, Hua Jin, Jun Peng, Xu Lin, and Weifeng Liu(参考訳) 近年,医療用大規模言語モデル (LLM) が実用化されている。 しかし、既存の研究のほとんどは一般医学に焦点をあてており、麻酔学のような特定の分野におけるLSMの詳細な研究が必要である。 このギャップを埋めるために,既存のLLM上に構築された中国の麻酔モデルであるHypnosを紹介する。 hypnosの貢献には3つの側面がある。 1)現在のLCMから取得したSelf-Instructなどのデータは、不正確である可能性が高い。 hypnosはデータ品質を改善するためにクロスフィルタ戦略を実装している。 この戦略では、あるLLMを使用して、別のLLMから生成されたデータの品質を評価し、低い品質でデータをフィルタリングする。 2)Hypnos は一般医用データを用いた微調整 LLM から始まり,特に麻酔学のデータを用いて微調整 LLM を改善する総合訓練戦略を採用している。 一般的な医療データは麻酔学の専門知識を補い、Hypnos世代の有効性を高める。 3) 麻酔学におけるLLM評価のための標準ベンチマークを導入する。 我々のベンチマークには、インターネットから公開可能なインスタンスと、病院から取得したプライベートケースの両方が含まれている。 Hypnosは、メトリクス、GPT-4、およびベンチマークデータセットにおける人間の評価において、他の医学的LLMよりも優れている。

Medical large language models (LLMs) have gained popularity recently due to their significant practical utility. However, most existing research focuses on general medicine, and there is a need for in-depth study of LLMs in specific fields like anesthesiology. To fill the gap, we introduce Hypnos, a Chinese Anesthesia model built upon existing LLMs, e.g., Llama. Hypnos' contributions have three aspects: 1) The data, such as utilizing Self-Instruct, acquired from current LLMs likely includes inaccuracies. Hypnos implements a cross-filtering strategy to improve the data quality. This strategy involves using one LLM to assess the quality of the generated data from another LLM and filtering out the data with low quality. 2) Hypnos employs a general-to-specific training strategy that starts by fine-tuning LLMs using the general medicine data and subsequently improving the fine-tuned LLMs using data specifically from Anesthesiology. The general medical data supplement the medical expertise in Anesthesiology and enhance the effectiveness of Hypnos' generation. 3) We introduce a standardized benchmark for evaluating medical LLM in Anesthesiology. Our benchmark includes both publicly available instances from the Internet and privately obtained cases from the Hospital. Hypnos outperforms other medical LLMs in anesthesiology in metrics, GPT-4, and human evaluation on the benchmark dataset.
翻訳日:2024-03-06 15:37:14 公開日:2024-03-05
# Causal Prompting: フロントドア調整に基づく大規模言語モデルのプロンプトの回避

Causal Prompting: Debiasing Large Language Model Prompting based on Front-Door Adjustment ( http://arxiv.org/abs/2403.02738v1 )

ライセンス: Link先を確認
Congzhi Zhang, Linhai Zhang, Deyu Zhou, Guoqiang Xu(参考訳) 文脈内学習や大型言語モデル(LLM)のチェーン・オブ・シントといった既存のプロンプト手法の顕著な成果にもかかわらず、それらは依然として様々なバイアスの課題に直面している。 従来のデバイアス法は主に、データ拡張ベースのアプローチとリウェイトベースのアプローチを含むモデルトレーニングの段階に焦点を当てており、LCMの複雑なバイアスに対処する制限がある。 このような制約に対処するために, 構造因果モデルを用いて, 提案手法の背後にある因果関係を明らかにするとともに, 正面調整に基づく新しい因果促進法を提案し, llmのバイアスを効果的に軽減する。 具体的には, LLMのパラメータやロジットにアクセスせずにプロンプトを設計して因果介入を行い, LLMが生成するチェーン・オブ・シンクレットをメディエータ変数とし, 入力プロンプトと出力の応答の因果効果をモデルバイアスを軽減するための正面調整により算出する。 さらに、サンプルの表現を正確に取得し、因果効果をより正確に推定するために、エンコーダの空間をLSMに整列させることにより、サンプルのエンコーダを微調整するコントラスト学習を用いる。 実験結果から,提案手法はオープンソースLLMとクローズドソースLLMの3つの自然言語処理データセットにおいて優れた性能を発揮することが示された。

Despite the significant achievements of existing prompting methods such as in-context learning and chain-of-thought for large language models (LLMs), they still face challenges of various biases. Traditional debiasing methods primarily focus on the model training stage, including data augmentation-based and reweight-based approaches, with the limitations of addressing the complex biases of LLMs. To address such limitations, the causal relationship behind the prompting methods is uncovered using a structural causal model, and a novel causal prompting method based on front-door adjustment is proposed to effectively mitigate the bias of LLMs. In specific, causal intervention is implemented by designing the prompts without accessing the parameters and logits of LLMs.The chain-of-thoughts generated by LLMs are employed as the mediator variable and the causal effect between the input prompt and the output answers is calculated through front-door adjustment to mitigate model biases. Moreover, to obtain the representation of the samples precisely and estimate the causal effect more accurately, contrastive learning is used to fine-tune the encoder of the samples by aligning the space of the encoder with the LLM. Experimental results show that the proposed causal prompting approach achieves excellent performance on 3 natural language processing datasets on both open-source and closed-source LLMs.
翻訳日:2024-03-06 15:36:54 公開日:2024-03-05
# 神経分数微分方程式

Neural Fractional Differential Equations ( http://arxiv.org/abs/2403.02737v1 )

ライセンス: Link先を確認
C. Coelho, M. Fernanda P. Costa, L.L. Ferr\'as(参考訳) FDE(Fractional Differential Equations)は、科学や工学において複雑なシステムをモデル化するための重要なツールである。 彼らは従来の微分と統合の概念を非整数順序に拡張し、非局所的およびメモリ依存的な振る舞いによって特徴づけられるプロセスをより正確に表現できる。 この特性は、変数が即時に変化に応答せず、代わりに過去の相互作用の強い記憶を示すシステムで有用である。 このことを念頭に置いて、ニューラル正規微分方程式(Neural Ordinary Differential Equations,Neural ODEs)からインスピレーションを得て、FDEをデータのダイナミックスに調整する新しいディープニューラルネットワークアーキテクチャであるNeural FDEを提案する。 本稿では,ニューラルFDEとニューラルFDEアーキテクチャにおける数値手法について概観する。 数値的な結果は、より計算的に要求されているにもかかわらず、ニューラルFDEは過去の状態へのメモリや依存を持つモデリングシステムにおいてニューラルODEよりも優れており、より複雑な力学系を学ぶために効果的に適用できることを示している。

Fractional Differential Equations (FDEs) are essential tools for modelling complex systems in science and engineering. They extend the traditional concepts of differentiation and integration to non-integer orders, enabling a more precise representation of processes characterised by non-local and memory-dependent behaviours. This property is useful in systems where variables do not respond to changes instantaneously, but instead exhibit a strong memory of past interactions. Having this in mind, and drawing inspiration from Neural Ordinary Differential Equations (Neural ODEs), we propose the Neural FDE, a novel deep neural network architecture that adjusts a FDE to the dynamics of data. This work provides a comprehensive overview of the numerical method employed in Neural FDEs and the Neural FDE architecture. The numerical outcomes suggest that, despite being more computationally demanding, the Neural FDE may outperform the Neural ODE in modelling systems with memory or dependencies on past states, and it can effectively be applied to learn more intricate dynamical systems.
翻訳日:2024-03-06 15:36:28 公開日:2024-03-05
# 高分解能衛星画像における希少物体検出のブートストラップ

Bootstrapping Rare Object Detection in High-Resolution Satellite Imagery ( http://arxiv.org/abs/2403.02736v1 )

ライセンス: Link先を確認
Akram Zaytar, Caleb Robinson, Gilles Q. Hacheme, Girmaw A. Tadesse, Rahul Dodhia, Juan M. Lavista Ferres, Lacey F. Hughey, Jared A. Stabach, Irene Amoke(参考訳) 希少物体検出は応用地理空間機械学習の基本的な課題であるが、高解像度の衛星や空中画像が多く、ラベル付き陽性サンプルがほとんど、あるいは全くないため、しばしば困難である。 本稿では、ラベル付きデータがなく、関心領域に空間的先行がないとして、そのような稀なオブジェクト検出タスクをブートストラップする問題に対処する。 ランダムサンプリングよりも,アノテータに正のサンプルを露出させることで,より効率的であるパッチをサンプリングするための,オフラインおよびオンラインクラスタベースの新しいアプローチを提案する。 ケニア・タンザニアのセレンゲティ・マラ地域において,牧畜動物に対するボマ(あるいは小さな囲い)の同定方法を適用した。 検出効率を大幅に向上させ,2% (ランダム) から30% まで正のサンプリング率向上を実現した。 この進歩により、boma検出タスク0.51のf1スコアが300の合計パッチで示すような、最小限のラベリング予算でも効果的な機械学習マッピングが可能になる。

Rare object detection is a fundamental task in applied geospatial machine learning, however is often challenging due to large amounts of high-resolution satellite or aerial imagery and few or no labeled positive samples to start with. This paper addresses the problem of bootstrapping such a rare object detection task assuming there is no labeled data and no spatial prior over the area of interest. We propose novel offline and online cluster-based approaches for sampling patches that are significantly more efficient, in terms of exposing positive samples to a human annotator, than random sampling. We apply our methods for identifying bomas, or small enclosures for herd animals, in the Serengeti Mara region of Kenya and Tanzania. We demonstrate a significant enhancement in detection efficiency, achieving a positive sampling rate increase from 2% (random) to 30%. This advancement enables effective machine learning mapping even with minimal labeling budgets, exemplified by an F1 score on the boma detection task of 0.51 with a budget of 300 total patches.
翻訳日:2024-03-06 15:36:12 公開日:2024-03-05
# 変動情報ボトルネックに基づく距離距離学習モデル

A Distance Metric Learning Model Based On Variational Information Bottleneck ( http://arxiv.org/abs/2403.02794v1 )

ライセンス: Link先を確認
YaoDan Zhang, Zidong Wang, Ru Jia and Ru Li(参考訳) 近年、パーソナライズドレコメンデーション技術が発展し、ホットな研究方向の1つとなっている。 行列因数分解モデルと連続的に提案する計量学習モデルが広く研究され応用されている。 後者は、前者によって使われるドット積の代わりにユークリッド距離を用いて、潜在空間ベクトルを測る。 ドット積の欠点を避ける一方で、ユークリッド距離の仮定は無視され、モデルの推奨品質が制限される。 そこで本稿では,本論文で初めて変動情報ボトルネックと計量学習モデルを組み合わせた評価モデルvib-dml(variational information bottleneck distance metric learning)を提案し,潜在空間特徴ベクトルの相互情報を制限することにより,モデルの頑健性を高め,潜在空間特徴ベクトルを分離することでユークリッド距離の仮定を満たす。 本稿では,3つの公開データセットにおける根平均二乗誤差(rmse)との比較を行った。 その結果,VIB-DMLの一般化能力は優れていた。 一般的なメトリック学習モデルであるmetricfと比較すると、予測誤差は7.29%減少する。 最後に,実験によるVIBDMLの強靭性を示す。

In recent years, personalized recommendation technology has flourished and become one of the hot research directions. The matrix factorization model and the metric learning model which proposed successively have been widely studied and applied. The latter uses the Euclidean distance instead of the dot product used by the former to measure the latent space vector. While avoiding the shortcomings of the dot product, the assumption of Euclidean distance is neglected, resulting in limited recommendation quality of the model. In order to solve this problem, this paper combines the Variationl Information Bottleneck with metric learning model for the first time, and proposes a new metric learning model VIB-DML (Variational Information Bottleneck Distance Metric Learning) for rating prediction, which limits the mutual information of the latent space feature vector to improve the robustness of the model and satisfiy the assumption of Euclidean distance by decoupling the latent space feature vector. In this paper, the experimental results are compared with the root mean square error (RMSE) on the three public datasets. The results show that the generalization ability of VIB-DML is excellent. Compared with the general metric learning model MetricF, the prediction error is reduced by 7.29%. Finally, the paper proves the strong robustness of VIBDML through experiments.
翻訳日:2024-03-06 15:33:20 公開日:2024-03-05
# 脂肪性肝疾患予測のための人中心説明を用いた半教師付きグラフ表現学習

Semi-Supervised Graph Representation Learning with Human-centric Explanation for Predicting Fatty Liver Disease ( http://arxiv.org/abs/2403.02786v1 )

ライセンス: Link先を確認
So Yeon Kim, Sehee Wang, Eun Kyung Choe(参考訳) 臨床環境におけるラベル付きデータ制限の課題,特に脂肪肝疾患の予測に対処するため,半教師付き学習フレームワークにおけるグラフ表現学習の可能性について検討した。 グラフニューラルネットワーク(GNN)を活用することで,健康診断データからリスクパターンを識別する対象類似性グラフを構築する。 この文脈における様々なGNNアプローチの有効性は、最小限のラベル付きサンプルであっても示される。 我々の方法論の中心は、説明可能なGNNを通して人間中心の説明を取り入れ、解釈可能性と臨床関連性を高めるためのパーソナライズされた特徴重要度スコアを提供し、グラフ表現学習と人間中心の説明に焦点を当てた医療実践の進展における我々のアプローチの可能性を強調することである。

Addressing the challenge of limited labeled data in clinical settings, particularly in the prediction of fatty liver disease, this study explores the potential of graph representation learning within a semi-supervised learning framework. Leveraging graph neural networks (GNNs), our approach constructs a subject similarity graph to identify risk patterns from health checkup data. The effectiveness of various GNN approaches in this context is demonstrated, even with minimal labeled samples. Central to our methodology is the inclusion of human-centric explanations through explainable GNNs, providing personalized feature importance scores for enhanced interpretability and clinical relevance, thereby underscoring the potential of our approach in advancing healthcare practices with a keen focus on graph representation learning and human-centric explanation.
翻訳日:2024-03-06 15:33:02 公開日:2024-03-05
# DDF:unsupervised domain Adaptationを用いたリモートセンシング画像セマンティックセマンティックセグメンテーションのための新しいデュアルドメイン画像融合戦略

DDF: A Novel Dual-Domain Image Fusion Strategy for Remote Sensing Image Semantic Segmentation with Unsupervised Domain Adaptation ( http://arxiv.org/abs/2403.02784v1 )

ライセンス: Link先を確認
Lingyan Ran and Lushuang Wang and Tao Zhuo and Yinghui Xing(参考訳) リモートセンシング画像のセマンティックセグメンテーションは、大量のラベルのないデータのために困難かつホットな問題である。 非教師なしドメイン適応(UDA)は、対象ドメインからの未分類情報を組み込む際に有利であることが証明されている。 しかし、ソースおよびターゲットドメイン上の独立に微調整されたUDAモデルは、結果に限定的な影響を及ぼす。 本稿では,オリジナル画像,トランスフォーメーション画像,中間領域情報を効果的に活用する,新たなデュアルドメイン画像融合戦略とともに,ハイブリッドトレーニング戦略を提案する。 さらに,擬似ラベルの精度を高めるために,擬似ラベル領域固有の重み戦略を提案する。 提案手法の有効性は,ISPRS Vaihingen および Potsdam データセットを用いて行った広範囲なベンチマーク実験およびアブレーション研究により実証された。

Semantic segmentation of remote sensing images is a challenging and hot issue due to the large amount of unlabeled data. Unsupervised domain adaptation (UDA) has proven to be advantageous in incorporating unclassified information from the target domain. However, independently fine-tuning UDA models on the source and target domains has a limited effect on the outcome. This paper proposes a hybrid training strategy as well as a novel dual-domain image fusion strategy that effectively utilizes the original image, transformation image, and intermediate domain information. Moreover, to enhance the precision of pseudo-labels, we present a pseudo-label region-specific weight strategy. The efficacy of our approach is substantiated by extensive benchmark experiments and ablation studies conducted on the ISPRS Vaihingen and Potsdam datasets.
翻訳日:2024-03-06 15:32:47 公開日:2024-03-05
# 真にハードな二次割り当て問題:QAP-SATインスタンス

Where the Really Hard Quadratic Assignment Problems Are: the QAP-SAT instances ( http://arxiv.org/abs/2403.02783v1 )

ライセンス: Link先を確認
S\'ebastien Verel (LISIC), Sarah Thomson, Omar Rifki (LISIC)(参考訳) 二次割当問題 (QAP) は進化計算の分野における主要な領域の一つであり、より広く組合せ最適化の分野である。 本稿では,問題パラメータの狭い範囲において,問題の計算複雑性と満足度が劇的な変化として説明できるqapの相転移について検討する。 この現象に対処するために、サブモジュラリティに基づく初期問題のQAP-SAT設計を導入し、新機能の難しさを捉える。 この分解は分枝・分枝・分枝探索解法を用いて実験的に検討した。 次に相転移パラメータを提案する。 位相遷移満足度と解法努力の臨界パラメータは,タブ探索に高い相関関係があることが示され,難解な事例の予測が可能となった。

The Quadratic Assignment Problem (QAP) is one of the major domains in the field of evolutionary computation, and more widely in combinatorial optimization. This paper studies the phase transition of the QAP, which can be described as a dramatic change in the problem's computational complexity and satisfiability, within a narrow range of the problem parameters. To approach this phenomenon, we introduce a new QAP-SAT design of the initial problem based on submodularity to capture its difficulty with new features. This decomposition is studied experimentally using branch-and-bound and tabu search solvers. A phase transition parameter is then proposed. The critical parameter of phase transition satisfaction and that of the solving effort are shown to be highly correlated for tabu search, thus allowing the prediction of difficult instances.
翻訳日:2024-03-06 15:32:35 公開日:2024-03-05
# なぜ教科書を使わないのか? インストラクショナルビデオの知識強化プロシージャ計画

Why Not Use Your Textbook? Knowledge-Enhanced Procedure Planning of Instructional Videos ( http://arxiv.org/abs/2403.02782v1 )

ライセンス: Link先を確認
Kumaranage Ravindu Yasas Nagasinghe, Honglu Zhou, Malitha Gunawardhana, Martin Renqiang Min, Daniel Harari, Muhammad Haris Khan(参考訳) 本稿では,エージェントが行動手順を論理的に構築し,戦略的手続き計画を構成する能力について検討する。 この計画は、実生活の指導ビデオに示されているように、初期視覚観察から対象視結果へのナビゲートに不可欠である。 既存の研究は、高度な中間的視覚観察、手続き名、自然言語のステップバイステップ指示など、データセットで利用可能な様々な情報源を特徴や監視信号に広く活用することで部分的に成功している。 しかし、ステップのシークエンシングにおける暗黙の因果的制約と、複数の実現可能な計画に内在する変動性のために、タスクは依然として強固なままである。 従来の取り組みが見落としていたこれらの複雑さに対処するために,手続き的知識を取り入れることでエージェントの能力を高めることを提案する。 この知識は、訓練手順計画から導き出され、有向重み付きグラフとして構成され、ステップシークエンシングの複雑さとその潜在的なバリエーションをよりよくナビゲートするためにエージェントを装備する。 我々は,学習データから抽出した確率的手続き知識グラフを活用し,学習領域の総合教科書として効果的に機能する,新しい知識強化手順計画システムであるkeppを考案した。 さまざまな複雑さの設定下で広く使用されている3つのデータセットに対する実験的評価により、KEPPは最小限の監視しか必要とせず、より優れた最先端の結果が得られることが明らかになった。

In this paper, we explore the capability of an agent to construct a logical sequence of action steps, thereby assembling a strategic procedural plan. This plan is crucial for navigating from an initial visual observation to a target visual outcome, as depicted in real-life instructional videos. Existing works have attained partial success by extensively leveraging various sources of information available in the datasets, such as heavy intermediate visual observations, procedural names, or natural language step-by-step instructions, for features or supervision signals. However, the task remains formidable due to the implicit causal constraints in the sequencing of steps and the variability inherent in multiple feasible plans. To tackle these intricacies that previous efforts have overlooked, we propose to enhance the capabilities of the agent by infusing it with procedural knowledge. This knowledge, sourced from training procedure plans and structured as a directed weighted graph, equips the agent to better navigate the complexities of step sequencing and its potential variations. We coin our approach KEPP, a novel Knowledge-Enhanced Procedure Planning system, which harnesses a probabilistic procedural knowledge graph extracted from training data, effectively acting as a comprehensive textbook for the training domain. Experimental evaluations across three widely-used datasets under settings of varying complexity reveal that KEPP attains superior, state-of-the-art results while requiring only minimal supervision.
翻訳日:2024-03-06 15:32:20 公開日:2024-03-05
# PromptKD:ビジョンランゲージモデルのための教師なしプロンプト蒸留

PromptKD: Unsupervised Prompt Distillation for Vision-Language Models ( http://arxiv.org/abs/2403.02781v1 )

ライセンス: Link先を確認
Zheng Li, Xiang Li, Xinyi Fu, Xing Zhang, Weiqiang Wang, Jian Yang(参考訳) プロンプト学習は、特定のドメインの下流タスクのためのCLIPのような視覚言語モデル(VLM)を強化するための貴重なテクニックとして登場した。 既存の研究は主に様々な学習形態のプロンプトの設計に重点を置いており、より大きな教師モデルから学ぶための効果的な蒸留器としてのプロンプトの可能性を無視している。 本稿では,大規模教師モデルの知識を,ラベルなしドメイン画像を用いた即時模倣により軽量ターゲットモデルに伝達することを目的とした,教師なしドメインプロンプト蒸留フレームワークを提案する。 具体的には,2つの異なる段階から構成される。 最初の段階では、ドメインラベルを用いて大規模なCLIP教師モデルを事前訓練する。 事前学習後,教師のテキストエンコーダを通じてのみ,テキスト特徴をクラスベクトルとして事前計算し,保存することにより,CLIPの独特な分離モダリティ特性を活用する。 その後の段階では、記憶されたクラスベクトルを教師と生徒の画像エンコーダ間で共有し、予測ロジットを算出する。 さらに,教師と生徒モデルのロジットをklダイバージェンスを通じて調整し,学習可能なプロンプトを通じて,生徒画像エンコーダが教師と同じような確率分布を生成するように促す。 提案するプロンプト蒸留プロセスはラベル付きデータへの依存をなくし、アルゴリズムはドメイン内の大量のラベル付き画像を活用することができる。 最後に、よく訓練された学生画像エンコーダと事前記憶されたテキスト特徴(クラスベクトル)を推論に利用する。 最善の知識として,(1)非教師付きドメイン特化プロンプト型知識蒸留をクリップに対して実施し,(2)教師と生徒の共有クラスベクトルとしてテキスト特徴の実用的事前保存機構を確立する。 11のデータセットに関する広範囲な実験により,本手法の有効性が示された。

Prompt learning has emerged as a valuable technique in enhancing vision-language models (VLMs) such as CLIP for downstream tasks in specific domains. Existing work mainly focuses on designing various learning forms of prompts, neglecting the potential of prompts as effective distillers for learning from larger teacher models. In this paper, we introduce an unsupervised domain prompt distillation framework, which aims to transfer the knowledge of a larger teacher model to a lightweight target model through prompt-driven imitation using unlabeled domain images. Specifically, our framework consists of two distinct stages. In the initial stage, we pre-train a large CLIP teacher model using domain (few-shot) labels. After pre-training, we leverage the unique decoupled-modality characteristics of CLIP by pre-computing and storing the text features as class vectors only once through the teacher text encoder. In the subsequent stage, the stored class vectors are shared across teacher and student image encoders for calculating the predicted logits. Further, we align the logits of both the teacher and student models via KL divergence, encouraging the student image encoder to generate similar probability distributions to the teacher through the learnable prompts. The proposed prompt distillation process eliminates the reliance on labeled data, enabling the algorithm to leverage a vast amount of unlabeled images within the domain. Finally, the well-trained student image encoders and pre-stored text features (class vectors) are utilized for inference. To our best knowledge, we are the first to (1) perform unsupervised domain-specific prompt-driven knowledge distillation for CLIP, and (2) establish a practical pre-storing mechanism of text features as shared class vectors between teacher and student. Extensive experiments on 11 datasets demonstrate the effectiveness of our method.
翻訳日:2024-03-06 15:31:54 公開日:2024-03-05
# 行列多様体上のデータ協調解析

Data Collaboration Analysis Over Matrix Manifolds ( http://arxiv.org/abs/2403.02780v1 )

ライセンス: Link先を確認
Keiyu Nosaka, Akiko Yoshise(参考訳) 機械学習(ml)アルゴリズムの有効性は、トレーニングデータセットの品質と多様性に深く関わっています。 優れた品質を特徴とする改善されたデータセットは、予測精度を高め、さまざまなシナリオでモデルの適用性を広げる。 研究者はしばしば、複数のソースからのデータを統合して、単一のソースデータセットのバイアスと制限を軽減する。 しかし、この広範なデータ集約は、特にユーザーのプライバシーと不正なデータ開示のリスクに関して、重大な倫理的懸念を引き起こす。 これらのプライバシー問題に対処するために、さまざまなグローバルな立法の枠組みが確立されている。 プライバシの保護には不可欠ですが、これらの規制はMLテクノロジの実践的な展開を複雑にします。 プライバシ保存機械学習(PPML)は、健康記録から位置情報データまで機密情報を保護し、堅牢なMLモデルの開発においてこのデータを安全に使用可能にすることで、この問題に対処する。 この領域内では、NRI-DC(Non-Readily Identible Data Collaboration)フレームワークが革新的なアプローチとして登場し、非観念的コミュニケーションと堅牢なプライバシ保護を通じて、機関間の「データアイランド」問題を解消する可能性がある。 しかし、NRI-DCフレームワークは、協調関数の作成において理論的に不安定なため、モデルの性能不安定に直面している。 本研究は,これらの協調関数の厳密な理論的基礎を確立し,行列多様体の最適化問題と効率的な解法を通じて新しい定式化を導入する。 実証分析により, 提案手法, 特に直交行列多様体上の定式化は, 通信効率やプライバシ保護を損なうことなく, 性能を著しく向上し, 一貫性と効率性を維持することを示した。

The effectiveness of machine learning (ML) algorithms is deeply intertwined with the quality and diversity of their training datasets. Improved datasets, marked by superior quality, enhance the predictive accuracy and broaden the applicability of models across varied scenarios. Researchers often integrate data from multiple sources to mitigate biases and limitations of single-source datasets. However, this extensive data amalgamation raises significant ethical concerns, particularly regarding user privacy and the risk of unauthorized data disclosure. Various global legislative frameworks have been established to address these privacy issues. While crucial for safeguarding privacy, these regulations can complicate the practical deployment of ML technologies. Privacy-Preserving Machine Learning (PPML) addresses this challenge by safeguarding sensitive information, from health records to geolocation data, while enabling the secure use of this data in developing robust ML models. Within this realm, the Non-Readily Identifiable Data Collaboration (NRI-DC) framework emerges as an innovative approach, potentially resolving the 'data island' issue among institutions through non-iterative communication and robust privacy protections. However, in its current state, the NRI-DC framework faces model performance instability due to theoretical unsteadiness in creating collaboration functions. This study establishes a rigorous theoretical foundation for these collaboration functions and introduces new formulations through optimization problems on matrix manifolds and efficient solutions. Empirical analyses demonstrate that the proposed approach, particularly the formulation over orthogonal matrix manifolds, significantly enhances performance, maintaining consistency and efficiency without compromising communication efficiency or privacy protections.
翻訳日:2024-03-06 15:31:04 公開日:2024-03-05
# 自律ガイドワイヤナビゲーションのためのゼロショット強化学習戦略

A Zero-Shot Reinforcement Learning Strategy for Autonomous Guidewire Navigation ( http://arxiv.org/abs/2403.02777v1 )

ライセンス: Link先を確認
Valentina Scarponi (MIMESIS, ICube), Michel Duprez (ICube, MIMESIS), Florent Nageotte (ICube), St\'ephane Cotin (ICube, MIMESIS)(参考訳) 目的:循環器疾患の治療にはガイドワイヤとカテーテルの複雑で困難なナビゲーションが必要である。 これは、患者と臨床医がX線に曝される長い介入につながることが多い。 深層強化学習アプローチは、このタスクを学習する上で有望であり、ロボットによる介入の間、カテーテルナビゲーションを自動化する鍵となる可能性がある。 しかし、既存の訓練方法は血管解剖学を一般化する能力は限られており、形状が変化するたびに再訓練する必要がある。 方法:本稿では,3次元自律血管ナビゲーションのためのゼロショット学習戦略を提案する。 非常に小さな分岐パターンのトレーニングセットを用いて、強化学習アルゴリズムは、未確認の血管解剖学に適用できる制御を、再トレーニングせずに学習することができる。 結果: 本手法を4種類の血管系で実証し, 平均的成功率は95%であった。 私たちの戦略は計算効率も良く、コントローラのトレーニングをたった2時間で行うことができます。 結論: 本手法は, 形状不変な観測空間により, 異なる特徴を持つ未発見のジオメトリをナビゲートできることを示した。

Purpose: The treatment of cardiovascular diseases requires complex and challenging navigation of a guidewire and catheter. This often leads to lengthy interventions during which the patient and clinician are exposed to X-ray radiation. Deep Reinforcement Learning approaches have shown promise in learning this task and may be the key to automating catheter navigation during robotized interventions. Yet, existing training methods show limited capabilities at generalizing to unseen vascular anatomies, requiring to be retrained each time the geometry changes. Methods: In this paper, we propose a zero-shot learning strategy for three-dimensional autonomous endovascular navigation. Using a very small training set of branching patterns, our reinforcement learning algorithm is able to learn a control that can then be applied to unseen vascular anatomies without retraining. Results: We demonstrate our method on 4 different vascular systems, with an average success rate of 95% at reaching random targets on these anatomies. Our strategy is also computationally efficient, allowing the training of our controller to be performed in only 2 hours. Conclusion: Our training method proved its ability to navigate unseen geometries with different characteristics, thanks to a nearly shape-invariant observation space.
翻訳日:2024-03-06 15:30:16 公開日:2024-03-05
# EasyQuant: LLMのための効率的なデータフリー量子化アルゴリズム

EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs ( http://arxiv.org/abs/2403.02775v1 )

ライセンス: Link先を確認
Hanlin Tang, Yifu Sun, Decheng Wu, Kai Liu, Jianchen Zhu, Zhanhui Kang(参考訳) 大規模言語モデル(LLM)は、様々なタスクにおいて従来の手法よりも優れていることが証明されている。 しかし、彼らの高価な計算と高いメモリ要求は、デプロイメントでは禁じられている。 モデル量子化は、このオーバーヘッドを減らす効果的な方法である。 問題は、従来のほとんどの研究において、量子化モデルはトレーニングデータからのサンプルが少ないため、未知のケースやタスクへの量子化 LLM の一般化に影響を及ぼす可能性がある。 したがって、本研究では、LLMの一般化性能を保証するために、データ非依存の量子化法を設計できるのか? 本研究では,LLMのためのトレーニングフリーかつデータ非依存な重みのみ量子化アルゴリズムであるEasyQuantを提案する。 本研究は, 量子化誤差を低減するために, 重みと量子化範囲の外れ値の2つの要因が重要であることを示す。 したがって、EasyQuantでは、外れ値(1%未満)を変更せずに量子化範囲を最適化し、再構成エラーを低減する。 これらのメソッドでは、EasyQuantが元のモデルと同等のパフォーマンスを実現しているのが驚きです。 EasyQuant はトレーニングデータに依存しないので、量子化 LLM の一般化性能は安全に保証される。 さらに、100b以上のllmであっても数分間で量子化モデルが達成できるように、easyquantを並列に実装することができる。 我々の知る限り、私たちはデータ非依存の設定下でLLMのほとんどロスレス量子化性能を達成する最初の研究であり、我々のアルゴリズムはデータ依存の手法よりも10倍以上高速に動作します。

Large language models (LLMs) have proven to be very superior to conventional methods in various tasks. However, their expensive computations and high memory requirements are prohibitive for deployment. Model quantization is an effective method for reducing this overhead. The problem is that in most previous works, the quantized model was calibrated using few samples from the training data, which might affect the generalization of the quantized LLMs to unknown cases and tasks. Hence in this work, we explore an important question: Can we design a data-independent quantization method for LLMs to guarantee its generalization performance? In this work, we propose EasyQuant, a training-free and data-independent weight-only quantization algorithm for LLMs. Our observation indicates that two factors: outliers in the weight and quantization ranges, are essential for reducing the quantization error. Therefore, in EasyQuant, we leave the outliers (less than 1%) unchanged and optimize the quantization range to reduce the reconstruction error. With these methods, we surprisingly find that EasyQuant achieves comparable performance to the original model. Since EasyQuant does not depend on any training data, the generalization performance of quantized LLMs is safely guaranteed. Moreover, EasyQuant can be implemented in parallel so that the quantized model could be attained in a few minutes even for LLMs over 100B. To our best knowledge, we are the first work that achieves almost lossless quantization performance for LLMs under a data-independent setting and our algorithm runs over 10 times faster than the data-dependent methods.
翻訳日:2024-03-06 15:29:39 公開日:2024-03-05
# 生成基礎モデルを用いた地球系モデルの高速・大規模・不確実性を考慮したダウンスケーリング

Fast, Scale-Adaptive, and Uncertainty-Aware Downscaling of Earth System Model Fields with Generative Foundation Models ( http://arxiv.org/abs/2403.02774v1 )

ライセンス: Link先を確認
Philipp Hess, Michael Aich, Baoxiang Pan, and Niklas Boers(参考訳) 高精度で高解像度の地球系モデル(ESM)シミュレーションは、人為的気候変動の生態的・社会経済的影響を評価するのに不可欠であるが、計算には高すぎる。 最近の機械学習アプローチは、ESMシミュレーションのダウンスケールにおいて有望な結果を示し、最先端の統計手法よりも優れている。 しかし、既存の手法では、各ESMに対して計算的にコストのかかる再訓練が必要であり、訓練中に見つからない気候に悪影響を及ぼす。 ゼロショット方式で再トレーニングすることなく、任意のESMシミュレーションを効率的に正確にダウンスケールする一貫性モデル(CM)を学習することで、これらの欠点に対処する。 基礎モデルアプローチでは,観測参照データのみに制限された確率的ダウンスケールフィールドを解像度で生成する。 CMは,ダウンスケーリングタスクにおいて高い制御性を維持しつつ,計算コストのごく一部で最先端拡散モデルより優れていることを示す。 さらに,本手法は,物理的制約を明示的に定式化することなく,トレーニング中に見つからない気候状態に一般化する。

Accurate and high-resolution Earth system model (ESM) simulations are essential to assess the ecological and socio-economic impacts of anthropogenic climate change, but are computationally too expensive. Recent machine learning approaches have shown promising results in downscaling ESM simulations, outperforming state-of-the-art statistical approaches. However, existing methods require computationally costly retraining for each ESM and extrapolate poorly to climates unseen during training. We address these shortcomings by learning a consistency model (CM) that efficiently and accurately downscales arbitrary ESM simulations without retraining in a zero-shot manner. Our foundation model approach yields probabilistic downscaled fields at resolution only limited by the observational reference data. We show that the CM outperforms state-of-the-art diffusion models at a fraction of computational cost while maintaining high controllability on the downscaling task. Further, our method generalizes to climate states unseen during training without explicitly formulated physical constraints.
翻訳日:2024-03-06 15:28:55 公開日:2024-03-05
# ハード・ソフト・ネガティティクスを用いた教師付きコントラスト学習によるリハビリテーション・エクササイズ評価

Rehabilitation Exercise Quality Assessment through Supervised Contrastive Learning with Hard and Soft Negatives ( http://arxiv.org/abs/2403.02772v1 )

ライセンス: Link先を確認
Mark Karlov, Ali Abedi, Shehroz S. Khan(参考訳) 運動ベースのリハビリテーションプログラムは、生活の質を高め、死亡率と再入院率を減らすのに有効であることが証明されている。 患者が自宅で独立してエクササイズを完了できるようにするai駆動バーチャルリハビリテーションは、エクササイズデータをaiアルゴリズムを使って分析し、患者にフィードバックを提供し、臨床医の進捗状況を更新する。 これらのプログラムは一般的に様々なエクササイズタイプを規定しており、リハビリテーションエクササイズアセスメントアセスメントデータセットにおいて明確な課題をもたらしている: 総合的なトレーニングサンプルが豊富であるにもかかわらず、これらのデータセットは個々のエクササイズタイプごとに限られた数のサンプルを持つことが多い。 この格差は、運動毎にそのような小さなサンプルサイズで一般化可能なモデルを訓練するための既存のアプローチの能力を損なう。 本稿では,データセット全体を有効活用し,すべてのエクササイズタイプに適用可能な1つのモデルをトレーニングする,ハード・ソフト・ネガティブなサンプルを用いた教師ありコントラスト学習フレームワークを提案する。 このモデルは、時空間グラフ畳み込みネットワーク(ST-GCN)アーキテクチャを用いて、エクササイズ間の一般化性の向上と全体的な複雑性の低下を実証した。 アイダホ大学物理リハビリテーション運動データ(ui-prmd)、intellirehabds(irds)、kinematic assessment of movement and clinical score for remote monitoring of physical rehabilitation(kimore)の3つの公開リハビリテーション運動アセスメントデータセットを広範囲に実験した結果、既存の手法を上回って、リハビリテーション運動評価の新たな基準を設定した。

Exercise-based rehabilitation programs have proven to be effective in enhancing the quality of life and reducing mortality and rehospitalization rates. AI-driven virtual rehabilitation, which allows patients to independently complete exercises at home, utilizes AI algorithms to analyze exercise data, providing feedback to patients and updating clinicians on their progress. These programs commonly prescribe a variety of exercise types, leading to a distinct challenge in rehabilitation exercise assessment datasets: while abundant in overall training samples, these datasets often have a limited number of samples for each individual exercise type. This disparity hampers the ability of existing approaches to train generalizable models with such a small sample size per exercise. Addressing this issue, our paper introduces a novel supervised contrastive learning framework with hard and soft negative samples that effectively utilizes the entire dataset to train a single model applicable to all exercise types. This model, with a Spatial-Temporal Graph Convolutional Network (ST-GCN) architecture, demonstrated enhanced generalizability across exercises and a decrease in overall complexity. Through extensive experiments on three publicly available rehabilitation exercise assessment datasets, the University of Idaho-Physical Rehabilitation Movement Data (UI-PRMD), IntelliRehabDS (IRDS), and KInematic assessment of MOvement and clinical scores for remote monitoring of physical REhabilitation (KIMORE), our method has shown to surpass existing methods, setting a new benchmark in rehabilitation exercise assessment accuracy.
翻訳日:2024-03-06 15:28:30 公開日:2024-03-05
# HUNTER: 合成事例から実シーンへの知識伝達による教師なし人間中心型3D検出

HUNTER: Unsupervised Human-centric 3D Detection via Transferring Knowledge from Synthetic Instances to Real Scenes ( http://arxiv.org/abs/2403.02769v1 )

ライセンス: Link先を確認
Yichen Yao, Zimo Jiang, Yujing Sun, Zhencai Zhu, Xinge Zhu, Runnan Chen, Yuexin Ma(参考訳) 人間中心の3dシーン理解は最近、ロボット工学への重要な影響によって、注目を集めている。 しかし、人間中心の実生活シナリオは非常に多様で複雑であり、人間は複雑な動きと相互作用を持っている。 制限されたラベル付きデータでは、教師付きメソッドは一般的なシナリオに一般化することが難しく、実際のアプリケーションを妨げる。 人間の知能を模倣し、人工的な人間のインスタンスから現実のシーンに知識を移すことにより、人間中心のシナリオに対する教師なし3次元検出手法を提案する。 合成モデルと実点雲の差分表現と特徴分布のギャップを埋めるため,実例から実例への効率的な表現伝達と合成から実例への特徴アライメントのための新しいモジュールを導入する。 驚くべきことに、現在の最先端技術と比較して優れた性能を示し、地図の87.8\%向上を達成し、hucenlifeにおける完全な教師付き手法(62.15マップ対69.02マップ)の性能に近づいた。

Human-centric 3D scene understanding has recently drawn increasing attention, driven by its critical impact on robotics. However, human-centric real-life scenarios are extremely diverse and complicated, and humans have intricate motions and interactions. With limited labeled data, supervised methods are difficult to generalize to general scenarios, hindering real-life applications. Mimicking human intelligence, we propose an unsupervised 3D detection method for human-centric scenarios by transferring the knowledge from synthetic human instances to real scenes. To bridge the gap between the distinct data representations and feature distributions of synthetic models and real point clouds, we introduce novel modules for effective instance-to-scene representation transfer and synthetic-to-real feature alignment. Remarkably, our method exhibits superior performance compared to current state-of-the-art techniques, achieving a substantial 87.8\% improvement in mAP and closely approaching the performance of fully supervised methods (62.15 mAP vs. 69.02 mAP) on HuCenLife.
翻訳日:2024-03-06 15:27:55 公開日:2024-03-05
# 国家安全保障書簡の使用と報告に関する実証分析

An Empirical Analysis on the Use and Reporting of National Security Letters ( http://arxiv.org/abs/2403.02768v1 )

ライセンス: Link先を確認
Alex Bellon, Miro Haller, Andrey Labunets, Enze Liu, Stefan Savage(参考訳) 国家安全保障書簡(NSL)は行政上の召喚状と類似しており、裁判所や大陪審の事前の承認を必要とせず、行政部門から直接発行することができる。 重要なことは、NSLは受信者に対して非開示命令(別名「ギャグ命令」)を付与することを承認した。 この権限が悪用される可能性に関する論争は、様々な法と政策に関する議論を引き起こした。 これらの懸念に対処するため、公共セクターと民間セクターは、集約形式でのNSLの使用を文書化しようとしています。 しかし、各データソースはスコープ、時間、種類に制限されている。 本稿では,NSLに関する利用可能なデータを整理し,(1) 市民が報告データから効果的に学習できること,そして,この情報がNSLの利用状況を評価するのに十分か,という2つの問いに答える。 2) このデータ収集はどの程度アクセス可能か? また,NSLの使用状況の経年変化を観察できることを示した。 例えば、非米国人に対するNSL要求が大幅に増加し、強制的非開示期間を短縮する政策改革が効果的であることが判明した。 観察された傾向は、現在の透明性メカニズムがNSLの過剰使用に対して有効であることを示している。 しかし、データの集約と正規化には手作業によるレビュー、解析、検証が必要です。 公式データソース内外の矛盾も発見しています。 全体として、残酷なデータ収集プロセスは、外部および内部監査の取り組みを妨げ、NSLの統一的でより有用なデータセットの必要性を実証する。

National Security Letters (NSLs) are similar to administrative subpoenas and can be issued directly by elements of the executive branch without requiring prior approval from a court or grand jury. Importantly, NSLs authorize the imposition of nondisclosure orders (aka "gag orders") on the receiving party. Controversy about potential abuses of this authority has driven a range of legal and policy discussions. To address these concerns, both the public sector and the private sector have sought to document the usage of NSLs in aggregated form. However, each data source is limited in scope, time, and kind. In this paper, we consolidate the available data around NSLs and answer two questions: (1) what can the public effectively learn from the reported data and does this information suffice to assess the NSL usage? (2) how accessible is this data collection? We show that longitudinal trends in the usage of NSLs can be observed. For instance, we find a significant increase in NSL requests for non-US persons and that the policy reforms to decrease the mandated nondisclosure period appear to be effective. The observed trends suggest that the current transparency mechanisms are viable safeguards against the excessive use of NSLs. However, aggregating and normalizing the data requires manual reviewing, parsing, and validating. We even find inconsistencies within and across official data sources. Overall, the laborious data collection process hinders external and internal auditing efforts and demonstrates the need for a unified and more usable dataset for NSLs.
翻訳日:2024-03-06 15:27:33 公開日:2024-03-05
# DeconfuseTrack:マルチオブジェクト追跡のためのコンフュージョンによるディーリング

DeconfuseTrack:Dealing with Confusion for Multi-Object Tracking ( http://arxiv.org/abs/2403.02767v1 )

ライセンス: Link先を確認
Cheng Huang, Shoudong Han, Mengyu He, Wenbo Zheng, Yuhao Wei(参考訳) 正確なデータアソシエーションは、多目的追跡(MOT)において、IDスイッチや代入エラーなどの混乱を低減するために重要である。 しかし、既存の先進的な手法は、軌跡間の多様性や、運動や外見の手がかりに存在するあいまいさや矛盾を見落とし、単純なグローバルデータアソシエーションを行う際には、検出、軌跡、関連性の混乱につながることが多い。 この問題に対処するため,我々はdda(decomposed data association)と呼ばれる,シンプルで汎用的で解釈性の高いデータアソシエーションアプローチを提案する。 DDAは,従来のアソシエーション問題を,一連の非学習ベースのモジュールを用いて複数のサブプロブレムに分解し,対象とする新しいキューを組み込むことで,各サブプロブレムの混乱を選択的に解消する。 さらに,Occlusion-aware Non-Maximum Suppression (ONMS)を導入して,より閉塞された検出を抑えるとともに,軌跡と関連付ける機会を増大させ,誤検出による混乱を間接的に軽減する。 最後に、DDAとONMSに基づいて、MOTの混乱を解決することに焦点を当てた、DeconfuseTrackという強力なマルチオブジェクトトラッカーを設計する。 MOT17およびMOT20データセットで行った大規模な実験により、提案したDDAおよびONMSは、いくつかの人気トラッカーの性能を大幅に向上することが示された。 さらに、DeconfuseTrackはMOT17とMOT20テストセットで最先端のパフォーマンスを達成し、HOTA、IDF1、AssAなどのメトリクスでベースライントラッカーByteTrackを著しく上回っている。 これにより、追跡設計が単純なグローバルアソシエーションによる混乱を効果的に軽減することを示す。

Accurate data association is crucial in reducing confusion, such as ID switches and assignment errors, in multi-object tracking (MOT). However, existing advanced methods often overlook the diversity among trajectories and the ambiguity and conflicts present in motion and appearance cues, leading to confusion among detections, trajectories, and associations when performing simple global data association. To address this issue, we propose a simple, versatile, and highly interpretable data association approach called Decomposed Data Association (DDA). DDA decomposes the traditional association problem into multiple sub-problems using a series of non-learning-based modules and selectively addresses the confusion in each sub-problem by incorporating targeted exploitation of new cues. Additionally, we introduce Occlusion-aware Non-Maximum Suppression (ONMS) to retain more occluded detections, thereby increasing opportunities for association with trajectories and indirectly reducing the confusion caused by missed detections. Finally, based on DDA and ONMS, we design a powerful multi-object tracker named DeconfuseTrack, specifically focused on resolving confusion in MOT. Extensive experiments conducted on the MOT17 and MOT20 datasets demonstrate that our proposed DDA and ONMS significantly enhance the performance of several popular trackers. Moreover, DeconfuseTrack achieves state-of-the-art performance on the MOT17 and MOT20 test sets, significantly outperforms the baseline tracker ByteTrack in metrics such as HOTA, IDF1, AssA. This validates that our tracking design effectively reduces confusion caused by simple global association.
翻訳日:2024-03-06 15:27:09 公開日:2024-03-05
# G4-Attention: DNA G-Quadruplexs 予測のための深層学習モデル

G4-Attention: Deep Learning Model with Attention for predicting DNA G-Quadruplexes ( http://arxiv.org/abs/2403.02765v1 )

ライセンス: Link先を確認
Shrimon Mukherjee, Pulakesh Pramanik, Partha Basuchowdhuri, Santanu Bhattacharya(参考訳) g-クアドルプレックス(g-quadruplexes)は4本鎖の非カノニカル核酸二次構造であり、グアニンテトラマーの積み重ね配列によって形成される。 それらは、その特異な特異な構造的特徴から、幅広い生物学的役割に関与している。 ヒトゲノムシークエンシングプロジェクトの完了後、標準G4配列要素、G-\textit{richness}、G-\textit{skewness}、および非標準配列特徴に基づいて、活性G4s領域 \textit{in vitro} を予測するために多くのバイオインフォマティクスアルゴリズムが導入された。 近年、G4s \textit{in vitro} と \textit{in vivo} のそれぞれを数百塩基分解能でマッピングするために、G4-seq と G4-ChIP-seq のようなシークエンシング技術が開発された。 その後,既存のデータベースを用いたg4領域の予測のために,いくつかの機械学習手法が開発された。 しかし、それらの予測モデルは単純であり、予測精度は顕著に低かった。 そこで本研究では,G4生成シーケンスを精度良く予測するために,Bi-LSTMとG4アテンションと呼ばれるアテンション層を用いた新しい畳み込みニューラルネットワークを提案する。 g4-attentionは高い精度を達成し、g4予測タスクで最先端の結果を得る。 また,本モデルでは,高度にクラス不均衡なデータセットにおいて,g4領域を正確に予測する。 さらに、ヒトゲノムデータセットに基づいてトレーニングされた開発モデルは、非ヒトゲノムDNA配列に適用でき、G4形成確率を予測することができる。

G-Quadruplexes are the four-stranded non-canonical nucleic acid secondary structures, formed by the stacking arrangement of the guanine tetramers. They are involved in a wide range of biological roles because of their exceptionally unique and distinct structural characteristics. After the completion of the human genome sequencing project, a lot of bioinformatic algorithms were introduced to predict the active G4s regions \textit{in vitro} based on the canonical G4 sequence elements, G-\textit{richness}, and G-\textit{skewness}, as well as the non-canonical sequence features. Recently, sequencing techniques like G4-seq and G4-ChIP-seq were developed to map the G4s \textit{in vitro}, and \textit{in vivo} respectively at a few hundred base resolution. Subsequently, several machine learning approaches were developed for predicting the G4 regions using the existing databases. However, their prediction models were simplistic, and the prediction accuracy was notably poor. In response, here, we propose a novel convolutional neural network with Bi-LSTM and attention layers, named G4-attention, to predict the G4 forming sequences with improved accuracy. G4-attention achieves high accuracy and attains state-of-the-art results in the G4 prediction task. Our model also predicts the G4 regions accurately in the highly class-imbalanced datasets. In addition, the developed model trained on the human genome dataset can be applied to any non-human genome DNA sequences to predict the G4 formation propensities.
翻訳日:2024-03-06 15:26:36 公開日:2024-03-05
# エッジ/エンドポイントデバイスにおけるサイドチャネル攻撃によるディープラーニングモデルの高精度抽出

Precise Extraction of Deep Learning Models via Side-Channel Attacks on Edge/Endpoint Devices ( http://arxiv.org/abs/2403.02870v1 )

ライセンス: Link先を確認
Younghan Lee, Sohee Jun, Yungi Cho, Woorim Han, Hyungon Moon, and Yunheung Paek(参考訳) 人気が高まる中、ディープラーニング(dl)モデルは大規模になりつつあり、膨大なトレーニングデータセットと膨大な計算能力を持つ企業だけが、そのような大規模モデルを提供するビジネスを管理できる。 これらのDLモデルのほとんどは、モデル抽出攻撃(MEA)からプライベートモデルを安全に保つために、代理モデルをトレーニングすることでモデルを盗もうとする企業独自のものである。 現在、企業はモデルを中央サーバーからエッジ/エンドポイントデバイスにオフロードする傾向にある。 最新の研究で明らかになったように、敵はこの機会を新たな攻撃ベクトルとして活用し、被害者モデルを実行するデバイス上でサイドチャネル攻撃(sca)を起動し、モデルアーキテクチャ(ma)やイメージディメンション(id)といった様々なモデル情報を取得する。 私たちの研究は、このような関係を初めて包括的に理解し、SCAによって暴露される情報のうちどの部分が他のものよりも重要であるかを学ぶことができるような、攻撃的かつ防御的な側面における将来のMEA研究に恩恵をもたらすでしょう。 また,本分析の結果から,SCAから被害者のモデル情報を把握することにより,モデルに関する事前の知識がなくても,MEAは極めて効果的かつ成功できることがわかった。 最後に、分析結果の実用性を明らかにするために、SCAを実証的に適用し、その後、現実的な脅威前提の下でMEAを実行する。 その結果、被害者モデルに関するモデル情報がない場合よりも、パフォーマンスが5.8倍向上した。

With growing popularity, deep learning (DL) models are becoming larger-scale, and only the companies with vast training datasets and immense computing power can manage their business serving such large models. Most of those DL models are proprietary to the companies who thus strive to keep their private models safe from the model extraction attack (MEA), whose aim is to steal the model by training surrogate models. Nowadays, companies are inclined to offload the models from central servers to edge/endpoint devices. As revealed in the latest studies, adversaries exploit this opportunity as new attack vectors to launch side-channel attack (SCA) on the device running victim model and obtain various pieces of the model information, such as the model architecture (MA) and image dimension (ID). Our work provides a comprehensive understanding of such a relationship for the first time and would benefit future MEA studies in both offensive and defensive sides in that they may learn which pieces of information exposed by SCA are more important than the others. Our analysis additionally reveals that by grasping the victim model information from SCA, MEA can get highly effective and successful even without any prior knowledge of the model. Finally, to evince the practicality of our analysis results, we empirically apply SCA, and subsequently, carry out MEA under realistic threat assumptions. The results show up to 5.8 times better performance than when the adversary has no model information about the victim model.
翻訳日:2024-03-06 15:21:27 公開日:2024-03-05
# ネットワーク推論と影響推定のためのスケーラブルな連続時間拡散フレームワーク

Scalable Continuous-time Diffusion Framework for Network Inference and Influence Estimation ( http://arxiv.org/abs/2403.02867v1 )

ライセンス: Link先を確認
Keke Huang, Ruize Gao, Bogdan Cautis, and Xiaokui Xiao(参考訳) 連続時間情報拡散の研究は近年,多くの応用分野において重要な研究分野となっている。 拡散トレース(カスケード)のみがアクセス可能である場合、カスケードに基づくネットワーク推定と影響推定は2つの重要な問題である。 残念ながら、既存の手法では数千以上のノードを持つネットワークを推論および処理する能力に制限があり、スケーラビリティの問題に悩まされている。 本稿では,拡散過程を連続時間力学系とみなし,連続時間拡散モデルを確立する。 次に,モデルをスケーラブルで効果的なフレームワーク(fim)にインスタンス化し,利用可能なカスケードからの拡散伝播を近似し,基盤となるネットワーク構造を推定する。 さらに,ネットワーク推論におけるFIMの近似誤差の解析を行った。 影響推定のためのスケーラビリティを実現するため,高度なサンプリング手法を考案し,効率を大幅に向上させる。 また,近似誤差が影響推定に与える影響を理論的に定量化する。 実験結果はネットワーク推論と影響推定におけるfimの有効性と優れたスケーラビリティを示す。

The study of continuous-time information diffusion has been an important area of research for many applications in recent years. When only the diffusion traces (cascades) are accessible, cascade-based network inference and influence estimation are two essential problems to explore. Alas, existing methods exhibit limited capability to infer and process networks with more than a few thousand nodes, suffering from scalability issues. In this paper, we view the diffusion process as a continuous-time dynamical system, based on which we establish a continuous-time diffusion model. Subsequently, we instantiate the model to a scalable and effective framework (FIM) to approximate the diffusion propagation from available cascades, thereby inferring the underlying network structure. Furthermore, we undertake an analysis of the approximation error of FIM for network inference. To achieve the desired scalability for influence estimation, we devise an advanced sampling technique and significantly boost the efficiency. We also quantify the effect of the approximation error on influence estimation theoretically. Experimental results showcase the effectiveness and superior scalability of FIM on network inference and influence estimation.
翻訳日:2024-03-06 15:21:02 公開日:2024-03-05
# FLGuard: コントラストモデルによるビザンチン・ロバスト・フェデレーション学習

FLGuard: Byzantine-Robust Federated Learning via Ensemble of Contrastive Models ( http://arxiv.org/abs/2403.02846v1 )

ライセンス: Link先を確認
Younghan Lee, Yungi Cho, Woorim Han, Ho Bae, and Yunheung Paek(参考訳) フェデレートラーニング(FL)は、プライベートトレーニングデータセットでトレーニングされたローカルモデルのパラメータを共有するだけで、多数のクライアントによるグローバルモデルのトレーニングに成功している。 したがって、プライベートデータセットを公開せずに、クライアントは高性能なディープラーニング(DL)モデルを得ることができる。 しかし、近年の研究では、顧客集団に良質なクライアントとして見なされる敵が存在する場合、グローバルモデルの正確性に壊滅的な損失をもたらす毒殺攻撃が提案されている。 したがって、最近の研究では、システムに存在する敵に対しても正確なグローバルモデルをサーバが訓練できるビザンチン・ロバストfl法が提案されている。 しかし、既存の方法の多くは、悪意のあるクライアントの数や補助(クリーン)データセットの数、あるいは、プライベートデータセットが非独立かつ同一に分散された場合(非iid)、その有効性が大幅に低下したと報告されている。 本研究では,悪意のあるクライアントを検出して悪意のあるローカル更新を破棄する,自己教師型学習手法であるFLGuardを提案する。 対照的なモデルでは、防御能力を最大化するアンサンブルスキームとしてflguardを設計する。 FLGuardを様々な毒殺攻撃下で広範囲に評価し,既存のビザンチン汚染FL法と比較した。 FLGuardは、ほとんどのケースで最先端の防御方法よりも優れており、特に非IID環境では劇的に改善されている。 https://github.com/201younghanlee/FLGuard

Federated Learning (FL) thrives in training a global model with numerous clients by only sharing the parameters of their local models trained with their private training datasets. Therefore, without revealing the private dataset, the clients can obtain a deep learning (DL) model with high performance. However, recent research proposed poisoning attacks that cause a catastrophic loss in the accuracy of the global model when adversaries, posed as benign clients, are present in a group of clients. Therefore, recent studies suggested byzantine-robust FL methods that allow the server to train an accurate global model even with the adversaries present in the system. However, many existing methods require the knowledge of the number of malicious clients or the auxiliary (clean) dataset or the effectiveness reportedly decreased hugely when the private dataset was non-independently and identically distributed (non-IID). In this work, we propose FLGuard, a novel byzantine-robust FL method that detects malicious clients and discards malicious local updates by utilizing the contrastive learning technique, which showed a tremendous improvement as a self-supervised learning method. With contrastive models, we design FLGuard as an ensemble scheme to maximize the defensive capability. We evaluate FLGuard extensively under various poisoning attacks and compare the accuracy of the global model with existing byzantine-robust FL methods. FLGuard outperforms the state-of-the-art defense methods in most cases and shows drastic improvement, especially in non-IID settings. https://github.com/201younghanlee/FLGuard
翻訳日:2024-03-06 15:20:47 公開日:2024-03-05
# LLM評価のためのLCM-as-a-Judgeに関する実証的研究:細調整された判断モデルはタスク固有分類器である

An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned Judge Models are Task-specific Classifiers ( http://arxiv.org/abs/2403.02839v1 )

ライセンス: Link先を確認
Hui Huang, Yingqi Qu, Jing Liu, Muyun Yang, Tiejun Zhao(参考訳) 近年,Large Language Model (LLM) を用いて他のLLMの品質を評価する傾向が高まっている。 多くの研究はプロプライエタリなオープンソースモデル、特にGPT4を評価手段として採用している。 あるいは、オープンソースのLCMに基づいて微調整された判断モデルを評価対象とする作品もある。 本研究では,評価能力の異なる判断モデルについて,実験的検討を行った。 GPT4を超越してもドメイン内テストセットの精度は高いが、本来はタスク固有の分類器であり、その一般化性と公平性はGPT4より著しく劣っている。

Recently, there has been a growing trend of utilizing Large Language Model (LLM) to evaluate the quality of other LLMs. Many studies have employed proprietary close-source models, especially GPT4, as the evaluator. Alternatively, other works have fine-tuned judge models based on open-source LLMs as the evaluator. In this study, we conduct an empirical study of different judge models on their evaluation capability. Our findings indicate that although the fine-tuned judge models achieve high accuracy on in-domain test sets, even surpassing GPT4, they are inherently task-specific classifiers, and their generalizability and fairness severely underperform GPT4.
翻訳日:2024-03-06 15:20:22 公開日:2024-03-05
# SOFIM:正規化漁業情報行列を用いた確率最適化

SOFIM: Stochastic Optimization Using Regularized Fisher Information Matrix ( http://arxiv.org/abs/2403.02833v1 )

ライセンス: Link先を確認
Gayathri C, Mrinmay Sen, A. K. Qin, Raghu Kishore N, Yen-Wei Chen, Balasubramanian Raman(参考訳) 本稿では,正規化フィッシャー情報行列(FIM)をベースとした新しい確率的最適化手法であるSOFIMを提案する。 自然勾配降下(NGD)の変種と見なすことができ、正規化FIMを用いて全FIMの保存と計算の難しさに対処し、シャーマン・モリソン行列の逆変換により勾配更新方向を直接見つける。 さらに、一般的なAdam法と同様に、SOFIMは勾配の最初の瞬間を利用して、異種データによるミニバッチ間の非定常目的の問題に対処する。 正規化FIMとシャーマン・モリソン行列の逆変換の利用により、運動量を持つ確率勾配勾配(SGD)と同じ空間と時間的複雑さで収束率が向上する。 いくつかのベンチマーク画像分類データセット上でのディープラーニングモデルのトレーニング実験により、提案したSOFIMは、トレーニングとテスト損失の所定の目的を達成するための収束速度とテスト精度の両面から、運動量でSGDより優れており、Nystrom-SGD、L-BFGS、AdaHessianといった最先端のニュートン最適化手法よりも優れていることが示された。

This paper introduces a new stochastic optimization method based on the regularized Fisher information matrix (FIM), named SOFIM, which can efficiently utilize the FIM to approximate the Hessian matrix for finding Newton's gradient update in large-scale stochastic optimization of machine learning models. It can be viewed as a variant of natural gradient descent (NGD), where the challenge of storing and calculating the full FIM is addressed through making use of the regularized FIM and directly finding the gradient update direction via Sherman-Morrison matrix inversion. Additionally, like the popular Adam method, SOFIM uses the first moment of the gradient to address the issue of non-stationary objectives across mini-batches due to heterogeneous data. The utilization of the regularized FIM and Sherman-Morrison matrix inversion leads to the improved convergence rate with the same space and time complexities as stochastic gradient descent (SGD) with momentum. The extensive experiments on training deep learning models on several benchmark image classification datasets demonstrate that the proposed SOFIM outperforms SGD with momentum and several state-of-the-art Newton optimization methods, such as Nystrom-SGD, L-BFGS, and AdaHessian, in term of the convergence speed for achieving the pre-specified objectives of training and test losses as well as test accuracy.
翻訳日:2024-03-06 15:20:09 公開日:2024-03-05
# 高忠実度画像-映像生成のためのチューニング不要ノイズ整流

Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation ( http://arxiv.org/abs/2403.02827v1 )

ライセンス: Link先を確認
Weijie Li, Litong Gong, Yiran Zhu, Fanda Fan, Biao Wang, Tiezheng Ge, Bo Zheng(参考訳) image-to-video (i2v) 生成タスクは、常にオープンドメインにおいて高い忠実性を維持するのに苦しむ。 従来の画像アニメーション技術は主に顔や人間のポーズのような特定のドメインに焦点を当てており、オープンドメインへの一般化が困難である。 拡散モデルに基づく最近のi2vフレームワークは、オープンドメインイメージの動的コンテンツを生成することができるが、忠実性は維持できない。 その結果,低忠実度の2つの要因は,ノイズ予測バイアスと画像詳細の損失であることがわかった。 そこで本研究では,主流映像拡散モデルに適用可能な効果的な手法を提案する。 より正確な画像情報とノイズ修正を補足して高忠実度を実現する。 具体的には,まず入力画像にノイズを付加して詳細を把握し,ノイズ予測バイアスを軽減するために適切な補正を施した雑音を除去する。 本手法はチューニングフリーとプラグアンドプレイである。 実験の結果,本手法が生成ビデオの忠実性を向上させる効果を実証した。 画像からビデオまでの生成結果の詳細については、プロジェクトのWebサイトを参照してほしい。

Image-to-video (I2V) generation tasks always suffer from keeping high fidelity in the open domains. Traditional image animation techniques primarily focus on specific domains such as faces or human poses, making them difficult to generalize to open domains. Several recent I2V frameworks based on diffusion models can generate dynamic content for open domain images but fail to maintain fidelity. We found that two main factors of low fidelity are the loss of image details and the noise prediction biases during the denoising process. To this end, we propose an effective method that can be applied to mainstream video diffusion models. This method achieves high fidelity based on supplementing more precise image information and noise rectification. Specifically, given a specified image, our method first adds noise to the input image latent to keep more details, then denoises the noisy latent with proper rectification to alleviate the noise prediction biases. Our method is tuning-free and plug-and-play. The experimental results demonstrate the effectiveness of our approach in improving the fidelity of generated videos. For more image-to-video generated results, please refer to the project website: https://noise-rectification.github.io.
翻訳日:2024-03-06 15:19:42 公開日:2024-03-05
# 下流生態系保全のための適応型水力管理手法

An Adaptive Hydropower Management Approach for Downstream Ecosystem Preservation ( http://arxiv.org/abs/2403.02821v1 )

ライセンス: Link先を確認
C. Coelho, M. Jing, M. Fernanda P. Costa, L.L. Ferr\'as(参考訳) 水力発電所はクリーンで持続可能なエネルギー生産を推進し、再生可能エネルギー源への世界的移行に大きく貢献する。 しかし、水力発電所は現在、再生可能エネルギーの供給源と生態系の破壊要因の両方として肯定的に認識されている。 本研究では,水力発電プラントを生態系保護具として,適応的生態的排出を用いる可能性について考察する。 そこで本研究では,ニューラルネットワークを用いて,所望の時間毎に最小の生態的排出値を予測する手法を提案する。 さらに,従来の制約付き最適化アルゴリズムを用いた確立されたアプローチを生かして,水力管理ソフトウェアにシームレスに統合する新しいフレームワークを提案する。 この新しいアプローチは、生態系を気候変動から保護するだけでなく、電力生産の増加にも貢献する。

Hydropower plants play a pivotal role in advancing clean and sustainable energy production, contributing significantly to the global transition towards renewable energy sources. However, hydropower plants are currently perceived both positively as sources of renewable energy and negatively as disruptors of ecosystems. In this work, we highlight the overlooked potential of using hydropower plant as protectors of ecosystems by using adaptive ecological discharges. To advocate for this perspective, we propose using a neural network to predict the minimum ecological discharge value at each desired time. Additionally, we present a novel framework that seamlessly integrates it into hydropower management software, taking advantage of the well-established approach of using traditional constrained optimisation algorithms. This novel approach not only protects the ecosystems from climate change but also contributes to potentially increase the electricity production.
翻訳日:2024-03-06 15:19:26 公開日:2024-03-05
# 木材産業のイメージングに応用した長尺物体のスパース・ビュー・トモグラフィーの再構築

Reconstruction for Sparse View Tomography of Long Objects Applied to Imaging in the Wood Industry ( http://arxiv.org/abs/2403.02820v1 )

ライセンス: Link先を確認
Buda Baji\'c, Johannes A. J. Huber, Benedikt Neyses, Linus Olofsson, Ozan \"Oktem(参考訳) 木材産業では、ログは、いくつかのソース位置から動くコンベヤベルト上の離散X線スキャンによって、一般的に品質が検査される。 通常、2次元(2D)スライスワイス測定はシーケンシャルスキャン幾何によって得られる。 それぞれの2次元スライスだけでは、ログに対する生物学的特徴が十分に保存されている3次元トモグラフィー再構成のための十分な情報を持っていない。 本研究は,逐次走査型ジオメトリに適した学習された原始-双対ニューラルネットワークに基づく反復的再構成手法を提案する。 本手法は, 再建時に1つのスライスのみを考慮せずに, 隣接するスライス間の情報を蓄積する。 定量的・定性的な評価から,ノット(枝),ハートウッド,サップウッドなどの生物学的特徴を十分に同定できるログの再構成が得られた。

In the wood industry, logs are commonly quality screened by discrete X-ray scans on a moving conveyor belt from a few source positions. Typically, two-dimensional (2D) slice-wise measurements are obtained by a sequential scanning geometry. Each 2D slice alone does not carry sufficient information for a three-dimensional tomographic reconstruction in which biological features of interest in the log are well preserved. In the present work, we propose a learned iterative reconstruction method based on the Learned Primal-Dual neural network, suited for sequential scanning geometries. Our method accumulates information between neighbouring slices, instead of only accounting for single slices during reconstruction. Our quantitative and qualitative evaluations with as few as five source positions show that our method yields reconstructions of logs that are sufficiently accurate to identify biological features like knots (branches), heartwood and sapwood.
翻訳日:2024-03-06 15:19:14 公開日:2024-03-05
# 高密度ラベルはポイントクラウドからの3dオブジェクト検出に必要か?

Are Dense Labels Always Necessary for 3D Object Detection from Point Cloud? ( http://arxiv.org/abs/2403.02818v1 )

ライセンス: Link先を確認
Chenqiang Gao, Chuandong Liu, Jun Shu, Fangcen Liu, Jiang Liu, Luyu Yang, Xinbo Gao, and Deyu Meng(参考訳) 現在のSOTA(State-of-the-art)3Dオブジェクト検出法は、トレーニングのために大量の3Dバウンディングボックスアノテーションを必要とすることが多い。 しかし、このような大規模に監督されたデータセットの収集は、非常にコストがかかる。 データアノテーションの面倒な処理を減らすために、我々はシーンごとに1つの3dオブジェクトに注釈を付ける新しいアノテーション付きフレームワークを提案する。 このようなスパースアノテーション戦略は、過剰なアノテーション負担を著しく軽減し、不正確なスパース監視は検出性能を著しく低下させる可能性がある。 そこで,本稿では,ss3d++法を開発し,統一学習方式で3次元検出訓練と完全注釈シーン生成を交互に改善する。 スパースアノテーションをシードとして使用し、欠落したインスタンスマイニングモジュールと信頼性のあるバックグラウンドマイニングモジュールの設計に基づいて、信頼性の高い完全アノテートシーンを徐々に生成する。 提案手法は,同じあるいはそれ以上のアノテーションコストを用いたSOTA弱教師付き手法と比較して,競争力のある結果が得られる。 さらに,soma完全教師付き手法と比較して,アノテーションコストの約5倍,waymoデータセットのパフォーマンスの90%を約15倍のアノテーションコストで,kittiデータセットで同等あるいはそれ以上のパフォーマンスを実現している。 追加の未ラベルのトレーニングシーンはパフォーマンスをさらに向上させる可能性がある。 コードはhttps://github.com/gaocq/ss3d2で入手できる。

Current state-of-the-art (SOTA) 3D object detection methods often require a large amount of 3D bounding box annotations for training. However, collecting such large-scale densely-supervised datasets is notoriously costly. To reduce the cumbersome data annotation process, we propose a novel sparsely-annotated framework, in which we just annotate one 3D object per scene. Such a sparse annotation strategy could significantly reduce the heavy annotation burden, while inexact and incomplete sparse supervision may severely deteriorate the detection performance. To address this issue, we develop the SS3D++ method that alternatively improves 3D detector training and confident fully-annotated scene generation in a unified learning scheme. Using sparse annotations as seeds, we progressively generate confident fully-annotated scenes based on designing a missing-annotated instance mining module and reliable background mining module. Our proposed method produces competitive results when compared with SOTA weakly-supervised methods using the same or even more annotation costs. Besides, compared with SOTA fully-supervised methods, we achieve on-par or even better performance on the KITTI dataset with about 5x less annotation cost, and 90% of their performance on the Waymo dataset with about 15x less annotation cost. The additional unlabeled training scenes could further boost the performance. The code will be available at https://github.com/gaocq/SS3D2.
翻訳日:2024-03-06 15:19:00 公開日:2024-03-05
# InjectTST:長期連続予測のためのグローバル情報を独立チャネルにインジェクトするトランスフォーマ手法

InjectTST: A Transformer Method of Injecting Global Information into Independent Channels for Long Time Series Forecasting ( http://arxiv.org/abs/2403.02814v1 )

ライセンス: Link先を確認
Ce Chi, Xing Wang, Kexin Yang, Zhiyan Song, Di Jin, Lin Zhu, Chao Deng, Junlan Feng(参考訳) Transformerはマルチ変数時系列(MTS)予測の最も一般的なアーキテクチャの1つである。 近年のTransformerベースのMTSモデルでは、チャネル独立性によってノイズや分布のドリフトが軽減され、より堅牢性が向上する。 それでも、チャネル依存性がMSS固有の特性であり、貴重な情報を持っていることに留意する必要がある。 チャネル非依存構造とチャネル混合構造の両方のメリットを組み込んだモデルを設計することは、mts予測をさらに改善する上で鍵となる。 そこで本論文では,チャネルに依存しない変圧器であるInjectTSTへのグローバル情報注入法を提案する。 チャネル混合モデルを直接設計する代わりに、チャネルに依存しないバックボーンを保持し、選択的な方法でグローバル情報を個々のチャネルに徐々に注入する。 インジェクトでは、チャネル識別子、グローバルミキシングモジュール、セルフコンテクストアテンションモジュールが考案される。 チャネル識別子はtransformerがチャネルを識別するのに役立つ。 グローバルミキシングモジュールは、クロスチャネルグローバル情報を生成する。 自己文脈的注意モジュールにより、独立チャネルはロバスト性劣化を伴わずに有用なグローバル情報に選択的に集中することができ、チャネル混合は暗黙的に達成される。 実験の結果,InjectTSTは最先端モデルと比較して安定的に改善できることがわかった。

Transformer has become one of the most popular architectures for multivariate time series (MTS) forecasting. Recent Transformer-based MTS models generally prefer channel-independent structures with the observation that channel independence can alleviate noise and distribution drift issues, leading to more robustness. Nevertheless, it is essential to note that channel dependency remains an inherent characteristic of MTS, carrying valuable information. Designing a model that incorporates merits of both channel-independent and channel-mixing structures is a key to further improvement of MTS forecasting, which poses a challenging conundrum. To address the problem, an injection method for global information into channel-independent Transformer, InjectTST, is proposed in this paper. Instead of designing a channel-mixing model directly, we retain the channel-independent backbone and gradually inject global information into individual channels in a selective way. A channel identifier, a global mixing module and a self-contextual attention module are devised in InjectTST. The channel identifier can help Transformer distinguish channels for better representation. The global mixing module produces cross-channel global information. Through the self-contextual attention module, the independent channels can selectively concentrate on useful global information without robustness degradation, and channel mixing is achieved implicitly. Experiments indicate that InjectTST can achieve stable improvement compared with state-of-the-art models.
翻訳日:2024-03-06 15:18:36 公開日:2024-03-05
# Koopman演算子学習とNystr\"om法による非線形系の線形二次制御

Linear quadratic control of nonlinear systems with Koopman operator learning and the Nystr\"om method ( http://arxiv.org/abs/2403.02811v1 )

ライセンス: Link先を確認
Edoardo Caldarelli, Antoine Chatalic, Adri\`a Colom\'e, Cesare Molinari, Carlos Ocampo-Martinez, Carme Torras, Lorenzo Rosasco(参考訳) 本論文では, 非線形力学系を効果的に制御するために, クープマン演算子フレームワークをカーネル法と組み合わせる方法について検討する。 カーネル法は通常大きな計算量を必要とするが、ランダム部分空間(nystr\"om approximation)が精度を維持しながら巨大な計算節約を達成する方法を示す。 我々の主な技術的貢献は、Nystr\"om近似の効果に関する理論的保証の導出である。 より正確には、線形二次レギュレータ問題の研究を行い、近似リッカティ作用素とレギュレータ目的の両方を最適制御問題の関連する解として、m$ がランダム部分空間サイズであるレート $m^{-1/2}$ で収束することを示した。 理論的知見は数値実験によって補完される。

In this paper, we study how the Koopman operator framework can be combined with kernel methods to effectively control nonlinear dynamical systems. While kernel methods have typically large computational requirements, we show how random subspaces (Nystr\"om approximation) can be used to achieve huge computational savings while preserving accuracy. Our main technical contribution is deriving theoretical guarantees on the effect of the Nystr\"om approximation. More precisely, we study the linear quadratic regulator problem, showing that both the approximated Riccati operator and the regulator objective, for the associated solution of the optimal control problem, converge at the rate $m^{-1/2}$, where $m$ is the random subspace size. Theoretical findings are complemented by numerical experiments corroborating our results.
翻訳日:2024-03-06 15:18:13 公開日:2024-03-05
# 動的ガウスグラフ演算子:任意の離散力学問題におけるパラメトリック偏微分方程式の学習

Dynamic Gaussian Graph Operator: Learning parametric partial differential equations in arbitrary discrete mechanics problems ( http://arxiv.org/abs/2403.02810v1 )

ライセンス: Link先を確認
Chu Wang, Jinhong Wu, Yanzhi Wang, Zhijian Zha, Qi Zhou(参考訳) 深層学習法は、大規模科学データによるパラメトリック偏微分方程式(PDE)によって支配される物理系の解法に利用できる。 無限次元関数空間間の非線形マッピングを学習し、観察から解へのインタフェースを提供する演算子学習に洗練されている。 しかし、最先端のニューラル作用素は一定かつ均一な離散化に制限されているため、計算領域に対する任意の離散化スキームの一般化に欠ける。 本研究では,ニューラル演算子を任意の離散力学問題におけるパラメトリックPDE学習に拡張する,動的ガウスグラフ演算子(DGGO)と呼ばれる演算子学習アルゴリズムを提案する。 ダイナミックガウスグラフ(DGG)カーネルは、一般ユークリッド空間で定義される観測ベクトルを高次元の均一距離空間で定義される計量ベクトルにマッピングすることを学ぶ。 DGG積分核はガウス核重み付きリーマン和近似によりパラメータ化され、動的メッセージパッシンググラフを用いて積分項内の相互関係を記述する。 距離ベクトルを空間領域と周波数領域にローカライズするためにフーリエニューラル演算子が選択される。 計量ベクトルは潜在一様領域に位置し、空間変換とスペクトル変換は解空間に非常に規則的な制約を与える。 DGGOの効率性とロバスト性は、主流のニューラル演算子と比較して数値的な任意の離散力学問題を解くために適用することで検証される。 DGGカーネルにおける空間変換の有効性を示すためにアブレーション実験を行った。 本手法は, 幾何学的に可変な空隙を有する超弾性材料の応力場を工学的応用として予測する。

Deep learning methods have access to be employed for solving physical systems governed by parametric partial differential equations (PDEs) due to massive scientific data. It has been refined to operator learning that focuses on learning non-linear mapping between infinite-dimensional function spaces, offering interface from observations to solutions. However, state-of-the-art neural operators are limited to constant and uniform discretization, thereby leading to deficiency in generalization on arbitrary discretization schemes for computational domain. In this work, we propose a novel operator learning algorithm, referred to as Dynamic Gaussian Graph Operator (DGGO) that expands neural operators to learning parametric PDEs in arbitrary discrete mechanics problems. The Dynamic Gaussian Graph (DGG) kernel learns to map the observation vectors defined in general Euclidean space to metric vectors defined in high-dimensional uniform metric space. The DGG integral kernel is parameterized by Gaussian kernel weighted Riemann sum approximating and using dynamic message passing graph to depict the interrelation within the integral term. Fourier Neural Operator is selected to localize the metric vectors on spatial and frequency domains. Metric vectors are regarded as located on latent uniform domain, wherein spatial and spectral transformation offer highly regular constraints on solution space. The efficiency and robustness of DGGO are validated by applying it to solve numerical arbitrary discrete mechanics problems in comparison with mainstream neural operators. Ablation experiments are implemented to demonstrate the effectiveness of spatial transformation in the DGG kernel. The proposed method is utilized to forecast stress field of hyper-elastic material with geometrically variable void as engineering application.
翻訳日:2024-03-06 15:17:57 公開日:2024-03-05
# 非IIDデータを用いたロバストなフェデレーション学習に向けて

Towards Robust Federated Learning via Logits Calibration on Non-IID Data ( http://arxiv.org/abs/2403.02803v1 )

ライセンス: Link先を確認
Yu Qiao, Apurba Adhikary, Chaoning Zhang, Choong Seon Hong(参考訳) Federated Learning(FL)は、エッジネットワークにおける分散デバイスの共同モデルトレーニングに基づく、プライバシ保護のための分散管理フレームワークである。 しかし、最近の研究では、FLは敵の例(AE)に弱いことが示されており、その性能は著しく低下している。 一方、エッジデバイス間のデータ分散における非独立で同一の(非IID)課題は、モデルの性能をさらに低下させる可能性がある。 その結果、AEと非IIDの両方が、堅牢な学習モデルをエッジに展開する上での課題を提起している。 本研究では,FAT(Federated Adversarial Training)と称される,AE攻撃に対するFLモデルの堅牢性を改善するために,対戦トレーニング(AT)フレームワークを採用する。 さらに,FATフレームワークの下では,単純なロジット校正戦略を実装することで,非IIDの課題に対処し,敵攻撃を受ける際のモデルの堅牢性を高めることができる。 具体的には,訓練中のサンプル数が少ないクラスに対して,高重みを割り当てることで,ロジット出力を調整するための直接戦略を用いる。 このアプローチは、ローカルモデルとグローバルモデルのバイアスを軽減することを目的として、トレーニングデータのクラス不均衡に効果的に取り組む。 MNIST, Fashion-MNIST, CIFAR-10 の3つのベンチマークによる実験結果から, 本手法はいくつかのベースラインと比較して, 自然な, 堅牢な精度で, 競合する結果が得られることが示された。

Federated learning (FL) is a privacy-preserving distributed management framework based on collaborative model training of distributed devices in edge networks. However, recent studies have shown that FL is vulnerable to adversarial examples (AEs), leading to a significant drop in its performance. Meanwhile, the non-independent and identically distributed (non-IID) challenge of data distribution between edge devices can further degrade the performance of models. Consequently, both AEs and non-IID pose challenges to deploying robust learning models at the edge. In this work, we adopt the adversarial training (AT) framework to improve the robustness of FL models against adversarial example (AE) attacks, which can be termed as federated adversarial training (FAT). Moreover, we address the non-IID challenge by implementing a simple yet effective logits calibration strategy under the FAT framework, which can enhance the robustness of models when subjected to adversarial attacks. Specifically, we employ a direct strategy to adjust the logits output by assigning higher weights to classes with small samples during training. This approach effectively tackles the class imbalance in the training data, with the goal of mitigating biases between local and global models. Experimental results on three dataset benchmarks, MNIST, Fashion-MNIST, and CIFAR-10 show that our strategy achieves competitive results in natural and robust accuracy compared to several baselines.
翻訳日:2024-03-06 15:17:29 公開日:2024-03-05
# dppa:大規模言語モデルからモデルマージへのpruning手法

DPPA: Pruning Method for Large Language Model to Model Merging ( http://arxiv.org/abs/2403.02799v1 )

ライセンス: Link先を確認
Yaochen Zhu, Rui Xia, Jiajun Zhang(参考訳) モデルマージは、複数のドメインから派生した微調整されたモデルと、様々なドメインにわたるモデルの習熟度を高める意図を組み合わせることである。 主な関心事はパラメータ衝突の解決である。 合併段階では既存の研究のかなりの部分がこの問題に対処しており、最新の研究は刈り上げ段階を通じてこの問題の解決に重点を置いている。 DAREアプローチは、単純化された微調整モデルに適用すると有望な結果を示す。 しかし,本手法の有効性は,ベースラインモデルに対して有意なパラメータバイアスを示す複雑な微調整モデルに適用した場合に低下する傾向にある。 本稿では,複雑な微調整モデルを統合するという課題に対処するために,DPPA(Dynamic Pruning Partition Amplification)と呼ばれる2段階の手法を提案する。 当初我々は,高プルーニング率の性能向上を目的とした,マグニチュードプルーニングに基づく改良されたアプローチであるDynamically Pruning (DP)を導入している。 次に,パラメータ分割を動的に増幅する再スケーリング戦略である動的分割増幅(DPA)を提案する。 実験の結果,本手法はドメイン固有パラメータの20%しか保持せず,最大90%のパラメータを保持する他の手法に匹敵する性能が得られた。 さらに,本手法では,プレニング後の優れた性能を示し,モデルマージにおける性能が20%近く向上した。 コードはgithubで作っています。

Model merging is to combine fine-tuned models derived from multiple domains, with the intent of enhancing the model's proficiency across various domains. The principal concern is the resolution of parameter conflicts. A substantial amount of existing research remedy this issue during the merging stage, with the latest study focusing on resolving this issue throughout the pruning stage. The DARE approach has exhibited promising outcomes when applied to a simplistic fine-tuned model. However, the efficacy of this method tends to wane when employed on complex fine-tuned models that show a significant parameter bias relative to the baseline model. In this paper, we introduce a dual-stage method termed Dynamic Pruning Partition Amplification (DPPA), devised to tackle the challenge of merging complex fine-tuned models. Initially, we introduce Dynamically Pruning (DP), an improved approach based on magnitude pruning, which aim is to enhance performance at higher pruning rates. Subsequently, we propose Dynamically Partition Amplification (DPA), a rescaling strategy, is designed to dynamically amplify parameter partitions in relation to their significance levels. The experimental results show that our method maintains a mere 20% of domain-specific parameters and yet delivers a performance comparable to other methodologies that preserve up to 90% of parameters. Furthermore, our method displays outstanding performance post-pruning, leading to a significant improvement of nearly 20% performance in model merging. We make our code on Github.
翻訳日:2024-03-06 15:17:05 公開日:2024-03-05
# 大規模言語モデルによる教育内容の評価と最適化

Evaluating and Optimizing Educational Content with Large Language Model Judgments ( http://arxiv.org/abs/2403.02795v1 )

ライセンス: Link先を確認
Joy He-Yueya, Noah D. Goodman, Emma Brunskill(参考訳) 効果的な教育資料を作成するには、学生の学習成果の高価で時間を要する。 この障壁を克服するために、学生学習の計算モデルを構築し、それを教材の最適化に使用するというアイデアがある。 しかし,学習ダイナミクスの認知過程をモデル化することは困難である。 本稿では,言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の効果を評価する方法を提案する。 具体的には,gpt-3.5を用いて異なる学生集団に対する教材の総合効果を評価し,専門性逆転効果や変動性効果などの確立された教育的知見を再現できることを見出した。 このことは、教育コンテンツの信頼性評価者としてのLMの可能性を示している。 この知見に基づき、あるlmが別のlmの判断を報奨関数として使用して教材を生成する命令最適化手法を提案する。 このアプローチを,学生の学習成果を最大化することを目的とした,数学用語問題ワークシートの作成に適用する。 ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な一致を示す。 我々は、人間とLMの意見の潜在的な相違と、教育設計の自動化の落とし穴について論じる。

Creating effective educational materials generally requires expensive and time-consuming studies of student learning outcomes. To overcome this barrier, one idea is to build computational models of student learning and use them to optimize instructional materials. However, it is difficult to model the cognitive processes of learning dynamics. We propose an alternative approach that uses Language Models (LMs) as educational experts to assess the impact of various instructions on learning outcomes. Specifically, we use GPT-3.5 to evaluate the overall effect of instructional materials on different student groups and find that it can replicate well-established educational findings such as the Expertise Reversal Effect and the Variability Effect. This demonstrates the potential of LMs as reliable evaluators of educational content. Building on this insight, we introduce an instruction optimization approach in which one LM generates instructional materials using the judgments of another LM as a reward function. We apply this approach to create math word problem worksheets aimed at maximizing student learning gains. Human teachers' evaluations of these LM-generated worksheets show a significant alignment between the LM judgments and human teacher preferences. We conclude by discussing potential divergences between human and LM opinions and the resulting pitfalls of automating instructional design.
翻訳日:2024-03-06 15:16:41 公開日:2024-03-05
# LLM法によるプロセス指向自動テキスト要約に関する総合的研究

A Comprehensive Survey on Process-Oriented Automatic Text Summarization with Exploration of LLM-Based Methods ( http://arxiv.org/abs/2403.02901v1 )

ライセンス: Link先を確認
Hanlei Jin, Yang Zhang, Dan Meng, Jun Wang, Jinghua Tan(参考訳) 自然言語処理(NLP)アルゴリズムを利用した自動テキスト要約(ATS)は、簡潔で正確な要約を作ることを目的としており、大量のテキストを処理するのに必要な人的労力を大幅に削減する。 ATSは学術界と産業界の両方に大きな関心を集めている。 ATS法についてはこれまで多くの研究が行われてきたが、理論的な観点から従来の手法を分類することが多いため、現実的な実装の実践性に欠けることが多い。 さらに、LLM(Large Language Models)の出現により、従来のATS法が変化した。 本調査では,本研究の目的について述べる。 1) 実世界の実装に最も適している ``Process-Oriented Schema'' の観点からのATSの概要を概観する。 2) 最新のLCMベースのATS作業の総合的なレビュー,及び 3) 文献の2年間のギャップを埋めて, ATSの最新の調査を行う。 我々の知る限りでは、LSMに基づくATS法を特に調査するのはこれが初めてである。

Automatic Text Summarization (ATS), utilizing Natural Language Processing (NLP) algorithms, aims to create concise and accurate summaries, thereby significantly reducing the human effort required in processing large volumes of text. ATS has drawn considerable interest in both academic and industrial circles. Many studies have been conducted in the past to survey ATS methods; however, they generally lack practicality for real-world implementations, as they often categorize previous methods from a theoretical standpoint. Moreover, the advent of Large Language Models (LLMs) has altered conventional ATS methods. In this survey, we aim to 1) provide a comprehensive overview of ATS from a ``Process-Oriented Schema'' perspective, which is best aligned with real-world implementations; 2) comprehensively review the latest LLM-based ATS works; and 3) deliver an up-to-date survey of ATS, bridging the two-year gap in the literature. To the best of our knowledge, this is the first survey to specifically investigate LLM-based ATS methods.
翻訳日:2024-03-06 15:11:53 公開日:2024-03-05
# 教師なしドメイン適応のためのドメイン非依存相互プロンプト

Domain-Agnostic Mutual Prompting for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2403.02899v1 )

ライセンス: Link先を確認
Zhekai Du, Xinyao Li, Fengling Li, Ke Lu, Lei Zhu, Jingjing Li(参考訳) 従来のunsupervised domain adaptation(uda)は、データからの豊富なセマンティクスの活用を怠り、複雑なドメインシフトの処理に苦労するドメイン間の分散の不一致を最小限に抑えることを目指している。 有望な技術は、よりガイド付き適応のために、大規模で事前訓練された視覚言語モデルの知識を活用することである。 幾らかの努力にもかかわらず、現在の手法は、ソースとターゲットドメインのドメインセマンティクスを別々に埋め込むためのテキスト的プロンプトを学び、各ドメイン内の分類を行い、ドメイン間の知識の転送を制限する。 さらに、言語ブランチのみをプロンプトすることは、両方のモダリティを動的に適用する柔軟性に欠ける。 このギャップを埋めるために、視覚とテキストの埋め込みを相互に整合させることにより、ドメイン不変セマンティクスを活用するドメイン非依存型相互プロンプト(DAMP)を提案する。 具体的には、画像コンテキスト情報を用いて、ドメインに依存しないインスタンス条件の方法で言語分岐を誘導する。 一方、視覚的プロンプトはドメインに依存しないテキストのプロンプトに基づいて課される。 これら2つのプロンプトはクロスアテンションモジュールと相互に学習され、セマンティクス・コンシステンシー損失とインスタンス識別コントラスト損失で正規化される。 3つのUDAベンチマークの実験は、最先端アプローチよりもDAMPの方が優れていることを示した。

Conventional Unsupervised Domain Adaptation (UDA) strives to minimize distribution discrepancy between domains, which neglects to harness rich semantics from data and struggles to handle complex domain shifts. A promising technique is to leverage the knowledge of large-scale pre-trained vision-language models for more guided adaptation. Despite some endeavors, current methods often learn textual prompts to embed domain semantics for source and target domains separately and perform classification within each domain, limiting cross-domain knowledge transfer. Moreover, prompting only the language branch lacks flexibility to adapt both modalities dynamically. To bridge this gap, we propose Domain-Agnostic Mutual Prompting (DAMP) to exploit domain-invariant semantics by mutually aligning visual and textual embeddings. Specifically, the image contextual information is utilized to prompt the language branch in a domain-agnostic and instance-conditioned way. Meanwhile, visual prompts are imposed based on the domain-agnostic textual prompt to elicit domain-invariant visual embeddings. These two branches of prompts are learned mutually with a cross-attention module and regularized with a semantic-consistency loss and an instance-discrimination contrastive loss. Experiments on three UDA benchmarks demonstrate the superiority of DAMP over state-of-the-art approaches.
翻訳日:2024-03-06 15:11:38 公開日:2024-03-05
# ヘテロジニアスグラフコントラスト転送学習を用いたゼロショットクロスリンガル文書レベルの事象因果性同定

Zero-Shot Cross-Lingual Document-Level Event Causality Identification with Heterogeneous Graph Contrastive Transfer Learning ( http://arxiv.org/abs/2403.02893v1 )

ライセンス: Link先を確認
Zhitao He, Pengfei Cao, Yubo Chen, Kang Liu, Zhiqiang Zhang, Mengshu Sun, Jun Zhao(参考訳) Event Causality Identification (ECI)は、テキスト中のイベント間の因果関係を検出することを指す。 しかし、既存の研究の多くは高リソース言語による文レベルECIに焦点を当てており、低リソース言語による文書レベルECI(DECI)は未探索のままである。 本稿では,ゼロショット言語間文書レベルECIのための異種グラフ相互作用モデルと多粒性コントラスト変換学習(GIMC)を提案する。 具体的には,ドキュメント上に散在するイベント間の長距離依存関係をモデル化するヘテロジニアスグラフインタラクションネットワークを提案する。 次に,ソース言語から学習した因果関係知識の言語間伝達性を向上させるために,言語間の因果関係を整合させるマルチグラニュラ性コントラスト伝達学習モジュールを提案する。 大規模な実験により, 従来の最先端モデルよりも9.4%, 平均F1スコアの8.2%向上した。 特に、多言語シナリオでは、ゼロショットフレームワークはGPT-3.5を超え、全体的なパフォーマンスは24.3%向上した。

Event Causality Identification (ECI) refers to detect causal relations between events in texts. However, most existing studies focus on sentence-level ECI with high-resource language, leaving more challenging document-level ECI (DECI) with low-resource languages under-explored. In this paper, we propose a Heterogeneous Graph Interaction Model with Multi-granularity Contrastive Transfer Learning (GIMC) for zero-shot cross-lingual document-level ECI. Specifically, we introduce a heterogeneous graph interaction network to model the long-distance dependencies between events that are scattered over document. Then, to improve cross-lingual transferability of causal knowledge learned from source language, we propose a multi-granularity contrastive transfer learning module to align the causal representations across languages. Extensive experiments show our framework outperforms previous state-of-the-art model by 9.4% and 8.2% of average F1 score on monolingual and multilingual scenarios respectively. Notably, in multilingual scenario, our zero-shot framework even exceeds GPT-3.5 with few-shot learning by 24.3% in overall performance.
翻訳日:2024-03-06 15:11:13 公開日:2024-03-05
# グローバル, 局所体部, ヘッドストリームを用いた長期人物再同定の促進

Enhancing Long-Term Person Re-Identification Using Global, Local Body Part, and Head Streams ( http://arxiv.org/abs/2403.02892v1 )

ライセンス: Link先を確認
Duy Tran Thanh and Yeejin Lee and Byeongkeun Kang(参考訳) 本研究は, 長期的人物識別の課題に対処する。 通常、人物の再識別は、人々は服を変えないと考えており、その応用は短期的なシナリオに限定されている。 この制限を克服するために,着替えと着替えの両シナリオを考慮した長期人物再同定について検討する。 本稿では,グローバル情報とローカル情報の両方を効果的に学習し活用する新しい枠組みを提案する。 提案するフレームワークは,グローバル,ローカルボディ部分,ヘッドストリームの3つのストリームで構成されている。 グローバルストリームおよびヘッドストリームは、ヘッド領域の全画像および切り抜き画像から識別関連情報をそれぞれエンコードする。 どちらのストリームも、逆消去、最大プール、平均プールの組み合わせを使って、最も異なる、より明確な、平均的な特徴をエンコードしている。 局所体部ストリームは、各体部について同一関連情報を抽出し、他の画像から同一体部と比較することができる。 ボディ部分アノテーションは再識別データセットでは利用できないため、クラスタリングを使用して擬似ラベルを生成する。 そして、これらのラベルを用いて、局所体部ストリーム内の体部分節ヘッドを訓練する。 提案するフレームワークは、識別分類損失、ペアベース損失、擬似身体部分分割損失の重み付け和をバックプロパゲートすることによって訓練される。 提案手法の有効性を示すため,3つの公開データセット(Celeb-reID,PRCC,VC-Clothes)について実験を行った。 実験の結果,提案手法は従来の最先端手法よりも優れていた。

This work addresses the task of long-term person re-identification. Typically, person re-identification assumes that people do not change their clothes, which limits its applications to short-term scenarios. To overcome this limitation, we investigate long-term person re-identification, which considers both clothes-changing and clothes-consistent scenarios. In this paper, we propose a novel framework that effectively learns and utilizes both global and local information. The proposed framework consists of three streams: global, local body part, and head streams. The global and head streams encode identity-relevant information from an entire image and a cropped image of the head region, respectively. Both streams encode the most distinct, less distinct, and average features using the combinations of adversarial erasing, max pooling, and average pooling. The local body part stream extracts identity-related information for each body part, allowing it to be compared with the same body part from another image. Since body part annotations are not available in re-identification datasets, pseudo-labels are generated using clustering. These labels are then utilized to train a body part segmentation head in the local body part stream. The proposed framework is trained by backpropagating the weighted summation of the identity classification loss, the pair-based loss, and the pseudo body part segmentation loss. To demonstrate the effectiveness of the proposed method, we conducted experiments on three publicly available datasets (Celeb-reID, PRCC, and VC-Clothes). The experimental results demonstrate that the proposed method outperforms the previous state-of-the-art method.
翻訳日:2024-03-06 15:10:57 公開日:2024-03-05
# 真実の探索:幻覚検出のための干渉的アプローチ

In Search of Truth: An Interrogation Approach to Hallucination Detection ( http://arxiv.org/abs/2403.02889v1 )

ライセンス: Link先を確認
Yakir Yehuda, Itzik Malkiel, Oren Barkan, Jonathan Weill, Royi Ronen and Noam Koenigstein(参考訳) 大きな言語モデル(LLM)の多くの進歩と前例のない急激な進化にもかかわらず、その影響と日常生活のあらゆる側面への統合は、様々な理由で制限されている。 彼らの普及を妨げる重要な要因の1つは幻覚の発生であり、LLMは現実的に聞こえる答えを発明するが、現実の真実から遠ざかる。 本稿では,大規模言語モデルにおける幻覚を検出する新しい手法を提案する。 Llama-2 を含む複数のデータセットや LLM の広範な評価を通じて,近年の LLM の幻覚レベルについて検討し,その検出方法の有効性を実証した。 特に,Llama-2に対する幻覚の最大62%を特定の実験で観察し,本手法は外部知識に頼らずに87%の平衡精度(B-ACC)を達成する。

Despite the many advances of Large Language Models (LLMs) and their unprecedented rapid evolution, their impact and integration into every facet of our daily lives is limited due to various reasons. One critical factor hindering their widespread adoption is the occurrence of hallucinations, where LLMs invent answers that sound realistic, yet drift away from factual truth. In this paper, we present a novel method for detecting hallucinations in large language models, which tackles a critical issue in the adoption of these models in various real-world scenarios. Through extensive evaluations across multiple datasets and LLMs, including Llama-2, we study the hallucination levels of various recent LLMs and demonstrate the effectiveness of our method to automatically detect them. Notably, we observe up to 62% hallucinations for Llama-2 in a specific experiment, where our method achieves a Balanced Accuracy (B-ACC) of 87%, all without relying on external knowledge.
翻訳日:2024-03-06 15:10:30 公開日:2024-03-05
# 条件付き拡散デコーダを用いた学習画像コーデックの速度歪み知覚フレキシビリティ向上

Enhancing the Rate-Distortion-Perception Flexibility of Learned Image Codecs with Conditional Diffusion Decoders ( http://arxiv.org/abs/2403.02887v1 )

ライセンス: Link先を確認
Daniele Mari, Simone Milani(参考訳) 学習された画像圧縮コーデックは、最も効率的な画像符号化アーキテクチャを超える印象的な圧縮性能を達成した。 しかし、ほとんどのアプローチは速度と歪みを最小化するために訓練されており、知覚的メトリクスが考慮されないため、低ビットレートで不満足な視覚結果をもたらすことが多い。 本稿では,条件拡散モデルがデコーダとして使用する場合,生成圧縮タスクに有望な結果をもたらす可能性を示し,圧縮表現が与えられると,サンプリング法に基づいてデコーダ側での歪みと知覚のトレードオフ点を新たに作成できることを示す。

Learned image compression codecs have recently achieved impressive compression performances surpassing the most efficient image coding architectures. However, most approaches are trained to minimize rate and distortion which often leads to unsatisfactory visual results at low bitrates since perceptual metrics are not taken into account. In this paper, we show that conditional diffusion models can lead to promising results in the generative compression task when used as a decoder, and that, given a compressed representation, they allow creating new tradeoff points between distortion and perception at the decoder side based on the sampling method.
翻訳日:2024-03-06 15:10:13 公開日:2024-03-05
# 信頼度推定を再考する:信頼性の高い故障予測に向けて

Revisiting Confidence Estimation: Towards Reliable Failure Prediction ( http://arxiv.org/abs/2403.02886v1 )

ライセンス: Link先を確認
Fei Zhu, Xu-Yao Zhang, Zhen Cheng, Cheng-Lin Liu(参考訳) 信頼性の高い信頼性推定は、多くのリスクに敏感なアプリケーションにおいて難しいが基本的な要件である。 しかし、現代のディープニューラルネットワークは、しばしばその誤った予測、すなわち既知のクラスからの誤分類サンプル、未知のクラスからのアウト・オブ・ディストリビューション(OOD)サンプルに対して過信される。 近年,多くの信頼性校正法やOOD検出法が開発されている。 本稿では,信頼度推定手法のほとんどが誤分類検出に有害である,汎用的かつ広く存在するが実際に否定される現象を見出す。 そこで本研究では,一般的なキャリブレーション手法とood検出手法が,正しく分類された例と誤分類された例の信頼分離を悪化させ,予測を信頼するか否かの判断が困難であることを明らかにした。 最後に,バランスのとれた,ロングテールな,コ変量シフトの分類シナリオを含む様々な条件下で,最先端の障害予測性能を実現する,フラットな最小値を求めることで,信頼度ギャップの拡大を提案する。 本研究は信頼性評価のための強力なベースラインを提供するだけでなく, キャリブレーション, OOD検出, 故障予測のブリッジとしても機能する。 コードは \url{https://github.com/impression2805/fmfp} で入手できる。

Reliable confidence estimation is a challenging yet fundamental requirement in many risk-sensitive applications. However, modern deep neural networks are often overconfident for their incorrect predictions, i.e., misclassified samples from known classes, and out-of-distribution (OOD) samples from unknown classes. In recent years, many confidence calibration and OOD detection methods have been developed. In this paper, we find a general, widely existing but actually-neglected phenomenon that most confidence estimation methods are harmful for detecting misclassification errors. We investigate this problem and reveal that popular calibration and OOD detection methods often lead to worse confidence separation between correctly classified and misclassified examples, making it difficult to decide whether to trust a prediction or not. Finally, we propose to enlarge the confidence gap by finding flat minima, which yields state-of-the-art failure prediction performance under various settings including balanced, long-tailed, and covariate-shift classification scenarios. Our study not only provides a strong baseline for reliable confidence estimation but also acts as a bridge between understanding calibration, OOD detection, and failure prediction. The code is available at \url{https://github.com/Impression2805/FMFP}.
翻訳日:2024-03-06 15:10:01 公開日:2024-03-05
# MathScale: 数学的推論のためのスケーリングインストラクションチューニング

MathScale: Scaling Instruction Tuning for Mathematical Reasoning ( http://arxiv.org/abs/2403.02884v1 )

ライセンス: Link先を確認
Zhengyang Tang, Xingxing Zhang, Benyou Wan, Furu Wei(参考訳) 大規模言語モデル(LLM)は問題解決において顕著な能力を示した。 しかし、数学的な問題を解く能力は依然として不十分である。 本研究では,フロンティアLSM(例えば,GPT-3.5})を用いて高品質な数学的推論データを作成するための,シンプルでスケーラブルな方法であるMathScaleを提案する。 人間の数学的学習における認知メカニズムに触発され、まず種数学の質問からトピックと知識ポイントを抽出し、その後概念グラフを構築し、新しい数学の質問を生成する。 MathScaleは、私たちが生成する数学データセットのサイズ軸に沿って、効果的なスケーラビリティを示します。 その結果,200万の質問応答対を含む数学的推論データセット(MathScaleQA)を作成した。 K-12、大学、競争レベルの数学問題をカバーする10個のデータセット(GSM8K、MATHを含む)の集合であるMath Word Problemsのベンチマークである {\sc MwpBench} を総合的に評価する。 オープンソースLLM(LLaMA-2やMistralなど)にMathScaleQAを適用し,数学的推論の能力を大幅に向上させる。 mathscale-7b は {\sc mwpbench} で評価され、全てのデータセットで最先端のパフォーマンスを達成し、マイクロ平均精度で42.9\%、マクロ平均精度で43.7\%、同等サイズの最高のピアを上回った。

Large language models (LLMs) have demonstrated remarkable capabilities in problem-solving. However, their proficiency in solving mathematical problems remains inadequate. We propose MathScale, a simple and scalable method to create high-quality mathematical reasoning data using frontier LLMs (e.g., {\tt GPT-3.5}). Inspired by the cognitive mechanism in human mathematical learning, it first extracts topics and knowledge points from seed math questions and then build a concept graph, which is subsequently used to generate new math questions. MathScale exhibits effective scalability along the size axis of the math dataset that we generate. As a result, we create a mathematical reasoning dataset (MathScaleQA) containing two million math question-answer pairs. To evaluate mathematical reasoning abilities of LLMs comprehensively, we construct {\sc MwpBench}, a benchmark of Math Word Problems, which is a collection of ten datasets (including GSM8K and MATH) covering K-12, college, and competition level math problems. We apply MathScaleQA to fine-tune open-source LLMs (e.g., LLaMA-2 and Mistral), resulting in significantly improved capabilities in mathematical reasoning. Evaluated on {\sc MwpBench}, MathScale-7B achieves state-of-the-art performance across all datasets, surpassing its best peers of equivalent size by 42.9\% in micro average accuracy and 43.7\% in macro average accuracy, respectively.
翻訳日:2024-03-06 15:09:37 公開日:2024-03-05
# 交通流ランダム化による強化学習による自動車両決定と制御

Autonomous vehicle decision and control through reinforcement learning with traffic flow randomization ( http://arxiv.org/abs/2403.02882v1 )

ライセンス: Link先を確認
Yuan Lin, Antai Xie, Xiao Liu(参考訳) 強化学習に基づく自律走行車の意思決定と制御課題に関する最近の研究のほとんどはシミュレーション環境で行われている。 これらの研究のトレーニングと試験はルールベースの微視的トラフィックフローの下で行われ、実際の環境やほぼ現実の環境に移行して性能をテストすることはほとんどない。 トレーニングされたモデルがより現実的なトラフィックシーンでテストされると、パフォーマンスが低下する可能性がある。 本研究では,SUMOにおける車両追従モデルとルールベース微視的交通流の車線変更モデルのパラメータをランダム化することにより,周囲の車両の運転スタイルと挙動をランダム化する手法を提案する。 提案手法は, 領域ランダム化されたルールベース微視的トラフィックフローとマージシーンを併用し, ルールベース微視的トラフィックフローと高忠実性微視的トラフィックフローで個別にテストした。 その結果、ドメインランダム化トラヒックフローで訓練されたポリシーは、他の微視的トラヒックフローで訓練されたモデルと比較して、成功率と量的報酬が有意に高いことがわかった。

Most of the current studies on autonomous vehicle decision-making and control tasks based on reinforcement learning are conducted in simulated environments. The training and testing of these studies are carried out under rule-based microscopic traffic flow, with little consideration of migrating them to real or near-real environments to test their performance. It may lead to a degradation in performance when the trained model is tested in more realistic traffic scenes. In this study, we propose a method to randomize the driving style and behavior of surrounding vehicles by randomizing certain parameters of the car-following model and the lane-changing model of rule-based microscopic traffic flow in SUMO. We trained policies with deep reinforcement learning algorithms under the domain randomized rule-based microscopic traffic flow in freeway and merging scenes, and then tested them separately in rule-based microscopic traffic flow and high-fidelity microscopic traffic flow. Results indicate that the policy trained under domain randomization traffic flow has significantly better success rate and calculative reward compared to the models trained under other microscopic traffic flows.
翻訳日:2024-03-06 15:09:10 公開日:2024-03-05
# ゼロLED:低光画像強調のためのゼロ参照光推定拡散モデル

Zero-LED: Zero-Reference Lighting Estimation Diffusion Model for Low-Light Image Enhancement ( http://arxiv.org/abs/2403.02879v1 )

ライセンス: Link先を確認
Jinhong He, Minglong Xue, Zhipu Liu, Chengyun Song, Senming Zhong(参考訳) 拡散モデルに基づく低光度画像強調手法は、ペアトレーニングデータに大きく依存しており、広範な応用が制限されている。 一方、既存の教師なし手法では、未知の劣化に対して効果的なブリッジ機能がない。 これらの制約に対処するために,ゼロledと呼ばれる低光度画像強調のためのゼロ参照照明推定拡散モデルを提案する。 拡散モデルの安定収束能力を利用して、ローライト領域と実際のノーマルライト領域の間のギャップを橋渡しし、ゼロリファレンス学習によるペアワイズトレーニングデータへの依存を緩和する。 具体的には、まず初期最適化ネットワークを設計し、複数の目的関数を通して拡散モデルと初期最適化ネットワークの間の双方向制約を実装する。 次いで、実世界のシーンの劣化要因を反復的に最適化し、効果的な光強調を実現する。 さらに,得られた画像の特徴的アライメントを細粒度に促進し,主観的期待値を満たす周波数領域ベースで意味的に誘導された外観再構成モジュールを探索する。 最後に、他の最先端手法とより重要な一般化能力に対する我々のアプローチの優位性を示す。 論文が受け入れられ次第、ソースコードをオープンします。

Diffusion model-based low-light image enhancement methods rely heavily on paired training data, leading to limited extensive application. Meanwhile, existing unsupervised methods lack effective bridging capabilities for unknown degradation. To address these limitations, we propose a novel zero-reference lighting estimation diffusion model for low-light image enhancement called Zero-LED. It utilizes the stable convergence ability of diffusion models to bridge the gap between low-light domains and real normal-light domains and successfully alleviates the dependence on pairwise training data via zero-reference learning. Specifically, we first design the initial optimization network to preprocess the input image and implement bidirectional constraints between the diffusion model and the initial optimization network through multiple objective functions. Subsequently, the degradation factors of the real-world scene are optimized iteratively to achieve effective light enhancement. In addition, we explore a frequency-domain based and semantically guided appearance reconstruction module that encourages feature alignment of the recovered image at a fine-grained level and satisfies subjective expectations. Finally, extensive experiments demonstrate the superiority of our approach to other state-of-the-art methods and more significant generalization capabilities. We will open the source code upon acceptance of the paper.
翻訳日:2024-03-06 15:08:52 公開日:2024-03-05
# ActiveAD: エンドツーエンド自動運転のための計画指向アクティブラーニング

ActiveAD: Planning-Oriented Active Learning for End-to-End Autonomous Driving ( http://arxiv.org/abs/2403.02877v1 )

ライセンス: Link先を確認
Han Lu, Xiaosong Jia, Yichen Xie, Wenlong Liao, Xiaokang Yang, Junchi Yan(参考訳) 自動運転(AD)のためのエンドツーエンドの差別化学習は、最近顕著なパラダイムとなっている。 主なボトルネックは、3Dバウンディングボックスやセマンティックセグメンテーションなどの高品質なラベル付きデータに対する、手動でアノテートするのに非常に高価である。 AD中のサンプルの挙動が長い尾の分布にしばしば苦しむという顕著な事実から、この難しさはさらに顕著である。 言い換えれば、収集されたデータの大部分は自明なもの(例えば、単に直線道路を進むなど)であり、安全クリティカルなケースはごくわずかである。 本稿では, エンド・ツー・エンドADにおけるサンプルとラベルの効率性について, 実際に重要かつ未解明の課題について検討する。 具体的には,計画経路の多様性と有用性基準に応じて,収集した生データの一部を段階的に注釈付けする計画指向アクティブラーニング手法を設計する。 実証的に、我々の計画指向アプローチは、一般的なアクティブな学習方法よりも大きなマージンで優れていることを示す。 特に,本手法は,30%のnuScenesデータを用いて,最先端のエンドツーエンドAD手法と同等の性能を実現する。 私たちの研究が将来、方法論の取り組みに加えて、データ中心の視点からエンドツーエンドのADを探究するきっかけになることを期待しています。

End-to-end differentiable learning for autonomous driving (AD) has recently become a prominent paradigm. One main bottleneck lies in its voracious appetite for high-quality labeled data e.g. 3D bounding boxes and semantic segmentation, which are notoriously expensive to manually annotate. The difficulty is further pronounced due to the prominent fact that the behaviors within samples in AD often suffer from long tailed distribution. In other words, a large part of collected data can be trivial (e.g. simply driving forward in a straight road) and only a few cases are safety-critical. In this paper, we explore a practically important yet under-explored problem about how to achieve sample and label efficiency for end-to-end AD. Specifically, we design a planning-oriented active learning method which progressively annotates part of collected raw data according to the proposed diversity and usefulness criteria for planning routes. Empirically, we show that our planning-oriented approach could outperform general active learning methods by a large margin. Notably, our method achieves comparable performance with state-of-the-art end-to-end AD methods - by using only 30% nuScenes data. We hope our work could inspire future works to explore end-to-end AD from a data-centric perspective in addition to methodology efforts.
翻訳日:2024-03-06 15:08:31 公開日:2024-03-05
# ハードネガティブサンプルによるマルチモーダルコントラスト学習における概念理解の促進

Enhancing Conceptual Understanding in Multimodal Contrastive Learning through Hard Negative Samples ( http://arxiv.org/abs/2403.02875v1 )

ライセンス: Link先を確認
Philipp J. R\"osch and Norbert Oswald and Michaela Geierhos and Jind\v{r}ich Libovick\'y(参考訳) 対照的な学習を活用する現在のマルチモーダルモデルは、しばしば細かい概念的理解を開発する際に限界に直面している。 これは事前学習中のランダムな負のサンプルのためであり、損失関数においてほとんど全く異なる概念が比較される。 その結果、モデルは細粒度のセマンティックな違いに悩まされる。 この問題に対処するために,合成ハードネガティブテキストを組み込んだ新しい事前学習法を提案する。 硬い負の項は視覚的概念に対応し、よりきめ細かい視覚的概念とテキスト的概念のアライメントをもたらす。 さらに、視覚言語モデルにおける色、オブジェクト、サイズをきめ細かいアライメントを評価するための、新しい挑戦的データセットであるInpaintCOCOを紹介する。 画像が元のキャプションと一致しないように、視覚概念を変更してCOCO画像から生成的インペイントを用いてデータセットを作成しました。 InpaintCOCOデータセットを含む、広範囲の視覚言語データセットにおける詳細な概念理解の大幅な改善が得られた。

Current multimodal models leveraging contrastive learning often face limitations in developing fine-grained conceptual understanding. This is due to random negative samples during pretraining, causing almost exclusively very dissimilar concepts to be compared in the loss function. Consequently, the models struggle with fine-grained semantic differences. To address this problem, we introduce a novel pretraining method incorporating synthetic hard negative text examples. The hard negatives permute terms corresponding to visual concepts, leading to a more fine-grained visual and textual concept alignment. Further, we introduce InpaintCOCO, a new challenging dataset for assessing the fine-grained alignment of colors, objects, and sizes in vision-language models. We created the dataset using generative inpainting from COCO images by changing the visual concepts so that the images no longer match their original captions. Our results show significant improvements in fine-grained concept understanding across a wide range of vision-language datasets, including our InpaintCOCO dataset.
翻訳日:2024-03-06 15:08:06 公開日:2024-03-05
# 指数, サブガウス, 一般ライトテールを用いたアルゴリズムの高確率解析に関する研究

A Note on High-Probability Analysis of Algorithms with Exponential, Sub-Gaussian, and General Light Tails ( http://arxiv.org/abs/2403.02873v1 )

ライセンス: Link先を確認
Amit Attia, Tomer Koren(参考訳) この短い注記は、ランダム化のライトテール(しかし必ずしも有界ではない)ソースに依存する確率的アルゴリズムを解析するための単純な技術について記述している。 このようなアルゴリズムの解析は、有界確率変数を使い、解析が容易な同じアルゴリズムのより単純な変種を解析するために、ブラックボックス方式で、対数係数のわずかな損失だけを削減できることを示す。 このアプローチは指数関数、準ガウス分布、より一般的な高速分解分布を含む任意の光尾ランダム化に適用される。 一般化された東の不等式と一般光尾雑音による確率的最適化の分析を行い,その手法を解説した。

This short note describes a simple technique for analyzing probabilistic algorithms that rely on a light-tailed (but not necessarily bounded) source of randomization. We show that the analysis of such an algorithm can be reduced, in a black-box manner and with only a small loss in logarithmic factors, to an analysis of a simpler variant of the same algorithm that uses bounded random variables and often easier to analyze. This approach simultaneously applies to any light-tailed randomization, including exponential, sub-Gaussian, and more general fast-decaying distributions, without needing to appeal to specialized concentration inequalities. Analyses of a generalized Azuma inequality and stochastic optimization with general light-tailed noise are provided to illustrate the technique.
翻訳日:2024-03-06 15:07:49 公開日:2024-03-05
# スターク単位からのSIC-POVM:次元 n^2+3=4p, p 素数

SIC-POVMs from Stark Units: Dimensions n^2+3=4p, p prime ( http://arxiv.org/abs/2403.02872v1 )

ライセンス: Link先を確認
Ingemar Bengtsson, Markus Grassl, Gary McConnell(参考訳) 次元$d$の複素ヒルベルト空間における等角線(あるいはSIC)の最大集合の存在問題は、大半開である。 以前の出版物 (arXiv:2112.05552) では、$d = n^2+3 = p$, a prime number とすると、SIC を構築する方法の導出アルゴリズムが与えられた。 おそらく、このアルゴリズムの最も驚くべき数論的な側面は、スターク単位がキーロールに現れることである: 実二次体のレイクラス場拡張からの1つのスターク単位は、SICが構築されるシードとして機能する。 このアルゴリズムは、すべての次元$d = n^2+3$ に適用するように修正することができる。 ここでは、2つの理由で$d=n^2+3 = 4p$, $p$ primeの場合に焦点を当てる。 まず、次元が偶数である場合には、問題のヒルベルト空間側で特別な測度を取らなければならない。 第二に、関連するレイ類場の次数は、正確な計算を容易にする意味で「滑らか」である。 その結果、アルゴリズムの説明がより簡単になる。 この形式の17の異なる次元に対して解を与え、$d = 39604$に達する。 前回の論文と比較していくつかの改善が報告されているが、テストされていない任意の次元でアルゴリズムが動作するという証拠は提供できない。

The existence problem for maximal sets of equiangular lines (or SICs) in complex Hilbert space of dimension $d$ remains largely open. In a previous publication (arXiv:2112.05552) we gave a conjectural algorithm for how to construct a SIC if $d = n^2+3 = p$, a prime number. Perhaps the most surprising number-theoretical aspect of that algorithm is the appearance of Stark units in a key role: a single Stark unit from a ray class field extension of a real quadratic field serves as a seed from which the SIC is constructed. The algorithm can be modified to apply to all dimensions $d = n^2+3$. Here we focus on the case when $d= n^2+3 = 4p$, $p$ prime, for two reasons. First, special measures have to be taken on the Hilbert space side of the problem when the dimension is even. Second, the degrees of the relevant ray class fields are `smooth' in a sense that facilitates exact calculations. As a result the algorithm becomes easier to explain. We give solutions for seventeen different dimensions of this form, reaching $d = 39604$. Several improvements relative to our previous publication are reported, but we cannot offer a proof that the algorithm works for any dimensions where it has not been tested.
翻訳日:2024-03-06 15:07:36 公開日:2024-03-05
# 量子混合状態自己注意ネットワーク

Quantum Mixed-State Self-Attention Network ( http://arxiv.org/abs/2403.02871v1 )

ライセンス: Link先を確認
Fu Chen, Qinglin Zhao, Li Feng, Chuangtao Chen, Yangbin Lin, Jianhong Lin(参考訳) 量子コンピューティングの急速な進歩は、機械学習分野、特に自然言語処理(NLP)タスクの文脈におけるその可能性を強調している。 量子機械学習(QML)は、量子コンピューティングのユニークな能力を活用し、複雑なデータ処理とパターン認識の課題に対する新しい視点と方法論を提供する。 本稿では、量子コンピューティングの原理を古典的機械学習アルゴリズム、特に自己注意ネットワークと統合し、NLPタスクの処理効率と効率を向上させる新しい量子混合状態注意ネットワーク(QMSAN)を提案する。 QMSANモデルは混合状態に基づく量子アテンション機構を採用し、量子領域内のクエリとキー間の類似性を効率的に直接推定し、より効果的なアテンションウェイト取得を実現する。 さらに,量子回路内の固定量子ゲートによって実装された革新的な量子位置符号化方式を提案し,モデルの精度を向上する。 様々なデータセットに対する実験的検証は、QMSANモデルが既存の量子モデルや古典モデルをテキスト分類で上回り、大幅な性能改善を実現していることを示している。 QMSANモデルはパラメータ数を著しく削減するだけでなく、パフォーマンスにおいて従来の自己認識ネットワークを超え、データ表現や情報抽出におけるその強力な能力を示している。 さらに,量子雑音環境におけるモデルのロバスト性について検討し,qmsanが低雑音に対する可換ロバスト性を有することを示した。

The rapid advancement of quantum computing has increasingly highlighted its potential in the realm of machine learning, particularly in the context of natural language processing (NLP) tasks. Quantum machine learning (QML) leverages the unique capabilities of quantum computing to offer novel perspectives and methodologies for complex data processing and pattern recognition challenges. This paper introduces a novel Quantum Mixed-State Attention Network (QMSAN), which integrates the principles of quantum computing with classical machine learning algorithms, especially self-attention networks, to enhance the efficiency and effectiveness in handling NLP tasks. QMSAN model employs a quantum attention mechanism based on mixed states, enabling efficient direct estimation of similarity between queries and keys within the quantum domain, leading to more effective attention weight acquisition. Additionally, we propose an innovative quantum positional encoding scheme, implemented through fixed quantum gates within the quantum circuit, to enhance the model's accuracy. Experimental validation on various datasets demonstrates that QMSAN model outperforms existing quantum and classical models in text classification, achieving significant performance improvements. QMSAN model not only significantly reduces the number of parameters but also exceeds classical self-attention networks in performance, showcasing its strong capability in data representation and information extraction. Furthermore, our study investigates the model's robustness in different quantum noise environments, showing that QMSAN possesses commendable robustness to low noise.
翻訳日:2024-03-06 15:07:17 公開日:2024-03-05
# RulePrompt: プロンプティングPLMと自己Iterative Logical Ruleを用いた弱修正テキスト分類

RulePrompt: Weakly Supervised Text Classification with Prompting PLMs and Self-Iterative Logical Rules ( http://arxiv.org/abs/2403.02932v1 )

ライセンス: Link先を確認
Miaomiao Li, Jiaqi Zhu, Yang Wang, Yi Yang, Yilin Li, Hongan Wang(参考訳) zero-shotやdataless text classificationとも呼ばれるweakly supervised text classification(wstc)は、ラベル付きデータではなく、カテゴリごとに限られたシードワード(ラベル名)しか必要とせず、ダイナミックでオープンなweb環境内でテキストの塊を分類できるため、注目を集めている。 最近普及しているPLM(Pre-trained Language Models)の助けを借りて、多くの研究は、手作業による工芸品と/または自動で発声器を識別してカテゴリの確率を推定したが、これらのカテゴリー指示語の効果を区別することはできなかった。 本稿では, PLMが各カテゴリを効果的に理解するために, まず, 論理式を用いたルールベース知識の新たな形態を提案し, カテゴリの意味を特徴付ける。 次に、ルールマイニングモジュールとルールエンハンスされた擬似ラベル生成モジュールと、plmをこのタスクと整合させるための自己教師付き微調整モジュールからなる、wstcタスクのためのルールプロンプトと呼ばれるplmベースのアプローチを開発した。 この枠組み内では、テキストに割り当てられた不正確な擬似ラベルと、カテゴリに関連する不正確な論理規則が相互に代替的な方法で強化される。 これは、知識(ルール)の自己決定的なクローズドループを確立して利用し、シードワードが出発点となる。 広範な実験により,本手法の有効性と頑健性が検証された。 さらに,このアプローチは解釈可能なカテゴリールールを導出し,難解なカテゴリを曖昧にすることの利点を証明している。

Weakly supervised text classification (WSTC), also called zero-shot or dataless text classification, has attracted increasing attention due to its applicability in classifying a mass of texts within the dynamic and open Web environment, since it requires only a limited set of seed words (label names) for each category instead of labeled data. With the help of recently popular prompting Pre-trained Language Models (PLMs), many studies leveraged manually crafted and/or automatically identified verbalizers to estimate the likelihood of categories, but they failed to differentiate the effects of these category-indicative words, let alone capture their correlations and realize adaptive adjustments according to the unlabeled corpus. In this paper, in order to let the PLM effectively understand each category, we at first propose a novel form of rule-based knowledge using logical expressions to characterize the meanings of categories. Then, we develop a prompting PLM-based approach named RulePrompt for the WSTC task, consisting of a rule mining module and a rule-enhanced pseudo label generation module, plus a self-supervised fine-tuning module to make the PLM align with this task. Within this framework, the inaccurate pseudo labels assigned to texts and the imprecise logical rules associated with categories mutually enhance each other in an alternative manner. That establishes a self-iterative closed loop of knowledge (rule) acquisition and utilization, with seed words serving as the starting point. Extensive experiments validate the effectiveness and robustness of our approach, which markedly outperforms state-of-the-art weakly supervised methods. What is more, our approach yields interpretable category rules, proving its advantage in disambiguating easily-confused categories.
翻訳日:2024-03-06 15:02:23 公開日:2024-03-05
# 個人レベルのオンライン情報追跡の質向上:既存のアプローチの挑戦と新しいコンテンツ・ロングテールセンシティブな学術的ソリューションの導入

Improving the quality of individual-level online information tracking: challenges of existing approaches and introduction of a new content- and long-tail sensitive academic solution ( http://arxiv.org/abs/2403.02931v1 )

ライセンス: Link先を確認
Silke Adam, Mykola Makhortykh, Michaela Maier, Viktor Aigenseer, Aleksandra Urman, Teresa Gil Lopez, Clara Christner, Ernesto de Le\'on, Roberto Ulloa(参考訳) 本稿では,ソーシャルサイエンスにおける個人レベルのデスクトップ情報追跡におけるデータ収集の質を評価し,既存のアプローチでは,コンテンツレベルのデータ不足によるサンプリング問題や,さまざまなデバイスや長期消費パターンの無視,透明性やプライバシの問題に直面することを示す。 これらの問題を克服するために、本記事では、ヨーロッパの大手研究機関が管理するオープンソースの追跡ツールである、新しい学術追跡ソリューションであるWebTrackを紹介する。 WebTrackの設計ロジック、インターフェース、バックエンド要件について、続いてツールの長所と短所を詳細に検討した。 最後に、1185人の参加者のデータを用いて、webtrackによるデータ収集の改善が、追跡データの処理における新たな革新的シフトにどのようにつながるかを実証的に説明している。 WebTrackは,従来のニュースプラットフォームよりも多く公開されているコンテンツ収集を可能にするため,自動コンテンツ分析の適用により,トラッキングデータにおける政治関連情報消費の検出を,リストベースのニュース識別に依存する従来のアプローチと比較して,強く向上させることができる。

This article evaluates the quality of data collection in individual-level desktop information tracking used in the social sciences and shows that the existing approaches face sampling issues, validity issues due to the lack of content-level data and their disregard of the variety of devices and long-tail consumption patterns as well as transparency and privacy issues. To overcome some of these problems, the article introduces a new academic tracking solution, WebTrack, an open source tracking tool maintained by a major European research institution. The design logic, the interfaces and the backend requirements for WebTrack, followed by a detailed examination of strengths and weaknesses of the tool, are discussed. Finally, using data from 1185 participants, the article empirically illustrates how an improvement in the data collection through WebTrack leads to new innovative shifts in the processing of tracking data. As WebTrack allows collecting the content people are exposed to on more than classical news platforms, we can strongly improve the detection of politics-related information consumption in tracking data with the application of automated content analysis compared to traditional approaches that rely on the list-based identification of news.
翻訳日:2024-03-06 15:01:25 公開日:2024-03-05
# bass --unified semantic graphsによる抽象要約の促進 -- の2つ目の考察 - レプリケーションスタディ

A Second Look on BASS -- Boosting Abstractive Summarization with Unified Semantic Graphs -- A Replication Study ( http://arxiv.org/abs/2403.02930v1 )

ライセンス: Link先を確認
Osman Alperen Kora\c{s}, J\"org Schl\"otterer, Christin Seifert(参考訳) 本稿では,統一意味グラフの概念に基づく抽象的な要約システムであるBASSフレームワークの詳細な複製について述べる。 本研究は、キーコンポーネントの複製に関する課題と、新しいコンポーネントの複製に根ざしたエラーソースを体系的に分離するアブレーション研究を含む。 以上の結果から,本研究と性能の相違が確認された。 BASSのような先進的なフレームワークを複製するために、合理的に省略された詳細であっても注意を払うことの重要性を強調し、複製可能な論文を書くための重要なプラクティスを強調します。

We present a detailed replication study of the BASS framework, an abstractive summarization system based on the notion of Unified Semantic Graphs. Our investigation includes challenges in replicating key components and an ablation study to systematically isolate error sources rooted in replicating novel components. Our findings reveal discrepancies in performance compared to the original work. We highlight the significance of paying careful attention even to reasonably omitted details for replicating advanced frameworks like BASS, and emphasize key practices for writing replicable papers.
翻訳日:2024-03-06 15:00:47 公開日:2024-03-05
# ユーザ駆動適応:動的選好による自律運転システムの調整

User-Driven Adaptation: Tailoring Autonomous Driving Systems with Dynamic Preferences ( http://arxiv.org/abs/2403.02928v1 )

ライセンス: Link先を確認
Mingyue Zhang, Jialong Li, Nianyu Li, Eunsuk Kang, Kenji Tei(参考訳) 自動運転車の分野では、ダイナミックなユーザー嗜好は不可欠だが、対応は困難だ。 既存の方法はしばしばこれらの嗜好を誤って表現し、そのダイナミズムを見過ごしたり、人間が数学的に目的を表現するのが困難であるとしてユーザーを過大評価する。 以前に紹介されたフレームワークは、動的嗜好を固有の不確実性として解釈し、システムの振る舞いに不満を抱いた場合にフィードバックを得られる‘Human-on-the-loop’メカニズムを含む。 本研究では,フィードバック駆動適応によるシステム行動とユーザ期待の整合性に着目し,20人を対象にしたユーザスタディによるアプローチをさらに強化する。 提案手法は,ユーザの不満とアルゴリズムによる調整を効果的に融合する能力を示し,自律システムにおける参加者の主観的満足度の向上に繋がる。

In the realm of autonomous vehicles, dynamic user preferences are critical yet challenging to accommodate. Existing methods often misrepresent these preferences, either by overlooking their dynamism or overburdening users as humans often find it challenging to express their objectives mathematically. The previously introduced framework, which interprets dynamic preferences as inherent uncertainty and includes a ``human-on-the-loop'' mechanism enabling users to give feedback when dissatisfied with system behaviors, addresses this gap. In this study, we further enhance the approach with a user study of 20 participants, focusing on aligning system behavior with user expectations through feedback-driven adaptation. The findings affirm the approach's ability to effectively merge algorithm-driven adjustments with user complaints, leading to improved participants' subjective satisfaction in autonomous systems.
翻訳日:2024-03-06 15:00:36 公開日:2024-03-05
# スペクトルから生物物理学への展望:バイアス付き放射移動モデルによるエンドツーエンド学習

From Spectra to Biophysical Insights: End-to-End Learning with a Biased Radiative Transfer Model ( http://arxiv.org/abs/2403.02922v1 )

ライセンス: Link先を確認
Yihang She, Clement Atzberger, Andrew Blake, Srinivasan Keshav(参考訳) 機械学習の進歩により、気候変動研究のための地球観測データの利用が促進された。 しかし、特に気候変動に対する森林の生物物理学的反応を理解する上で、機械学習表現の解釈性は依然として課題である。 分光データから生物物理学変数を抽出するためのRTM(invert Radive Transfer Model)を逆転するリモートセンシングの従来の手法は、特に複雑な森林において、RTMに固有のバイアスを考慮できないことが多い。 本稿では,RTMを自動エンコーダアーキテクチャに統合し,エンドツーエンドの学習手法を提案する。 提案手法は,rtmのバイアスを補正するだけでなく,ニューラルネットワーク回帰のような従来の変数検索手法よりも優れている。 さらに、我々のフレームワークは一般に偏りのある物理モデルを反転させる可能性がある。 コードはhttps://github.com/yihshe/ai-refined-rtm.gitで入手できる。

Advances in machine learning have boosted the use of Earth observation data for climate change research. Yet, the interpretability of machine-learned representations remains a challenge, particularly in understanding forests' biophysical reactions to climate change. Traditional methods in remote sensing that invert radiative transfer models (RTMs) to retrieve biophysical variables from spectral data often fail to account for biases inherent in the RTM, especially for complex forests. We propose to integrate RTMs into an auto-encoder architecture, creating an end-to-end learning approach. Our method not only corrects biases in RTMs but also outperforms traditional techniques for variable retrieval like neural network regression. Furthermore, our framework has potential generally for inverting biased physical models. The code is available on https://github.com/yihshe/ai-refined-rtm.git.
翻訳日:2024-03-06 15:00:20 公開日:2024-03-05
# 量子・フォー・グッドと量子コンピューティングの社会的影響

Quantum for Good and the Societal Impact of Quantum Computing ( http://arxiv.org/abs/2403.02921v1 )

ライセンス: Link先を確認
Matthias Troyer, Emily Violi Benjamin, Ani Gevorkian(参考訳) 量子コンピューティングは、人類が古典的なコンピュータで難解な問題を解くのを助けることを約束する。 今日の機械とは異なり、量子コンピュータは自然の基本的な量子力学的法則を利用する新しい計算プロセスを用いる。 このことは、特定の応用に比例しない計算力を解放し、気候危機、食料不安全、広範囲の病気など、我々の世代の最も重大な課題を解決することを約束する。 この終了状態のみを実現できるエンティティは誰もいません。 フォールトトレラントな量子スーパーコンピュータとそれを取り巻く活発なエコシステムの開発には、業界、政府、学界間の深いパートナーシップが必要です。 また、量子コンピューティングの積極的な応用を可能にし、促進し、安全で責任ある技術の利用が開発と展開の中心であることを保証するために、集団的行動も必要となる。 これらの目標を達成するには、3つの優先順位に重点を置く必要がある。 量子コンピューティングは、重要なグローバルな問題を解決する量子ソリューションを開発することで、人類のすべての利益を確実にする。 2.利用。 量子セーフ暗号の展開を加速し、量子マシンの責任ある使用のためのガバナンスプロセスと制御を開発することにより、悪意のある使用から保護する。 3. アクセス。 スキル、労働力、エコシステム開発、デジタルインフラを通じて、社会全体の経済成長の可能性を民主化する。 本稿ではそれぞれを交互に論じる。

Quantum computing promises to help humanity solve problems that would otherwise be intractable on classical computers. Unlike today's machines, quantum computers use a novel computing process that leverages the foundational quantum mechanical laws of nature. This unlocks unparalleled compute power for certain applications and promises to help solve some of our generation's gravest challenges, including the climate crisis, food insecurity, and widespread disease. No one entity will be able to realize this end state alone. Developing a fault-tolerant quantum supercomputer and a vibrant ecosystem around it will require deep partnerships between industry, governments, and academia. It will also require collective action to enable and promote positive applications of quantum computing and ensure that the safe and responsible use of the technology is at the center of its development and deployment. Achieving these objectives will require focusing on three priorities: 1. Impact. Ensure quantum computing benefits all of humankind by developing quantum solutions to solve critical, global problems. 2. Use. Protect against malicious use by accelerating the deployment of quantum-safe cryptography and developing governance processes and controls for the responsible use of quantum machines. 3. Access. Democratize the potential for economic growth across all of society through skilling, workforce and ecosystem development, and digital infrastructure. This paper discusses each in turn.
翻訳日:2024-03-06 15:00:07 公開日:2024-03-05
# TaylorShift: Taylor-Softmax を用いた正方形から線形(および後方)への自己認識の複雑さのシフト

TaylorShift: Shifting the Complexity of Self-Attention from Squared to Linear (and Back) using Taylor-Softmax ( http://arxiv.org/abs/2403.02920v1 )

ライセンス: Link先を確認
Tobias Christian Nauen, Sebastian Palacio, Andreas Dengel(参考訳) 注意機構の二次的な複雑さは、トランスフォーマーを使用して長いシーケンスを処理するための最大のハードルの1つである。 現在のメソッドはスパース表現やステートフルな繰り返しに依存しており、トークンとトークンのインタラクションを犠牲にしている。 本稿では,線形時間と空間におけるトークン間相互作用の完全な計算を可能にするテイラーソフトマックスの新たな再構成であるTaylorShiftを紹介する。 従来の注意よりもtaylorshiftを採用する方が効率的となるクロスオーバーポイントを解析的に決定し,経験的測定と密接に連携する。 具体的には,taylorshiftが800トークンまでのシーケンスのメモリ効率を高め,約1700トークン以上の入力の推論を高速化することを示す。 短いシーケンスでは、TaylorShiftはバニラの注意と互換性を持ってスケールする。 さらに、長いシーケンスを含む5つのタスクにまたがる分類ベンチマークでは、taylorshiftを備えたトランスフォーマーを使用する場合、精度が低下しない。 再現性のために、https://github.com/tobna/TaylorShift.comでコードにアクセスします。

The quadratic complexity of the attention mechanism represents one of the biggest hurdles for processing long sequences using Transformers. Current methods, relying on sparse representations or stateful recurrence, sacrifice token-to-token interactions, which ultimately leads to compromises in performance. This paper introduces TaylorShift, a novel reformulation of the Taylor softmax that enables computing full token-to-token interactions in linear time and space. We analytically determine the crossover points where employing TaylorShift becomes more efficient than traditional attention, aligning closely with empirical measurements. Specifically, our findings demonstrate that TaylorShift enhances memory efficiency for sequences as short as 800 tokens and accelerates inference for inputs of approximately 1700 tokens and beyond. For shorter sequences, TaylorShift scales comparably with the vanilla attention. Furthermore, a classification benchmark across five tasks involving long sequences reveals no degradation in accuracy when employing Transformers equipped with TaylorShift. For reproducibility, we provide access to our code under https://github.com/tobna/TaylorShift.
翻訳日:2024-03-06 14:59:48 公開日:2024-03-05
# CycleDMによるクロスドメイン画像変換

Cross-Domain Image Conversion by CycleDM ( http://arxiv.org/abs/2403.02919v1 )

ライセンス: Link先を確認
Sho Shimotsumagari, Shumpei Takezaki, Daichi Haraguchi, Seiichi Uchida(参考訳) 本研究の目的は,機械学習による文字画像(フォント画像など)と手書き文字画像との変換を可能にすることである。 そこで本研究では, 拡散モデルにサイクガンの概念を組み込んだ新しい非ペア画像から画像への領域変換法cycledmを提案する。 具体的には、CycleDMは2つの画像領域の復調過程をブリッジする2つの内部変換モデルを持つ。 これらの変換モデルはドメイン間の明示的な対応なしに効率的に訓練される。 機械印刷および手書き文字イメージを2つのモードに適用することにより、CycleDMはそれらの変換を実現する。 変換画像の定量的・質的評価実験により,我々の手法が他の手法よりも優れていることがわかった。

The purpose of this paper is to enable the conversion between machine-printed character images (i.e., font images) and handwritten character images through machine learning. For this purpose, we propose a novel unpaired image-to-image domain conversion method, CycleDM, which incorporates the concept of CycleGAN into the diffusion model. Specifically, CycleDM has two internal conversion models that bridge the denoising processes of two image domains. These conversion models are efficiently trained without explicit correspondence between the domains. By applying machine-printed and handwritten character images to the two modalities, CycleDM realizes the conversion between them. Our experiments for evaluating the converted images quantitatively and qualitatively found that ours performs better than other comparable approaches.
翻訳日:2024-03-06 14:59:31 公開日:2024-03-05
# DynST:資源制約付き時空間予測のための動的スパーストレーニング

DynST: Dynamic Sparse Training for Resource-Constrained Spatio-Temporal Forecasting ( http://arxiv.org/abs/2403.02914v1 )

ライセンス: Link先を確認
Hao Wu, Haomin Wen, Guibin Zhang, Yutong Xia, Kai Wang, Yuxuan Liang, Yu Zheng, Kun Wang(参考訳) この絶え間なく増加するセンサーサービスは、貴重な道を開き、ディープラーニング指向の地球科学のための大量の地球システムデータを提供するが、悲しいことに、彼らの産業レベルの展開に恐ろしい障害をもたらす。 具体的には、地球科学システムはセンサーの広範な展開に大きく依存するが、センサーからのデータ収集は複雑な地理的・社会的要因に制約されているため、包括的カバレッジと均一な展開を達成することは困難である。 この障害を軽減するため、従来のセンサー配置アプローチでは、特定のアルゴリズムを使用してセンサーの設計と展開を行っている。 これらの方法はセンサの活性化時間を動的に調整し、各サブリージョンにわたって検出プロセスを最適化する。 歴史的観測と地理的特徴に基づいて、アクティベーション戦略を定式化することで、手法と結果のモデルは単純でも実用的でもなかった。 さらに悪いことに、複雑な技術設計は最終的には一般化性の弱いモデルにつながるかもしれない。 本稿では,時空間データ動的スパーストレーニングの概念を初めて紹介し,重要なセンサ分布を適応的,動的にフィルタリングすることを目的とする。 私たちの知る限り、これはデータレベルでの業界レベルのデプロイメント最適化コンセプトの最初の提案(dynstと呼ばれる)です。 しかし、時間次元が存在するため、時空間データのプルーニングは異なるタイムスタンプで衝突を引き起こす可能性がある。 この目的を達成するために、動的マージ技術と創発的な次元マッピングを用いて、時間的側面による潜在的影響を軽減する。 トレーニングプロセスの間、DynSTは反復的プルーニングとスパーストレーニングを使用して、将来の予測に最も寄与しない知覚領域を繰り返し識別し、動的に除去する。

The ever-increasing sensor service, though opening a precious path and providing a deluge of earth system data for deep-learning-oriented earth science, sadly introduce a daunting obstacle to their industrial level deployment. Concretely, earth science systems rely heavily on the extensive deployment of sensors, however, the data collection from sensors is constrained by complex geographical and social factors, making it challenging to achieve comprehensive coverage and uniform deployment. To alleviate the obstacle, traditional approaches to sensor deployment utilize specific algorithms to design and deploy sensors. These methods dynamically adjust the activation times of sensors to optimize the detection process across each sub-region. Regrettably, formulating an activation strategy generally based on historical observations and geographic characteristics, which make the methods and resultant models were neither simple nor practical. Worse still, the complex technical design may ultimately lead to a model with weak generalizability. In this paper, we introduce for the first time the concept of spatio-temporal data dynamic sparse training and are committed to adaptively, dynamically filtering important sensor distributions. To our knowledge, this is the first proposal (termed DynST) of an industry-level deployment optimization concept at the data level. However, due to the existence of the temporal dimension, pruning of spatio-temporal data may lead to conflicts at different timestamps. To achieve this goal, we employ dynamic merge technology, along with ingenious dimensional mapping to mitigate potential impacts caused by the temporal aspect. During the training process, DynST utilize iterative pruning and sparse training, repeatedly identifying and dynamically removing sensor perception areas that contribute the least to future predictions.
翻訳日:2024-03-06 14:59:21 公開日:2024-03-05
# 確率的サドル点差分問題に対する近次元非依存のミラーディフレッシュアルゴリズム

Mirror Descent Algorithms with Nearly Dimension-Independent Rates for Differentially-Private Stochastic Saddle-Point Problems ( http://arxiv.org/abs/2403.02912v1 )

ライセンス: Link先を確認
Tom\'as Gonz\'alez and Crist\'obal Guzm\'an and Courtney Paquette(参考訳) 本研究では,多面体設定におけるDP確率的サドル点の問題について検討する。 双線型目的に対してのみ既知の保証である期待双対性ギャップに対してほぼ次元独立な収束率を達成する確率的ミラー降下に基づく$(\varepsilon, \delta)$-dpアルゴリズムを提案する。 凸凸および一階スムース確率的目的に対して、このアルゴリズムは$d$が問題の次元であり、データセットサイズが$n$である場合、$\sqrt{\log(d)/n} + (\log(d)^{3/2}/[n\varepsilon])^{1/3}$となる。 さらに二階スムースネスの仮定の下で、期待されるギャップの速度を$\sqrt{\log(d)/n} + (\log(d)^{3/2}/[n\varepsilon])^{2/5}$に改善する。 この追加の仮定の下では、バイアス還元勾配推定器を用いて、双対性ギャップは一定の成功確率を持つ$\log(d)/\sqrt{n} + \log(d)/[n\varepsilon]^{1/2}$で有界であることを示す。 この結果は、アプローチのほぼ最適性の証拠となる。 最後に,本手法とオンライン学習の高速化手法を組み合わせることで,frank-wolfe法を基礎としない多面体設定におけるdp確率凸最適化の最初のアルゴリズムとなることを示す。 凸および一階スムース確率目的に対して、我々のアルゴリズムは、$\sqrt{\log(d)/n} + \log(d)^{7/10}/[n\varepsilon]^{2/5}$の余剰リスクを獲得し、さらに二階スムースネスを仮定すると、$\sqrt{\log(d)/n} + \log(d)/\sqrt{n\varepsilon}$に改善する。 これらの結果は、古典的なモーリー・スパーシフィケーション・レムマ(Maurey Sparsification Lemma)の様々な拡張である。

We study the problem of differentially-private (DP) stochastic (convex-concave) saddle-points in the polyhedral setting. We propose $(\varepsilon, \delta)$-DP algorithms based on stochastic mirror descent that attain nearly dimension-independent convergence rates for the expected duality gap, a type of guarantee that was known before only for bilinear objectives. For convex-concave and first-order-smooth stochastic objectives, our algorithms attain a rate of $\sqrt{\log(d)/n} + (\log(d)^{3/2}/[n\varepsilon])^{1/3}$, where $d$ is the dimension of the problem and $n$ the dataset size. Under an additional second-order-smoothness assumption, we improve the rate on the expected gap to $\sqrt{\log(d)/n} + (\log(d)^{3/2}/[n\varepsilon])^{2/5}$. Under this additional assumption, we also show, by using bias-reduced gradient estimators, that the duality gap is bounded by $\log(d)/\sqrt{n} + \log(d)/[n\varepsilon]^{1/2}$ with constant success probability. This result provides evidence of the near-optimality of the approach. Finally, we show that combining our methods with acceleration techniques from online learning leads to the first algorithm for DP Stochastic Convex Optimization in the polyhedral setting that is not based on Frank-Wolfe methods. For convex and first-order-smooth stochastic objectives, our algorithms attain an excess risk of $\sqrt{\log(d)/n} + \log(d)^{7/10}/[n\varepsilon]^{2/5}$, and when additionally assuming second-order-smoothness, we improve the rate to $\sqrt{\log(d)/n} + \log(d)/\sqrt{n\varepsilon}$. Instrumental to all of these results are various extensions of the classical Maurey Sparsification Lemma, which may be of independent interest.
翻訳日:2024-03-06 14:58:54 公開日:2024-03-05
# ImgTrojan: ONE画像付き視覚ランゲージモデルの脱獄

ImgTrojan: Jailbreaking Vision-Language Models with ONE Image ( http://arxiv.org/abs/2403.02910v1 )

ライセンス: Link先を確認
Xijia Tao, Shuai Zhong, Lei Li, Qi Liu, Lingpeng Kong(参考訳) 大型言語モデル(LLM)と人間の価値の整合性への関心が高まっている。 しかしながら、視覚モジュールや視覚言語モデル(VLM)との統合の安全性の問題は、いまだに未解明のままである。 本稿では,ユーザが有害な指示を入力した場合の安全障壁を回避することを目的とした,新しいVLMに対する脱獄攻撃を提案する。 有毒な(画像、テキスト)データペアがトレーニングデータに含まれているシナリオを想定します。 原文のキャプションを悪意のあるジェイルブレイクプロンプトに置き換えることで、中毒画像をジェイルブレイク攻撃することができる。 さらに, トレーニング可能なパラメータの位置と毒の比率が攻撃の成功率に及ぼす影響を解析した。 評価のために、攻撃の成功率とステルスネスを定量化する2つの指標を設計する。 治癒した有害な指示のリストとともに、攻撃効果を測定するためのベンチマークが提供される。 ベースライン法と比較することにより,攻撃の有効性を実証する。

There has been an increasing interest in the alignment of large language models (LLMs) with human values. However, the safety issues of their integration with a vision module, or vision language models (VLMs), remain relatively underexplored. In this paper, we propose a novel jailbreaking attack against VLMs, aiming to bypass their safety barrier when a user inputs harmful instructions. A scenario where our poisoned (image, text) data pairs are included in the training data is assumed. By replacing the original textual captions with malicious jailbreak prompts, our method can perform jailbreak attacks with the poisoned images. Moreover, we analyze the effect of poison ratios and positions of trainable parameters on our attack's success rate. For evaluation, we design two metrics to quantify the success rate and the stealthiness of our attack. Together with a list of curated harmful instructions, a benchmark for measuring attack efficacy is provided. We demonstrate the efficacy of our attack by comparing it with baseline methods.
翻訳日:2024-03-06 14:58:01 公開日:2024-03-05
# 時間エンコードされた事象駆動ニューラルネットワークによる暗黒領域の視線ベクトル推定

Gaze-Vector Estimation in the Dark with Temporally Encoded Event-driven Neural Networks ( http://arxiv.org/abs/2403.02909v1 )

ライセンス: Link先を確認
Abeer Banerjee, Naval K. Mehta, Shyam S. Prasad, Himanshu, Sumeet Saurav, Sanjay Singh(参考訳) 本稿では,人間とコンピュータのインタラクションからドライバの監視システムまで,様々なアプリケーションにおいて重要な課題である視線ベクトル予測の難しさに対処する。 我々の革新的なアプローチは、新しい時間的イベントエンコーディングスキームと専用ニューラルネットワークアーキテクチャを活用して、極低照度条件の設定を要求するように設計されています。 時間符号化法は、動的視覚センサ(dvs)イベントをグレースケールガイドフレームとシームレスに統合し、ニューラルネットワークに入力するための連続符号化画像を生成する。 このユニークなソリューションは、アクティブエイジグループ内の参加者からの多様な視線応答をキャプチャするだけでなく、低照度条件用に調整されたキュレートデータセットも導入する。 符号化された時間フレームをネットワークと組み合わせることで,空間的局所化と信頼性の高い視線方向を予測できる。 100%という驚くべき100ピクセルの精度を達成し、我々の研究は、低照度ビデオの正確な視線ベクトル予測のために、時間的に連続する符号化画像を扱うニューラルネットワークの強みを強調し、視線予測技術の進歩に寄与した。

In this paper, we address the intricate challenge of gaze vector prediction, a pivotal task with applications ranging from human-computer interaction to driver monitoring systems. Our innovative approach is designed for the demanding setting of extremely low-light conditions, leveraging a novel temporal event encoding scheme, and a dedicated neural network architecture. The temporal encoding method seamlessly integrates Dynamic Vision Sensor (DVS) events with grayscale guide frames, generating consecutively encoded images for input into our neural network. This unique solution not only captures diverse gaze responses from participants within the active age group but also introduces a curated dataset tailored for low-light conditions. The encoded temporal frames paired with our network showcase impressive spatial localization and reliable gaze direction in their predictions. Achieving a remarkable 100-pixel accuracy of 100%, our research underscores the potency of our neural network to work with temporally consecutive encoded images for precise gaze vector predictions in challenging low-light videos, contributing to the advancement of gaze prediction technologies.
翻訳日:2024-03-06 14:57:46 公開日:2024-03-05
# 有形無形文化財の保存--ヴォルテラとアタリの事例

Preserving Tangible and Intangible Cultural Heritage: the Cases of Volterra and Atari ( http://arxiv.org/abs/2403.02908v1 )

ライセンス: Link先を確認
Maciej Grzeszczuk, Kinga Skorupska, Pawe{\l} Grabarczyk, W{\l}adys{\l}aw Fuchs, Paul F. Aubin, Mark E. Dietrick, Barbara Karpowicz, Rafa{\l} Mas{\l}yk, Pavlo Zinevych, Wiktor Stawski, Stanis{\l}aw Knapi\'nski, Wies{\l}aw Kope\'c(参考訳) 一見すると、イタリアのヴォルテラにあるローマ劇場の遺跡は、アタリのゲームを含むカセットテープとほとんど共通していない。 1つは歴史的に重要なランドマークであり、もう1つの重要性に関する合意は概して部分的である。 それでも、どちらも現在と大きく異なる時代の残余であり、消耗の危険性がある。 未使用のアーキテクチャ構造は、磁気テープに格納された劣化信号のように要素に露出する。 しかし、磁気媒体では寿命が何十年にもわたって数えられるため劣化の速度ははるかに速いが、すでに荒廃しているローマ劇場は、何世紀にもわたってその寿命を計測している。 したがって、どちらも何らかのデジタル保存と再構築の恩恵を受けることになる。 本稿では,次世代の有形無形文化財を持続的に保存する方法について論じる。

At first glance, the ruins of the Roman Theatre in the Italian town of Volterra have little in common with cassette tapes containing Atari games. One is certainly considered an important historical landmark, while the consensus on the importance of the other is partial at best. Still, both are remnants of times vastly different from the present and are at risk of oblivion. Unearthed architectural structures are exposed to the elements just as the deteriorating signals stored on magnetic tapes. However, the rate of deterioration is much faster with the magnetic media, as their life expectancy is counted in decades, whereas the Roman Theater, which is already in ruin, measures its lifespan in centuries. Hence, both would benefit from some form of digital preservation and reconstruction. In this panel, we discuss how to sustainably preserve tangible and intangible cultural artifacts for future generations.
翻訳日:2024-03-06 14:57:26 公開日:2024-03-05
# 研究・自然保護のための市民科学と機械学習 : ユーラシア・リンクス・フリーランディング・ダニ・昆虫を事例として

Citizen Science and Machine Learning for Research and Nature Conservation: The Case of Eurasian Lynx, Free-ranging Rodents and Insects ( http://arxiv.org/abs/2403.02906v1 )

ライセンス: Link先を確認
Kinga Skorupska, Rafa{\l} Stryjek, Izabela Wierzbowska, Piotr Bebas, Maciej Grzeszczuk, Piotr Gago, Jaros{\l}aw Kowalski, Maciej Krzywicki, Jagoda Lazarek, Wies{\l}aw Kope\'c(参考訳) 自然保護区や国立公園では、自然保護活動を支援するために技術の利用が増えている。 ユーラシアのlynx(lynx lynx)のような絶滅危惧種は、自動フォトトラップのネットワークによって監視される。 しかし、この方法は大量のデータを生成し、それを準備、分析、解釈する必要がある。 そのため、この領域で働く研究者は、この情報を処理するためにますます支援を必要としている。 1つの機会は、データをラベル付けできるボランティア市民科学者からの支持を求めることだが、その関心を維持することは困難である。 別の方法は、畳み込みニューラルネットワークを用いた画像認識によるプロセスの自動化である。 パネルでは,自然研究と保全に関する考察と,データ準備,ラベル付け,分析のプロセスを迅速化するための市民科学と機械学習の利用の機会について論じる。

Technology is increasingly used in Nature Reserves and National Parks around the world to support conservation efforts. Endangered species, such as the Eurasian Lynx (Lynx lynx), are monitored by a network of automatic photo traps. Yet, this method produces vast amounts of data, which needs to be prepared, analyzed and interpreted. Therefore, researchers working in this area increasingly need support to process this incoming information. One opportunity is to seek support from volunteer Citizen Scientists who can help label the data, however, it is challenging to retain their interest. Another way is to automate the process with image recognition using convolutional neural networks. During the panel, we will discuss considerations related to nature research and conservation as well as opportunities for the use of Citizen Science and Machine Learning to expedite the process of data preparation, labelling and analysis.
翻訳日:2024-03-06 14:57:12 公開日:2024-03-05
# 情報フローによる相互強化効果の実証

Demonstrating Mutual Reinforcement Effect through Information Flow ( http://arxiv.org/abs/2403.02902v1 )

ライセンス: Link先を確認
Chengguang Gan, Xuzheng He, Qinghao Zhang, Tatsunori Mori(参考訳) 相互強化効果(MRE)は、テキスト分類タスクにおける単語レベルとテキストレベルの分類の相乗的関係を調査する。 両方の分類レベルの性能は相互に向上できると仮定する。 しかし、このメカニズムは以前の研究では十分に説明されていない。 このギャップに対処するために,情報フロー解析を用いてMRE理論を観察・実証する。 6つのMREハイブリッドデータセットに対する実験により、モデルにおけるMREの存在とその影響が明らかになった。 さらに,情報フロー実験と一致した微調整実験を行った。 両方の実験の結果の収束は、MREの存在を裏付けるものである。 さらに,テキストレベルの分類ラベルの予測を促進するために,単語レベルの情報を動詞化子として活用し,学習促進のためのMREの適用を拡大した。 最後の実験では、f1-scoreは6つのデータセットのうち5つでベースラインを大きく上回り、単語レベルの情報が言語モデルのテキスト全体の理解を高めるという概念をさらに検証しました。

The Mutual Reinforcement Effect (MRE) investigates the synergistic relationship between word-level and text-level classifications in text classification tasks. It posits that the performance of both classification levels can be mutually enhanced. However, this mechanism has not been adequately demonstrated or explained in prior research. To address this gap, we employ information flow analysis to observe and substantiate the MRE theory. Our experiments on six MRE hybrid datasets revealed the presence of MRE in the model and its impact. Additionally, we conducted fine-tuning experiments, whose results were consistent with those of the information flow experiments. The convergence of findings from both experiments corroborates the existence of MRE. Furthermore, we extended the application of MRE to prompt learning, utilizing word-level information as a verbalizer to bolster the model's prediction of text-level classification labels. In our final experiment, the F1-score significantly surpassed the baseline in five out of six datasets, further validating the notion that word-level information enhances the language model's comprehension of the text as a whole.
翻訳日:2024-03-06 14:56:57 公開日:2024-03-05
# WikiTableEdit: 自然言語によるテーブル編集のためのベンチマーク

WikiTableEdit: A Benchmark for Table Editing by Natural Language Instruction ( http://arxiv.org/abs/2403.02962v1 )

ライセンス: Link先を確認
Zheng Li and Xiang Chen and Xiaojun Wan(参考訳) タブラルデータは、データ表現の重要な形態として、Web上の様々なフォーマットに存在する。 複雑で不規則なテーブルに直面すると、手作業による修正は面倒な作業になる。 本稿では,表編集作業におけるLarge Language Models(LLM)の性能について検討する。 既存の研究は主に正規型のテーブルに焦点を当てており、SQL、Python、Excel Office-scriptでテーブルを操作するための命令が使われている。 それでも、不規則な構造、特に複数の行にまたがるマージセルを含むテーブルの編集は、コードを使用する際の課題となっている。 これを解決するために、WikiTableEditデータセットを導入します。 WikiSQLデータセットから26,531のテーブルを活用することで、6つの異なる基本操作と対応する結果に対する自然言語命令を自動的に生成し、20,000以上のインスタンスが生成される。 その後、WikiTableEditデータセット上でいくつかの代表的大規模言語モデルを評価し、その課題を実証する。 データセットはコミュニティにリリースされ、関連する研究を促進する。

Tabular data, as a crucial form of data representation, exists in diverse formats on the Web. When confronted with complex and irregular tables, manual modification becomes a laborious task. This paper investigates the performance of Large Language Models (LLMs) in the context of table editing tasks. Existing research mainly focuses on regular-shaped tables, wherein instructions are used to generate code in SQL, Python, or Excel Office-script for manipulating the tables. Nevertheless, editing tables with irregular structures, particularly those containing merged cells spanning multiple rows, poses a challenge when using code. To address this, we introduce the WikiTableEdit dataset. Leveraging 26,531 tables from the WikiSQL dataset, we automatically generate natural language instructions for six distinct basic operations and the corresponding outcomes, resulting in over 200,000 instances. Subsequently, we evaluate several representative large language models on the WikiTableEdit dataset to demonstrate the challenge of this task. The dataset will be released to the community to promote related researches.
翻訳日:2024-03-06 14:51:11 公開日:2024-03-05
# SimuCourt: 現実の判断文書を用いた司法判断エージェントの構築

SimuCourt: Building Judicial Decision-Making Agents with Real-world Judgement Documents ( http://arxiv.org/abs/2403.02959v1 )

ライセンス: Link先を確認
Zhitao He, Pengfei Cao, Chenhao Wang, Zhuoran Jin, Yubo Chen, Jiexin Xu, Huaijun Li, Xiaojian Jiang, Kang Liu, Jun Zhao(参考訳) ディープラーニングの発展に伴い、自然言語処理技術は伝統的な司法産業の様々な面の効率を効果的に改善した。 しかし、現在のほとんどの取り組みは、個別の司法段階にのみ焦点を合わせ、段階横断的なコラボレーションを見越している。 大きな言語モデルを利用した自律エージェントがますます賢くなり、現実の環境で複雑な決定を下すようになり、司法情報に新たな洞察を与えている。 本稿では,(1)実世界から420件の判決文書を包含する司法ベンチマークであるsimucourtと,エージェントの司法分析と意思決定力を評価するための新たなタスク司法決定について紹介する。 この課題を支援するために,複数の法的知識を持つ大規模司法知識基盤である司法KBを構築した。 2) 新たなマルチエージェントフレームワークであるエージェントコートを提案する。 本枠組みは,裁判所の審理シミュレーション,法的情報検索,判決の精査により,判決決定をシミュレートする,現実世界の古典的裁判所審理プロセスに従う。 3) 広範な実験を行った結果, 提案手法は, 既存の先進的手法, 特に法的根拠の生成において, 第一インスタンスと第二インスタンスの設定において, それぞれ8.6%, 9.1%のf1スコアの大幅な改善を達成している。

With the development of deep learning, natural language processing technology has effectively improved the efficiency of various aspects of the traditional judicial industry. However, most current efforts focus solely on individual judicial stage, overlooking cross-stage collaboration. As the autonomous agents powered by large language models are becoming increasingly smart and able to make complex decisions in real-world settings, offering new insights for judicial intelligence. In this paper, (1) we introduce SimuCourt, a judicial benchmark that encompasses 420 judgment documents from real-world, spanning the three most common types of judicial cases, and a novel task Judicial Decision-Making to evaluate the judicial analysis and decision-making power of agents. To support this task, we construct a large-scale judicial knowledge base, JudicialKB, with multiple legal knowledge. (2) we propose a novel multi-agent framework, AgentsCourt. Our framework follows the real-world classic court trial process, consisting of court debate simulation, legal information retrieval and judgement refinement to simulate the decision-making of judge. (3) we perform extensive experiments, the results demonstrate that, our framework outperforms the existing advanced methods in various aspects, especially in generating legal grounds, where our model achieves significant improvements of 8.6% and 9.1% F1 score in the first and second instance settings, respectively.
翻訳日:2024-03-06 14:50:56 公開日:2024-03-05
# 拡散確率モデルの漸近平均二乗誤差最適性について

On the Asymptotic Mean Square Error Optimality of Diffusion Probabilistic Models ( http://arxiv.org/abs/2403.02957v1 )

ライセンス: Link先を確認
Benedikt Fesl and Benedikt B\"ock and Florian Strasser and Michael Baur and Michael Joham and Wolfgang Utschick(参考訳) 拡散確率モデル (DPM) は近年, タスクをデノナイズする大きな可能性を示している。 その実用性にもかかわらず、理論的な理解には顕著なギャップがある。 本稿では, 特定のDPM復調戦略の漸近収束を, 多数の拡散段階における平均二乗誤差(MSE)-最適条件平均推定器(CME)に厳密に証明することによって, 新たな理論的知見を提供する。 研究されたDPMベースのデノイザーは、DPMのトレーニング手順を共有するが、トレーニング後の逆推論過程において条件平均のみをフォワードすることで、自分自身を区別する。 我々は, dpmが漸近的に最適なデノイザーから構成されると同時に, 逆プロセスで再サンプリングを切り替えることにより, 強力な発電機を継承する, という一意な視点を強調する。 理論的結果は数値的な結果によって検証される。

Diffusion probabilistic models (DPMs) have recently shown great potential for denoising tasks. Despite their practical utility, there is a notable gap in their theoretical understanding. This paper contributes novel theoretical insights by rigorously proving the asymptotic convergence of a specific DPM denoising strategy to the mean square error (MSE)-optimal conditional mean estimator (CME) over a large number of diffusion steps. The studied DPM-based denoiser shares the training procedure of DPMs but distinguishes itself by forwarding only the conditional mean during the reverse inference process after training. We highlight the unique perspective that DPMs are composed of an asymptotically optimal denoiser while simultaneously inheriting a powerful generator by switching re-sampling in the reverse process on and off. The theoretical findings are validated by numerical results.
翻訳日:2024-03-06 14:50:31 公開日:2024-03-05
# XAIを用いたディープフェイク検知器の敵攻撃検出

XAI-Based Detection of Adversarial Attacks on Deepfake Detectors ( http://arxiv.org/abs/2403.02955v1 )

ライセンス: Link先を確認
Ben Pinhasov, Raz Lapid, Rony Ohayon, Moshe Sipper and Yehudit Aperstein(参考訳) 本稿では,eXplainable Artificial Intelligence (XAI) を用いたディープフェイク検出器に対する敵攻撃の同定手法を提案する。 デジタル化が特徴の時代には、ディープフェイクが強力なツールとして登場し、効率的な検知システムへの需要が高まっている。 しかし、これらのシステムは性能を阻害する敵の攻撃によってしばしば標的にされる。 我々はこのギャップに対処し、XAIのパワーを活用して、防御可能なディープフェイク検出器を開発する。 提案手法は,XAIを用いて所定の方法の解釈可能性マップを生成し,AIモデル内の意思決定要因の明示的な可視化を提供する。 入力画像と対応するXAI画像の両方を処理する事前訓練された特徴抽出器を用いる。 このプロセスから抽出された特徴埋め込みは、単純で効果的な分類器の訓練に使用される。 提案手法は, ディープフェイクの検出だけでなく, 敵攻撃の可能性の理解を深め, 潜在的な脆弱性の特定に寄与する。 さらに、このアプローチではディープフェイク検出器の性能は変化しない。 本論文は,将来のディープフェイク検出機構の潜在経路を示唆する有望な結果を示す。 この研究はコミュニティにとって貴重な貢献であり、ディープフェイク検出器の安全に関する議論を巻き起こすだろう。

We introduce a novel methodology for identifying adversarial attacks on deepfake detectors using eXplainable Artificial Intelligence (XAI). In an era characterized by digital advancement, deepfakes have emerged as a potent tool, creating a demand for efficient detection systems. However, these systems are frequently targeted by adversarial attacks that inhibit their performance. We address this gap, developing a defensible deepfake detector by leveraging the power of XAI. The proposed methodology uses XAI to generate interpretability maps for a given method, providing explicit visualizations of decision-making factors within the AI models. We subsequently employ a pretrained feature extractor that processes both the input image and its corresponding XAI image. The feature embeddings extracted from this process are then used for training a simple yet effective classifier. Our approach contributes not only to the detection of deepfakes but also enhances the understanding of possible adversarial attacks, pinpointing potential vulnerabilities. Furthermore, this approach does not change the performance of the deepfake detector. The paper demonstrates promising results suggesting a potential pathway for future deepfake detection mechanisms. We believe this study will serve as a valuable contribution to the community, sparking much-needed discourse on safeguarding deepfake detectors.
翻訳日:2024-03-06 14:50:18 公開日:2024-03-05
# 大規模言語モデルのテキスト-SQL能力のベンチマーク:包括的評価

Benchmarking the Text-to-SQL Capability of Large Language Models: A Comprehensive Evaluation ( http://arxiv.org/abs/2403.02951v1 )

ライセンス: Link先を確認
Bin Zhang, Yuxiao Ye, Guoqing Du, Xiaoru Hu, Zhishuai Li, Sun Yang, Chi Harold Liu, Rui Zhao, Ziyue Li, Hangyu Mao(参考訳) 大規模言語モデル(llm)は、テキストからsqlへのタスクを進めるための強力なツールとして登場し、従来の方法を大きく上回っている。 しかし、初期の研究分野として、最適なプロンプトテンプレートと設計フレームワークについてはまだ合意が得られていない。 さらに、既存のベンチマークでは、LLMの認知能力の評価やLLMベースのソリューションの最適化を妨げているText-to-SQLプロセスの様々なサブタスクにおけるLCMのパフォーマンスを不適切に調査している。 そこで本研究では,テキスト・トゥ・SQLプロセスを通じて多種多様なメソッドのパフォーマンスを総合的に評価する5つの評価タスクを定式化し,各タスクに適した最適テキスト内学習ソリューションを提案する。 これらの知見は LLM ベースの Text-to-SQL システムの開発を促進する上で貴重な洞察を与える。

Large Language Models (LLMs) have emerged as a powerful tool in advancing the Text-to-SQL task, significantly outperforming traditional methods. Nevertheless, as a nascent research field, there is still no consensus on the optimal prompt templates and design frameworks. Additionally, existing benchmarks inadequately explore the performance of LLMs across the various sub-tasks of the Text-to-SQL process, which hinders the assessment of LLMs' cognitive capabilities and the optimization of LLM-based solutions.To address the aforementioned issues, we firstly construct a new dataset designed to mitigate the risk of overfitting in LLMs. Then we formulate five evaluation tasks to comprehensively assess the performance of diverse methods across various LLMs throughout the Text-to-SQL process.Our study highlights the performance disparities among LLMs and proposes optimal in-context learning solutions tailored to each task. These findings offer valuable insights for enhancing the development of LLM-based Text-to-SQL systems.
翻訳日:2024-03-06 14:49:57 公開日:2024-03-05
# 決定経路結合によるバックドア攻撃の生存性向上のための一般的アプローチ

A general approach to enhance the survivability of backdoor attacks by decision path coupling ( http://arxiv.org/abs/2403.02950v1 )

ライセンス: Link先を確認
Yufei Zhao, Dingji Wang, Bihuan Chen, Ziqian Chen, Xin Peng(参考訳) バックドア攻撃はディープニューラルネットワーク(DNN)に対する新たなセキュリティ脅威の1つであり、深刻な結果をもたらしている。 主要なバックドア防御の1つはモデル再構築に基づくものである。 このような防御は、バックドアを排除するためにモデルアンラーニングまたはプルーニングを採用する。 しかし、そのような防御から生き残るためにはほとんど注意が払われていない。 このギャップを埋めるため,我々は,モデル再構成に基づく防御に対する既存のバックドア攻撃の生存性を改善する最初の汎用バックドアアタックエンハンサーであるvenomを提案する。 我々はvenomをバイナリタスク最適化問題として定式化する。 1つ目は元の攻撃能力を維持するためのバックドア攻撃タスクであり、もう1つは攻撃の生存性を改善するための攻撃強化タスクである。 第2の課題を実現するために,バックドアモデルにおける有毒試料の決定経路を,バックドアの除去が困難となる良性試料の決定経路に合わせるように,注意模倣損失を提案する。 2つのDNNと3つのデータセットに対する広範囲な評価は、Venomが元の攻撃能力に影響を与えることなく、8つの最先端攻撃の生存可能性を大幅に改善することを示した。

Backdoor attacks have been one of the emerging security threats to deep neural networks (DNNs), leading to serious consequences. One of the mainstream backdoor defenses is model reconstruction-based. Such defenses adopt model unlearning or pruning to eliminate backdoors. However, little attention has been paid to survive from such defenses. To bridge the gap, we propose Venom, the first generic backdoor attack enhancer to improve the survivability of existing backdoor attacks against model reconstruction-based defenses. We formalize Venom as a binary-task optimization problem. The first is the original backdoor attack task to preserve the original attack capability, while the second is the attack enhancement task to improve the attack survivability. To realize the second task, we propose attention imitation loss to force the decision path of poisoned samples in backdoored models to couple with the crucial decision path of benign samples, which makes backdoors difficult to eliminate. Our extensive evaluation on two DNNs and three datasets has demonstrated that Venom significantly improves the survivability of eight state-of-the-art attacks against eight state-of-the-art defenses without impacting the capability of the original attacks.
翻訳日:2024-03-06 14:49:39 公開日:2024-03-05
# SAFFIRA:Systolic-ArrayベースのDNNアクセラレータの信頼性を評価するフレームワーク

SAFFIRA: a Framework for Assessing the Reliability of Systolic-Array-Based DNN Accelerators ( http://arxiv.org/abs/2403.02946v1 )

ライセンス: Link先を確認
Mahdi Taheri, Masoud Daneshtalab, Jaan Raik, Maksim Jenihhin, Salvatore Pappalardo, Paul Jimenez, Bastien Deveautour, and Alberto Bosio(参考訳) シストリクスアレイはディープニューラルネットワーク(DNN)ハードウェアアクセラレーターの顕著なアーキテクチャとして登場し、多様なアプリケーションにまたがるDNNのデプロイに必要な高スループットと低レイテンシのパフォーマンスを提供する。 しかしながら、安全クリティカルなアプリケーションで使用する場合、信頼性評価はDNNアクセラレータの正しい動作を保証するために必須である。 フォールトインジェクションは信頼性評価のための十分に確立された実用的で堅牢な手法として際立っているが、それでも非常に時間がかかるプロセスである。 本稿では,シストリックアレイ型DNN加速器に適した,新しい階層型ソフトウェアベースのハードウェア対応故障注入手法を導入することで,時間効率の問題に対処する。

Systolic array has emerged as a prominent architecture for Deep Neural Network (DNN) hardware accelerators, providing high-throughput and low-latency performance essential for deploying DNNs across diverse applications. However, when used in safety-critical applications, reliability assessment is mandatory to guarantee the correct behavior of DNN accelerators. While fault injection stands out as a well-established practical and robust method for reliability assessment, it is still a very time-consuming process. This paper addresses the time efficiency issue by introducing a novel hierarchical software-based hardware-aware fault injection strategy tailored for systolic array-based DNN accelerators.
翻訳日:2024-03-06 14:49:16 公開日:2024-03-05
# icu患者サブグループ識別のための教師なし学習アプローチ:結果は一般化するか?

Unsupervised Learning Approaches for Identifying ICU Patient Subgroups: Do Results Generalise? ( http://arxiv.org/abs/2403.02945v1 )

ライセンス: Link先を確認
Harry Mayne, Guy Parsons and Adam Mahdi(参考訳) 患者サブグループを特定するための教師なし学習の使用は、集中治療ユニット(icus)の効率を改善する可能性を秘めている。 同様のレベルの医療資源を必要とする患者のサブグループを特定することで、ICUは小さなサブユニットの集まりに再構成され、それぞれが特定のグループに配属される。 しかし、ICUの再構成が標準化された方法で実施可能かどうかを判断する共通患者サブグループが存在するかどうかは不明である。 本稿では,既存の研究結果が別のデータセットに一般化するかどうかを調べることで,ICU患者サブグループが存在するという仮説を検証した。 医療資源ニーズを表わす16の特徴を抽出し,患者サブグループを導出するためにコンセンサスクラスタリングを用いて先行研究を再現した。 結果と過去の研究結果の類似性は限定的であり、仮説に対する証拠を提供した。 以上の結果から,icu間には有意な差異があることが示唆され,標準化された再構成アプローチが適切とは考えにくい。 代わりに、サブユニットの数と性質がそれぞれの ICU に個別に調整されている場合、潜在的な効率向上は大きいかもしれない。

The use of unsupervised learning to identify patient subgroups has emerged as a potentially promising direction to improve the efficiency of Intensive Care Units (ICUs). By identifying subgroups of patients with similar levels of medical resource need, ICUs could be restructured into a collection of smaller subunits, each catering to a specific group. However, it is unclear whether common patient subgroups exist across different ICUs, which would determine whether ICU restructuring could be operationalised in a standardised manner. In this paper, we tested the hypothesis that common ICU patient subgroups exist by examining whether the results from one existing study generalise to a different dataset. We extracted 16 features representing medical resource need and used consensus clustering to derive patient subgroups, replicating the previous study. We found limited similarities between our results and those of the previous study, providing evidence against the hypothesis. Our findings imply that there is significant variation between ICUs; thus, a standardised restructuring approach is unlikely to be appropriate. Instead, potential efficiency gains might be greater when the number and nature of the subunits are tailored to each ICU individually.
翻訳日:2024-03-06 14:49:04 公開日:2024-03-05
# テキスト誘導符号化による画素レベルと知覚忠実度の両方のニューラル画像圧縮

Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity ( http://arxiv.org/abs/2403.02944v1 )

ライセンス: Link先を確認
Hagyeong Lee, Minkyu Kim, Jun-Hyuk Kim, Seungeon Kim, Dokwan Oh, Jaeho Lee(参考訳) テキスト誘導画像圧縮の最近の進歩は、再構成画像の知覚品質を高める大きな可能性を示している。 しかし、これらの手法はピクセル単位の忠実度を著しく低下させ、実用性を制限する傾向にある。 このギャップを埋めるために,高知覚と画素ワイドの忠実度を実現する新しいテキスト誘導画像圧縮アルゴリズムを開発した。 特に,テキスト適応型エンコーディングと共同画像-テキストロスによるトレーニングを中心に,テキスト情報を活用する圧縮フレームワークを提案する。 これにより、高い生成多様性で知られるテキスト誘導生成モデルに基づく復号化を回避し、テキストの意味情報をグローバルレベルで効果的に活用する。 様々なデータセットにおける実験結果から,人間のキャプションと機械によるキャプションのいずれにおいても,高い画素レベルと知覚品質を達成できることがわかった。 特に,LPIPSでは,より慎重に生成されたキャプションを使用すれば,さらに改良の余地があるため,すべてのベースラインで性能が向上する。

Recent advances in text-guided image compression have shown great potential to enhance the perceptual quality of reconstructed images. These methods, however, tend to have significantly degraded pixel-wise fidelity, limiting their practicality. To fill this gap, we develop a new text-guided image compression algorithm that achieves both high perceptual and pixel-wise fidelity. In particular, we propose a compression framework that leverages text information mainly by text-adaptive encoding and training with joint image-text loss. By doing so, we avoid decoding based on text-guided generative models -- known for high generative diversity -- and effectively utilize the semantic information of text at a global level. Experimental results on various datasets show that our method can achieve high pixel-level and perceptual quality, with either human- or machine-generated captions. In particular, our method outperforms all baselines in terms of LPIPS, with some room for even more improvements when we use more carefully generated captions.
翻訳日:2024-03-06 14:48:43 公開日:2024-03-05
# paperweaver: ユーザによる推薦論文のコンテキスト化による話題紙警告の強化

PaperWeaver: Enriching Topical Paper Alerts by Contextualizing Recommended Papers with User-collected Papers ( http://arxiv.org/abs/2403.02939v1 )

ライセンス: Link先を確認
Yoonjoo Lee, Hyeonsu B. Kang, Matt Latzke, Juho Kim, Jonathan Bragg, Joseph Chee Chang, Pao Siangliulue(参考訳) 学術文書の急速な成長に伴い、研究者は「ペーパーアラート」システムを購読し、以前収集した論文に類似した論文のレコメンデーションを定期的に提供している。 しかし、既存のシステムは論文の題名と要約のみを提示するため、研究者は推奨論文と自身の研究コンテキストの間のニュアンス関係を理解するのに苦労することがある。 研究者がこれらの接続を見つけるのに役立ち、ユーザが収集した論文に基づいて推奨論文のコンテキスト化されたテキスト記述を提供する、強化されたペーパーアラートシステムpaperweaverを提案する。 PaperWeaverはLarge Language Models(LLMs)に基づく計算手法を用いて、収集した論文からユーザの研究関心を推測し、論文の文脈固有の側面を抽出し、これらの側面について推奨および収集された論文を比較する。 ユーザ調査 (n=15) により, paperweaver を用いた被験者は, 推奨論文の関連項目を提示する基準と比較して, 推奨論文の妥当性をよりよく理解し, 信頼性を高めることができた。

With the rapid growth of scholarly archives, researchers subscribe to "paper alert" systems that periodically provide them with recommendations of recently published papers that are similar to previously collected papers. However, researchers sometimes struggle to make sense of nuanced connections between recommended papers and their own research context, as existing systems only present paper titles and abstracts. To help researchers spot these connections, we present PaperWeaver, an enriched paper alerts system that provides contextualized text descriptions of recommended papers based on user-collected papers. PaperWeaver employs a computational method based on Large Language Models (LLMs) to infer users' research interests from their collected papers, extract context-specific aspects of papers, and compare recommended and collected papers on these aspects. Our user study (N=15) showed that participants using PaperWeaver were able to better understand the relevance of recommended papers and triage them more confidently when compared to a baseline that presented the related work sections from recommended papers.
翻訳日:2024-03-06 14:48:26 公開日:2024-03-05
# AIxスピード:音声認識モデルの聴取理解を用いた再生速度最適化

AIx Speed: Playback Speed Optimization Using Listening Comprehension of Speech Recognition Models ( http://arxiv.org/abs/2403.02938v1 )

ライセンス: Link先を確認
Kazuki Kawamura and Jun Rekimoto(参考訳) 人間は、実際に観察したよりも高速でオーディオやビデオの再生を聴くことができるので、コンテンツ理解の時間効率を高めるために、これらのコンテンツを高い再生速度で聴くことも視聴することもよくあります。 この機能をさらに活用するために、ユーザの状態やコンテンツの種類に応じて再生速度を自動的に調整し、より効率的な時系列コンテンツの理解を支援するシステムを開発した。 しかし、これらのシステムは、より微細な時間単位に最適化された再生速度で音声を生成し、人間に提供することにより、人間のスピードライジング能力をさらに拡張する余地がある。 本研究では,人間が最適化された音声を聴けるかどうかを判断し,音声の可聴性を確保しつつ,音素の単位の再生速度を自動的に調整するシステムを提案する。 このシステムでは、音声認識スコアを、人間が特定の単位の音声を聴くことができるかの指標として使用し、音声再生速度を人間が聴く程度に最大化する。 この手法は、高速だが理解不能な音声を生成するのに利用できる。 評価実験では,提案手法によって生成された音声を,一定の速度で再生する音声と柔軟に高速化する音声をブラインドテストで比較し,提案手法が聞きやすい音声を生成することを確認した。

Since humans can listen to audio and watch videos at faster speeds than actually observed, we often listen to or watch these pieces of content at higher playback speeds to increase the time efficiency of content comprehension. To further utilize this capability, systems that automatically adjust the playback speed according to the user's condition and the type of content to assist in more efficient comprehension of time-series content have been developed. However, there is still room for these systems to further extend human speed-listening ability by generating speech with playback speed optimized for even finer time units and providing it to humans. In this study, we determine whether humans can hear the optimized speech and propose a system that automatically adjusts playback speed at units as small as phonemes while ensuring speech intelligibility. The system uses the speech recognizer score as a proxy for how well a human can hear a certain unit of speech and maximizes the speech playback speed to the extent that a human can hear. This method can be used to produce fast but intelligible speech. In the evaluation experiment, we compared the speech played back at a constant fast speed and the flexibly speed-up speech generated by the proposed method in a blind test and confirmed that the proposed method produced speech that was easier to listen to.
翻訳日:2024-03-06 14:48:06 公開日:2024-03-05
# 時空の重ね合わせにおける量子アルゴリズム

Quantum Algorithms in a Superposition of Spacetimes ( http://arxiv.org/abs/2403.02937v1 )

ライセンス: Link先を確認
Omri Shmueli(参考訳) 量子コンピュータは私たちの情報処理能力に革命をもたらすと期待されている。 古典から量子コンピューティングへの進歩は、古典から量子物理学への進化の産物である。 自然に起こる疑問は 物理学は将来何が許されるのかということです 量子コンピューティングを超えて、より高度な物理理論は計算能力を高めることができるか? 物理学における活発な研究分野は、量子力学(QM)と一般相対性理論(GR)を量子重力の統一理論(QG)に結合しようとするときに形成される説明可能な量子力学の範囲外の理論現象の研究である。 QGは因果構造と事象順序の量子重ね合わせの可能性を示すことが知られている。 量子情報理論の文献では、これはユニタリ進化順序の重ね合わせに翻訳される。 本研究では、QGに基づく自然計算モデルの最初の例を示し、標準量子計算(標準硬度仮定の下で)よりも指数的な高速化を提供する。 我々は、ユニタリ進化順序の重ね合わせを生成する能力を持つ量子コンピュータのモデルと複雑性測度を定義し、そのようなコンピュータが多項式時間で解くことができることを示す: グラフ同型問題 (\mathsf{gi}$) とギャップ近似ベクトル問題 (\mathsf{gapcvp}$) であり、ギャップ $o\left(n^{2} \right)$ である。 これらの問題は、通常の量子コンピュータでは解決が難しいと専門家によって信じられている。 興味深いことに、我々のモデルはオーバーパワーとは思えず、$\mathbf{NP}$ や $\mathbf{SZK}$ のように、コンピュータ科学において難しいと考えられるすべての複雑性クラスを解く明確な方法が見つからなかった。

Quantum computers are expected to revolutionize our ability to process information. The advancement from classical to quantum computing is a product of our advancement from classical to quantum physics -- the more our understanding of the universe grows, so does our ability to use it for computation. A natural question that arises is, what will physics allow in the future? Can more advanced theories of physics increase our computational power, beyond quantum computing? An active field of research in physics studies theoretical phenomena outside the scope of explainable quantum mechanics, that form when attempting to combine Quantum Mechanics (QM) with General Relativity (GR) into a unified theory of Quantum Gravity (QG). QG is known to present the possibility of a quantum superposition of causal structure and event orderings. In the literature of quantum information theory, this translates to a superposition of unitary evolution orders. In this work we show a first example of a natural computational model based on QG, that provides an exponential speedup over standard quantum computation (under standard hardness assumptions). We define a model and complexity measure for a quantum computer that has the ability to generate a superposition of unitary evolution orders, and show that such computer is able to solve in polynomial time two of the fundamental problems in computer science: The Graph Isomorphism Problem ($\mathsf{GI}$) and the Gap Closest Vector Problem ($\mathsf{GapCVP}$), with gap $O\left( n^{2} \right)$. These problems are believed by experts to be hard to solve for a regular quantum computer. Interestingly, our model does not seem overpowered, and we found no obvious way to solve entire complexity classes that are considered hard in computer science, like the classes $\mathbf{NP}$ and $\mathbf{SZK}$.
翻訳日:2024-03-06 14:47:43 公開日:2024-03-05
# AdAM:エッジDNNアクセラレータのための適応型フォールトトレラント近似乗算器

AdAM: Adaptive Fault-Tolerant Approximate Multiplier for Edge DNN Accelerators ( http://arxiv.org/abs/2403.02936v1 )

ライセンス: Link先を確認
Mahdi Taheri, Natalia Cherezova, Samira Nazari, Ahsan Rafiq, Ali Azarpeyvand, Tara Ghasempouri, Masoud Daneshtalab, Jaan Raik and Maksim Jenihhin(参考訳) 本稿では,ASICベースのDNN加速器に適した適応型耐故障近似乗算器のアーキテクチャを提案する。

In this paper, we propose an architecture of a novel adaptive fault-tolerant approximate multiplier tailored for ASIC-based DNN accelerators.
翻訳日:2024-03-06 14:47:09 公開日:2024-03-05
# 自己相互作用型量子粒子

Self-interacting quantum particles ( http://arxiv.org/abs/2403.02935v1 )

ライセンス: Link先を確認
Sergio Giardino(参考訳) 量子力学における実ヒルベルト空間形式論(英語版)(real hilbert space formalism)は、自律粒子の単純なモデルに完全に適用される。 この枠組みは、非定常運動のエネルギーを部分的に凝縮する複雑な自律粒子の通常の記述の中に新しい洞察を与える。 完全四元イオンスカラーポテンシャルによる物理的役割の評価を通じて、四元イオン自律粒子内の元の自己相互作用も決定されている。 散乱過程はこれらの新しい特徴を説明すると考えられている。

The real Hilbert space formalism developed within the quaternionic quantum mechanics ($\mathbb H$QM) is fully applied to the simple model of the autonomous particle. This framework permits novel insights within the usual description of the complex autonomous particle, particulaly concening the energy of a non-stationary motion. Through the appraisal of the physical role played by a fully quaternionic scalar potential, a original self-interaction within the quaternionic autonomous particle has been determined as well. Scattering processes are considered to illustrate these novel features.
翻訳日:2024-03-06 14:47:06 公開日:2024-03-05
# 任意の t-ノルム上のファジィデータログ$^\exists$

Fuzzy Datalog$^\exists$ over Arbitrary t-Norms ( http://arxiv.org/abs/2403.02933v1 )

ライセンス: Link先を確認
Matthias Lanzinger, Stefano Sferrazza, Przemys{\l}aw A. Wa{\l}\k{e}ga, Georg Gottlob(参考訳) ニューロシンボリックAIの領域における大きな課題の1つは、ニューラルデータとシンボリックデータの両方の存在下で論理的推論を行うことである。 これには、知識グラフ、ニューラルモデル予測、構造化データベース、クラウドソースデータなどの異種データソースを組み合わせる必要がある。 このような推論を可能にするため、ルール本体の古典的な結合の代わりに任意のtノルムを許容することにより、標準ルールベースのDatalogをファジィ設定に一般化する(一般にタプル生成依存と呼ばれる)。 その結果,計算複雑性を保ちながら不確実性の度合いに関連するデータの推論を行うことができ,標準データログ設定に確立された推論技術の適用性も向上する。 特に、ファジィユニバーサルモデルを生成するデータログチェイスのファジィ拡張を提供し、それらを利用して言語の重要な断片において、推論が古典的な設定と同じ複雑さを持つことを示す。

One of the main challenges in the area of Neuro-Symbolic AI is to perform logical reasoning in the presence of both neural and symbolic data. This requires combining heterogeneous data sources such as knowledge graphs, neural model predictions, structured databases, crowd-sourced data, and many more. To allow for such reasoning, we generalise the standard rule-based language Datalog with existential rules (commonly referred to as tuple-generating dependencies) to the fuzzy setting, by allowing for arbitrary t-norms in the place of classical conjunctions in rule bodies. The resulting formalism allows us to perform reasoning about data associated with degrees of uncertainty while preserving computational complexity results and the applicability of reasoning techniques established for the standard Datalog setting. In particular, we provide fuzzy extensions of Datalog chases which produce fuzzy universal models and we exploit them to show that in important fragments of the language, reasoning has the same complexity as in the classical setting.
翻訳日:2024-03-06 14:46:58 公開日:2024-03-05
# 局所零階プロンプト最適化

Localized Zeroth-Order Prompt Optimization ( http://arxiv.org/abs/2403.02993v1 )

ライセンス: Link先を確認
Wenyang Hu, Yao Shu, Zongmin Yu, Zhaoxuan Wu, Xiangqiang Lin, Zhongxiang Dai, See-Kiong Ng, Bryan Kian Hsiang Low(参考訳) 自然言語の理解と生成における大規模言語モデル(LLM)の有効性は、ブラックボックスLLMのパワーを利用するプロンプトベースの手法の開発に広く関心を集めている。 既存の方法論は通常、グローバル最適化を見つけるためにグローバル最適化を優先するが、特定のタスクではうまく機能しない。 これにより、迅速な最適化において、グローバルな最適化を見つける必要性を再考する動機となる。 そこで我々は,迅速な最適化に関する徹底的な実証研究を行い,二つの重要な知見を導き出す。 グローバル最適化のラリティーとは対照的に、ローカルオプティマは通常広く普及し、よく表現され、効率的なプロンプト最適化(insight i)に価値がある。 入力領域の選択は、プロンプトの生成と表現の両方をカバーし、パフォーマンスの良い局所最適化(Insight II)の識別に影響を与える。 これらの知見に触発されて,ニューラル・タンジェント・カーネルをベースとしたガウス過程を標準ゼロ階最適化に組み込んだ局所最適化アルゴリズムZOPOを提案する。 注目すべきは、ZOPOは最適化性能とクエリ効率の両方の観点から既存のベースラインを上回り、広範囲な実験を通して実証する。

The efficacy of large language models (LLMs) in understanding and generating natural language has aroused a wide interest in developing prompt-based methods to harness the power of black-box LLMs. Existing methodologies usually prioritize a global optimization for finding the global optimum, which however will perform poorly in certain tasks. This thus motivates us to re-think the necessity of finding a global optimum in prompt optimization. To answer this, we conduct a thorough empirical study on prompt optimization and draw two major insights. Contrasting with the rarity of global optimum, local optima are usually prevalent and well-performed, which can be more worthwhile for efficient prompt optimization (Insight I). The choice of the input domain, covering both the generation and the representation of prompts, affects the identification of well-performing local optima (Insight II). Inspired by these insights, we propose a novel algorithm, namely localized zeroth-order prompt optimization (ZOPO), which incorporates a Neural Tangent Kernel-based derived Gaussian process into standard zeroth-order optimization for an efficient search of well-performing local optima in prompt optimization. Remarkably, ZOPO outperforms existing baselines in terms of both the optimization performance and the query efficiency, which we demonstrate through extensive experiments.
翻訳日:2024-03-06 14:43:09 公開日:2024-03-05
# MADTP:マルチモーダルアライメント誘導動的トーケンプルーニングによるビジョンランゲージ変換器の高速化

MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer ( http://arxiv.org/abs/2403.02991v1 )

ライセンス: Link先を確認
Jianjian Cao and Peng Ye and Shengze Li and Chong Yu and Yansong Tang and Jiwen Lu and Tao Chen(参考訳) 視覚言語トランスフォーマー(vlts)は近年大きな成功を収めているが、その一方で大きな計算コストが伴っている。 VLTを圧縮するための既存のトークンプルーニング研究は、主に単一モダリティに基づくスキームに従うが、トークンプルーニングプロセスを導くために異なるモダリティを整列させる重要な役割を無視し、あるモダリティの重要なトークンを別のモダリティブランチで誤ってプルーニングする。 一方、既存のVLTプルーニング作業では、異なる入力サンプルに基づいて各レイヤを動的に圧縮する柔軟性が欠けている。 そこで本研究では,様々なVLTの高速化を目的としたマルチモーダルアライメント誘導動的トケンプルーニング(MADTP)を提案する。 具体的には、我々はまず、異なるモダリティから同じ意味概念の特徴をアライメントできるよく設計されたマルチモダリティアライメントガイダンス(mag)モジュールを導入し、全てのモダリティに対して、プルーニングされたトークンが重要でないことを保証する。 さらに、異なる入力インスタンスに基づいて各レイヤのトークン圧縮比を適応的に調整できる新しい動的トークン・プルーニング(DTP)モジュールを設計する。 様々なベンチマーク実験により、MADTPは競争性能を保ちながら、マルチモーダルモデルの計算複雑性を著しく低減することが示された。 特に、NLVR2データセットのBLIPモデルに適用すると、MADTPはGFLOPを80%削減でき、性能劣化は4%以下である。

Vision-Language Transformers (VLTs) have shown great success recently, but are meanwhile accompanied by heavy computation costs, where a major reason can be attributed to the large number of visual and language tokens. Existing token pruning research for compressing VLTs mainly follows a single-modality-based scheme yet ignores the critical role of aligning different modalities for guiding the token pruning process, causing the important tokens for one modality to be falsely pruned in another modality branch. Meanwhile, existing VLT pruning works also lack the flexibility to dynamically compress each layer based on different input samples. To this end, we propose a novel framework named Multimodal Alignment-Guided Dynamic Token Pruning (MADTP) for accelerating various VLTs. Specifically, we first introduce a well-designed Multi-modality Alignment Guidance (MAG) module that can align features of the same semantic concept from different modalities, to ensure the pruned tokens are less important for all modalities. We further design a novel Dynamic Token Pruning (DTP) module, which can adaptively adjust the token compression ratio in each layer based on different input instances. Extensive experiments on various benchmarks demonstrate that MADTP significantly reduces the computational complexity of kinds of multimodal models while preserving competitive performance. Notably, when applied to the BLIP model in the NLVR2 dataset, MADTP can reduce the GFLOPs by 80% with less than 4% performance degradation.
翻訳日:2024-03-06 14:42:45 公開日:2024-03-05
# LLMを用いたデータ拡張:データパースペクティブ、学習パラダイム、課題

Data Augmentation using LLMs: Data Perspectives, Learning Paradigms and Challenges ( http://arxiv.org/abs/2403.02990v1 )

ライセンス: Link先を確認
Bosheng Ding, Chengwei Qin, Ruochen Zhao, Tianze Luo, Xinze Li, Guizhen Chen, Wenhan Xia, Junjie Hu, Anh Tuan Luu, Shafiq Joty(参考訳) 機械学習(ML)の急速に発展する分野では、データ収集を必要とせずにトレーニング例を多様化することにより、モデルパフォーマンスを向上させる重要な技術としてデータ拡張(DA)が登場している。 本調査では,大規模言語モデル(LLM)がDAに与える影響,特に自然言語処理(NLP)以降の文脈において,それらが抱える固有の課題と機会について検討する。 データの観点から,LLM生成データを用いた新たな学習パラダイムの探索など,大規模言語モデルをデータ拡張に活用するさまざまな戦略を検討する。 さらに,本論文では,制御可能なデータ拡張からマルチモーダルデータ拡張まで,この分野で直面する課題を概説する。 本調査は, DA における LLM のパラダイムシフトに注目し, この分野の研究者や実践者のための基礎的なガイドとして機能することを目的とする。

In the rapidly evolving field of machine learning (ML), data augmentation (DA) has emerged as a pivotal technique for enhancing model performance by diversifying training examples without the need for additional data collection. This survey explores the transformative impact of Large Language Models (LLMs) on DA, particularly addressing the unique challenges and opportunities they present in the context of natural language processing (NLP) and beyond. From a data perspective and a learning perspective, we examine various strategies that utilize Large Language Models for data augmentation, including a novel exploration of learning paradigms where LLM-generated data is used for further training. Additionally, this paper delineates the primary challenges faced in this domain, ranging from controllable data augmentation to multi modal data augmentation. This survey highlights the paradigm shift introduced by LLMs in DA, aims to serve as a foundational guide for researchers and practitioners in this field.
翻訳日:2024-03-06 14:42:12 公開日:2024-03-05
# 量子通信ネットワークにおける操作非古典性

Operational Nonclassicality in Quantum Communication Networks ( http://arxiv.org/abs/2403.02988v1 )

ライセンス: Link先を確認
Brian Doolittle, Felix Leditzky, and Eric Chitambar(参考訳) 通信ネットワークにおける量子アドバンテージを定量化するために,量子非古典性を目撃するための運用フレームワークを適用する。 この分野における以前のアプローチに続いて、このフレームワークは、通信量が境界付けられたときに古典的ネットワークで発生する入出力確率の線形制約を最初に計算する。 次に、変動量子アルゴリズムを適用し、量子通信リソースの導入時にこれらの確率を最適化する。 古典的制約のいかなる違反も、同等の量子ネットワークをシミュレートするために余分な古典的通信が必要であることを示している。 エンタングルメント支援のポイントツーポイントチャネルやマルチポイントチャネルなど,多くの基本ネットワークにおいて非古典性を示す。 すべての例において、古典的または量子的チャネルに絡み合うことは非古典性をもたらすのに対し、複数の送信者を持つネットワークは非古典性を達成するために絡み合いを必要としない。 最後に、我々のアプローチが量子ネットワークハードウェア上でどのように実装され、特定のプロトコルを自動的に確立できるかについて議論する。

To quantify quantum advantage in communication networks, we apply an operational framework for witnessing quantum nonclassicality. Following previous approaches in the field, this framework first computes linear constraints on the input/output probabilities that arise in classical networks when the amount of communication is bounded. We then apply variational quantum algorithms to optimize these probabilities when quantum communication resources are introduced. Any violation of the classical constraints indicates that extra classical communication is needed to simulate the comparable quantum network, thereby demonstrating an explicit quantum advantage. We demonstrate nonclassicality in many basic networks such as entanglement-assisted point-to-point and multi-point channels. In all examples, we find that equipping classical or quantum channels with entanglement leads to nonclassicality, whereas networks having multiple senders do not require entanglement to achieve nonclassicality. Finally, we discuss how our approaches could be implemented on quantum networking hardware and used to automatically establish certain protocols.
翻訳日:2024-03-06 14:41:56 公開日:2024-03-05
# evolution transformer: コンテキスト内進化最適化

Evolution Transformer: In-Context Evolutionary Optimization ( http://arxiv.org/abs/2403.02985v1 )

ライセンス: Link先を確認
Robert Tjarko Lange, Yingtao Tian, Yujin Tang(参考訳) 進化的最適化アルゴリズムは、しばしばゆるやかな生物学的類似から派生し、逐次最適化の過程で得られた情報を活用するのに苦労する。 別の有望なアプローチは、データを活用し、メタ最適化を通じて強力な最適化原則を直接発見することだ。 本稿では,このようなパラダイムに従い,進化戦略の族を柔軟に特徴付け可能な因果的トランスフォーマアーキテクチャである進化トランスフォーマを導入する。 評価と探索分布統計の軌跡が与えられると、 evolution transformer は探索分布に対する性能向上のアップデートを出力する。 このアーキテクチャは、世代内の人口構成員の順への分布更新の不分散と探索次元の順への同分散という、適切な帰納的バイアスの組を課している。 教師のアルゴリズム軌跡を用いた系列モデルの教師付き最適化手法である進化的アルゴリズム蒸留を用いてモデル重み付けを訓練する。 得られたモデルは、強いコンテキスト内最適化性能を示し、それ以外は困難な神経進化タスクに対する強力な一般化能力を示す。 進化変換器の特性を解析し,ランダム初期化から自己学習の進捗まで,進化変換器を自己回帰的に学習する手法を提案する。 我々はhttps://github.com/RobertTLange/evosax.comでオープンソース実装を提供しています。

Evolutionary optimization algorithms are often derived from loose biological analogies and struggle to leverage information obtained during the sequential course of optimization. An alternative promising approach is to leverage data and directly discover powerful optimization principles via meta-optimization. In this work, we follow such a paradigm and introduce Evolution Transformer, a causal Transformer architecture, which can flexibly characterize a family of Evolution Strategies. Given a trajectory of evaluations and search distribution statistics, Evolution Transformer outputs a performance-improving update to the search distribution. The architecture imposes a set of suitable inductive biases, i.e. the invariance of the distribution update to the order of population members within a generation and equivariance to the order of the search dimensions. We train the model weights using Evolutionary Algorithm Distillation, a technique for supervised optimization of sequence models using teacher algorithm trajectories. The resulting model exhibits strong in-context optimization performance and shows strong generalization capabilities to otherwise challenging neuroevolution tasks. We analyze the resulting properties of the Evolution Transformer and propose a technique to fully self-referentially train the Evolution Transformer, starting from a random initialization and bootstrapping its own learning progress. We provide an open source implementation under https://github.com/RobertTLange/evosax.
翻訳日:2024-03-06 14:41:38 公開日:2024-03-05
# 攻撃下の連合学習: コンピュータネットワークにおけるデータ中毒攻撃による脆弱性の暴露

Federated Learning Under Attack: Exposing Vulnerabilities through Data Poisoning Attacks in Computer Networks ( http://arxiv.org/abs/2403.02983v1 )

ライセンス: Link先を確認
Ehsan Nowroozi, Imran Haider, Rahim Taheri, Mauro Conti(参考訳) Federated Learning(FL)は、機械学習(ML)アプローチで、複数の分散デバイスやエッジサーバが、生データを交換することなく、共同で共有モデルをトレーニングできる。 クライアントとサーバ間のモデル更新のトレーニングと共有の間、データとモデルは異なるデータポジショニング攻撃に影響を受けやすい。 本研究の目的は,実装が容易だが検出が困難であるため,コンピュータネットワーク領域におけるデータ中毒攻撃の重症度を検討することである。 我々は,ラベルフリップ (LF) と特徴中毒 (FP) の2種類のデータ中毒攻撃を検討した。 LFでは、良性データのラベルをランダムに反転させ、操作したデータに基づいてモデルを訓練した。 fpでは,ランダムフォレストアルゴリズムを用いて,寄与率の高い特徴をランダムに操作した。 この実験で使用されたデータセットは、コンピュータネットワークに関連するCICとUNSWである。 上記の2つの攻撃を用いて,少数のデータセットに適用した敵対的サンプルを生成した。 その後,敵対的データセット上でモデルの精度をトレーニングし,テストした。 良性データセットと操作データセットの両方の結果を記録し,異なるデータセット上でのモデルの精度に有意な差が認められた。 実験結果から,LF攻撃は失敗し,FP攻撃は有効な結果を示し,サーバを騙すことの重要性が示された。 CICに対する1%のLF攻撃では、精度は0.0428、ASRは0.9564であり、攻撃は容易に検出できるが、1%のFP攻撃では、精度とASRはどちらも0.9600であり、FP攻撃は検出が難しい。 私たちは実験を異なる中毒率で繰り返した。

Federated Learning (FL) is a machine learning (ML) approach that enables multiple decentralized devices or edge servers to collaboratively train a shared model without exchanging raw data. During the training and sharing of model updates between clients and servers, data and models are susceptible to different data-poisoning attacks. In this study, our motivation is to explore the severity of data poisoning attacks in the computer network domain because they are easy to implement but difficult to detect. We considered two types of data-poisoning attacks, label flipping (LF) and feature poisoning (FP), and applied them with a novel approach. In LF, we randomly flipped the labels of benign data and trained the model on the manipulated data. For FP, we randomly manipulated the highly contributing features determined using the Random Forest algorithm. The datasets used in this experiment were CIC and UNSW related to computer networks. We generated adversarial samples using the two attacks mentioned above, which were applied to a small percentage of datasets. Subsequently, we trained and tested the accuracy of the model on adversarial datasets. We recorded the results for both benign and manipulated datasets and observed significant differences between the accuracy of the models on different datasets. From the experimental results, it is evident that the LF attack failed, whereas the FP attack showed effective results, which proved its significance in fooling a server. With a 1% LF attack on the CIC, the accuracy was approximately 0.0428 and the ASR was 0.9564; hence, the attack is easily detectable, while with a 1% FP attack, the accuracy and ASR were both approximately 0.9600, hence, FP attacks are difficult to detect. We repeated the experiment with different poisoning percentages.
翻訳日:2024-03-06 14:41:17 公開日:2024-03-05
# テキストベース画像編集のための二重帰納的偽物推論

Doubly Abductive Counterfactual Inference for Text-based Image Editing ( http://arxiv.org/abs/2403.02981v1 )

ライセンス: Link先を確認
Xue Song, Jiequan Cui, Hanwang Zhang, Jingjing Chen, Richang Hong, Yu-Gang Jiang(参考訳) 本稿では,テキストベースの画像編集(TBIE)を,その要求に正確に対処するためのエレガントな定式化であるため,反実的推論により検討する。 定式化のレンズを通して、tbieの欠点は、既存の技術が編集性と忠実性の間の良いトレードオフをほとんど達成できないことである。 そこで本稿では,DAC(Doubly Abductive Counterfactual Inference framework)を提案する。 まず、外因性変数をUNet LoRAとしてパラメータ化し、すべての画像の詳細を推論する。 第2に、テキストエンコーダLoRAによってパラメータ化された別の外因性変数を退避させ、過度に適合した第1の退避による編集性を取り戻す。 ポストエディットからプレエディットへの視覚遷移を独占的にエンコードする第2のアブダクションのおかげで、その反転 -- loraを減算する -- は、事実上、プレエディットをポストエディットに戻す。 我々のDACは広範な実験を通じて、編集可能性と忠実さのトレードオフを実現している。 これにより,質的および定量的評価において広範囲に検証される追加,削除,操作,置換,スタイル転送,顔変化など,幅広いユーザ編集インテントをサポートすることができる。 コードはhttps://github.com/xuesong39/DACにある。

We study text-based image editing (TBIE) of a single image by counterfactual inference because it is an elegant formulation to precisely address the requirement: the edited image should retain the fidelity of the original one. Through the lens of the formulation, we find that the crux of TBIE is that existing techniques hardly achieve a good trade-off between editability and fidelity, mainly due to the overfitting of the single-image fine-tuning. To this end, we propose a Doubly Abductive Counterfactual inference framework (DAC). We first parameterize an exogenous variable as a UNet LoRA, whose abduction can encode all the image details. Second, we abduct another exogenous variable parameterized by a text encoder LoRA, which recovers the lost editability caused by the overfitted first abduction. Thanks to the second abduction, which exclusively encodes the visual transition from post-edit to pre-edit, its inversion -- subtracting the LoRA -- effectively reverts pre-edit back to post-edit, thereby accomplishing the edit. Through extensive experiments, our DAC achieves a good trade-off between editability and fidelity. Thus, we can support a wide spectrum of user editing intents, including addition, removal, manipulation, replacement, style transfer, and facial change, which are extensively validated in both qualitative and quantitative evaluations. Codes are in https://github.com/xuesong39/DAC.
翻訳日:2024-03-06 14:40:49 公開日:2024-03-05
# 多言語意味マッチングのための汎用的で柔軟なマルチコンセプタ構文解析フレームワーク

A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching ( http://arxiv.org/abs/2403.02975v1 )

ライセンス: Link先を確認
Dong Yao, Asaad Alghamdi, Qingrong Xia, Xiaoye Qu, Xinyu Duan, Zhefeng Wang, Yi Zheng, Baoxing Huai, Peilun Cheng, Zhou Zhao(参考訳) 文意味マッチングは自然言語処理におけるホットスポットであり、コミュニティの質問応答、検索、チャットボット、レコメンデーションなど、さまざまな重要なシナリオにおいて極めて重要である。 先進モデルのほとんどのモデルは、それらの概念を無視しながら、2つの文間の単語間の意味的関連を直接モデル化するため、DC-Matchはキーワードを意図から切り離し、それらを利用してマッチング性能を最適化する。 DC-Matchは単純なセマンティックマッチングの手法であるが、文のキーワードを識別する外部のNER技術に大きく依存している。 本稿では,NERモデルに依存するモデルからモデルを解放するために,多言語セマンティックマッチングのためのテキストを多言語概念に一般かつ柔軟に分解することを提案する。 この目的のために、事前訓練された言語モデルに基づいて、 \underline{M}ulti-\underline{C}oncept \underline{P}arsed \underline{S}emantic \underline{M}atching frameworkを考案し、様々な概念を抽出し、それらを分類トークンに注入する。 英語データセットqqp,mrpc,中国語データセットmedical-smについて総合的な実験を行った。 さらにアラビアデータセット MQ2Q と XNLI を実験し、低リソース言語におけるMPP-SMの適用性をさらに証明した。

Sentence semantic matching is a research hotspot in natural language processing, which is considerably significant in various key scenarios, such as community question answering, searching, chatbot, and recommendation. Since most of the advanced models directly model the semantic relevance among words between two sentences while neglecting the \textit{keywords} and \textit{intents} concepts of them, DC-Match is proposed to disentangle keywords from intents and utilizes them to optimize the matching performance. Although DC-Match is a simple yet effective method for semantic matching, it highly depends on the external NER techniques to identify the keywords of sentences, which limits the performance of semantic matching for minor languages since satisfactory NER tools are usually hard to obtain. In this paper, we propose to generally and flexibly resolve the text into multi concepts for multilingual semantic matching to liberate the model from the reliance on NER models. To this end, we devise a \underline{M}ulti-\underline{C}oncept \underline{P}arsed \underline{S}emantic \underline{M}atching framework based on the pre-trained language models, abbreviated as \textbf{MCP-SM}, to extract various concepts and infuse them into the classification tokens. We conduct comprehensive experiments on English datasets QQP and MRPC, and Chinese dataset Medical-SM. Besides, we experiment on Arabic datasets MQ2Q and XNLI, the outstanding performance further prove MCP-SM's applicability in low-resource languages.
翻訳日:2024-03-06 14:40:23 公開日:2024-03-05
# 共有自律におけるフィードバックからの制約のオンライン学習

Online Learning of Human Constraints from Feedback in Shared Autonomy ( http://arxiv.org/abs/2403.02974v1 )

ライセンス: Link先を確認
Shibei Zhu, Tran Nguyen Le, Samuel Kaski, Ville Kyrki(参考訳) 人間とのリアルタイムのコラボレーションは、さまざまな物理的制約による人間の行動パターンの違いによる課題を提起する。 既存の作業では、コラボレーションのための安全制約の学習や、メインタスクを実行するエージェント間でサブタスクを分割して配布する方法に重点を置いている。 対照的に,我々は,異なる操作者の多様な行動を考慮した人間の制約モデルを学ぶことを提案する。 人間と補助ロボットが同じタスク空間で同時に行動し、お互いの行動に影響を及ぼすという、共有自律的な方法でのコラボレーションの類型を考える。 本発明の課題は、作業負荷の低減と人間の作業者の不快感の最小化という両面から、人間をできるだけ支援して、共有タスクを行うための人間のスキルを増強することである。 そこで本研究では,人間の身体的制約を学習し,適応し,操作者の人間工学的嗜好や制限と協調できる拡張アシスタントエージェントを提案する。

Real-time collaboration with humans poses challenges due to the different behavior patterns of humans resulting from diverse physical constraints. Existing works typically focus on learning safety constraints for collaboration, or how to divide and distribute the subtasks between the participating agents to carry out the main task. In contrast, we propose to learn a human constraints model that, in addition, considers the diverse behaviors of different human operators. We consider a type of collaboration in a shared-autonomy fashion, where both a human operator and an assistive robot act simultaneously in the same task space that affects each other's actions. The task of the assistive agent is to augment the skill of humans to perform a shared task by supporting humans as much as possible, both in terms of reducing the workload and minimizing the discomfort for the human operator. Therefore, we propose an augmentative assistant agent capable of learning and adapting to human physical constraints, aligning its actions with the ergonomic preferences and limitations of the human operator.
翻訳日:2024-03-06 14:39:51 公開日:2024-03-05
# ボダイイド : ポストヒューマンへの身体と人工物のハイブリッドに関する哲学的考察

Bodioid: philosophical reflections on the hybrid of bodies and artefacts towards post-human ( http://arxiv.org/abs/2403.02972v1 )

ライセンス: Link先を確認
Jiang Xu (1), Gang Sun (1), Jingyu Xu (1) and Pujie Su (1) ((1) Tongji University, College of Design and Innovation, Shanghai, China.)(参考訳) ポストヒューマン時代の到来は、身体と人工物の境界を曖昧にした。 さらに、外資材や情報は体に深く統合され、新興技術がポストヒトの存在を形作り、身体の進化を促進するための重要な推進力となる。 そこで本研究では, 道具, 機械, サイボーグの3つの技術形態の変容過程を解析し, 体や人工物の構造を明らかにする。 現象学的観点からは、身体と人工物の存在の本質が反映され、その存在が建設的視点として提案されている。 さらに,技術仲介の理論的基礎と道徳の具体化に基づき,身体とアーティファクトの一体化に対する類似性と相違を細心の注意を払って表現する技術設計概念bodioidが提案されている。 最後に, 言語の組織形態の類型化を通じて, ボダイド構築の2つの重要な形態と特定のメカニズム, すなわち拡張とミラーリングを示す。 このことを念頭において、ポスト・ヒューマン存在の展望は、技術的設計の基盤となる哲学的原理の研究に理論的洞察を与える目的で議論される。

The advent of the post-human era has blurred the boundary between the body and artifacts. Further, external materials and information are more deeply integrated into the body, making emerging technology a key driving force for shaping post-human existence and promoting bodily evolution. Based on this, this study analyses the transformation process of three technological forms, namely tools, machines, and cyborgs, and reveals the construction of bodies and artifacts. From the phenomenological perspective, the essences of body and artifact existences are reflected upon, and the existence is construction viewpoint is proposed. Furthermore, a technological design concept, bodioid, is proposed to meticulously depict the characteristics of integrating similarities and differences towards unity between the body and artifacts, based on the theoretical foundation of technology mediation and the materialization of morality. Finally, through analogizing the organizational form of language, the two key forms and specific mechanisms of bodioid construction, namely extension and mirroring, are indicated. With this in mind, the post-human existence landscape is discussed with the objective of providing theoretical insights into the study of the underlying philosophical principles of technological design.
翻訳日:2024-03-06 14:39:35 公開日:2024-03-05
# きめ細かな視覚知覚を持つマルチモーダルインストラクション調整LDM

Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception ( http://arxiv.org/abs/2403.02969v1 )

ライセンス: Link先を確認
Junwen He, Yifan Wang, Lijun Wang, Huchuan Lu, Jun-Yan He, Jin-Peng Lan, Bin Luo, and Xuansong Xie(参考訳) MLLM(Multimodal Large Language Model)は、様々な視覚言語タスクの認知フレームワークとして大規模言語モデルを活用する。 近年,視覚的知覚と接地能力を備えたMLLMの開発が進められている。 しかし、微細なピクセルレベルの認識を提供し、テキスト固有の入力を超えて相互作用を拡張することにはまだギャップが残っている。 本研究では,テキスト,ボックス,画像,音声などの多モード参照からピクセル単位の物体知覚や自然言語記述を生成する汎用mllmモデルである {\bf{anyref}} を提案する。 このイノベーションは、ユーザーに対して、モダリティ固有のデザインなしで、テキストや地域的なプロンプトを超えてモデルに取り組む柔軟性を高める。 提案した再フォーカス機構により,生成したグラウンドアウトプットは参照オブジェクトにもっと焦点を合わせ,追加のピクセルレベルの監視を暗黙的に組み込む。 この簡単な修正は、LLMの推論時に発生する注意スコアを利用し、グラウンディングマスクと参照式の両方のパフォーマンス向上を示しながら、余分な計算を不要にする。 トレーニングデータのみを公開することで,多様なモーダリティ参照セグメンテーションや地域レベルの参照表現生成など,複数のベンチマークで最先端の結果が得られる。

Multimodal Large Language Model (MLLMs) leverages Large Language Models as a cognitive framework for diverse visual-language tasks. Recent efforts have been made to equip MLLMs with visual perceiving and grounding capabilities. However, there still remains a gap in providing fine-grained pixel-level perceptions and extending interactions beyond text-specific inputs. In this work, we propose {\bf{AnyRef}}, a general MLLM model that can generate pixel-wise object perceptions and natural language descriptions from multi-modality references, such as texts, boxes, images, or audio. This innovation empowers users with greater flexibility to engage with the model beyond textual and regional prompts, without modality-specific designs. Through our proposed refocusing mechanism, the generated grounding output is guided to better focus on the referenced object, implicitly incorporating additional pixel-level supervision. This simple modification utilizes attention scores generated during the inference of LLM, eliminating the need for extra computations while exhibiting performance enhancements in both grounding masks and referring expressions. With only publicly available training data, our model achieves state-of-the-art results across multiple benchmarks, including diverse modality referring segmentation and region-level referring expression generation.
翻訳日:2024-03-06 14:39:13 公開日:2024-03-05
# ハミルトン特性試験

Hamiltonian Property Testing ( http://arxiv.org/abs/2403.02968v1 )

ライセンス: Link先を確認
Andreas Bluhm, Matthias C. Caro, Aadil Oufkir(参考訳) 局所性は多くの物理的時間進化の基本的な特徴である。 局所性と関連する構造的性質の仮定は、最近提案された未知のハミルトニアンを誘導時間発展から学習するための手順にも当てはまる。 しかし、未知のハミルトニアンが局所的であるかどうかを厳格に検証するプロトコルは知られていない。 我々は、プロパティテスト問題としてハミルトン局所性テストを調査し、未知のn$-qubit hamiltonian $h$が、すべてのk$-localから$k$-localか$\varepsilon$-farかを判定する。 まず、選択された距離測度の重要性を強調する: 作用素ノルム、最悪のケース距離測度に関して、不整合量子局所性テスターは$\tilde{\Omega}(2^n)$多くの時間進化クエリと期待される総進化時間$\tilde{\Omega}(2^n / \varepsilon)$,そして、コヒーレントテスターでさえ、$\Omega(2^{n/2})$多くのクエリと$\Omega(2^{n/2}/\varepsilon)$総進化時間を必要とする。 対照的に、平均ケース距離に対応する正規化されたフロベニウスノルムに従って距離を測定する場合、ランダム化された測定に基づいてサンプル、時間、計算効率のよいハミルトン局所性テストアルゴリズムを与える。 実際、我々の手順は、局所性を超えた幅広いハミルトン特性のクラスを同時にテストするために使用することができる。 最後に、一般ハミルトニアンの学習がこの平均ケース距離で指数関数的に困難であり、その結果、ハミルトニアン検定と学習の指数関数的分離が確立される。 我々の研究は、量子ハミルトニアンに対する特性テストの研究を開始し、限られた量子能力でも幅広いハミルトニアン特性が効率的にテスト可能であることを示し、ハミルトニアンテストをハミルトニアン学習と並んで独立した研究領域として位置づける。

Locality is a fundamental feature of many physical time evolutions. Assumptions on locality and related structural properties also underlie recently proposed procedures for learning an unknown Hamiltonian from access to the induced time evolution. However, no protocols to rigorously test whether an unknown Hamiltonian is local were known. We investigate Hamiltonian locality testing as a property testing problem, where the task is to determine whether an unknown $n$-qubit Hamiltonian $H$ is $k$-local or $\varepsilon$-far from all $k$-local Hamiltonians, given access to the time evolution along $H$. First, we emphasize the importance of the chosen distance measure: With respect to the operator norm, a worst-case distance measure, incoherent quantum locality testers require $\tilde{\Omega}(2^n)$ many time evolution queries and an expected total evolution time of $\tilde{\Omega}(2^n / \varepsilon)$, and even coherent testers need $\Omega(2^{n/2})$ many queries and $\Omega(2^{n/2}/\varepsilon)$ total evolution time. In contrast, when distances are measured according to the normalized Frobenius norm, corresponding to an average-case distance, we give a sample-, time-, and computationally efficient incoherent Hamiltonian locality testing algorithm based on randomized measurements. In fact, our procedure can be used to simultaneously test a wide class of Hamiltonian properties beyond locality. Finally, we prove that learning a general Hamiltonian remains exponentially hard with this average-case distance, thereby establishing an exponential separation between Hamiltonian testing and learning. Our work initiates the study of property testing for quantum Hamiltonians, demonstrating that a broad class of Hamiltonian properties is efficiently testable even with limited quantum capabilities, and positioning Hamiltonian testing as an independent area of research alongside Hamiltonian learning.
翻訳日:2024-03-06 14:38:52 公開日:2024-03-05
# Polyak Momentumを用いた非凸確率合成最適化

Non-Convex Stochastic Composite Optimization with Polyak Momentum ( http://arxiv.org/abs/2403.02967v1 )

ライセンス: Link先を確認
Yuan Gao and Anton Rodomanov and Sebastian U. Stich(参考訳) 確率的近位勾配法は広く使われている確率的勾配降下法(sgd)の強力な一般化であり、機械学習に多くの応用がある。 しかし、この手法は確率ノイズが顕著な非凸条件(すなわち、小さなバッチサイズまたは境界バッチサイズのみを使用する場合)に収束しないことが知られている。 本稿では,ポリアック運動量を持つ確率的近位勾配法に注目した。 本手法は, バッチサイズによらず, 非凸合成最適化問題に対して最適収束率が得られることを示す。 さらに, 複合最適化設定におけるポリアック運動量の分散低減効果を厳密に解析し, 近位ステップが不正確に解くことができる場合にも収束することを示す。 最後に,理論的結果を検証する数値実験を行った。

The stochastic proximal gradient method is a powerful generalization of the widely used stochastic gradient descent (SGD) method and has found numerous applications in Machine Learning. However, it is notoriously known that this method fails to converge in non-convex settings where the stochastic noise is significant (i.e. when only small or bounded batch sizes are used). In this paper, we focus on the stochastic proximal gradient method with Polyak momentum. We prove this method attains an optimal convergence rate for non-convex composite optimization problems, regardless of batch size. Additionally, we rigorously analyze the variance reduction effect of the Polyak momentum in the composite optimization setting and we show the method also converges when the proximal step can only be solved inexactly. Finally, we provide numerical experiments to validate our theoretical results.
翻訳日:2024-03-06 14:38:09 公開日:2024-03-05
# 知識提示型ゼロショット質問応答におけるエビデンス中心の事実要約

Evidence-Focused Fact Summarization for Knowledge-Augmented Zero-Shot Question Answering ( http://arxiv.org/abs/2403.02966v1 )

ライセンス: Link先を確認
Sungho Ko, Hyunjin Cho, Hyungjoo Chae, Jinyoung Yeo, Dongha Lee(参考訳) 近年,Large Language Models (LLMs) のQA(Quesetion Answering) 性能を向上させるために知識グラフ (KGs) を利用することが研究されている。 三重形式や自由形式のテキスト変換といった既存の手法は、いくつかの問題に直面している。 これには、重複した実体や関係による証拠密度の低下、重要な証拠を強調できないことによる証拠の明確さの低下が含まれる。 これらの課題に対処するために,知識付加型LLMを用いたQA向上のための,エビデンスに着目したFact SummarizationフレームワークEFSumを提案する。 我々は,蒸留と選好アライメントを通じて,事実要約としてオープンソースのllmを最適化する。 広範な実験により,efsum は llm のゼロショットqa 性能を改善し,要約の有用性と忠実性の両方を保証できることを示した。

Recent studies have investigated utilizing Knowledge Graphs (KGs) to enhance Quesetion Answering (QA) performance of Large Language Models (LLMs), yet structured KG verbalization remains challengin. Existing methods, such as triple-form or free-form textual conversion of triple-form facts, encounter several issues. These include reduced evidence density due to duplicated entities or relationships, and reduced evidence clarity due to an inability to emphasize crucial evidence. To address these issues, we propose EFSum, an Evidence-focused Fact Summarization framework for enhanced QA with knowledge-augmented LLMs. We optimize an open-source LLM as a fact summarizer through distillation and preference alignment. Our extensive experiments show that EFSum improves LLM's zero-shot QA performance, and it is possible to ensure both the helpfulness and faithfulness of the summary.
翻訳日:2024-03-06 14:37:57 公開日:2024-03-05
# ChatGPTとバイオメトリックス:顔認識、性別検出、年齢推定能力の評価

ChatGPT and biometrics: an assessment of face recognition, gender detection, and age estimation capabilities ( http://arxiv.org/abs/2403.02965v1 )

ライセンス: Link先を確認
Ahmad Hassanpour, Yasamin Kowsari, Hatef Otroshi Shahreza, Bian Yang, Sebastien Marcel(参考訳) 本稿では,ChatGPTのような大規模言語モデル(LLM)の生体計測への応用について検討する。 本稿では, 顔認証, 性別検出, 年齢推定を中心に, 生体計測関連タスクにおけるChatGPTの能力について検討する。 バイオメトリックスはセンシティブな情報と見なされているため、chatgptは直接のプロンプトに応答することを避け、そのセーフガードをバイパスし、バイオメトリックスタスクの能力を評価するためのプロンプト戦略を作成しました。 本研究により,ChatGPTは顔の同一性を認識し,2つの顔画像の識別をかなり精度良く行うことが明らかとなった。 さらに, 年齢推定タスクにおいて, 性別検出と妥当な精度で有意な性能を示した。 バイオメトリックスにおけるLCMと基礎モデルの適用の可能性について検討した。

This paper explores the application of large language models (LLMs), like ChatGPT, for biometric tasks. We specifically examine the capabilities of ChatGPT in performing biometric-related tasks, with an emphasis on face recognition, gender detection, and age estimation. Since biometrics are considered as sensitive information, ChatGPT avoids answering direct prompts, and thus we crafted a prompting strategy to bypass its safeguard and evaluate the capabilities for biometrics tasks. Our study reveals that ChatGPT recognizes facial identities and differentiates between two facial images with considerable accuracy. Additionally, experimental results demonstrate remarkable performance in gender detection and reasonable accuracy for the age estimation tasks. Our findings shed light on the promising potentials in the application of LLMs and foundation models for biometrics.
翻訳日:2024-03-06 14:37:36 公開日:2024-03-05
# ノーム境界制御入力による非線形システムの安定化のための統一制御系設計

Unifying Controller Design for Stabilizing Nonlinear Systems with Norm-Bounded Control Inputs ( http://arxiv.org/abs/2403.03030v1 )

ライセンス: Link先を確認
Ming Li, Zhiyong Sun, and Siep Weiland(参考訳) 本稿では,ノルム有界入力制約を持つ非線形システムの安定化制御系の設計における古典的課題を再考する。 Lin-Sontagの普遍的な公式を拡張し、汎用的な(状態依存)スケーリング項を導入することにより、統一的なコントローラ設計法を提案する。 この一般的なスケーリング用語を組み込むことで、統一コントローラが提供され、様々な好ましい特性を持つ代替普遍式を導出することが可能となり、特定の要求を満たすように調整された制御設計に適合し、異なる制御シナリオにまたがる汎用性を提供する。 さらに,最適スケーリング項を決定するための構成論的アプローチを提案し,最適化問題に対する明示的な解である最適化ベース普遍公式(optimize-based universal formula)を導出する。 結果として得られるコントローラは漸近安定性を確保し、ノルム有界な入力制約を満たすとともに、予め定義されたコスト関数を最適化する。 最後に、滑らか性、原点における連続性、安定性マージン、逆最適性など、統一制御器の本質的性質を解析する。 シミュレーションにより,非線形システムの安定化制御問題に対処する上での有効性が示された。

This paper revisits a classical challenge in the design of stabilizing controllers for nonlinear systems with a norm-bounded input constraint. By extending Lin-Sontag's universal formula and introducing a generic (state-dependent) scaling term, a unifying controller design method is proposed. The incorporation of this generic scaling term gives a unified controller and enables the derivation of alternative universal formulas with various favorable properties, which makes it suitable for tailored control designs to meet specific requirements and provides versatility across different control scenarios. Additionally, we present a constructive approach to determine the optimal scaling term, leading to an explicit solution to an optimization problem, named optimization-based universal formula. The resulting controller ensures asymptotic stability, satisfies a norm-bounded input constraint, and optimizes a predefined cost function. Finally, the essential properties of the unified controllers are analyzed, including smoothness, continuity at the origin, stability margin, and inverse optimality. Simulations validate the approach, showcasing its effectiveness in addressing a challenging stabilizing control problem of a nonlinear system.
翻訳日:2024-03-06 14:32:52 公開日:2024-03-05
# Socratic Reasoningはポジティブテキストの書き直しを改善する

Socratic Reasoning Improves Positive Text Rewriting ( http://arxiv.org/abs/2403.03029v1 )

ライセンス: Link先を確認
Anmol Goel, Nico Daheim, Iryna Gurevych(参考訳) 否定を肯定的な思考に反映することは、メンタルヘルスや精神療法に対する認知的アプローチの頂点であり、大規模な言語モデルに基づくソリューションによってよりアクセスしやすいものにすることができる。 このような再フレーミングは典型的には非自明であり、否定的思考の根本的な問題を明らかにするために複数の合理化ステップが必要となる。 しかし、この合理化プロセスは、データセットとモデルの両方によって無視されている。 本研究では,このギャップに対処するため,オープンソースのデータセットを,合成生成ソクラティック論理を用いた正のテキスト書き換えのために,新しいフレームワークであるtextsc{SocraticReframe} を用いて拡張する。 \textsc{socraticreframe} は一連の質問と回答のペアを使って思考の書き直しプロセスを合理化する。 このようなソクラテス的合理化は,精神療法研究の基準に基づく自動評価と人的評価の両方により,異なるオープンソースllmに対する正のテキスト書き換えを有意に改善することを示した。

Reframing a negative into a positive thought is at the crux of several cognitive approaches to mental health and psychotherapy that could be made more accessible by large language model-based solutions. Such reframing is typically non-trivial and requires multiple rationalization steps to uncover the underlying issue of a negative thought and transform it to be more positive. However, this rationalization process is currently neglected by both datasets and models which reframe thoughts in one step. In this work, we address this gap by augmenting open-source datasets for positive text rewriting with synthetically-generated Socratic rationales using a novel framework called \textsc{SocraticReframe}. \textsc{SocraticReframe} uses a sequence of question-answer pairs to rationalize the thought rewriting process. We show that such Socratic rationales significantly improve positive text rewriting for different open-source LLMs according to both automatic and human evaluations guided by criteria from psychotherapy research.
翻訳日:2024-03-06 14:32:32 公開日:2024-03-05
# 言葉の重要性 - Promptsの言語モデル出力への影響

Word Importance Explains How Prompts Affect Language Model Outputs ( http://arxiv.org/abs/2403.03028v1 )

ライセンス: Link先を確認
Stefan Hackmann, Haniyeh Mahmoudian, Mark Steadman and Michael Schmidt(参考訳) 大規模言語モデル(LLM)の出現は、業界全体で多くのアプリケーションに革命をもたらした。 しかしながら、その「ブラックボックス」の性質は、特定の決定を行う方法の理解を妨げることが多く、透明性、信頼性、倫理的使用に対する懸念を提起する。 本研究では,モデル出力に対する統計的影響を明らかにするために,各単語の変動によるLCMの説明可能性の向上手法を提案する。 この手法は,複数のユーザ入力に集約されたテキストスコアに基づいて,システム内の各単語をマスキングし,その出力に対する効果を評価する。 古典的注意と異なり、単語の重要性は、任意に定義されたテキストスコアに即興語が与える影響を測定するため、単語の重要性を、バイアス、読書レベル、冗長性など、特定の関心の尺度に分解することができる。 この方法では、注意重みが得られない場合の影響も測定できる。 提案手法の有効性を検証するため,複数のシステムプロンプトに異なる接尾辞を追加し,その後の世代を異なる大規模言語モデルと比較した。 その結果、単語重要度スコアは、複数のスコアリング関数に対する期待接尾辞重要度と密接に関連していることが示された。

The emergence of large language models (LLMs) has revolutionized numerous applications across industries. However, their "black box" nature often hinders the understanding of how they make specific decisions, raising concerns about their transparency, reliability, and ethical use. This study presents a method to improve the explainability of LLMs by varying individual words in prompts to uncover their statistical impact on the model outputs. This approach, inspired by permutation importance for tabular data, masks each word in the system prompt and evaluates its effect on the outputs based on the available text scores aggregated over multiple user inputs. Unlike classical attention, word importance measures the impact of prompt words on arbitrarily-defined text scores, which enables decomposing the importance of words into the specific measures of interest--including bias, reading level, verbosity, etc. This procedure also enables measuring impact when attention weights are not available. To test the fidelity of this approach, we explore the effect of adding different suffixes to multiple different system prompts and comparing subsequent generations with different large language models. Results show that word importance scores are closely related to the expected suffix importances for multiple scoring functions.
翻訳日:2024-03-06 14:32:17 公開日:2024-03-05
# 深層学習に基づく脆弱性検出の改善に向けて

Toward Improved Deep Learning-based Vulnerability Detection ( http://arxiv.org/abs/2403.03024v1 )

ライセンス: Link先を確認
Adriana Sejfia, Satyaki Das, Saad Shafiq, Nenad Medvidovi\'c(参考訳) ディープ・ラーニング(DL)は、脆弱性検出のための最近のいくつかのテクニックに共通するスレッドである。 大規模な公開可能な脆弱性データセットの台頭により、これらのテクニックを支える学習プロセスが加速した。 これらのデータセットはDLベースの脆弱性検出に役立つが、検出者の予測能力も制限している。 これらのデータセットの脆弱性は、コード行、関数、あるいは脆弱性が存在するプログラムスライスなど、特定の方法で表現する必要がある。 この表現を基本単位と呼ぶ。 検出器は基地ユニットの脆弱性を学習し、他の基地ユニットが脆弱かどうかを予測する。 個々のベースユニットに焦点を合わせることで、複数のベースユニット(またはmbuの脆弱性)にまたがる脆弱性を正しく検出する検出器の能力を損なうと仮定しました。 このような脆弱性に対しては、すべての基本ユニットが脆弱性として検出されると、正しく検出される。 脆弱性のすべての部分を検出する既存のテクニックの検証は、他のダウンストリームタスクの有効性を確立する上で重要である。 この仮説を評価するために,我々は3つの著名なdlベースの検出器であるclear,deepwukong,linevulに着目した研究を行った。 本研究は、3つの検出器がそれぞれそれぞれのデータセットにMBU脆弱性を含んでいることを示す。 さらに,この種の脆弱性を検出する際の精度低下も確認した。 本研究は,MBU脆弱性の適切な適用に向けたDLベースの検出を支援するためのフレームワークについて述べる。

Deep learning (DL) has been a common thread across several recent techniques for vulnerability detection. The rise of large, publicly available datasets of vulnerabilities has fueled the learning process underpinning these techniques. While these datasets help the DL-based vulnerability detectors, they also constrain these detectors' predictive abilities. Vulnerabilities in these datasets have to be represented in a certain way, e.g., code lines, functions, or program slices within which the vulnerabilities exist. We refer to this representation as a base unit. The detectors learn how base units can be vulnerable and then predict whether other base units are vulnerable. We have hypothesized that this focus on individual base units harms the ability of the detectors to properly detect those vulnerabilities that span multiple base units (or MBU vulnerabilities). For vulnerabilities such as these, a correct detection occurs when all comprising base units are detected as vulnerable. Verifying how existing techniques perform in detecting all parts of a vulnerability is important to establish their effectiveness for other downstream tasks. To evaluate our hypothesis, we conducted a study focusing on three prominent DL-based detectors: ReVeal, DeepWukong, and LineVul. Our study shows that all three detectors contain MBU vulnerabilities in their respective datasets. Further, we observed significant accuracy drops when detecting these types of vulnerabilities. We present our study and a framework that can be used to help DL-based detectors toward the proper inclusion of MBU vulnerabilities.
翻訳日:2024-03-06 14:31:56 公開日:2024-03-05
# SplAgger: メタ強化学習のための分割集約

SplAgger: Split Aggregation for Meta-Reinforcement Learning ( http://arxiv.org/abs/2403.03020v1 )

ライセンス: Link先を確認
Jacob Beck, Matthew Jackson, Risto Vuorio, Zheng Xiong, Shimon Whiteson(参考訳) 強化学習(RL)の中核的な野望は、新しいタスクで迅速に学習できるエージェントを作ることである。 Meta-RLはこのようなエージェントを直接学習することでこれを実現する。 ブラックボックス法(ブラックボックス法)と呼ばれるメタRL法の一つのカテゴリは、オフザシェルフシーケンスモデルをエンドツーエンドにトレーニングすることで実現している。 対照的に、未知のタスクに対する後続分布を明示的に推測する手法の別のカテゴリが開発されている。 これらのメソッドはタスク推論を可能にするために設計された異なる目的とシーケンスモデルを持ち、タスク推論メソッドとして知られている。 しかし、近年の証拠は、実際にはタスク推論の目的は不要であることを示している。 それでも,タスク推論対象がそうでない場合でも,タスク推論シーケンスモデルが有用かどうかは不明である。 本稿では,タスク推論シーケンスモデルが依然として有益であることを示す。 特に,マルコフ特性により後段のタスクがデータの順序に依存しないという事実を生かして,置換不変なアグリゲーションを持つシーケンスモデルについて検討する。 我々はタスク推論の目的を使わずに置換不変数列モデルの利点を実証的に確認する。 しかし、驚くべきことに、置換分散が有用である条件が複数存在することも判明した。 そこで本研究では,両世界の最善を達成するために置換変分成分と不変成分の両方を用いて,連続制御とメモリ環境において,すべてのベースラインを上回っているsplaggerを提案する。

A core ambition of reinforcement learning (RL) is the creation of agents capable of rapid learning in novel tasks. Meta-RL aims to achieve this by directly learning such agents. One category of meta-RL methods, called black box methods, does so by training off-the-shelf sequence models end-to-end. In contrast, another category of methods have been developed that explicitly infer a posterior distribution over the unknown task. These methods generally have distinct objectives and sequence models designed to enable task inference, and so are known as task inference methods. However, recent evidence suggests that task inference objectives are unnecessary in practice. Nonetheless, it remains unclear whether task inference sequence models are beneficial even when task inference objectives are not. In this paper, we present strong evidence that task inference sequence models are still beneficial. In particular, we investigate sequence models with permutation invariant aggregation, which exploit the fact that, due to the Markov property, the task posterior does not depend on the order of data. We empirically confirm the advantage of permutation invariant sequence models without the use of task inference objectives. However, we also find, surprisingly, that there are multiple conditions under which permutation variance remains useful. Therefore, we propose SplAgger, which uses both permutation variant and invariant components to achieve the best of both worlds, outperforming all baselines on continuous control and memory environments.
翻訳日:2024-03-06 14:31:34 公開日:2024-03-05
# 単一原子を光学キャビティの近くに押し込む

Pushing single atoms near an optical cavity ( http://arxiv.org/abs/2403.03019v1 )

ライセンス: Link先を確認
Dowon Lee, Taegyu Ha, Donggeon Kim, Keumhyun Kim, Kyungwon An, Moonjoo Lee(参考訳) 光散乱力は単一原子のキャビティモードへの負荷時間を短縮するために用いられる。 低温原子アンサンブルを共振器上に放つことで、重力方向に沿ってプッシュビームを印加し、狭い速度分布を持つ高速原子輸送を提供する。 また、プッシュビームが重力に照らされると、単一の原子が減速し、キャビティ-透過測定によってモードを旋回する様子をリアルタイムで観察する。 本手法は,原子キャビティ実験をより効率的にするためのものである。

Optical scattering force is used to reduce the loading time of single atoms to a cavity mode. Releasing a cold atomic ensemble above the resonator, we apply a push beam along the direction of gravity, offering fast atomic transport with narrow velocity distribution. We also observe in real time that, when the push beam is illuminated against gravity, single atoms slow down and even turn around in the mode, through the cavity-transmission measurement. Our method can be employed to make atom-cavity experiments more efficient.
翻訳日:2024-03-06 14:31:11 公開日:2024-03-05
# crispr:アンサンブルモデル

CRISPR: Ensemble Model ( http://arxiv.org/abs/2403.03018v1 )

ライセンス: Link先を確認
Mohammad Rostami, Amin Ghariyazi, Hamed Dashti, Mohammad Hossein Rohban, Hamid R. Rabiee(参考訳) CRISPR(Clustered Regularly Interspaced Short Palindromic Repeats)は、生物学と医学の分野に革命をもたらした遺伝子編集技術である。 しかし、CRISPRを使用する際の課題の1つは、単一誘導RNA(sgRNA)の標的効果と標的外の感受性を予測することである。 これは、既存のほとんどのメソッドが異なる遺伝子と細胞を持つ別々のデータセットで訓練されているためである。 本稿では,sgRNA設計のための新しいアンサンブル学習手法を提案する。 本手法では,複数の機械学習モデルの予測を組み合わせることで,より堅牢な予測を実現する。 このアプローチにより、より広い範囲のデータから学習することができ、モデルの一般化性が向上します。 本手法をsgRNA設計のベンチマークデータセット上で評価した結果,精度と一般化性の両方の観点から既存手法よりも優れていることがわかった。 本手法は, 新規遺伝子や細胞に対しても高い感度, 特異性を有するsgRNAの設計に有効であることが示唆された。 これはCRISPRの臨床的使用に重要な意味を持ち、研究者は様々な疾患に対するより効果的で安全な治療法を設計できる可能性がある。

Clustered Regularly Interspaced Short Palindromic Repeats (CRISPR) is a gene editing technology that has revolutionized the fields of biology and medicine. However, one of the challenges of using CRISPR is predicting the on-target efficacy and off-target sensitivity of single-guide RNAs (sgRNAs). This is because most existing methods are trained on separate datasets with different genes and cells, which limits their generalizability. In this paper, we propose a novel ensemble learning method for sgRNA design that is accurate and generalizable. Our method combines the predictions of multiple machine learning models to produce a single, more robust prediction. This approach allows us to learn from a wider range of data, which improves the generalizability of our model. We evaluated our method on a benchmark dataset of sgRNA designs and found that it outperformed existing methods in terms of both accuracy and generalizability. Our results suggest that our method can be used to design sgRNAs with high sensitivity and specificity, even for new genes or cells. This could have important implications for the clinical use of CRISPR, as it would allow researchers to design more effective and safer treatments for a variety of diseases.
翻訳日:2024-03-06 14:31:03 公開日:2024-03-05
# OPEx: LLM-Centric Agents の身体的指示後のコンポーネントワイズ解析

OPEx: A Component-Wise Analysis of LLM-Centric Agents in Embodied Instruction Following ( http://arxiv.org/abs/2403.03017v1 )

ライセンス: Link先を確認
Haochen Shi, Zhiyuan Sun, Xingdi Yuan, Marc-Alexandre C\^ot\'e, Bang Liu(参考訳) EIF(Embodied Instruction following)は、自然言語の指示を満たすために、エージェントが自我中心の観察を通して環境と対話することを要求する、実践的な学習において重要なタスクである。 近年,EIFを含む具体的学習タスクのパフォーマンス向上を目的としたフレームワーク中心のアプローチにおいて,大規模言語モデル(LLM)の採用が急増している。 これらの努力にもかかわらず、視覚知覚からアクション実行時のタスクパフォーマンスまで、さまざまなコンポーネントが与える影響について統一的な理解が欠如している。 このギャップに対処するため、私たちはOPExを紹介します。これは、組込み学習タスク(Observer、Planner、Executor)の解決に必要なコアコンポーネントを記述した包括的なフレームワークです。 広範な評価を通じて、各コンポーネントがeifタスクのパフォーマンスにどのように影響するかを深く分析する。 さらに,マルチエージェント対話戦略をtextworld対応に展開し,タスクパフォーマンスをさらに向上させることにより,この分野におけるイノベーションを実現する。 以上の結果から,マルチエージェントフレームワークによるLLMの強化により,FIFの成果が著しく向上し,視覚認識と低レベルの動作実行が重要なボトルネックとして認識されることが明らかとなった。

Embodied Instruction Following (EIF) is a crucial task in embodied learning, requiring agents to interact with their environment through egocentric observations to fulfill natural language instructions. Recent advancements have seen a surge in employing large language models (LLMs) within a framework-centric approach to enhance performance in embodied learning tasks, including EIF. Despite these efforts, there exists a lack of a unified understanding regarding the impact of various components-ranging from visual perception to action execution-on task performance. To address this gap, we introduce OPEx, a comprehensive framework that delineates the core components essential for solving embodied learning tasks: Observer, Planner, and Executor. Through extensive evaluations, we provide a deep analysis of how each component influences EIF task performance. Furthermore, we innovate within this space by deploying a multi-agent dialogue strategy on a TextWorld counterpart, further enhancing task performance. Our findings reveal that LLM-centric design markedly improves EIF outcomes, identify visual perception and low-level action execution as critical bottlenecks, and demonstrate that augmenting LLMs with a multi-agent framework further elevates performance.
翻訳日:2024-03-06 14:30:46 公開日:2024-03-05
# テキストデータセットにおけるマルチモーダル翻訳モデルの評価事例

The Case for Evaluating Multimodal Translation Models on Text Datasets ( http://arxiv.org/abs/2403.03014v1 )

ライセンス: Link先を確認
Vipin Vijayan, Braeden Bowen, Scott Grigsby, Timothy Anderson, and Jeremy Gwinnup(参考訳) マルチモーダル機械翻訳(mmt)モデル評価のための良質な評価フレームワーク 1)翻訳作業支援のための視覚情報の利用とその利用 2)テキストのみの機械翻訳などの複雑な文を翻訳する能力。 しかし、MMTにおける現在のほとんどの研究は、これらの特性を計測しないMulti30kテストセットに対して評価されている。 すなわち、MMTモデルによる視覚情報の使用は、Multi30kテストセットの結果から直接は表示できず、Multi30kの文は画像キャプション、すなわち短い記述文であり、典型的なテキストのみの機械翻訳モデルで評価される複雑な文とは対照的である。 そこで本研究では,MTモデルの評価を行う。 1)MTモデルによる視覚情報の利用を測定するCoMMuTE評価フレームワーク。 2)テキストのみのwmtニュース翻訳タスクテストセットは,複雑な文に対する翻訳性能を評価する。 3)Multi30kテストセットは,MMTモデルの性能を実MMTデータセットに対して測定する。 最後に、提案した評価フレームワークに対してMulti30kデータセットに対してのみ訓練された最近のMTモデルを評価し、最近のMTモデルと比較してテキストのみのテストセットに対する劇的な低下性能を示す。

A good evaluation framework should evaluate multimodal machine translation (MMT) models by measuring 1) their use of visual information to aid in the translation task and 2) their ability to translate complex sentences such as done for text-only machine translation. However, most current work in MMT is evaluated against the Multi30k testing sets, which do not measure these properties. Namely, the use of visual information by the MMT model cannot be shown directly from the Multi30k test set results and the sentences in Multi30k are are image captions, i.e., short, descriptive sentences, as opposed to complex sentences that typical text-only machine translation models are evaluated against. Therefore, we propose that MMT models be evaluated using 1) the CoMMuTE evaluation framework, which measures the use of visual information by MMT models, 2) the text-only WMT news translation task test sets, which evaluates translation performance against complex sentences, and 3) the Multi30k test sets, for measuring MMT model performance against a real MMT dataset. Finally, we evaluate recent MMT models trained solely against the Multi30k dataset against our proposed evaluation framework and demonstrate the dramatic drop performance against text-only testing sets compared to recent text-only MT models.
翻訳日:2024-03-06 14:30:23 公開日:2024-03-05
# 学習レコメンデーションのllmに基づく説明のためのコンテキストソースとしての知識グラフ

Knowledge Graphs as Context Sources for LLM-Based Explanations of Learning Recommendations ( http://arxiv.org/abs/2403.03008v1 )

ライセンス: Link先を確認
Hasan Abu-Rasheed, Christian Weber, Madjid Fathi(参考訳) パーソナライズされた教育の時代には,学習内容に対する学習者の理解とエンゲージメントを高めるために,学習推薦のための理解可能な説明の提供が重要である。 大規模言語モデル(LLM)とジェネレーティブAI(ジェネレーティブAI)は、最近、人間のような説明を生成するための新しい扉を開いた。 しかし、その正確さは教育のようなセンシティブな分野ではまだ受け入れられていない。 学習者の意図に対する高い精度を確保しつつ,LLMの能力を活用するために,LLMプロンプトにおける知識グラフ(KG)を現実的コンテキストの源泉として活用し,モデル幻覚のリスクを低減し,誤った情報や不正確な情報の保護を図りながら,アプリケーション指向の学習コンテキストを維持しながら,知識グラフ(KG)を活用するアプローチを提案する。 知識グラフのセマンティックな関係を利用して、学習勧告に関するキュレートされた知識を提供する。 ドメイン・エキスパートをループに配置することで、LLMで満たされ完成されるテキストテンプレートとして説明を設計する。 ドメインの専門家は、学習者に関連する情報を含む説明を確実にするために、研究の一環として即席のエンジニアリングフェーズに統合されました。 本研究では,ルージュNとルージュLを定量的に評価し,専門家や学習者と質的に検討した。 その結果, GPTモデルのみによって生成されたものと比較して, 生成した説明のリコールと精度が向上し, 最終学習説明において不正確な情報を生成するリスクが大幅に低減された。

In the era of personalized education, the provision of comprehensible explanations for learning recommendations is of a great value to enhance the learner's understanding and engagement with the recommended learning content. Large language models (LLMs) and generative AI in general have recently opened new doors for generating human-like explanations, for and along learning recommendations. However, their precision is still far away from acceptable in a sensitive field like education. To harness the abilities of LLMs, while still ensuring a high level of precision towards the intent of the learners, this paper proposes an approach to utilize knowledge graphs (KG) as a source of factual context, for LLM prompts, reducing the risk of model hallucinations, and safeguarding against wrong or imprecise information, while maintaining an application-intended learning context. We utilize the semantic relations in the knowledge graph to offer curated knowledge about learning recommendations. With domain-experts in the loop, we design the explanation as a textual template, which is filled and completed by the LLM. Domain experts were integrated in the prompt engineering phase as part of a study, to ensure that explanations include information that is relevant to the learner. We evaluate our approach quantitatively using Rouge-N and Rouge-L measures, as well as qualitatively with experts and learners. Our results show an enhanced recall and precision of the generated explanations compared to those generated solely by the GPT model, with a greatly reduced risk of generating imprecise information in the final learning explanation.
翻訳日:2024-03-06 14:30:03 公開日:2024-03-05
# 一般化線形混合モデルに対するスケーラブルベイズ推論

Scalable Bayesian inference for the generalized linear mixed model ( http://arxiv.org/abs/2403.03007v1 )

ライセンス: Link先を確認
Samuel I. Berchuck, Felipe A. Medeiros, Sayan Mukherjee, Andrea Agazzi(参考訳) 一般化線形混合モデル(glmm)は相関データを扱う一般的な統計手法であり、バイオメディカルデータの設定を含むビッグデータが一般的であるアプリケーション領域で広く使われている。 本論文の焦点は,統計推論を次のように定義するGLMMに対するスケーラブルな統計的推論である。 (i)人口パラメータの推定と (ii)不確実性の存在下での科学的仮説の評価 人工知能(ai)学習アルゴリズムはスケーラブルな統計推定に優れているが、不確かさの定量化を含むことはまれである。 対照的にベイズ推論は、不確かさの定量化が後方分布から自動的に得られるので、完全な統計的推論を提供する。 残念ながら、マルコフ連鎖モンテカルロ(mcmc)を含むベイズ推論アルゴリズムは、ビッグデータの設定では計算に難解になる。 本稿では,AIとベイジアン推論の交点に統計的推論アルゴリズムを導入し,ベイジアン推論に付随する不確実性定量化を保証した現代AIアルゴリズムのスケーラビリティを活用する。 提案アルゴリズムは確率勾配MCMCの拡張であり, 相関データ(すなわち, 難解な辺縁確率)の処理と適切な後方偏差推定に対処する新しい寄与がある。 理論的および実証的な結果から,アルゴリズムの統計的推論特性を定式化し,その手法を大規模電子健康記録データベースに適用する。

The generalized linear mixed model (GLMM) is a popular statistical approach for handling correlated data, and is used extensively in applications areas where big data is common, including biomedical data settings. The focus of this paper is scalable statistical inference for the GLMM, where we define statistical inference as: (i) estimation of population parameters, and (ii) evaluation of scientific hypotheses in the presence of uncertainty. Artificial intelligence (AI) learning algorithms excel at scalable statistical estimation, but rarely include uncertainty quantification. In contrast, Bayesian inference provides full statistical inference, since uncertainty quantification results automatically from the posterior distribution. Unfortunately, Bayesian inference algorithms, including Markov Chain Monte Carlo (MCMC), become computationally intractable in big data settings. In this paper, we introduce a statistical inference algorithm at the intersection of AI and Bayesian inference, that leverages the scalability of modern AI algorithms with guaranteed uncertainty quantification that accompanies Bayesian inference. Our algorithm is an extension of stochastic gradient MCMC with novel contributions that address the treatment of correlated data (i.e., intractable marginal likelihood) and proper posterior variance estimation. Through theoretical and empirical results we establish our algorithm's statistical inference properties, and apply the method in a large electronic health records database.
翻訳日:2024-03-06 14:29:31 公開日:2024-03-05
# feast your eyes: マルチモーダル大規模言語モデルのための混合解像度適応

Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models ( http://arxiv.org/abs/2403.03003v1 )

ライセンス: Link先を確認
Gen Luo, Yiyi Zhou, Yuxin Zhang, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji(参考訳) 目覚ましい進歩にもかかわらず、既存のマルチモーダル大言語モデル(MLLM)は、粒度認識において依然として劣っている。 先行研究とは対照的に,画像解像度の観点からこの問題を考察し,低解像度と高解像度の視覚特徴の組み合わせにより,この欠点を効果的に軽減できることを明らかにした。 本研究では,MRA(Mixture-of-Resolution Adaptation)と呼ばれるMLLMの新規かつ効率的な手法を提案する。 特に、MRAは解像度の異なる画像に対して2つの視覚経路を採用しており、新しいMR-Adapters(MR-Adapters)を介して高解像度の視覚情報を低解像度の経路に埋め込む。 この設計はMLLMの入力シーケンス長を大幅に短縮する。 MRAを検証するために、LLaVAと呼ばれる最近のMLLMに適用し、新しいモデルLLaVA-HRと呼ぶ。 我々は、11の視覚言語(VL)タスクについて広範な実験を行い、LLaVA-HRが既存のMLLMを8つのVLタスクで上回っていることを示す。 さらに重要なことは、LLaVA-HRのトレーニングと推論は、例えば、20時間と3$\times$推論速度がLLaVA-1.5よりも効率的である。 ソースコードはhttps://github.com/luogen1996/llava-hr。

Despite remarkable progress, existing multimodal large language models (MLLMs) are still inferior in granular visual recognition. Contrary to previous works, we study this problem from the perspective of image resolution, and reveal that a combination of low- and high-resolution visual features can effectively mitigate this shortcoming. Based on this observation, we propose a novel and efficient method for MLLMs, termed Mixture-of-Resolution Adaptation (MRA). In particular, MRA adopts two visual pathways for images with different resolutions, where high-resolution visual information is embedded into the low-resolution pathway via the novel mixture-of-resolution adapters (MR-Adapters). This design also greatly reduces the input sequence length of MLLMs. To validate MRA, we apply it to a recent MLLM called LLaVA, and term the new model LLaVA-HR. We conduct extensive experiments on 11 vision-language (VL) tasks, which show that LLaVA-HR outperforms existing MLLMs on 8 VL tasks, e.g., +9.4% on TextVQA. More importantly, both training and inference of LLaVA-HR remain efficient with MRA, e.g., 20 training hours and 3$\times$ inference speed than LLaVA-1.5. Source codes are released at: https://github.com/luogen1996/LLaVA-HR.
翻訳日:2024-03-06 14:29:09 公開日:2024-03-05
# メム要素に基づくニューロモーフィックハードウェアによるニューラルネットワーク応用

Mem-elements based Neuromorphic Hardware for Neural Network Application ( http://arxiv.org/abs/2403.03002v1 )

ライセンス: Link先を確認
Ankur Singh(参考訳) 論文は、低消費電力機械学習アクセラレータにおけるmemristiveおよびmemcapacitive crossbar arraysの利用を調査し、ディープニューラルネットワーク(dnn)のための包括的な共同設計フレームワークを提供する。 このモデルは、PythonとPyTorchのハイブリッドアプローチによって実装され、8層VGGネットワーク上のメモリとメモリ容量のクロスバーアレイを備えたCIFAR-10データセットに対して、例外的なトレーニング精度90.02%と91.03%を達成した。 さらに,オペレーショナルトランスコンダクタンス増幅器 (OTA) とコンデンサを用いて, 調整可能な動作を示す機構をエミュレートする手法を導入する。 60MHzで動作する180nmCMOS技術におけるトランジスタレベルのシミュレーションでは、電力消費量0.337mWのエミュレータの有効性を示す。 この設計はニューロモルフィック回路とCNNアクセラレーターでさらに検証され、それぞれ91.04%と88.82%のトレーニングとテストの精度を達成した。 特に、MOSトランジスタの排他的使用は、モノリシックIC製造の可能性を保証する。 この研究は、効率的な高性能機械学習アプリケーションのための高度なハードウェアソリューションの探索に大きく貢献する。

The thesis investigates the utilization of memristive and memcapacitive crossbar arrays in low-power machine learning accelerators, offering a comprehensive co-design framework for deep neural networks (DNN). The model, implemented through a hybrid Python and PyTorch approach, accounts for various non-idealities, achieving exceptional training accuracies of 90.02% and 91.03% for the CIFAR-10 dataset with memristive and memcapacitive crossbar arrays on an 8-layer VGG network. Additionally, the thesis introduces a novel approach to emulate meminductor devices using Operational Transconductance Amplifiers (OTA) and capacitors, showcasing adjustable behavior. Transistor-level simulations in 180 nm CMOS technology, operating at 60 MHz, demonstrate the proposed meminductor emulator's viability with a power consumption of 0.337 mW. The design is further validated in neuromorphic circuits and CNN accelerators, achieving training and testing accuracies of 91.04% and 88.82%, respectively. Notably, the exclusive use of MOS transistors ensures the feasibility of monolithic IC fabrication. This research significantly contributes to the exploration of advanced hardware solutions for efficient and high-performance machine-learning applications.
翻訳日:2024-03-06 14:28:42 公開日:2024-03-05
# 組木を用いた悪質URL検出器におけるラベルフリップ攻撃の軽減

Mitigating Label Flipping Attacks in Malicious URL Detectors Using Ensemble Trees ( http://arxiv.org/abs/2403.02995v1 )

ライセンス: Link先を確認
Ehsan Nowroozi, Nada Jadalla, Samaneh Ghelichkhani, Alireza Jolfaei(参考訳) 悪質なurlは、輸送、医療、エネルギー、銀行など、さまざまな産業にまたがる敵の機会を提供します。 そのため、これらのURLの検出は極めて重要であるが、現在の機械学習(ML)モデルはバックドア攻撃の影響を受けやすい。 これらの攻撃には、悪意のあるラベルを悪意のあるラベルに変更するラベルフリップ(LF)など、少数のトレーニングデータラベルを操作することが含まれる。 この操作は誤分類を引き起こし、誤ったモデル動作を引き起こす。 したがって、MLモデルのアーキテクチャに防御機構を組み込むことは、潜在的な攻撃に対して要塞化するための必須の考慮事項となる。 本研究は,アンサンブル木を用いたURL検出におけるバックドア攻撃に着目した。 このような攻撃の背景にある動機を明らかにし,攻撃者の役割を強調するとともに,効果的な防衛戦略の重要性を強調することで,ネットワークセキュリティにおけるmlドメイン内の敵対的脅威に対するmlモデルの強化に寄与する。 そこで本研究では, 有毒ラベルの存在を検知する革新的な警報システムと, アンサンブルツリー分類器のバックドア攻撃を緩和する目的で, 元のクラスラベルを隠蔽する防御機構を提案する。 我々は,alexaおよびフィッシングサイトurlデータセットを用いたケーススタディを実施し,提案する防御機構を用いてlf攻撃を対処できることを示した。 実験の結果,lf攻撃は2~5%で50~65%のアタック成功率 (asr) を達成し,100%の精度で有毒ラベルの検出に成功した。

Malicious URLs provide adversarial opportunities across various industries, including transportation, healthcare, energy, and banking which could be detrimental to business operations. Consequently, the detection of these URLs is of crucial importance; however, current Machine Learning (ML) models are susceptible to backdoor attacks. These attacks involve manipulating a small percentage of training data labels, such as Label Flipping (LF), which changes benign labels to malicious ones and vice versa. This manipulation results in misclassification and leads to incorrect model behavior. Therefore, integrating defense mechanisms into the architecture of ML models becomes an imperative consideration to fortify against potential attacks. The focus of this study is on backdoor attacks in the context of URL detection using ensemble trees. By illuminating the motivations behind such attacks, highlighting the roles of attackers, and emphasizing the critical importance of effective defense strategies, this paper contributes to the ongoing efforts to fortify ML models against adversarial threats within the ML domain in network security. We propose an innovative alarm system that detects the presence of poisoned labels and a defense mechanism designed to uncover the original class labels with the aim of mitigating backdoor attacks on ensemble tree classifiers. We conducted a case study using the Alexa and Phishing Site URL datasets and showed that LF attacks can be addressed using our proposed defense mechanism. Our experimental results prove that the LF attack achieved an Attack Success Rate (ASR) between 50-65% within 2-5%, and the innovative defense method successfully detected poisoned labels with an accuracy of up to 100%.
翻訳日:2024-03-06 14:27:57 公開日:2024-03-05
# 最適化励起計数による高効率で頑健なボゾン状態復元

Demonstrating efficient and robust bosonic state reconstruction via optimized excitation counting ( http://arxiv.org/abs/2403.03080v1 )

ライセンス: Link先を確認
Tanjung Krisnanda, Clara Yun Fontaine, Adrian Copetudo, Pengtao Song(参考訳) 量子状態再構成は、量子情報処理において重要な要素である。 しかし、ハードウェア不完全な存在下での非自明な量子状態の効率的かつ信頼性の高い再構成は困難である。 この課題は連続可変(CV)システムで符号化された高次元状態に対して特に要求される。 本稿では,励起数サンプリング(orens)に基づく最適再構成のための効率的でロバストな手法を提案する。 標準ボソニック回路量子電磁力学 (cqed) を用いて, オーレンのロバスト性を実験的に証明し, ウィグナートモグラフィやフシミq関数などの既存のcqed再構成技術よりも優れていることを示す。 私たちの調査では、orensは寄生系のダイナミクスがなく、ハードウェアのデコヒーレンス効果に耐性があることが強調されている。 最後に、ORENSは状態の励起数を正確に測定する能力にのみ依存しており、幅広いCVプラットフォーム向けの汎用的でアクセスしやすいツールであり、マルチモードシステムに容易に拡張できる。 したがって,本研究はボソニックモードを用いた実用的な量子情報処理において重要かつ貴重なプリミティブとなる。

Quantum state reconstruction is an essential element in quantum information processing. However, efficient and reliable reconstruction of non-trivial quantum states in the presence of hardware imperfections can be challenging. This task is particularly demanding for high-dimensional states encoded in continuous-variable (CV) systems, as many error-prone measurements are needed to cover the relevant degrees of freedom of the system in phase space. In this work, we introduce an efficient and robust technique for optimized reconstruction based on excitation number sampling (ORENS). We use a standard bosonic circuit quantum electrodynamics (cQED) setup to experimentally demonstrate the robustness of ORENS and show that it outperforms the existing cQED reconstruction techniques such as Wigner tomography and Husimi Q-function. Our investigation highlights that ORENS is naturally free of parasitic system dynamics and resilient to decoherence effects in the hardware. Finally, ORENS relies only on the ability to accurately measure the excitation number of the state, making it a versatile and accessible tool for a wide range of CV platforms and readily scalable to multimode systems. Thus, our work provides a crucial and valuable primitive for practical quantum information processing using bosonic modes.
翻訳日:2024-03-06 14:21:59 公開日:2024-03-05
# MiKASA:3Dビジュアルグラウンドのためのマルチキーアンカーとシーンアウェアトランス

MiKASA: Multi-Key-Anchor & Scene-Aware Transformer for 3D Visual Grounding ( http://arxiv.org/abs/2403.03077v1 )

ライセンス: Link先を確認
Chun-Peng Chang, Shaoxiang Wang, Alain Pagani, Didier Stricker(参考訳) 3Dビジュアルグラウンドティングでは、自然言語記述と対応するオブジェクトを3D空間でマッチングする。 既存の手法では、オブジェクト認識の正確さや複雑な言語クエリ、特に複数のアンカーを含む記述やビュー依存の記述の解釈に苦慮している場合が多い。 これに対して,Multi-Key-Anchor Scene-Aware 変換器を提案する。 我々の新しいエンドツーエンド学習モデルは、自己認識に基づくシーン認識オブジェクトエンコーダと、従来のマルチキーアンカー技術を統合し、物体認識精度を高め、空間的関係を理解する。 さらに、ミカサは意思決定の説明可能性を改善し、誤り診断を容易にする。 本モデルは,sr3dとnr3dの両方のデータセットに対するreviewit3dチャレンジにおいて,最も高い精度を達成している。 このプロジェクトのソースコードと追加リソースはgithubにある。 https://github.com/birdy666/mikasa-3dvg。

3D visual grounding involves matching natural language descriptions with their corresponding objects in 3D spaces. Existing methods often face challenges with accuracy in object recognition and struggle in interpreting complex linguistic queries, particularly with descriptions that involve multiple anchors or are view-dependent. In response, we present the MiKASA (Multi-Key-Anchor Scene-Aware) Transformer. Our novel end-to-end trained model integrates a self-attention-based scene-aware object encoder and an original multi-key-anchor technique, enhancing object recognition accuracy and the understanding of spatial relationships. Furthermore, MiKASA improves the explainability of decision-making, facilitating error diagnosis. Our model achieves the highest overall accuracy in the Referit3D challenge for both the Sr3D and Nr3D datasets, particularly excelling by a large margin in categories that require viewpoint-dependent descriptions. The source code and additional resources for this project are available on GitHub: https://github.com/birdy666/MiKASA-3DVG
翻訳日:2024-03-06 14:21:38 公開日:2024-03-05
# マルチモーダル機械翻訳のためのコンクリートヴィジュアルトークンの検出

Detecting Concrete Visual Tokens for Multimodal Machine Translation ( http://arxiv.org/abs/2403.03075v1 )

ライセンス: Link先を確認
Braeden Bowen, Vipin Vijayan, Scott Grigsby, Timothy Anderson, and Jeremy Gwinnup(参考訳) マルチモーダル機械翻訳(MMT)システムにおける視覚的接地とマスキングの課題は、マスキングのための視覚的接地されたテキストトークンの検出と選択に対する様々なアプローチを奨励している。 本稿では,自然言語処理(nlp)による検出,物体検出による検出,共同検出・検証技術など,情報源文から視覚的かつ文脈的に関連する(コンクリート)トークンを検出する新しい手法を提案する。 また,検出されたトークンを最短の$n$トークン,最長の$n$トークン,検出されたすべての具体的トークンなど,新たに選択する手法も導入した。 我々は、GRAM MMTアーキテクチャを用いて、ベースラインモデル上での翻訳作業における視覚的コンテキストの使用性の向上と性能向上を図り、ソース画像の合成照合されたマルチモーダルデータセットに対してモデルを訓練する。

The challenge of visual grounding and masking in multimodal machine translation (MMT) systems has encouraged varying approaches to the detection and selection of visually-grounded text tokens for masking. We introduce new methods for detection of visually and contextually relevant (concrete) tokens from source sentences, including detection with natural language processing (NLP), detection with object detection, and a joint detection-verification technique. We also introduce new methods for selection of detected tokens, including shortest $n$ tokens, longest $n$ tokens, and all detected concrete tokens. We utilize the GRAM MMT architecture to train models against synthetically collated multimodal datasets of source images with masked sentences, showing performance improvements and improved usage of visual context during translation tasks over the baseline model.
翻訳日:2024-03-06 14:21:21 公開日:2024-03-05
# Brenierの極性分解のニューラル実装について

On a Neural Implementation of Brenier's Polar Factorization ( http://arxiv.org/abs/2403.03071v1 )

ライセンス: Link先を確認
Nina Vesseron, Marco Cuturi(参考訳) 1991年、ブレニエは正方行列に対する$QR$分解(PSD $\times$ unitary)を任意のベクトル場 $F:\mathbb{R}^d\rightarrow \mathbb{R}^d$ に一般化する定理を証明した。 この定理は極因数分解定理と呼ばれ、任意の体$F$は、測度保存写像$M$、すなわち$F=\nabla u \circ M$を持つ凸函数$u$の勾配の合成として回復できると述べている。 本稿では,この理論結果の実践的実装を提案し,機械学習の応用の可能性を探る。 この定理は最適輸送(OT)理論と密接に関連しており、入力凸ニューラルネットワークとしてu$のポテンシャルをパラメータ化するために、ニューラル最適輸送の分野における最近の進歩から借用する。 マップ $m$ は $u^*$ を使ってポイントワイズで評価するか、$m=\nabla u^* \circ f$ で凸共役である $u$ を用いて評価するか、補助ネットワークとして学習するかのいずれかである。 一般に、$M$ は単射ではないので、確率的生成器を用いて事前像測度 $M^{-1}$ を近似できる不測の逆写像を推定する追加のタスクを考える。 本稿では,非凸最適化問題に対する \citeauthor{brenier 1991polarfa} の極分解の応用と,対数凸でない密度のサンプリングについて述べる。

In 1991, Brenier proved a theorem that generalizes the $QR$ decomposition for square matrices -- factored as PSD $\times$ unitary -- to any vector field $F:\mathbb{R}^d\rightarrow \mathbb{R}^d$. The theorem, known as the polar factorization theorem, states that any field $F$ can be recovered as the composition of the gradient of a convex function $u$ with a measure-preserving map $M$, namely $F=\nabla u \circ M$. We propose a practical implementation of this far-reaching theoretical result, and explore possible uses within machine learning. The theorem is closely related to optimal transport (OT) theory, and we borrow from recent advances in the field of neural optimal transport to parameterize the potential $u$ as an input convex neural network. The map $M$ can be either evaluated pointwise using $u^*$, the convex conjugate of $u$, through the identity $M=\nabla u^* \circ F$, or learned as an auxiliary network. Because $M$ is, in general, not injective, we consider the additional task of estimating the ill-posed inverse map that can approximate the pre-image measure $M^{-1}$ using a stochastic generator. We illustrate possible applications of \citeauthor{Brenier1991PolarFA}'s polar factorization to non-convex optimization problems, as well as sampling of densities that are not log-concave.
翻訳日:2024-03-06 14:21:06 公開日:2024-03-05
# 混合変分ファミリによる不完全データからの変分オートエンコーダ推定の改善

Improving Variational Autoencoder Estimation from Incomplete Data with Mixture Variational Families ( http://arxiv.org/abs/2403.03069v1 )

ライセンス: Link先を確認
Vaidotas Simkus, Michael U. Gutmann(参考訳) トレーニングデータが不完全である場合に,変分オートエンコーダ(VAE)を推定する作業を検討する。 完全観測の場合と比較して,データ不足は潜在変数に対するモデル後部分布の複雑さを増大させることを示す。 複雑さの増加は、変分分布とモデル後方分布のミスマッチのため、モデルの適合性に悪影響を及ぼす可能性がある。 2つの戦略を紹介します (i)有限変分混合法、及び (ii)後方複雑性の増加に対応するためのインプテーションに基づく変分混合分布。 提案手法の包括的評価を通じて,不完全データからvae推定精度を向上させるために変分混合が有効であることを示す。

We consider the task of estimating variational autoencoders (VAEs) when the training data is incomplete. We show that missing data increases the complexity of the model's posterior distribution over the latent variables compared to the fully-observed case. The increased complexity may adversely affect the fit of the model due to a mismatch between the variational and model posterior distributions. We introduce two strategies based on (i) finite variational-mixture and (ii) imputation-based variational-mixture distributions to address the increased posterior complexity. Through a comprehensive evaluation of the proposed approaches, we show that variational mixtures are effective at improving the accuracy of VAE estimation from incomplete data.
翻訳日:2024-03-06 14:20:34 公開日:2024-03-05
# 環状双極子ビームを用いた密閉双極子トラップの単原子負荷増強

Enhancing single-atom loading in tightly confined dipole traps with ancillary dipole beam ( http://arxiv.org/abs/2403.03068v1 )

ライセンス: Link先を確認
Guang-Jie Chen, Zhu-Bo Wang, Chenyue Gu, Dong Zhao, Ji-Zhe Zhang, Yan-Lei Zhang, Chun-Hua Dong, Kun Huang, Guang-Can Guo, Chang-Ling Zou(参考訳) 密集した光双極子トラップに閉じ込められた単一原子は、量子コンピューティング、精密測定、基礎物理学研究のための優れた実験プラットフォームを提供する。 本研究では,弱い陽極子ビームを導入することで単一原子の負荷を増大させる新しい手法を提案し,実証する。 双極子トラップにおける単一原子の負荷速度は、数十マイクロワットの反伝播ビームで大幅に向上することができる。 また、反伝播ビームの助けを借りて複数の原子をロードすることも実証された。 単一原子をトラッピングする電力を削減し、複数の原子をトラッピング可能にすることにより、単一原子アレイの拡張と集合光-原子相互作用の研究が容易になる。

Single atoms trapped in tightly focused optical dipole traps provide an excellent experimental platform for quantum computing, precision measurement, and fundamental physics research. In this work, we propose and demonstrate a novel approach to enhancing the loading of single atoms by introducing a weak ancillary dipole beam. The loading rate of single atoms in a dipole trap can be significantly improved by only a few tens of microwatts of counter-propagating beam. It was also demonstrated that multiple atoms could be loaded with the assistance of a counter-propagating beam. By reducing the power requirements for trapping single atoms and enabling the trapping of multiple atoms, our method facilitates the extension of single-atom arrays and the investigation of collective light-atom interactions.
翻訳日:2024-03-06 14:20:25 公開日:2024-03-05
# cracknex:uav検査のためのretinex理論に基づく数発低光クラックセグメンテーションモデル

CrackNex: a Few-shot Low-light Crack Segmentation Model Based on Retinex Theory for UAV Inspections ( http://arxiv.org/abs/2403.03063v1 )

ライセンス: Link先を確認
Zhen Yao, Jiawei Xu, Shuhang Hou, Mooi Choo Chuah(参考訳) コンクリート構造物の定期的な視覚検査は、重要なインフラの安全性と整合性の維持に不可欠である。 このような視覚検査は、橋梁の健康状態を検査するなど、低照度条件下で発生することがある。 このような条件下での亀裂のセグメンテーションは、亀裂とその周囲とのコントラストが悪いため困難である。 しかし、多くの深層学習手法は、十分に照らされたクラック画像のために設計されており、低照度シーンでは性能が劇的に低下する。 また, 従来の手法では, 時間を要するアノテートな低照度き裂像が多数必要である。 本稿では,retinex 理論に基づく反射情報を活用したフレームワークである cracknex の提案により,モデルが統一照明不変表現を学習することを支援する。 さらに,非効率なトレーニングデータ問題を解決するために,マイナショットセグメンテーションを利用する。 cracknexでは、サポートセットからサポートプロトタイプと反射プロトタイプの両方を抽出する。 次に、プロトタイプのfusionモジュールが両方のプロトタイプの機能を統合するように設計されている。 cracknexはsomaメソッドを複数のデータセットで上回っている。 さらに、低照度き裂分割のための最初のベンチマークデータセットLCSDを提示する。 LCSDは102枚の高照度クラック画像と41枚の低照度クラック画像で構成されている。 データセットとコードはhttps://github.com/zy1296/CrackNexで公開されている。

Routine visual inspections of concrete structures are imperative for upholding the safety and integrity of critical infrastructure. Such visual inspections sometimes happen under low-light conditions, e.g., checking for bridge health. Crack segmentation under such conditions is challenging due to the poor contrast between cracks and their surroundings. However, most deep learning methods are designed for well-illuminated crack images and hence their performance drops dramatically in low-light scenes. In addition, conventional approaches require many annotated low-light crack images which is time-consuming. In this paper, we address these challenges by proposing CrackNex, a framework that utilizes reflectance information based on Retinex Theory to help the model learn a unified illumination-invariant representation. Furthermore, we utilize few-shot segmentation to solve the inefficient training data problem. In CrackNex, both a support prototype and a reflectance prototype are extracted from the support set. Then, a prototype fusion module is designed to integrate the features from both prototypes. CrackNex outperforms the SOTA methods on multiple datasets. Additionally, we present the first benchmark dataset, LCSD, for low-light crack segmentation. LCSD consists of 102 well-illuminated crack images and 41 low-light crack images. The dataset and code are available at https://github.com/zy1296/CrackNex.
翻訳日:2024-03-06 14:20:11 公開日:2024-03-05
# 業界が信頼できるAIに出会ったとき - AI for Industry 5.0のシステムレビュー

When Industry meets Trustworthy AI: A Systematic Review of AI for Industry 5.0 ( http://arxiv.org/abs/2403.03061v1 )

ライセンス: Link先を確認
Eduardo Vyhmeister, Gabriel G. Castane(参考訳) 産業は新しい技術を採用する最前線にあり、それに続くプロセスは経済と社会に大きな影響を与えている。 本研究では,産業が発展する現在のパラダイムを分析し,その持続性と信頼性を高めることに注力する。 産業5.0では、人工知能(AI)が、持続可能な、人間中心でレジリエントな視点からサービスを構築するために使われる。 アーリーステージにどのように組み込まれているか、その影響、そしてこの分野で観察されるトレンドを定義するために情報を集めることで、信頼できる原則を尊重し、AIを産業に持ち込むことのできる側面を理解することが不可欠である。 さらに、業界4.0から業界5.0への移行の課題とギャップを理解するため、新しいテクノロジに対する業界の準備状況に関する一般的な視点を述べる。 これにより、このセクターにおける信頼できるAIの採用を追求する新たな機会が、実践者に提供する。

Industry is at the forefront of adopting new technologies, and the process followed by the adoption has a significant impact on the economy and society. In this work, we focus on analysing the current paradigm in which industry evolves, making it more sustainable and Trustworthy. In Industry 5.0, Artificial Intelligence (AI), among other technology enablers, is used to build services from a sustainable, human-centric and resilient perspective. It is crucial to understand those aspects that can bring AI to industry, respecting Trustworthy principles by collecting information to define how it is incorporated in the early stages, its impact, and the trends observed in the field. In addition, to understand the challenges and gaps in the transition from Industry 4.0 to Industry 5.0, a general perspective on the industry's readiness for new technologies is described. This provides practitioners with novel opportunities to be explored in pursuit of the adoption of Trustworthy AI in the sector.
翻訳日:2024-03-06 14:19:53 公開日:2024-03-05
# 機械学習による無作為化治験の推論効率の向上

Machine Learning Assisted Adjustment Boosts Inferential Efficiency of Randomized Controlled Trials ( http://arxiv.org/abs/2403.03058v1 )

ライセンス: Link先を確認
Han Yu, Alan D. Hutson(参考訳) そこで本研究では,機械学習を用いたランダム化制御実験のための新しい推論手順を提案する。 この方法は、共変量調整を用いたランダム化実験において、ローズバウムの厳密なテストの枠組みの下で開発された。 広範なシミュレーション実験により,提案手法はタイプiの誤差をロバストに制御でき,ランダム化制御試行 (rct) の推論効率を向上できることを示した。 この利点は実世界の例でさらに証明された。 提案手法の単純さとロバスト性は,rctsのルーチン推論手法として,特にベースライン共変量が多く,コ変量間の非線形結合や相互作用が期待されている場合において,競合候補となる。 その応用は、第iii相臨床試験のようなrctの必要なサンプルサイズとコストを大幅に削減することができる。

In this work, we proposed a novel inferential procedure assisted by machine learning based adjustment for randomized control trials. The method was developed under the Rosenbaum's framework of exact tests in randomized experiments with covariate adjustments. Through extensive simulation experiments, we showed the proposed method can robustly control the type I error and can boost the inference efficiency for a randomized controlled trial (RCT). This advantage was further demonstrated in a real world example. The simplicity and robustness of the proposed method makes it a competitive candidate as a routine inference procedure for RCTs, especially when the number of baseline covariates is large, and when nonlinear association or interaction among covariates is expected. Its application may remarkably reduce the required sample size and cost of RCTs, such as phase III clinical trials.
翻訳日:2024-03-06 14:19:35 公開日:2024-03-05
# 通信範囲を限定した線形二次ネットワーク制御のための分散ポリシグラディエント

Distributed Policy Gradient for Linear Quadratic Networked Control with Limited Communication Range ( http://arxiv.org/abs/2403.03055v1 )

ライセンス: Link先を確認
Yuzi Yan and Yuan Shen(参考訳) 本稿では,スケーラブルな分散ポリシー勾配法を提案し,マルチエージェント線形二次ネットワークシステムにおける近似最適解への収束を実証する。 エージェントは、ローカル通信制約の下で特定のネットワーク内で活動し、各エージェントは、限られた数の隣接エージェントとしか情報を交換できないことを意味する。 ネットワークの基盤となるグラフ上で、各エージェントは、線形二次制御設定において隣人の状態に依存する制御入力を実行する。 局所的な情報のみを用いて正確な勾配を近似できることを示す。 集中型最適制御器と比較して、通信と制御範囲が増加するにつれて性能ギャップは指数関数的に減少する。 また,通信範囲の増大が勾配降下過程におけるシステムの安定性をいかに向上させるかを示す。 シミュレーション結果は我々の理論的知見を検証します。

This paper proposes a scalable distributed policy gradient method and proves its convergence to near-optimal solution in multi-agent linear quadratic networked systems. The agents engage within a specified network under local communication constraints, implying that each agent can only exchange information with a limited number of neighboring agents. On the underlying graph of the network, each agent implements its control input depending on its nearby neighbors' states in the linear quadratic control setting. We show that it is possible to approximate the exact gradient only using local information. Compared with the centralized optimal controller, the performance gap decreases to zero exponentially as the communication and control ranges increase. We also demonstrate how increasing the communication range enhances system stability in the gradient descent process, thereby elucidating a critical trade-off. The simulation results verify our theoretical findings.
翻訳日:2024-03-06 14:19:21 公開日:2024-03-05
# ネットワークビーム管理のためのニューラルコードブック設計

Neural Codebook Design for Network Beam Management ( http://arxiv.org/abs/2403.03053v1 )

ライセンス: Link先を確認
Ryan M. Dreifuerst and Robert W. Heath Jr(参考訳) 高精度でタイムリーなチャネル状態情報(CSI)を得ることは、大型アンテナシステムにとって根本的な課題である。 5Gのようなモバイルシステムは、初期アクセス、ビームフォーミング、CSI取得、データ転送と結合するビーム管理フレームワークを使用している。 しかし、これらの段階でのコードブックの設計は、相互関係、配列サイズの変化、サイト固有のチャネルとユーザ分布のために困難である。 さらにビーム管理は、ネットワーク全体の最適化やシステムレベルの最適化を無視しながら、シングルセクタ操作にしばしば注目される。 本稿では,非常に大きなハイブリッドアレイで実現可能な性能を最大化しつつ干渉を軽減するために,コードブックをキャプチャし最適化する,エンドツーエンドの学習コードブック設計アルゴリズムである network beamspace learning (nbl) を提案する。 提案アルゴリズムは共有情報に制限を課すが、従来のコードブックを10dB以上のビームアライメントで上回り、ネットワークスペクトル効率を25%以上改善するコードブックを設計する。

Obtaining accurate and timely channel state information (CSI) is a fundamental challenge for large antenna systems. Mobile systems like 5G use a beam management framework that joins the initial access, beamforming, CSI acquisition, and data transmission. The design of codebooks for these stages, however, is challenging due to their interrelationships, varying array sizes, and site-specific channel and user distributions. Furthermore, beam management is often focused on single-sector operations while ignoring the overarching network- and system-level optimization. In this paper, we proposed an end-to-end learned codebook design algorithm, network beamspace learning (NBL), that captures and optimizes codebooks to mitigate interference while maximizing the achievable performance with extremely large hybrid arrays. The proposed algorithm requires limited shared information yet designs codebooks that outperform traditional codebooks by over 10dB in beam alignment and achieve more than 25% improvements in network spectral efficiency.
翻訳日:2024-03-06 14:19:10 公開日:2024-03-05
# 量子コンピュータにおける化学反応のシミュレーション

Simulation of Chemical Reactions on a Quantum Computer ( http://arxiv.org/abs/2403.03052v1 )

ライセンス: Link先を確認
Sumit Suresh Kale and Sabre Kais(参考訳) 特にガス相における化学反応の研究は散乱行列要素の計算に大きく依存している。 これらの元素は分子反応を特徴づけ、反応確率を正確に決定するのに必須である。 しかし、量子相互作用の複雑な性質は困難を招き、本質的な複雑性に取り組むために高度な数学的モデルと計算的アプローチを用いる必要がある。 本研究では,散乱行列要素の計算のための量子アルゴリズムを開発し,応用する。 本研究では,反応剤と生成物m\"oller wavepacketsの時間相関関数により,各反応剤と生成物チャネル間のs行列要素を決定するm\"oller演算子の定式化に基づく時間依存手法を採用する。 量子アルゴリズムを用いて1次元半無限2乗井戸ポテンシャルと共線形水素交換反応に対する散乱行列要素の計算に成功した。 量子相互作用の複雑さをナビゲートするときに、この量子アルゴリズムは一般に、有望な道として現れ、量子コンピュータ上で化学反応をシミュレートする新しい可能性に光を当てる。

Studying chemical reactions, particularly in the gas phase, relies heavily on computing scattering matrix elements. These elements are essential for characterizing molecular reactions and accurately determining reaction probabilities. However, the intricate nature of quantum interactions poses challenges, necessitating the use of advanced mathematical models and computational approaches to tackle the inherent complexities. In this study, we develop and apply a quantum algorithm for the calculation of scattering matrix elements. In our approach, we employ the time-dependent method based on the M\"oller operator formulation where the S-matrix element between the respective reactant and product channels is determined through the time correlation function of the reactant and product M\"oller wavepackets. We successfully apply our quantum algorithm to calculate scattering matrix elements for 1D semi-infinite square well potential and on the co-linear hydrogen exchange reaction. As we navigate the complexities of quantum interactions, this quantum algorithm is general and emerges as a promising avenue, shedding light on new possibilities for simulating chemical reactions on quantum computers.
翻訳日:2024-03-06 14:18:54 公開日:2024-03-05
# テキストのみの翻訳モデルにマルチモーダル機能を追加する

Adding Multimodal Capabilities to a Text-only Translation Model ( http://arxiv.org/abs/2403.03045v1 )

ライセンス: Link先を確認
Vipin Vijayan, Braeden Bowen, Scott Grigsby, Timothy Anderson, and Jeremy Gwinnup(参考訳) マルチモーダル機械翻訳(MMT)における現在の作業のほとんどは、トレーニングと評価にMulti30kデータセットを使用しているが、結果のモデルはMulti30kデータセットに過度に適合している。 したがって、wmt newstestデータセットのような一般的なテキストのみのテストセットに対して評価した場合、これらのモデルは非常にパフォーマンスが悪くなります。 MMTモデルの出発点として,Multi30kと典型的テキスト専用データセットの両方で良好に動作するために,実行時テキスト専用機械翻訳(MT)モデルを用いる。 我々は、MTモデルにゲーティング機構を介して接続された視覚テキストアダプタ層を追加し、MTモデルをMTモデルにインクリメンタルに変換する。 1【原文の視覚に基づくマスキングによる事前学習】 2) Multi30k の微調整。

While most current work in multimodal machine translation (MMT) uses the Multi30k dataset for training and evaluation, we find that the resulting models overfit to the Multi30k dataset to an extreme degree. Consequently, these models perform very badly when evaluated against typical text-only testing sets such as the WMT newstest datasets. In order to perform well on both Multi30k and typical text-only datasets, we use a performant text-only machine translation (MT) model as the starting point of our MMT model. We add vision-text adapter layers connected via gating mechanisms to the MT model, and incrementally transform the MT model into an MMT model by 1) pre-training using vision-based masking of the source text and 2) fine-tuning on Multi30k.
翻訳日:2024-03-06 14:18:37 公開日:2024-03-05
# スキル満載のバックパック:多様なタスクパースペクティブを備えたエゴセントリックビデオ理解

A Backpack Full of Skills: Egocentric Video Understanding with Diverse Task Perspectives ( http://arxiv.org/abs/2403.03037v1 )

ライセンス: Link先を確認
Simone Alberto Peirone, Francesca Pistilli, Antonio Alliegro, Giuseppe Averta(参考訳) ビデオストリームの人間による理解は自然に広く、いくつかの瞬間において、私たちは何が起きているのか、オブジェクトの関連性と関係性を理解し、近い将来に何が続くのか、すべてを同時に予測することができます。 このような全体主義的な認識をインテリジェントな機械に効果的に移すには、概念を関連付け、異なるタスクから来る抽象的な知識を学習し、新しいスキルを学ぶときにそれらを相乗的に活用するために重要な役割が担うと信じています。 そこで我々は,人間の行動の共有時間的モデリングを最小限のオーバーヘッドで組み合わせ,複数の下流タスクをサポートし,新しいスキルを習得する際の協調を可能にする,映像理解への統一的アプローチを模索する。 EgoPackは、下流のタスクにまたがって実行可能で、必要な時にロボットが持ち運べるスキルのバックパックとして、潜在的に追加的な洞察の源として使用できるタスクの視点の集合を生成するソリューションである。 我々は4つのego4dベンチマークにおけるアプローチの有効性と効率を実証する。

Human comprehension of a video stream is naturally broad: in a few instants, we are able to understand what is happening, the relevance and relationship of objects, and forecast what will follow in the near future, everything all at once. We believe that - to effectively transfer such an holistic perception to intelligent machines - an important role is played by learning to correlate concepts and to abstract knowledge coming from different tasks, to synergistically exploit them when learning novel skills. To accomplish this, we seek for a unified approach to video understanding which combines shared temporal modelling of human actions with minimal overhead, to support multiple downstream tasks and enable cooperation when learning novel skills. We then propose EgoPack, a solution that creates a collection of task perspectives that can be carried across downstream tasks and used as a potential source of additional insights, as a backpack of skills that a robot can carry around and use when needed. We demonstrate the effectiveness and efficiency of our approach on four Ego4D benchmarks, outperforming current state-of-the-art methods.
翻訳日:2024-03-06 14:18:23 公開日:2024-03-05
# 協調型対話型エージェントによるツール活用の学習

Learning to Use Tools via Cooperative and Interactive Agents ( http://arxiv.org/abs/2403.03031v1 )

ライセンス: Link先を確認
Zhengliang Shi, Shen Gao, Xiuyi Chen, Lingyong Yan, Haibo Shi, Dawei Yin, Zhumin Chen, Pengjie Ren, Suzan Verberne, Zhaochun Ren(参考訳) ツール学習は、大きな言語モデル(LLM)をエージェントとして、外部ツールを使用して能力を拡張する。 既存の方法は単一のllmベースのエージェントを使用して反復的にツールを選択し実行し、その結果を次のアクション予測に組み込む。 しかし,(1)多様な動作を行うための単一のllmの固有能力の制限,(2)タスクが失敗した場合の誤りを適応的に修正する努力,などにより,複雑なタスクに対処する際の潜在的な性能低下に苦しむ。 これらの問題を緩和するために,ツール学習のワークフローをグラウンディング,実行,監視エージェントにモジュール化した協調対話型エージェントフレームワークであるConAgentsを提案する。 また,反復キャリブレーション(itercali)手法を導入し,ツール環境からのフィードバックに基づいてエージェントが適応できるようにする。 3つのデータセットで実施された実験は、ConAgentsの優位性を示す(例:SOTAベースラインよりも6点改善)。 さらに,フレームワークの効率性と一貫性について,粒度解析を行う。

Tool learning empowers large language models (LLMs) as agents to use external tools to extend their capability. Existing methods employ one single LLM-based agent to iteratively select and execute tools, thereafter incorporating the result into the next action prediction. However, they still suffer from potential performance degradation when addressing complex tasks due to: (1) the limitation of the inherent capability of a single LLM to perform diverse actions, and (2) the struggle to adaptively correct mistakes when the task fails. To mitigate these problems, we propose the ConAgents, a Cooperative and interactive Agents framework, which modularizes the workflow of tool learning into Grounding, Execution, and Observing agents. We also introduce an iterative calibration (IterCali) method, enabling the agents to adapt themselves based on the feedback from the tool environment. Experiments conducted on three datasets demonstrate the superiority of our ConAgents (e.g., 6 point improvement over the SOTA baseline). We further provide fine-granularity analysis for the efficiency and consistency of our framework.
翻訳日:2024-03-06 14:18:02 公開日:2024-03-05
# 運動補正移動平均値:映像分割改善のための時間情報を含む

Motion-Corrected Moving Average: Including Post-Hoc Temporal Information for Improved Video Segmentation ( http://arxiv.org/abs/2403.03120v1 )

ライセンス: Link先を確認
Robert Mendel (1), Tobias Rueckert (1), Dirk Wilhelm (2), Daniel Rueckert (3, 4), Christoph Palm (1, 5) ((1) Regensburg Medical Image Computing (ReMIC), Ostbayerische Technische Hochschule Regensburg (OTH Regensburg), Regensburg, Germany, (2) Department of Surgery, Faculty of Medicine, Klinikum rechts der Isar, Technical University of Munich, Munich, Germany, (3) Artificial Intelligence in Healthcare and Medicine, Klinikum rechts der Isar, Technical University of Munich, Munich, Germany, (4) Department of Computing, Imperial College London, London, UK, (5) Regensburg Center of Health Sciences and Technology (RCHST), OTH Regensburg, Regensburg, Germany)(参考訳) リアルタイム計算速度と高精度は、コンピュータ支援による介入の要件である。 セグメンテーションネットワークを医療ビデオ処理タスクに適用することは、フレーム間予測ノイズを著しく導入することができる。 既存のアプローチは、時間的情報を含めることで矛盾を減らすことができるが、しばしばアーキテクチャやデータセットに要求を課す。 本稿では,任意のセグメンテーションモデルに時間情報を含める手法を提案し,トレーニング中や追加ラベル付け時の変更を伴わずに映像セグメンテーション性能を向上させる手法を提案する。 運動補正移動平均値を用いて、現在の予測と過去の予測の間の指数移動平均を改良する。 連続するフレーム間の移動を光学フローで推定することで、移動平均計算における先行項を現在のフレームの形状に合わせるようにシフトすることができる。 光フロー計算はモデルの出力を必要としないため、並列に実行できるため、我々のアプローチにとって重要な実行時ペナルティは得られない。 2つの公開セグメンテーションデータセットと2つのプロプライエタリな内視鏡データセットのアプローチを評価し,ベースラインアプローチよりも改善を示す。

Real-time computational speed and a high degree of precision are requirements for computer-assisted interventions. Applying a segmentation network to a medical video processing task can introduce significant inter-frame prediction noise. Existing approaches can reduce inconsistencies by including temporal information but often impose requirements on the architecture or dataset. This paper proposes a method to include temporal information in any segmentation model and, thus, a technique to improve video segmentation performance without alterations during training or additional labeling. With Motion-Corrected Moving Average, we refine the exponential moving average between the current and previous predictions. Using optical flow to estimate the movement between consecutive frames, we can shift the prior term in the moving-average calculation to align with the geometry of the current frame. The optical flow calculation does not require the output of the model and can therefore be performed in parallel, leading to no significant runtime penalty for our approach. We evaluate our approach on two publicly available segmentation datasets and two proprietary endoscopic datasets and show improvements over a baseline approach.
翻訳日:2024-03-06 14:13:11 公開日:2024-03-05
# 原子クライアントを持つ2段階施設における平衡

Equilibria in Two-Stage Facility Location with Atomic Clients ( http://arxiv.org/abs/2403.03114v1 )

ライセンス: Link先を確認
Simon Krogmann, Pascal Lenzner, Alexander Skopalik, Marc Uetz and Marnix C. Vos(参考訳) 2種類のクライアントを持つ2段階マルチエージェントシステムとして,競争力のある施設配置を検討する。 頂点上の重み付きクライアントを持つ所定のホストグラフに対して、最初の施設エージェントは、施設を開くための頂点を戦略的に選択する。 そして、クライアントは、近隣のオープン施設のどれかを戦略的に選択する。 施設は可能な限りクライアントの重みを引き付け、顧客は選択した施設の混雑を最小限に抑えることを望んでいる。 最近研究された全てのモデルでは、クライアントは戦略的に重量を分割できると仮定している。 我々は、分割不能な重みを持つ顧客について検討するが、混合戦略を許容する。 したがって、クライアントはどの施設をパトロンにするかをランダム化することができる。 自然なクライアントの振る舞いをモデル化するのに加えて、この微妙な変更は、例えば所定の施設配置に対して、質的に異なるクライアント平衡が可能であるなど、劇的な変化をもたらす。 主結果として,すべてのクライアント重みが同一であれば,純部分ゲーム完全平衡が常に存在することを示す。 このために,クライアントの階層的分類と,各ステップにおける洗練された丸め法を用いて,新しい潜在的な関数引数を用いる。 対照的に、非同一のクライアントに対しては、概安定状態の存在を決定することは計算的に難解であることを示す。 正の面では、もし存在すれば、均衡の社会福祉が高いことを意味する無政府価格の2つに厳密な境界を与える。

We consider competitive facility location as a two-stage multi-agent system with two types of clients. For a given host graph with weighted clients on the vertices, first facility agents strategically select vertices for opening their facilities. Then, the clients strategically select which of the opened facilities in their neighborhood to patronize. Facilities want to attract as much client weight as possible, clients want to minimize congestion on the chosen facility. All recently studied versions of this model assume that clients can split their weight strategically. We consider clients with unsplittable weights, but allow mixed strategies. So clients may randomize over which facility to patronize. Besides modeling a natural client behavior, this subtle change yields drastic changes, e.g., for a given facility placement, qualitatively different client equilibria are possible. As our main result, we show that pure subgame perfect equilibria always exist if all client weights are identical. For this, we use a novel potential function argument, employing a hierarchical classification of the clients and sophisticated rounding in each step. In contrast, for non-identical clients, we show that deciding the existence of even approximately stable states is computationally intractable. On the positive side, we give a tight bound of 2 on the price of anarchy which implies high social welfare of equilibria, if they exist.
翻訳日:2024-03-06 14:12:54 公開日:2024-03-05
# 深部セマンティックセグメンテーションと新しいアウトリア検出によるLiDARオドメトリーとマッピングの改善

Improved LiDAR Odometry and Mapping using Deep Semantic Segmentation and Novel Outliers Detection ( http://arxiv.org/abs/2403.03111v1 )

ライセンス: Link先を確認
Mohamed Afifi, Mohamed ElHelw(参考訳) 知覚はインテリジェントな自律ナビゲーションを可能にする重要な要素である。 周囲の環境のセマンティクスと正確な車両ポーズ推定を理解することは、複雑なタスクを行う自動運転車や移動ロボットなど、自動運転車にとって必須の機能である。 自動運転車のような高速移動プラットフォームは、ローカライゼーションとマッピングアルゴリズムに難しい課題を課している。 本研究では,高速移動プラットフォーム向けLOAMアーキテクチャに基づくリアルタイムLiDAR計測とマッピングのための新しいフレームワークを提案する。 このフレームワークは,ディープラーニングモデルによって生成された意味情報を用いて,LiDARスキャン間のポイント・ツー・ライン・ポイント・ツー・プレーンマッチングを改善し,環境のセマンティックマップを構築する。 マッチングプロセスに含まれるセマンティック情報を含めると、同じセマンティッククラスの異なるオブジェクト間でマッチングが行われる新しいタイプのアウトリーチマッチングがプロセスに導入される。 そこで本研究では,マッチングプロセスにおける潜在的な外れ値を明確に識別し,破棄する新しいアルゴリズムを提案する。 本研究では,高速運動に対するLiDARオドメトリーのロバスト性に及ぼすマッチング法の改善効果について検討した。 KITTIデータセットを用いた実験により, 高速移動プラットフォームに典型的であるスキャン取得ポーズの間に大きなギャップがある場合, セマンティック情報の利用と降圧器の拒絶により, LiDARのロバスト性やマッピングが著しく向上することが確認された。

Perception is a key element for enabling intelligent autonomous navigation. Understanding the semantics of the surrounding environment and accurate vehicle pose estimation are essential capabilities for autonomous vehicles, including self-driving cars and mobile robots that perform complex tasks. Fast moving platforms like self-driving cars impose a hard challenge for localization and mapping algorithms. In this work, we propose a novel framework for real-time LiDAR odometry and mapping based on LOAM architecture for fast moving platforms. Our framework utilizes semantic information produced by a deep learning model to improve point-to-line and point-to-plane matching between LiDAR scans and build a semantic map of the environment, leading to more accurate motion estimation using LiDAR data. We observe that including semantic information in the matching process introduces a new type of outlier matches to the process, where matching occur between different objects of the same semantic class. To this end, we propose a novel algorithm that explicitly identifies and discards potential outliers in the matching process. In our experiments, we study the effect of improving the matching process on the robustness of LiDAR odometry against high speed motion. Our experimental evaluations on KITTI dataset demonstrate that utilizing semantic information and rejecting outliers significantly enhance the robustness of LiDAR odometry and mapping when there are large gaps between scan acquisition poses, which is typical for fast moving platforms.
翻訳日:2024-03-06 14:12:32 公開日:2024-03-05
# 都市レジリエンスのためのオンデマンドモビリティサービス:人間と機械のコラボレーションの未来をめざして

On-demand Mobility Services for Urban Resilience: A Review Towards Human-Machine Collaborative Future ( http://arxiv.org/abs/2403.03107v1 )

ライセンス: Link先を確認
Jiangbo Yu(参考訳) モビリティ・オン・デマンド(MOD)サービスは、ディスラプティブイベントの結果として、都市の物流と交通インフラの適応性と回復を著しく改善する可能性がある。 本稿では, レジリエンス改善(MOD-R)におけるMODサービスの利用状況について調査し, レジリエントなMODサービス, サプライチェーンレジリエンス向上のためのMOD-Rサービスの新規利用, 経験的影響評価, サポート技術という4つの分野にまたがって, 近年顕著な増加傾向を示した。 MOD-Rサービスは異常検出、本質的な供給、避難・救助、現場医療、電力グリッド安定化、ダウンタイム中の交通サービス置換、インフラと機器の修理に利用されている。 このレビューは、電化、自動化、高度な通信技術の統合が、大きな相乗効果をもたらすことを明らかにしている。 また、危機時に多機能なMOD-Rサービスを効果的に実装するために、人間とインテリジェントマシンの集合能力を活用することの重要性も示唆している。

Mobility-on-demand (MOD) services have the potential to significantly improve the adaptiveness and recovery of urban logistics and transportation infrastructure, in the wake of disruptive events. This paper presents a survey on the usage of MOD services for resilience improvement (MOD-R) and finds a noticeable increase within recent years on this topic across four main areas: resilient MOD services, novel usage of MOD-R services for improving supply chain resilience, empirical impact evaluation, and supporting technologies. MOD-R services have been utilized for anomaly detection, essential supply delivery, evacuation and rescue, on-site medical care, power grid stabilization, transit service substitution during downtime, and infrastructure and equipment repair. The review reveals integrating electrification, automation, and advanced communication technologies offers significant synergistic benefits. The review also suggests the importance of harnessing the collective capabilities of humans and intelligent machines to effectively implement versatile, multi-functional MOD-R services during crises.
翻訳日:2024-03-06 14:12:05 公開日:2024-03-05
# 深層集合における創発的等価性

Emergent Equivariance in Deep Ensembles ( http://arxiv.org/abs/2403.03103v1 )

ライセンス: Link先を確認
Jan E. Gerken and Pan Kessel(参考訳) 深層アンサンブルが密かに同値なモデルであることを示す。 より正確には、深層アンサンブルがデータ拡張を用いて、すべての入力およびトレーニング時間に対して同値になることを示す。 重要な点として、等分散はオフ多様体と無限幅極限内の任意のアーキテクチャを保持する。 等分散は、個々のアンサンブルメンバーの予測が同値ではないが集団的予測であるという意味で生じる。 神経接核理論は、この結果の導出に用いられ、詳細な数値実験を用いて理論的知見の検証を行う。

We demonstrate that deep ensembles are secretly equivariant models. More precisely, we show that deep ensembles become equivariant for all inputs and at all training times by simply using data augmentation. Crucially, equivariance holds off-manifold and for any architecture in the infinite width limit. The equivariance is emergent in the sense that predictions of individual ensemble members are not equivariant but their collective prediction is. Neural tangent kernel theory is used to derive this result and we verify our theoretical insights using detailed numerical experiments.
翻訳日:2024-03-06 14:11:44 公開日:2024-03-05
# 『学習する対話』:対話内学習による事前定義プロファイルのない個人化対話を目指して

"In Dialogues We Learn": Towards Personalized Dialogue Without Pre-defined Profiles through In-Dialogue Learning ( http://arxiv.org/abs/2403.03102v1 )

ライセンス: Link先を確認
Chuanqi Cheng, Quan Tu, Wei Wu, Shuo Shang, Cunli Mao, Zhengtao Yu, Rui Yan(参考訳) 近年,パーソナライズされた対話システムは,異なるペルソナに合わせて応答を生成できることから注目されている。 しかし、既存のアプローチのほとんどは事前に定義された個人プロフィールに依存しており、これは作成に時間と労力がかかるだけでなく、柔軟性も欠いている。 In-Dialogue Learning (IDL) は,対話履歴を活用でき,個人化された対話生成タスクを事前に定義せずにパーソナライズするためにペルソナを特徴付けることができる。 3つのデータセットに対する実験により,IDLはBLEUとROUGEのスコアを最大200%,ROUGEは247%向上した。 また,人間評価の結果から,提案手法の有効性がさらに検証された。

Personalized dialogue systems have gained significant attention in recent years for their ability to generate responses in alignment with different personas. However, most existing approaches rely on pre-defined personal profiles, which are not only time-consuming and labor-intensive to create but also lack flexibility. We propose In-Dialogue Learning (IDL), a fine-tuning framework that enhances the ability of pre-trained large language models to leverage dialogue history to characterize persona for completing personalized dialogue generation tasks without pre-defined profiles. Our experiments on three datasets demonstrate that IDL brings substantial improvements, with BLEU and ROUGE scores increasing by up to 200% and 247%, respectively. Additionally, the results of human evaluations further validate the efficacy of our proposed method.
翻訳日:2024-03-06 14:11:35 公開日:2024-03-05
# KnowAgent: LLMエージェントの知識強化計画

KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents ( http://arxiv.org/abs/2403.03101v1 )

ライセンス: Link先を確認
Yuqi Zhu, Shuofei Qiao, Yixin Ou, Shumin Deng, Ningyu Zhang, Shiwei Lyu, Yue Shen, Lei Liang, Jinjie Gu, Huajun Chen(参考訳) 大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を示しているが、より高度な課題に取り組む際には、特に実行可能アクションを生成することで環境と対話する際には不足している。 この不適切さは、主に言語エージェントに組み込まれた行動知識が欠如していることに起因しており、これはタスク解決時の計画軌跡を効果的に導くのに失敗し、幻覚を計画する結果となる。 この問題に対処するために,明示的な行動知識を取り入れたLLMの計画能力を高めるための新しいアプローチであるKnowAgentを紹介する。 具体的には、行動知識ベースと知識付き自己学習戦略を用いて、計画中の行動経路を制約し、より合理的な軌道合成を可能にし、言語エージェントの計画性能を向上させる。 様々なバックボーンモデルに基づくHotpotQAとALFWorldの実験結果は、KnowAgentが既存のベースラインと同等または優れたパフォーマンスを達成できることを実証している。 さらなる分析は、計画幻覚の緩和の観点から、KnowAgentの有効性を示している。 コードはhttps://github.com/zjunlp/knowagentで入手できる。

Large Language Models (LLMs) have demonstrated great potential in complex reasoning tasks, yet they fall short when tackling more sophisticated challenges, especially when interacting with environments through generating executable actions. This inadequacy primarily stems from the lack of built-in action knowledge in language agents, which fails to effectively guide the planning trajectories during task solving and results in planning hallucination. To address this issue, we introduce KnowAgent, a novel approach designed to enhance the planning capabilities of LLMs by incorporating explicit action knowledge. Specifically, KnowAgent employs an action knowledge base and a knowledgeable self-learning strategy to constrain the action path during planning, enabling more reasonable trajectory synthesis, and thereby enhancing the planning performance of language agents. Experimental results on HotpotQA and ALFWorld based on various backbone models demonstrate that KnowAgent can achieve comparable or superior performance to existing baselines. Further analysis indicates the effectiveness of KnowAgent in terms of planning hallucinations mitigation. Code is available in https://github.com/zjunlp/KnowAgent.
翻訳日:2024-03-06 14:11:17 公開日:2024-03-05
# NaturalSpeech 3:分解コーデックと拡散モデルを用いたゼロショット音声合成

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models ( http://arxiv.org/abs/2403.03100v1 )

ライセンス: Link先を確認
Zeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Yanqing Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiang-Yang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao(参考訳) 最近の大規模音声合成(TTS)モデルは大きな進歩を遂げているが、音声品質、類似性、韻律に乏しい。 音声は、様々な属性(例えば、コンテンツ、韻律、音色、音響的詳細)を複雑に包含して生成するが、自然なアイデアは、音声を異なる属性を表す個々の部分空間に分解し、個別に生成することである。 そこで本研究では,自然音声をゼロショットで生成する新しい因子化拡散モデルを有するttsシステムであるnaturalspeech 3を提案する。 具体的には 1)因子化ベクトル量子化(FVQ)を用いたニューラルコーデックを設計し,音声波形をコンテンツ,韻律,音韻,音響的詳細の部分空間に分解する。 2) 各部分空間の属性を対応するプロンプトに従って生成する因子拡散モデルを提案する。 この因子化設計により、NaturalSpeech 3 は、分割・コンカライズされた部分空間で複雑な音声を効果的かつ効率的にモデル化することができる。 実験によれば、naturalspeech 3は品質、類似性、韻律、知性において最先端のttsシステムよりも優れている。 さらに,1bパラメータと200k時間のトレーニングデータにスケールアップすることで,よりよいパフォーマンスを実現する。

While recent large-scale text-to-speech (TTS) models have achieved significant progress, they still fall short in speech quality, similarity, and prosody. Considering speech intricately encompasses various attributes (e.g., content, prosody, timbre, and acoustic details) that pose significant challenges for generation, a natural idea is to factorize speech into individual subspaces representing different attributes and generate them individually. Motivated by it, we propose NaturalSpeech 3, a TTS system with novel factorized diffusion models to generate natural speech in a zero-shot way. Specifically, 1) we design a neural codec with factorized vector quantization (FVQ) to disentangle speech waveform into subspaces of content, prosody, timbre, and acoustic details; 2) we propose a factorized diffusion model to generate attributes in each subspace following its corresponding prompt. With this factorization design, NaturalSpeech 3 can effectively and efficiently model the intricate speech with disentangled subspaces in a divide-and-conquer way. Experiments show that NaturalSpeech 3 outperforms the state-of-the-art TTS systems on quality, similarity, prosody, and intelligibility. Furthermore, we achieve better performance by scaling to 1B parameters and 200K hours of training data.
翻訳日:2024-03-06 14:10:56 公開日:2024-03-05
# 半教師付き音源定位のためのクロス擬似ラベル

Cross Pseudo-Labeling for Semi-Supervised Audio-Visual Source Localization ( http://arxiv.org/abs/2403.03095v1 )

ライセンス: Link先を確認
Yuxin Guo, Shijie Ma, Yuhao Zhao, Hu Su, Wei Zou(参考訳) AVSL(Audio-Visual Source Localization)は、シーン内の特定の音源を識別するタスクである。 本研究は擬似ラベル付き半教師付きAVSLに焦点を当てる。 バイアス蓄積,ノイズ感度,不安定性などのバニラ硬質擬似ラベルの問題に対処するため,クロス擬似ラベル (XPL) と呼ばれる新しい手法を提案する。 XPLには2つの有効成分が備わっている。 第一に、シャープ化と擬似ラベル指数移動平均機構を持つソフト擬似ラベルは、モデルを段階的に自己改善し、安定したトレーニングを確実にすることを可能にする。 第2に、カリキュラムデータ選択モジュールは、トレーニング中に高品質の擬似ラベルを適応的に選択し、潜在的なバイアスを軽減する。 実験の結果,XPLは既存の手法よりも優れており,信頼性バイアスを効果的に軽減し,トレーニング安定性を確保できることがわかった。

Audio-Visual Source Localization (AVSL) is the task of identifying specific sounding objects in the scene given audio cues. In our work, we focus on semi-supervised AVSL with pseudo-labeling. To address the issues with vanilla hard pseudo-labels including bias accumulation, noise sensitivity, and instability, we propose a novel method named Cross Pseudo-Labeling (XPL), wherein two models learn from each other with the cross-refine mechanism to avoid bias accumulation. We equip XPL with two effective components. Firstly, the soft pseudo-labels with sharpening and pseudo-label exponential moving average mechanisms enable models to achieve gradual self-improvement and ensure stable training. Secondly, the curriculum data selection module adaptively selects pseudo-labels with high quality during training to mitigate potential bias. Experimental results demonstrate that XPL significantly outperforms existing methods, achieving state-of-the-art performance while effectively mitigating confirmation bias and ensuring training stability.
翻訳日:2024-03-06 14:10:31 公開日:2024-03-05
# ダイヤモンド量子センサのマイクロエレクトロニック読み出し

Microelectronic readout of a diamond quantum sensor ( http://arxiv.org/abs/2403.03090v1 )

ライセンス: Link先を確認
Daniel Wirtitsch, Georg Wachter, Sarah Reisenbauer, Johannes Schalko, Ulrich Schmid, Andrea Fant, Luca Fant, Michael Trupke(参考訳) ダイヤモンドの窒素空隙(nv)中心に基づく量子センサーは、科学探査から商業用途の第一世代へと急速に進歩している。 NV中心スピン状態の操作に適した方法の開発には大きな進歩があったが、欠陥発光の検出は、これまで小型化されたセンサアーキテクチャの性能を制限してきた。 最近のNV中心のスピン状態の光電検出は、これらの制限を回避する道を提供するが、これらのシステムから得られるピコアンペアスケールの電流を検出するために、これまで研究グレードの低電流増幅器を必要としていた。 本稿では,金属酸化物半導体(CMOS)素子を用いたNVアンサンブルを用いた磁気共鳴(PDMR)の光電検出について報告する。 集積回路は、低ノイズおよび50フェムトアンペア分解能を有するダイヤモンドセンサのディジタル出力を提供する。 この統合は、ダイヤモンドベースのコンパクトな量子センサーへの道の最後の欠落コンポーネントを提供する。 この装置はパルス操作と同様に連続波(CW)にも適している。 数メガヘルツ、コヒーレントスピン回転、および量子センシングのための多軸デカップリングシーケンスまで、DCおよびAC磁気計でその機能を示す。

Quantum sensors based on the nitrogen-vacancy (NV) centre in diamond are rapidly advancing from scientific exploration towards the first generation of commercial applications. While significant progress has been made in developing suitable methods for the manipulation of the NV centre spin state, the detection of the defect luminescence has so far limited the performance of miniaturized sensor architectures. The recent development of photoelectric detection of the NV centre's spin state offers a path to circumvent these limitations, but has to-date required research-grade low current amplifiers to detect the picoampere-scale currents obtained from these systems. Here we report on the photoelectric detection of magnetic resonance (PDMR) with NV ensembles using a complementary metal-oxide semiconductor (CMOS) device. The integrated circuit delivers a digitized output of the diamond sensor with low noise and 50 femtoampere resolution. This integration provides the last missing component on the path to a compact, diamond-based quantum sensor. The device is suited for continuous wave (CW) as well as pulsed operation. We demonstrate its functionality with DC and AC magnetometry up to several megahertz, coherent spin rotation and multi-axial decoupling sequences for quantum sensing.
翻訳日:2024-03-06 14:10:15 公開日:2024-03-05
# VQSynery:ベクトル量子化機構を用いたロバストドラッグのシナジー予測

VQSynery: Robust Drug Synergy Prediction With Vector Quantization Mechanism ( http://arxiv.org/abs/2403.03089v1 )

ライセンス: Link先を確認
Jiawei Wu, Mingyuan Yan, Dianbo Liu(参考訳) がん治療の最適化の追求は、薬物相乗効果の正確な予測によって大きく進んでいる。 臨床試験のような伝統的な方法は信頼性が高いが、膨大な時間と財政的要求によって蓄積される。 高スループットスクリーニングと計算革新の出現は、薬物相互作用を探索するより効率的な方法論への移行を示唆している。 本稿では,VQ(Vector Quantization, ベクトル量子化)機構を応用した新しいフレームワークであるVQSynergyについて述べる。 以上の結果から,VQSynergyは,特にガウス雑音条件下での頑健性において既存モデルよりも優れており,薬物シナジー研究の複雑でうるさい領域において,優れた性能と有用性を示している。 本研究は,VQSynergyの高度な予測能力を通じて,その分野に革命をもたらす可能性を強調し,がん治療戦略の最適化に寄与する。

The pursuit of optimizing cancer therapies is significantly advanced by the accurate prediction of drug synergy. Traditional methods, such as clinical trials, are reliable yet encumbered by extensive time and financial demands. The emergence of high-throughput screening and computational innovations has heralded a shift towards more efficient methodologies for exploring drug interactions. In this study, we present VQSynergy, a novel framework that employs the Vector Quantization (VQ) mechanism, integrated with gated residuals and a tailored attention mechanism, to enhance the precision and generalizability of drug synergy predictions. Our findings demonstrate that VQSynergy surpasses existing models in terms of robustness, particularly under Gaussian noise conditions, highlighting its superior performance and utility in the complex and often noisy domain of drug synergy research. This study underscores the potential of VQSynergy in revolutionizing the field through its advanced predictive capabilities, thereby contributing to the optimization of cancer treatment strategies.
翻訳日:2024-03-06 14:09:55 公開日:2024-03-05
# 量子化マルコフ連鎖モンテカルロのバウンディング高速化

Bounding speedup of quantum-enhanced Markov chain Monte Carlo ( http://arxiv.org/abs/2403.03087v1 )

ライセンス: Link先を確認
Alev Orfi and Dries Sels(参考訳) サンプリングタスクは、ボルン則の確率論的性質のため、量子コンピュータの自然な問題である。 ノイズ量子ハードウェア上の有用な分布からのサンプリングは、依然として難しい問題である。 最近の論文[layden, d. et al. nature 619, 282-287 (2023)]では量子エンハンシングされたマルコフ連鎖モンテカルロアルゴリズムを提案し、量子デバイスによって動きが生成され、古典的なアルゴリズムによって受け入れられ、あるいは拒否された。 この手順はノイズや制御の不完全さに頑健であるが、量子優位の可能性は不明である。 ここでは,最悪の非構造的サンプリング問題に対して,古典的サンプリングよりも高速化がないことを示す。 我々は、任意のユニタリ量子提案のスピードアップを規定するマルコフギャップに上限を与える。

Sampling tasks are a natural class of problems for quantum computers due to the probabilistic nature of the Born rule. Sampling from useful distributions on noisy quantum hardware remains a challenging problem. A recent paper [Layden, D. et al. Nature 619, 282-287 (2023)] proposed a quantum-enhanced Markov chain Monte Carlo algorithm where moves are generated by a quantum device and accepted or rejected by a classical algorithm. While this procedure is robust to noise and control imperfections, its potential for quantum advantage is unclear. Here we show that there is no speedup over classical sampling on a worst-case unstructured sampling problem. We present an upper bound to the Markov gap that rules out a speedup for any unital quantum proposal.
翻訳日:2024-03-06 14:09:37 公開日:2024-03-05
# 対話モデルに対するオフラインランタイム検証ツール : パラメータ化シミュレーションによるスライス動作の認識

Tooling Offline Runtime Verification against Interaction Models : recognizing sliced behaviors using parameterized simulation ( http://arxiv.org/abs/2403.03083v1 )

ライセンス: Link先を確認
Erwan Mahe, Boutheina Bannour, Christophe Gaston, Arnault Lapitre, Pascale Le Gall(参考訳) オフライン実行時の検証には、仕様に対するシステム実行の静的解析が含まれる。 分散システムでは、グローバルクロックが存在しないため、グローバルトレースの形での実行を特徴付けることは一般的に不可能である。 これを考慮するため、実行をマルチトレースと呼ばれるローカルトレースの集合としてモデル化し、共通のクロックを共有するコローカライズされたアクタのグループごとに1つのローカルトレースを持つ。 ローカルトレースの記録の開始と終了を同期させるのが難しいため、イベントは開始または終了時に欠落する可能性がある。 このような部分的なマルチトレースを考慮すると、実行時の検証は困難である。 そこで本稿では,インタラクション(メッセージシーケンスチャート)と呼ばれる形式仕様に対するトレースの適合性を検証するアルゴリズムを提案する。 パラメータ化されたシミュレーションを使って、観測されていない振る舞いを再構成する。

Offline runtime verification involves the static analysis of executions of a system against a specification. For distributed systems, it is generally not possible to characterize executions in the form of global traces, given the absence of a global clock. To account for this, we model executions as collections of local traces called multi-traces, with one local trace per group of co-localized actors that share a common clock. Due to the difficulty of synchronizing the start and end of the recordings of local traces, events may be missing at their beginning or end. Considering such partially observed multi-traces is challenging for runtime verification. To that end, we propose an algorithm that verifies the conformity of such traces against formal specifications called Interactions (akin to Message Sequence Charts). It relies on parameterized simulation to reconstitute unobserved behaviors.
翻訳日:2024-03-06 14:09:14 公開日:2024-03-05
# 生成的adversarialメタモデルを用いたリコール指向連続学習

Recall-Oriented Continual Learning with Generative Adversarial Meta-Model ( http://arxiv.org/abs/2403.03082v1 )

ライセンス: Link先を確認
Haneol Kang, Dong-Wan Choi(参考訳) 安定性-塑性ジレンマは、新しいタスクを学習しながら、以前のタスクのパフォーマンスを維持するという相反する目標のバランスを伴うため、継続的な学習において大きな課題である。 本稿では,この課題に対処するリコール指向連続学習フレームワークを提案する。 人間の脳が安定性と可塑性に責任を負うメカニズムを分離する能力にインスパイアされた枠組みは,推論ネットワークが新たな知識を効果的に獲得し,生成ネットワークが必要に応じて過去の知識を想起する2段階のアーキテクチャで構成されている。 特に、過去の知識の安定性を最大化するために、異なる表現によって知識の複雑さを調査し、タスクの入力データサンプルの代わりにタスク固有のパラメータを漸進的に学習するGAMM(generative adversarial meta-model)を導入する。 実験により,新しい知識を効果的に学習できるだけでなく,タスク認識とタスク非依存の学習シナリオにおいて,従来の知識を高い安定性で獲得できることを示した。 私たちのコードは、https://github.com/bigdata-inha/recall-oriented-cl-frameworkで利用可能です。

The stability-plasticity dilemma is a major challenge in continual learning, as it involves balancing the conflicting objectives of maintaining performance on previous tasks while learning new tasks. In this paper, we propose the recall-oriented continual learning framework to address this challenge. Inspired by the human brain's ability to separate the mechanisms responsible for stability and plasticity, our framework consists of a two-level architecture where an inference network effectively acquires new knowledge and a generative network recalls past knowledge when necessary. In particular, to maximize the stability of past knowledge, we investigate the complexity of knowledge depending on different representations, and thereby introducing generative adversarial meta-model (GAMM) that incrementally learns task-specific parameters instead of input data samples of the task. Through our experiments, we show that our framework not only effectively learns new knowledge without any disruption but also achieves high stability of previous knowledge in both task-aware and task-agnostic learning scenarios. Our code is available at: https://github.com/bigdata-inha/recall-oriented-cl-framework.
翻訳日:2024-03-06 14:08:49 公開日:2024-03-05
# 量子Kibble-Zurek機構と有限時間スケーリングによるライドベルクアレイのキラル遷移の解消

Resolving chiral transitions in Rydberg arrays with quantum Kibble-Zurek mechanism and finite-time scaling ( http://arxiv.org/abs/2403.03081v1 )

ライセンス: Link先を確認
Jose Soto Garcia and Natalia Chepiga(参考訳) トラップされたリドベルク原子の配列における量子キブル・ズレーク機構の実験的実現は、包括的・非共振的遷移の問題を活発な研究の焦点に戻した。 有限間隔の平衡シミュレーションに基づき、周期3と周期4の境界での直接キラル遷移が予測されている。 本稿では,これらのキラル遷移を臨界力学を用いて実験的に診断する方法について検討する。 キラル遷移は,原子数の異なる配列上のkibble-zurekダイナミクスを比較することで,浮遊相と区別できることを示す。 さらに, 逆方向を網羅し, 順序パラメータの軌跡を保持することにより, 共形点の位置を同定する。 最後に、前向きと後向きのスイープを組み合わせることで、遷移を特徴付ける全ての臨界指数を抽出する。

The experimental realization of the quantum Kibble-Zurek mechanism in arrays of trapped Rydberg atoms has brought the problem of commensurate-incommensurate transition back into the focus of active research. Relying on equilibrium simulations of finite intervals, direct chiral transitions at the boundary of the period-3 and period-4 phases have been predicted. Here, we study how these chiral transitions can be diagnosed experimentally with critical dynamics. We demonstrate that chiral transitions can be distinguished from the floating phases by comparing Kibble-Zurek dynamics on arrays with different numbers of atoms. Furthermore, by sweeping in the opposite direction and keeping track of the order parameter, we identify the location of conformal points. Finally, combining forward and backward sweeps, we extract all critical exponents characterizing the transition.
翻訳日:2024-03-06 14:08:18 公開日:2024-03-05
# Design2Code: フロントエンドエンジニアリングの自動化からどのくらい離れていますか?

Design2Code: How Far Are We From Automating Front-End Engineering? ( http://arxiv.org/abs/2403.03163v1 )

ライセンス: Link先を確認
Chenglei Si, Yanzhe Zhang, Zhengyuan Yang, Ruibo Liu, Diyi Yang(参考訳) 生成AIは近年急速に進歩し、マルチモーダル理解とコード生成において前例のない能力を達成した。 これによって、マルチモーダル LLM がビジュアルデザインを直接コード実装に変換するという、フロントエンド開発の新たなパラダイムが可能になる。 本研究では,これを Design2Code タスクとして形式化し,包括的なベンチマークを行う。 具体的には、テストケースとして484の多様な実世界のWebページのベンチマークを手動でキュレートし、スクリーンショットを入力として、現在のマルチモーダル LLM が与えられた参照Webページに直接レンダリングするコード実装をどれだけうまく生成できるかを評価するための、一連の自動評価指標を開発する。 また,自動計測を総合的な評価で補完する。 我々は,GPT-4V と Gemini Pro Vision 上で,マルチモーダルプロンプト手法のスイートを開発し,その有効性を示す。 我々はさらに,gemini pro visionのパフォーマンスに適合するオープンソース design2code-18b モデルを微調整した。 人的評価と自動測定の両方で、GPT-4Vは他のモデルと比較して、このタスクにおいて最善であることを示している。 さらにアノテータは、GPT-4V生成されたWebページは、視覚的な外観と内容の49%のケースで元のリファレンスWebページを置き換えることができると考えている。 我々の詳細なブレークダウンメトリクスは、オープンソースのモデルは、入力されたWebページから視覚的要素をリコールし、正しいレイアウト設計を生成するのにほとんど遅れがあることを示します。

Generative AI has made rapid advancements in recent years, achieving unprecedented capabilities in multimodal understanding and code generation. This can enable a new paradigm of front-end development, in which multimodal LLMs might directly convert visual designs into code implementations. In this work, we formalize this as a Design2Code task and conduct comprehensive benchmarking. Specifically, we manually curate a benchmark of 484 diverse real-world webpages as test cases and develop a set of automatic evaluation metrics to assess how well current multimodal LLMs can generate the code implementations that directly render into the given reference webpages, given the screenshots as input. We also complement automatic metrics with comprehensive human evaluations. We develop a suite of multimodal prompting methods and show their effectiveness on GPT-4V and Gemini Pro Vision. We further finetune an open-source Design2Code-18B model that successfully matches the performance of Gemini Pro Vision. Both human evaluation and automatic metrics show that GPT-4V performs the best on this task compared to other models. Moreover, annotators think GPT-4V generated webpages can replace the original reference webpages in 49% of cases in terms of visual appearance and content; and perhaps surprisingly, in 64% of cases GPT-4V generated webpages are considered better than the original reference webpages. Our fine-grained break-down metrics indicate that open-source models mostly lag in recalling visual elements from the input webpages and in generating correct layout designs, while aspects like text content and coloring can be drastically improved with proper finetuning.
翻訳日:2024-03-06 14:03:28 公開日:2024-03-05
# palmprobnet:転送学習によるエクアドル熱帯林におけるヤシ分布の確率論的理解

PalmProbNet: A Probabilistic Approach to Understanding Palm Distributions in Ecuadorian Tropical Forest via Transfer Learning ( http://arxiv.org/abs/2403.03161v1 )

ライセンス: Link先を確認
Kangning Cui, Zishan Shao, Gregory Larsen, Victor Pauca, Sarra Alqahtani, David Segurado, Jo\~ao Pinheiro, Manqi Wang, David Lutz, Robert Plemmons, Miles Silman(参考訳) ヤシは熱帯林において大きく、人間や野生動物にとって重要な資源である。 熱帯生態系における中心的な問題は、ヤシの分布と豊富さを理解することである。 しかし、地理空間画像におけるヤシの正確な識別と位置決定は、高密度植生、重なり合う天蓋、混合林の景観における変光条件による重要な課題である。 そこで本研究では,高分解能uav由来のオルソモザイク画像の解析に転送学習を用いた確率論的アプローチであるpalmprobnetを導入し,エクアドル熱帯雨林の密林内におけるヤシの木の検出を可能にした。 このアプローチは手のひらの自動検出の大幅な進歩を示し、熱帯雨林の混成林におけるヤシの存在と局所性を効果的に特定している。 我々のプロセスは、UAV画像からオルソモザイク画像を生成し、そこからパームと非パームの画像パッチを2つの異なるサイズで抽出しラベル付けすることから始まります。 これらのパッチは、未修正のResNet-18と特別に訓練されたパラメータを持つMultilayer Perceptron(MLP)で構成される同じアーキテクチャのモデルをトレーニングするために使用される。 その後、PalmProbNetはランドスケープのオーソモザイクにスライディングウインドウ技術を採用し、小さなウィンドウサイズと大きなウィンドウサイズの両方を用いて確率ヒートマップを生成する。 このヒートマップは手のひら分布を効果的に可視化し、様々な森林密度における我々のアプローチのスケーラビリティと適応性を示す。 挑戦的な地形にもかかわらず,本手法は顕著な性能を示し,97.32%の精度,94.59%のコーエンカッパを試験した。

Palms play an outsized role in tropical forests and are important resources for humans and wildlife. A central question in tropical ecosystems is understanding palm distribution and abundance. However, accurately identifying and localizing palms in geospatial imagery presents significant challenges due to dense vegetation, overlapping canopies, and variable lighting conditions in mixed-forest landscapes. Addressing this, we introduce PalmProbNet, a probabilistic approach utilizing transfer learning to analyze high-resolution UAV-derived orthomosaic imagery, enabling the detection of palm trees within the dense canopy of the Ecuadorian Rainforest. This approach represents a substantial advancement in automated palm detection, effectively pinpointing palm presence and locality in mixed tropical rainforests. Our process begins by generating an orthomosaic image from UAV images, from which we extract and label palm and non-palm image patches in two distinct sizes. These patches are then used to train models with an identical architecture, consisting of an unaltered pre-trained ResNet-18 and a Multilayer Perceptron (MLP) with specifically trained parameters. Subsequently, PalmProbNet employs a sliding window technique on the landscape orthomosaic, using both small and large window sizes to generate a probability heatmap. This heatmap effectively visualizes the distribution of palms, showcasing the scalability and adaptability of our approach in various forest densities. Despite the challenging terrain, our method demonstrated remarkable performance, achieving an accuracy of 97.32% and a Cohen's kappa of 94.59% in testing.
翻訳日:2024-03-06 14:02:55 公開日:2024-03-05
# NOMA強化無線ネットワークにおけるクラスタ型フェデレーション学習の再考

Rethinking Clustered Federated Learning in NOMA Enhanced Wireless Networks ( http://arxiv.org/abs/2403.03157v1 )

ライセンス: Link先を確認
Yushen Lin, Kaidi Wang and Zhiguo Ding(参考訳) 本研究では,非独立かつ同一分散(非iid)データセットに対して,非直交的多重アクセス(noma)とcfl(clustered federated learning)アプローチを統合することで,複数のデバイスが時間制限と有限個のサブチャネルによる集約に参加することによるメリットについて検討する。 データ分布における非IIDの度合いを測定する一般化ギャップの詳細な理論的解析について述べる。 続いて,非iid条件によって生じる課題に対処するための解を,特性解析を用いて提案する。 具体的には、ユーザのデータ分布は集中パラメータとしてパラメータ化され、スペクトルクラスタリングを使用してグループ化される。 一般化ギャップと収束率の研究はマッチングに基づくアルゴリズムによるサブチャネル割り当ての設計を導いており、kkt(karush-kuhn-tucker)条件と導出した閉形式解によって電力割当が達成される。 大規模シミュレーションの結果,提案するクラスタベースFLフレームワークは,テスト精度と収束率の両面でFLベースラインを上回っていることがわかった。 さらに、NOMA強化ネットワークにおけるサブチャネルの最適化と電力割り当てを併用することにより、大幅な改善が期待できる。

This study explores the benefits of integrating the novel clustered federated learning (CFL) approach with non-orthogonal multiple access (NOMA) under non-independent and identically distributed (non-IID) datasets, where multiple devices participate in the aggregation with time limitations and a finite number of sub-channels. A detailed theoretical analysis of the generalization gap that measures the degree of non-IID in the data distribution is presented. Following that, solutions to address the challenges posed by non-IID conditions are proposed with the analysis of the properties. Specifically, users' data distributions are parameterized as concentration parameters and grouped using spectral clustering, with Dirichlet distribution serving as the prior. The investigation into the generalization gap and convergence rate guides the design of sub-channel assignments through the matching-based algorithm, and the power allocation is achieved by Karush-Kuhn-Tucker (KKT) conditions with the derived closed-form solution. The extensive simulation results show that the proposed cluster-based FL framework can outperform FL baselines in terms of both test accuracy and convergence rate. Moreover, jointly optimizing sub-channel and power allocation in NOMA-enhanced networks can lead to a significant improvement.
翻訳日:2024-03-06 14:02:24 公開日:2024-03-05
# 大規模言語モデルを用いた量子多体物理計算

Quantum Many-Body Physics Calculations with Large Language Models ( http://arxiv.org/abs/2403.03154v1 )

ライセンス: Link先を確認
Haining Pan, Nayantara Mudur, Will Taranto, Maria Tikhanovskaya, Subhashini Venugopalan, Yasaman Bahri, Michael P. Brenner, Eun-Ah Kim(参考訳) 大規模言語モデル(LLM)は、数学的および科学的推論を含む複数の領域で複雑なタスクを実行する前例のない能力を示した。 注意深く設計されたプロンプトにより、llmは理論物理学における研究論文における重要な計算を精度良く行うことができることを実証する。 ハートリー・フォック法(hartree-fock method)は、近似ハミルトニアンとそれに対応する自己矛盾方程式を導出する解析的多段階計算である。 LLMを用いて計算を行うために,問題固有情報のためのプレースホルダーを用いて,解析計算を標準化されたステップに分解する多段階プロンプトテンプレートを設計する。 我々は,過去10年間の15論文の計算におけるgpt-4の性能を評価し,中間段階の補正により,13例において最終ハートリー・フォック・ハミルトニアンを正しく導出し,2例でマイナーエラーを生じさせることを実証した。 すべての研究論文を集約すると、個々の計算ステップの実行に関する平均スコアは87.5(100点中)である。 全体として、これらの計算を行うために必要なスキルは、量子凝縮物質理論の卒業レベルにある。 この評価プロセスにおける2つの主要なボトルネックを軽減するために、さらにLLMを使用します。 i) 書類から情報を抽出してテンプレートに記入すること (ii) 計算ステップの自動採点を行い、両ケースで良好な結果を示す。 強力な性能は、前例のない規模で理論仮説を自動的に探究するアルゴリズムを開発するための第一歩である。

Large language models (LLMs) have demonstrated an unprecedented ability to perform complex tasks in multiple domains, including mathematical and scientific reasoning. We demonstrate that with carefully designed prompts, LLMs can accurately carry out key calculations in research papers in theoretical physics. We focus on a broadly used approximation method in quantum physics: the Hartree-Fock method, requiring an analytic multi-step calculation deriving approximate Hamiltonian and corresponding self-consistency equations. To carry out the calculations using LLMs, we design multi-step prompt templates that break down the analytic calculation into standardized steps with placeholders for problem-specific information. We evaluate GPT-4's performance in executing the calculation for 15 research papers from the past decade, demonstrating that, with correction of intermediate steps, it can correctly derive the final Hartree-Fock Hamiltonian in 13 cases and makes minor errors in 2 cases. Aggregating across all research papers, we find an average score of 87.5 (out of 100) on the execution of individual calculation steps. Overall, the requisite skill for doing these calculations is at the graduate level in quantum condensed matter theory. We further use LLMs to mitigate the two primary bottlenecks in this evaluation process: (i) extracting information from papers to fill in templates and (ii) automatic scoring of the calculation steps, demonstrating good results in both cases. The strong performance is the first step for developing algorithms that automatically explore theoretical hypotheses at an unprecedented scale.
翻訳日:2024-03-06 14:02:00 公開日:2024-03-05
# ハイブリッド量子古典アルゴリズムによる非ネイティブ組合せ最適化問題の解法

Solving non-native combinatorial optimization problems using hybrid quantum-classical algorithms ( http://arxiv.org/abs/2403.03153v1 )

ライセンス: Link先を確認
Jonathan Wurtz, Stefan Sack, Sheng-Tao Wang(参考訳) 組合せ最適化は、物流から金融まで幅広い分野に適用可能な、困難な問題である。 近年、量子コンピューティングは、パラメータ化量子回路、断熱プロトコル、量子アニールなど、様々なアルゴリズムを用いてこれらの問題を解決しようとしている。 これらのソリューションにはいくつかの課題があります。 1) 古典的手法よりも性能が向上することがほとんどない。 2)全ての制約や目的を量子アンサッツに効率的に符号化できる訳ではなく、 3) 対象関数の解領域は測定結果のビット列と同一ではないかもしれない。 この研究は、量子リソースと古典リソースをハイブリッドアプローチに統合することでこれらの課題を克服するフレームワーク「非ネイティブハイブリッドアルゴリズム」(NNHA)を提示する。 問題構造を継承する非ネイティブな量子変分アンサーゼを設計することにより、量子コンピュータの測定結果は、古典的なルーチンによって間接的に最適解を計算するために使用されるリソースとして機能し、現代の量子最適化アプローチの課題を部分的に克服することができる。 これらの方法は、最大$k$-cut と最大独立集合の2つの単純な問題に対して、公開可能な中性原子量子コンピュータを用いて実証される。 ハイブリッドアルゴリズムと ` `no quantum" バージョンを比較すると,ソリューションの品質が向上し,"比較優位性" の実証が得られた。

Combinatorial optimization is a challenging problem applicable in a wide range of fields from logistics to finance. Recently, quantum computing has been used to attempt to solve these problems using a range of algorithms, including parameterized quantum circuits, adiabatic protocols, and quantum annealing. These solutions typically have several challenges: 1) there is little to no performance gain over classical methods, 2) not all constraints and objectives may be efficiently encoded in the quantum ansatz, and 3) the solution domain of the objective function may not be the same as the bit strings of measurement outcomes. This work presents "non-native hybrid algorithms" (NNHA): a framework to overcome these challenges by integrating quantum and classical resources with a hybrid approach. By designing non-native quantum variational ansatzes that inherit some but not all problem structure, measurement outcomes from the quantum computer can act as a resource to be used by classical routines to indirectly compute optimal solutions, partially overcoming the challenges of contemporary quantum optimization approaches. These methods are demonstrated using a publicly available neutral-atom quantum computer on two simple problems of Max $k$-Cut and maximum independent set. We find improvements in solution quality when comparing the hybrid algorithm to its ``no quantum" version, a demonstration of a "comparative advantage".
翻訳日:2024-03-06 14:01:36 公開日:2024-03-05
# 高周波信号分類のための深層圧縮

Deep-Learned Compression for Radio-Frequency Signal Classification ( http://arxiv.org/abs/2403.03150v1 )

ライセンス: Link先を確認
Armani Rodriguez, Yagna Kaasaragadda, Silvija Kokalj-Filipovic(参考訳) 次世代の細胞概念は、大量の高周波サンプルの処理に依存している。 これには、software defined radios (sdrs)に基づくセルラーフロントエンドを接続する無線アクセスネットワーク(ran)と、スペクトル関連データのai処理のためのフレームワークが含まれる。 密度の高いRAN無線ユニットとスペクトルセンサーによって収集されたRFデータは、インテリジェントな意思決定のために共同で処理する必要があるかもしれない。 大量のデータをAIエージェントに移行すれば、帯域幅とレイテンシのコストが大きくなります。 本稿では,6つの変調クラスからなるRF信号の複雑な値のサンプルを圧縮するために,学習ベクトル量子化(VQ)に基づく深層学習圧縮(DLC)モデルHQARFを提案する。 RF信号の変調クラスを推定するために訓練されたAIモデルの性能に対するHQARFの効果を評価する。 トレーニングおよびオフ・ザ・サイト推論のための狭帯域RFサンプルの圧縮により、非リアルタイム分析のための帯域幅とストレージの効率的な利用が可能となり、リアルタイムアプリケーションの遅延が減少する。 変調分類タスクにおけるHQARF信号再構成の有効性を探りながら、DLC最適化空間とHQARFに埋め込まれたVQのトレーニングに関するオープンな問題を強調した。

Next-generation cellular concepts rely on the processing of large quantities of radio-frequency (RF) samples. This includes Radio Access Networks (RAN) connecting the cellular front-end based on software defined radios (SDRs) and a framework for the AI processing of spectrum-related data. The RF data collected by the dense RAN radio units and spectrum sensors may need to be jointly processed for intelligent decision making. Moving large amounts of data to AI agents may result in significant bandwidth and latency costs. We propose a deep learned compression (DLC) model, HQARF, based on learned vector quantization (VQ), to compress the complex-valued samples of RF signals comprised of 6 modulation classes. We are assessing the effects of HQARF on the performance of an AI model trained to infer the modulation class of the RF signal. Compression of narrow-band RF samples for the training and off-the-site inference will allow for an efficient use of the bandwidth and storage for non-real-time analytics, and for a decreased delay in real-time applications. While exploring the effectiveness of the HQARF signal reconstructions in modulation classification tasks, we highlight the DLC optimization space and some open problems related to the training of the VQ embedded in HQARF.
翻訳日:2024-03-06 14:01:16 公開日:2024-03-05
# 堅牢な連合学習は、クライアント側のトレーニングデータ分散推論攻撃を軽減する

Robust Federated Learning Mitigates Client-side Training Data Distribution Inference Attacks ( http://arxiv.org/abs/2403.03149v1 )

ライセンス: Link先を確認
Yichang Xu, Ming Yin, Minghong Fang, Neil Zhenqiang Gong(参考訳) 近年の研究では、クライアントがプライベートデータをサーバと共有しないために安全であると考えられていたフェデレーション学習(fl)が、悪意のあるクライアントが被害者のデータを再生成できるクライアント側のトレーニングデータ分散推論のような攻撃に脆弱であることが判明している。 様々な対策が存在するが、それらは実用的ではなく、攻撃前の訓練データやラベルの分布に関する知識にサーバーがアクセスできると仮定することが多い。 本研究では,クライアント側のトレーニングデータ分散推論攻撃に対する防御を目的とした,新しいビザンチン・ロバストアグリゲーションルールであるInferGuardを提案することでギャップを埋める。 提案したInferGuardでは、まずサーバが受信したモデル更新の座標中央値を計算する。 クライアントのモデル更新は、計算された中央値更新から著しく逸脱した場合、悪意があるとみなされる。 提案したInferGuardを5つのベンチマークデータセットで徹底的に評価し,10種類のベースライン手法との比較を行った。 実験結果から,我々の防御機構は,強い適応攻撃に対しても,クライアント側のトレーニングデータ分散推論攻撃に対する防御に極めて有効であることが示唆された。 さらに,本手法は,様々なFLシナリオにおいて,ベースライン法を大幅に上回っている。

Recent studies have revealed that federated learning (FL), once considered secure due to clients not sharing their private data with the server, is vulnerable to attacks such as client-side training data distribution inference, where a malicious client can recreate the victim's data. While various countermeasures exist, they are not practical, often assuming server access to some training data or knowledge of label distribution before the attack. In this work, we bridge the gap by proposing InferGuard, a novel Byzantine-robust aggregation rule aimed at defending against client-side training data distribution inference attacks. In our proposed InferGuard, the server first calculates the coordinate-wise median of all the model updates it receives. A client's model update is considered malicious if it significantly deviates from the computed median update. We conduct a thorough evaluation of our proposed InferGuard on five benchmark datasets and perform a comparison with ten baseline methods. The results of our experiments indicate that our defense mechanism is highly effective in protecting against client-side training data distribution inference attacks, even against strong adaptive attacks. Furthermore, our method substantially outperforms the baseline methods in various practical FL scenarios.
翻訳日:2024-03-06 14:00:56 公開日:2024-03-05
# Dual Mean-Teacher: オーディオ・ビジュアル・ソース・ローカライゼーションのための半監督型フレームワーク

Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization ( http://arxiv.org/abs/2403.03145v1 )

ライセンス: Link先を確認
Yuxin Guo, Shijie Ma, Hu Su, Zhiqing Wang, Yuhao Zhao, Wei Zou, Siyang Sun, Yun Zheng(参考訳) オーディオ・ビジュアル・ソース・ローカライゼーション (AVSL) は、ペアのオーディオ・クリップからビデオ・フレーム内の音の物体を見つけることを目的としている。 既存の手法は主に音声-視覚対応の自己教師付きコントラスト学習に依存している。 バウンディングボックスアノテーションがなければ、特に小さなオブジェクトの正確なローカライズを達成するのに苦労し、ぼやけた境界と偽陽性に苦しむ。 また,無ラベルデータの情報を十分に活用する手法は貧弱である。 本稿では, AVSL のための新しい半教師付き学習フレームワークである Dual Mean-Teacher (DMT) を提案する。 具体的には、限定ラベル付きデータに基づいて事前訓練された2人の教師が、予測間のコンセンサスを通じてノイズの多いサンプルをフィルタリングし、信頼マップを交差させて高品質な擬似ラベルを生成する。 ラベル付きおよびラベルなしデータの十分な利用と提案されていないフレームワークにより、DMTは現在の最先端の手法を大きなマージンで上回り、CIoUは90.4%、VGG-Sound Sourceは48.8%、Flickr-SoundNetとVGG-Sound Sourceは8.9%、9.6%、そして4.6%、自己および半教師付き手法は6.4%、それぞれ3%に留まった。 既存のAVSLメソッドにもフレームワークを拡張し、継続的にパフォーマンスを向上します。

Audio-Visual Source Localization (AVSL) aims to locate sounding objects within video frames given the paired audio clips. Existing methods predominantly rely on self-supervised contrastive learning of audio-visual correspondence. Without any bounding-box annotations, they struggle to achieve precise localization, especially for small objects, and suffer from blurry boundaries and false positives. Moreover, the naive semi-supervised method is poor in fully leveraging the information of abundant unlabeled data. In this paper, we propose a novel semi-supervised learning framework for AVSL, namely Dual Mean-Teacher (DMT), comprising two teacher-student structures to circumvent the confirmation bias issue. Specifically, two teachers, pre-trained on limited labeled data, are employed to filter out noisy samples via the consensus between their predictions, and then generate high-quality pseudo-labels by intersecting their confidence maps. The sufficient utilization of both labeled and unlabeled data and the proposed unbiased framework enable DMT to outperform current state-of-the-art methods by a large margin, with CIoU of 90.4% and 48.8% on Flickr-SoundNet and VGG-Sound Source, obtaining 8.9%, 9.6% and 4.6%, 6.4% improvements over self- and semi-supervised methods respectively, given only 3% positional-annotations. We also extend our framework to some existing AVSL methods and consistently boost their performance.
翻訳日:2024-03-06 14:00:35 公開日:2024-03-05
# スマートフォンを使って野生でのワクチン接種決定を調査

Using Smartphones to Study Vaccination Decisions in the Wild ( http://arxiv.org/abs/2403.03143v1 )

ライセンス: Link先を確認
Nicol\`o Alessandro Girardini, Arkadiusz Stopczynski, Olga Baranov, Cornelia Betsch, Dirk Brockmann, Sune Lehmann, and Robert B\"ohm(参考訳) 感染症の拡散と影響を制限できる最も重要な道具の1つは予防接種である。 そのため、予防接種決定を決定する要因を理解することが重要である。 この目的のために、過去の行動研究は、 i)制御されているが、しばしば抽象的または仮説的な研究(例:ヴィグネット)または (ii)個々の決定過程(例えば臨床試験)を理解するのを困難にする現実的だが典型的には柔軟性の低い研究。 これらのアプローチの最も優れた組み合わせとして、予防接種決定と病気の拡大を研究する新しい手法として、ゲームシナリオのいくつかのラウンドにおいて、スマートフォンを介して現実世界のBluetoothコンタクトを統合することを提案する。 n$=9494の学生を対象にした12週間の概念実証調査の結果,各意思決定ラウンド,特に個人の健康状態に関連する情報に対して,参加者が強い反応を示した。 対照的に、他人の決定や結果に関連する情報(例えば、ワクチンまたは感染した個人の数)は重要でないように思われた。 本稿では,本手法の可能性について検討し,今後の研究に向けた実りある分野に注目する。

One of the most important tools available to limit the spread and impact of infectious diseases is vaccination. It is therefore important to understand what factors determine people's vaccination decisions. To this end, previous behavioural research made use of, (i) controlled but often abstract or hypothetical studies (e.g., vignettes) or, (ii) realistic but typically less flexible studies that make it difficult to understand individual decision processes (e.g., clinical trials). Combining the best of these approaches, we propose integrating real-world Bluetooth contacts via smartphones in several rounds of a game scenario, as a novel methodology to study vaccination decisions and disease spread. In our 12-week proof-of-concept study conducted with $N$ = 494 students, we found that participants strongly responded to some of the information provided to them during or after each decision round, particularly those related to their individual health outcomes. In contrast, information related to others' decisions and outcomes (e.g., the number of vaccinated or infected individuals) appeared to be less important. We discuss the potential of this novel method and point to fruitful areas for future research.
翻訳日:2024-03-06 14:00:01 公開日:2024-03-05
# テキスト環境におけるRLエージェントの言語ガイド探索

Language Guided Exploration for RL Agents in Text Environments ( http://arxiv.org/abs/2403.03141v1 )

ライセンス: Link先を確認
Hitesh Golchha, Sahil Yerawar, Dhruvesh Patel, Soham Dan, Keerthiram Murugesan(参考訳) 実世界のシーケンシャルな意思決定は、粗末な報酬と大きな意思決定空間によって特徴づけられ、$\textit{tabula rasa}$ reinforcement learning (RL)エージェントのような経験的学習システムにとって重大な困難を生じさせる。 世界中に豊富な知識を持つ大規模言語モデル(llm)は、rlエージェントが素早く学習し、分散シフトに適応するのに役立つ。 本稿では、事前訓練された言語モデル(GUIDE)を用いて、RLエージェント(EXPLORER)に決定レベルのガイダンスを提供するLanguage Guided Exploration(LGE)フレームワークを紹介する。 我々は,難易度の高いテキスト環境であるscienceworld (wang et al.,2022) において,lgeはヴァニラrlエージェントを著しく上回り,行動クローニングやテキスト決定トランスフォーマーといった他の洗練された手法を上回っていることを観察する。

Real-world sequential decision making is characterized by sparse rewards and large decision spaces, posing significant difficulty for experiential learning systems like $\textit{tabula rasa}$ reinforcement learning (RL) agents. Large Language Models (LLMs), with a wealth of world knowledge, can help RL agents learn quickly and adapt to distribution shifts. In this work, we introduce Language Guided Exploration (LGE) framework, which uses a pre-trained language model (called GUIDE ) to provide decision-level guidance to an RL agent (called EXPLORER). We observe that on ScienceWorld (Wang et al.,2022), a challenging text environment, LGE outperforms vanilla RL agents significantly and also outperforms other sophisticated methods like Behaviour Cloning and Text Decision Transformer.
翻訳日:2024-03-06 13:59:42 公開日:2024-03-05
# スクイーズ状態におけるスカラー場の絡み合いエントロピー

Entanglement Entropy of a Scalar Field in a Squeezed State ( http://arxiv.org/abs/2403.03136v1 )

ライセンス: Link先を確認
Dimitrios Katsinis, Georgios Pastras and Nikolaos Tetradis(参考訳) 3+1次元の圧縮状態における自由スカラー場に対する球面領域内の絡み合いエントロピーについて検討する。 小さいスクイーズであっても体積項が出現し、その係数は本質的に場の質量とは独立であることを示す。 これは、任意の量子状態における絡み合いエントロピーは、より小さなサブシステムの自由度の数に比例する、というペイジの主張と一致する。 スクイーズ状態は、絡み合う面の面積に比例する項によって支配される絡み合いエントロピーをもたらす基底状態やコヒーレント状態とは対照的に、任意の量子状態と見なすことができる。

We study the entanglement entropy within a spherical region for a free scalar field in a squeezed state in 3+1 dimensions. We show that, even for small squeezing, a volume term appears, whose coefficient is essentially independent of the field mass. This is in line with Page's argument that the entanglement entropy in an arbitrary quantum state is proportional to the number of degrees of freedom of the smaller subsystem. It follows that squeezed states can be considered as arbitrary quantum states, in contrast to the ground or coherent states that give rise to entanglement entropy that is dominated by a term proportional to the area of the entangling surface.
翻訳日:2024-03-06 13:59:23 公開日:2024-03-05
# 複雑さの単純さ

Simplicity in Complexity ( http://arxiv.org/abs/2403.03134v1 )

ライセンス: Link先を確認
Kevin Shen, Surabhi S Nath, Aenne Brielmann, Peter Dayan(参考訳) 視覚刺激の複雑さは、注意、エンゲージメント、記憶力、時間知覚、美的評価など多くの認知現象において重要な役割を果たす。 その重要性にもかかわらず、複雑さはよく理解されておらず皮肉なことに、以前の画像複雑性のモデルは、かなり \textit{complex} である。 複雑さを説明する手作りの機能を見つけようとする試みは数多くあったが、これらの機能は一般的にデータセット固有のものであるため、一般化に失敗している。 一方で、より最近の研究では、複雑な予測にディープニューラルネットワークを用いたが、これらのモデルは解釈が困難であり、問題の理論的理解を導くものではない。 本稿では,画像のセグメントベース表現を用いた複雑性のモデル化を提案する。 我々は,複数の粒度のセグメント数と画像中のクラス数を定量化するために,最先端のセグメンテーションモデルSAMとFC-CLIPを用いている。 この2つの特徴は、自然主義的なシーンとアートイメージの6つの多様なイメージセットにまたがる。 これは、画像の複雑さが驚くほど単純であることを示している。

The complexity of visual stimuli plays an important role in many cognitive phenomena, including attention, engagement, memorability, time perception and aesthetic evaluation. Despite its importance, complexity is poorly understood and ironically, previous models of image complexity have been quite \textit{complex}. There have been many attempts to find handcrafted features that explain complexity, but these features are usually dataset specific, and hence fail to generalise. On the other hand, more recent work has employed deep neural networks to predict complexity, but these models remain difficult to interpret, and do not guide a theoretical understanding of the problem. Here we propose to model complexity using segment-based representations of images. We use state-of-the-art segmentation models, SAM and FC-CLIP, to quantify the number of segments at multiple granularities, and the number of classes in an image respectively. We find that complexity is well-explained by a simple linear model with these two features across six diverse image-sets of naturalistic scene and art images. This suggests that the complexity of images can be surprisingly simple.
翻訳日:2024-03-06 13:59:12 公開日:2024-03-05
# CoGenesis: セキュアなコンテキスト認識インストラクションのための大規模および小規模な言語モデルをコラボレーションするフレームワーク

CoGenesis: A Framework Collaborating Large and Small Language Models for Secure Context-Aware Instruction Following ( http://arxiv.org/abs/2403.03129v1 )

ライセンス: Link先を確認
Kaiyan Zhang, Jianyu Wang, Ermo Hua, Biqing Qi, Ning Ding, Bowen Zhou(参考訳) 言語モデル(LM)の進歩により、プライベートデータへの露出はますます避けられなくなり、PCやスマートフォンなどのパーソナルデバイスへの(特に小さなデバイスへの)展開が主流となっている。 ユーザ情報を伴うコンテキストでは、モデルがユーザのプライバシを保護し、コマンドを実行することが、本質的な研究命令として効率的に現れる。 本稿では,大規模(クラウドインフラストラクチャにホストされる)と小規模(ローカルデバイスにデプロイされる)を統合し,プライバシの懸念に対処する協調生成フレームワークであるcgenesisを提案する。 最初は、この研究課題のテストベッドとして、広範囲のコンテキスト詳細が強化されたパーソナライズされたライティング命令データセットを作成するパイプラインを設計しました。 その後,スケッチとロジットに基づく2種類のCoGenesisを紹介した。 我々の合成データセットと2つの追加オープンソースデータセットに基づく実験結果から、以下のことが示されている。 1) 大規模モデルではユーザコンテキストが提供されるが,そのようなコンテキストの欠如に苦慮する。 2) 合成データセットに微調整された特殊な小型モデルには期待できるが、大きなモデルには及ばない。 3)我々のCoGenesisフレームワークは、混合スケールモデルを利用して、競合性能を示し、プライバシー問題に対する実現可能な解決策を提供します。

With the advancement of language models (LMs), their exposure to private data is increasingly inevitable, and their deployment (especially for smaller ones) on personal devices, such as PCs and smartphones, has become a prevailing trend. In contexts laden with user information, enabling models to both safeguard user privacy and execute commands efficiently emerges as an essential research imperative. In this paper, we propose CoGenesis, a collaborative generation framework integrating large (hosted on cloud infrastructure) and small models (deployed on local devices) to address privacy concerns logically. Initially, we design a pipeline to create personalized writing instruction datasets enriched with extensive context details as the testbed of this research issue. Subsequently, we introduce two variants of CoGenesis based on sketch and logits respectively. Our experimental findings, based on our synthesized dataset and two additional open-source datasets, indicate that: 1) Large-scale models perform well when provided with user context but struggle in the absence of such context. 2) While specialized smaller models fine-tuned on the synthetic dataset show promise, they still lag behind their larger counterparts. 3) Our CoGenesis framework, utilizing mixed-scale models, showcases competitive performance, providing a feasible solution to privacy issues.
翻訳日:2024-03-06 13:58:55 公開日:2024-03-05
# NRDF:Articulated Pose Priors学習のためのニューラルリーマン距離場

NRDF: Neural Riemannian Distance Fields for Learning Articulated Pose Priors ( http://arxiv.org/abs/2403.03122v1 )

ライセンス: Link先を確認
Yannan He, Garvita Tiwari, Tolga Birdal, Jan Eric Lenssen, Gerard Pons-Moll(参考訳) 忠実に調音空間をモデル化することは、現実的なポーズの回復と生成を可能にする重要なタスクであり、依然として悪名高い課題である。 この目的のために,高次元積-四元数空間における神経場のゼロレベル集合として表現される可解な調音の空間をモデル化するデータ駆動前駆体であるニューラルリーマン距離場(nrdfs)を導入する。 NRDFsを正の例のみにトレーニングするために,測地線距離が所望の分布に従うことを保証する新しいサンプリングアルゴリズムを導入し,原理化された距離場学習パラダイムを導出する。 次に、任意のランダムなポーズを適応ステップリーマンオプティマイザによってレベルセットにマッピングする投影アルゴリズムを考案し、常にジョイント回転の積多様体に固執する。 NRDFはバックプロパゲーションや数学的類似によってリーマン勾配を計算することができ、最近の生成モデルであるリーマンフローマッチングと関連している。 我々は,様々な下流課題,すなわちポーズ生成,イメージベースポーズ推定,逆キネマティクスの解法において,nrdfの優れた性能を浮き彫りにしたnrdfの包括的評価を行う。 人間以外にも、NRDFの汎用性は手や動物のポーズにまで及んでいる。

Faithfully modeling the space of articulations is a crucial task that allows recovery and generation of realistic poses, and remains a notorious challenge. To this end, we introduce Neural Riemannian Distance Fields (NRDFs), data-driven priors modeling the space of plausible articulations, represented as the zero-level-set of a neural field in a high-dimensional product-quaternion space. To train NRDFs only on positive examples, we introduce a new sampling algorithm, ensuring that the geodesic distances follow a desired distribution, yielding a principled distance field learning paradigm. We then devise a projection algorithm to map any random pose onto the level-set by an adaptive-step Riemannian optimizer, adhering to the product manifold of joint rotations at all times. NRDFs can compute the Riemannian gradient via backpropagation and by mathematical analogy, are related to Riemannian flow matching, a recent generative model. We conduct a comprehensive evaluation of NRDF against other pose priors in various downstream tasks, i.e., pose generation, image-based pose estimation, and solving inverse kinematics, highlighting NRDF's superior performance. Besides humans, NRDF's versatility extends to hand and animal poses, as it can effectively represent any articulation.
翻訳日:2024-03-06 13:58:30 公開日:2024-03-05
# 悲しい男性、悲しい女性:大きな言語モデル:感情属性における性的なステレオタイプを反映する

Angry Men, Sad Women: Large Language Models Reflect Gendered Stereotypes in Emotion Attribution ( http://arxiv.org/abs/2403.03121v1 )

ライセンス: Link先を確認
Flor Miriam Plaza-del-Arco, Amanda Cercas Curry, Alba Curry, Gavin Abercrombie, Dirk Hovy(参考訳) 大規模言語モデル(llm)は社会規範とバイアス、特に性別を反映している。 社会的バイアスやステレオタイプは様々なNLPアプリケーションで広く研究されているが、感情分析には驚くべきギャップがある。 しかし、感情と性は社会的言説と密接に関連している。 例えば、女性はより共感的であると考えられ、男性の怒りはより社会的に受け入れられる。 このギャップを埋めるため,我々は5つの最先端llm(open- and closed-source)におけるジェンダー感情帰属に関する最初の包括的な研究を行う。 感情がジェンダー化されているか,社会的ステレオタイプに基づくのかを検討する。 我々はモデルに「大切な人と真面目な議論をした時」のようなイベントに性的なペルソナを採用し、感情を属性付けるよう促す。 次に, モデルが生成した感情を, 性別対の関係で分析する。 すべてのモデルは、ジェンダーステレオタイプの影響を受けて、一貫して性的な感情を示す。 これらの知見は、心理学やジェンダー研究の確立した研究と一致している。 私たちの研究は、言語、性別、感情の間の複雑な社会的相互作用に光を当てています。 LLMの感情ステレオタイプを再現することで、これらのモデルを用いてそのトピックを詳細に研究することができるが、同じLLMの感情応用における予測的利用に関する疑問が提起される。

Large language models (LLMs) reflect societal norms and biases, especially about gender. While societal biases and stereotypes have been extensively researched in various NLP applications, there is a surprising gap for emotion analysis. However, emotion and gender are closely linked in societal discourse. E.g., women are often thought of as more empathetic, while men's anger is more socially accepted. To fill this gap, we present the first comprehensive study of gendered emotion attribution in five state-of-the-art LLMs (open- and closed-source). We investigate whether emotions are gendered, and whether these variations are based on societal stereotypes. We prompt the models to adopt a gendered persona and attribute emotions to an event like 'When I had a serious argument with a dear person'. We then analyze the emotions generated by the models in relation to the gender-event pairs. We find that all models consistently exhibit gendered emotions, influenced by gender stereotypes. These findings are in line with established research in psychology and gender studies. Our study sheds light on the complex societal interplay between language, gender, and emotion. The reproduction of emotion stereotypes in LLMs allows us to use those models to study the topic in detail, but raises questions about the predictive use of those same LLMs for emotion applications.
翻訳日:2024-03-06 13:58:03 公開日:2024-03-05
# 正規化測定によるリワードハックの防止

Preventing Reward Hacking with Occupancy Measure Regularization ( http://arxiv.org/abs/2403.03185v1 )

ライセンス: Link先を確認
Cassidy Laidlaw, Shivam Singhal, Anca Dragan(参考訳) 逆ハック(Reward Hacking)は、エージェントが「プロキシ」報酬関数(手動で特定または学習されることもある)に関して非常によく機能するが、未知の真の報酬に関してはあまり機能しない場合に起こる。 プロキシと真の報酬の整合性を確保することは極めて難しいため、報酬ハッキングを防ぐ一つのアプローチは、プロキシを保守的に最適化することである。 従来の研究は、学習した政策を、行動分布(AD)間のKLのばらつきを罰することによって「安全」政策と同じような行動に強制することに焦点を当てていた。 しかし、ADの正規化は、単一の状態におけるアクション分布の小さな変更が潜在的に悲惨な結果をもたらす可能性があるため、常にうまく機能しない。 私たちの洞察では、報酬のハッキングを行うと、エージェントは安全なポリシーによって到達した状態と大きく異なる状態を訪れ、州の占有率(OM)に大きな変化を引き起こします。 そこで本稿では,AD分散ではなくポリシー間のOM分散に基づく正規化を提案する。 理論的には、OM正則化は真の報酬の大きな損失をより効果的に回避できる。 そこで我々は,安全政策に向けて規則化することで報酬ハッキングを防止するために,OM分散がAD分散よりも優れている,様々な現実的な環境を実証的に実証した。 さらに,報奨ハッキング行動から学習方針を定式化することも可能であることを示す。 私たちのコードとデータはhttps://github.com/cassidylaidlaw/orpoで入手できます。

Reward hacking occurs when an agent performs very well with respect to a "proxy" reward function (which may be hand-specified or learned), but poorly with respect to the unknown true reward. Since ensuring good alignment between the proxy and true reward is extremely difficult, one approach to prevent reward hacking is optimizing the proxy conservatively. Prior work has particularly focused on enforcing the learned policy to behave similarly to a "safe" policy by penalizing the KL divergence between their action distributions (AD). However, AD regularization doesn't always work well since a small change in action distribution at a single state can lead to potentially calamitous outcomes, while large changes might not be indicative of any dangerous activity. Our insight is that when reward hacking, the agent visits drastically different states from those reached by the safe policy, causing large deviations in state occupancy measure (OM). Thus, we propose regularizing based on the OM divergence between policies instead of AD divergence to prevent reward hacking. We theoretically establish that OM regularization can more effectively avoid large drops in true reward. Then, we empirically demonstrate in a variety of realistic environments that OM divergence is superior to AD divergence for preventing reward hacking by regularizing towards a safe policy. Furthermore, we show that occupancy measure divergence can also regularize learned policies away from reward hacking behavior. Our code and data are available at https://github.com/cassidylaidlaw/orpo
翻訳日:2024-03-06 13:54:03 公開日:2024-03-05
# ガウスボソンサンプリングにおける実数光子数分解能

Realistic photon-number resolution in Gaussian Boson Sampling ( http://arxiv.org/abs/2403.03184v1 )

ライセンス: Link先を確認
I. S. Yeremenko, M. A. Dmytruk, A. A. Semenov(参考訳) ガウスボソンサンプリング(英: Gaussian Boson Sampling、GBS)は、実験において既に量子超越性を実証している非ユニバーサル量子計算のモデルである。 このモデルは、線形干渉計の出力におけるマルチモードガウス状態からの光カウントイベントのサンプリングを伴っている。 このスキームでは、衝突イベント(各モードに複数の光子を持つもの)はまれである。 しかし、検証目的ではまだ使用されている。 したがって、隣接する光子数を完全に解決する現実的な検出器の限界が重要となる。 我々はGBSスキームにおける光計測確率分布を導出し、一般検出器や光計測技術での利用に応用した。 この確率分布は、場の四分数共分散行列(例えば、光子数分解とオンオフ検出器のよく知られた特別な場合において、ハフニアンとトロントニアン)の関数で表される。 本研究では,現実的な光子数分解能を持つ検出器を含むGBS検証手法を検討した。

Gaussian Boson Sampling (GBS) is the model of non-universal quantum computation that has already demonstrated quantum supremacy in experiments. This model entails sampling photocounting events from a multimode Gaussian state at the outputs of a linear interferometer. In this scheme, collision events -- those with more than one photon for each mode -- are infrequent. However, they are still used for validation purposes. Therefore, the limitation of realistic detectors to perfectly resolve adjacent photon numbers becomes pivotal. We have derived the photocounting probability distribution in the GBS schemes, which is applicable for use with general detectors and photocounting techniques. This probability distribution is expressed in terms of functionals of the field-quadrature covariance matrix -- e.g., Hafnian and Torontonian in the well-known special cases of photon-number resolving and on-off detectors, respectively. Based on our results, we have considered a GBS validation technique involving detectors with realistic photon-number resolution.
翻訳日:2024-03-06 13:53:34 公開日:2024-03-05
# トランスフォーマーはインコンテキストニュートンのメソッドをどの程度エミュレートできるか?

How Well Can Transformers Emulate In-context Newton's Method? ( http://arxiv.org/abs/2403.03183v1 )

ライセンス: Link先を確認
Angeliki Giannou, Liu Yang, Tianhao Wang, Dimitris Papailiopoulos, Jason D. Lee(参考訳) トランスフォーマーベースのモデルは、その基盤となるメカニズムを広範囲に研究する上で、顕著なコンテキスト内学習能力を示している。 近年の研究では、トランスフォーマーは文脈内学習のための一階最適化アルゴリズムを実装できることが示唆されている。 本研究では,線形回帰以外の高次最適化手法をトランスフォーマーで実現できるかを検討する。 我々は,ReLU層を有する線形アテンション変換器が,ロジスティック回帰処理の2次最適化アルゴリズムを近似し,エラーをより多くの層に対数化するだけで$\epsilon$エラーを達成できることを確立する。 副産物として、たった2つの層を持つ行列逆転に対するニュートンの反復の単一ステップを実装する際に、線形注意のみの変換器の能力を示す。 これらの結果から,Transformerアーキテクチャが勾配勾配を超える複雑なアルゴリズムを実装できることが示唆された。

Transformer-based models have demonstrated remarkable in-context learning capabilities, prompting extensive research into its underlying mechanisms. Recent studies have suggested that Transformers can implement first-order optimization algorithms for in-context learning and even second order ones for the case of linear regression. In this work, we study whether Transformers can perform higher order optimization methods, beyond the case of linear regression. We establish that linear attention Transformers with ReLU layers can approximate second order optimization algorithms for the task of logistic regression and achieve $\epsilon$ error with only a logarithmic to the error more layers. As a by-product we demonstrate the ability of even linear attention-only Transformers in implementing a single step of Newton's iteration for matrix inversion with merely two layers. These results suggest the ability of the Transformer architecture to implement complex algorithms, beyond gradient descent.
翻訳日:2024-03-06 13:53:17 公開日:2024-03-05
# 潜伏行動による行動生成

Behavior Generation with Latent Actions ( http://arxiv.org/abs/2403.03181v1 )

ライセンス: Link先を確認
Seungjae Lee and Yibin Wang and Haritheja Etukuru and H. Jin Kim and Nur Muhammad Mahi Shafiullah and Lerrel Pinto(参考訳) ラベル付きデータセットから複雑な振る舞いを生成的モデリングすることは、意思決定における長年の問題である。 言語や画像生成とは異なり、意思決定にはモデリングアクションが必要であり、その分布においてマルチモーダルな連続値ベクトルは、生成エラーが逐次予測に複雑になる可能性のある未処理のソースから引き出される可能性がある。 ビヘイビアトランスフォーマー(bet)と呼ばれる最近のモデルのクラスでは、k-meansクラスタリングを使用して異なるモードをキャプチャすることで、アクションを識別することでこの問題に対処している。 しかし、k-平均は高次元のアクション空間や長いシーケンスのスケールに苦労し、勾配情報がないため、ベットは長距離アクションのモデリングに苦しむ。 本研究では,マルチモーダルな行動予測,条件生成,部分的な観察を行う行動生成モデルであるVector-Quantized Behavior Transformer (VQ-BeT)を提案する。 VQ-BeTは、階層ベクトル量子化モジュールで連続的なアクションをトークン化することでBeTを増強する。 シミュレーション操作、自動運転、ロボティクスを含む7つの環境において、VQ-BeTはBeTやDiffusion Policiesのような最先端のモデルを改善している。 重要となるのは,vq-betによる行動モードのキャプチャ能力の向上と,拡散ポリシに対する推論速度5倍の高速化である。 ビデオとコードはhttps://sjlee.cc/vq-bet。

Generative modeling of complex behaviors from labeled datasets has been a longstanding problem in decision making. Unlike language or image generation, decision making requires modeling actions - continuous-valued vectors that are multimodal in their distribution, potentially drawn from uncurated sources, where generation errors can compound in sequential prediction. A recent class of models called Behavior Transformers (BeT) addresses this by discretizing actions using k-means clustering to capture different modes. However, k-means struggles to scale for high-dimensional action spaces or long sequences, and lacks gradient information, and thus BeT suffers in modeling long-range actions. In this work, we present Vector-Quantized Behavior Transformer (VQ-BeT), a versatile model for behavior generation that handles multimodal action prediction, conditional generation, and partial observations. VQ-BeT augments BeT by tokenizing continuous actions with a hierarchical vector quantization module. Across seven environments including simulated manipulation, autonomous driving, and robotics, VQ-BeT improves on state-of-the-art models such as BeT and Diffusion Policies. Importantly, we demonstrate VQ-BeT's improved ability to capture behavior modes while accelerating inference speed 5x over Diffusion Policies. Videos and code can be found https://sjlee.cc/vq-bet
翻訳日:2024-03-06 13:52:59 公開日:2024-03-05
# 凸最適化のためのシャッフルモーメント勾配アルゴリズム

Shuffling Momentum Gradient Algorithm for Convex Optimization ( http://arxiv.org/abs/2403.03180v1 )

ライセンス: Link先を確認
Trang H. Tran, Quoc Tran-Dinh, Lam M. Nguyen(参考訳) Stochastic Gradient Descent method(SGD)とその確率的変種は、大規模アプリケーションや大規模データセットを扱う能力のおかげで、機械学習やデータサイエンスから生じる有限サム最適化問題を解決する方法として選択されている。 過去数十年間、研究者はSGDとそのシャッフル変種の理論的性能について研究してきた。 しかし、非凸問題に対する重球運動量スキームのシャッフリングや凸設定におけるネステロフの運動量など、限定的な研究しか行われていない。 本研究では,[tran et al (2021)] で開発されたシャッフル運動量勾配法の解析を有限サム凸問題と強凸最適化問題の両方に拡張する。 強い凸設定のためのシャッフル運動量に基づく手法を初めて分析し、収束速度が$O(1/nT^2)$となり、$n$はサンプル数、$T$はトレーニングエポック数となる。 我々の分析は最先端の手法であり、文献における既存のシャッフル確率勾配アルゴリズムの最高値と一致する。

The Stochastic Gradient Descent method (SGD) and its stochastic variants have become methods of choice for solving finite-sum optimization problems arising from machine learning and data science thanks to their ability to handle large-scale applications and big datasets. In the last decades, researchers have made substantial effort to study the theoretical performance of SGD and its shuffling variants. However, only limited work has investigated its shuffling momentum variants, including shuffling heavy-ball momentum schemes for non-convex problems and Nesterov's momentum for convex settings. In this work, we extend the analysis of the shuffling momentum gradient method developed in [Tran et al (2021)] to both finite-sum convex and strongly convex optimization problems. We provide the first analysis of shuffling momentum-based methods for the strongly convex setting, attaining a convergence rate of $O(1/nT^2)$, where $n$ is the number of samples and $T$ is the number of training epochs. Our analysis is a state-of-the-art, matching the best rates of existing shuffling stochastic gradient algorithms in the literature.
翻訳日:2024-03-06 13:52:36 公開日:2024-03-05
# AdS$_3$アインシュタイン重力における量子2Dリウヴィル経路内接は測地線の和である

Quantum 2D Liouville Path-Integral Is a Sum over Geometries in AdS$_3$ Einstein Gravity ( http://arxiv.org/abs/2403.03179v1 )

ライセンス: Link先を確認
Lin Chen, Ling-Yan Hung, Yikun Jiang, Bing-Xin Lao(参考訳) uv完全量子リウヴィル理論を定義するモジュラーブートストラップの有名な解が存在する。 我々は、任意の2次元曲面 $\mathcal{M}$ 上のこのリウヴィル CFT の経路積分を、この特別な CFT に対して縮小可能な境界条件を提案した。 これは本質的には、非自明な境界条件を持つ$\mathcal{U}_q(SL(2,\mathbb{R}))$の量子6j記号で構築された3Dトポロジカル理論の状態和を解釈するテンソルネットワークであり、アインシュタイン・ヒルベルト作用によって重み付けられた3Dジオメトリの和を大きな$c$でリードオーダーに還元する。 量子リウヴィル理論の境界条件は、CFT経路積分を忠実に再現するためのバルク幾何学上の非常に特別な和を規定する。 三角測量は6jシンボルで満たされた五角形アイデンティティと直交条件を利用して変更可能なAdSバルク内の測地線のネットワークを生成し、正確なホログラフィックテンソルネットワークに配置するのと一致する。

There is a renowned solution of the modular bootstrap that defines the UV complete quantum Liouville theory. We triangulate the path-integral of this Liouville CFT on any 2D surface $\mathcal{M}$, by proposing a shrinkable boundary condition for this special CFT that allows small holes to close, analogous to the proposal in rational CFTs [1-3]. This is essentially a tensor network that admits an interpretation of a state-sum of a 3D topological theory constructed with quantum 6j symbols of $\mathcal{U}_q(SL(2,\mathbb{R}))$ with non-trivial boundary conditions, and it reduces to a sum over 3D geometries weighted by the Einstein-Hilbert action to leading order in large $c$. The boundary conditions of quantum Liouville theory specifies a very special sum over bulk geometries to faithfully reproduce the CFT path-integral. The triangulation coincides with producing a network of geodesics in the AdS bulk, which can be changed making use of the pentagon identity and orthogonality condition satisfied by the 6j symbols, and arranged into a precise holographic tensor network.
翻訳日:2024-03-06 13:52:12 公開日:2024-03-05
# トップ品質計画の統一と認定

Unifying and Certifying Top-Quality Planning ( http://arxiv.org/abs/2403.03176v1 )

ライセンス: Link先を確認
Michael Katz, Junkyu Lee, Shirin Sohrabi(参考訳) 実践的なシナリオにおける計画ツールの利用の増加は、複数の高品質な計画の作成への関心を喚起している。 結果として、最高品質計画の一般的な傘の下での計算問題を、それぞれ独自の定義で短時間で導入した。 本研究では,既存の定義を支配関係に基づいて一つにまとめることができることを示す。 したがって、異なる計算問題は、単に異なる支配関係に対応する。 統一された定義を考えると、解決不可能性と最適性の既存の認定を活用することで、ソリューションの最高品質を証明できる。 既存の文献で見られるタスク変換は、様々なトップ品質計画問題の効率的な認証に利用でき、ループレストップ品質計画の効率的な認証を行うための新しい変換を提案する。

The growing utilization of planning tools in practical scenarios has sparked an interest in generating multiple high-quality plans. Consequently, a range of computational problems under the general umbrella of top-quality planning were introduced over a short time period, each with its own definition. In this work, we show that the existing definitions can be unified into one, based on a dominance relation. The different computational problems, therefore, simply correspond to different dominance relations. Given the unified definition, we can now certify the top-quality of the solutions, leveraging existing certification of unsolvability and optimality. We show that task transformations found in the existing literature can be employed for the efficient certification of various top-quality planning problems and propose a novel transformation to efficiently certify loopless top-quality planning.
翻訳日:2024-03-06 13:51:44 公開日:2024-03-05
# Rydberg原子と衛星信号を用いた土壌水分のリモートセンシング

Remote sensing of soil moisture using Rydberg atoms and satellite signals of opportunity ( http://arxiv.org/abs/2403.03175v1 )

ライセンス: Link先を確認
Darmindra Arumugam, Jun-Hee Park, Brook Feyissa, Jack Bush, Srinivas Prasad Mysore Nagaraja(参考訳) 地球システムの衛星搭載レーダーリモートセンシングは、生態系、水とエネルギーサイクル、天候と大気の質、海面、表面ダイナミクスの自然および人為的な変化を研究するのに不可欠である。 現在のアプローチにおける大きな課題は、特定の科学変数の検索に制限を課す狭帯域マイクロ波電子回路による広帯域波長可変性の欠如である。 この結果、複数の変数を同時に検出するために広帯域レーダーリモートセンシングが必要である表面・地下水文学などの動的結合土系プロセスの研究において、大きな制限が生じる。 ライドバーグ原子センサーは高感度の広スペクトル量子検出器であり、バンド固有電子回路を必要とせず、マイクロ-ミリ波をカバーするように動的に調整することができる。 rydberg原子センサーは、ナビゲーションや通信衛星などの既存の送信信号を使用してリモートセンシングを可能にする。 本研究では,ライドバーグ原子系を用いた地中レーダ反射法を用いて,土壌水分のリモートセンシングを実証する。 これを実現するために,xm衛星無線信号に対する原子のセンシングを行い,これらの衛星信号を用いて土壌水分のリモートセンシングを実証する。 我々のアプローチは、衛星ベースの広スペクトルRydberg原子リモートセンシングへのステップを提供する。

Spaceborne radar remote sensing of the earth system is essential to study natural and man-made changes in the ecosystem, water and energy cycles, weather and air quality, sea level, and surface dynamics. A major challenge with current approaches is the lack of broad spectrum tunability due to narrow band microwave electronics, that limit systems to specific science variable retrievals. This results in a significant limitation in studying dynamic coupled earth system processes such as surface and subsurface hydrology, where broad spectrum radar remote sensing is needed to sense multiple variables simultaneously. Rydberg atomic sensors are highly sensitive broad-spectrum quantum detectors that can be dynamically tuned to cover micro-to-millimeter waves with no requirement for band-specific electronics. Rydberg atomic sensors can use existing transmitted signals such as navigation and communication satellites to enable remote sensing. We demonstrate remote sensing of soil moisture, an important earth system variable, via ground-based radar reflectometry with Rydberg atomic systems. To do this, we sensitize the atoms to XM satellite radio signals and use signal correlations to demonstrate use of these satellite signals for remote sensing of soil moisture. Our approach provides a step towards satellite-based broad-spectrum Rydberg atomic remote sensing.
翻訳日:2024-03-06 13:51:31 公開日:2024-03-05
# Moka: Mark-based Visual Promptingによるオープン語彙ロボットマニピュレーション

MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting ( http://arxiv.org/abs/2403.03174v1 )

ライセンス: Link先を確認
Fangchen Liu, Kuan Fang, Pieter Abbeel, Sergey Levine(参考訳) オープン語彙の一般化は、複雑で多様な環境やタスク目標を含むタスクを実行するロボットシステムを必要とする。 近年の視覚言語モデル(VLM)の進歩は、目に見えない問題を解決するための前例のない機会を提供する一方で、その創発的能力を利用して物理的な世界でロボットを制御する方法は、未解決の課題である。 本稿では,自由形式の言語記述で指定されたロボット操作タスクを解決するために,VLMを用いたMoka(Marking Open-vocabulary Keypoint Affordances)を提案する。 我々のアプローチの核心は、物理的世界におけるVLMのRGB画像とロボットの動きの予測を橋渡しする、手頃さと動きのコンパクトなポイントベース表現である。 提案手法は,インターネット規模のデータに基づいて事前学習したVLMを推し進めることにより,概念理解と共通知識を広義の情報源から活用することにより,その価値を予測し,対応する動作を生成する。 ゼロショットでのVLMの推論を足場として,画像にアノテートする視覚的プロンプト技術を提案し,キーポイントとウェイポイントの予測を,VLMが解決可能な一連の視覚的質問応答問題に変換する。 このような方法で収集したロボット体験を用いて、文脈内学習とポリシー蒸留を通じてパフォーマンスをブートストラップする方法をさらに調査する。 ツールの使用,変形可能な身体操作,オブジェクト再構成など,自由形式の言語記述によって規定される様々な操作タスクに対して,Mokaの性能を評価し,解析する。

Open-vocabulary generalization requires robotic systems to perform tasks involving complex and diverse environments and task goals. While the recent advances in vision language models (VLMs) present unprecedented opportunities to solve unseen problems, how to utilize their emergent capabilities to control robots in the physical world remains an open question. In this paper, we present MOKA (Marking Open-vocabulary Keypoint Affordances), an approach that employs VLMs to solve robotic manipulation tasks specified by free-form language descriptions. At the heart of our approach is a compact point-based representation of affordance and motion that bridges the VLM's predictions on RGB images and the robot's motions in the physical world. By prompting a VLM pre-trained on Internet-scale data, our approach predicts the affordances and generates the corresponding motions by leveraging the concept understanding and commonsense knowledge from broad sources. To scaffold the VLM's reasoning in zero-shot, we propose a visual prompting technique that annotates marks on the images, converting the prediction of keypoints and waypoints into a series of visual question answering problems that are feasible for the VLM to solve. Using the robot experiences collected in this way, we further investigate ways to bootstrap the performance through in-context learning and policy distillation. We evaluate and analyze MOKA's performance on a variety of manipulation tasks specified by free-form language descriptions, such as tool use, deformable body manipulation, and object rearrangement.
翻訳日:2024-03-06 13:51:09 公開日:2024-03-05
# 確率モデルによるbongard-logo問題の解法

Solving the bongard-logo problem by modeling a probabilistic model ( http://arxiv.org/abs/2403.03173v1 )

ライセンス: Link先を確認
Ruizhuo Song, Beiming Yuan(参考訳) 抽象推論問題は、AIアルゴリズムの知覚的および認知的能力に挑戦し、明示的な画像特徴以上のパターン識別と帰納的推論を要求する。 本研究は, ボナード・ローゴ問題に適した確率モデルであるPMoCを導入し, 独立確率モデルを構築して高い推論精度を実現する。 さらに,bongard-logo,raven,i-raven,pgmなど,複雑な抽象推論タスク用に設計された拡張トランスフォーマトランスフォーマを提案する。 Pose-Transformerは、カプセルネットワークのポーズ行列にインスパイアされた位置情報学習を取り入れ、画像データ処理における局所的な位置関係に焦点を当てる。 PMoCと統合すると、推論精度がさらに向上する。 提案手法は,抽象エンティティの位置変化に伴う推論の難しさを効果的に解決し,OIG,D3$\times$3サブセットのRAVEN,PGMデータベース上でのモデルよりも優れている。 この研究は、抽象的推論と認知パターン認識におけるAIの能力向上に寄与する。

Abstract reasoning problems challenge the perceptual and cognitive abilities of AI algorithms, demanding deeper pattern discernment and inductive reasoning beyond explicit image features. This study introduces PMoC, a tailored probability model for the Bongard-Logo problem, achieving high reasoning accuracy by constructing independent probability models. Additionally, we present Pose-Transformer, an enhanced Transformer-Encoder designed for complex abstract reasoning tasks, including Bongard-Logo, RAVEN, I-RAVEN, and PGM. Pose-Transformer incorporates positional information learning, inspired by capsule networks' pose matrices, enhancing its focus on local positional relationships in image data processing. When integrated with PMoC, it further improves reasoning accuracy. Our approach effectively addresses reasoning difficulties associated with abstract entities' positional changes, outperforming previous models on the OIG, D3$\times$3 subsets of RAVEN, and PGM databases. This research contributes to advancing AI's capabilities in abstract reasoning and cognitive pattern recognition.
翻訳日:2024-03-06 13:50:43 公開日:2024-03-05
# ゴールイマジネーションを用いた協調的マルチエージェント強化学習におけるリーチング・コンセンサス

Reaching Consensus in Cooperative Multi-Agent Reinforcement Learning with Goal Imagination ( http://arxiv.org/abs/2403.03172v1 )

ライセンス: Link先を確認
Liangzhou Wang, Kaiwen Zhu, Fengming Zhu, Xinghu Yao, Shujie Zhang, Deheng Ye, Haobo Fu, Qiang Fu, Wei Yang(参考訳) 合意の獲得はマルチエージェント調整の鍵となる。 協力的なタスクを達成するためには、エージェントはチーム報酬を最大化するために最適な共同行動を選択する必要がある。 しかしながら、現在の協調型マルチエージェント強化学習(MARL)法は、通常、明示的にはコンセンサスを考慮しない。 本稿では,複数のエージェントを協調するモデルに基づくコンセンサス機構を提案する。 提案したMulti-Adnt Goal Imagination (MAGI) フレームワークは、エージェントがImagined Common goalと合意に達するためのガイドとなる。 共通の目標は、将来の状態の分布からサンプリングすることで得られる、高い値の達成可能な状態である。 我々は,この分布を自己教師付き生成モデルを用いて直接モデル化することで,モデルベース手法で一般的に用いられるマルチエージェントマルチステップポリシロールアウトによって引き起こされる「二元性曲線」問題を緩和する。 このような効率的なコンセンサス機構は,すべてのエージェントが協調して有意義な将来状態に到達することができることを示す。 多エージェント粒子環境とGoogle Research Football環境におけるMAGIの効率と性能の両面での優位性を示す。

Reaching consensus is key to multi-agent coordination. To accomplish a cooperative task, agents need to coherently select optimal joint actions to maximize the team reward. However, current cooperative multi-agent reinforcement learning (MARL) methods usually do not explicitly take consensus into consideration, which may cause miscoordination problem. In this paper, we propose a model-based consensus mechanism to explicitly coordinate multiple agents. The proposed Multi-agent Goal Imagination (MAGI) framework guides agents to reach consensus with an Imagined common goal. The common goal is an achievable state with high value, which is obtained by sampling from the distribution of future states. We directly model this distribution with a self-supervised generative model, thus alleviating the "curse of dimensinality" problem induced by multi-agent multi-step policy rollout commonly used in model-based methods. We show that such efficient consensus mechanism can guide all agents cooperatively reaching valuable future states. Results on Multi-agent Particle-Environments and Google Research Football environment demonstrate the superiority of MAGI in both sample efficiency and performance.
翻訳日:2024-03-06 13:50:23 公開日:2024-03-05
# SNIFFER: 説明可能な外部情報検出のためのマルチモーダル大言語モデル

SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection ( http://arxiv.org/abs/2403.03170v1 )

ライセンス: Link先を確認
Peng Qi, Zehong Yan, Wynne Hsu, Mong Li Lee(参考訳) 誤報は、その潜在的な高いリスクのために、一般的な社会問題である。 ooc(out-of-context)の誤報は、真正の画像を偽のテキストで再使用することで、オーディエンスを誤解させる最も簡単かつ効果的な方法の1つだ。 現在の方法は、画像とテキストの一貫性を評価することに重点を置いているが、判断の説得力のある説明が欠けている。 MLLM(Multimodal Large Language Models)は、視覚的推論と説明生成のための豊富な知識と本質的な能力を持っているが、それでも微妙な相互モーダル差の理解と発見には洗練されていない。 本稿では,OOC誤情報検出と説明のための多モーダル大規模言語モデルであるSNIFFERを紹介する。 SNIFFERはInstructBLIPに2段階の命令チューニングを採用している。 第1段階では、ジェネリックオブジェクトとニュースドメインエンティティとの整合性の概念を洗練し、第2段階では言語のみの GPT-4 生成した OOC 固有の命令データを活用して、モデルの識別能力を微調整する。 外部ツールと検索によって強化されたSNIFFERは、テキストと画像の矛盾を検出するだけでなく、文脈検証に外部知識を利用する。 実験の結果,SNIFFERは従来のMLLMを40%以上上回り,検出精度において最先端の手法よりも優れていた。 SNIFFERはまた、量的および人的評価によって検証される正確で説得力のある説明を提供する。

Misinformation is a prevalent societal issue due to its potential high risks. Out-of-context (OOC) misinformation, where authentic images are repurposed with false text, is one of the easiest and most effective ways to mislead audiences. Current methods focus on assessing image-text consistency but lack convincing explanations for their judgments, which is essential for debunking misinformation. While Multimodal Large Language Models (MLLMs) have rich knowledge and innate capability for visual reasoning and explanation generation, they still lack sophistication in understanding and discovering the subtle crossmodal differences. In this paper, we introduce SNIFFER, a novel multimodal large language model specifically engineered for OOC misinformation detection and explanation. SNIFFER employs two-stage instruction tuning on InstructBLIP. The first stage refines the model's concept alignment of generic objects with news-domain entities and the second stage leverages language-only GPT-4 generated OOC-specific instruction data to fine-tune the model's discriminatory powers. Enhanced by external tools and retrieval, SNIFFER not only detects inconsistencies between text and image but also utilizes external knowledge for contextual verification. Our experiments show that SNIFFER surpasses the original MLLM by over 40% and outperforms state-of-the-art methods in detection accuracy. SNIFFER also provides accurate and persuasive explanations as validated by quantitative and human evaluations.
翻訳日:2024-03-06 13:50:04 公開日:2024-03-05
# 明示的条件付きスペーシング変換の学習

Learning Explicitly Conditioned Sparsifying Transforms ( http://arxiv.org/abs/2403.03168v1 )

ライセンス: Link先を確認
Andrei P\u{a}tra\c{s}cu, Cristian Rusu, Paul Irofti(参考訳) スパース化変換は、ある変換領域における信号の構造化スパース表現を見つけるための、近年広く知られているツールとなった。 DCTやWaveletのような古典的変換の人気にもかかわらず、データのスパース領域への適切な表現を保証する最適変換の学習は、最近一連の論文で分析されている。 通常、条件付け数と表現能力は、与えられた最適化モデルで明示的に制御されない学習平方変換の重要な特徴である。 文献の既存のアプローチとは異なり,本論文では,データ表現品質と学習された変換の条件数を明示的に制御する新しいスパース化変換モデルについて検討する。 数値実験により,本モデルが最先端よりも優れた数値挙動を示すことを確認した。

Sparsifying transforms became in the last decades widely known tools for finding structured sparse representations of signals in certain transform domains. Despite the popularity of classical transforms such as DCT and Wavelet, learning optimal transforms that guarantee good representations of data into the sparse domain has been recently analyzed in a series of papers. Typically, the conditioning number and representation ability are complementary key features of learning square transforms that may not be explicitly controlled in a given optimization model. Unlike the existing approaches from the literature, in our paper, we consider a new sparsifying transform model that enforces explicit control over the data representation quality and the condition number of the learned transforms. We confirm through numerical experiments that our model presents better numerical behavior than the state-of-the-art.
翻訳日:2024-03-06 13:49:35 公開日:2024-03-05
# PARADISE: 手続き的警告とTipsデータセットによる言語モデルの意図しない計画スキルの評価

PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset ( http://arxiv.org/abs/2403.03167v1 )

ライセンス: Link先を確認
Arda Uzuno\u{g}lu, Abdalfatah Rashid Safa, G\"ozde G\"ul \c{S}ahin(参考訳) 近年,大規模言語モデルが計画立案や実行可能かどうか,コミュニティ内での関心が高まっている。 しかしながら、ほとんどの先行研究はllmを使用して、言語の複雑さとドメインの多様性を欠いた単純なシナリオのための高レベルな計画を作成し、その計画能力の分析を制限している。 これらの設定は、評価方法(例えば、事前定義されたアクション空間)、アーキテクチャの選択(例えば、生成モデルのみ)を制約し、現実的な分析に不可欠な言語ニュアンスを見落とします。 そこで本研究では,wikiHow をベースとした実践的手続きテキスト上で,Q\&A 形式を用いた帰納的推論タスク PARADISE を提案する。 計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間ステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。 我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。 進歩にもかかわらず、全てのモデルは人間のパフォーマンスに欠ける。 特に本分析では,転落したキーワードによるモデル行動の変動,物理的および抽象的な目標によるBERTファミリーとGPT-4の抗争,その他の未確認な手続きタスクに対する貴重な事前知識を提供するタスクなど,興味深い知見が得られた。 PARADISEデータセットと関連するリソースはhttps://github.com/GGLAB-KU/paradise.comでさらなる調査のために公開されている。

Recently, there has been growing interest within the community regarding whether large language models are capable of planning or executing plans. However, most prior studies use LLMs to generate high-level plans for simplified scenarios lacking linguistic complexity and domain diversity, limiting analysis of their planning abilities. These setups constrain evaluation methods (e.g., predefined action space), architectural choices (e.g., only generative models), and overlook the linguistic nuances essential for realistic analysis. To tackle this, we present PARADISE, an abductive reasoning task using Q\&A format on practical procedural text sourced from wikiHow. It involves warning and tip inference tasks directly associated with goals, excluding intermediary steps, with the aim of testing the ability of the models to infer implicit knowledge of the plan solely from the given goal. Our experiments, utilizing fine-tuned language models and zero-shot prompting, reveal the effectiveness of task-specific small models over large language models in most scenarios. Despite advancements, all models fall short of human performance. Notably, our analysis uncovers intriguing insights, such as variations in model behavior with dropped keywords, struggles of BERT-family and GPT-4 with physical and abstract goals, and the proposed tasks offering valuable prior knowledge for other unseen procedural tasks. The PARADISE dataset and associated resources are publicly available for further research exploration with https://github.com/GGLAB-KU/paradise.
翻訳日:2024-03-06 13:49:21 公開日:2024-03-05
# クラウドコンピューティングネットワークにおける推薦システムのフェデレーション学習とエッジコンピューティングの活用

Leveraging Federated Learning and Edge Computing for Recommendation Systems within Cloud Computing Networks ( http://arxiv.org/abs/2403.03165v1 )

ライセンス: Link先を確認
Yaqian Qi, Yaqian Qi, Xiangxiang Wang, Hanzhe Li, Jingxiao Tian(参考訳) 人工知能(AI)の大規模かつ効率的な展開を可能にするため、AIとエッジコンピューティングの組み合わせによって、エッジデバイスとエッジサーバのコンピューティングと通信機能を活用して、生成した場所に近いデータを処理するエッジインテリジェンスが誕生した。 エッジインテリジェンスの重要な技術は、federated learning(fl)として知られるプライバシ保護のマシンラーニングパラダイムである。 しかし、flネットワークは数千の異種分散デバイスを含むことが期待されている。 その結果、通信効率は依然として重要なボトルネックとなっている。 ノード障害とデバイス終了を減らすため、階層的フェデレートラーニング(HFL)フレームワークが提案され、指定されたクラスタリーダが中間モデルアグリゲーションを通じてデータオーナをサポートする。 したがって,エッジサーバのリソース利用率の向上により,キャッシュ容量の制限を効果的に補うことができる。 ユーザエクスペリエンスの品質(QoE)に対するソフトクリックの影響を軽減するため、著者らは、ユーザQoEを包括的なシステムコストとしてモデル化した。 そこで著者らは,複数のエージェントが独立して学習し,意思決定を行う,連合型深層学習(DRL)と連合型学習(FL)による分散キャッシュアルゴリズムを提案する。

To enable large-scale and efficient deployment of artificial intelligence (AI), the combination of AI and edge computing has spawned Edge Intelligence, which leverages the computing and communication capabilities of end devices and edge servers to process data closer to where it is generated. A key technology for edge intelligence is the privacy-protecting machine learning paradigm known as Federated Learning (FL), which enables data owners to train models without having to transfer raw data to third-party servers. However, FL networks are expected to involve thousands of heterogeneous distributed devices. As a result, communication efficiency remains a key bottleneck. To reduce node failures and device exits, a Hierarchical Federated Learning (HFL) framework is proposed, where a designated cluster leader supports the data owner through intermediate model aggregation. Therefore, based on the improvement of edge server resource utilization, this paper can effectively make up for the limitation of cache capacity. In order to mitigate the impact of soft clicks on the quality of user experience (QoE), the authors model the user QoE as a comprehensive system cost. To solve the formulaic problem, the authors propose a decentralized caching algorithm with federated deep reinforcement learning (DRL) and federated learning (FL), where multiple agents learn and make decisions independently
翻訳日:2024-03-06 13:48:52 公開日:2024-03-05
# FAR: フレキシブルで高精度でロバストな6DoF相対カメラ

FAR: Flexible, Accurate and Robust 6DoF Relative Camera Pose Estimation ( http://arxiv.org/abs/2403.03221v1 )

ライセンス: Link先を確認
Chris Rockwell, Nilesh Kulkarni, Linyi Jin, Jeong Joon Park, Justin Johnson, David F. Fouhey(参考訳) 画像間の相対的なカメラのポーズを推定することは、コンピュータビジョンの中心的な問題である。 対応を見つけ、基本行列を解く手法は、ほとんどの場合、高い精度をもたらす。 逆に、ニューラルネットワークを直接使用するポーズを予測する手法は、重複が制限されるほど堅牢であり、絶対的な翻訳スケールを推定できるが、精度の低下を犠牲にすることができる。 私たちのアプローチは、正確かつ堅牢な結果をもたらすと同時に、翻訳スケールを正確に推測します。 モデルの中心にあるトランスフォーマーは,(1)解くポーズ推定と学習したポーズ推定のバランスをとることを学び,(2)解法を導く前に提示する。 総合分析により,提案手法は様々な特徴抽出器や対応推定器に柔軟に対応し,matterport3d,insidenet,streetlearn,map-free relocalizationにおける6dofポーズ推定における最先端の性能を示す。

Estimating relative camera poses between images has been a central problem in computer vision. Methods that find correspondences and solve for the fundamental matrix offer high precision in most cases. Conversely, methods predicting pose directly using neural networks are more robust to limited overlap and can infer absolute translation scale, but at the expense of reduced precision. We show how to combine the best of both methods; our approach yields results that are both precise and robust, while also accurately inferring translation scales. At the heart of our model lies a Transformer that (1) learns to balance between solved and learned pose estimations, and (2) provides a prior to guide a solver. A comprehensive analysis supports our design choices and demonstrates that our method adapts flexibly to various feature extractors and correspondence estimators, showing state-of-the-art performance in 6DoF pose estimation on Matterport3D, InteriorNet, StreetLearn, and Map-free Relocalization.
翻訳日:2024-03-06 13:45:00 公開日:2024-03-05
# LC-Tsalis-INF:Best-of-Both-Worlds Linear Contextual Bandits

LC-Tsalis-INF: Generalized Best-of-Both-Worlds Linear Contextual Bandits ( http://arxiv.org/abs/2403.03219v1 )

ライセンス: Link先を確認
Masahiro Kato and Shinji Ito(参考訳) 本研究は,独立かつ同一分散(i.i.d.)コンテキストを持つ線形文脈バンディット問題を考える。 この問題において、既存の研究は、正の定数で下界の準最適ギャップを持つ確率的状態におけるラウンド数$T$に対して、後悔を満足する$O(\log^2(T))$に対して$O(\sqrt{T})$を満たすBest-of-Both-Worlds (BoBW)アルゴリズムを提案した。 しかし、$t$への依存は改善の余地があり、準最適性-ガップ仮定は緩和できる。 そこで本研究では,サブオプティビティギャップが低く設定された場合に,後悔が$o(\log(t))$を満たすアルゴリズムを提案する。 さらに, 下位最適ギャップに対するより穏やかな仮定であるマージン条件を導入する。 この条件は、パラメータ $\beta \in (0, \infty]$ を用いて、最適以下のギャップに関連する問題を特徴づける。 次に、アルゴリズムの後悔は$O\left(\left\{\log(T)\right\}^{\frac{1+\beta}{2+\beta}}T^{\frac{1}{2+\beta}}\right)$を満たすことを示す。 ここで、$\beta= \infty$ は、下限が最適性ギャップに存在する既存の研究のケースに対応しており、その場合の後悔は$O(\log(T))$ を満たす。 提案するアルゴリズムは,tsallisエントロピーを伴うフォローザ・ザ・レギュラライズド・リーダに基づき,$\alpha$-linear-contextual (lc)-tsallis-inf と呼ばれる。

This study considers the linear contextual bandit problem with independent and identically distributed (i.i.d.) contexts. In this problem, existing studies have proposed Best-of-Both-Worlds (BoBW) algorithms whose regrets satisfy $O(\log^2(T))$ for the number of rounds $T$ in a stochastic regime with a suboptimality gap lower-bounded by a positive constant, while satisfying $O(\sqrt{T})$ in an adversarial regime. However, the dependency on $T$ has room for improvement, and the suboptimality-gap assumption can be relaxed. For this issue, this study proposes an algorithm whose regret satisfies $O(\log(T))$ in the setting when the suboptimality gap is lower-bounded. Furthermore, we introduce a margin condition, a milder assumption on the suboptimality gap. That condition characterizes the problem difficulty linked to the suboptimality gap using a parameter $\beta \in (0, \infty]$. We then show that the algorithm's regret satisfies $O\left(\left\{\log(T)\right\}^{\frac{1+\beta}{2+\beta}}T^{\frac{1}{2+\beta}}\right)$. Here, $\beta= \infty$ corresponds to the case in the existing studies where a lower bound exists in the suboptimality gap, and our regret satisfies $O(\log(T))$ in that case. Our proposed algorithm is based on the Follow-The-Regularized-Leader with the Tsallis entropy and referred to as the $\alpha$-Linear-Contextual (LC)-Tsallis-INF.
翻訳日:2024-03-06 13:44:41 公開日:2024-03-05
# WMDPベンチマーク:アンラーニングによる悪用の測定と低減

The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning ( http://arxiv.org/abs/2403.03218v1 )

ライセンス: Link先を確認
Nathaniel Li, Alexander Pan, Anjali Gopal, Summer Yue, Daniel Berrios, Alice Gatti, Justin D. Li, Ann-Kathrin Dombrowski, Shashwat Goel, Long Phan, Gabriel Mukobi, Nathan Helm-Burger, Rassin Lababidi, Lennart Justen, Andrew B. Liu, Michael Chen, Isabelle Barrass, Oliver Zhang, Xiaoyuan Zhu, Rishub Tamirisa, Bhrugu Bharathi, Adam Khoja, Ariel Herbert-Voss, Cort B. Breuer, Andy Zou, Mantas Mazeika, Zifan Wang, Palash Oswal, Weiran Liu, Adam A. Hunt, Justin Tienken-Harder, Kevin Y. Shih, Kemper Talley, John Guan, Russell Kaplan, Ian Steneker, David Campbell, Brad Jokubaitis, Alex Levinson, Jean Wang, William Qian, Kallol Krishna Karmakar, Steven Basart, Stephen Fitz, Mindy Levine, Ponnurangam Kumaraguru, Uday Tupakula, Vijay Varadharajan, Yan Shoshitaishvili, Jimmy Ba, Kevin M. Esvelt, Alexandr Wang and Dan Hendrycks(参考訳) ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。 悪意のある使用のリスクを測定するために、政府機関と主要なAIラボは、LLMにおける有害な能力の評価を開発している。 しかし、現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。 さらに、悪意のある使用のための非常に特殊な経路にのみフォーカスする。 これらのギャップを埋めるため,我々は,バイオセキュリティ,サイバーセキュリティ,化学セキュリティに関する危険知識の指標として,4,157件のマルチチョイス質問のデータセットであるarms of mass destruction proxy(wmdp)ベンチマークを公開する。 WMDPは学者と技術コンサルタントのコンソーシアムによって開発され、公開前に機密情報を除去するために厳格にフィルタリングされた。 wmdpは2つの役割を担っている: 第一に、llmsにおける危険知識の評価として、第二に、そのような危険知識を取り除くための学習方法のベンチマークとして。 未学習の進歩を導くために,モデル表現の制御に基づく最先端の未学習手法であるcutを開発した。 CUTは、生物学や計算機科学などの分野における一般的な能力を保ちながら、WMDPのモデル性能を低下させる。 ベンチマークとコードをhttps://wmdp.aiで公開しています。

The White House Executive Order on Artificial Intelligence highlights the risks of large language models (LLMs) empowering malicious actors in developing biological, cyber, and chemical weapons. To measure these risks of malicious use, government institutions and major AI labs are developing evaluations for hazardous capabilities in LLMs. However, current evaluations are private, preventing further research into mitigating risk. Furthermore, they focus on only a few, highly specific pathways for malicious use. To fill these gaps, we publicly release the Weapons of Mass Destruction Proxy (WMDP) benchmark, a dataset of 4,157 multiple-choice questions that serve as a proxy measurement of hazardous knowledge in biosecurity, cybersecurity, and chemical security. WMDP was developed by a consortium of academics and technical consultants, and was stringently filtered to eliminate sensitive information prior to public release. WMDP serves two roles: first, as an evaluation for hazardous knowledge in LLMs, and second, as a benchmark for unlearning methods to remove such hazardous knowledge. To guide progress on unlearning, we develop CUT, a state-of-the-art unlearning method based on controlling model representations. CUT reduces model performance on WMDP while maintaining general capabilities in areas such as biology and computer science, suggesting that unlearning may be a concrete path towards reducing malicious use from LLMs. We release our benchmark and code publicly at https://wmdp.ai
翻訳日:2024-03-06 13:43:44 公開日:2024-03-05
# マルチモーダル・アテンテーティブ・フュージョンを用いた自己監督型3次元モデリング

Self-supervised 3D Patient Modeling with Multi-modal Attentive Fusion ( http://arxiv.org/abs/2403.03217v1 )

ライセンス: Link先を確認
Meng Zheng, Benjamin Planche, Xuan Gong, Fan Yang, Terrence Chen, Ziyan Wu(参考訳) 3次元患者体モデリングは、スマート・メディカル・スキャンおよび手術室における患者の自動位置決めの成功に不可欠である。 既存のCNNベースのエンドツーエンド患者モデリングソリューションは、通常必要である a) 広範囲にわたる現実的な臨床シナリオ(例えば、シートで覆われた患者)をカバーする、大量の関連するトレーニングデータを要求するネットワーク設計。 b) 高額な3Dヒューマンモデルアノテーション、すなわち膨大な手作業が必要で、結果としてスケーラビリティの低いシステムとなる。 この問題に対処するため,我々は3次元患者モデリングの汎用的モジュール化手法を提案する。 a) 2次元患者の関節局在を注意的に融合させるマルチモーダルキーポイント検出モジュールは、補完的なクロスモーダルな患者体情報を学び、幅広いイメージング(例えば、ct、mriなど)および臨床シナリオ(例えば、重度咬合)においてキーポイントの局在のロバスト性と一般化性を改善する。 b) 訓練に高価な3Dメッシュパラメータアノテーションを必要としない自己教師型3Dメッシュ回帰モジュールで、臨床展開に即時的なコスト効果をもたらす。 本研究は, 一般および臨床データを用いた広範な患者位置決め実験により, 提案手法の有効性を実証する。 実際の臨床シナリオにおいて, 様々な画像モダリティにまたがる優れた患者位置決め性能が得られた。

3D patient body modeling is critical to the success of automated patient positioning for smart medical scanning and operating rooms. Existing CNN-based end-to-end patient modeling solutions typically require a) customized network designs demanding large amount of relevant training data, covering extensive realistic clinical scenarios (e.g., patient covered by sheets), which leads to suboptimal generalizability in practical deployment, b) expensive 3D human model annotations, i.e., requiring huge amount of manual effort, resulting in systems that scale poorly. To address these issues, we propose a generic modularized 3D patient modeling method consists of (a) a multi-modal keypoint detection module with attentive fusion for 2D patient joint localization, to learn complementary cross-modality patient body information, leading to improved keypoint localization robustness and generalizability in a wide variety of imaging (e.g., CT, MRI etc.) and clinical scenarios (e.g., heavy occlusions); and (b) a self-supervised 3D mesh regression module which does not require expensive 3D mesh parameter annotations to train, bringing immediate cost benefits for clinical deployment. We demonstrate the efficacy of the proposed method by extensive patient positioning experiments on both public and clinical data. Our evaluation results achieve superior patient positioning performance across various imaging modalities in real clinical scenarios.
翻訳日:2024-03-06 13:43:19 公開日:2024-03-05
# アクティブ統計的推測

Active Statistical Inference ( http://arxiv.org/abs/2403.03208v1 )

ライセンス: Link先を確認
Tijana Zrnic, Emmanuel J. Cand\`es(参考訳) アクティブ・ラーニングの概念に着想を得て,機械学習支援データ収集を用いた統計的推論のためのアクティブ・推論法を提案。 収集可能なラベルの数に関する予算を仮定すると、この方法論は機械学習モデルを使用して、どのデータポイントがラベルにとって最も有益なものかを識別し、予算を効果的に活用する。 モデルは不確実性を示すデータポイントに対してラベルの収集を優先順位付けし、自信のあるモデルの予測に依存する。 アクティブ推論は、ブラックボックスの機械学習モデルを利用し、データ分散を扱う一方で、信頼区間と仮説テストを確実に検証する。 キーポイントは、非適応的なデータに依存する既存のベースラインよりもはるかに少ないサンプルで同じレベルの精度を達成することである。 これは、同じ数のサンプルに対して、アクティブ推論はより小さな信頼区間とより強力なp値を可能にすることを意味する。 我々は、世論調査、国勢調査分析、プロテオミクスからデータセットのアクティブ推論を評価する。

Inspired by the concept of active learning, we propose active inference$\unicode{x2013}$a methodology for statistical inference with machine-learning-assisted data collection. Assuming a budget on the number of labels that can be collected, the methodology uses a machine learning model to identify which data points would be most beneficial to label, thus effectively utilizing the budget. It operates on a simple yet powerful intuition: prioritize the collection of labels for data points where the model exhibits uncertainty, and rely on the model's predictions where it is confident. Active inference constructs provably valid confidence intervals and hypothesis tests while leveraging any black-box machine learning model and handling any data distribution. The key point is that it achieves the same level of accuracy with far fewer samples than existing baselines relying on non-adaptively-collected data. This means that for the same number of collected samples, active inference enables smaller confidence intervals and more powerful p-values. We evaluate active inference on datasets from public opinion research, census analysis, and proteomics.
翻訳日:2024-03-06 13:42:45 公開日:2024-03-05
# 高分解能画像合成のための縮小整流流変圧器

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis ( http://arxiv.org/abs/2403.03206v1 )

ライセンス: Link先を確認
Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas M\"uller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach(参考訳) 拡散モデルは、データの前方経路をノイズに反転させることでノイズからデータを生成し、画像やビデオのような高次元の知覚データのための強力な生成モデリング技術として登場した。 整流流(rectified flow)は、データとノイズを直線で接続する最近の生成モデルである。 その理論的な性質と概念的な単純さにもかかわらず、標準的実践として決定的に確立されていない。 本研究では,既設の騒音サンプリング手法を改良し,知覚的関連尺度に偏りを与えることにより,整流流モデルの訓練を行う。 大規模研究を通じて,高分解能テキスト対画像合成のための確立された拡散定式化と比較して,この手法の優れた性能を示す。 さらに,画像から画像への重み付けを分離し,画像とテキストのトークン間の双方向情報フローを可能にし,テキスト理解,タイポグラフィ,人間の嗜好評価を改善した,テキスト対画像生成のための新しいトランスフォーマアーキテクチャを提案する。 このアーキテクチャは、予測可能なスケーリング傾向に従い、検証損失の低減と、様々な指標と人的評価によって測定されたテキストから画像への合成の改善に相関する。 我々の最大のモデルは最先端モデルよりも優れており、実験データ、コード、モデルウェイトを公開します。

Diffusion models create data from noise by inverting the forward paths of data towards noise and have emerged as a powerful generative modeling technique for high-dimensional, perceptual data such as images and videos. Rectified flow is a recent generative model formulation that connects data and noise in a straight line. Despite its better theoretical properties and conceptual simplicity, it is not yet decisively established as standard practice. In this work, we improve existing noise sampling techniques for training rectified flow models by biasing them towards perceptually relevant scales. Through a large-scale study, we demonstrate the superior performance of this approach compared to established diffusion formulations for high-resolution text-to-image synthesis. Additionally, we present a novel transformer-based architecture for text-to-image generation that uses separate weights for the two modalities and enables a bidirectional flow of information between image and text tokens, improving text comprehension, typography, and human preference ratings. We demonstrate that this architecture follows predictable scaling trends and correlates lower validation loss to improved text-to-image synthesis as measured by various metrics and human evaluations. Our largest models outperform state-of-the-art models, and we will make our experimental data, code, and model weights publicly available.
翻訳日:2024-03-06 13:42:13 公開日:2024-03-05
# 連続可変量子テレポーテーションにおける非ガウス2モード圧縮熱状態

Non-Gaussian two mode squeezed thermal states in continuous variable quantum teleportation ( http://arxiv.org/abs/2403.03204v1 )

ライセンス: Link先を確認
Chandan Kumar(参考訳) 量子テレポーテーションの文脈では、光子触媒2モードスクイーズド真空状態が検討されているが、光子触媒2モードスクイーズド熱(tmst)状態についても同様の研究は行われていない。 これは光子触媒TMST状態のテレポーテーション忠実度評価に関わる課題に起因していると考えられる。 本稿では,非ガウス演算,ビズ,光子サブトラクション,光子付加,光子触媒をTMST状態に実装するための実用的手法について考察する。 生成した状態は連続可変量子テレポーテーションの資源として使用される。 その結果, 3つの非ガウシアン演算はテレポーテーションの忠実度を高めることができることがわかった。 非ガウス演算の成功確率を考慮すると、入力コヒーレント状態のテレポートに最適な単一光子触媒と単一光子サブトラクションを、低および中間のスクイーズレベルにおいて同定する。

While photon catalyzed two mode squeezed vacuum state has been considered in context of quantum teleportation, similar studies have not been yet conducted for photon catalyzed two-mode squeezed thermal (TMST) state. This can be attributed to challenges involved in the evaluation of teleportation fidelity for photon catalyzed TMST state. In this article, we consider a practical scheme for the implementation of non-Gaussian operation, viz., photon subtraction, photon addition, and photon catalysis, on TMST state. The generated states are employed as resources in continuous-variable quantum teleportation. The results show that the three non-Gaussian operations can enhance the teleportation fidelity. Considering the success probability of the non-Gaussian operations, we identify single-photon catalysis and single photon subtraction to be optimal for teleporting input coherent states, at low and intermediate squeezing levels.
翻訳日:2024-03-06 13:41:33 公開日:2024-03-05
# CLEVR-POC:部分観測可能な環境における推論集約型視覚質問応答

CLEVR-POC: Reasoning-Intensive Visual Question Answering in Partially Observable Environments ( http://arxiv.org/abs/2403.03203v1 )

ライセンス: Link先を確認
Savitha Sam Abraham and Marjan Alirezaie and Luc De Raedt(参考訳) 学習と推論の統合は、AIの研究課題に大きく依存している。 但し、部分的に観察されたシーンについて推論するために、既存の背景知識を使うことにはほとんど注意が払われていない。 しかし、人間はそのような知識を頻繁に使い、視覚的な質問に対する妥当な答えを推測している(一貫性のない質問をすべて排除することによって)。 このような知識は、しばしばオブジェクトに関する制約の形で得られ、ドメインや環境に特有のものになりがちである。 我々は,制約下で部分的に観察可能な環境下での推論集約型視覚質問応答(VQA)に対して,CLEVR-POCと呼ばれる新しいベンチマークを提出する。 CLEVR-POCでは、ある部分的なシーンに隠されたオブジェクトに関する質問に対して、論理的制約の形での知識を活用する必要がある。 例えば、すべてのカップが赤、緑、青のいずれかで、緑のカップが1つしかないという知識があれば、緑色のカップを含む他のすべてのカップを観察すれば、オクルードされたカップの色を赤または青として推測することができる。 実験により,CLIP (~22%) や CLEVR-POC 上の GPT-4 (~46%) のような大規模言語モデル (LLM) のような事前学習済みの視覚言語モデルの低性能が,環境固有の背景知識が利用可能かつ不可欠であるような推論集約的なタスクを処理可能なフレームワークの必要性を確認できた。 さらに,gpt-4 のような llm を視覚知覚ネットワークや論理推論器と統合したニューロシンボリックモデルがclevr-poc において極めて優れた性能を示すことを示す。

The integration of learning and reasoning is high on the research agenda in AI. Nevertheless, there is only a little attention to use existing background knowledge for reasoning about partially observed scenes to answer questions about the scene. Yet, we as humans use such knowledge frequently to infer plausible answers to visual questions (by eliminating all inconsistent ones). Such knowledge often comes in the form of constraints about objects and it tends to be highly domain or environment-specific. We contribute a novel benchmark called CLEVR-POC for reasoning-intensive visual question answering (VQA) in partially observable environments under constraints. In CLEVR-POC, knowledge in the form of logical constraints needs to be leveraged to generate plausible answers to questions about a hidden object in a given partial scene. For instance, if one has the knowledge that all cups are colored either red, green or blue and that there is only one green cup, it becomes possible to deduce the color of an occluded cup as either red or blue, provided that all other cups, including the green one, are observed. Through experiments, we observe that the low performance of pre-trained vision language models like CLIP (~ 22%) and a large language model (LLM) like GPT-4 (~ 46%) on CLEVR-POC ascertains the necessity for frameworks that can handle reasoning-intensive tasks where environment-specific background knowledge is available and crucial. Furthermore, our demonstration illustrates that a neuro-symbolic model, which integrates an LLM like GPT-4 with a visual perception network and a formal logical reasoner, exhibits exceptional performance on CLEVR-POC.
翻訳日:2024-03-06 13:41:16 公開日:2024-03-05
# Rydberg-atom Networkにおける電流状態の量子重ね合わせ

Quantum superpositions of current states in Rydberg-atom networks ( http://arxiv.org/abs/2403.03202v1 )

ライセンス: Link先を確認
Francesco Perciavalle, Davide Rossini, Juan Polo, Oliver Morsch, Luigi Amico(参考訳) Rydberg-atomプラットフォームを用いた多体量子システムの量子シミュレーションは、ここ数年で非常に注目されている。 スピンハミルトニアンを実現する可能性と単一原子レベルでの正確な制御は、物質とダイナミクスの量子位相の研究の道を開いた。 本稿では,GRAPEアルゴリズムに基づく量子最適制御プロトコルを提案する。 単一の巻数で特徴づけられる電流状態の他に、量子電流状態の重ね合わせにアクセスすることができる。 単一カレント状態は現在の演算子の固有状態であり、従って常に永続的なオブザーバブルを定義することができる。 特に、励起力学の特徴は現在の状態の性質を反映しており、原理的には流れの性質を実験的に特徴づけることができる。

Quantum simulation of many-body quantum systems using Rydberg-atom platforms has become of extreme interest in the last years. The possibility to realize spin Hamiltonians and the accurate control at the single atom level paved the way for the study of quantum phases of matter and dynamics. Here, we propose a quantum optimal control protocol based on the GRAPE algorithm to engineer quantum current states. Besides current states characterized by a single winding number, our approach allow to access superposition of quantum current states. The single current states are eigenstates of the current operator that therefore can define an observable that remains persistent at any time. In particular, the features of the excitations dynamics reflects the nature of current states, a fact that in principle can be used to characterize the nature of the flow experimentally.
翻訳日:2024-03-06 13:40:41 公開日:2024-03-05
# オペレータ学習正規化グループ

Operator Learning Renormalization Group ( http://arxiv.org/abs/2403.03199v1 )

ライセンス: Link先を確認
Xiu-Zhe Luo, Di Luo, Roger G. Melko(参考訳) 本稿では,演算子学習再正規化群(olrg)と呼ばれる量子多体シミュレーションの一般的な枠組みを提案する。 機械学習の観点に触発されて、OLRGはウィルソンの数値的再正規化群とホワイトの密度行列再正規化群を一般化し、演算子マップを介して同じ数のサイトを対象とするシステムを再現的に構築する。 OLRGは、状態アンサッツの代わりに演算子マップを学習することで、ターゲットプロパティの誤差を最小化するために損失関数を使用する。 この損失関数は、リアルタイム進化のための証明可能なバウンダリを提供するスケーリング一貫性条件によって設計されている。 古典的および量子シミュレーションのための演算子マップの2つのバージョンを実装した。 前者は演算子マトリクスマップと呼ばれ、古典的コンピュータ上でニューラルネットワークを介して実装できる。 後者は、ハミルトニアン表現マップと呼ばれ、量子コンピューティングハードウェアの能力を活用するためにデバイスパルスシーケンスを生成する。 量子イジングモデルハミルトニアンの時間依存量を計算するための両写像の性能について述べる。

In this paper, we present a general framework for quantum many-body simulations called the operator learning renormalization group (OLRG). Inspired by machine learning perspectives, OLRG is a generalization of Wilson's numerical renormalization group and White's density matrix renormalization group, which recursively builds a simulatable system to approximate a target system of the same number of sites via operator maps. OLRG uses a loss function to minimize the error of a target property directly by learning the operator map in lieu of a state ansatz. This loss function is designed by a scaling consistency condition that also provides a provable bound for real-time evolution. We implement two versions of the operator maps for classical and quantum simulations. The former, which we call the Operator Matrix Map, can be implemented via neural networks on classical computers. The latter, which we call the Hamiltonian Expression Map, generates device pulse sequences to leverage the capabilities of quantum computing hardware. We illustrate the performance of both maps for calculating time-dependent quantities in the quantum Ising model Hamiltonian.
翻訳日:2024-03-06 13:40:29 公開日:2024-03-05
# MAGID: 合成マルチモーダルデータセットを生成する自動化パイプライン

MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets ( http://arxiv.org/abs/2403.03194v1 )

ライセンス: Link先を確認
Hossein Aboutalebi, Hwanjun Song, Yusheng Xie, Arshit Gupta, Justin Sun, Hang Su, Igor Shalyminov, Nikolaos Pappas, Siffi Singh, Saab Mansour(参考訳) マルチモーダル対話システムの開発は、大量のllmに必要なリッチなマルチモーダル(テキスト、画像)対話型データの欠如によって妨げられている。 以前のアプローチでは、検索した画像とのテキスト対話を強化し、プライバシ、多様性、品質制約を装う。 本稿では,多彩で高品質な画像でテキストのみの対話を拡大するフレームワークである,textbf{M}ultimodal \textbf{A}ugmented \textbf{G}enerative \textbf{I}mages \textbf{D}ialogues (MAGID)を紹介する。 その後、対応する画像に拡散モデルを適用し、識別されたテキストとの整合性を確保する。 最後に、magidは、画像記述生成モジュール(テキストllm)と画像品質モジュール(美学、画像テキストマッチング、安全性)の間の革新的なフィードバックループを組み込んで、高品質でマルチモーダルな対話を生成する。 MAGIDと他のSOTAベースラインを3つの対話データセットで比較し,自動評価と人的評価を行った。 その結果,MAGID はベースラインと同等かそれ以上であり,画像データベースが小さい検索ベースラインに対して人的評価が大幅に向上していることがわかった。

Development of multimodal interactive systems is hindered by the lack of rich, multimodal (text, images) conversational data, which is needed in large quantities for LLMs. Previous approaches augment textual dialogues with retrieved images, posing privacy, diversity, and quality constraints. In this work, we introduce \textbf{M}ultimodal \textbf{A}ugmented \textbf{G}enerative \textbf{I}mages \textbf{D}ialogues (MAGID), a framework to augment text-only dialogues with diverse and high-quality images. Subsequently, a diffusion model is applied to craft corresponding images, ensuring alignment with the identified text. Finally, MAGID incorporates an innovative feedback loop between an image description generation module (textual LLM) and image quality modules (addressing aesthetics, image-text matching, and safety), that work in tandem to generate high-quality and multi-modal dialogues. We compare MAGID to other SOTA baselines on three dialogue datasets, using automated and human evaluation. Our results show that MAGID is comparable to or better than baselines, with significant improvements in human evaluation, especially against retrieval baselines where the image database is small.
翻訳日:2024-03-06 13:40:13 公開日:2024-03-05
# Triple-CFN:抽象推論プロセスの強化のための概念空間の再構築

Triple-CFN: Restructuring Conceptual Spaces for Enhancing Abstract Reasoning process ( http://arxiv.org/abs/2403.03190v1 )

ライセンス: Link先を確認
Ruizhuo Song, Beiming Yuan(参考訳) 抽象的推論問題は、人工知能アルゴリズムに重大な課題をもたらし、知覚タスクに必要な以上の認知能力を要求する。 本研究では,競合するインスタンスの概念空間を暗黙的に再編成することにより,ボナード・ローゴ問題に対処するトリプルCFN手法を提案する。 さらに、トリプルCFNパラダイムは、必要な修正を加えてRPM問題に有効であることを証明し、競争結果をもたらす。 rpm問題の性能をさらに高めるために,プログレッシブパターンの解釈性を維持しつつ問題空間を明示的に構築するメタトリプルcfnネットワークを開発した。 Meta Triple-CFNの成功は、概念空間をモデル化するパラダイムが、正規化推論情報と等価であることによる。 このイデオロギーに基づいて、Re-space層を導入し、Meta Triple-CFNとTriple-CFNの両方の性能を向上させる。 本稿では、抽象推論問題に対処する革新的なネットワーク設計を探求し、この領域におけるさらなるブレークスルーへの道を開くことにより、機械学習の進歩に貢献することを目的とする。

Abstract reasoning problems pose significant challenges to artificial intelligence algorithms, demanding cognitive capabilities beyond those required for perception tasks. This study introduces the Triple-CFN approach to tackle the Bongard-Logo problem, achieving notable reasoning accuracy by implicitly reorganizing the concept space of conflicting instances. Additionally, the Triple-CFN paradigm proves effective for the RPM problem with necessary modifications, yielding competitive results. To further enhance performance on the RPM issue, we develop the Meta Triple-CFN network, which explicitly structures the problem space while maintaining interpretability on progressive patterns. The success of Meta Triple-CFN is attributed to its paradigm of modeling the conceptual space, equivalent to normalizing reasoning information. Based on this ideology, we introduce the Re-space layer, enhancing the performance of both Meta Triple-CFN and Triple-CFN. This paper aims to contribute to advancements in machine intelligence by exploring innovative network designs for addressing abstract reasoning problems, paving the way for further breakthroughs in this domain.
翻訳日:2024-03-06 13:39:45 公開日:2024-03-05
# 民主的な洪水リスクマネジメントを目指して - GPT-4が実現した高度なAIアシスタント-

Towards Democratized Flood Risk Management: An Advanced AI Assistant Enabled by GPT-4 for Enhanced Interpretability and Public Engagement ( http://arxiv.org/abs/2403.03188v1 )

ライセンス: Link先を確認
Rafaela Martelo, Ruo-Qian Wang (Rutgers University)(参考訳) リアルタイム洪水予測は、タイムリーかつ効果的な緊急対応を可能にする上で重要な役割を果たす。 しかし、重要な課題は複雑な数値洪水モデルと実践的な意思決定のギャップを埋めることである。 意思決定者はしばしば、洪水軽減戦略を最適化するためにこれらのモデルを解釈する専門家に頼っている。 市民は社会文化的・制度的な要因を探求し理解するために複雑な技術を必要とし、しばしば洪水のリスクに対する大衆の理解を妨げる。 これらの課題を克服するために,GPT-4大言語モデルを利用したAIアシスタントという,革新的なソリューションを紹介した。 このAIアシスタントは、特別な知識を必要とせず、意思決定者、一般大衆、洪水予報者との効果的なコミュニケーションを容易にするように設計されている。 新しいフレームワークは、GPT-4の高度な自然言語理解と関数呼び出し機能を利用して、直ちに洪水警報を提供し、様々な洪水関連の問い合わせに応答する。 開発したプロトタイプでは,リアルタイム洪水警報と洪水マップと社会脆弱性データを統合する。 また、複雑な洪水帯情報を行動可能なリスク管理アドバイスに効果的に翻訳する。 そこで本研究では,その性能を評価するために,関連性,エラーのレジリエンス,コンテキスト理解の3つのカテゴリの6つの基準を用いてプロトタイプの評価を行った。 本研究は,洪水リスク管理における,よりアクセスしやすく,ユーザフレンドリーなアプローチに向けた重要な一歩である。 本研究は,gpt-4のような高度なaiツールが情報の民主化や社会・環境問題への市民の関与を促進する可能性を強調している。

Real-time flood forecasting plays a crucial role in enabling timely and effective emergency responses. However, a significant challenge lies in bridging the gap between complex numerical flood models and practical decision-making. Decision-makers often rely on experts to interpret these models for optimizing flood mitigation strategies. And the public requires complex techniques to inquiry and understand socio-cultural and institutional factors, often hinders the public's understanding of flood risks. To overcome these challenges, our study introduces an innovative solution: a customized AI Assistant powered by the GPT-4 Large Language Model. This AI Assistant is designed to facilitate effective communication between decision-makers, the general public, and flood forecasters, without the requirement of specialized knowledge. The new framework utilizes GPT-4's advanced natural language understanding and function calling capabilities to provide immediate flood alerts and respond to various flood-related inquiries. Our developed prototype integrates real-time flood warnings with flood maps and social vulnerability data. It also effectively translates complex flood zone information into actionable risk management advice. To assess its performance, we evaluated the prototype using six criteria within three main categories: relevance, error resilience, and understanding of context. Our research marks a significant step towards a more accessible and user-friendly approach in flood risk management. This study highlights the potential of advanced AI tools like GPT-4 in democratizing information and enhancing public engagement in critical social and environmental issues.
翻訳日:2024-03-06 13:39:24 公開日:2024-03-05
# 検索可能な信頼性、適応性、帰属可能な言語モデル

Reliable, Adaptable, and Attributable Language Models with Retrieval ( http://arxiv.org/abs/2403.03187v1 )

ライセンス: Link先を確認
Akari Asai, Zexuan Zhong, Danqi Chen, Pang Wei Koh, Luke Zettlemoyer, Hannaneh Hajishirzi, Wen-tau Yih(参考訳) 大量のWebデータに基づいてトレーニングされたパラメトリック言語モデル(LM)は、目覚ましい柔軟性と能力を示している。 しかし、幻覚、新しいデータ分布への適応の困難、妥当性の欠如といった実践的な課題に直面している。 本稿では,次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提案する。 推論中に大規模なデータストアを組み込むことで、検索強化されたLMはより信頼性が高く、適応可能で、帰属可能である。 特に、現在の検索強化LMは、質問応答のような知識集約的なタスクを超えて有用なテキストを活用するのに苦労しており、検索とLMコンポーネント間の相互作用が限られており、スケーリングのインフラが欠如している。 そこで本研究では,汎用検索拡張LMの開発ロードマップを提案する。 これには、データストアとレトリバーの再検討、レトリバー-lmインタラクションの改善によるパイプラインの探索、効率的なトレーニングと推論のためのインフラストラクチャへの多大な投資が含まれる。

Parametric language models (LMs), which are trained on vast amounts of web data, exhibit remarkable flexibility and capability. However, they still face practical challenges such as hallucinations, difficulty in adapting to new data distributions, and a lack of verifiability. In this position paper, we advocate for retrieval-augmented LMs to replace parametric LMs as the next generation of LMs. By incorporating large-scale datastores during inference, retrieval-augmented LMs can be more reliable, adaptable, and attributable. Despite their potential, retrieval-augmented LMs have yet to be widely adopted due to several obstacles: specifically, current retrieval-augmented LMs struggle to leverage helpful text beyond knowledge-intensive tasks such as question answering, have limited interaction between retrieval and LM components, and lack the infrastructure for scaling. To address these, we propose a roadmap for developing general-purpose retrieval-augmented LMs. This involves a reconsideration of datastores and retrievers, the exploration of pipelines with improved retriever-LM interaction, and significant investment in infrastructure for efficient training and inference.
翻訳日:2024-03-06 13:39:01 公開日:2024-03-05
# 汎用コンピュータ制御に向けて--red dead redemption ii のマルチモーダルエージェントを事例として

Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study ( http://arxiv.org/abs/2403.03186v1 )

ライセンス: Link先を確認
Weihao Tan, Ziluo Ding, Wentao Zhang, Boyu Li, Bohan Zhou, Junpeng Yue, Haochong Xia, Jiechuan Jiang, Longtao Zheng, Xinrun Xu, Yifei Bi, Pengjie Gu, Xinrun Wang, B\"orje F. Karlsson, Bo An, Zongqing Lu(参考訳) 最近の研究は、特定のタスクやシナリオにおける基礎的エージェントの成功を実証している。 しかし、既存のエージェントは様々なシナリオにまたがって一般化できない。主な原因は、様々な観察と行動空間と意味的ギャップ、タスク固有のリソースへの依存である。 本研究では,コンピュータの画面イメージ(および音声)のみを入力とし,キーボードとマウスの操作を出力として生成することにより,コンピュータタスクをマスターできる基盤エージェントを構築することを提案する。 GCCをターゲットにして,多種多様なタスクにまたがって,自己回帰,タスク推論,スキルキュレーションなどの強力な推論能力を持つエージェントフレームワークであるCradleを提案する。 cradleの能力を実証するために、複雑なaaaゲームであるred dead redemption iiにデプロイし、挑戦的なターゲットでgccに向けた予備的な試みとして使用します。 私たちのエージェントはこの複雑なaaaゲームでメインストーリーに従い、事前の知識とアプリケーション固有のリソースに最小限の依存で実際のミッションを完了できます。 プロジェクトのwebサイトはhttps://baai-agents.github.io/cradle/。

Recent studies have demonstrated the success of foundation agents in specific tasks or scenarios. However, existing agents cannot generalize across different scenarios, mainly due to their diverse observation and action spaces and semantic gaps, or reliance on task-specific resources. In this work, we propose the General Computer Control (GCC) setting: building foundation agents that can master any computer task by taking only screen images (and possibly audio) of the computer as input, and producing keyboard and mouse operations as output, similar to human-computer interaction. To target GCC, we propose Cradle, an agent framework with strong reasoning abilities, including self-reflection, task inference, and skill curation, to ensure generalizability and self-improvement across various tasks. To demonstrate the capabilities of Cradle, we deploy it in the complex AAA game Red Dead Redemption II, serving as a preliminary attempt towards GCC with a challenging target. Our agent can follow the main storyline and finish real missions in this complex AAA game, with minimal reliance on prior knowledge and application-specific resources. The project website is at https://baai-agents.github.io/Cradle/.
翻訳日:2024-03-06 13:38:39 公開日:2024-03-05
# モバイルデータマイニングを用いたモバイルヘルステキスト誤情報識別

Mobile Health Text Misinformation Identification Using Mobile Data Mining ( http://arxiv.org/abs/2402.19280v2 )

ライセンス: Link先を確認
Wen-Chen Hu, Sanjaikanth E Vadakkethil Somanathan Pillai, Abdelrahman Ahmed ElSaid(参考訳) 2022年4月までに600万人以上が新型コロナウイルスで死亡した。 重傷を負い、緊急の警戒に苦しむ人々が、新型コロナウイルスの感染を防ぐためにあらゆる種類の情報を見つけ出そうとしている。 本研究は、スマートフォンが人々の主要な情報ソースになるにつれて、モバイルヘルステキスト情報が人々のデバイスに送られるかどうかを調べる。 提案手法は, 語彙解析, 停止語除去, 語幹抽出, 決定木など, 様々な移動情報検索およびデータマイニング技術を用いて, モバイル・ヘルス・テキスト情報を以下のクラスに分類する。 (i)本当です。 (ii)偽物。 (iii)誤記 (iv)偽り、及び (v)中立。 実験の結果,提案手法の精度は閾値50パーセントを超えるが,最適ではないことがわかった。 モバイルテキストの誤報識別という問題は本質的に難しいためである。

More than six million people died of the COVID-19 by April 2022. The heavy casualties have put people on great and urgent alert and people try to find all kinds of information to keep them from being inflected by the coronavirus. This research tries to find out whether the mobile health text information sent to peoples devices is correct as smartphones becoming the major information source for people. The proposed method uses various mobile information retrieval and data mining technologies including lexical analysis, stopword elimination, stemming, and decision trees to classify the mobile health text information to one of the following classes: (i) true, (ii) fake, (iii) misinformative, (iv) disinformative, and (v) neutral. Experiment results show the accuracy of the proposed method is above the threshold value 50 percentage, but is not optimal. It is because the problem, mobile text misinformation identification, is intrinsically difficult.
翻訳日:2024-03-06 11:47:42 公開日:2024-03-05
# モジュールブラインド映像の品質評価

Modular Blind Video Quality Assessment ( http://arxiv.org/abs/2402.19276v2 )

ライセンス: Link先を確認
Wen Wen and Mu Li and Yabin Zhang and Yiting Liao and Junlin Li and Li Zhang and Kede Ma(参考訳) Blind Video Quality Assessment (BVQA) は、幅広いビデオベースのプラットフォームやサービスにおけるエンドユーザーの視聴体験を評価し改善する上で重要な役割を果たしている。 現代のディープラーニングベースのモデルは、主にビデオコンテンツを積極的にサンプル化されたフォーマットで分析し、実際の空間解像度とフレームレートが画質に与える影響を無視する。 本稿では,モジュール型bvqaモデルとそのモジュール性を改善するためのトレーニング手法を提案する。 具体的には,基本品質予測器,空間整形器,時間整形器から構成され,映像品質の視覚的内容と歪み,空間分解能,フレームレートの変化に対応する。 トレーニング中、空間的および時間的整流器は、基準品質予測器を独立したBVQAモデルとし、整流器でよりよく動作するように、ある程度の確率で取り除かれる。 プロが生成したコンテンツとユーザ生成したコンテンツビデオデータベースの両方に関する大規模な実験は、我々の品質モデルが現在の手法よりも優れているか同等のパフォーマンスを達成することを示す。 さらに,このモデルのモジュール性は,既存の映像品質データベースを空間的・時間的複雑度の観点から解析する絶好の機会となる。 最後に、我々のBVQAモデルは、動的範囲や色域などの他の品質関連ビデオ属性を付加整形器として追加するのに費用対効果がある。

Blind video quality assessment (BVQA) plays a pivotal role in evaluating and improving the viewing experience of end-users across a wide range of video-based platforms and services. Contemporary deep learning-based models primarily analyze the video content in its aggressively downsampled format, while being blind to the impact of actual spatial resolution and frame rate on video quality. In this paper, we propose a modular BVQA model, and a method of training it to improve its modularity. Specifically, our model comprises a base quality predictor, a spatial rectifier, and a temporal rectifier, responding to the visual content and distortion, spatial resolution, and frame rate changes on video quality, respectively. During training, spatial and temporal rectifiers are dropped out with some probabilities so as to make the base quality predictor a standalone BVQA model, which should work better with the rectifiers. Extensive experiments on both professionally-generated content and user generated content video databases show that our quality model achieves superior or comparable performance to current methods. Furthermore, the modularity of our model offers a great opportunity to analyze existing video quality databases in terms of their spatial and temporal complexities. Last, our BVQA model is cost-effective to add other quality-relevant video attributes such as dynamic range and color gamut as additional rectifiers.
翻訳日:2024-03-06 11:47:29 公開日:2024-03-05
# VEnvision3D:3次元マルチタスクモデル研究のための合成知覚データセット

VEnvision3D: A Synthetic Perception Dataset for 3D Multi-Task Model Research ( http://arxiv.org/abs/2402.19059v2 )

ライセンス: Link先を確認
Jiahao Zhou, Chen Long, Yue Xie, Jialiang Wang, Boheng Li, Haiping Wang, Zhe Chen, Zhen Dong(参考訳) 統一マルチタスク基盤モデルの開発は、コンピュータビジョン研究において重要な課題となっている。 現在の3Dコンピュータビジョンの分野では、ほとんどのデータセットは単一のタスクのみに焦点を当てており、様々な下流タスクの同時トレーニング要求を複雑にしている。 本稿では,深度補完,セグメンテーション,アップサンプリング,位置認識,3D再構成を含む多タスク学習のための大規模3次元合成認識データセットであるVEnvision3Dを紹介する。 タスク毎のデータは同じ環境領域に収集されるため、サブタスクは使用データの観点から本質的に整列される。 したがって、そのようなユニークな属性は、個別の訓練方法なしでマルチタスクモデルや基礎モデルの可能性を探るのに役立つ。 一方,仮想環境を自由に編集できるという利点を生かして,環境の時間変化をシミュレートし,モデル表面上の点雲をサンプリングするなど,新たな設定を実装した。 これらの特徴により、いくつかの新しいベンチマークを提示できる。 また,マルチタスクのエンド・ツー・エンドモデルに関する広範な研究を行い,今後の研究の展望,課題,機会を明らかにする。 私たちのデータセットとコードは、受け入れ次第オープンソースになります。

Developing a unified multi-task foundation model has become a critical challenge in computer vision research. In the current field of 3D computer vision, most datasets only focus on single task, which complicates the concurrent training requirements of various downstream tasks. In this paper, we introduce VEnvision3D, a large 3D synthetic perception dataset for multi-task learning, including depth completion, segmentation, upsampling, place recognition, and 3D reconstruction. Since the data for each task is collected in the same environmental domain, sub-tasks are inherently aligned in terms of the utilized data. Therefore, such a unique attribute can assist in exploring the potential for the multi-task model and even the foundation model without separate training methods. Meanwhile, capitalizing on the advantage of virtual environments being freely editable, we implement some novel settings such as simulating temporal changes in the environment and sampling point clouds on model surfaces. These characteristics enable us to present several new benchmarks. We also perform extensive studies on multi-task end-to-end models, revealing new observations, challenges, and opportunities for future research. Our dataset and code will be open-sourced upon acceptance.
翻訳日:2024-03-06 11:46:49 公開日:2024-03-05
# 喉頭血管分類における2段階異種移行学習の検討 : 課題と改善

Analysis of the Two-Step Heterogeneous Transfer Learning for Laryngeal Blood Vessel Classification: Issue and Improvement ( http://arxiv.org/abs/2402.19001v2 )

ライセンス: Link先を確認
Xinyi Fang, Chak Fong Chong, Kei Long Wong, Yapeng Wang, Wei Ke, Tiankui Zhang, Sio-Kei Im(参考訳) 自然画像から医学画像に学習した特徴の分類は一般的である。 しかし、特定の医用画像の種類が不足し、自然画像と医用画像の相違により課題が生じる。 2段階の伝達学習がこの問題の有望な解決策として認識されている。 しかし、適切な中間ドメインを選択することは、さらに分類性能を向上させる上で重要である。 そこで本研究では,糖尿病網膜データセットの色眼写真を用いて2段階の異種学習(THTL)を行い,喉頭血管像を9つのディープラーニングモデルで分類する方法について検討した。 実験の結果、中間ドメインとターゲットドメインの両方の画像は血管柄付き特性を共有しているが、最終レイヤのみを微調整したワンステップ転送学習と比較して、精度が大幅に低下している(ResNet18は14.7%、ResNet50は14.8%)。 The Layer Class Activation Maps (LayerCAM) を解析した結果, 中間領域に広く分布するラジアル血管パターンが, 標的領域の悪性度を識別するねじれ, 絡み合った血管の特徴を学習するのを防ぐことが判明した。 性能低下に対処するため,THTLの第2ステップでResNet上でのステップワイズファインチューニング(SWFT)手法を提案する。 最後の層のみが微調整されたTHTLの2番目のステップと比較して、ResNet18では26.1%、ResNet50では20.4%の精度が向上した。 さらに、スクラッチからのトレーニングと比較して、imagenetをソースドメインとして使用すると、喉頭血管の分類性能はわずかに向上するが、違いは重要ではない。

Transferring features learned from natural to medical images for classification is common. However, challenges arise due to the scarcity of certain medical image types and the feature disparities between natural and medical images. Two-step transfer learning has been recognized as a promising solution for this issue. However, choosing an appropriate intermediate domain would be critical in further improving the classification performance. In this work, we explore the effectiveness of using color fundus photographs of the diabetic retina dataset as an intermediate domain for two-step heterogeneous learning (THTL) to classify laryngeal vascular images with nine deep-learning models. Experiment results confirm that although the images in both the intermediate and target domains share vascularized characteristics, the accuracy is drastically reduced compared to one-step transfer learning, where only the last layer is fine-tuned (e.g., ResNet18 drops 14.7%, ResNet50 drops 14.8%). By analyzing the Layer Class Activation Maps (LayerCAM), we uncover a novel finding that the prevalent radial vascular pattern in the intermediate domain prevents learning the features of twisted and tangled vessels that distinguish the malignant class in the target domain. To address the performance drop, we propose the Step-Wise Fine-Tuning (SWFT) method on ResNet in the second step of THTL, resulting in substantial accuracy improvements. Compared to THTL's second step, where only the last layer is fine-tuned, accuracy increases by 26.1% for ResNet18 and 20.4% for ResNet50. Additionally, compared to training from scratch, using ImageNet as the source domain could slightly improve classification performance for laryngeal vascular, but the differences are insignificant.
翻訳日:2024-03-06 11:46:28 公開日:2024-03-05
# 高次不確かさモデルにおけるガウス過程を用いた実時間適応安全臨界制御

Real-Time Adaptive Safety-Critical Control with Gaussian Processes in High-Order Uncertain Models ( http://arxiv.org/abs/2402.18946v2 )

ライセンス: Link先を確認
Yu Zhang, Long Wen, Xiangtong Yao, Zhenshan Bing, Linghuan Kong, Wei He, and Alois Knoll(参考訳) 本稿では,不確実なパラメータを持つシステムを対象とした適応型オンライン学習フレームワークを提案する。 我々のアプローチは2つのフェーズからなる。 最初のフェーズは、新しいsparse gaussian process (gp)フレームワークを中心にしている。 そこで我々はまず, 可変スパースGPアルゴリズムを改良し, 適応性を向上する。 その後、ガウスモデルのハイパーパラメータを特別な複合カーネルでトレーニングし、学習されたハイパーパラメータとともに新しいサンプルから導出される孤立誘導点を更新することにより、ガウスモデルのオンライン推論能力と計算効率を強化する。 第2フェーズでは、以前に訓練された学習モデルと相乗効果を持つ高次制御障壁関数(HOCBF)に基づく安全フィルタを提案する。 第1フェーズから複合カーネルを活用することにより,実時間アプリケーションにおける高次元問題処理におけるGPs固有の制約を効果的に解決する。 導出コントローラは、安全仕様を満たす確率において厳密な下界を確保する。 最後に,シミュレーションプラットフォームと実世界の7-DOFロボットを用いて実時間障害物回避実験により,提案アルゴリズムの有効性を実証した。

This paper presents an adaptive online learning framework for systems with uncertain parameters to ensure safety-critical control in non-stationary environments. Our approach consists of two phases. The initial phase is centered on a novel sparse Gaussian process (GP) framework. We first integrate a forgetting factor to refine a variational sparse GP algorithm, thus enhancing its adaptability. Subsequently, the hyperparameters of the Gaussian model are trained with a specially compound kernel, and the Gaussian model's online inferential capability and computational efficiency are strengthened by updating a solitary inducing point derived from new samples, in conjunction with the learned hyperparameters. In the second phase, we propose a safety filter based on high-order control barrier functions (HOCBFs), synergized with the previously trained learning model. By leveraging the compound kernel from the first phase, we effectively address the inherent limitations of GPs in handling high-dimensional problems for real-time applications. The derived controller ensures a rigorous lower bound on the probability of satisfying the safety specification. Finally, the efficacy of our proposed algorithm is demonstrated through real-time obstacle avoidance experiments executed using both a simulation platform and a real-world 7-DOF robot.
翻訳日:2024-03-06 11:45:54 公開日:2024-03-05
# 分光データ復調のためのトレーニングセットなし2段階深層学習

Training-set-free two-stage deep learning for spectroscopic data de-noising ( http://arxiv.org/abs/2402.18830v2 )

ライセンス: Link先を確認
Dongchen Huang, Junde Liu, Tian Qian, and Hongming Weng(参考訳) ノイズ除去は、スペクトル後処理手順における顕著なステップである。 従来の機械学習ベースの手法は高速だが、主に教師付き学習に基づいており、実際の実験的な測定で一般的に高価なトレーニングセットを必要とする。 教師なし学習に基づくアルゴリズムは、収束を達成するために多くのイテレーションを必要とする。 ここでは、このギャップをトレーニングセットのない2段階深層学習手法によって埋める。 従来手法のファジィ固定入力は適応前処理を導入することで改善可能であることを示す。 より高度な最適化手法と組み合わせることで,従来の5倍の高速化を実現することができる。 理論的には, 対応する非凸線形問題の展望を考察し, この問題には一階アルゴリズムが収束するための良性幾何が存在することを示す。

De-noising is a prominent step in the spectra post-processing procedure. Previous machine learning-based methods are fast but mostly based on supervised learning and require a training set that may be typically expensive in real experimental measurements. Unsupervised learning-based algorithms are slow and require many iterations to achieve convergence. Here, we bridge this gap by proposing a training-set-free two-stage deep learning method. We show that the fuzzy fixed input in previous methods can be improved by introducing an adaptive prior. Combined with more advanced optimization techniques, our approach can achieve five times acceleration compared to previous work. Theoretically, we study the landscape of a corresponding non-convex linear problem, and our results indicates that this problem has benign geometry for first-order algorithms to converge.
翻訳日:2024-03-06 11:45:35 公開日:2024-03-05
# Open Decoder Gerv\'asio PT*によるポルトガル語生成AIの強化

Advancing Generative AI for Portuguese with Open Decoder Gerv\'asio PT* ( http://arxiv.org/abs/2402.18766v2 )

ライセンス: Link先を確認
Rodrigo Santos, Jo\~ao Silva, Lu\'is Gomes, Jo\~ao Rodrigues, Ant\'onio Branco(参考訳) 本稿では,ポルトガル語のニューラルデコードを促進するために,トランスフォーマーをベースとした命令調整型デコーダモデルを提案する。 私たちがgerv\'asio pt*と命名したこのデコーダを開発するために、強いllama~2 7bモデルが出発点として使われ、この目的のために準備されたポルトガル語の新しい命令データセットを含む言語リソースに対して、追加のトレーニングによってさらなる改善が行われた。 gerv\'asioのすべてのバージョンはオープンソースであり、研究用または商用用を含むオープンライセンス下で無償で配布されており、消費者レベルのハードウェア上で動作可能であるため、ポルトガル語のための言語技術の研究とイノベーションの進展に貢献したいと考えている。

To advance the neural decoding of Portuguese, in this paper we present a fully open Transformer-based, instruction-tuned decoder model that sets a new state of the art in this respect. To develop this decoder, which we named Gerv\'asio PT*, a strong LLaMA~2 7B model was used as a starting point, and its further improvement through additional training was done over language resources that include new instruction data sets of Portuguese prepared for this purpose, which are also contributed in this paper. All versions of Gerv\'asio are open source and distributed for free under an open license, including for either research or commercial usage, and can be run on consumer-grade hardware, thus seeking to contribute to the advancement of research and innovation in language technology for Portuguese.
翻訳日:2024-03-06 11:45:24 公開日:2024-03-05
# 大規模言語モデルに基づくエージェントプラットフォームにおけるパーソナライズドレコメンデーション

Prospect Personalized Recommendation on Large Language Model-based Agent Platform ( http://arxiv.org/abs/2402.18240v2 )

ライセンス: Link先を確認
Jizhi Zhang, Keqin Bao, Wenjie Wang, Yang Zhang, Wentao Shi, Wanhong Xu, Fuli Feng, Tat-Seng Chua(参考訳) GPTによって実証されたエージェント指向情報システムでは,エージェントレベルの情報処理をサポートするための情報システム基盤の検査や,対話性などのLarge Language Model(LLM)ベースのエージェントの特性に適応するよう促される。 本研究では, LLMをベースとしたエージェントプラットフォームにおけるレコメンダシステムの展望と, エージェントアイテムとエージェントレコメンダで構成されるRec4Agentverseと呼ばれる新しいレコメンデーションパラダイムを導入する。 Rec4Agentverseは、エージェントアイテムとエージェントリコメンダの協調を強調し、パーソナライズされた情報サービスを促進し、従来のユーザ-リコメンダフィードバックループを超えて情報の交換を強化する。 さらに,rec4agentverseの進化を展望し,エージェントアイテム,エージェントレコメンデータ,ユーザ間のインタラクションと情報交換の強化に基づいて3段階に概念化する。 Rec4Agentverseのいくつかの症例に関する予備研究は、その応用の可能性を検証する。 最後に,今後の課題と今後の方向性について考察する。

The new kind of Agent-oriented information system, exemplified by GPTs, urges us to inspect the information system infrastructure to support Agent-level information processing and to adapt to the characteristics of Large Language Model (LLM)-based Agents, such as interactivity. In this work, we envisage the prospect of the recommender system on LLM-based Agent platforms and introduce a novel recommendation paradigm called Rec4Agentverse, comprised of Agent Items and Agent Recommender. Rec4Agentverse emphasizes the collaboration between Agent Items and Agent Recommender, thereby promoting personalized information services and enhancing the exchange of information beyond the traditional user-recommender feedback loop. Additionally, we prospect the evolution of Rec4Agentverse and conceptualize it into three stages based on the enhancement of the interaction and information exchange among Agent Items, Agent Recommender, and the user. A preliminary study involving several cases of Rec4Agentverse validates its significant potential for application. Lastly, we discuss potential issues and promising directions for future research.
翻訳日:2024-03-06 11:45:08 公開日:2024-03-05
# 人間のシミュラクラ:大規模言語モデルのパーソナライズに向けて

Human Simulacra: A Step toward the Personification of Large Language Models ( http://arxiv.org/abs/2402.18180v3 )

ライセンス: Link先を確認
Qiuejie Xie, Qiming Feng, Tianqi Zhang, Qingqiu Li, Yuejie Zhang, Rui Feng, Shang Gao(参考訳) 大規模言語モデル(LLM)は人間の知性の側面を忠実に模倣するシステムとして認識されている。 この能力は社会科学界から注目を集めており、LLMを活用して人間の実験参加者を置き換え、研究コストと複雑さを低減させる可能性があると考えている。 本稿では,人間の認知過程をシミュレートするマルチエージェント認知機構と,自己と観察の両方の観点から人間のシミュレーションを評価する心理誘導評価手法を含む,大規模言語モデルの擬人化のためのフレームワークを紹介する。 実験の結果,構築したシミュラクラは,対象キャラクタに合わせた人格化応答を生成できることが判明した。 我々の研究は予備的な探索であり、実践的な応用に大きな可能性を秘めている。 すべてのコードとデータセットがリリースされ、さらなる調査を促進することを期待している。

Large language models (LLMs) are recognized as systems that closely mimic aspects of human intelligence. This capability has attracted attention from the social science community, who see the potential in leveraging LLMs to replace human participants in experiments, thereby reducing research costs and complexity. In this paper, we introduce a framework for large language models personification, including a strategy for constructing virtual characters' life stories from the ground up, a Multi-Agent Cognitive Mechanism capable of simulating human cognitive processes, and a psychology-guided evaluation method to assess human simulations from both self and observational perspectives. Experimental results demonstrate that our constructed simulacra can produce personified responses that align with their target characters. Our work is a preliminary exploration which offers great potential in practical applications. All the code and datasets will be released, with the hope of inspiring further investigations.
翻訳日:2024-03-06 11:44:50 公開日:2024-03-05
# SynArtifact:視覚言語モデルによる合成画像中のアーティファクトの分類と緩和

SynArtifact: Classifying and Alleviating Artifacts in Synthetic Images via Vision-Language Model ( http://arxiv.org/abs/2402.18068v2 )

ライセンス: Link先を確認
Bin Cao, Jianhao Yuan, Yexin Liu, Jian Li, Shuyang Sun, Jing Liu, Bo Zhao(参考訳) 画像合成の急速に発展する領域において、深刻な課題は、合成画像の知覚的現実主義を妥協する複雑な人工物の存在である。 人工画像の品質を向上させるため,我々は,多種多様な人工物を自動的に識別・分類し,生成モデルをさらに最適化するための監督を行うために,人工物分類器としてVLM(Vision-Language Model)を微調整した。 具体的には,包括的アーティファクト分類法を開発し,synartifact-1kと呼ばれる微調整vlmのためのアーティファクトアノテーションを用いた合成画像のデータセットを構築する。 微調整されたVLMは、アーティファクトを識別する優れた能力を示し、ベースラインを25.66%上回る。 私たちの知る限り、このようなエンドツーエンドのアーティファクト分類タスクとソリューションが提案されたのはこれが初めてです。 最後に,VLMの出力をフィードバックとして活用し,人工物の緩和のための生成モデルを改良する。 可視化結果とユーザスタディにより,精製拡散モデルにより合成した画像の品質が明らかに向上した。

In the rapidly evolving area of image synthesis, a serious challenge is the presence of complex artifacts that compromise perceptual realism of synthetic images. To alleviate artifacts and improve quality of synthetic images, we fine-tune Vision-Language Model (VLM) as artifact classifier to automatically identify and classify a wide range of artifacts and provide supervision for further optimizing generative models. Specifically, we develop a comprehensive artifact taxonomy and construct a dataset of synthetic images with artifact annotations for fine-tuning VLM, named SynArtifact-1K. The fine-tuned VLM exhibits superior ability of identifying artifacts and outperforms the baseline by 25.66%. To our knowledge, this is the first time such end-to-end artifact classification task and solution have been proposed. Finally, we leverage the output of VLM as feedback to refine the generative model for alleviating artifacts. Visualization results and user study demonstrate that the quality of images synthesized by the refined diffusion model has been obviously improved.
翻訳日:2024-03-06 11:44:35 公開日:2024-03-05
# pac-fno:低品質画像認識のための並列構造全成分フーリエニューラルネットワーク

PAC-FNO: Parallel-Structured All-Component Fourier Neural Operators for Recognizing Low-Quality Images ( http://arxiv.org/abs/2402.12721v3 )

ライセンス: Link先を確認
Jinsung Jeon, Hyundong Jin, Jonghyun Choi, Sanghyun Hong, Dongeun Lee, Kookjin Lee, Noseong Park(参考訳) 画像認識モデルを開発する標準的なプラクティスは、特定の画像解像度でモデルをトレーニングし、デプロイすることです。 しかし、実世界の推論では、モデルはしばしば、解像度のトレーニングセットとは異なるイメージや、天候の変化、ノイズタイプ、圧縮アーティファクトといった自然なバリエーションに遭遇する。 従来のソリューションでは、解像度や入力のバリエーションの異なる複数のモデルを訓練するが、これらの手法は計算コストが高く、実際にはスケールしない。 この目的のために,並列構造および全成分フーリエニューラル演算子 (PAC-FNO) を用いた新しいニューラルネットワークモデルを提案する。 従来のフィードフォワードニューラルネットワークとは異なり、PAC-FNOは周波数領域で動作し、単一のモデル内で様々な解像度の画像を処理することができる。 また、元の下流モデルに最小限の修正を加えてPAC-FNOを訓練するための2段階のアルゴリズムを提案する。 さらに、提案したPAC-FNOは既存の画像認識モデルで動作する準備ができている。 7つの画像認識ベンチマークを用いた大規模評価手法により,提案したPAC-FNOは,様々な解像度の画像上での既存のベースラインモデルの性能を77.1%向上し,推論時の画像の様々な種類の自然変化を改善できることを示す。

A standard practice in developing image recognition models is to train a model on a specific image resolution and then deploy it. However, in real-world inference, models often encounter images different from the training sets in resolution and/or subject to natural variations such as weather changes, noise types and compression artifacts. While traditional solutions involve training multiple models for different resolutions or input variations, these methods are computationally expensive and thus do not scale in practice. To this end, we propose a novel neural network model, parallel-structured and all-component Fourier neural operator (PAC-FNO), that addresses the problem. Unlike conventional feed-forward neural networks, PAC-FNO operates in the frequency domain, allowing it to handle images of varying resolutions within a single model. We also propose a two-stage algorithm for training PAC-FNO with a minimal modification to the original, downstream model. Moreover, the proposed PAC-FNO is ready to work with existing image recognition models. Extensively evaluating methods with seven image recognition benchmarks, we show that the proposed PAC-FNO improves the performance of existing baseline models on images with various resolutions by up to 77.1% and various types of natural variations in the images at inference.
翻訳日:2024-03-06 11:44:18 公開日:2024-03-05
# DoRA:重量分解低ランク適応

DoRA: Weight-Decomposed Low-Rank Adaptation ( http://arxiv.org/abs/2402.09353v3 )

ライセンス: Link先を確認
Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Min-Hung Chen(参考訳) 広く使われているパラメータ効率ファインタニング(PEFT)法の中で、LoRAとその変種は追加の推論コストを避けるためにかなりの人気を得ている。 しかし、これらの手法とフル微調整(FT)の間には精度のギャップがまだ残っている。 本稿では,FTとLoRAの相違点を明らかにするために,新しい重量分解解析法を提案する。 本研究は,FTの学習能力に類似して,重み分解型低ランク適応(DoRA)を提案する。 DoRAは、トレーニング済みの重量を2つのコンポーネント、マグニチュードと方向に分解して微調整し、特に、トレーニング可能なパラメータの数を効率的に最小化するために、方向更新にLoRAを使用している。 DoRAを用いることで、LoRAの学習能力とトレーニング安定性を向上するとともに、追加の推論オーバーヘッドを回避できる。 DoRAは、LLaMA、LLaVA、VL-BARTなどの様々な下流タスク、例えばコモンセンス推論、ビジュアルインストラクションチューニング、画像/ビデオテキスト理解において、LoRAよりも一貫して優れている。

Among the widely used parameter-efficient finetuning (PEFT) methods, LoRA and its variants have gained considerable popularity because of avoiding additional inference costs. However, there still often exists an accuracy gap between these methods and full fine-tuning (FT). In this work, we first introduce a novel weight decomposition analysis to investigate the inherent differences between FT and LoRA. Aiming to resemble the learning capacity of FT from the findings, we propose Weight-Decomposed LowRank Adaptation (DoRA). DoRA decomposes the pre-trained weight into two components, magnitude and direction, for fine-tuning, specifically employing LoRA for directional updates to efficiently minimize the number of trainable parameters. By employing DoRA, we enhance both the learning capacity and training stability of LoRA while avoiding any additional inference overhead. DoRA consistently outperforms LoRA on fine-tuning LLaMA, LLaVA, and VL-BART on various downstream tasks, such as commonsense reasoning, visual instruction tuning, and image/video-text understanding.
翻訳日:2024-03-06 11:43:57 公開日:2024-03-05
# LLaMoCo:最適化コード生成のための大規模言語モデルの命令チューニング

LLaMoCo: Instruction Tuning of Large Language Models for Optimization Code Generation ( http://arxiv.org/abs/2403.01131v2 )

ライセンス: Link先を確認
Zeyuan Ma, Hongshu Guo, Jiacheng Chen, Guojun Peng, Zhiguang Cao, Yining Ma, Yue-Jiao Gong(参考訳) 最近の研究は、llmsから次段階のソリューションを反復的に探すか、オプティマイザにllmを直接促すことによって、大規模言語モデル(llm)による最適化を探求している。 しかしながら、これらのアプローチは、運用効率の低下、設計の迅速化への高感度化、ドメイン固有の知識の欠如など、固有の制限を示す。 LLaMoCoは,LLMをコード-コード方式で最適化問題に適応する最初の命令チューニングフレームワークである。 具体的には、よく記述された問題プロンプトと効果的な最適化コードを含む包括的命令セットを確立する。 そこで本研究では,コントラスト学習に基づくウォームアップ手順を指導調整フェーズの前に組み込んだ新しい2相学習戦略を開発し,モデルの微調整時の収束挙動を向上させる。 実験の結果,LLaMoCoにより微調整されたCodeGen(350M)モデルでは,合成問題と現実問題の両方において,GPT-4 Turboや他の競合製品と比較して優れた最適化性能が得られた。 微調整されたモデルと使用指示はhttps://anonymous.4open.science/r/LLaMoCo-722Aで入手できる。

Recent research explores optimization using large language models (LLMs) by either iteratively seeking next-step solutions from LLMs or directly prompting LLMs for an optimizer. However, these approaches exhibit inherent limitations, including low operational efficiency, high sensitivity to prompt design, and a lack of domain-specific knowledge. We introduce LLaMoCo, the first instruction-tuning framework designed to adapt LLMs for solving optimization problems in a code-to-code manner. Specifically, we establish a comprehensive instruction set containing well-described problem prompts and effective optimization codes. We then develop a novel two-phase learning strategy that incorporates a contrastive learning-based warm-up procedure before the instruction-tuning phase to enhance the convergence behavior during model fine-tuning. The experiment results demonstrate that a CodeGen (350M) model fine-tuned by our LLaMoCo achieves superior optimization performance compared to GPT-4 Turbo and the other competitors across both synthetic and realistic problem sets. The fine-tuned model and the usage instructions are available at https://anonymous.4open.science/r/LLaMoCo-722A.
翻訳日:2024-03-06 11:29:05 公開日:2024-03-05
# ロスランドスケープの感度解析

Sensitivity Analysis On Loss Landscape ( http://arxiv.org/abs/2403.01128v2 )

ライセンス: Link先を確認
Salman Faroz(参考訳) 感度分析には勾配を用いることができる。 ここでは,損失環境の利点を生かして,どの独立変数が依存変数に影響を与えるかを理解する。 我々は,第1,第2,第3導関数を自動微分により活用し,損失景観の把握を目指す。 スピアマンのランク相関係数は、2つの変数の間の単調な関係を検出できる。 しかし,この手法では,2階勾配がスピアマン結果と類似して可視化可能な情報を提供し,活性化関数を付加した損失関数を組み込んだ結果,非線形パターンが得られることがわかった。 再訓練によって失われた風景を探索するごとに、新たな貴重な情報が得られる。 さらに、第1および第3の微分もまた、独立変数が依存変数にどの程度影響するかを示すため、有益である。

Gradients can be employed for sensitivity analysis. Here, we leverage the advantages of the Loss Landscape to comprehend which independent variables impact the dependent variable. We seek to grasp the loss landscape by utilizing first, second, and third derivatives through automatic differentiation. we know that Spearman's rank correlation coefficient can detect the monotonic relationship between two variables. However, I have found that second-order gradients, with certain configurations and parameters, provide information that can be visualized similarly to Spearman results, In this approach, we incorporate a loss function with an activation function, resulting in a non-linear pattern. Each exploration of the loss landscape through retraining yields new valuable information. Furthermore, the first and third derivatives are also beneficial, as they indicate the extent to which independent variables influence the dependent variable.
翻訳日:2024-03-06 11:28:46 公開日:2024-03-05
# 見失う:幾何学的制約のある確率論的モデリングによる新しいバイオメディカル概念の発見

Seeing Unseen: Discover Novel Biomedical Concepts via Geometry-Constrained Probabilistic Modeling ( http://arxiv.org/abs/2403.01053v2 )

ライセンス: Link先を確認
Jianan Fan, Dongnan Liu, Hang Chang, Heng Huang, Mei Chen, and Weidong Cai(参考訳) 機械学習は、そのデータ駆動性によって科学的発見の基本的な実践を変革する、という大きな約束を持っている。 研究データ収集がどんどん増えていく中、観察データからパターンや洞察を自律的に探究し、新しい表現型や概念の発見に役立てることができるだろう。 しかし, 生物医学領域では, 累積データに固有の課題がいくつか存在し, 新たなクラス発見の進展を阻害している。 異なるクラス間の厳しい不均衡を伴う非i.i.d.データ分布は、本質的に曖昧で偏った意味表現をもたらす。 本研究では,幾何制約付き確率的モデリング処理を行い,その課題を解決する。 まず、分布の遅延バイアスの干渉を考慮するために、最小のvon MisesFisher分布としてインスタンス埋め込みの近似後部をパラメータ化することを提案する。 次に,構築された埋め込み空間のレイアウトに適切な制約を課すために,重要な幾何学的性質のスイートを組み込んで,未知のクラス学習や構造化の制御不能なリスクを最小化する。 さらに, 潜在新規クラス数を推定するために, スペクトルグラフ理論法を考案した。 これは、既存のアプローチと比較して興味深い2つの利点、すなわち、高い計算効率と分類順応性推定の柔軟性を継承する。 様々なバイオメディカルシナリオにまたがる広範囲な実験により,本手法の有効性と汎用性を実証した。

Machine learning holds tremendous promise for transforming the fundamental practice of scientific discovery by virtue of its data-driven nature. With the ever-increasing stream of research data collection, it would be appealing to autonomously explore patterns and insights from observational data for discovering novel classes of phenotypes and concepts. However, in the biomedical domain, there are several challenges inherently presented in the cumulated data which hamper the progress of novel class discovery. The non-i.i.d. data distribution accompanied by the severe imbalance among different groups of classes essentially leads to ambiguous and biased semantic representations. In this work, we present a geometry-constrained probabilistic modeling treatment to resolve the identified issues. First, we propose to parameterize the approximated posterior of instance embedding as a marginal von MisesFisher distribution to account for the interference of distributional latent bias. Then, we incorporate a suite of critical geometric properties to impose proper constraints on the layout of constructed embedding space, which in turn minimizes the uncontrollable risk for unknown class learning and structuring. Furthermore, a spectral graph-theoretic method is devised to estimate the number of potential novel classes. It inherits two intriguing merits compared to existent approaches, namely high computational efficiency and flexibility for taxonomy-adaptive estimation. Extensive experiments across various biomedical scenarios substantiate the effectiveness and general applicability of our method.
翻訳日:2024-03-06 11:28:33 公開日:2024-03-05
# Wasserstein生成逆数ネットワークを用いたデータ拡張によるAndroidマルウェア検出の改善

Improving Android Malware Detection Through Data Augmentation Using Wasserstein Generative Adversarial Networks ( http://arxiv.org/abs/2403.00890v2 )

ライセンス: Link先を確認
Kawana Stalin, Mikias Berhanu Mekoya(参考訳) Generative Adversarial Networks (GAN) は、データ拡張やマルウェア検出など、様々なアプリケーションでその汎用性を実証している。 本研究は,GAN生成データを用いたAndroidマルウェア検出モデルのトレーニングの有効性について検討する。 この研究は,Androidアプリケーションの相当なストレージ要件を考慮し,GANを用いてデータを合成的に表現し,ストレージ要求を低減させる手法を提案する。 提案手法では,既存のデータセットから抽出した特徴のイメージ表現を作成する。 GANモデルを使用して、現実的な合成グレースケール画像からなるより広範なデータセットを生成する。 その後、この合成データセットを使用して、これまで目に見えないAndroidマルウェアアプリケーションを特定するように設計された畳み込みニューラルネットワーク(CNN)をトレーニングする。 本研究は,ganが生成する合成画像と実画像で訓練したcnnの性能の比較分析を含む。 さらに,Wasserstein Generative Adversarial Network (WGAN)とDeep Convolutional Generative Adversarial Network (DCGAN)のパフォーマンスの変動について検討した。 この調査は、画像サイズとマルウェアの難読化が分類モデルの有効性に与える影響について研究している。 この研究で実装されたデータ拡張アプローチは、データセットに依存する1.5%から7%までの分類モデルの顕著な性能向上をもたらした。 F1の最高得点は0.975点に達した。 キーワード--生成型adversarial network、androidマルウェア、データ拡張、wasserstein生成型adversarial network

Generative Adversarial Networks (GANs) have demonstrated their versatility across various applications, including data augmentation and malware detection. This research explores the effectiveness of utilizing GAN-generated data to train a model for the detection of Android malware. Given the considerable storage requirements of Android applications, the study proposes a method to synthetically represent data using GANs, thereby reducing storage demands. The proposed methodology involves creating image representations of features extracted from an existing dataset. A GAN model is then employed to generate a more extensive dataset consisting of realistic synthetic grayscale images. Subsequently, this synthetic dataset is utilized to train a Convolutional Neural Network (CNN) designed to identify previously unseen Android malware applications. The study includes a comparative analysis of the CNN's performance when trained on real images versus synthetic images generated by the GAN. Furthermore, the research explores variations in performance between the Wasserstein Generative Adversarial Network (WGAN) and the Deep Convolutional Generative Adversarial Network (DCGAN). The investigation extends to studying the impact of image size and malware obfuscation on the classification model's effectiveness. The data augmentation approach implemented in this study resulted in a notable performance enhancement of the classification model, ranging from 1.5% to 7%, depending on the dataset. The highest achieved F1 score reached 0.975. Keywords--Generative Adversarial Networks, Android Malware, Data Augmentation, Wasserstein Generative Adversarial Network
翻訳日:2024-03-06 11:28:14 公開日:2024-03-05
# 制御語彙を持つ列ヘッダのテキスト分類-メタデータの充実にLLMを活用する

Text classification of column headers with a controlled vocabulary: leveraging LLMs for metadata enrichment ( http://arxiv.org/abs/2403.00884v2 )

ライセンス: Link先を確認
Margherita Martorana, Tobias Kuhn, Lise Stork, Jacco van Ossenbruggen(参考訳) 従来のデータセット検索システムは、データ値ではなくメタデータ情報をインデックスする。 したがって、主に手動のアノテーションと高品質なメタデータに依存し、労働集約的で自動化が難しいことが知られているプロセスである。 本稿では,3つのLarge Language Model (LLM) を用いた列ヘッダのトピックアノテーションによるメタデータの充実を支援する手法を提案する。 制御語彙からドメイン固有のトピックに基づいて列ヘッダを分類するLLM機能について検討する。 本研究では, LLMの内部整合性, マシン間アライメント, トピック分類タスクに対する人間と機械の合意性を評価することによって, アプローチを評価する。 さらに,文脈情報(データセット記述)が分類結果に与える影響についても検討する。 以上の結果から,ChatGPTとGoogleGeminiは内部整合性およびLLMアライメントでGoogleBardを上回ったことが示唆された。 興味深いことに、LLMのパフォーマンスに文脈が影響を与えないことがわかりました。 本研究では,制御された話題語彙を用いたテキスト分類に LLM を活用する手法を提案する。この手法は,自動メタデータの充実を促進する可能性を秘め,Web 上の研究データのデータセット検索とFinderability, Accessibility, Interoperability and Reusability (FAIR) を向上する。

Traditional dataset retrieval systems index on metadata information rather than on the data values. Thus relying primarily on manual annotations and high-quality metadata, processes known to be labour-intensive and challenging to automate. We propose a method to support metadata enrichment with topic annotations of column headers using three Large Language Models (LLMs): ChatGPT-3.5, GoogleBard and GoogleGemini. We investigate the LLMs ability to classify column headers based on domain-specific topics from a controlled vocabulary. We evaluate our approach by assessing the internal consistency of the LLMs, the inter-machine alignment, and the human-machine agreement for the topic classification task. Additionally, we investigate the impact of contextual information (i.e. dataset description) on the classification outcomes. Our results suggest that ChatGPT and GoogleGemini outperform GoogleBard for internal consistency as well as LLM-human-alignment. Interestingly, we found that context had no impact on the LLMs performances. This work proposes a novel approach that leverages LLMs for text classification using a controlled topic vocabulary, which has the potential to facilitate automated metadata enrichment, thereby enhancing dataset retrieval and the Findability, Accessibility, Interoperability and Reusability (FAIR) of research data on the Web.
翻訳日:2024-03-06 11:27:49 公開日:2024-03-05
# gradient cuff: 大規模な言語モデルにおける脱獄攻撃の拒否的損失状況の検討

Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes ( http://arxiv.org/abs/2403.00867v2 )

ライセンス: Link先を確認
Xiaomeng Hu, Pin-Yu Chen, Tsung-Yi Ho(参考訳) 大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。 害と誤用を減らすため、Reinforcement Learning from Human Feedback (RLHF)のような高度なトレーニング技術を用いて、これらのLCMを人間の価値に合わせる努力がなされている。 しかし、最近の研究は、組込み安全ガードレールを覆い隠そうとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。 この課題に対処するために,本論文では,LLMの拒絶損失を定義し,次に脱獄を検知するためのGradient Cuffと呼ばれる手法を提案する。 勾配カフは、機能値とその滑らかさを含む拒絶損失景観で観察されるユニークな特性を利用して、効果的な2段階検出戦略を設計する。 2種類のLLM(LLaMA-2-7B-ChatとVicuna-7B-V1.5)と6種類のJailbreak攻撃(GCG, AutoDAN, PAIR, TAP, Base64, LRL)による実験結果から,Gradient Cuffは検出しきい値を調整することによって良質なユーザクエリに対するモデルの性能を維持しつつ、悪質なJailbreakクエリに対するLLMの拒否能力を著しく改善できることが示された。

Large Language Models (LLMs) are becoming a prominent generative AI tool, where the user enters a query and the LLM generates an answer. To reduce harm and misuse, efforts have been made to align these LLMs to human values using advanced training techniques such as Reinforcement Learning from Human Feedback (RLHF). However, recent studies have highlighted the vulnerability of LLMs to adversarial jailbreak attempts aiming at subverting the embedded safety guardrails. To address this challenge, this paper defines and investigates the Refusal Loss of LLMs and then proposes a method called Gradient Cuff to detect jailbreak attempts. Gradient Cuff exploits the unique properties observed in the refusal loss landscape, including functional values and its smoothness, to design an effective two-step detection strategy. Experimental results on two aligned LLMs (LLaMA-2-7B-Chat and Vicuna-7B-V1.5) and six types of jailbreak attacks (GCG, AutoDAN, PAIR, TAP, Base64, and LRL) show that Gradient Cuff can significantly improve the LLM's rejection capability for malicious jailbreak queries, while maintaining the model's performance for benign user queries by adjusting the detection threshold.
翻訳日:2024-03-06 11:27:27 公開日:2024-03-05
# CLLMs: 一貫性のある大規模言語モデル

CLLMs: Consistency Large Language Models ( http://arxiv.org/abs/2403.00835v2 )

ライセンス: Link先を確認
Siqi Kou, Lanxiang Hu, Zhezhi He, Zhijie Deng, Hao Zhang(参考訳) ヤコビ復号法のような並列復号法は、LCM復号プロセスのシーケンシャルな性質を破り、並列化可能な計算に変換するため、より効率的なLCM推論を約束する。 しかし実際には、従来のオートレグレッシブ(ar)デコードに比べて、ほとんどスピードアップしない。なぜなら、ジャコビデコードでは、1つの固定ポイントイテレーションステップで複数のトークンを正確に予測することがほとんどないからだ。 そこで我々は,ヤコビ軌道上の任意の状態から不動点への高速収束を実現するための新しい手法を開発した。 これは、任意の状態が入力として与えられた固定点を一貫して予測するために、目標LSMを精製することで達成される。 拡張実験により,提案手法の有効性を実証し,22.4$\times$を3.4$\times$に改善し,ドメイン固有のベンチマークとオープンドメインベンチマークの両方で生成品質を保った。

Parallel decoding methods such as Jacobi decoding show promise for more efficient LLM inference as it breaks the sequential nature of the LLM decoding process and transforms it into parallelizable computation. However, in practice, it achieves little speedup compared to traditional autoregressive (AR) decoding, primarily because Jacobi decoding seldom accurately predicts more than one token in a single fixed-point iteration step. To address this, we develop a new approach aimed at realizing fast convergence from any state to the fixed point on a Jacobi trajectory. This is accomplished by refining the target LLM to consistently predict the fixed point given any state as input. Extensive experiments demonstrate the effectiveness of our method, showing 2.4$\times$ to 3.4$\times$ improvements in generation speed while preserving generation quality across both domain-specific and open-domain benchmarks.
翻訳日:2024-03-06 11:26:56 公開日:2024-03-05
# 例外を知る: 知識表現における例外のオントロジーに向けて

Know your exceptions: Towards an Ontology of Exceptions in Knowledge Representation ( http://arxiv.org/abs/2403.00685v2 )

ライセンス: Link先を確認
Gabriele Sacco, Loris Bozzato, Oliver Kutz(参考訳) 難解な推論は、ある一般化があらゆる状況において有効でない場合があり、その場合の一般的な結論が失敗するような推論の一種である。 この種の推論をモデル化するために様々な形式主義が開発されてきた。 しかし、モデルラーがこれらのシステムの中から、オントロジの観点からそのドメインに合致するものを選択することは容易ではない。 本稿ではまず,形式主義を比較し,その存在論的コミットメントを明らかにするために,例外性とデファシビリティの概念に基づく枠組みを提案する。 そして,この枠組みを用いて4つのシステムを比較し,存在論的観点から生じる相違点を示す。

Defeasible reasoning is a kind of reasoning where some generalisations may not be valid in all circumstances, that is general conclusions may fail in some cases. Various formalisms have been developed to model this kind of reasoning, which is characteristic of common-sense contexts. However, it is not easy for a modeller to choose among these systems the one that better fits its domain from an ontological point of view. In this paper we first propose a framework based on the notions of exceptionality and defeasibility in order to be able to compare formalisms and reveal their ontological commitments. Then, we apply this framework to compare four systems, showing the differences that may occur from an ontological perspective.
翻訳日:2024-03-06 11:26:37 公開日:2024-03-05
# 静磁モードと可変光キャビティを用いたマイクロ波-光変換

Microwave-to-optics conversion using magnetostatic modes and a tunable optical cavity ( http://arxiv.org/abs/2403.00345v2 )

ライセンス: Link先を確認
Wei-Jiang Wu, Yi-Pu Wang, Jie Li, Gang Li, and J. Q. You(参考訳) 量子コンピューティング、量子通信、量子ネットワークは異なる周波数範囲で動作するハイブリッド量子システムに依存している。 例えば、超伝導量子ビットはギガヘルツの範囲で動作し、通信に用いられる光光子は数百テラヘルツの範囲内である。 大きな周波数ミスマッチのため、情報キャリア間の直接結合と情報交換を実現することは一般的に困難である。 そのため、異なる周波数で動作する異なる量子システム間の情報リンクを確立するブリッジとして機能する量子インタフェースが要求される。 近年,強磁性スピン系のマグノンモードが注目されている。 固有の弱光子結合強度は、マグノンを用いたマイクロ波-光子変換効率を制限するが、マグノンモードの汎用性は他の量子系と容易に達成可能な強い結合性とともに、多くの異なる利点を持つ。 本稿では,自由スペクトル範囲を調整可能な光学キャビティと,2つのマイクロ波キャビティ構成の異なる磁気静磁場モードを採用することで,マグノンベースのマイクロ波光界面を実現する。 パラメータを最適化することにより、内部変換効率が1.28 \times 10^{-7}$となる。 各種パラメータがマイクロ波-光学変換に与える影響を解析した。 この研究は、マグノンを用いたマイクロ波-光学変換効率をさらに高めるための有用なガイダンスと洞察を提供する。

Quantum computing, quantum communication and quantum networks rely on hybrid quantum systems operating in different frequency ranges. For instance, the superconducting qubits work in the gigahertz range, while the optical photons used in communication are in the range of hundreds of terahertz. Due to the large frequency mismatch, achieving the direct coupling and information exchange between different information carriers is generally difficult. Accordingly, a quantum interface is demanded, which serves as a bridge to establish information linkage between different quantum systems operating at distinct frequencies. Recently, the magnon mode in ferromagnetic spin systems has received significant attention. While the inherent weak optomagnonic coupling strength restricts the microwave-to-optical photon conversion efficiency using magnons, the versatility of the magnon modes, together with their readily achievable strong coupling with other quantum systems, endow them with many distinct advantages. Here, we realize the magnon-based microwave-light interface by adopting an optical cavity with adjustable free spectrum range and different kinds of magnetostatic modes in two microwave cavity configurations. By optimizing the parameters, an internal conversion efficiency of $1.28 \times 10^{-7}$ is achieved. We analyze the impact of various parameters on the microwave-to-optics conversion. The study provides useful guidance and insights to further enhancing the microwave-to-optics conversion efficiency using magnons.
翻訳日:2024-03-06 11:26:26 公開日:2024-03-05
# オフラインスキル拡散によるロバスト政策学習

Robust Policy Learning via Offline Skill Diffusion ( http://arxiv.org/abs/2403.00225v2 )

ライセンス: Link先を確認
Woo Kyung Kim, Minjong Yoo, Honguk Woo(参考訳) スキルベース強化学習(RL)アプローチは,特に階層構造による長期タスクの解決において,大きな可能性を秘めている。 これらのスキルは、オフラインデータセットからタスク非依存に学習され、新しいタスクのポリシー学習プロセスを加速することができる。 しかし、これらのスキルを異なるドメインに適用することは、データセットに固有の依存関係があるため制限されているため、データセットのドメインとは異なるターゲットドメインに対してRLを介してスキルベースのポリシーを学習しようとする場合、課題となる。 本稿では,データセット内の限られたスキルから拡張された多用途なスキルを生成するための指導拡散モデルを用いて,異なる領域のタスクに対するポリシ学習の堅牢性を高める,オフラインスキル学習フレームワークduskillを提案する。 具体的には、階層的エンコーディングと連動して、ドメイン不変の振る舞いをカプセル化するための2つの異なる表現と、ドメイン変動を誘導する要因を記述するための2つの異なる表現に、スキル埋め込み空間を分散させる。 我々のDuSkillフレームワークはオフラインで学んだスキルの多様性を高め、異なるドメインの高レベルポリシーの学習手順を高速化する。 実験により、DuSkillは他のスキルベースの模倣学習やRLアルゴリズムよりも長軸タスクの方が優れており、その利点は数発の模倣やオンラインRLで実証されている。

Skill-based reinforcement learning (RL) approaches have shown considerable promise, especially in solving long-horizon tasks via hierarchical structures. These skills, learned task-agnostically from offline datasets, can accelerate the policy learning process for new tasks. Yet, the application of these skills in different domains remains restricted due to their inherent dependency on the datasets, which poses a challenge when attempting to learn a skill-based policy via RL for a target domain different from the datasets' domains. In this paper, we present a novel offline skill learning framework DuSkill which employs a guided Diffusion model to generate versatile skills extended from the limited skills in datasets, thereby enhancing the robustness of policy learning for tasks in different domains. Specifically, we devise a guided diffusion-based skill decoder in conjunction with the hierarchical encoding to disentangle the skill embedding space into two distinct representations, one for encapsulating domain-invariant behaviors and the other for delineating the factors that induce domain variations in the behaviors. Our DuSkill framework enhances the diversity of skills learned offline, thus enabling to accelerate the learning procedure of high-level policies for different domains. Through experiments, we show that DuSkill outperforms other skill-based imitation learning and RL algorithms for several long-horizon tasks, demonstrating its benefits in few-shot imitation and online RL.
翻訳日:2024-03-06 11:26:05 公開日:2024-03-05
# GraphPub: 高可用性を備えた差分プライバシーグラフの生成

GraphPub: Generation of Differential Privacy Graph with High Availability ( http://arxiv.org/abs/2403.00030v2 )

ライセンス: Link先を確認
Wanghan Xu, Bin Shi, Ao Liu, Jiqiang Zhang, Bo Dong(参考訳) 近年,グラフニューラルネットワーク(GNN)の急速な発展に伴い,GNNタスク用のグラフデータセットがますます多く発表されている。 しかし、上流のデータ所有者がグラフデータを公開する場合、多くのプライバシー上の懸念がある。 差分プライバシー(DP)は、プライバシを保護する一般的な方法であるが、グラフデータの複雑なトポロジ構造のため、グラフにDPを適用すると、GNNモデルのメッセージパッシングや集約に影響を与え、モデルの精度が低下する。 本稿では、グラフトポロジを保護しつつ、データの可用性が基本的に変化しないことを保証する新しいグラフエッジ保護フレームワーク、グラフパブリッシャ(GraphPub)を提案する。 リバース・ラーニングとエンコーダ・デコーダ・メカニズムによって、ノードの特徴の集約に大きな悪影響を及ぼさない偽のエッジを探索し、それらを使用して実際のエッジを置き換える。 修正されたグラフは公開され、実際のデータと偽データの区別が難しい。 十分な実験により、我々のフレームワークは、非常に低いプライバシー予算で、元のグラフに近いモデル精度を実現する。

In recent years, with the rapid development of graph neural networks (GNN), more and more graph datasets have been published for GNN tasks. However, when an upstream data owner publishes graph data, there are often many privacy concerns, because many real-world graph data contain sensitive information like person's friend list. Differential privacy (DP) is a common method to protect privacy, but due to the complex topological structure of graph data, applying DP on graphs often affects the message passing and aggregation of GNN models, leading to a decrease in model accuracy. In this paper, we propose a novel graph edge protection framework, graph publisher (GraphPub), which can protect graph topology while ensuring that the availability of data is basically unchanged. Through reverse learning and the encoder-decoder mechanism, we search for some false edges that do not have a large negative impact on the aggregation of node features, and use them to replace some real edges. The modified graph will be published, which is difficult to distinguish between real and false data. Sufficient experiments prove that our framework achieves model accuracy close to the original graph with an extremely low privacy budget.
翻訳日:2024-03-06 11:25:21 公開日:2024-03-05
# 抑制とリバランス:汎用マルチモーダル顔アンチスプーフィングを目指して

Suppress and Rebalance: Towards Generalized Multi-Modal Face Anti-Spoofing ( http://arxiv.org/abs/2402.19298v2 )

ライセンス: Link先を確認
Xun Lin, Shuai Wang, Rizhao Cai, Yizhong Liu, Ying Fu, Zitong Yu, Wenzhong Tang, Alex Kot(参考訳) face anti-spoofing (fas) はプレゼンテーション攻撃に対する顔認識システムを確保するために重要である。 センサ製造とマルチモーダル学習技術の進歩により、多くのマルチモーダルFASアプローチが出現している。 しかし、攻撃や展開条件を認識できないように一般化する上での課題に直面している。 これらの課題は、(1)奥行きや赤外線などのモダリティセンサーが様々な環境において重要な領域シフトを起こし、クロスモダリティ特徴融合中に信頼できない情報が拡散する、(2)モダリティ不均衡、(2)トレーニングが支配的なモダリティに依存する、他のモダリティの収束を阻害するモダリティ不均衡、そして支配的なモダリティを用いて識別不能な攻撃タイプに対する効果を低下させる、といったものである。 モダリティの不確実性に対処するために,不確実性誘導型クロスアダプタ(u-adapter)を提案し,各モダリティ内の不確かに検出された領域を認識し,他のモダリティに対する信頼できない領域の影響を抑制する。 モダリティの不均衡を考慮し,すべてのモダリティの収束速度を適応的に調整し,リバランスモードの勾配変調(ReGrad)戦略を提案する。 さらに、ドメイン一般化シナリオ下でのマルチモーダルFAS性能を評価するための最初の大規模ベンチマークを提供する。 広範な実験により,本手法が最先端手法よりも優れていることが証明された。 ソースコードとプロトコルはhttps://github.com/omggggg/mmdgでリリースされる。

Face Anti-Spoofing (FAS) is crucial for securing face recognition systems against presentation attacks. With advancements in sensor manufacture and multi-modal learning techniques, many multi-modal FAS approaches have emerged. However, they face challenges in generalizing to unseen attacks and deployment conditions. These challenges arise from (1) modality unreliability, where some modality sensors like depth and infrared undergo significant domain shifts in varying environments, leading to the spread of unreliable information during cross-modal feature fusion, and (2) modality imbalance, where training overly relies on a dominant modality hinders the convergence of others, reducing effectiveness against attack types that are indistinguishable sorely using the dominant modality. To address modality unreliability, we propose the Uncertainty-Guided Cross-Adapter (U-Adapter) to recognize unreliably detected regions within each modality and suppress the impact of unreliable regions on other modalities. For modality imbalance, we propose a Rebalanced Modality Gradient Modulation (ReGrad) strategy to rebalance the convergence speed of all modalities by adaptively adjusting their gradients. Besides, we provide the first large-scale benchmark for evaluating multi-modal FAS performance under domain generalization scenarios. Extensive experiments demonstrate that our method outperforms state-of-the-art methods. Source code and protocols will be released on https://github.com/OMGGGGG/mmdg.
翻訳日:2024-03-06 11:24:36 公開日:2024-03-05
# WanJuan-CC: 安全で高品質なWebテキストデータセット

WanJuan-CC: A Safe and High-Quality Open-sourced English Webtext Dataset ( http://arxiv.org/abs/2402.19282v4 )

ライセンス: Link先を確認
Jiantao Qiu, Haijun Lv, Zhenjiang Jin, Rui Wang, Wenchang Ning, Jia Yu, ChaoBin Zhang, Pei Chu, Yuan Qu, Jin Shi, Lindong Lu, Runyu Peng, Zhiyuan Zeng, Huanze Tang, Zhikai Lei, Jiawei Hong, Keyu Chen, Zhaoye Fei, Ruiliang Xu, Wei Li, Zhongying Tu, Hang Yan and Conghui He(参考訳) 本稿では,Common Crawlデータから得られた安全で高品質なウェブテキストデータセットであるWanJuan-CCを提案する。 この研究は、大量の高品質なデータを必要とする言語モデルのための大規模な事前学習データセットを構築する際の課題に対処する。 包括的なプロセスは、抽出、ヒューリスティックルールフィルタリング、ファジィ重複、コンテンツ安全性フィルタリング、データ品質フィルタリングを含むCommon Crawlデータを扱うように設計された。 約68億の英文文書から、安全データの222Tトークンを取得し、WanJuan-CCの一部として高品質データの1.0Tトークンを選定した。 このデータセットから100bトークンをオープンソースにしました。 この論文はデータ品質に関する統計情報も提供しており、ユーザーは必要に応じて適切なデータを選択することができる。 データセットの品質と有用性を評価するため,WanJuan-CCとRefinedWebを用いた1Bパラメータと3Bパラメータモデルをトレーニングした。 その結果、wanjuan-ccは検証データセットとダウンストリームタスクでパフォーマンスが向上した。

This paper presents WanJuan-CC, a safe and high-quality open-sourced English webtext dataset derived from Common Crawl data. The study addresses the challenges of constructing large-scale pre-training datasets for language models, which require vast amounts of high-quality data. A comprehensive process was designed to handle Common Crawl data, including extraction, heuristic rule filtering, fuzzy deduplication, content safety filtering, and data quality filtering. From approximately 68 billion original English documents, we obtained 2.22T Tokens of safe data and selected 1.0T Tokens of high-quality data as part of WanJuan-CC. We have open-sourced 100B Tokens from this dataset. The paper also provides statistical information related to data quality, enabling users to select appropriate data according to their needs. To evaluate the quality and utility of the dataset, we trained 1B-parameter and 3B-parameter models using WanJuan-CC and another dataset, RefinedWeb. Results show that WanJuan-CC performs better on validation datasets and downstream tasks.
翻訳日:2024-03-06 11:24:06 公開日:2024-03-05